JP2004280574A - 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 - Google Patents

翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 Download PDF

Info

Publication number
JP2004280574A
JP2004280574A JP2003072324A JP2003072324A JP2004280574A JP 2004280574 A JP2004280574 A JP 2004280574A JP 2003072324 A JP2003072324 A JP 2003072324A JP 2003072324 A JP2003072324 A JP 2003072324A JP 2004280574 A JP2004280574 A JP 2004280574A
Authority
JP
Japan
Prior art keywords
translation
field
phrase
noun phrase
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003072324A
Other languages
English (en)
Inventor
Harumi Ito
晴美 伊藤
Toshiro Kamiyama
淑朗 神山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2003072324A priority Critical patent/JP2004280574A/ja
Priority to US10/802,169 priority patent/US7475005B2/en
Publication of JP2004280574A publication Critical patent/JP2004280574A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】新たに作り出された語句等の増加によって翻訳精度が低下するのを防ぐことができる翻訳システムを提供する。
【解決手段】ドキュメントを翻訳する翻訳システムは、予め定められた分野別に分類された複数の分野別辞書を管理する辞書管理部と、ドキュメントから、名詞句を抽出するフレーズ抽出部と、複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された名詞句を登録すべき分野を選択する登録先選択部と、名詞句を翻訳して名詞句の訳である名詞句訳を生成する翻訳部と、登録先選択部により選択された分野に対応する分野別辞書に、名詞句及び名詞句訳の組を登録する辞書登録部とを備える。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体に関する。特に本発明は、ドキュメントの翻訳に用いる翻訳辞書を自動的に更新する翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体に関する。
【0002】
【従来の技術】
従来、ドキュメントを翻訳する翻訳システムにおいて翻訳の精度を高めるために利用できる技術として、以下の3つの技術が開示されている。
第1の技術は、操作対象として指定された語を基に辞書の見出し語となる見出し文字列を生成し、辞書に登録する方法を開示する(特許文献1参照。)。
第2の技術は、第1の言語のテキストと、第1の言語のテキストを第2の言語に翻訳した対訳テキストとから各語の対訳データを抽出し、対訳辞書を生成する方法を開示する(特許文献2参照。)。
第3の技術は、ある訳例と、この訳例の一部の語が変化した他の訳例とに基づいて、訳文の一部が変数化された訳例辞書を生成する方法を開示する(特許文献3参照。)。
【0003】
【特許文献1】
特開平6−28391号公報
【0004】
【特許文献2】
特開平9−128396号公報
【0005】
【特許文献3】
特開2002−297588号公報
【0006】
【発明が解決しようとする課題】
近年の技術発展や、ビジネスのグローバル化に伴い、日々多くの語句が作られ、その一部は急速に普及している。この様な状況の下、ドキュメントを翻訳する翻訳システムにおいては、新しい語句に対応する訳をユーザ等が登録しなければ、翻訳対象の語句が翻訳辞書に登録されている可能性が低下する結果、翻訳精度が低下してしまうという問題がある。
【0007】
上記の特許文献1から3に示される技術は、新しい語句に対応する訳を辞書に登録する機能を提供しないため、以上の問題を解決することができなかった。
【0008】
そこで本発明は、上記の課題を解決することのできる翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【0009】
【課題を解決するための手段】
即ち、本発明の第1の形態によると、ドキュメントを翻訳する翻訳システムであって、予め定められた分野別に分類された複数の分野別辞書を管理する辞書管理部と、前記ドキュメントから、名詞句(Noun Phrase)を抽出するフレーズ抽出部と、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部とを備える翻訳システム、当該翻訳システムを構成する辞書更新サーバと端末、翻訳方法、及びこれらのプログラム、記録媒体を提供する。
【0010】
なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションも又発明となりうる。
【0011】
【発明の実施の形態】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、又実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0012】
図1は、本実施形態に係る翻訳システム10の構成を示す。本実施形態に係る翻訳システム10は、翻訳処理中に未知のフレーズ(Phrase、句)を抽出し、抽出したフレーズの訳を翻訳により生成する。そして、フレーズ及びフレーズの訳であるフレーズ訳を組として翻訳辞書に登録することにより自律的に語彙拡充を行なって、未知の語句の増加に伴う翻訳精度の低下を抑えることを目的とする。
【0013】
翻訳システム10は、ドキュメントを翻訳し、翻訳した結果である翻訳ドキュメントを出力する翻訳フロントエンドシステム100と、翻訳フロントエンドシステム100により抽出されたフレーズの訳を生成して翻訳フロントエンドシステム100の翻訳辞書を更新する辞書更新サーバ160とを備える。
【0014】
翻訳フロントエンドシステム100は、利用者又は他のアプリケーションプログラム等により指定されたドキュメントを翻訳する。翻訳フロントエンドシステム100は、翻訳結果を利用する利用者のパーソナルコンピュータ、PDA、又は携帯電話等の端末上で実現されてもよい。これに代えて、翻訳フロントエンドシステム100は、利用者がブラウザ等を用いて通信ネットワークを介してアクセスするサーバ上で実現されてもよく、この場合において辞書更新サーバ160と同一のサーバ上に実現されてもよい。
【0015】
翻訳フロントエンドシステム100は、翻訳辞書記録部110と、ドキュメント翻訳部120と、抽出フレーズ記録部125とを有する。
翻訳辞書記録部110は、翻訳フロントエンドシステム100による翻訳に用いられる翻訳辞書117を格納する。翻訳辞書117は、複数の分野にそれぞれ対応する複数の分野別辞書115a〜bを含む。分野別辞書115bは、予め定められた分野、すなわち例えばスポーツ、家庭、ビジネス、及び科学等の分野別に分類される語句等の訳を登録する。分野別辞書115aは、他の分野別辞書115、すなわち複数の分野別辞書115bに対応する複数の分野のいずれかに分類されない語句等とその訳を登録する。すなわち、分野別辞書115aは、複数の分野別辞書115bに対応する複数の分野のいずれにも属さない分野である基本分野に属する語句等を登録する。分野別辞書115は、翻訳対象のドキュメントの分野に応じて、少なくとも1つが優先的に用いられてよい。また、分野別辞書115a〜bは、翻訳フロントエンドシステム100による翻訳に用いられる文法規則を格納する文法辞書として更に機能してもよい。
【0016】
ドキュメント翻訳部120は、英語等の第1の言語で記述されたドキュメントを、日本語等の第2の言語で記述された翻訳ドキュメントに翻訳する。また、翻訳処理においてドキュメントから未知のフレーズを抽出し、ドキュメントの分野と共に抽出フレーズ記録部125へ出力する。ここで、ドキュメント翻訳部120は、ドキュメントの内容等に基づいて、ドキュメントの分野を選択してもよく、これに代えて、利用者からの指定に基づいてドキュメントの分野を設定してもよい。
【0017】
抽出フレーズ記録部125は、ドキュメント翻訳部120によりドキュメントから抽出されたフレーズを、フレーズの出現分野に対応付けて格納する。ここで、フレーズの出現分野とは、当該フレーズが出現したドキュメントの分野である。そして、抽出フレーズ記録部125は、格納したフレーズ及び出現分野の組を、例えば定期的又は予め定められたタイミングで、辞書更新サーバ160へ送信する。
【0018】
辞書更新サーバ160は、翻訳フロントエンドシステム100の抽出フレーズ記録部125から受信したフレーズの訳を生成して、翻訳フロントエンドシステム100の翻訳辞書を更新する。辞書更新サーバ160は、翻訳結果を利用する利用者の端末上に、翻訳フロントエンドシステム100と共に実現されてもよい。これに代えて、辞書更新サーバ160は、利用者がブラウザ等を用いて通信ネットワークを介してアクセスするサーバ上に、翻訳フロントエンドシステム100と共に実現されてもよく、通信ネットワークを介して翻訳フロントエンドシステム100が実装されたサーバと通信する他のサーバ上に実現されてもよい。
【0019】
辞書更新サーバ160は、フレーズ受信部127と、フレーズ分類部130と、登録フレーズ記録部140と、翻訳辞書記録部170と、フレーズ翻訳部180と、更新辞書185と、辞書登録部190とを有する。
【0020】
フレーズ受信部127は、翻訳対象のドキュメントから抽出されたフレーズを抽出フレーズ記録部125から受信する。フレーズ分類部130は、抽出フレーズ記録部125からフレーズ受信部127を介して受信したフレーズのうち、翻訳辞書117に登録すべきフレーズを選択し、当該フレーズを登録すべき登録分野を選択する。そして、フレーズを分野別辞書115aに登録する場合には、当該フレーズ及び登録分野(基本分野)を登録フレーズ記録部140上の分野別登録フレーズ記録ファイル145aとして格納し、フレーズを分野別辞書115bに登録する場合には、当該フレーズ及び登録分野を登録フレーズ記録部140上の分野別登録フレーズ記録ファイル145bとして格納する。登録フレーズ記録部140は、分野別登録フレーズ記録ファイル145a〜bに格納された、登録すべきフレーズ及び当該フレーズの登録分野を、フレーズ翻訳部180へ供給する。
【0021】
翻訳辞書記録部170は、翻訳辞書記録部110と同一の機能を有し、翻訳フロントエンドシステム100から受信したフレーズの翻訳に用いられる翻訳辞書177を格納する。ここで、翻訳辞書177に含まれる分野別辞書175a〜bは、分野別辞書115a〜bと同期して更新されることにより、同一の内容に保たれてもよい。これに代えて、翻訳フロントエンドシステム100又は辞書更新サーバ160は、分野別辞書175a〜bの一部の内容を、分野別辞書115a〜bに登録してもよい。また、翻訳フロントエンドシステム100及び辞書更新サーバ160が同一の端末又はサーバ上に設けられる場合等において、翻訳辞書記録部170に代えて、翻訳辞書記録部110が直接フレーズ翻訳部180に接続され、フレーズ翻訳部180が翻訳辞書記録部110を直接用いる構成を採ってもよい。
【0022】
フレーズ翻訳部180は、本発明に係る翻訳部の一例であり、翻訳フロントエンドシステム100から受信した各フレーズを翻訳してフレーズ訳を生成し、翻訳辞書117及び翻訳辞書177の更新に用いる更新辞書を生成する。更新辞書185は、フレーズ翻訳部180が生成した更新辞書を格納する。辞書登録部190は、更新辞書185の更新辞書に基づいて、翻訳辞書117及び翻訳辞書177にフレーズ及びフレーズ訳の組を登録する。ここで、辞書登録部190は、当該フレーズの登録分野に対応する分野別辞書115b及び分野別辞書175bに、当該フレーズ及びフレーズ訳の組を登録する。一方、当該フレーズの登録分野が複数の分野別辞書115bのいずれにも分類されない場合、すなわち当該フレーズの登録分野が基本分野である場合には、基本分野の分野別辞書115a及び分野別辞書175aに当該フレーズ及びフレーズ訳の組を登録する。
【0023】
なお、辞書登録部190は、いずれかの分野別辞書115に当該フレーズ及びフレーズ訳の組を登録する場合、翻訳辞書記録部110に対してフレーズ及びフレーズ訳の組の登録を指示する。そして、翻訳辞書記録部110は、辞書登録部190の登録指示に基づき、選択された分野に対応する分野別辞書115に、フレーズ及びフレーズ訳の組を登録する。
【0024】
以上に示した翻訳システム10によれば、翻訳フロントエンドシステム100の翻訳対象となったドキュメントから抽出したフレーズの訳を辞書更新サーバ160が生成し、当該フレーズに対応する分野の分野別辞書115に登録することができる。これにより、翻訳対象となったドキュメントの分野に対応する翻訳辞書の語彙拡充を行なうことができ、未知の語句の増加に伴う翻訳精度の低下を抑えることができる。
【0025】
なお、以上において、翻訳フロントエンドシステム100及び辞書更新サーバ160は、図1と異なる構成部材の組合せにより実現されてもよい。例えば、フレーズ分類部130及び登録フレーズ記録部140は、辞書更新サーバ160に代えて翻訳フロントエンドシステム100の構成部材として実現されてもよい。
【0026】
図2は、本実施形態に係る翻訳辞書記録部110及び翻訳辞書記録部170に格納される翻訳辞書117及び翻訳辞書177の階層構造の一例を示す。階層構造の最上位には、翻訳辞書117及び翻訳辞書177に対応する辞書900が位置する。辞書900は、分野別に分類された分野別辞書910と、分野別辞書910に対応する複数の分野のいずれかに分類されない語句を登録する基本辞書905とに分類される。分野別辞書910は、例えばスポーツや家庭等の複数の主分野915に分類される。そして、各主分野915に対応して、当該主分野915を更に細分化した分野である副分野に対応する副分野別辞書925と、当該主分野915においていずれの副分野にも属さない語句又はフレーズ等を登録する主分野別辞書920とが設けられる。
【0027】
分野別辞書115b及び分野別辞書175bのそれぞれは、副分野別辞書925に対応してよい。この場合において、複数の分野別辞書115b及び複数の分野別辞書175bに対応する複数の分野のいずれかに分類されない語句を登録する分野別辞書115a及び分野別辞書175aは、主分野別辞書920に対応してもよく、これに代えて基本辞書905に対応してもよい。
【0028】
また、分野別辞書115b及び分野別辞書175bのそれぞれは、いずれかの主分野915に対応する複数の副分野別辞書925及び主分野別辞書920を含んでもよい。この場合において、分野別辞書115a及び分野別辞書175aは、基本辞書905に対応してもよい。
【0029】
図3は、本実施形態に係るドキュメント翻訳部120の構成を示す。ドキュメント翻訳部120は、辞書管理部200と、形態素解析部210と、フレーズ抽出部220と、構文解析部230と、ドキュメント訳生成部240と、ドキュメント分野選択部250とを含む。
【0030】
辞書管理部200は、翻訳辞書記録部110に記録された複数の分野別辞書115を管理する。形態素解析部210は、ドキュメントに含まれる各文について、形態素解析を行なう。フレーズ抽出部220は、形態素解析の結果に基づいて、フレーズをドキュメントから抽出する。構文解析部230は、形態素解析の結果に基づいて、ドキュメントに含まれる各文の構文解析を行う。ドキュメント訳生成部240は、形態素解析結果、及び構文解析結果に基づいて、辞書管理部200を介して複数の分野別辞書115を参照し、ドキュメントを翻訳した翻訳ドキュメントを生成する。ドキュメント分野選択部250は、ドキュメント訳生成部240がドキュメントを翻訳したときに複数の分野別辞書115のそれぞれを用いた頻度に基づいて、ドキュメントの分野を選択する。
【0031】
図4は、本実施形態に係るドキュメント翻訳部120の処理フローを示す。
まず、形態素解析部210は、ドキュメントに含まれる各文について、当該文章を構成する、意味を持つ最小単位である形態素(morpheme)を解析し、単語を認識する(S300)。この処理において、形態素解析部210は、分野別辞書115a〜bに格納された文法規則を参照し、文法規則に基づく形態素解析を行なう。
【0032】
次に、フレーズ抽出部220は、形態素解析の結果に基づいて、未知のフレーズをドキュメントから抽出する(S320)。本実施形態においてフレーズ抽出部220は、翻訳辞書117に未登録の名詞句(Noun Phrase)をドキュメントから抽出する。これに代えて、フレーズ抽出部220は、動詞句等を含む各種のフレーズを抽出してもよい。なお、S320において、フレーズ抽出部220は、形態素解析の結果に基づいて認識されるフレーズの訳が複数の分野別辞書115に登録されていない場合に、当該フレーズが未知であると判断する。
【0033】
次に、構文解析部230は、形態素解析の結果に基づいて、ドキュメントに含まれる各文の構文を解析する(S330)。次に、ドキュメント訳生成部240は、形態素解析の結果、及び構文解析の結果に基づき認識されるドキュメント内の単語及びフレーズ等の複合語のそれぞれについて、辞書管理部200を介して複数の分野別辞書115を参照して、単語の訳やフレーズ訳等の訳語を生成する翻訳処理を行う(S340)。
【0034】
次に、ドキュメント分野選択部250は、ドキュメント訳生成部240がドキュメントを翻訳したときに複数の分野別辞書115のそれぞれを用いた頻度に基づいて、ドキュメントの分野を選択する(S350)。すなわち例えば、ドキュメント分野選択部250は、複数の分野別辞書115のそれぞれを用いた回数を、複数の分野別辞書115のいずれかを用いた回数で割った値を、当該分野の単語又はフレーズ等がドキュメントに含まれる頻度として算出する。そして、ドキュメント分野選択部250は、ある分野の単語又はフレーズ等が、他の分野の単語又はフレーズ等と比較しドキュメント中に頻出する場合に、この分野を当該ドキュメントの分野として選択する。この処理の一例として、ドキュメント分野選択部250は、上記の頻度が予め定められたしきい値以上となる分野が存在する場合に、この分野を当該ドキュメントとして選択してもよい。
【0035】
次に、ドキュメント分野選択部250は、当該ドキュメントの分野を、ドキュメントから抽出された複数のフレーズの出現分野とし、ドキュメントから抽出されたフレーズ及び当該フレーズの出現分野の組を、抽出フレーズ記録部125へ登録する(S355)。ここで、ドキュメント分野選択部250は、翻訳対象の1又は複数のドキュメントにおいてそれぞれのフレーズが出現した回数を、当該フレーズが出現した頻度として、当該フレーズに対応付けて抽出フレーズ記録部125へ登録する。そして、ドキュメント訳生成部240は、ドキュメントの分野に対応する分野別辞書115を優先して、ドキュメントを翻訳する(S360)。
【0036】
翻訳対象のドキュメントが複数存在する場合、すなわち例えば利用者が複数のドキュメントを順次翻訳させる場合等において、ドキュメント翻訳部120は、S300からS360に示した処理を複数のドキュメントのそれぞれについて実行する(S370)。この結果、複数のドキュメントのそれぞれの翻訳において、形態素解析部210は、複数のドキュメントのそれぞれについて形態素解析を行い、フレーズ抽出部220は、複数のドキュメントのそれぞれからフレーズを1以上抽出し、構文解析部230は、複数のドキュメントのそれぞれについて構文解析を行う。そして、ドキュメント訳生成部240は、複数のドキュメント内の単語及び複合語のそれぞれについて訳語を生成し、ドキュメント分野選択部250は、複数の分野別辞書115のそれぞれを用いた頻度に基づいて、複数のドキュメントのそれぞれの分野を選択する。
【0037】
以上に示したドキュメント翻訳部120によれば、辞書更新サーバ160が新たなフレーズ及びフレーズ訳を複数の分野別辞書115に順次登録することにより、構文解析部230は、当該フレーズを構成する各語の構文を解析することなく当該フレーズを句として認識することができる。この結果、ドキュメント翻訳部120における構文解析の精度を高めると共に、構文解析の速度を上げることができる。
【0038】
図5は、本実施形態に係るフレーズ分類部130の構成を示す。フレーズ分類部130は、登録フレーズ選択部400と、登録先選択部410とを有する。
【0039】
登録フレーズ選択部400は、翻訳対象の1又は複数のドキュメント中に各フレーズが出現した頻度に基づき、各フレーズを翻訳辞書に登録すべきか否かを選択する。登録先選択部410は、フレーズ抽出部220により抽出され、登録フレーズ選択部400により登録すべきことが選択されたフレーズのそれぞれについて、複数の分野別辞書115にそれぞれ対応する複数の分野のうち、当該フレーズを登録すべき分野を選択する。登録先選択部410は、分野別出現頻度算出部420と、登録先分野選択部430とを含む。
【0040】
分野別出現頻度算出部420は、翻訳対象の1又は複数のドキュメントのそれぞれについて、各フレーズが出現した頻度及び当該ドキュメントの分野に基づいて、複数の分野に対する当該フレーズの出現頻度を算出する。登録先分野選択部430は、各フレーズについて、複数の分野に対する当該フレーズの出現頻度に基づいて、当該フレーズを複数の分野別辞書115のいずれに登録するかを選択する。
【0041】
図6は、本実施形態に係るフレーズ分類部130の処理フローを示す。
まず、登録フレーズ選択部400は、抽出フレーズ記録部125から受信した1以上のフレーズを、分野毎の出現頻度順に並べ替える(S500)。次に、登録フレーズ選択部400は、各フレーズについて、翻訳対象の1又は複数のドキュメントにおいて当該フレーズが出現した頻度が予め定められた下限値未満の場合に、当該フレーズ及び当該フレーズのフレーズ訳の組を、複数の分野別辞書115のいずれにも登録させないことを選択する(S505)。より具体的には、登録フレーズ選択部400は、抽出フレーズ記録部125から受信した1以上のフレーズのうち、いずれの分野別辞書115にも登録させないことを選択したフレーズに関する情報を除いた情報を登録先選択部410に供給する。
【0042】
次に、分野別出現頻度算出部420は、翻訳対象の1又は複数のドキュメントのそれぞれについてフレーズが出現した頻度及び当該ドキュメントの分野に基づいて、複数の分野のそれぞれに対する当該フレーズの出現頻度を算出する(S515)。
【0043】
次に、登録先分野選択部430は、複数の分野のそれぞれに対する当該フレーズの出現頻度に基づいて、当該フレーズ及び当該フレーズのフレーズ訳の組を分野別辞書115a及び複数の分野別辞書115bのいずれに登録するかを選択する。より具体的には、当該フレーズがある特定の分野に頻出する場合(S520)、フレーズを登録すべき分野としてこの特定分野を選択し、当該フレーズをこの特定分野に対応付けて、分野別登録フレーズ記録ファイル145bに格納する(S530)。当該フレーズがいずれかの分野に偏って頻出しない場合(S520)、フレーズおよびフレーズの訳の組を基本辞書である分野別辞書115aに登録することを選択し、当該フレーズを基本分野に対応付けて、分野別登録フレーズ記録ファイル145aに格納する(S535)。フレーズ分類部130は、以上のS505からS535に示した処理を、抽出フレーズ記録部125から受信した全てのフレーズに対して行う(S540)。
【0044】
以上に示した処理により、フレーズ分類部130は、1又は複数のドキュメントのそれぞれについて、当該ドキュメント中にフレーズが出現した頻度と、ドキュメント分野選択部250により選択された当該ドキュメントの分野とに基づいて、1又は複数のドキュメントから抽出されたフレーズを登録すべき分野を選択する。
【0045】
例えば、分野C1のドキュメントD1と、分野C2のドキュメントD2及びD3について、フレーズAがそれぞれd1、d2、及びd3の出現頻度で出現した場合、フレーズ分類部130は、次に例示する方法でフレーズを登録すべき分野を選択してよい。登録フレーズ選択部400は、フレーズAの出現頻度(d1+d2+d3)がフレーズAを登録する条件を満たさない場合、当該フレーズをいずれの分野別辞書115にも登録させないことを選択する。フレーズAを分野別辞書115に登録する場合において、分野別出現頻度算出部420は、フレーズAの分野C1における出現頻度d1、及び分野C2における出現頻度(d2+d3)を算出する。登録先分野選択部430は、出現頻度d1と出現頻度(d2+d3)に基づいて、フレーズAがいずれの分野に偏って頻出するかを判断し、フレーズAをいずれの分野別辞書115に登録するかを選択する。
【0046】
以上に示したフレーズ分類部130によれば、あるフレーズが1又は複数のドキュメント中に下限値以上の頻度で出現した場合に、当該フレーズを翻訳辞書117に登録することを選択する。これにより、翻訳システム10は、出現頻度が低く、分野の分類を十分正確に行なえないフレーズを翻訳辞書117に登録しないため、翻訳の精度が低下するのを防ぐことができる。また、フレーズ分類部130によれば、ある特定分野で頻出するフレーズを、この特定分野に対応する分野別辞書115bに登録することを選択する一方、いずれかの分野に偏って出現しないフレーズを、いずれの分野にも分類されない分野別辞書115aに登録することを選択する。これにより、翻訳システム10は、フレーズが出現する分野に応じて当該フレーズを適切な分野別辞書115に登録することができ、翻訳辞書117の語彙拡充を適切に行なう結果翻訳の精度を向上することができる。
【0047】
次に、より具体的なフレーズ分類部130の処理の一例を示す。
まず、登録フレーズ選択部400は、抽出フレーズ記録部125から受信したフレーズ及びフレーズの出現分野に基づき、フレーズtが出現分野dに出現した頻度(回数)を示す、以下の行列を生成する(式(1))。
【0048】
【数1】
Figure 2004280574
【0049】
ここで、各フレーズtを、それぞれの出現分野に出現した頻度を要素とするベクトルtとすると、フレーズtが出現分野dに出現した度合は、一例として以下の式(2)に示す、フレーズtの出現分野dに対する類似度により表すことができる。
【0050】
【数2】
Figure 2004280574
【0051】
分野別出現頻度算出部420は、フレーズtの出現分野dに対する出現頻度として、例えば以下の式(3)のtf(i,j)に示す様に、最大の出現頻度を用いて正規化した出現頻度を算出する。
【0052】
【数3】
Figure 2004280574
【0053】
なお、式(3)において、Kは、出現頻度が当該フレーズの登録有無の判断に与える影響を定める定数である。
【0054】
登録先分野選択部430は、フレーズtが出現分野dに出現した度合、及び/又は、フレーズtの出現分野dに対する出現頻度に基づいて、フレーズtを出現分野dに登録するか否かを選択する。ここで、登録先分野選択部430は、フレーズtが出現分野dに出現した度合、及び、フレーズtの出現分野dに対する出現頻度に基づいて、フレーズtを出現分野dに登録するか否かを選択する場合、式(2)の類似度と、式(3)の出現頻度の積に基づいて、フレーズtを出現分野dに登録するか否かを定めてよい。
【0055】
フレーズ分類部130は、まず、複数の副分野について上記の処理を行うことにより、特定の副分野に偏って出現し、かつ、出現頻度の高いフレーズから順に、翻訳辞書117及び翻訳辞書177に登録することができる。そして、この処理によっていずれかの副分野に登録されるフレーズを除き、複数の主分野について再度上記の処理を行うことにより、特定の副分野に偏らず、特定の主分野に偏って出現し、かつ、出現頻度の高いフレーズから順に翻訳辞書117及び翻訳辞書177に登録することができる。
【0056】
なお、他の実施形態として、登録先分野選択部430は、上記のS520、S530、及びS535において、ある特定の分野におけるフレーズの出現頻度が予め定められた値以上である場合に、フレーズを登録すべき分野としてこの特定分野を選択し、ある特定分野におけるフレーズの出現頻度が予め定められた値未満である場合に、フレーズおよびフレーズの訳の組を基本辞書である分野別辞書115aに登録することを選択してもよい。
【0057】
図7は、本実施形態に係るフレーズ翻訳部180の構成を示す。フレーズ翻訳部180は、優先度設定部605と、訳語生成部600と、ページ検索部610と、形態素解析部613と、構文解析部616と、フレーズ訳生成部620とを含む。
【0058】
優先度設定部605は、分野別登録フレーズ記録ファイル145a〜bに格納された各フレーズのそれぞれについて、当該フレーズの翻訳において優先して使用する分野別辞書175を選択する。訳語生成部600は、分野別登録フレーズ記録ファイル145a〜bに格納された各フレーズのそれぞれについて、当該フレーズを翻訳して、フレーズ訳の候補となるフレーズ訳候補を生成する。ページ検索部610は、各フレーズのそれぞれに対応するフレーズ訳候補を含むネットワーク上のページを検索する。形態素解析部613は、形態素解析部210と同様の構成及び機能を有し、対象のフレーズの形態素解析を行なう。構文解析部616は、構文解析部230と同様の構成及び機能を有し、対象のフレーズの構文解析を行なう。フレーズ訳生成部620は、形態素解析及び構文解析の結果又はページ検索部610によるページの検索結果に基づいて、当該フレーズのフレーズ訳を生成する。
【0059】
図8は、本実施形態に係るフレーズ翻訳部180の処理フローを示す。まず、優先度設定部605は、登録フレーズ記録部140内の分野別登録フレーズ記録ファイル145a〜bに格納された、翻訳辞書117に登録すべきフレーズを順次取得する。取得したフレーズがいずれかの分野別登録フレーズ記録ファイル145bに格納されたフレーズである場合(S700)、登録先分野選択部430により選択され、当該フレーズに対応付けて分野別登録フレーズ記録ファイル145に格納された、当該フレーズを登録すべき登録分野に対応する分野別辞書175bの優先度を、他の分野別辞書の優先度と比較し高める(S710)。これにより、優先度設定部605は、当該分野別辞書175bを優先して使用することを決定する(S710)。一方、取得したフレーズが分野別登録フレーズ記録ファイル145aに格納されたフレーズである場合(S700)、全ての分野別辞書175bを同一の優先度で使用することを決定する。
【0060】
次に、形態素解析部613、構文解析部616及びフレーズ訳生成部620は、対象のフレーズを翻訳してフレーズの訳であるフレーズ訳を生成する(S720)。すなわち、形態素解析部613は、分野別辞書175a〜bを参照して、対象のフレーズの形態素解析を行なう。次に、構文解析部616は、形態素解析の結果に基づいて、対象のフレーズの構文解析を行なう。フレーズ訳生成部620は、形態素解析及び構文解析の結果に基づき認識されるドキュメント内の単語等のそれぞれについて、分野別辞書175a〜bを参照して、対象のフレーズを翻訳し、フレーズ訳を生成する。ここで、S710において一の分野別辞書175bを優先して使用することを決定した場合、フレーズ訳生成部620は、当該分野別辞書175bを優先して当該フレーズを翻訳し、フレーズ訳を生成する。
【0061】
次に、フレーズ訳生成部620は、対象のフレーズと、当該フレーズのフレーズ訳とに基づき、翻訳辞書117の更新に用いる更新辞書を生成する(S730)。ここで、フレーズ訳生成部620が生成する更新辞書は、当該フレーズに対応付けて、当該フレーズのフレーズ訳及び当該フレーズを登録すべき登録分野又は当該フレーズを登録すべき分野別辞書115を識別する識別情報を保持する。
【0062】
フレーズ翻訳部180は、分野別登録フレーズ記録ファイル145a〜bに格納された、翻訳辞書117に登録すべき各フレーズについて、S700からS730の処理を行う(S740)。
【0063】
以上に示したフレーズ翻訳部180によれば、訳語生成部600及びフレーズ訳生成部620は、登録すべきフレーズのフレーズ訳を生成するときに、当該フレーズの登録分野に対応する分野別辞書175を優先して用いる。これにより、当該フレーズを登録すべき分野で用いられる語句の訳を優先して使用したフレーズ訳を生成することができ、フレーズの翻訳精度を高めることができる。
【0064】
図9は、本実施形態に係るフレーズ翻訳部180の、ネットワークを介したフレーズ訳生成処理フローを示す。フレーズ翻訳部180は、インターネット等のネットワーク上のページを利用してフレーズ訳を生成する場合、図8のS720において図9に示した処理を行う。
【0065】
まず、訳語生成部600は、対象のフレーズを翻訳して、フレーズ訳の候補となるフレーズ訳候補を1以上生成する(S800)。次に、ページ検索部610は、フレーズ訳候補のそれぞれについて、当該フレーズ訳候補を含むネットワーク上のページを検索する(S810)。そして、フレーズ訳生成部620は、それぞれのフレーズ訳候補を含むページがヒットしたか否かに基づいて、当該フレーズ訳候補をフレーズ訳とするか否かを選択する(S820)。
【0066】
例えば、対象のフレーズが「enterprise software」の場合、訳語生成部600は、フレーズ訳候補として、「計画ソフトウェア」、「事業ソフトウェア」、及び「企業ソフトウェア」を生成する。次に、ページ検索部610は、フレーズ訳候補である「計画ソフトウェア」を含むページ、「事業ソフトウェア」を含むページ、及び「企業ソフトウェア」を含むページを検索する。そして、フレーズ訳生成部620は、「計画ソフトウェア」を含むページ及び「事業ソフトウェア」を含むページがヒットせず、「企業ソフトウェア」を含むページがヒットした場合に、「企業ソフトウェア」をフレーズ訳とする。
【0067】
ここで、フレーズ訳生成部620は、複数のフレーズ訳候補について、各フレーズ訳候補を含むページがヒットした場合、最も多くのページがヒットしたフレーズ訳候補をフレーズ訳として選択してよい。これに代えて、フレーズ訳生成部620は、ネットワーク上のページにヒットした回数が最も多かったフレーズ訳候補を、フレーズ訳として選択してよい。
【0068】
また、フレーズ翻訳部180は、上記の処理を以下の方法により行ってもよい。
まず、訳語生成部600は、分野別辞書175a〜bを参照して、対象のフレーズに含まれるそれぞれの語を翻訳し、それぞれの語に対応する訳語を1以上生成する(S800)。次に、ページ検索部610は、対象のフレーズに含まれる全ての語について、当該語に対応する訳語を少なくとも1つずつを含むネットワーク上のページを検索する(S810)。 次に、フレーズ訳生成部620は、検索したページにおいて、フレーズに含まれる全ての語について、当該語に対応する訳語の少なくとも1つずつを含む箇所の語句に基づいて、フレーズ訳を生成する(S820)。
【0069】
例えば、対象のフレーズが「enterprise software」の場合、訳語生成部600は、フレーズに含まれる「enterprise」及び「software」の語を翻訳し、「enterprise」に対応する訳語{計画、事業、企業}と、「software」に対応する訳語{ソフトウェア}とを生成する。次に、ページ検索部610は、対象フレーズに含まれるそれぞれの語について、当該語に対応する訳語を1つずつ含むネットワーク上のページ、すなわち「計画」と「ソフトウェア」とを含むページA、「事業」と「ソフトウェア」とを含むページB、「企業」と「ソフトウェア」とを含むページCをそれぞれ検索する。そして、フレーズ訳生成部620は、ページAからCにおいて、フレーズに含まれる全ての語の訳語を少なくとも1つずつ含む箇所の語句に基づき、フレーズ訳を生成する。例えばこの場合において、ページA及びページBの中で、「計画ソフトウェア」及び「事業ソフトウェア」と記載された箇所が無く、ページCの中で「企業ソフトウェア」と記載された箇所がある場合、ページCにおいて全ての語の訳語を少なくとも1つずつ含む箇所「企業ソフトウェア」を、「enterprise software」のフレーズ訳とする。
【0070】
以上において、フレーズ訳生成部620は、検索した結果ヒットしたページの数に基づいて、フレーズ訳を生成してもよい。すなわち例えば、上記の例において、「計画」と「ソフトウェア」とを含むページのヒット数、「事業」と「ソフトウェア」とを含むページのヒット数、及び「企業」と「ソフトウェア」を含むページのヒット数のうち、最もヒット数が多いページに対応する語を選択し、フレーズ訳を生成してもよい。
【0071】
図10は、本実施形態に係るドキュメント翻訳部120及びフレーズ翻訳部180において、登録対象のフレーズが名詞句「Visitor reviews」であった場合における翻訳結果の一例を示す。
【0072】
図10(a)は、ドキュメント翻訳部120がドキュメントにおける名詞句以外の部分を翻訳する場合において、文を優先して翻訳した場合における翻訳結果を示す。
【0073】
まず、形態素解析部210は、対象の名詞句の形態素解析を行い、それぞれの語の品詞等を解析する。次に、構文解析部230は、分野別辞書175a〜bに登録された文法に基づいて、構文解析を行なう。
【0074】
構文解析において、構文解析部230は、各英単語に対応付けて、当該英単語の品詞毎に、当該品詞として使用される頻度の低さを示すコストを割り当てる。例えば、英単語「Visitor」が名詞として用いられるコストは、()内に図示した通り5である。
【0075】
次に、構文解析部230は、分野別辞書175a〜bに登録された文法に記述された組合せを用いて句を生成し、当該句のコストを割り当てる。本例において、名詞句+名詞句として用いられる場合のコストは80であり、名詞単体で名詞句として用いられる場合のコストは18であり、動詞単体で動詞句として用いられるコストは15である。
【0076】
次に、構文解析部230は、句を組み合わせて完成文を生成し、完成文のコストを割り当てる。本例において、名詞句+動詞句で文を構成するコストは18であり、名詞句単体の完成文990a、及び名詞句+動詞句による完成文990bのコストは共に200である。
【0077】
次に、構文解析部230は、以上により解析されたそれぞれの完成文990a〜bについて、コストの合計値を算出する。例えば、完成文990aのコストの合計値は、「名詞(5)+名詞(5)+名詞句(80)+完成文(200)=290」である。一方、完成文990bのコストの合計値は261である。
【0078】
以上の構文解析の結果、構文解析部230は、コスト合計値が最も小さい文法、すなわち「Visitor reviews」を完成文990bに翻訳する文法を、「Visitor reviews」の構文解析結果として出力する。この結果、ドキュメント訳生成部240は、翻訳結果「訪問者はレビューする」を出力する。
【0079】
図10(b)は、フレーズ翻訳部180が名詞句を優先して翻訳する場合における翻訳結果を示す。フレーズ翻訳部180は、名詞句訳を生成する場合において、ドキュメント翻訳部120がドキュメントにおける名詞句以外の部分を翻訳する場合と比較し、名詞句として翻訳する文法規則を使用する優先度をより高く設定する。すなわち、図10(b)に示した様に、図10(a)における名詞句のみからなる完成文のコストを、完成文990bにおける完成文のコストより所定の値、例えば150減じる。これにより、構文解析部616は、「Visitor reviews」を完成文990aに翻訳する文法を、「Visitorreviews」の構文解析結果として出力する。この結果、フレーズ訳生成部620は、翻訳結果「訪問者レビュー」を出力する。
【0080】
以上に示した様に、フレーズ翻訳部180は、名詞句訳を生成する場合において、名詞句以外の部分を翻訳する場合と比較し、名詞句として優先して翻訳する文法規則を優先する。より具体的には、フレーズ翻訳部180は、登録すべき名詞句を翻訳する場合において、名詞句として優先して翻訳する文法規則を、名詞と動詞の組からなる文に翻訳する文法規則に対して相対的に優先度を高める。
【0081】
フレーズ翻訳部180は、名詞句として優先的に翻訳する方法として、フレーズ翻訳部180が名詞句を翻訳する場合に用いる名詞句用の文法規則を分野別辞書175a〜bの少なくとも1つに登録しておいてもよい。
【0082】
以上に示したフレーズ翻訳部180によれば、対象のドキュメントから抽出された名詞句の名詞句訳を生成する場合において、ドキュメントにおける名詞句以外の部分を翻訳する場合と比較し、名詞句として翻訳する文法規則を使用する優先度をより高く設定する。これにより、フレーズ翻訳部180は、抽出した名詞句に適した翻訳を行なうことができ、翻訳の精度を高めることができる。
【0083】
図11は、本実施形態に係るコンピュータ1000のハードウェア構成の一例を示す。本実施形態に係る翻訳フロントエンドシステム100及び/又は辞書更新サーバ160は、ホスト・コントローラ1182により相互に接続されるCPU1100、RAM1120、グラフィック・コントローラ1175、及び表示装置1180を有するCPU周辺部と、入出力コントローラ1184によりホスト・コントローラ1182に接続される通信インターフェイス1130、ハードディスク・ドライブ1140、及びCD−ROMドライブ1160を有する入出力部と、入出力コントローラ1184に接続されるROM1110、フレキシブルディスク・ドライブ1150、及び入出力チップ1170を有するレガシー入出力部とを備えるコンピュータ1000により実現される。
【0084】
ホスト・コントローラ1182は、RAM1120と、高い転送レートでRAM1120をアクセスするCPU1100及びグラフィック・コントローラ1175とを接続する。CPU1100は、ROM1110及びRAM1120に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ1175は、CPU1100等がRAM1120内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置1180上に表示させる。これに代えて、グラフィック・コントローラ1175は、CPU1100等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
【0085】
入出力コントローラ1184は、ホスト・コントローラ1182と、比較的高速な入出力装置である通信インターフェイス1130、ハードディスク・ドライブ1140、CD−ROMドライブ1160を接続する。通信インターフェイス1130は、ネットワークを介して他の装置と通信する。ハードディスク・ドライブ1140は、コンピュータ1000が使用するプログラム及びデータを格納する。CD−ROMドライブ1160は、CD−ROM1195からプログラム又はデータを読み取り、RAM1120及び/又はハードディスク・ドライブ1140に提供する。
【0086】
また、入出力コントローラ1184には、ROM1110と、フレキシブルディスク・ドライブ1150や入出力チップ1170等の比較的低速な入出力装置とが接続される。ROM1110は、コンピュータ1000が起動時に実行するブート・プログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ1150は、フレキシブルディスク1190からプログラム又はデータを読み取り、入出力コントローラ1184を介してCPU1100及び/又はハードディスク・ドライブ1140に提供する。入出力チップ1170は、フレキシブルディスク1190や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
【0087】
RAM1120を介してCPU1100に提供されるプログラムは、フレキシブルディスク1190、CD−ROM1195、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、入出力コントローラ1184及びRAM1120を介してコンピュータ1000にインストールされ、CPU1100において実行される。
【0088】
コンピュータ1000にインストールされて実行され、コンピュータ1000を翻訳フロントエンドシステム100として機能させるプログラムは、辞書管理モジュールと、形態素解析モジュールと、フレーズ抽出モジュールと、構文解析モジュールと、ドキュメント訳生成モジュールと、ドキュメント分野選択モジュールとを含むドキュメント翻訳モジュールを備える。これらのプログラム又はモジュールは、コンピュータ1000を、辞書管理部200と、形態素解析部210と、フレーズ抽出部220と、構文解析部230と、ドキュメント訳生成部240と、ドキュメント分野選択部250とを含むドキュメント翻訳部120としてそれぞれ機能させる。また、翻訳辞書記録部110及び抽出フレーズ記録部125は、ハードディスク・ドライブ1140又はネットワークに接続されたサーバ上の記録媒体として実現されてもよい。
【0089】
コンピュータ1000にインストールされて実行され、コンピュータ1000を辞書更新サーバ160として機能させるプログラムは、登録フレーズ選択モジュールと、分野別出現頻度算出モジュール及び登録先分野選択モジュールとを含む登録先選択モジュール、訳語生成モジュールと、ページ検索モジュールと、形態素解析モジュールと、構文解析モジュールと、フレーズ訳生成モジュールとを含むフレーズ翻訳モジュール、及び、辞書登録モジュールを備える。これらのプログラム又はモジュールは、コンピュータ1000を、登録フレーズ選択部400と、分野別出現頻度算出部420及び登録先分野選択部430とを含む登録先選択部410、訳語生成部600と、ページ検索部610と、形態素解析部613と、構文解析部616と、フレーズ訳生成部620とを含むフレーズ翻訳部180、及び、辞書登録部190としてそれぞれ機能させる。また、登録フレーズ記録部140、翻訳辞書記録部170及び更新辞書185は、ハードディスク・ドライブ1140又はネットワークに接続されたサーバ上の記録媒体として実現されてもよい。
【0090】
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1190、CD−ROM1195の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1000に提供してもよい。
【0091】
以上、本発明を実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更または改良を加えることができる。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0092】
以上に説明した実施形態によれば、以下の各項目に示す翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体が実現される。
【0093】
(項目1) ドキュメントを翻訳する翻訳システムであって、予め定められた分野別に分類された複数の分野別辞書を管理する辞書管理部と、前記ドキュメントから、名詞句(Noun Phrase)を抽出するフレーズ抽出部と、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部とを備える翻訳システム。
(項目2) 前記ドキュメントを翻訳したときに前記複数の分野別辞書のそれぞれを用いた頻度に基づいて、前記ドキュメントの分野を選択するドキュメント分野選択部を更に備え、前記登録先選択部は、前記ドキュメント分野選択部により選択された分野に基づいて、抽出された前記名詞句を登録すべき分野を選択する項目1記載の翻訳システム。
【0094】
(項目3) 前記ドキュメント分野選択部は、複数の前記ドキュメントのそれぞれの翻訳において、前記複数の分野別辞書のそれぞれを用いた頻度に基づいて、前記複数のドキュメントのそれぞれの分野を選択し、前記フレーズ抽出部は、前記複数のドキュメントから、前記名詞句を抽出し、前記登録先選択部は、前記複数のドキュメントのそれぞれについて、前記名詞句が出現した頻度及び当該ドキュメントの分野に基づいて、前記名詞句を登録すべき分野を選択する項目2記載の翻訳システム。
(項目4) 前記複数のドキュメントにおいて前記名詞句が出現した頻度が予め定められた下限値未満の場合に、前記名詞句及び前記名詞句訳の組を、前記複数の分野別辞書のいずれにも登録させないことを選択する登録フレーズ選択部を更に備える項目3記載の翻訳システム。
【0095】
(項目5) 一の前記分野別辞書は、他の複数の前記分野別辞書に対応する複数の分野のいずれかに分類されない語句を登録する基本辞書であり、前記登録先選択部は、前記複数のドキュメントのそれぞれについて前記名詞句が出現した頻度及び当該ドキュメントの分野に基づいて、前記複数の分野のそれぞれに対する前記名詞句の出現頻度を算出する分野別出現頻度算出部と、前記複数の分野のそれぞれに対する前記出現頻度に基づいて、前記名詞句及び前記名詞句訳の組を、前記複数の分野別辞書及び前記基本辞書のいずれに登録するかを選択する登録先分野選択部とを有し、前記辞書登録部は、前記登録先分野選択部により前記名詞句を前記基本辞書に登録することを選択された場合に、前記名詞句及び前記名詞句訳の組を前記基本辞書に登録する項目2記載の翻訳システム。
【0096】
(項目6) 前記登録先選択部は、前記複数のドキュメントに対応する複数の分野のそれぞれに対して前記名詞句が出現した度合に基づいて、前記名詞句を登録すべき分野を選択する項目2記載の翻訳システム。
(項目7) 前記翻訳部は、前記登録先選択部により選択された、前記名詞句を登録すべき分野に対応する前記分野別辞書を優先して前記名詞句を翻訳し、前記名詞句訳を生成する項目1記載の翻訳システム。
(項目8) 前記翻訳部は、前記名詞句訳を生成する場合において、前記ドキュメントにおける名詞句以外の部分を翻訳する場合と比較し、名詞句として翻訳する文法規則を使用する優先度をより高く設定する項目1記載の翻訳システム。
【0097】
(項目9) 前記翻訳部は、前記名詞句を翻訳して、前記名詞句訳の候補となる名詞句訳候補を生成する訳語生成部と、前記名詞句訳候補を含むネットワーク上のページを検索するページ検索部と、前記名詞句訳候補を含むページがヒットしたか否かに基づいて、前記名詞句訳候補を前記名詞句訳とするか否かを選択する名詞句訳生成部とを有する項目1記載の翻訳システム。
【0098】
(項目10) 予め定められた分野別に分類された複数の分野別辞書を管理する端末においてドキュメントの翻訳に用いる辞書を更新する辞書更新サーバであって、前記ドキュメントから抽出された名詞句を前記端末から受信する名詞句受信部と、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、前記端末から受信した前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、前記前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部とを備える辞書更新サーバ。
【0099】
(項目11) ドキュメントを翻訳し、翻訳に用いる辞書を外部の辞書更新サーバの指示に基づき更新する端末を有する翻訳システムであって、前記端末は、予め定められた分野別に分類された複数の分野別辞書を格納する翻訳辞書記録部と、前記ドキュメントから名詞句を抽出するフレーズ抽出部と、前記複数の分野別辞書を用いて前記ドキュメントを翻訳するドキュメント翻訳部とを備え、前記辞書更新サーバは、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句および前記名詞句訳の組の登録を指示する辞書登録部とを備え、前記翻訳辞書記録部は、前記辞書登録部の登録指示に基づき、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する翻訳システム。
【0100】
(項目12) ドキュメントを翻訳する翻訳システム用のプログラムであって、前記翻訳システムを、予め定められた分野別に分類された複数の分野別辞書を管理する辞書管理部と、前記ドキュメントから、名詞句(Noun Phrase)を抽出するフレーズ抽出部と、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部として機能させるプログラム。
【0101】
(項目13) 予め定められた分野別に分類された複数の分野別辞書を管理する端末においてドキュメントの翻訳に用いる辞書を更新する辞書更新サーバ用のプログラムであって当該プログラムは、当該辞書更新サーバを、前記ドキュメントから抽出された名詞句を前記端末から受信する名詞句受信部と、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、前記端末から受信した前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部として機能させるプログラム。
【0102】
(項目14) 項目12から項目13のいずれかに記載のプログラムを記録した記録媒体。
(項目15) コンピュータによりドキュメントを翻訳する翻訳システムにおける翻訳方法であって、予め定められた分野別に分類された複数の分野別辞書を、コンピュータにより管理させる辞書管理段階と、前記ドキュメントから、名詞句(Noun Phrase)を、コンピュータにより抽出させるフレーズ抽出段階と、前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を、コンピュータにより選択させる登録先選択段階と、前記名詞句を翻訳して前記名詞句の訳である名詞句訳を、コンピュータにより生成させる翻訳段階と、前記登録先選択段階により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を、コンピュータにより登録させる辞書登録段階とを備える翻訳方法。
【0103】
【発明の効果】
上記説明から明らかなように、本発明によれば、翻訳対象となるドキュメントから抽出したフレーズの訳を生成し、翻訳辞書に登録することにより、新たに作り出された語句等の増加によって翻訳精度が低下するのを防ぐことができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る翻訳システム10の構成を示す。
【図2】本発明の実施形態に係る翻訳辞書記録部110及び翻訳辞書記録部170に格納される翻訳辞書117及び翻訳辞書177の階層構造の一例を示す。
【図3】本発明の実施形態に係るドキュメント翻訳部120の構成を示す。
【図4】本発明の実施形態に係るドキュメント翻訳部120の処理フローを示す。
【図5】本発明の実施形態に係るフレーズ分類部130の構成を示す。
【図6】本発明の実施形態に係るフレーズ分類部130の処理フローを示す。
【図7】本発明の実施形態に係るフレーズ翻訳部180の構成を示す。
【図8】本発明の実施形態に係るフレーズ翻訳部180の処理フローを示す。
【図9】本発明の実施形態に係るフレーズ翻訳部180の、ネットワークを介したフレーズ訳生成処理フローを示す。
【図10】本発明の実施形態に係るドキュメント翻訳部120及びフレーズ翻訳部180における翻訳結果の一例を示す。図10(a)は、文を優先して翻訳する場合における翻訳結果を示す。図10(b)は、名詞句を優先して翻訳する場合における翻訳結果を示す。
【図11】本発明の実施形態に係るコンピュータ1000のハードウェア構成の一例を示す。
【符号の説明】
10 翻訳システム
100 翻訳フロントエンドシステム
110 翻訳辞書記録部
115a〜b 分野別辞書
117 翻訳辞書
120 ドキュメント翻訳部
125 抽出フレーズ記録部
127 フレーズ受信部
130 フレーズ分類部
140 登録フレーズ記録部
145a〜b 分野別登録フレーズ記録ファイル
160 辞書更新サーバ
170 翻訳辞書記録部
175a〜b 分野別辞書
177 翻訳辞書
180 フレーズ翻訳部
185 更新辞書
190 辞書登録部
200 辞書管理部
210 形態素解析部
220 フレーズ抽出部
230 構文解析部
240 ドキュメント訳生成部
250 ドキュメント分野選択部
400 登録フレーズ選択部
410 登録先選択部
420 分野別出現頻度算出部
430 登録先分野選択部
600 訳語生成部
605 優先度設定部
610 ページ検索部
613 形態素解析部
616 構文解析部
620 フレーズ訳生成部
900 辞書
910 分野別辞書
905 基本辞書
915 主分野
920 主分野別辞書
925 副分野別辞書
990a〜b 完成文
1000 コンピュータ
1100 CPU
1110 ROM
1120 RAM
1130 通信インターフェイス
1140 ハードディスク・ドライブ
1150 フレキシブルディスク・ドライブ
1160 CD−ROMドライブ
1170 入出力チップ
1175 グラフィック・コントローラ
1180 表示装置
1182 ホスト・コントローラ
1184 入出力コントローラ
1190 フレキシブルディスク
1195 CD−ROM

Claims (15)

  1. ドキュメントを翻訳する翻訳システムであって、
    予め定められた分野別に分類された複数の分野別辞書を管理する辞書管理部と、
    前記ドキュメントから、名詞句(Noun Phrase)を抽出するフレーズ抽出部と、
    前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、
    前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、
    前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部と
    を備える翻訳システム。
  2. 前記ドキュメントを翻訳したときに前記複数の分野別辞書のそれぞれを用いた頻度に基づいて、前記ドキュメントの分野を選択するドキュメント分野選択部を更に備え、
    前記登録先選択部は、前記ドキュメント分野選択部により選択された分野に基づいて、抽出された前記名詞句を登録すべき分野を選択する
    請求項1記載の翻訳システム。
  3. 前記ドキュメント分野選択部は、複数の前記ドキュメントのそれぞれの翻訳において、前記複数の分野別辞書のそれぞれを用いた頻度に基づいて、前記複数のドキュメントのそれぞれの分野を選択し、
    前記フレーズ抽出部は、前記複数のドキュメントから、前記名詞句を抽出し、
    前記登録先選択部は、前記複数のドキュメントのそれぞれについて、前記名詞句が出現した頻度及び当該ドキュメントの分野に基づいて、前記名詞句を登録すべき分野を選択する
    請求項2記載の翻訳システム。
  4. 前記複数のドキュメントにおいて前記名詞句が出現した頻度が予め定められた下限値未満の場合に、前記名詞句及び前記名詞句訳の組を、前記複数の分野別辞書のいずれにも登録させないことを選択する登録フレーズ選択部を更に備える請求項3記載の翻訳システム。
  5. 一の前記分野別辞書は、他の複数の前記分野別辞書に対応する複数の分野のいずれかに分類されない語句を登録する基本辞書であり、
    前記登録先選択部は、
    前記複数のドキュメントのそれぞれについて前記名詞句が出現した頻度及び当該ドキュメントの分野に基づいて、前記複数の分野のそれぞれに対する前記名詞句の出現頻度を算出する分野別出現頻度算出部と、
    前記複数の分野のそれぞれに対する前記出現頻度に基づいて、前記名詞句及び前記名詞句訳の組を、前記複数の分野別辞書及び前記基本辞書のいずれに登録するかを選択する登録先分野選択部と
    を有し、
    前記辞書登録部は、前記登録先分野選択部により前記名詞句を前記基本辞書に登録することを選択された場合に、前記名詞句及び前記名詞句訳の組を前記基本辞書に登録する
    請求項2記載の翻訳システム。
  6. 前記登録先選択部は、前記複数のドキュメントに対応する複数の分野のそれぞれに対して前記名詞句が出現した度合に基づいて、前記名詞句を登録すべき分野を選択する請求項2記載の翻訳システム。
  7. 前記翻訳部は、前記登録先選択部により選択された、前記名詞句を登録すべき分野に対応する前記分野別辞書を優先して前記名詞句を翻訳し、前記名詞句訳を生成する請求項1記載の翻訳システム。
  8. 前記翻訳部は、前記名詞句訳を生成する場合において、前記ドキュメントにおける名詞句以外の部分を翻訳する場合と比較し、名詞句として翻訳する文法規則を使用する優先度をより高く設定する請求項1記載の翻訳システム。
  9. 前記翻訳部は、
    前記名詞句を翻訳して、前記名詞句訳の候補となる名詞句訳候補を生成する訳語生成部と、
    前記名詞句訳候補を含むネットワーク上のページを検索するページ検索部と、
    前記名詞句訳候補を含むページがヒットしたか否かに基づいて、前記名詞句訳候補を前記名詞句訳とするか否かを選択する名詞句訳生成部と
    を有する請求項1記載の翻訳システム。
  10. 予め定められた分野別に分類された複数の分野別辞書を管理する端末においてドキュメントの翻訳に用いる辞書を更新する辞書更新サーバであって、
    前記ドキュメントから抽出された名詞句を前記端末から受信する名詞句受信部と、
    前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、
    前記端末から受信した前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、
    前記前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部と
    を備える辞書更新サーバ。
  11. ドキュメントを翻訳し、翻訳に用いる辞書を外部の辞書更新サーバの指示に基づき更新する端末を有する翻訳システムであって、
    前記端末は、
    予め定められた分野別に分類された複数の分野別辞書を格納する翻訳辞書記録部と、
    前記ドキュメントから名詞句を抽出するフレーズ抽出部と、
    前記複数の分野別辞書を用いて前記ドキュメントを翻訳するドキュメント翻訳部と
    を備え、
    前記辞書更新サーバは、
    前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、
    前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、
    前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句および前記名詞句訳の組の登録を指示する辞書登録部と
    を備え、
    前記翻訳辞書記録部は、前記辞書登録部の登録指示に基づき、前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する翻訳システム。
  12. ドキュメントを翻訳する翻訳システム用のプログラムであって、
    前記翻訳システムを、
    予め定められた分野別に分類された複数の分野別辞書を管理する辞書管理部と、
    前記ドキュメントから、名詞句(Noun Phrase)を抽出するフレーズ抽出部と、
    前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、
    前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、
    前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部と
    して機能させるプログラム。
  13. 予め定められた分野別に分類された複数の分野別辞書を管理する端末においてドキュメントの翻訳に用いる辞書を更新する辞書更新サーバ用のプログラムであって、
    当該プログラムは、当該辞書更新サーバを、
    前記ドキュメントから抽出された名詞句を前記端末から受信する名詞句受信部と、
    前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を選択する登録先選択部と、
    前記端末から受信した前記名詞句を翻訳して前記名詞句の訳である名詞句訳を生成する翻訳部と、
    前記登録先選択部により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を登録する辞書登録部と
    して機能させるプログラム。
  14. 請求項12又は請求項13のいずれかに記載のプログラムを記録した記録媒体。
  15. コンピュータによりドキュメントを翻訳する翻訳システムにおける翻訳方法であって、
    予め定められた分野別に分類された複数の分野別辞書を、コンピュータにより管理させる辞書管理段階と、
    前記ドキュメントから、名詞句(Noun Phrase)を、コンピュータにより抽出させるフレーズ抽出段階と、
    前記複数の分野別辞書にそれぞれ対応する複数の分野のうち、抽出された前記名詞句を登録すべき分野を、コンピュータにより選択させる登録先選択段階と、
    前記名詞句を翻訳して前記名詞句の訳である名詞句訳を、コンピュータにより生成させる翻訳段階と、
    前記登録先選択段階により選択された分野に対応する前記分野別辞書に、前記名詞句及び前記名詞句訳の組を、コンピュータにより登録させる辞書登録段階と
    を備える翻訳方法。
JP2003072324A 2003-03-17 2003-03-17 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 Pending JP2004280574A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003072324A JP2004280574A (ja) 2003-03-17 2003-03-17 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US10/802,169 US7475005B2 (en) 2003-03-17 2004-03-17 Translation system, dictionary updating server, translation method, and program and recording medium for use therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003072324A JP2004280574A (ja) 2003-03-17 2003-03-17 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体

Publications (1)

Publication Number Publication Date
JP2004280574A true JP2004280574A (ja) 2004-10-07

Family

ID=32984709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003072324A Pending JP2004280574A (ja) 2003-03-17 2003-03-17 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体

Country Status (2)

Country Link
US (1) US7475005B2 (ja)
JP (1) JP2004280574A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007049792A1 (en) * 2005-10-28 2007-05-03 Rozetta Corporation Apparatus, method, and storage medium storing program for determining naturalness of array of words
WO2010061733A1 (ja) * 2008-11-27 2010-06-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 誤訳の検出を支援する装置及び方法
JP2015170093A (ja) * 2014-03-06 2015-09-28 株式会社Nttドコモ 未知語抽出装置及び未知語抽出方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249606A (ja) * 2006-03-16 2007-09-27 Oki Electric Ind Co Ltd 対訳辞書作成装置,対訳辞書作成方法およびコンピュータプログラム
US20080243738A1 (en) * 2007-03-29 2008-10-02 Nokia Corporation Game dictionaries
EG25474A (en) * 2007-05-21 2012-01-11 Sherikat Link Letatweer Elbarmaguey At Sae Method for translitering and suggesting arabic replacement for a given user input
JP5105513B2 (ja) * 2007-07-20 2012-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 処理対象として適切なテキストを選択する技術
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8306807B2 (en) * 2009-08-17 2012-11-06 N T repid Corporation Structured data translation apparatus, system and method
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
CN102999534A (zh) * 2011-09-19 2013-03-27 北京金和软件股份有限公司 一种基于逆向最大匹配的中文分词算法
CN103106214B (zh) * 2011-11-14 2016-02-24 索尼爱立信移动通讯有限公司 一种候选词组输出方法和电子设备
US10726005B2 (en) * 2014-06-25 2020-07-28 Sap Se Virtual split dictionary for search optimization
US9817808B2 (en) * 2014-09-29 2017-11-14 International Business Machines Corporation Translation using related term pairs
WO2017006749A1 (ja) * 2015-07-03 2017-01-12 株式会社日立国際電気 画像処理装置および画像処理システム
CN106126496B (zh) * 2016-06-17 2019-01-18 联动优势科技有限公司 一种信息分词方法及装置
JP6382475B1 (ja) * 2017-01-17 2018-08-29 初実 田中 多言語コミュニケーションシステムおよび多言語コミュニケーション提供方法
US20200257544A1 (en) * 2019-02-07 2020-08-13 Goldmine World, Inc. Personalized language conversion device for automatic translation of software interfaces
CN111125257B (zh) * 2019-12-25 2023-09-05 新方正控股发展有限责任公司 词典更新方法、装置、设备和存储介质
US11556553B2 (en) * 2020-12-01 2023-01-17 Sap Se Multi-stage adaptable continuous learning / feedback system for machine learning models

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03260764A (ja) 1990-03-09 1991-11-20 Ricoh Co Ltd 翻訳用辞書登録方式
JPH04111121A (ja) * 1990-08-31 1992-04-13 Fujitsu Ltd 分野別辞書生成装置、機械翻訳装置、及びそれら装置を用いた機械翻訳システム
JP3034295B2 (ja) 1990-10-31 2000-04-17 株式会社東芝 機械翻訳方法及び機械翻訳装置
JPH0619968A (ja) 1991-09-13 1994-01-28 Oki Electric Ind Co Ltd 専門用語自動抽出装置
JPH0628391A (ja) 1992-07-07 1994-02-04 Hitachi Ltd 辞書生成システム
JPH06251055A (ja) 1993-02-22 1994-09-09 Nippon Hoso Kyokai <Nhk> 機械翻訳方式
JP2745370B2 (ja) * 1993-02-23 1998-04-28 日本アイ・ビー・エム株式会社 機械翻訳方法及び機械翻訳装置
JPH07182342A (ja) 1993-12-24 1995-07-21 Sharp Corp 機械翻訳装置
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6862566B2 (en) * 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
JP2002108858A (ja) * 2000-09-20 2002-04-12 Internatl Business Mach Corp <Ibm> 機械翻訳方法、機械翻訳装置および記録媒体
JP2002123467A (ja) * 2000-10-16 2002-04-26 Oki Electric Ind Co Ltd 電子掲示板システム
JP4574047B2 (ja) 2001-03-30 2010-11-04 富士通株式会社 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム
EP1483687A4 (en) * 2002-03-11 2008-08-06 Univ Southern California TRANSLATION OF CALLED ENTITIES
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007049792A1 (en) * 2005-10-28 2007-05-03 Rozetta Corporation Apparatus, method, and storage medium storing program for determining naturalness of array of words
WO2010061733A1 (ja) * 2008-11-27 2010-06-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 誤訳の検出を支援する装置及び方法
JP5204244B2 (ja) * 2008-11-27 2013-06-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 誤訳の検出を支援する装置及び方法
US8676791B2 (en) 2008-11-27 2014-03-18 International Business Machines Corporation Apparatus and methods for providing assistance in detecting mistranslation
KR101507637B1 (ko) 2008-11-27 2015-03-31 인터내셔널 비지네스 머신즈 코포레이션 오역의 검출을 지원하는 장치 및 방법
JP2015170093A (ja) * 2014-03-06 2015-09-28 株式会社Nttドコモ 未知語抽出装置及び未知語抽出方法

Also Published As

Publication number Publication date
US7475005B2 (en) 2009-01-06
US20040186706A1 (en) 2004-09-23

Similar Documents

Publication Publication Date Title
JP2004280574A (ja) 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US7493251B2 (en) Using source-channel models for word segmentation
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
US9223779B2 (en) Text segmentation with multiple granularity levels
US8660834B2 (en) User input classification
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP2003532194A (ja) 言語間リーディングウィザードを用いたコンピュータ援用リーディングシステムおよび方法
CN110888946A (zh) 一种基于知识驱动的查询的实体链接方法
US10949452B2 (en) Constructing content based on multi-sentence compression of source content
JP3743678B2 (ja) 自動自然言語翻訳
CN109885583A (zh) 基于区块链的数据查询方法、装置、设备及存储介质
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP2011210149A (ja) 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
JP3896341B2 (ja) 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
KR20140056715A (ko) 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법
JP5423282B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JP4618083B2 (ja) 文書処理装置および文書処理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061031

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20061228