JP2009026100A - 処理対象として適切なテキストを選択する技術 - Google Patents

処理対象として適切なテキストを選択する技術 Download PDF

Info

Publication number
JP2009026100A
JP2009026100A JP2007188996A JP2007188996A JP2009026100A JP 2009026100 A JP2009026100 A JP 2009026100A JP 2007188996 A JP2007188996 A JP 2007188996A JP 2007188996 A JP2007188996 A JP 2007188996A JP 2009026100 A JP2009026100 A JP 2009026100A
Authority
JP
Japan
Prior art keywords
text
texts
phrase
index
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007188996A
Other languages
English (en)
Other versions
JP5105513B2 (ja
Inventor
Takaaki Shiratori
孝明 白鳥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007188996A priority Critical patent/JP5105513B2/ja
Priority to US12/061,293 priority patent/US8249859B2/en
Publication of JP2009026100A publication Critical patent/JP2009026100A/ja
Priority to US13/564,538 priority patent/US8494836B2/en
Application granted granted Critical
Publication of JP5105513B2 publication Critical patent/JP5105513B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】機械翻訳の精度の検証に適したテキストの集合を選択する。
【解決手段】複数のテキストの中から、あるフレーズが前記複数のテキストに含まれるかどうかに基づいて、出力するテキストを選択するシステムであって、前記複数のテキストのそれぞれに、予め定められた複数のフレーズのそれぞれが含まれるかどうかを判断する判断部と、前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストのうち、テキスト間に予め定められた優先順位が最高のテキストに対応付けて、他のテキストと比較してより大きい指標値を算出する指標算出部と、算出した前記指標値をテキストごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を出力する出力部とを備えるシステムを提供する。
【選択図】図6

Description

本発明は、複数のテキストの中から、処理対象として適切なテキストを選択する技術に関する。特に、本発明は、テキストにあるフレーズが含まれるかどうかに基づいて、処理対象として適切なテキストを選択する技術に関する。
近年、国際的に活動する企業は、様々な国のお客様に対して様々な言語で製品やサービスの情報を提供している。実際、そのような企業のウェブサイトでは、同一の内容のウェブページを様々な言語で閲覧でき、利便性が高い。一方で、提供するべき情報は膨大であり、また、日々更新されるものであるから、その翻訳作業は多大な労力および費用を要している。これに対し、近年その精度が向上してきた機械翻訳の技術を適用できれば、翻訳の効率を向上させることができると考えられる(機械翻訳については下記の非特許文献1を参照。)。
機械翻訳について。ホームページURL「http://e-words.jp/w/E6A99FE6A2B0E7BFBBE8A8B3.html」
機械翻訳の精度は、構文解析等の処理能力、および、用語辞書の品質に依存する。特に、技術的な専門用語やいわゆる新語・造語を適切に翻訳するためには、用語辞書が翻訳対象に対応した充分な語句を含んでいることが望ましい。従って、機械翻訳の精度を向上させるためには、翻訳されるテキストに含まれる語句を適切な訳とともに用語辞書に予め追加すればよい。しかしながら、大規模なウェブサイトのウェブページなどのように、翻訳するべきテキストの数が多い場合には、全てのテキストから未登録の語句または誤訳されている語句を人手で探し出して登録するのは現実的ではない。一方で、無作為に一部のテキストのみから未登録の語句や誤訳されている語句を探し出そうとすれば、翻訳の精度を充分に向上させることができない場合がある。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、複数のテキストの中から、前記複数のテキストにあるフレーズが含まれるかどうかに基づいて、出力するテキストを選択するシステムであって、前記複数のテキストのそれぞれに、予め定められた複数のフレーズのそれぞれが含まれるかどうかを判断する判断部と、前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストのうち、テキスト間に予め定められた優先順位が最高のテキストに対応付けて、他のテキストと比較してより大きい指標値を算出する指標算出部と、算出した前記指標値をテキストごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を出力する出力部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させるプログラムおよび方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、機械翻訳を利用してテキストを翻訳する手順の流れを示す。機械翻訳を利用して高精度の翻訳を実現するためには、まず、翻訳用の辞書に適切な語句を適切な訳とともに登録する必要がある。このため、機械翻訳の前処理として、機械翻訳の利用者は、翻訳用の辞書に登録されていない語句および翻訳対象にとって誤訳される語句(以下、まとめて未知語と呼ぶ)を、翻訳対象のテキストの中から抽出する(S100)。そして、翻訳の専門家などの利用者は、抽出されたその未知語を翻訳して(S110)、翻訳結果をその未知語に対応付けて辞書に登録する(S120)。翻訳対象のテキストが多量の場合には、全ての未知語を辞書に登録しようとすると、費用や時間がかかりすぎる。このため、利用者は、一部の未知語のみを選択して、その未知語を翻訳して登録することが好ましい。
翻訳装置は、その辞書を用いてテキストを翻訳する(S130)。利用者は、翻訳されたテキストを参照して、機械翻訳の精度が充分な水準に達したかどうかを判断する(S140)。充分な水準に達していれば、処理を終了する。一方、充分な水準に達していなければ、利用者は、S120に処理を戻して、辞書に登録するべき未知語を追加して選択し、その未知語を辞書に登録する(2回目のS120)。
このように、費やすことのできる費用や時間が限られている場合には、当初から完全な辞書を作成するよりも、翻訳の精度が所定の水準に達するまで、辞書を徐々に更新してゆくほうが好ましい。
しかしながら、この手順には改善の余地がある。第1に、S120において、利用者は、多数の未知語の中からどの語句を優先して登録するべきかをその利用者自身で判断している。従って、その判断を誤った場合には、辞書を更新したにも関わらず翻訳の精度が充分に向上しない場合がある。この結果、翻訳の精度が充分な水準に達するまで必要以上に長い時間がかかる。また、そもそも、翻訳の精度がいつ所定の水準に達するか事前に予想できず、翻訳作業全体に割り当てるべき予算や時間を予め設定すること、および、その翻訳作業の進捗状況を管理することが難しい。
第2に、S130およびS140において、機械翻訳は、翻訳対象の全てのテキストについて行われ、その全ての翻訳結果について翻訳の水準が検証される。従って、辞書の更新のたびに、翻訳の検証のために多大な時間がかかる。一部のテキストのみを選択して検証の対象としようとしても、テキストの選び方によっては検証の精度が低下してしまう。
これに対し、本実施形態に係る翻訳システム20は、このような翻訳作業を支援するとともに、翻訳の進捗管理や予算管理などの作業を支援することを目的とする。
図2は、本実施形態に係る翻訳システム20の全体構成を示す。翻訳システム20は、後述のCPU1000、および、RAM1520などの記憶装置の動作によって、選択システム200と、検証用翻訳装置210と、テンプレート生成装置220と、本番用翻訳装置230と、検証装置240として機能する。選択システム200は、複数の入力テキスト22の中から、機械翻訳の検証に適したテキストを選択する。選択したそれぞれのテキストを選択テキスト205とする。また、選択システム200は、これらの選択テキスト205に含まれる複数のフレーズを記録したフレーズデータ208を生成し、テンプレート生成装置220に対し出力する。選択テキスト205の選択のために、選択システム200は、翻訳作業の管理者である利用者から入力を受け付けてもよいし、その利用者に選択の結果を出力してもよい。
検証用翻訳装置210は、これらの選択テキスト205のそれぞれを機械翻訳して、複数の翻訳テキスト215として出力する。テンプレート生成装置220は、翻訳テキスト215に含まれる翻訳後のフレーズのそれぞれを、フレーズデータ208に記録された翻訳前のフレーズのそれぞれに対応付けたデータを生成し、出力する。このデータをテンプレート225とする。翻訳作業を担当する利用者は、テンプレート225を見て誤訳を見つけ出す。そしてその利用者は、誤訳に対応する正しい訳によりテンプレート225を更新し、検証済テンプレート228とする。検証済テンプレート228は、本番用翻訳装置230のための辞書として用いられる。即ち、本番用翻訳装置230は、既に備えている翻訳用の辞書に、検証済テンプレート228の内容を追加した辞書を用いて、入力した複数の入力テキスト22を翻訳し、翻訳結果である翻訳テキスト25を生成する。検証済テンプレート228に含まれる翻訳対象語が、既に備えている当該辞書に既に含まれている場合には、検証済テンプレート228に含まれるその訳語が、既に備えている当該辞書に含まれる訳語よりも優先して使用される。これにより、本番用翻訳装置230は、翻訳担当者が人手で正しく翻訳した結果を反映して、翻訳の精度を高めることができる。
なお、検証済テンプレート228は検証用翻訳装置210用の新たな辞書として利用されてもよい。即ち、検証用翻訳装置210は、検証済テンプレート228の内容に基づく辞書により、それぞれの選択テキスト205を再度翻訳し、複数の翻訳テキスト215を再度生成する。なお、この場合においても、検証済テンプレート228に含まれる訳語が、検証用翻訳装置210が既に備える辞書に含まれる訳語よりも優先して使用される。そして、翻訳の担当者は、翻訳テキスト215を検証済テンプレート228と比較して、誤訳を訂正した結果が反映された翻訳となっているかを確認してもよい。確認には、検証済テンプレート228内の誤訳および正しい訳を、翻訳テキスト215内のフレーズと自動的に比較するための装置である、検証装置240が用いられてもよい。
このように、本実施形態に係る翻訳システム20は、翻訳の検証に適したテキストを翻訳処理に先立って予め選択することで、翻訳作業全体を効率化することを目的とする。さらに、本実施形態に係る翻訳システム20は、翻訳の検証に適したテキストを選択する時点で、どのテキストの検証を終えるとどの程度の精度の向上が実現されるかを示す情報を、管理者である利用者に対し出力することができる。これにより、翻訳作業全体の管理および進捗状況の把握を支援することを目的とする。以降、選択システム200があるウェブサイトの翻訳の品質の検証を支援するものである場合を例に、詳細な説明をすすめる。
図3は、本実施形態に係る入力テキスト22の一例を示す。複数の入力テキスト22のそれぞれは、例えば、同一のウェブサイトに含まれるウェブページである。そのうちのある入力テキスト22は、例えば製品やサービスの情報を含んでいる。この入力テキスト22は、例えばHTMLなどのタグ付き文書であり、タグが示す指令に応じて対応するテキストまたは画像を画面に表示する。例えば、この入力テキスト22において、ある開始タグからその開始タグに対応する終了タグまでの間には、「Preventive maintenance」という文字列が含まれる。従って、画面には、この文字列がこのタグが示す指令に応じて、例えば、特定の色彩および字体で表示される。
選択システム200は、入力テキスト22に含まれる、このような開始タグから終了タグまでの間の文字列を抽出し、文字列の出現頻度を判断する単位として取り扱い、その出現頻度に基づいて、翻訳の検証に用いるべき選択テキスト205を選択してゆく。以降、この出現頻度を判断する単位の文字列のことを、フレーズ300と呼ぶ。例えば、図3に符号300を付して示した文字列のそれぞれが、フレーズ300である。このフレーズ300は、文字列の出現頻度を判断する単位の他、機械翻訳の単位として用いられてもよい。
図4は、本実施形態に係るテンプレート225の一例を示す。テンプレート225は、選択システム200により抽出されたそれぞれのフレーズ300について、それを識別する番号と、その原文の文字列(例えば英文)と、その翻訳結果の文字列(例えば中国語の簡体字)と、その翻訳結果が表れたページと、そのページのURLと、その文字列の出現頻度とを対応付けて記録している。例えば、37番のフレーズ300について、その原文の文字列は「My Aaccount」であり、その翻訳結果の文字列は「我的記述(出願明細書の文字コードの制限より日本語漢字で記載、実際には、対応する漢字の簡体字である)」であり、それが含まれるページのURLは「http://www.e-support_mt.tok…」であり、その出現頻度は36である。また、テンプレート225は、翻訳結果を検証した結果それが誤訳だった場合に正しい訳を記述するためのデータフィールド「検証結果」を更に含んでよい。
図5は、本実施形態に係る検証済テンプレート228の一例を示す。検証済テンプレート228は、この「検証結果」のデータフィールドに、翻訳担当の利用者により入力された翻訳結果を含む。例えば、37番のフレーズ300について、「検証結果」のデータフィールドには、「我的記述」という誤訳ではなく、正しい翻訳結果が入力されている。利用者の検証の結果、機械翻訳の結果が正しいと判断された場合には、検証済テンプレート228は、「検証結果」のフィールドに何も記録しなくてもよい。
図6は、本実施形態に係る選択システム200の機能構成を示す。選択システム200は、判断部600と、順位決定部610と、指標算出部620と、出力部630とを有する。判断部600は、複数の入力テキスト22のそれぞれに、予め定められた複数のフレーズ300のそれぞれが含まれるかどうかを判断する。このフレーズ300は、既に述べたように、例えば、各テキストにおいてHTMLの開始タグから終了タグまでの間に記述された文字列であってもよい。即ち、判断部600は、まず、各フレーズ300を各入力テキスト22から抽出する処理を行ったうえで、その各フレーズ300が各入力テキスト22に含まれるかどうか判断してもよい。
順位決定部610は、複数の入力テキスト22の間に優先順位を決定する。この優先順位は、例えば、入力テキスト22が含む情報の重要度を表すものとして、予め使用者等からの入力によって定められてよい。また、順位決定部610の処理によって、網羅的に多様なフレーズ300を含む入力テキスト22には、他の入力テキスト22と比較してより高い優先順位が決定されてもよい。他の例として、入力テキスト22がウェブページの場合において、順位決定部610は、ウェブサイトのサーバ装置がクライアント装置から表示する要求を受けた頻度がより高い入力テキスト22に対応付けて、他の入力テキスト22と比較して、より高い優先順位を決定してもよい。また、順位決定部610は、複数の入力テキスト22に出現する頻度のより高いフレーズ300をより多く含む入力テキスト22に対し、他の入力テキスト22と比較して、より高い優先順位を決定してもよい。
指標算出部620は、複数のフレーズのそれぞれについて、そのフレーズを含む入力テキスト22のうち、順位決定部610により決定された優先順位が最高の入力テキスト22に対応付けて、他の入力テキスト22と比較してより大きい指標値を算出する。例えば、ある入力テキストAおよび入力テキストBが、共にフレーズ「My Aaccount」を含む場合において、入力テキストAよりも入力テキストBの方が、優先順位が高ければ、指標算出部620は、入力テキストBに対応付けて入力テキストAよりも高い指標値を算出する。指標値はフレーズ毎に算出される。従って、この入力テキストAについても、他のフレーズの出現状況に基づき、更に他の入力テキストCよりも大きい指標値が算出されるかもしれない。
出力部630は、算出したこの指標値を入力テキスト22ごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を複数の選択テキスト205として出力する。例えば、出力部630は、この合計値が大きい方から予め定められた数(N個)のテキストを選択して出力してもよい。さらに、出力部630は、出力した選択テキスト205の集合が、ウェブサイト全体に出現するフレーズ300をどの程度網羅的に含むかを示す数値である出現占拠率を、管理者である利用者に対し表示してもよい。さらには、この出現占拠率を見た管理者からの入力に応じて、出力部630は、選択する入力テキスト22の数であるNを変更して、変更後の数であるN個のテキストを選択テキスト205として選択してもよい。
図7は、各テキストに各フレーズが出現する頻度を示す。この図7の例で、判断部600は、それぞれが入力テキスト22の一例であるテキスト1−5のそれぞれに、フレーズ1−5のそれぞれが含まれるかどうかを判断している。図7ではその判断の結果を行列状に配列している。具体的には、ある入力テキスト22にあるフレーズ300が1つ含まれることを、その入力テキスト22を示す列およびそのフレーズ300を示す行に、数値の1を配列して示す。その入力テキスト22にそのフレーズ300が2つ含まれる場合には、その数値は2である。
一例として、フレーズ1の行には、テキスト2、テキスト3およびテキスト5の列にそれぞれ数値の1が配列されている。これは、テキスト2、テキスト3およびテキスト5に、フレーズ1がそれぞれ1つずつ含まれていることを示す。
このように、判断部600は、それぞれの入力テキスト22に、それぞれのフレーズ300が含まれるかを判断したうえで、更に、含まれるとすればその個数を算出してもよい。算出結果は、図7を参照して説明したように、例えば行列状のデータ構造によって表される。
図8は、各フレーズの出現頻度をそのフレーズを含むテキストに対応付けて示す。この図8を参照して、順位決定部610が入力テキスト22間の優先順位を決定する処理の具体例を説明する。まず、順位決定部610は、複数のフレーズ300のそれぞれについて、そのフレーズ300が複数の入力テキスト22に出現する頻度を算出する。あるフレーズ300が出現する頻度は、例えば、判断部600によって算出された、そのフレーズ300が各入力テキスト22に含まれる個数の合計である。一例として、フレーズ1は、テキスト1−5を含む複数の入力テキスト22に、135回出現している。このため、順位決定部610は、フレーズ1が出現する頻度として数値135を算出する。
そして、順位決定部610は、入力テキスト22ごとに、その入力テキスト22に含まれる各フレーズ300について算出したその頻度を合計する。例えば、テキスト2には、フレーズ1およびフレーズ2が含まれるが、フレーズ3−5は含まれない。従って、順位決定部610は、テキスト2について、フレーズ1の出現頻度である135と、フレーズ2の出現頻度である65とを合計し、フレーズ3−5の出現頻度は合計に含めない。この結果、テキスト2について算出される合計値は、その他の図示しないフレーズ300の頻度を含めて、850となる。
そして、順位決定部610は、このようにして算出した合計値がより大きい入力テキスト22に対応付けてより高い優先順位を決定する。例えば、テキスト2についてのその合計値は850で、テキスト1についてのその合計値は650なので、順位決定部610は、テキスト2に対応付けてテキスト1よりも高い優先順位を決定する。このようにして他の入力テキスト22についても優先順位を決定した結果、優先順位が高い順に、テキスト2、テキスト1、テキスト4、テキスト3およびテキスト5の順となる。図8の列方向には、この優先順位に従って各入力テキスト22を配列している。
図9は、本実施形態に係る指標算出部620が指標値を算出する処理の過程を示す。まず、指標算出部620は、複数のフレーズ300のそれぞれについて、そのフレーズ300を含む入力テキスト22に他の入力テキスト22よりも大きい数値を対応付ける。この数値は、例えば、そのフレーズ300を含む場合には整数の1、そのフレーズ300を含まない場合には整数の0などの、予め定められた規則によって決定されてもよい。一例として、この数値は、順位決定部610の例と同様に、各フレーズ300が各入力テキスト22に含まれる個数などであってよい。これにより対応付けられた数値を、図9のように、各フレーズ300を列方向とし、各入力テキスト22を行方向に配列した行列の要素として示す。
そして、指標算出部620は、これらの数値に基づいて指標値を算出する。具体的には、指標算出部620は、各フレーズ300について、そのフレーズ300を含む入力テキスト22のうち上記の優先順位が最高ではない入力テキスト22に対応付けた数値に基づいて、そのフレーズ300を含む入力テキスト22のうちその優先順位が最高の入力テキスト22の指標値を算出する。一例として、指標算出部620は、各フレーズ300について、そのフレーズ300を含む入力テキスト22のうち優先順位が最高の入力テキスト22に対応付けた数値に、その優先順位が最高ではない入力テキスト22に対応付けた数値を加えることで、当該順位が最高の入力テキスト22の指標値を算出してもよい。
一方で、各フレーズ300について、そのフレーズ300を含む入力テキスト22のうち優先順位が最高ではない入力テキスト22に対応付けた数値は、その入力テキスト22の指標値の算出には用いられない。一例として、そのような入力テキスト22の指標値を、その入力テキスト22に対応付けた数値に関わらず0としてもよい。即ち、そのような入力テキスト22に対応付けた数値は、その入力テキスト22の指標値の算出に代えて、優先順位が最高の入力テキスト22について、その指標値を算出するために用いられてもよい。
以上に示した算出の処理過程は、図9内の矢印によって表される。即ち、指標算出部620は、各フレーズ300を列方向とし、各入力テキスト22を優先順位に従って行方向に配列した行列の各行について、非ゼロ要素のうちの最左列の要素に、その要素よりも右側の列の各非ゼロ要素を順次加算する。
この結果、指標算出部620は、各フレーズ300について、そのフレーズ300が複数の入力テキスト22に出現する頻度を算出して、そのフレーズ300を含む入力テキスト22のうち優先順位が最高の入力テキスト22に対応付けて、その頻度を示す指標値を算出することができる。
図10は、本実施形態に係る指標算出部620が算出する指標値の合計値を示す。指標算出部620が算出した指標値を、図10中に下線を付して示す。即ち例えば、指標算出部620は、フレーズ1について、テキスト2に対応付けて指標値135を算出している。指標算出部620は、フレーズ1を含む他の入力テキスト22に対応付けて、その指標値135よりも小さい指標値、一例としてはゼロを算出している。指標算出部620は、これらの指標値を入力テキスト22ごとに合計した合計値を算出する。例えば、テキスト2について、フレーズ1に対応する指標値135、および、フレーズ2に対応する指標値65その他の指標値が合計されて、その合計値は850となる。出力部630は、このようにして算出された合計値を参照することで、翻訳の検証に用いるべき選択テキスト205を適切に選択できる。
図11は、本実施形態に係る選択システム200が出力するべきテキストを選択する処理のフローチャートを示す。まず、選択システム200は、複数の入力テキスト22を入力する(S1200)。例えば翻訳システム20がウェブサイトの翻訳の品質の検証を支援するものである場合、これを実現するために、選択システム200は、そのウェブサイトのアドレス(例えばURL(Uniform Resource Locator)、IPアドレスなど)の入力を受け付けてもよい。その場合、選択システム200は、そのアドレスが入力されたことに応じて、そのアドレスのウェブサイトにアクセスして複数の入力テキスト22を取得する。さらに、選択システム200は、入力した入力テキスト22の中から、特定のカテゴリの入力テキスト22のみを選択して、判断部600による処理の対象としてもよい。例えば、選択システム200は、ある製品の情報についてのインデックスを有するウェブページから到達可能なウェブページのみを選択することで、その製品に関するウェブページのみを処理の対象とすることができる。
次に、判断部600は、各フレーズ300を各入力テキスト22から抽出する(S1210)。例えば、既に述べたように、判断部600は、HTML文書である入力テキスト22の、開始タグから終了タグまでの間の文字列をフレーズ300として抽出してもよい。これに加えて、判断部600は、開始タグから終了タグまでの文字列を、さらに文ごとに分割して、分割したそれぞれの文をフレーズ300として抽出してもよい。また、判断部600は、互いに異なる複数の文字列であっても、それら複数の文字列が、僅かに相違しているなどの、予め定められた関係を有する場合においては、それらの文字列を同一のフレーズ300として抽出してもよい。
同一のフレーズ300として抽出される複数の文字列の具体例を簡単に述べる。第1例は、固有名詞を含む文字列に関する。判断部600は、入力テキスト22中の固有名称を、その総称を示す一般名詞や、その一般名詞を示す記号等に変換する。例えば、「www.△□×.com」などの固有名詞は、「Web Address」などの一般名詞に変換される。そして、判断部600は、変換された結果同一の文字列となる複数の文字列を、同一のフレーズ300として抽出する。この結果、例えばウェブサイト名を除けば同一となる複数の文字列は、頻度や指標値の算出について、同一のフレーズ300として取り扱われる。
第2例は、僅かな一部分のみが異なる複数の文字列に関する。判断部600は、入力テキスト22に含まれる2つの文字列から成る組ごとに、含まれる語句のうち一致する語句の割合が予め定められた基準値以上であって、かつ、複数の入力テキスト22全体に出現する頻度の差が予め定められた基準値以上であるかどうかを判断する。この条件を満たす場合には、判断部600は、これら2つの文字列を同一のフレーズ300として抽出する。例えば、複数の入力テキスト22中に、20単語を含むある文字列が145回出現し、それと1単語だけ異なる他の文字列が1回だけ出現する場合には、判断部600は、これらの文字列を同一のフレーズ300として抽出する。これにより、翻訳の検証といった観点からすれば区別する必要性の低い複数の文字列が1つのフレーズ300として取り扱われるので、その後の処理を効率化できる。
次に、判断部600は、複数の入力テキスト22のそれぞれに、複数のフレーズ300のそれぞれが含まれるかどうかを判断する(S1220)。そして、順位決定部610は、この判断に基づいて、複数の入力テキスト22の間に優先順位を決定する(S1230)。この優先順位は、既に説明したように、各フレーズ300の出現頻度に基づいて決定されてもよいし、ウェブページである入力テキスト22を表示する要求を受けた頻度に基づいて決定されてもよい。これに代えて、または、これに加えて、優先順位は、ウェブページである入力テキスト22がトップページから近いかどうかに基づいて決定されてもよい。
例えば、順位決定部610は、それぞれの入力テキスト22が、ウェブサイト内のウェブページ間の階層においてウェブサイトのトップページ(例えば他のファイル名を追加することなくドメイン名のみでアクセスされるページ)からどの程度近いかを判断する。具体的には、順位決定部610は、トップページからハイパーリンクを順次参照して入力テキスト22を表示させるまでに、ハイパーリンクを参照しなければならない最小の回数を、入力テキスト22ごとに算出してもよい。そして、順位決定部610は、例えばこの参照の回数が他の入力テキスト22よりも少ない入力テキスト22に、当該他の入力テキスト22よりも高い優先順位を決定する。
そして、指標算出部620は、複数のフレーズのそれぞれについて、そのフレーズを含む入力テキスト22のうち、判断部600により決定された優先順位が最高の入力テキスト22に対応付けて、他の入力テキスト22と比較してより大きい指標値を算出する(S1240)。指標値算出の具体例は、図9から図10を参照して説明したとおりである。次に、出力部630は、算出したこの指標値を入力テキスト22ごとに合計した合計値が、より大きい入力テキスト22を優先して選択する(S1250)。例えば、出力部630は、この合計値が大きい方から予め定められた数(N個)の入力テキスト22を選択してもよい。
そして、出力部630は、算出した当該指標値を複数の入力テキスト22全てについて合計した合計値に対する、選択したこれらの入力テキスト22のそれぞれに対応する指標値の合計の割合である、出現占拠率を算出する(S1260)。この出現占拠率は、選択した入力テキスト22に含まれるフレーズ300が、全ての入力テキスト22に含まれるフレーズ300を網羅する程度を表す。これに加えて、出力部630は、選択する入力テキスト22を順次追加する場合におけるこの出現占拠率の変化を示すグラフを生成してもよい。
そして、出力部630は、選択した入力テキスト22の集合を、ウェブサイトの翻訳の品質を検証するために適したテキストの集合として出力する(S1270)。また、出力部630は、その入力テキスト22に対応付けて指標算出部620により他の入力テキスト22と比較して大きい指標値が算出されたフレーズ300に対応付けて、出力する(S1270)。例えば、図4を参照して説明したように、入力テキスト22を識別するURLが、その入力テキスト22に対応付けて他の入力テキスト22と比較して大きい指標値が算出された英単語に対応付けて出力される。これにより、どの入力テキスト22でどのフレーズの誤訳を検証するべきかを利用者に認識させることができる。
これに加えて、出力部630は、出現占拠率またはそのグラフを出力してもよい。その一例を図12に示す。
図12は、本実施形態に係る出力部630が出力する出現占拠率のグラフを示す。横軸は、選択テキスト205として選択されるテキストの数を表す。縦軸は、出現占拠率を表す。出力部630が出力するこのグラフを参照すると、以下の知見が得られる。第1に、いま選択されたテキストが、どの程度の出現占拠率を有するかという点である。例えば、選択するテキストの数が100に設定されている場合において、このグラフを参照すれば、そのテキストの出現占拠率が70%程度であることが分かる。これにより、翻訳用の辞書を更新する作業の開始前に、その更新作業によってどの程度の品質向上が見込まれるかを予想できる。
第2に、目標とする品質を達成するためには、どの程度のテキストを翻訳の検証に用いればよいかという点である。例えば、目標とする品質が、80%のフレーズ300について誤訳を排除することとすれば、そのためには145個の入力テキスト22を翻訳の検証に用いればよいことが分かる。第3に、進捗状況を正確に把握できるという点である。例えば、目標を80%に設定したものの、検証が完了した入力テキスト22の数が50である場合、目標と比較して品質がどの程度の水準に達したか(例えばこの例では80%に対する55%程度)を正確に把握できる。
次に、指標値を算出する他の例について、図13を参照して説明する。
図13は、本実施形態の変形例に係る選択システム200の処理のフローチャートを示す。S1200、S1210、S1220、S1230については、図11を参照して説明した実施形態と同様である。それ以降の処理について説明する。
まず、指標算出部620は、複数のフレーズのそれぞれについて、そのフレーズを含む入力テキスト22のうち、判断部600により決定された優先順位が最高の入力テキスト22に対応付けて、他の入力テキスト22と比較してより大きい指標値を算出する(S1340)。次に、出力部630は、算出したこの指標値を入力テキスト22ごとに合計した合計値が、最も大きい入力テキスト22を選択する(S1350)。そして、出力部630は、出力した入力テキスト22の数が、予め定められた数に達したかどうかを判断する(S1370)。
出力した入力テキスト22の数がその予め定められた数に達していなければ(S1370:NO)、指標算出部620は、S1340に処理を戻して、出力したそのテキストを除外した複数の入力テキスト22、および、出力したそのテキストを除外した複数のフレーズ300について、上記の指標値を更に算出する。この算出について図9および図10を参照して説明する。図10の例について、テキストを1つも出力していない時点において、指標値の合計が大きい順にテキストを配列すると、テキスト2、テキスト4、テキスト1、テキスト3およびテキスト5の順になる。
ここで、テキストを大きい順に2つ出力し、当初に算出した指標値の合計が大きい順に残りのテキストを配列すると、テキスト1、テキスト3、および、テキスト5の順になる。しかしながら、テキスト1に含まれるフレーズ3は、既に出力することが決定されたテキスト4にも含まれている。従って、このフレーズ3を除外して指標値を計算すると、テキスト1についての指標値の合計は20減少する。この結果、これら残りのテキストについての合計値は当初の合計値と比べて変化するので、指標値の合計値が大きい順に配列した配列順序も変化し得る。指標算出部620は、このように、入力テキスト22を出力する度に指標値を繰り返し再計算して、残りの入力テキスト22の中から最も優先して選択するべき入力テキスト22を決定してもよい。このように、指標値の算出方法には様々な変形例が考えられる。そしてこの変形例によっても、複数の入力テキスト22に含まれるフレーズ300を網羅的に含む選択テキスト205の集合を選択することができる。
図14は、本実施形態に係る翻訳システム20として機能するコンピュータ500のハードウェア構成の一例を示す。コンピュータ500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、コンピュータ500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、コンピュータ500の起動時にCPU1000が実行するブートプログラムや、コンピュータ500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
コンピュータ500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出されコンピュータ500にインストールされて実行される。プログラムがコンピュータ500等に働きかけて行わせる動作は、図1から図13において説明した翻訳システム20における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ500に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることのできることが当業者にとって明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、機械翻訳を利用してテキストを翻訳する手順の流れを示す。 図2は、本実施形態に係る翻訳システム20の全体構成を示す。 図3は、本実施形態に係る入力テキスト22の一例を示す。 図4は、本実施形態に係るテンプレート225の一例を示す。 図5は、本実施形態に係る検証済テンプレート228の一例を示す。 図6は、本実施形態に係る選択システム200の機能構成を示す。 図7は、各テキストに各フレーズが出現するかどうかを判断した結果を示す。 図8は、各フレーズの出現頻度をそのフレーズを含むテキストに対応付けて示す。 図9は、本実施形態に係る指標算出部620が指標値を算出する処理の過程を示す。 図10は、本実施形態に係る指標算出部620が算出する指標値の合計値を示す。 図11は、本実施形態に係る選択システム200が出力するべきテキストを選択する処理のフローチャートを示す。 図12は、本実施形態に係る出力部630が出力する出現占拠率のグラフを示す。 図13は、本実施形態の変形例に係る選択システム200の処理のフローチャートを示す。 図14は、本実施形態に係る翻訳システム20として機能するコンピュータ500のハードウェア構成の一例を示す。
符号の説明
20 翻訳システム
22 入力テキスト
25 翻訳テキスト
200 選択システム
205 選択テキスト
208 フレーズデータ
210 検証用翻訳装置
215 翻訳テキスト
220 テンプレート生成装置
225 テンプレート
228 検証済テンプレート
230 本番用翻訳装置
240 検証装置
300 フレーズ
500 コンピュータ
600 判断部
610 順位決定部
620 指標算出部
630 出力部

Claims (20)

  1. 複数のテキストの中から、あるフレーズが前記複数のテキストに含まれるかどうかに基づいて、出力するテキストを選択するシステムであって、
    前記複数のテキストのそれぞれに、予め定められた複数のフレーズのそれぞれが含まれるかどうかを判断する判断部と、
    前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストのうち、テキスト間に予め定められた優先順位が最高のテキストに対応付けて、他のテキストと比較してより大きい指標値を算出する指標算出部と、
    算出した前記指標値をテキストごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を出力する出力部と
    を備えるシステム。
  2. 前記指標算出部は、前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストに他のテキストよりも大きい数値を対応付け、当該フレーズを含むテキストのうち前記優先順位が最高のテキストに対応する前記指標値を、前記優先順位が最高ではないテキストに対応付けた前記数値に基づいて算出する
    請求項1に記載のシステム。
  3. 前記指標算出部は、前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストに他のテキストよりも大きい数値を対応付け、当該フレーズを含むテキストのうち前記優先順位が最高ではないテキストに対応付けた前記数値を、前記優先順位が最高ではない当該テキストの指標値の算出に代えて、前記優先順位が最高のテキストの指標値の算出に用いる
    請求項1に記載のシステム。
  4. 前記指標算出部は、前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストに予め定められた数値を対応付け、当該フレーズを含むテキストのうち前記優先順位が最高のテキストに対応付けた前記数値に、前記優先順位が最高ではないテキストに対応付けた前記数値を加えることで、前記指標値を算出する
    請求項2に記載のシステム。
  5. 前記指標算出部は、前記複数のフレーズのそれぞれについて、当該フレーズが前記複数のテキストに出現する頻度を算出し、当該フレーズを含むテキストのうち前記優先順位が最高のテキストに対応付けて、当該頻度を示す指標値を算出する
    請求項1に記載のシステム。
  6. 前記複数のフレーズのそれぞれについて、当該フレーズが前記複数のテキストに出現する頻度を算出すると共に、テキストごとに、当該テキストに含まれる各フレーズについて算出した前記頻度を合計し、当該合計値がより大きいテキストに対応付けてより高い前記優先順位を決定する順位決定部を更に備え、
    前記指標算出部は、前記順位決定部により決定された前記優先順位に基づいて前記指標値を算出する
    請求項1に記載のシステム。
  7. 前記複数のテキストのそれぞれは、サーバ装置がクライアント装置から要求を受けて表示するページであり、
    表示する要求を受けた頻度がより高いテキストに対応付けて、より高い前記優先順位を決定する順位決定部を更に備え、
    前記指標算出部は、前記順位決定部により決定された前記優先順位に基づいて前記指標値を算出する
    請求項1に記載のシステム。
  8. 前記複数のテキストのそれぞれは共に同一のウェブサイトのウェブページであり、
    前記ウェブサイト内のウェブページ間の階層において前記ウェブサイトのトップページからより近いウェブページに対応付けて、より高い前記優先順位を決定する順位決定部を更に備え、
    前記指標算出部は、前記順位決定部により決定された前記優先順位に基づいて前記指標値を算出する
    請求項1に記載のシステム。
  9. 前記出力部は、出力するテキストに、更に、当該テキストに対応付けて他のテキストと比較して大きい前記指標値の算出されたフレーズを対応付けて出力する、請求項1に記載のシステム。
  10. 前記出力部は、算出した前記指標値をテキストごとに合計した合計値が、大きい方から予め定められた数のテキストを選択し、選択したテキストの集合を出力する
    請求項1に記載のシステム。
  11. 前記出力部は、算出した前記指標値をテキストごとに合計した合計値が大きい方から予め定められた数のテキストを選択し、算出した前記指標値を前記複数のテキスト全てについて合計した合計値に対する、選択したそれぞれの前記テキストに対応する指標値の合計の割合である出現占拠率を算出し、出力する
    請求項5に記載のシステム。
  12. 前記出力部は、選択するテキストを順次追加する場合における前記出現占拠率の変化を示すグラフを生成して出力する、請求項11に記載のシステム。
  13. 前記複数のテキストのそれぞれは、タグを文字列に対応付けたタグ付き文書であり、
    前記判断部は、開始タグから当該開始タグに対応する終了タグまでの間の文字列を前記フレーズとして抽出して、抽出した複数の前記フレーズのそれぞれが、前記複数のテキストに含まれるかどうかを判断する、請求項1に記載のシステム。
  14. 前記判断部は、相互に予め定められた関係を有する複数の前記文字列を同一のフレーズとして抽出する、請求項13に記載のシステム。
  15. 前記判断部は、固有名詞をその総称を示す一般名詞に変換した結果同一の文字列となる複数の文字列を同一のフレーズとして抽出する、請求項14に記載のシステム。
  16. 前記判断部は、含まれる語句のうち一致する語句の割合が予め定められた基準値以上であって、かつ、前記複数のテキストに出現する頻度の差が予め定められた基準値以上である2つの文字列を、同一のフレーズとして抽出する、請求項14に記載のシステム。
  17. 前記出力部は、前記指標値が算出される毎に、テキストごとに算出された前記指標値の合計が最も大きいテキストを出力し、
    前記指標算出部は、前記出力部がテキストを出力したことに応じて、出力した前記テキストを除外した複数のテキスト、および、出力した前記テキストに含まれるフレーズを除外した複数のフレーズについて、前記指標値を更に算出する処理を、前記出力部が出力するテキストの数が予め定められた数に達するまで繰り返す
    請求項1に記載のシステム。
  18. 当該システムは、ウェブサイトの翻訳の品質の検証を支援するものであり、
    前記複数のテキストのそれぞれは、同一のウェブサイトに含まれるウェブページであり、
    前記判断部は、前記ウェブサイトのアドレスの入力を受け付けて、当該アドレスが入力されたことに応じて、当該アドレスのウェブサイトにアクセスして前記複数のテキストを取得して、前記複数のテキストのそれぞれに、予め定められた複数のフレーズのそれぞれが含まれるかどうかを判断し、
    前記出力部は、算出した前記指標値をテキストごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を、前記ウェブサイトの翻訳の品質を検証するために適したテキストの集合として出力する
    請求項1に記載のシステム。
  19. 複数のテキストの中から、あるフレーズが前記複数のテキストに含まれるかどうかに基づいて、出力するテキストを選択する方法であって、
    コンピュータにより、前記複数のテキストのそれぞれに、予め定められた複数のフレーズのそれぞれが含まれるかどうかを判断させるステップと、
    コンピュータにより、前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストのうち、テキスト間に予め定められた優先順位が最高のテキストに対応付けて、他のテキストと比較してより大きい指標値を算出させるステップと、
    コンピュータにより、算出した前記指標値をテキストごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を出力させるステップと
    を備える方法。
  20. 複数のテキストの中から、あるフレーズが前記複数のテキストに含まれるかどうかに基づいて、出力するテキストを選択するシステムとして、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記複数のテキストのそれぞれに、予め定められた複数のフレーズのそれぞれが含まれるかどうかを判断する判断部と、
    前記複数のフレーズのそれぞれについて、当該フレーズを含むテキストのうち、テキスト間に予め定められた優先順位が最高のテキストに対応付けて、他のテキストと比較してより大きい指標値を算出する指標算出部と、
    算出した前記指標値をテキストごとに合計した合計値が、より大きいテキストを優先して選択し、選択したテキストの集合を出力する出力部と
    して機能させるプログラム。
JP2007188996A 2007-07-20 2007-07-20 処理対象として適切なテキストを選択する技術 Expired - Fee Related JP5105513B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007188996A JP5105513B2 (ja) 2007-07-20 2007-07-20 処理対象として適切なテキストを選択する技術
US12/061,293 US8249859B2 (en) 2007-07-20 2008-04-02 Technology for selecting texts suitable as processing objects
US13/564,538 US8494836B2 (en) 2007-07-20 2012-08-01 Technology for selecting texts suitable as processing objects

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007188996A JP5105513B2 (ja) 2007-07-20 2007-07-20 処理対象として適切なテキストを選択する技術

Publications (2)

Publication Number Publication Date
JP2009026100A true JP2009026100A (ja) 2009-02-05
JP5105513B2 JP5105513B2 (ja) 2012-12-26

Family

ID=40265532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007188996A Expired - Fee Related JP5105513B2 (ja) 2007-07-20 2007-07-20 処理対象として適切なテキストを選択する技術

Country Status (2)

Country Link
US (2) US8249859B2 (ja)
JP (1) JP5105513B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186406A (ja) * 2009-02-13 2010-08-26 Internatl Business Mach Corp <Ibm> ソフトウェアの国際化の検証を支援する装置及び方法
JP2018185809A (ja) * 2017-04-18 2018-11-22 セールスフォース ドット コム インコーポレイティッド 自然言語翻訳及びローカライゼーション

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288239A1 (en) * 2007-05-15 2008-11-20 Microsoft Corporation Localization and internationalization of document resources
JP5105513B2 (ja) 2007-07-20 2012-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 処理対象として適切なテキストを選択する技術
US9710429B1 (en) * 2010-11-12 2017-07-18 Google Inc. Providing text resources updated with translation input from multiple users
US9824479B2 (en) * 2011-12-08 2017-11-21 Timur N. Bekmambetov Method of animating messages
US20150324528A1 (en) * 2014-05-12 2015-11-12 Tracy A. Chang System and method for tracking patient-service provider interactions
US10846476B2 (en) 2015-04-20 2020-11-24 Huawei Technologies Co., Ltd. Method and apparatus for displaying textual input of terminal device, and terminal device
KR102520202B1 (ko) * 2015-08-07 2023-04-11 삼성전자주식회사 번역 장치 및 그 제어 방법
US10133740B2 (en) * 2015-08-07 2018-11-20 Samsung Electronics Co., Ltd. Translation apparatus and control method thereof
US10235362B1 (en) * 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
US10223356B1 (en) 2016-09-28 2019-03-05 Amazon Technologies, Inc. Abstraction of syntax in localization through pre-rendering
US10275459B1 (en) 2016-09-28 2019-04-30 Amazon Technologies, Inc. Source language content scoring for localizability
US10261995B1 (en) 2016-09-28 2019-04-16 Amazon Technologies, Inc. Semantic and natural language processing for content categorization and routing
US10229113B1 (en) 2016-09-28 2019-03-12 Amazon Technologies, Inc. Leveraging content dimensions during the translation of human-readable languages

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207755A (ja) * 2001-01-09 2002-07-26 Fujitsu Ltd イベントデータに関する情報管理装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
GB9103080D0 (en) * 1991-02-14 1991-04-03 British And Foreign Bible The Analysing textual documents
JPH05151260A (ja) * 1991-11-29 1993-06-18 Hitachi Ltd 翻訳テンプレート学習方法および翻訳テンプレート学習システム
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5848386A (en) * 1996-05-28 1998-12-08 Ricoh Company, Ltd. Method and system for translating documents using different translation resources for different portions of the documents
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
WO2002073464A1 (en) * 2001-03-09 2002-09-19 The One.Com System and method for providing efficient and accurate translation of information in a communication network
JP3737779B2 (ja) * 2002-05-29 2006-01-25 富士通株式会社 翻訳サーバ、翻訳方法及びプログラム
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
US20070219782A1 (en) * 2006-03-14 2007-09-20 Qing Li User-supported multi-language online dictionary
JP5105513B2 (ja) 2007-07-20 2012-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 処理対象として適切なテキストを選択する技術

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207755A (ja) * 2001-01-09 2002-07-26 Fujitsu Ltd イベントデータに関する情報管理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186406A (ja) * 2009-02-13 2010-08-26 Internatl Business Mach Corp <Ibm> ソフトウェアの国際化の検証を支援する装置及び方法
US8447586B2 (en) 2009-02-13 2013-05-21 International Business Machines Corporation Apparatus and method for supporting verification of software internationalization
JP2018185809A (ja) * 2017-04-18 2018-11-22 セールスフォース ドット コム インコーポレイティッド 自然言語翻訳及びローカライゼーション
JP7114313B2 (ja) 2017-04-18 2022-08-08 セールスフォース ドット コム インコーポレイティッド 自然言語翻訳及びローカライゼーション

Also Published As

Publication number Publication date
JP5105513B2 (ja) 2012-12-26
US20120296632A1 (en) 2012-11-22
US8494836B2 (en) 2013-07-23
US8249859B2 (en) 2012-08-21
US20090024383A1 (en) 2009-01-22

Similar Documents

Publication Publication Date Title
JP5105513B2 (ja) 処理対象として適切なテキストを選択する技術
US8612206B2 (en) Transliterating semitic languages including diacritics
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
WO2012121063A1 (ja) 翻字処理装置、プログラム、記録媒体、及び方法
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2008108209A (ja) 機械翻訳の精度を向上させる技術
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
US7136803B2 (en) Japanese virtual dictionary
JP2004280574A (ja) 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
JP2010134922A (ja) 類似語決定方法およびシステム
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
US20090063127A1 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
US20150324073A1 (en) Displaying aligned ebook text in different languages
JP2019053262A (ja) 学習システム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2007279795A (ja) プログラムによって表示される画面が仕様を満たすか判断するシステム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
US11842141B2 (en) Device dependent rendering of PDF content
JP6564910B2 (ja) 変換装置、変換方法、及びプログラム
JP2024008334A (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20120905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120928

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5105513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees