JP2007052597A - 翻訳装置 - Google Patents

翻訳装置 Download PDF

Info

Publication number
JP2007052597A
JP2007052597A JP2005236787A JP2005236787A JP2007052597A JP 2007052597 A JP2007052597 A JP 2007052597A JP 2005236787 A JP2005236787 A JP 2005236787A JP 2005236787 A JP2005236787 A JP 2005236787A JP 2007052597 A JP2007052597 A JP 2007052597A
Authority
JP
Japan
Prior art keywords
translation
document
keyword
unit
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005236787A
Other languages
English (en)
Other versions
JP4992210B2 (ja
Inventor
Masatoshi Tagawa
昌俊 田川
Michihiro Tamune
道弘 田宗
Hiroshi Masuichi
博 増市
Kyosuke Ishikawa
恭輔 石川
Kiyoshi Tashiro
潔 田代
Atsushi Ito
篤 伊藤
Naoko Sato
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005236787A priority Critical patent/JP4992210B2/ja
Publication of JP2007052597A publication Critical patent/JP2007052597A/ja
Application granted granted Critical
Publication of JP4992210B2 publication Critical patent/JP4992210B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 必要部分のみを翻訳して出力する低コストで使い勝手の良い翻訳装置を提供する。
【解決手段】 この翻訳装置1は、翻訳元文書を入力するための画像入力部12と、入力された翻訳元文書からインデックス部を特定し、特定されたインデックス部から予め指定されたキーワード情報を含むものを抽出する制御部18と、抽出されたインデックス部とそのインデックス部に対応する本文とを翻訳する翻訳部14と、翻訳結果を出力する出力部15とを有する
【選択図】 図3

Description

本発明は、機械翻訳を用いて、ユーザが求める内容の翻訳を行う翻訳装置に関する。
国際的なビジネスの発展と、通信ネットワークの広がりにより、多くの情報が、原語で入手可能になってきている。そして、それらの情報を有効に利用することは、個人的なレベルでも、社会的なレベルでも重要性を増しつつある。しかしながら、そのような情報の利用は、他国の言語による多くの情報の中から、必要なあるいは興味のある情報を選択するという困難な作業を伴う。
このような場合に、コンピュータによる機械翻訳を用いることが考えられる。実際に、外国語情報を定常的に機械翻訳し、利用者に利用できる状態で提供することは、多くの組織や、インターネットのようなオープンな領域でも日常的に行われていることである。しかしながら、このようなシステムでは、提供者は、多数の利用者に共通の関心が有る情報のみを対象としている。
個別のユーザに対して、機械翻訳による翻訳サービスを行うシステムも既に存在する。ユーザは、このような翻訳サービスを、所定の外国語情報の中から自分が必要とする情報を収集する目的で利用することができる。しかしながら、不必要な情報を翻訳しても、役に立たないばかりか、翻訳コストが大きくなりまた、翻訳後であっても、多くの情報から必要な情報を探すために時間を要する。
例えば、特許文献1には、翻訳対象の文章に以前に翻訳した文章と同一部分があった場合には、過去の翻訳文を利用することによって無駄な翻訳作業を行うことを回避し翻訳コストを低減させる技術が開示されているが、このような技術を用いたとしても、個別のユーザに対して不必要と判断される情報の翻訳を回避することは不可能である。
特開平3−282965号公報
本発明は、前記事情に鑑みて為されたもので、翻訳元文書の中から、必要と判断される部分のみを翻訳して出力することで、低コストでより使い勝手の良い翻訳装置を提供することを目的とする。
前記目的を達成するために、請求項1に記載の翻訳装置は、翻訳元文書を入力するための文書入力部と、入力された翻訳元文書からインデックス部を特定し、特定されたインデックス部から予め指定されたキーワード情報を含むものを抽出する編集部と、抽出されたインデックス部とそのインデックス部に対応する本文とを翻訳する翻訳部と、翻訳結果を出力する出力部とを有することを特徴とする。
請求項1に記載の発明においては、まず翻訳元文書からインデックス部を特定し、特定されたインデックス部からキーワード情報を含むものを抽出してその本文を翻訳するので、翻訳作業量を軽減してコストを低減しつつ、必要な情報のみを選択した状態で翻訳文書が出力される。
請求項2に記載の翻訳装置は、請求項1に記載の発明において、前記文書入力部は、翻訳元文書を画像データとして入力する画像入力装置を有することを特徴とする。
請求項2に記載の発明においては、画像入力装置として、紙文書であれば、スキャナが用いられ、電子データであれば、通信回線や電子データ媒体を読みとる装置が用いられる。
請求項3に記載の翻訳装置は、請求項2に記載の発明において、前記編集部は、入力された画像をレイアウト解析することによりインデックス部を特定することを特徴とする。
請求項3に記載の発明においては、レイアウト解析において、インデックス部と本文、あるいはその他の部分との形態的特徴の差異等を利用して、特定を行う。
請求項4に記載の翻訳装置は、請求項1ないし請求項3のいずれかに記載の発明において、前記キーワード情報は、主キーワードとその関連キーワードから構成されていることを特徴とする。
請求項4に記載の発明においては、キーワード情報とし、主キーワードとその関連キーワードを含むものを採用することで、主キーワードと関連する情報までを抽出することができる。
請求項5に記載の翻訳装置は、請求項1ないし請求項4のいずれかに記載の発明において、前記キーワード情報は、各キーワードの優先度を表す指標を有していることを特徴とする。
請求項5に記載の発明においては、キーワードの優先度を表す指標を用いることで、優先度に応じた取り扱いを適宜にすることができる。
請求項6に記載の翻訳装置は、請求項1ないし請求項5のいずれかに記載の発明において、出力量の最大値を指定可能となっていることを特徴とする。
請求項6に記載の発明においては、出力量の最大値を指定することで、ユーザが必要とするだけの量を出力させ、人が選別する負担を軽減する。
請求項1ないし請求項6に記載の翻訳装置によれば、必要部分のみを翻訳して出力する低コストで使い勝手の良い翻訳装置を提供することができる。
以下、図面を参照してこの発明の実施の形態を説明する。
[構成]
図1は、本実施形態に係る翻訳装置1の構成を示す図である。
この翻訳装置1は、外国語(翻訳元言語)の入力文書(翻訳元文書)を入力した後、そのうちの必要な箇所を選択して、ユーザの言語(翻訳先言語)に翻訳して出力するものである。この実施の形態では、入力文書も出力文書も紙の形であるが、これに限られるものではない。
翻訳装置1は、ユーザに操作されて指示を入力する操作部11、原稿を読みとってその画像データを取得するイメージスキャナ等の画像入力部12、これらの入力されたデータを一時的に記憶する記憶部(RAM)13、記憶されたデータの内容を翻訳する翻訳部14、および翻訳処理を受けたデータを出力する出力部15と、各種のデータテーブルやプログラムを記憶する主記憶部16、ICカードリーダのような補助入力部17、およびこれらの各部の動作を制御し、データを授受し、その間にデータを加工する編集部(制御部)18を有する。なお、これらの各部は、ハードウエア部分とソフトウエア部分とを含んでおり、ソフトウエア部分については、機能をベースとして仮想的に構築したものである。
この翻訳装置1は、例えば、登録されたユーザに使用させるために、所定の場所に設置されている。ユーザはユーザカード(ICカード)を持っており、これには、ユーザのID、個人情報、およびユーザが探している情報の種類を示すキーワード情報が記載されている。ICカードへのキーワード情報の書き込みは、操作部11からでもできるが、ユーザ個人のコンピュータ等の装置から事前に入力しておくこともできるようになっている。この例では、キーワード情報は、1つのキーワードとその関連情報から構成されている。
図2は、「日本」というキーワードに関するキーワード情報の例であり、優先度0は同意語、略語であり、キーワードと同じレベルである。優先度1は主要な都市名、優先度2は観光地、優先度3は固有の文化、優先度4は歴史、優先度5は人気のあるスポーツ、等が挙げられている。この例では、数値が小さいほど優先度が高い。この例のキーワード情報は、「外国で話題になる日本の記事」を探索するという目的でユーザが作成したものであるが、例えば、翻訳装置1の主記憶部16に用意したものからユーザが選択して設定するようにしてもよい。
操作部11には、キーボード、マウス等の入力手段や、液晶ディスプレイ等の表示手段が設けられている。主記憶部16は、図示しない電源から電力が供給されなくともデータを保持することが可能な不揮発性メモリであり、後述の動作を導くプログラム、翻訳元言語と翻訳先言語とが対応付けられている翻訳用の辞書D等を記憶している。辞書Dは、ユーザのニーズに応じた複数種類の言語に対応しており、それらの中から選択して用いられる。
電源から装置に電力が供給され、ICカードリーダ17にICカードが装着される等の条件が整うと、制御部18は、主記憶部16からプログラムPを読み出して実行する。これによって、翻訳装置1の各部を制御可能な状態となり、次に述べる動作を行う。以下の説明では、図3のフロー図を参照する。
[動作]
制御部18は、まず、ICカードリーダ17に装着されたICカードのキーワード情報を読み出し、RAM13のキーワードテーブルに記憶する(ステップ1)。次に、制御部18は、ユーザに対して翻訳元文書の入力と、翻訳元および翻訳先言語の特定、および最大出力量の指定のための入力を促す(ステップ2)。ユーザは、紙文書である翻訳元文書を原稿台にセットして、読み取りを開始するとともに、操作部11を用いて翻訳元言語と翻訳先言語の種類や、最大出力量を入力する。翻訳元文書が複数の言語を含んでいる場合には、翻訳元言語については制御部18に判断させるようにしてもよい。最大出力量は、絶対値(原稿用紙で5頁分)、翻訳元文書の情報量に対する比率(原文の10%)、または使用者に対する課金額(5000円)等の適宜の方法で設定することができる。
これらの指示が終わった後、制御部18は、原稿台に文書がセットされたことを確認し、読みとった画像データをRAM13に記憶する(ステップ3)。次に、ステップ3で取得された画像データに対して、OCR(Optical Character Recognition)を行ってテキストデータを生成し(ステップ4)、RAM13に記憶する。制御部18は、さらに、画像データに対してレイアウト解析を行い、インデックス(見出し)部分を抽出する(ステップ5)。
インデックス部は、翻訳元文書のレイアウトにおいて、本文とは異なる幾つかの特徴を持っている。例えば、章、節、という表記の直後に存在し、文字が大きく、本文とは切り離された短い文章である、等である。また、図や表のタイトルや説明は、図や表の近辺にレイアウトされているという特性等を考慮して、インデックス部とは区別する。これらの特性を基にレイアウト解析を行って、インデックス部を判断することができる。これにより、ステップ4で得られたテキストデータは、インデックス部と本文とに分けられ、上下関係から対応させて、図4に示すように、インデックス部と本文とからなる対象単位文書が構成される。この例では、7の対象単位文書が構成された。
次に、制御部18は、図5の「インデックス部訳文」欄に示すように、各対象単位文書のインデックス部だけを翻訳する(ステップ6)。そして、翻訳結果の中にRAM13に記憶されたキーワードが存在するかどうかを探索し(ステップ7)、キーワードが存在する対象単位文書を抽出する(ステップ8)。これは、図5において「キーワード」欄で○によって示されている。次に、この抽出した対象単位文書を、図5の「本文訳文」欄に示すように、翻訳先言語に翻訳する(ステップ9)。
抽出された対象単位文書の翻訳が終わった後、個々の対象単位文書の出力量を計算し、優先度の高いものから、最大出力量を超えない範囲で対象単位文書を選択し、出力する対象文書を決定する(ステップ10)。この例では、番号1の対象単位文書のキーワードの優先度が0、番号3の対象単位文書のキーワードの優先度が1、番号6の対象単位文書のキーワードの優先度が3であり、番号8の対象単位文書のキーワードの優先度が6であった。番号1,3,6の対象単位文書の出力量の合計が指定された最大出力量を超えず、番号1,3,6,8の対象単位文書の出力量の合計が指定された最大出力量を超えるので、出力されるのは、番号1,3,6の対象単位文書となった。
制御部18は、出力すると決定された対象単位文書について、インデックス訳文と本文訳文とを組み合わせ、イメージ化したデータを出力部15に送り、出力(印刷)する(ステップ11)。結果を図6に示す。なお、翻訳結果は、印刷以外の適宜の方法で出力されるようにしてもよい。例えば、電子データとしてICカードを含む適宜の媒体に記憶させてもよいし、インターネットやLANのような通信回線を経由して送信してもよい。
このようにして、翻訳され出力された文書は、ユーザの指定したキーワードを含む対象単位文書のみであり、ユーザにとって有用性の高い情報を含む文書である。従って、この翻訳装置は、ユーザが効率的に有効利用することができる価値の高い情報を提供することができる。
以上、この発明を実施の形態に沿って説明したが、本発明はこれに限定されるものではない。例えば、キーワード情報は、国名をキーワードにした場合を例示したが、このような地域名だけでなく、特定の情報を選択するためのあらゆる種類のキーワードを用いることができる。また、上記例では、キーワード情報は、ユーザが自分で作成したものを入力したが、翻訳装置に用意してあるものから選択する形式でもよいし、外部のデータベースにアクセスしてこれを援用するような方法でもよい。例えば、事典のようなデータベースを用いて、説明書きにキーワードが存在するような語を全てキーワード情報として引用するような方法を採用することができる。
また、上記例では、キーワード情報の指定と翻訳先言語の指定とを独立に行う場合について説明したが、特定の国に関するキーワード情報を用いる場合には、キーワード情報の指定と翻訳先言語の指定とを互いに関連させ、両者の何れか一方のみを指定させるようにしても良い。例えば、特定の国に関するキーワード情報に、その国の公用語を表すデータを対応付けて国毎に翻訳装置1に予め記憶させておき、それら複数のキーワード情報のうちの何れか1つが指定された場合には、そのキーワード情報に対応付けられているデータの表す言語を翻訳先言語とすればよい。逆に、翻訳先言語が指定された場合には、その翻訳先言語を表すデータに対応付けられているキーワード情報を用いるようにしても良い。なお、国とその国の公用語との関係は必ずしも1対1ではないから、ユーザによって指定されたキーワード情報に複数の言語を表すデータが対応づれられている場合には、それら複数の言語のうちの何れか1つを翻訳先言語としてユーザに指定させればよく、また、ユーザによって指定された翻訳先言語に対応するキーワード情報が複数ある場合には、それら複数のキーワード情報のうちの何れか1つをユーザに選択させるようにすればよい。
また、この例では、入力文書として紙文書を用いたが、電子化されたデータを用いることができる。このようなデータは、磁気ディスクのような媒体や、インターネット等の通信回線を用いて入力が可能であり、入力部はそれらに対応したものが使用される。ユーザと翻訳装置とは、電子データを通信回線を介して授受できるので、翻訳サービス自体を通信回線経由で提供することができる。なお、翻訳元文書の電子データがイメージデータでなくテキストデータである場合には、インデックス部と本文とを区別するための指標を付加させておき、それを基に翻訳装置が両者を区別する等の方法を採用する。
この発明の実施の形態の翻訳装置の構成を示すブロック図である。 キーワード情報の構造の一例を示す図である。 この発明の実施の形態の翻訳装置の動作を示すフロー図である。 翻訳元文書の例を示す図である。 文書の翻訳の過程を示す図である。 翻訳結果を示す図である。
符号の説明
1・・・翻訳装置、12・・・文書入力部、14・・・翻訳部、18・・・制御部(編集部)、15・・・出力部

Claims (6)

  1. 翻訳元文書を入力するための文書入力部と、
    入力された翻訳元文書からインデックス部を特定し、特定されたインデックス部から予め指定されたキーワード情報を含むものを抽出する編集部と、
    抽出されたインデックス部とそのインデックス部に対応する本文とを翻訳する翻訳部と、
    翻訳結果を出力する出力部とを有することを特徴とする翻訳装置。
  2. 前記文書入力部は、紙文書を画像入力する画像入力装置を有することを特徴とする請求項1に記載の翻訳装置。
  3. 前記編集部は、入力された画像をレイアウト解析することによりインデックス部を特定することを特徴とする請求項2に記載の翻訳装置。
  4. 前記キーワード情報は、主キーワードとその関連キーワードから構成されていることを特徴とする請求項1ないし請求項3のいずれかに記載の翻訳装置。
  5. 前記キーワード情報は、各キーワードの優先度を表す指標を有していることを特徴とする請求項1ないし請求項4のいずれかに記載の翻訳装置。
  6. 出力量の最大値を指定可能となっていることを特徴とする請求項1ないし請求項5のいずれかに記載の翻訳装置。
JP2005236787A 2005-08-17 2005-08-17 翻訳装置 Expired - Fee Related JP4992210B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005236787A JP4992210B2 (ja) 2005-08-17 2005-08-17 翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005236787A JP4992210B2 (ja) 2005-08-17 2005-08-17 翻訳装置

Publications (2)

Publication Number Publication Date
JP2007052597A true JP2007052597A (ja) 2007-03-01
JP4992210B2 JP4992210B2 (ja) 2012-08-08

Family

ID=37917010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005236787A Expired - Fee Related JP4992210B2 (ja) 2005-08-17 2005-08-17 翻訳装置

Country Status (1)

Country Link
JP (1) JP4992210B2 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195479A (ja) * 1989-01-25 1990-08-02 Toshiba Corp 機械翻訳システム
JPH0387976A (ja) * 1989-08-31 1991-04-12 Canon Inc 電子スチルカメラ用文字認識・翻訳装置
JPH05233692A (ja) * 1992-02-19 1993-09-10 Toshiba Corp 機械翻訳装置
JPH06162071A (ja) * 1992-11-27 1994-06-10 Matsushita Electric Ind Co Ltd 機械翻訳装置
JPH086950A (ja) * 1994-06-15 1996-01-12 Sharp Corp キーワード翻訳機能付き機械翻訳装置
JPH0944504A (ja) * 1995-07-27 1997-02-14 Toshiba Corp 翻訳方法及び機械翻訳装置
JPH09179865A (ja) * 1995-12-25 1997-07-11 Sharp Corp 翻訳対象領域決定機能付き機械翻訳装置
JPH10162006A (ja) * 1996-12-03 1998-06-19 Matsushita Electric Ind Co Ltd 文書翻訳表示装置
JPH11184865A (ja) * 1997-12-19 1999-07-09 Matsushita Electric Ind Co Ltd 文書要約装置
JP2001325283A (ja) * 2000-05-15 2001-11-22 Akazawa Sogo Kenkyusho:Kk 検索システム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195479A (ja) * 1989-01-25 1990-08-02 Toshiba Corp 機械翻訳システム
JPH0387976A (ja) * 1989-08-31 1991-04-12 Canon Inc 電子スチルカメラ用文字認識・翻訳装置
JPH05233692A (ja) * 1992-02-19 1993-09-10 Toshiba Corp 機械翻訳装置
JPH06162071A (ja) * 1992-11-27 1994-06-10 Matsushita Electric Ind Co Ltd 機械翻訳装置
JPH086950A (ja) * 1994-06-15 1996-01-12 Sharp Corp キーワード翻訳機能付き機械翻訳装置
JPH0944504A (ja) * 1995-07-27 1997-02-14 Toshiba Corp 翻訳方法及び機械翻訳装置
JPH09179865A (ja) * 1995-12-25 1997-07-11 Sharp Corp 翻訳対象領域決定機能付き機械翻訳装置
JPH10162006A (ja) * 1996-12-03 1998-06-19 Matsushita Electric Ind Co Ltd 文書翻訳表示装置
JPH11184865A (ja) * 1997-12-19 1999-07-09 Matsushita Electric Ind Co Ltd 文書要約装置
JP2001325283A (ja) * 2000-05-15 2001-11-22 Akazawa Sogo Kenkyusho:Kk 検索システム

Also Published As

Publication number Publication date
JP4992210B2 (ja) 2012-08-08

Similar Documents

Publication Publication Date Title
JP3666004B2 (ja) 多言語対応文書検索システム
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
JPH07282063A (ja) 機械翻訳装置
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JPH10289240A (ja) 画像処理装置及びその制御方法
JP2005107931A (ja) 画像検索装置
JPH0576067B2 (ja)
JP4992210B2 (ja) 翻訳装置
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2003296327A (ja) 翻訳サーバ、ジャンル別オンライン機械翻訳方法、およびそのプログラム
CN106250354A (zh) 处理文书的信息处理装置、信息处理方法以及程序
JPS61248160A (ja) 文書情報登録方式
JP3906820B2 (ja) 翻訳支援装置および翻訳支援プログラム
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JPH10320399A (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP2017162258A (ja) 検索処理プログラム、検索処理方法、及び検索処理装置
JPH07334526A (ja) 辞書検索表示装置
JPH06149881A (ja) 辞書引き装置及び文書処理装置並びにディジタル複写装置
JPH0635971A (ja) 文書検索装置
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JP2005208687A (ja) 多言語文書処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees