JP4852918B2 - 翻訳装置、翻訳方法およびプログラム - Google Patents

翻訳装置、翻訳方法およびプログラム Download PDF

Info

Publication number
JP4852918B2
JP4852918B2 JP2005213346A JP2005213346A JP4852918B2 JP 4852918 B2 JP4852918 B2 JP 4852918B2 JP 2005213346 A JP2005213346 A JP 2005213346A JP 2005213346 A JP2005213346 A JP 2005213346A JP 4852918 B2 JP4852918 B2 JP 4852918B2
Authority
JP
Japan
Prior art keywords
abbreviation
target phrase
sentence
image
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005213346A
Other languages
English (en)
Other versions
JP2007034430A (ja
Inventor
直子 佐藤
昌俊 田川
道弘 田宗
篤 伊藤
博 増市
潔 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005213346A priority Critical patent/JP4852918B2/ja
Publication of JP2007034430A publication Critical patent/JP2007034430A/ja
Application granted granted Critical
Publication of JP4852918B2 publication Critical patent/JP4852918B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Facsimiles In General (AREA)

Description

本発明は、文書を異なる言語の文書に翻訳する技術に関する。
ある言語で記述された文章を他言語の文章に翻訳すると文章の文字数が増える場合がある。例えば、日本語の漢字仮名混じり文を英文に翻訳すると、一般に文字数が増える。図4は、日本語で記載された原文の例である。図5は、この原文を英語に翻訳した翻訳文の例である。この例で示されるように、翻訳文の文字数が原文の文字数より増えると、翻訳文の画像を原文と同一のレイアウトで生成することができなくなる場合がある。ここで、レイアウトとは、ページ内における文章や図表の配置、文字サイズ 文字間隔 行間隔等を意味する。
例えば、仮に原文と同一の文字サイズ、文字間隔および行間隔にて翻訳文の画像を生成すると、文章の外観上の長さが長くなる。文章の外観上の長さが長くなると、章、節、項の区切りの位置、図表類の位置などの変更が生じ得るため、文書の外観の印象が変化してしまう。また、ページ数が増加することもあり得る。しかし、原文と翻訳文の外観の印象は近似していることが望ましい。また、ページ数の増加も避けることが望ましい。
一方、翻訳文の文字サイズを小さくすると文章の外観上の長さを短縮することができる。しかし、文字サイズを小さくすると文章が読みにくくなってしまう。文字間隔を小さくする、行間隔を小さくする、などの手段を用いたとしても文章が読みにくくなってしまう。
上述のとおり、文書を他言語に翻訳する際に、翻訳文のレイアウトを原文と常に同一にすることは従来の技術では不可能である。
ところで、語句を構成する文字列の一部を削除することによって省略語を作成し、この省略語を用いて文章を作成する技術が知られている。例えば、特許文献1に開示されている技術においては、予め定められた条件に該当する単語列を抽出し、抽出された単語列に含まれる文字の一部を一定の規則に従って削除することによって省略語を作成する。例えば、名詞等、特定の品詞が所定数以上連続し、これと同一の単語列が所定数以上文中に存在するならば、この単語列に含まれる単語の先頭文字を用いて省略語を作成する。そして、この単語列を省略語で置き換えた文章を生成する。これによって、頻出する長い語句が自動的に省略語に変換されるから、ユーザの負担を増すことなく、読みやすい文章を作成することができるようになる。
特開平11−328166号公報
上記の特許文献1で開示されている技術を用いれば、文章の文字数を減らすことができる。しかし、この技術では、予め定められた条件に該当する単語列の文字数を削減するにすぎないから、文章の外観上の長さを制御することができない。従って、この技術では、翻訳文のレイアウトを原文と常に同一にすることができるとは限らない。
本発明は、上述した背景の下になされたものであり、ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にすることのできる技術の提供を目的とする。
請求項1に係る発明は、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、A.前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、B.前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、C.前記子音のうち最初に出現する子音のみを用いる、D.前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、E.前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、前記画像生成手段で生成された画像を出力する出力手段とを有することを特徴とする翻訳装置を提供する。
請求項7に係る発明は、入力部が、原文の記載された原稿の画像を入力する入力ステップと、制御部が、前記入力ステップで入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析ステップと、制御部が、前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、制御部が、前記文字認識ステップで認識された文字列に対応する翻訳語を異種言語間で同じ意味の単語を対応付けて記憶部に記憶した辞書から抽出して翻訳文を生成する翻訳ステップと、制御部が、前記画像解析ステップで認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定ステップと、制御部が、前記判定ステップによる判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出ステップと、制御部が、A.前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、B.前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、C.前記子音のうち最初に出現する子音のみを用いる、D.前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、E.前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定ステップと、制御部が、前記抽出ステップで抽出された省略対象語句を前記省略語決定ステップで決定された省略語に変換した翻訳文を生成する変換ステップと、前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、制御部が、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定ステップと、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、制御部が、前記変換ステップで生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定ステップで決定された省略語の定義を表す画像を生成する画像生成ステップと、出力部が、前記画像生成ステップで生成された画像を出力する出力ステップとを有することを特徴とする翻訳方法を提供する。
請求項8に係る発明は、コンピュータ装置を、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、A.前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、B.前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、C.前記子音のうち最初に出現する子音のみを用いる、D.前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、E.前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、前記画像生成手段で生成された画像を出力する出力手段として機能させるためのプログラムを提供する。
本発明によれば、ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にすることができる。
以下、図面を参照して、本発明の実施形態について説明する。
<第1実施形態>
<構成>
翻訳装置1は、入力された原文を翻訳して目的言語の翻訳文を得る翻訳機能と、原稿を読み取って複製物を作成する複写機能とを有している。
まず、翻訳装置1のハードウェア構成について説明する。図1は、本発明の実施形態における翻訳装置1のハードウェア構成を示す図である。
翻訳装置1は、CPU(Central Processing Unit)44、ROM(Read Only Memory)45、RAM(Random Access Memory)46等(いずれも図示省略)からなる制御部4を有し、ROM45に格納されているOS(Operating System)プログラムをCPU44が実行することによって翻訳装置1各部の制御を行う。
記憶部5は、ハードディスク装置等の不揮発性メモリである。記憶部5には、原稿の読取、翻訳、出力等の手順を記述したプログラムが記憶されている。
指示入力部41は、テンキー、スタートボタン等からなるキーボード40、タッチパネル機能を有する液晶パネルからなる表示部39を備えており、翻訳装置1に対する指示をユーザが入力することができる。また、翻訳装置1に異常等が発生した場合に、表示部39に翻訳装置1の状態に関する情報を表示することができる。
給紙トレイ9には画像を形成するためのシート10が収容される。ユーザが指示入力部41により画像形成の指示を入力すると、給紙ローラ33が回転駆動され、給紙トレイ9からシート10を1枚ずつ送り出す。給紙トレイ9から送り出されたシート10はローラ対34、35、37によって搬送路36に沿って搬送される。
画像入力部12は、原稿を光学的に読み取って画像データを生成するスキャナ装置である。プラテンガラス2上に載置された原稿に対して光源13により光が照射され、この反射光が光学系3によって処理される。反射光は、ミラー14、15、16を介して受光部17で受光される。そして、画像処理部18が反射光を電気信号に変換し、イエロー、マゼンタ、シアン、ブラックの各色からなる画像データを生成する。
画像形成部6は、画像形成エンジン7Y、7M、7C、7K、転写ベルト8等からなる。
画像形成エンジン7Y、7M、7C、7Kは、それぞれイエロー(Y)、マゼンタ(M)、シアン(C)、ブラック(K)の各色のトナー像を形成する。各画像形成エンジンの構成は共通であるから、ここでは画像形成エンジン7Yについてのみ説明する。
画像形成エンジン7Yは、静電潜像が形成される像担持体としての感光体ドラム20Yの周囲に、帯電装置21Y、露光装置19Y、現像装置22Y、クリーナ24Y等を設けて構成されている。
帯電装置21Yは、矢印Aの方向に回転駆動される感光体ドラム20Yの表面を所定の電位に帯電させる。
露光装置19Yは、所定の電位に帯電した感光体ドラム20Yに対して、画像データに基づいた露光用ビームLBを照射するROS(Raster Output Scanner)である。露光装置19Yは、図示しない半導体レーザーから画像データに基づいてレーザー光を出射し、このレーザー光を偏向走査することにより感光体ドラム20Yの表面に静電潜像を形成する。感光体ドラム20Yの表面では、レーザー光が照射された部分の電位が、感光体ドラム20Yの有する光導電性により所定のレベルまで減少する。このように、感光体ドラム20Yの表面電位が変化することにより、感光体ドラム20Yの表面には画像データにもとづいた静電潜像が形成される。
現像装置22Yは、感光体ドラム20Y表面に形成された静電潜像を顕像化する装置である。トナータンク23Yからはトナー(帯電色材)が供給され、感光体ドラム20Yの帯電極性と同極性に帯電したトナーによって静電潜像を反転現像することによってトナー像を得る。
転写ベルト8は、ローラ26、27、28、29に張架されており、矢印Bの方向に循環駆動される。感光体ドラム20Yはその下方に位置する転写ベルト8と圧接しており、上記のようにして形成されたトナー像が転写ベルト8に転写される。
クリーナ24Yは、感光体ドラム20Yに残存したトナーを除去する装置である。
以上が画像形成エンジン7Yの構成である。画像形成エンジン7M、7C、7Kにおいても各色に対応したトナー像が形成され、転写ベルト8に重ねて転写される。なお、これ以降、画像形成エンジン7Y、7M、7C、7Kを区別する必要のない場合には、単に画像形成エンジン7と称する。他の構成要素についても同様に、Y、M、C、Kの別を区別する必要のない場合には、Y、M、C、Kの表記を省略するものとする。
給紙トレイ9から搬送路36上に送り出されたシート10は、転写ベルト8と転写ローラ30とが形成するニップ部に進入し、転写ベルト8に圧接される。この圧接力および静電吸引力によってトナー像がシート10の表面に転写される。
トナー像が転写されたシート10は、ローラ対31によって定着装置11に導かれる。定着装置11においては、シート10に対して加圧および加熱が施され、トナー像がシート10に定着される。このようにして画像形成が行われたシート10は、排紙トレイ32に排出される。
次に、翻訳装置1の機能構成について説明する。図2は、翻訳装置1の機能構成を表す図である。CPU44が記憶部5に記憶されているプログラムを実行することによってこれらの機能が実現される。
辞書201は、異種言語間で同じ意味の単語を対応付けて記憶したものであり、記憶部5に格納されている。辞書201は、日本語、英語、中国語など種々の言語に対応したものが記憶されている。また、辞書201には、単語の品詞の種別を表す情報が各単語と対応付けられて記憶されている。
省略語辞書202は、語句を構成する文字列の一部を省略した省略語を当該語句と対応付けて記憶したものであり、記憶部5に格納されている。省略語辞書202も、日本語、英語、中国語など種々の言語に対応したものが記憶されている。
図6は、省略語辞書202の例を示す図である。同図においては、英語の省略語辞書の例が示されている。例えば、原語「next-generation」の省略語として「N-G」が対応付けられて記憶されている。省略語辞書202には、予め任意に定められた省略語を記憶させておいてもよいし、あるいは、後述する省略語生成手段107によって生成された省略語を記憶させてもよい。
入力手段101は、原文の記載された原稿の画像を入力する。具体的には、入力手段101は、画像入力部12を用いて原稿の画像を入力し、原稿の画像を表す原稿画像データを生成する。
画像解析手段102は、入力手段101で入力された画像で表される原稿のレイアウトを解析し、この原稿を構成する単位領域を認識する。ここで、レイアウトとは、ページ内における文章や図表の配置、文字サイズ 文字間隔 行間隔等を意味する。レイアウト解析によって、原稿を構成する文章領域、図表領域、絵柄領域などが区別して認識される。さらに、文章領域における章、節、項などの区切り、表中のセルの区切りなどが認識される。そして、これらの区切りによって区切られた各領域が単位領域として認識される。例えば図4の例では、「1.はじめに」に後続する行から「2.XMLの特徴」の直前の行までが1つの単位量域として認識される。
文字認識手段103は、入力手段101で入力された画像に含まれている原文の文字列を認識する。記憶部5には公知のOCR(Optical Character Recognition)プログラムが記憶されており、CPU44がこのOCRプログラムを実行することによって文字認識が行われる。
翻訳手段104は、入力手段101で入力された画像に含まれる原文を翻訳先言語で記述された文に翻訳して翻訳文を生成する。翻訳文の生成には公知の方法を用いる。例えば、形態素解析手法を用いて原文を形態素に分割し、構文解析手法、意味解析手法を用いて原文の構文を解析して構文木を作成し、翻訳先言語における構文木に変換する。そして、各形態素に対応する訳語を辞書201から抽出して構文木にあてはめ、翻訳文を生成する。
判定手段105は、画像解析手段102で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。例えば、図4の例における「1.はじめに」に後続する単位領域においては、図5の例に示されるように翻訳文の行数(18行)が原文の行数(14行)を上回っている。従って、この例では、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができないと判定される。
抽出手段106は、判定手段105による判定の結果、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた第1の条件を満たす語句を省略対象語句として翻訳文から抽出する。ここで、予め定められた第1の条件とは、例えば、予め定められた上限値を上回る文字数の名詞または名詞句が翻訳文中に出現する出現回数が予め定められた上限値を上回る場合である。図6に省略語辞書202の例を示す。例えば、原語「next-generation」は文字数が15である。文字数の上限値を例えば10に設定した場合、「next-generation」が省略対象語句として抽出される。なお、出現回数の上限値は任意の値であり、1でもよい。
抽出手段106における省略対象語句の抽出の条件は上記の他にも任意の条件を用いることが可能である。例えば、単語よりも熟語を優先して省略対象語句として抽出するようにしてもよい。あるいは、翻訳文において用いられる省略語の種類が最も少なくなるように省略対象語句を抽出するようにしてもよい。
省略語生成手段107は、語句を構成する文字列の一部を予め定められた規則に従って省略した省略語を生成する。省略語の生成方法は任意の方法を用いることが可能である。以下に、省略語の生成方法の例を列挙する。
<方法1>省略対象語句が単語の場合には、省略対象語句の先頭から所定数の文字を用いて省略語を生成する。例えば、省略対象語句が「specification」である場合には、先頭から4文字を用いることにより「spec」なる省略語が生成される。
<方法2>省略対象語句が単語の場合には、省略対象語句の先頭文字と、先頭文字に後続する子音とを出現順に並べることによって省略語を生成する。例えば、省略対象語句が「source」である場合には、「src」なる省略語が生成される。
<方法3>方法2において、先頭文字に後続する子音のうち最初に出現する子音のみを用いる。例えば、省略対象語句が「green」である場合には、「gr」なる省略語が生成される。
<方法4>省略対象語句が熟語(2つ以上の単語からなる語句)の場合には、省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する。例えば、省略対象語句が「markup language」である場合には、「ML」なる省略語が生成される。
<方法5>省略対象語句が熟語の場合には、省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字とを出現順に並べることによって省略語を生成する。例えば、省略対象語句が「target value」である場合には、「tvalue」なる省略語が生成される。
省略語決定手段108は、抽出手段106で抽出された省略対象語句を構成する文字列の一部を省略した省略語を決定する。省略語の決定は、省略語辞書202および省略語生成手段107を用いて行う。まず、抽出手段106で抽出された省略対象語句に対応する省略語を省略語辞書202から抽出する。省略対象語句に対応する省略語が省略語辞書202に記憶されていない場合には、省略語生成手段107により省略対象語句の省略語を生成する。
省略語の決定においては、最初の試行で原文と同一のレイアウトに収まる翻訳文が生成されるとは限らない。そのため、省略語決定手段108によって省略語を一旦決定した後、この省略語を用いた翻訳文が原文と同一のレイアウトに収まるか否かを判定手段105を用いて判定する。判定の結果、同一のレイアウトに収まらない場合には、文字数の上限値または出現回数の上限値を引き下げる(第2の条件)ことによってさらに省略語を生成し、この省略語を用いた翻訳文が原文と同一のレイアウトに収まるか否かを判定手段105を用いて判定する。省略語決定手段108は、省略語を用いた翻訳文が原文と同一のレイアウトに収まるようになるまで、この一連の処理を繰り返す。
変換手段109は、抽出手段106で抽出された省略対象語句を省略語決定手段108で決定された省略語に変換した翻訳文を生成する。
画像生成手段110は、変換手段109で生成された翻訳文の画像を原文と同一のレイアウトにて生成するとともに、省略語決定手段108で決定された省略語の定義を表す画像を生成する。省略語の定義を表す画像は、例えば翻訳文の余白部分に配置する。画像生成手段110は、翻訳文と省略語の定義とを表すテキスト、文書のレイアウトからなる文書データをページ記述言語を用いて生成する。
出力手段111は、画像生成手段110で生成されたデータに基づいて画像を出力する。具体的には、画像生成手段110で生成された文書データをラスタデータに変換し、画像形成部6に供給する。すると、翻訳文を表す画像がシート表面に形成されて排紙トレイ32に排出される。
<動作>
次に、翻訳装置1の動作について説明する。ここで、翻訳装置1には電源が投入されており、CPU44がプログラムを実行中であるものとする。図3は、翻訳装置1の動作のフローを示す図である。また、以下に示す処理は、CPU44が記憶部5に記憶されているプログラムを実行することによって行われるものであるから、以下の説明においては、動作の主体をCPU44とする。
最初にステップA01では、CPU44は、入力手段101を用いて、原文の記載された紙文書(原稿)の読み取りを行う。原文(日本語)の記載された原稿の例を図4に示す。ユーザは、原文の記載された面がプラテンガラス2に接するように原稿を載置し、指示入力部41のスタートボタンを押下する。すると、画像入力部12が画像の読み取りを開始する。ステップA02では、CPU44は、読み取った原稿の画像を表す画像データを生成し、記憶部5に記憶させる。
次に、ステップA03では、CPU44は、画像解析手段102を用いて、入力された画像で表される原稿のレイアウトを解析し、この原稿を構成する単位領域を認識する。図4の例では、「1.はじめに」に後続する行から「2.XMLの特徴」の直前の行までが1つの単位量域として認識される。
ステップA04では、CPU44は、文字認識手段103を用いて、入力された画像に含まれている原文の文字列を認識する。
ステップA05では、CPU44は、翻訳手段104を用いて、入力された画像に含まれる原文を翻訳先言語で記述された文に翻訳して翻訳文を生成する。図4に示されている原文(日本語)を英語に翻訳した例を図5に示す。図4において「1.はじめに」に後続する単位領域に配置されている原文の行数が14行であるのに対して、図5においては、当該原文の翻訳文の行数が18行に増加している。
ステップA06では、CPU44は、判定手段105を用いて、単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。例えば、図4における「1.はじめに」に後続する単位領域においては、図5に示されるように翻訳文の行数が原文の行数を上回っている。従って、この例では、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない(ステップA06:NO)と判定され、ステップA07に進む。
ステップA07では、CPU44は、判定手段105による判定の結果、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない場合に、抽出手段106を用いて、予め定められた第1の条件を満たす語句を省略対象語句として翻訳文から抽出する。図5の例において、文字数の上限値を13、出現回数の上限値を1とすると、「next-generation」、「markup language」、「specification」、「electronic commerce」の合計4つの語句が省略対象語句として抽出される。
ステップA08では、CPU44は、省略語決定手段108を用いて、抽出手段106で抽出された省略対象語句を構成する文字列の一部を省略した省略語を決定する。この例においては、図6に示されるように、上記の4つの語句の省略語が省略語辞書202に記憶されているので、各省略対象語句に対応する省略語を省略語辞書202から抽出する。また、この例においては、ステップA09では、上記の4つの語句の省略語が省略語辞書202に記憶されているので、省略語辞書202への省略語の記憶(ステップA09)は行わない。
ステップA10では、CPU44は、変換手段109を用いて、省略対象語句を省略語決定手段108で決定された省略語に変換する。そして、ステップA06に戻り、判定手段105を用いて、単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。図7は省略語を用いた翻訳文の例を示す図である。同図に示すように、省略語の使用によって翻訳文の行数が14行となっている。従って、この例においては、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができると判定される(ステップA06:YES)。この判定の結果、CPU44はステップA11に進み、画像生成手段110を用いて、省略対象語句を省略語に変換した翻訳文を表す画像を原文と同一のレイアウトにて生成する。さらに、省略語の定義を表す画像を翻訳文の画像の余白部分に配置する。そして、生成された画像を表す文書データを生成し、出力手段111に供給する。CPU44は、出力手段44を用いて、文書データをラスタデータに変換し、画像形成部6に供給する。すると、翻訳文を表す画像がシート表面に形成されて排紙トレイ32に排出される。
以上が、翻訳装置1の動作のフローである。
次に、表中に記載された省略対象語句を省略語に変換する例について説明する。図8は、日本語で記述された表の例を示す図である。この表を英語で記述された表に翻訳する場合、「色」の欄に配置された語句は英語に翻訳すると文字数が増加するため原文と同一のレイアウト、すなわち該当するセルの枠内に収まらなくなる。そこで、この例では、「色」の欄に配置されている語句を省略対象語句とし、これらを省略語に変換する。図9は、省略語を用いて作成した表の例を示す図である。この例では、省略対象語句の先頭から2文字を用いて省略語を作成している。「色」は「co」に、「黒」は「bl」に、「黄」は「ye」に、「緑」は「gr」に、それぞれ変換される。そして、各省略語の定義を表す文字列が余白部分(この例では表の上側)に出力される。このようにして、翻訳文を原文と同一のレイアウトにて作成することができるようになる。
以上説明したように、本発明に係る翻訳装置は、原文を構成する単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。判定の結果、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた第1の条件を満たす語句を省略対象語句として翻訳文から抽出する。次に、省略対象語句を構成する文字列の一部を省略した省略語を決定する。次に、省略対象語句を省略語に変換した翻訳文を生成し、翻訳文の画像を原文と同一のレイアウトにて生成し、省略語の定義を表す画像を生成する。よって、本発明によれば、ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にすることができる。
<変形例>
以上説明した形態に限らず、本発明は種々の形態で実施可能である。例えば、上述の実施形態を以下のように変形した形態でも実施可能である。
上述の実施形態においては、省略語の決定の際に、省略対象語句に対応する省略語を省略語辞書202から抽出し、省略対象語句に対応する省略語が省略語辞書202に記憶されていない場合には、省略語生成手段107により省略対象語句の省略語を生成するようになっているが、省略語生成手段107のみを用いる構成としてもよい。
画像入力部12は、翻訳装置1にネットワークを介して接続された別体のスキャナ装置であってもよい。また、画像形成部6は、翻訳装置1にネットワークを介して接続された別体のプリンタ装置であってもよい。
翻訳装置1のハードウェア構成を示す図である。 翻訳装置1の機能構成を表す図である。 翻訳装置1の動作のフローを示す図である。 日本語で記載された原文の例である。 原文を英語に翻訳した翻訳文の例である。 省略語辞書202の例を示す図である。 省略語を用いた翻訳文の例を示す図である。 日本語で記述された表の例を示す図である。 省略語を用いて作成した表の例を示す図である。
符号の説明
1…翻訳装置、4…制御部、5…記憶部、41…指示入力部、9…給紙トレイ、10…シート、12…画像入力部、6…画像形成部、7Y、7M、7C、7K…画像形成エンジン、8…転写ベルト、201…辞書、202…省略語辞書、44…CPU、45…ROM、46…RAM、101…入力手段、102…画像解析手段、103…文字認識手段、104…翻訳手段、105…判定手段、106…抽出手段、107…省略語生成手段、108…省略語決定手段、109…変換手段、110…画像生成手段、111…出力手段。

Claims (8)

  1. 異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
    原文の記載された原稿の画像を入力する入力手段と、
    前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、
    前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
    前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、
    前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、
    前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、
    A.前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、
    B.前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、
    C.前記子音のうち最初に出現する子音のみを用いる、
    D.前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、
    E.前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、
    のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、
    前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、
    前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、
    前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、
    前記画像生成手段で生成された画像を出力する出力手段と
    を有することを特徴とする翻訳装置。
  2. 語句を構成する文字列の一部を省略した省略語を該語句と対応付けて記憶した省略語辞書を有し、
    前記省略語決定手段は、前記抽出手段で抽出された省略対象語句に対応する省略語を前記省略語辞書から抽出する
    ことを特徴とする請求項に記載の翻訳装置。
  3. 語句を構成する文字列の一部を予め定められた規則に従って省略した省略語を生成する省略語生成手段を有し、
    前記省略語決定手段は、前記抽出手段で抽出された省略対象語句に対応する省略語が前記省略語辞書に記憶されていない場合には、前記省略語生成手段により該省略対象語句の省略語を生成する
    ことを特徴とする請求項に記載の翻訳装置。
  4. 語句を構成する文字列の一部を予め定められた規則に従って省略した省略語を生成する省略語生成手段を有し、
    前記省略語決定手段は、前記抽出手段で抽出された省略対象語句に対応する省略語を前記省略語生成手段により生成する
    ことを特徴とする請求項に記載の翻訳装置。
  5. 前記省略語生成手段で生成された省略語を前記省略対象語句と対応付けて前記省略語辞書に記憶させる省略語記憶手段を有することを特徴とする請求項に記載の翻訳装置。
  6. 前記省略語生成手段で生成された省略語が、他の省略対象語句と対応付けられて既に前記省略語辞書に記憶されている場合には、該省略語と異なる省略語を生成する省略語再生成手段を有することを特徴とする請求項またはに記載の翻訳装置。
  7. 入力部が、原文の記載された原稿の画像を入力する入力ステップと、
    制御部が、前記入力ステップで入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析ステップと、
    制御部が、前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、
    制御部が、前記文字認識ステップで認識された文字列に対応する翻訳語を異種言語間で同じ意味の単語を対応付けて記憶部に記憶した辞書から抽出して翻訳文を生成する翻訳ステップと、
    制御部が、前記画像解析ステップで認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定ステップと、
    制御部が、前記判定ステップによる判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出ステップと、
    制御部が、
    A.前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、
    B.前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、
    C.前記子音のうち最初に出現する子音のみを用いる、
    D.前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、
    E.前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、
    のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定ステップと、
    制御部が、前記抽出ステップで抽出された省略対象語句を前記省略語決定ステップで決定された省略語に変換した翻訳文を生成する変換ステップと、
    前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、制御部が、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定ステップと、
    前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、制御部が、前記変換ステップで生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定ステップで決定された省略語の定義を表す画像を生成する画像生成ステップと、
    出力部が、前記画像生成ステップで生成された画像を出力する出力ステップと
    を有することを特徴とする翻訳方法。
  8. コンピュータ装置を、
    異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
    原文の記載された原稿の画像を入力する入力手段と、
    前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、
    前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
    前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、
    前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、
    前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、
    A.前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、
    B.前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、
    C.前記子音のうち最初に出現する子音のみを用いる、
    D.前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、
    E.前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、
    のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、
    前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、
    前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、
    前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、
    前記画像生成手段で生成された画像を出力する出力手段
    として機能させるためのプログラム。
JP2005213346A 2005-07-22 2005-07-22 翻訳装置、翻訳方法およびプログラム Active JP4852918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005213346A JP4852918B2 (ja) 2005-07-22 2005-07-22 翻訳装置、翻訳方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005213346A JP4852918B2 (ja) 2005-07-22 2005-07-22 翻訳装置、翻訳方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2007034430A JP2007034430A (ja) 2007-02-08
JP4852918B2 true JP4852918B2 (ja) 2012-01-11

Family

ID=37793659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005213346A Active JP4852918B2 (ja) 2005-07-22 2005-07-22 翻訳装置、翻訳方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4852918B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912502B1 (ko) 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
JP6470097B2 (ja) 2015-04-22 2019-02-13 株式会社東芝 通訳装置、方法およびプログラム
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6364366A (ja) * 1986-09-05 1988-03-22 Hitachi Ltd 半導体集積回路
JPH05324427A (ja) * 1992-05-27 1993-12-07 Hitachi Ltd 文書情報圧縮装置
JP3352799B2 (ja) * 1993-12-27 2002-12-03 株式会社東芝 機械翻訳方法及び機械翻訳装置
JPH11328166A (ja) * 1998-05-15 1999-11-30 Brother Ind Ltd 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2007034430A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
JP4428266B2 (ja) 翻訳装置およびプログラム
JP4325577B2 (ja) 翻訳装置およびプログラム
EP0247395B1 (en) Machine translation system
Karim Technical challenges and design issues in bangla language processing
US10810383B2 (en) Image processing apparatus for comparing documents in different languages
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP4852918B2 (ja) 翻訳装置、翻訳方法およびプログラム
JP2006276903A (ja) 文書処理装置
JP2006276918A (ja) 翻訳装置、翻訳方法およびプログラム
JP2007518164A (ja) 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体
JP4419891B2 (ja) 翻訳装置、翻訳方法およびプログラム
JP2006276905A (ja) 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム
US9876916B1 (en) Image forming apparatus that image-forms result of proofreading process with respect to sentence
JPH0765012A (ja) 対訳画像形成装置
JP4992216B2 (ja) 翻訳装置及びプログラム
JP2007086867A (ja) 翻訳装置、翻訳方法およびプログラム
US11706352B2 (en) Color expression conversion apparatus for understanding color perception in document using textual, expression and non-transitory computer readable medium storing program
JP2004102554A (ja) 文章画像変換ツール
JPH05324704A (ja) 対訳画像形成装置
US20210227081A1 (en) Information processing apparatus that creates processed text data from text data, by changing order of sentences in text data, and image forming apparatus
JP2006031448A (ja) 自動翻訳装置および自動翻訳システム
JP2938897B2 (ja) 文書作成処理装置
JP3353873B2 (ja) 機械翻訳装置
JP2020178168A (ja) 画像形成装置
Kumar et al. MACHINE TRANSLATION OF TEXT-TO-SIGN LANGUAGE FOR BANKING SYSTEMS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4852918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350