JP4852918B2

JP4852918B2 - 翻訳装置、翻訳方法およびプログラム

Info

Publication number: JP4852918B2
Application number: JP2005213346A
Authority: JP
Inventors: 直子佐藤; 昌俊田川; 道弘田宗; 篤伊藤; 博増市; 潔田代
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-07-22
Filing date: 2005-07-22
Publication date: 2012-01-11
Anticipated expiration: 2025-07-22
Also published as: JP2007034430A

Description

本発明は、文書を異なる言語の文書に翻訳する技術に関する。

ある言語で記述された文章を他言語の文章に翻訳すると文章の文字数が増える場合がある。例えば、日本語の漢字仮名混じり文を英文に翻訳すると、一般に文字数が増える。図４は、日本語で記載された原文の例である。図５は、この原文を英語に翻訳した翻訳文の例である。この例で示されるように、翻訳文の文字数が原文の文字数より増えると、翻訳文の画像を原文と同一のレイアウトで生成することができなくなる場合がある。ここで、レイアウトとは、ページ内における文章や図表の配置、文字サイズ文字間隔行間隔等を意味する。

例えば、仮に原文と同一の文字サイズ、文字間隔および行間隔にて翻訳文の画像を生成すると、文章の外観上の長さが長くなる。文章の外観上の長さが長くなると、章、節、項の区切りの位置、図表類の位置などの変更が生じ得るため、文書の外観の印象が変化してしまう。また、ページ数が増加することもあり得る。しかし、原文と翻訳文の外観の印象は近似していることが望ましい。また、ページ数の増加も避けることが望ましい。
一方、翻訳文の文字サイズを小さくすると文章の外観上の長さを短縮することができる。しかし、文字サイズを小さくすると文章が読みにくくなってしまう。文字間隔を小さくする、行間隔を小さくする、などの手段を用いたとしても文章が読みにくくなってしまう。
上述のとおり、文書を他言語に翻訳する際に、翻訳文のレイアウトを原文と常に同一にすることは従来の技術では不可能である。

ところで、語句を構成する文字列の一部を削除することによって省略語を作成し、この省略語を用いて文章を作成する技術が知られている。例えば、特許文献１に開示されている技術においては、予め定められた条件に該当する単語列を抽出し、抽出された単語列に含まれる文字の一部を一定の規則に従って削除することによって省略語を作成する。例えば、名詞等、特定の品詞が所定数以上連続し、これと同一の単語列が所定数以上文中に存在するならば、この単語列に含まれる単語の先頭文字を用いて省略語を作成する。そして、この単語列を省略語で置き換えた文章を生成する。これによって、頻出する長い語句が自動的に省略語に変換されるから、ユーザの負担を増すことなく、読みやすい文章を作成することができるようになる。
特開平１１−３２８１６６号公報

上記の特許文献１で開示されている技術を用いれば、文章の文字数を減らすことができる。しかし、この技術では、予め定められた条件に該当する単語列の文字数を削減するにすぎないから、文章の外観上の長さを制御することができない。従って、この技術では、翻訳文のレイアウトを原文と常に同一にすることができるとは限らない。
本発明は、上述した背景の下になされたものであり、ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にすることのできる技術の提供を目的とする。

請求項１に係る発明は、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、Ａ．前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、Ｂ．前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、Ｃ．前記子音のうち最初に出現する子音のみを用いる、Ｄ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、Ｅ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、前記画像生成手段で生成された画像を出力する出力手段とを有することを特徴とする翻訳装置を提供する。

請求項７に係る発明は、入力部が、原文の記載された原稿の画像を入力する入力ステップと、制御部が、前記入力ステップで入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析ステップと、制御部が、前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、制御部が、前記文字認識ステップで認識された文字列に対応する翻訳語を異種言語間で同じ意味の単語を対応付けて記憶部に記憶した辞書から抽出して翻訳文を生成する翻訳ステップと、制御部が、前記画像解析ステップで認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定ステップと、制御部が、前記判定ステップによる判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出ステップと、制御部が、Ａ．前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、Ｂ．前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、Ｃ．前記子音のうち最初に出現する子音のみを用いる、Ｄ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、Ｅ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定ステップと、制御部が、前記抽出ステップで抽出された省略対象語句を前記省略語決定ステップで決定された省略語に変換した翻訳文を生成する変換ステップと、前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、制御部が、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定ステップと、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、制御部が、前記変換ステップで生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定ステップで決定された省略語の定義を表す画像を生成する画像生成ステップと、出力部が、前記画像生成ステップで生成された画像を出力する出力ステップとを有することを特徴とする翻訳方法を提供する。

請求項８に係る発明は、コンピュータ装置を、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、Ａ．前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、Ｂ．前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、Ｃ．前記子音のうち最初に出現する子音のみを用いる、Ｄ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、Ｅ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、前記画像生成手段で生成された画像を出力する出力手段として機能させるためのプログラムを提供する。

本発明によれば、ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にすることができる。

以下、図面を参照して、本発明の実施形態について説明する。
＜第１実施形態＞
＜構成＞
翻訳装置１は、入力された原文を翻訳して目的言語の翻訳文を得る翻訳機能と、原稿を読み取って複製物を作成する複写機能とを有している。
まず、翻訳装置１のハードウェア構成について説明する。図１は、本発明の実施形態における翻訳装置１のハードウェア構成を示す図である。
翻訳装置１は、ＣＰＵ（Central Processing Unit）４４、ＲＯＭ（Read Only Memory）４５、ＲＡＭ（Random Access Memory）４６等（いずれも図示省略）からなる制御部４を有し、ＲＯＭ４５に格納されているＯＳ（Operating System）プログラムをＣＰＵ４４が実行することによって翻訳装置１各部の制御を行う。

記憶部５は、ハードディスク装置等の不揮発性メモリである。記憶部５には、原稿の読取、翻訳、出力等の手順を記述したプログラムが記憶されている。
指示入力部４１は、テンキー、スタートボタン等からなるキーボード４０、タッチパネル機能を有する液晶パネルからなる表示部３９を備えており、翻訳装置１に対する指示をユーザが入力することができる。また、翻訳装置１に異常等が発生した場合に、表示部３９に翻訳装置１の状態に関する情報を表示することができる。
給紙トレイ９には画像を形成するためのシート１０が収容される。ユーザが指示入力部４１により画像形成の指示を入力すると、給紙ローラ３３が回転駆動され、給紙トレイ９からシート１０を１枚ずつ送り出す。給紙トレイ９から送り出されたシート１０はローラ対３４、３５、３７によって搬送路３６に沿って搬送される。

画像入力部１２は、原稿を光学的に読み取って画像データを生成するスキャナ装置である。プラテンガラス２上に載置された原稿に対して光源１３により光が照射され、この反射光が光学系３によって処理される。反射光は、ミラー１４、１５、１６を介して受光部１７で受光される。そして、画像処理部１８が反射光を電気信号に変換し、イエロー、マゼンタ、シアン、ブラックの各色からなる画像データを生成する。

画像形成部６は、画像形成エンジン７Ｙ、７Ｍ、７Ｃ、７Ｋ、転写ベルト８等からなる。
画像形成エンジン７Ｙ、７Ｍ、７Ｃ、７Ｋは、それぞれイエロー（Ｙ）、マゼンタ（Ｍ）、シアン（Ｃ）、ブラック（Ｋ）の各色のトナー像を形成する。各画像形成エンジンの構成は共通であるから、ここでは画像形成エンジン７Ｙについてのみ説明する。
画像形成エンジン７Ｙは、静電潜像が形成される像担持体としての感光体ドラム２０Ｙの周囲に、帯電装置２１Ｙ、露光装置１９Ｙ、現像装置２２Ｙ、クリーナ２４Ｙ等を設けて構成されている。

帯電装置２１Ｙは、矢印Ａの方向に回転駆動される感光体ドラム２０Ｙの表面を所定の電位に帯電させる。
露光装置１９Ｙは、所定の電位に帯電した感光体ドラム２０Ｙに対して、画像データに基づいた露光用ビームＬＢを照射するＲＯＳ（Raster Output Scanner）である。露光装置１９Ｙは、図示しない半導体レーザーから画像データに基づいてレーザー光を出射し、このレーザー光を偏向走査することにより感光体ドラム２０Ｙの表面に静電潜像を形成する。感光体ドラム２０Ｙの表面では、レーザー光が照射された部分の電位が、感光体ドラム２０Ｙの有する光導電性により所定のレベルまで減少する。このように、感光体ドラム２０Ｙの表面電位が変化することにより、感光体ドラム２０Ｙの表面には画像データにもとづいた静電潜像が形成される。

現像装置２２Ｙは、感光体ドラム２０Ｙ表面に形成された静電潜像を顕像化する装置である。トナータンク２３Ｙからはトナー（帯電色材）が供給され、感光体ドラム２０Ｙの帯電極性と同極性に帯電したトナーによって静電潜像を反転現像することによってトナー像を得る。
転写ベルト８は、ローラ２６、２７、２８、２９に張架されており、矢印Ｂの方向に循環駆動される。感光体ドラム２０Ｙはその下方に位置する転写ベルト８と圧接しており、上記のようにして形成されたトナー像が転写ベルト８に転写される。
クリーナ２４Ｙは、感光体ドラム２０Ｙに残存したトナーを除去する装置である。

以上が画像形成エンジン７Ｙの構成である。画像形成エンジン７Ｍ、７Ｃ、７Ｋにおいても各色に対応したトナー像が形成され、転写ベルト８に重ねて転写される。なお、これ以降、画像形成エンジン７Ｙ、７Ｍ、７Ｃ、７Ｋを区別する必要のない場合には、単に画像形成エンジン７と称する。他の構成要素についても同様に、Ｙ、Ｍ、Ｃ、Ｋの別を区別する必要のない場合には、Ｙ、Ｍ、Ｃ、Ｋの表記を省略するものとする。

給紙トレイ９から搬送路３６上に送り出されたシート１０は、転写ベルト８と転写ローラ３０とが形成するニップ部に進入し、転写ベルト８に圧接される。この圧接力および静電吸引力によってトナー像がシート１０の表面に転写される。
トナー像が転写されたシート１０は、ローラ対３１によって定着装置１１に導かれる。定着装置１１においては、シート１０に対して加圧および加熱が施され、トナー像がシート１０に定着される。このようにして画像形成が行われたシート１０は、排紙トレイ３２に排出される。

次に、翻訳装置１の機能構成について説明する。図２は、翻訳装置１の機能構成を表す図である。ＣＰＵ４４が記憶部５に記憶されているプログラムを実行することによってこれらの機能が実現される。
辞書２０１は、異種言語間で同じ意味の単語を対応付けて記憶したものであり、記憶部５に格納されている。辞書２０１は、日本語、英語、中国語など種々の言語に対応したものが記憶されている。また、辞書２０１には、単語の品詞の種別を表す情報が各単語と対応付けられて記憶されている。

省略語辞書２０２は、語句を構成する文字列の一部を省略した省略語を当該語句と対応付けて記憶したものであり、記憶部５に格納されている。省略語辞書２０２も、日本語、英語、中国語など種々の言語に対応したものが記憶されている。
図６は、省略語辞書２０２の例を示す図である。同図においては、英語の省略語辞書の例が示されている。例えば、原語「next-generation」の省略語として「N-G」が対応付けられて記憶されている。省略語辞書２０２には、予め任意に定められた省略語を記憶させておいてもよいし、あるいは、後述する省略語生成手段１０７によって生成された省略語を記憶させてもよい。

入力手段１０１は、原文の記載された原稿の画像を入力する。具体的には、入力手段１０１は、画像入力部１２を用いて原稿の画像を入力し、原稿の画像を表す原稿画像データを生成する。
画像解析手段１０２は、入力手段１０１で入力された画像で表される原稿のレイアウトを解析し、この原稿を構成する単位領域を認識する。ここで、レイアウトとは、ページ内における文章や図表の配置、文字サイズ文字間隔行間隔等を意味する。レイアウト解析によって、原稿を構成する文章領域、図表領域、絵柄領域などが区別して認識される。さらに、文章領域における章、節、項などの区切り、表中のセルの区切りなどが認識される。そして、これらの区切りによって区切られた各領域が単位領域として認識される。例えば図４の例では、「１．はじめに」に後続する行から「２．ＸＭＬの特徴」の直前の行までが１つの単位量域として認識される。

文字認識手段１０３は、入力手段１０１で入力された画像に含まれている原文の文字列を認識する。記憶部５には公知のＯＣＲ（Optical Character Recognition）プログラムが記憶されており、ＣＰＵ４４がこのＯＣＲプログラムを実行することによって文字認識が行われる。

翻訳手段１０４は、入力手段１０１で入力された画像に含まれる原文を翻訳先言語で記述された文に翻訳して翻訳文を生成する。翻訳文の生成には公知の方法を用いる。例えば、形態素解析手法を用いて原文を形態素に分割し、構文解析手法、意味解析手法を用いて原文の構文を解析して構文木を作成し、翻訳先言語における構文木に変換する。そして、各形態素に対応する訳語を辞書２０１から抽出して構文木にあてはめ、翻訳文を生成する。

判定手段１０５は、画像解析手段１０２で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。例えば、図４の例における「１．はじめに」に後続する単位領域においては、図５の例に示されるように翻訳文の行数（１８行）が原文の行数（１４行）を上回っている。従って、この例では、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができないと判定される。

抽出手段１０６は、判定手段１０５による判定の結果、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた第１の条件を満たす語句を省略対象語句として翻訳文から抽出する。ここで、予め定められた第１の条件とは、例えば、予め定められた上限値を上回る文字数の名詞または名詞句が翻訳文中に出現する出現回数が予め定められた上限値を上回る場合である。図６に省略語辞書２０２の例を示す。例えば、原語「next-generation」は文字数が１５である。文字数の上限値を例えば１０に設定した場合、「next-generation」が省略対象語句として抽出される。なお、出現回数の上限値は任意の値であり、１でもよい。
抽出手段１０６における省略対象語句の抽出の条件は上記の他にも任意の条件を用いることが可能である。例えば、単語よりも熟語を優先して省略対象語句として抽出するようにしてもよい。あるいは、翻訳文において用いられる省略語の種類が最も少なくなるように省略対象語句を抽出するようにしてもよい。

省略語生成手段１０７は、語句を構成する文字列の一部を予め定められた規則に従って省略した省略語を生成する。省略語の生成方法は任意の方法を用いることが可能である。以下に、省略語の生成方法の例を列挙する。
＜方法１＞省略対象語句が単語の場合には、省略対象語句の先頭から所定数の文字を用いて省略語を生成する。例えば、省略対象語句が「specification」である場合には、先頭から４文字を用いることにより「spec」なる省略語が生成される。
＜方法２＞省略対象語句が単語の場合には、省略対象語句の先頭文字と、先頭文字に後続する子音とを出現順に並べることによって省略語を生成する。例えば、省略対象語句が「source」である場合には、「src」なる省略語が生成される。
＜方法３＞方法２において、先頭文字に後続する子音のうち最初に出現する子音のみを用いる。例えば、省略対象語句が「green」である場合には、「gr」なる省略語が生成される。

＜方法４＞省略対象語句が熟語（２つ以上の単語からなる語句）の場合には、省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する。例えば、省略対象語句が「markup language」である場合には、「ML」なる省略語が生成される。
＜方法５＞省略対象語句が熟語の場合には、省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字とを出現順に並べることによって省略語を生成する。例えば、省略対象語句が「target value」である場合には、「tvalue」なる省略語が生成される。

省略語決定手段１０８は、抽出手段１０６で抽出された省略対象語句を構成する文字列の一部を省略した省略語を決定する。省略語の決定は、省略語辞書２０２および省略語生成手段１０７を用いて行う。まず、抽出手段１０６で抽出された省略対象語句に対応する省略語を省略語辞書２０２から抽出する。省略対象語句に対応する省略語が省略語辞書２０２に記憶されていない場合には、省略語生成手段１０７により省略対象語句の省略語を生成する。
省略語の決定においては、最初の試行で原文と同一のレイアウトに収まる翻訳文が生成されるとは限らない。そのため、省略語決定手段１０８によって省略語を一旦決定した後、この省略語を用いた翻訳文が原文と同一のレイアウトに収まるか否かを判定手段１０５を用いて判定する。判定の結果、同一のレイアウトに収まらない場合には、文字数の上限値または出現回数の上限値を引き下げる（第２の条件）ことによってさらに省略語を生成し、この省略語を用いた翻訳文が原文と同一のレイアウトに収まるか否かを判定手段１０５を用いて判定する。省略語決定手段１０８は、省略語を用いた翻訳文が原文と同一のレイアウトに収まるようになるまで、この一連の処理を繰り返す。

変換手段１０９は、抽出手段１０６で抽出された省略対象語句を省略語決定手段１０８で決定された省略語に変換した翻訳文を生成する。
画像生成手段１１０は、変換手段１０９で生成された翻訳文の画像を原文と同一のレイアウトにて生成するとともに、省略語決定手段１０８で決定された省略語の定義を表す画像を生成する。省略語の定義を表す画像は、例えば翻訳文の余白部分に配置する。画像生成手段１１０は、翻訳文と省略語の定義とを表すテキスト、文書のレイアウトからなる文書データをページ記述言語を用いて生成する。
出力手段１１１は、画像生成手段１１０で生成されたデータに基づいて画像を出力する。具体的には、画像生成手段１１０で生成された文書データをラスタデータに変換し、画像形成部６に供給する。すると、翻訳文を表す画像がシート表面に形成されて排紙トレイ３２に排出される。

＜動作＞
次に、翻訳装置１の動作について説明する。ここで、翻訳装置１には電源が投入されており、ＣＰＵ４４がプログラムを実行中であるものとする。図３は、翻訳装置１の動作のフローを示す図である。また、以下に示す処理は、ＣＰＵ４４が記憶部５に記憶されているプログラムを実行することによって行われるものであるから、以下の説明においては、動作の主体をＣＰＵ４４とする。
最初にステップＡ０１では、ＣＰＵ４４は、入力手段１０１を用いて、原文の記載された紙文書（原稿）の読み取りを行う。原文（日本語）の記載された原稿の例を図４に示す。ユーザは、原文の記載された面がプラテンガラス２に接するように原稿を載置し、指示入力部４１のスタートボタンを押下する。すると、画像入力部１２が画像の読み取りを開始する。ステップＡ０２では、ＣＰＵ４４は、読み取った原稿の画像を表す画像データを生成し、記憶部５に記憶させる。

次に、ステップＡ０３では、ＣＰＵ４４は、画像解析手段１０２を用いて、入力された画像で表される原稿のレイアウトを解析し、この原稿を構成する単位領域を認識する。図４の例では、「１．はじめに」に後続する行から「２．ＸＭＬの特徴」の直前の行までが１つの単位量域として認識される。
ステップＡ０４では、ＣＰＵ４４は、文字認識手段１０３を用いて、入力された画像に含まれている原文の文字列を認識する。

ステップＡ０５では、ＣＰＵ４４は、翻訳手段１０４を用いて、入力された画像に含まれる原文を翻訳先言語で記述された文に翻訳して翻訳文を生成する。図４に示されている原文（日本語）を英語に翻訳した例を図５に示す。図４において「１．はじめに」に後続する単位領域に配置されている原文の行数が１４行であるのに対して、図５においては、当該原文の翻訳文の行数が１８行に増加している。
ステップＡ０６では、ＣＰＵ４４は、判定手段１０５を用いて、単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。例えば、図４における「１．はじめに」に後続する単位領域においては、図５に示されるように翻訳文の行数が原文の行数を上回っている。従って、この例では、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない（ステップＡ０６：ＮＯ）と判定され、ステップＡ０７に進む。

ステップＡ０７では、ＣＰＵ４４は、判定手段１０５による判定の結果、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない場合に、抽出手段１０６を用いて、予め定められた第１の条件を満たす語句を省略対象語句として翻訳文から抽出する。図５の例において、文字数の上限値を１３、出現回数の上限値を１とすると、「next-generation」、「markup language」、「specification」、「electronic commerce」の合計４つの語句が省略対象語句として抽出される。

ステップＡ０８では、ＣＰＵ４４は、省略語決定手段１０８を用いて、抽出手段１０６で抽出された省略対象語句を構成する文字列の一部を省略した省略語を決定する。この例においては、図６に示されるように、上記の４つの語句の省略語が省略語辞書２０２に記憶されているので、各省略対象語句に対応する省略語を省略語辞書２０２から抽出する。また、この例においては、ステップＡ０９では、上記の４つの語句の省略語が省略語辞書２０２に記憶されているので、省略語辞書２０２への省略語の記憶（ステップＡ０９）は行わない。

ステップＡ１０では、ＣＰＵ４４は、変換手段１０９を用いて、省略対象語句を省略語決定手段１０８で決定された省略語に変換する。そして、ステップＡ０６に戻り、判定手段１０５を用いて、単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。図７は省略語を用いた翻訳文の例を示す図である。同図に示すように、省略語の使用によって翻訳文の行数が１４行となっている。従って、この例においては、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができると判定される（ステップＡ０６：ＹＥＳ）。この判定の結果、ＣＰＵ４４はステップＡ１１に進み、画像生成手段１１０を用いて、省略対象語句を省略語に変換した翻訳文を表す画像を原文と同一のレイアウトにて生成する。さらに、省略語の定義を表す画像を翻訳文の画像の余白部分に配置する。そして、生成された画像を表す文書データを生成し、出力手段１１１に供給する。ＣＰＵ４４は、出力手段４４を用いて、文書データをラスタデータに変換し、画像形成部６に供給する。すると、翻訳文を表す画像がシート表面に形成されて排紙トレイ３２に排出される。
以上が、翻訳装置１の動作のフローである。

次に、表中に記載された省略対象語句を省略語に変換する例について説明する。図８は、日本語で記述された表の例を示す図である。この表を英語で記述された表に翻訳する場合、「色」の欄に配置された語句は英語に翻訳すると文字数が増加するため原文と同一のレイアウト、すなわち該当するセルの枠内に収まらなくなる。そこで、この例では、「色」の欄に配置されている語句を省略対象語句とし、これらを省略語に変換する。図９は、省略語を用いて作成した表の例を示す図である。この例では、省略対象語句の先頭から２文字を用いて省略語を作成している。「色」は「co」に、「黒」は「bl」に、「黄」は「ye」に、「緑」は「gr」に、それぞれ変換される。そして、各省略語の定義を表す文字列が余白部分（この例では表の上側）に出力される。このようにして、翻訳文を原文と同一のレイアウトにて作成することができるようになる。

以上説明したように、本発明に係る翻訳装置は、原文を構成する単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する。判定の結果、翻訳文を原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた第１の条件を満たす語句を省略対象語句として翻訳文から抽出する。次に、省略対象語句を構成する文字列の一部を省略した省略語を決定する。次に、省略対象語句を省略語に変換した翻訳文を生成し、翻訳文の画像を原文と同一のレイアウトにて生成し、省略語の定義を表す画像を生成する。よって、本発明によれば、ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にすることができる。

＜変形例＞
以上説明した形態に限らず、本発明は種々の形態で実施可能である。例えば、上述の実施形態を以下のように変形した形態でも実施可能である。

上述の実施形態においては、省略語の決定の際に、省略対象語句に対応する省略語を省略語辞書２０２から抽出し、省略対象語句に対応する省略語が省略語辞書２０２に記憶されていない場合には、省略語生成手段１０７により省略対象語句の省略語を生成するようになっているが、省略語生成手段１０７のみを用いる構成としてもよい。

画像入力部１２は、翻訳装置１にネットワークを介して接続された別体のスキャナ装置であってもよい。また、画像形成部６は、翻訳装置１にネットワークを介して接続された別体のプリンタ装置であってもよい。

翻訳装置１のハードウェア構成を示す図である。翻訳装置１の機能構成を表す図である。翻訳装置１の動作のフローを示す図である。日本語で記載された原文の例である。原文を英語に翻訳した翻訳文の例である。省略語辞書２０２の例を示す図である。省略語を用いた翻訳文の例を示す図である。日本語で記述された表の例を示す図である。省略語を用いて作成した表の例を示す図である。

符号の説明

１…翻訳装置、４…制御部、５…記憶部、４１…指示入力部、９…給紙トレイ、１０…シート、１２…画像入力部、６…画像形成部、７Ｙ、７Ｍ、７Ｃ、７Ｋ…画像形成エンジン、８…転写ベルト、２０１…辞書、２０２…省略語辞書、４４…ＣＰＵ、４５…ＲＯＭ、４６…ＲＡＭ、１０１…入力手段、１０２…画像解析手段、１０３…文字認識手段、１０４…翻訳手段、１０５…判定手段、１０６…抽出手段、１０７…省略語生成手段、１０８…省略語決定手段、１０９…変換手段、１１０…画像生成手段、１１１…出力手段。

Claims

異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
原文の記載された原稿の画像を入力する入力手段と、
前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、
前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、
前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、
前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、
Ａ．前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、
Ｂ．前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、
Ｃ．前記子音のうち最初に出現する子音のみを用いる、
Ｄ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、
Ｅ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、
のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、
前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、
前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、
前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、
前記画像生成手段で生成された画像を出力する出力手段と
を有することを特徴とする翻訳装置。
語句を構成する文字列の一部を省略した省略語を該語句と対応付けて記憶した省略語辞書を有し、
前記省略語決定手段は、前記抽出手段で抽出された省略対象語句に対応する省略語を前記省略語辞書から抽出する
ことを特徴とする請求項１に記載の翻訳装置。
語句を構成する文字列の一部を予め定められた規則に従って省略した省略語を生成する省略語生成手段を有し、
前記省略語決定手段は、前記抽出手段で抽出された省略対象語句に対応する省略語が前記省略語辞書に記憶されていない場合には、前記省略語生成手段により該省略対象語句の省略語を生成する
ことを特徴とする請求項２に記載の翻訳装置。
語句を構成する文字列の一部を予め定められた規則に従って省略した省略語を生成する省略語生成手段を有し、
前記省略語決定手段は、前記抽出手段で抽出された省略対象語句に対応する省略語を前記省略語生成手段により生成する
ことを特徴とする請求項１に記載の翻訳装置。
前記省略語生成手段で生成された省略語を前記省略対象語句と対応付けて前記省略語辞書に記憶させる省略語記憶手段を有することを特徴とする請求項３に記載の翻訳装置。
前記省略語生成手段で生成された省略語が、他の省略対象語句と対応付けられて既に前記省略語辞書に記憶されている場合には、該省略語と異なる省略語を生成する省略語再生成手段を有することを特徴とする請求項３または５に記載の翻訳装置。
入力部が、原文の記載された原稿の画像を入力する入力ステップと、
制御部が、前記入力ステップで入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析ステップと、
制御部が、前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、
制御部が、前記文字認識ステップで認識された文字列に対応する翻訳語を異種言語間で同じ意味の単語を対応付けて記憶部に記憶した辞書から抽出して翻訳文を生成する翻訳ステップと、
制御部が、前記画像解析ステップで認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定ステップと、
制御部が、前記判定ステップによる判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出ステップと、
制御部が、
Ａ．前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、
Ｂ．前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、
Ｃ．前記子音のうち最初に出現する子音のみを用いる、
Ｄ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、
Ｅ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、
のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定ステップと、
制御部が、前記抽出ステップで抽出された省略対象語句を前記省略語決定ステップで決定された省略語に変換した翻訳文を生成する変換ステップと、
前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、制御部が、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定ステップと、
前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、制御部が、前記変換ステップで生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定ステップで決定された省略語の定義を表す画像を生成する画像生成ステップと、
出力部が、前記画像生成ステップで生成された画像を出力する出力ステップと
を有することを特徴とする翻訳方法。
コンピュータ装置を、
異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
原文の記載された原稿の画像を入力する入力手段と、
前記入力手段で入力された画像で表される原稿のレイアウトを解析し、該原稿を構成する単位領域を認識する画像解析手段と、
前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
前記文字認識手段で認識された文字列に対応する翻訳語を前記辞書から抽出して翻訳文を生成する翻訳手段と、
前記画像解析手段で認識された単位領域毎に、当該単位領域に配置されている原文に対応する翻訳文を該原文と同一のレイアウトにて当該単位領域に配置することができるか否かを判定する判定手段と、
前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、予め定められた上限値を上回る文字数の名詞または名詞句であって、前記翻訳文中に出現する出現回数が予め定められた上限値を上回る名詞または名詞句を省略対象語句として該翻訳文から抽出する抽出手段と、
Ａ．前記省略対象語句が単語の場合には、該省略対象語句の先頭から所定数の文字を用いて省略語を生成する、
Ｂ．前記省略対象語句が単語の場合には、該省略対象語句の先頭文字と、該先頭文字に後続する子音と、を出現順に並べることによって省略語を生成する、
Ｃ．前記子音のうち最初に出現する子音のみを用いる、
Ｄ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する各単語の先頭文字を出現順に並べることによって省略語を生成する、
Ｅ．前記省略対象語句が熟語の場合には、該省略対象語句を構成する単語のうち最後に出現する単語を除く各単語の先頭文字と、最後に出現する単語を構成するすべての文字と、を出現順に並べることによって省略語を生成する、
のいずれかによって、前記省略対象語句を構成する文字列の一部を省略した省略語を決定する省略語決定手段と、
前記抽出手段で抽出された省略対象語句を前記省略語決定手段で決定された省略語に変換した翻訳文を生成する変換手段と、
前記変換手段で生成された翻訳文に対し、前記判定手段を用いた判定を行い、該判定の結果、該翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができない場合に、前記文字数の上限値または前記出現回数の上限値を引き下げて前記抽出手段によって省略対象語句を抽出し、該省略対象語句を前記省略語決定手段に供給する省略語再決定手段と、
前記判定手段による判定の結果、前記翻訳文を前記原文と同一のレイアウトにて当該単位領域に配置することができる場合に、前記変換手段で生成された翻訳文の画像を前記原文と同一のレイアウトにて生成するとともに、前記省略語決定手段で決定された省略語の定義を表す画像を生成する画像生成手段と、
前記画像生成手段で生成された画像を出力する出力手段
として機能させるためのプログラム。