JP2011141749A

JP2011141749A - 文書画像生成装置、文書画像生成方法及びコンピュータプログラム

Info

Publication number: JP2011141749A
Application number: JP2010002097A
Authority: JP
Inventors: Takeshi Kutsumi; 毅九津見; Ichiko Sada; いち子佐田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-01-07
Filing date: 2010-01-07
Publication date: 2011-07-21
Anticipated expiration: 2030-01-07
Also published as: US20110164291A1; CN102141979A; CN102141979B; JP4999938B2; US8958080B2

Abstract

【課題】単語又は連語からなる語句の下方又は上方の行間にきれいに揃って見えるように補足説明を付与することが可能な文書画像生成装置、文書画像生成方法及びコンピュータプログラムを提供する。
【解決手段】ベースラインから下方へ突出する形状を有する文字「g,j,p,q,y 」及び上方へ離隔する文字「’,”」を夫々記憶した特殊文字（下）及び特殊文字（上）にない文字が含まれる単語「giant 」の場合、「g 」を除く文字の下端のＹ座標の平均値ＹＢａｖを単語の下端のＹ座標とする。特殊文字（下）にある文字のみが含まれる単語「jpy 」の場合、各文字の下端のＹ座標の平均値ＹＢａｖ０に一定の値を加えた値ＹＢａｖを単語の下端のＹ座標とする。特殊文字（上）にある文字のみが含まれる単語「””」の場合、各文字の上端のＹ座標の平均値ＹＴａｖから一定の値を減じた値ＹＢａｖを単語の下端のＹ座標とする。
【選択図】図１３

Description

本発明は、画像データに基づく画像に含まれる単語又は連語からなる語句に補足説明を付与した補足説明付文書の画像を生成する文書画像生成装置、文書画像生成方法及びコンピュータプログラムに関する。

近年、原稿画像がスキャナで読み取られた画像データ、ウェブブラウザで表示すべく生成されたデータ等の電子データに基づく画像（原文書画像）に含まれる原文に対し、文字を認識して原文の行間に補足説明（以下、ルビという）を付与する技術が知られている。例えば、特許文献１では、原文の各行の行間領域に翻訳文を配置する方法が提案されている。特許文献１の段落００４４から００４６の記載によれば、行間領域の特定及び行間領域の縦幅（行方向と直交するＹ軸方向についての行間領域の長さ）の決定は行単位で行われる。

特開２００９−５３８３８号公報

しかしながら、ルビを各行の下方の行間に付与する場合、例えばアルファベットの小文字「g,j,p,q,y 」のように、文字を順次的に配列するための基準線（いわゆるベースライン）から突出して配置される部分があるときは、原文に含まれる文字の形状によって原文の下端のＹ座標が単語又は連語ごとに変動して見えることがある。これは、アルファベットの文字「’,”」のように文字全体が基準線から大きく離隔している場合も同様である。このような場合、ルビが付与される行間領域の上端のＹ座標を一律に行単位で統一していては、ルビが単語又は連語の下方の行間にきれいに揃っているように見えないという問題があった。

本発明は斯かる事情に鑑みてなされたものであり、その目的とするところは、単語又は連語からなる語句の下方又は上方の行間にきれいに揃っているように見える補足説明を付与することが可能な文書画像生成装置、文書画像生成方法及びコンピュータプログラムを提供することにある。

本発明に係る文書画像生成装置は、横書きの文章が含まれる原稿画像を表す画像データを受け付け、受け付けた画像データに基づく画像に含まれる語句に補足説明を付与した補足説明付文書の画像を生成する文書画像生成装置において、前記画像データに基づく画像に含まれる文字の前記画像における上下方向の位置を特定する文字位置特定手段と、前記語句中の文字について前記文字位置特定手段が特定した位置に基づいて、前記語句に対する補足説明を付与すべき上下方向の位置を決定する付与位置決定手段と、前記語句中の文字が特定の形状を有する文字と一致するか否かを判定する判定手段とを備え、前記付与位置決定手段は、前記判定手段による一致／不一致の判定結果に応じて異なる位置を決定するようにしてあることを特徴とする。

本発明に係る文書画像生成装置は、前記特定の形状は、文字を配列するための横方向の基準線から下方へ突出するもの（又は上方へ離隔するもの）であることを特徴とする。

本発明に係る文書画像生成装置は、前記判定手段が、全ての文字が一致しないと判定した場合、前記付与位置決定手段は、前記語句中の文字について前記文字位置特定手段が特定した上下方向の位置に係る平均的な位置に基づいて、前記補足説明を付与すべき位置を決定するようにしてあり、前記判定手段が、少なくとも１文字が一致すると判定した場合、前記付与位置決定手段は、前記補足説明を付与すべき位置を上方へ（又は下方へ）偏倚させて決定するようにしてあることを特徴とする。

本発明に係る文書画像生成装置は、前記補足説明は、語句に対する訳語、語句の読み、又は語句に対する注釈であることを特徴とする。

本発明に係る文書画像生成装置は、前記画像データに基づく画像及び前記補足説明をＰＤＦファイル形式のデータに変換する手段を備えることを特徴とする。

本発明に係る文書画像生成方法は、横書きの文章が含まれる原稿画像を表す画像データを受け付け、受け付けた画像データに基づく画像に含まれる語句に補足説明を付与した補足説明付文書の画像を生成する文書画像生成方法において、前記画像データに基づく画像に含まれる文字の前記画像における上下方向の位置を特定するステップと、前記語句中の文字について特定した位置に基づいて、前記語句に対する補足説明を付与すべき上下方向の位置を決定する付与位置決定ステップと、前記語句中の文字が特定の形状を有する文字と一致するか否かを判定するステップとを含み、前記付与位置決定ステップは、一致／不一致の判定結果に応じて異なる位置を決定することを特徴とする。

本発明に係るコンピュータプログラムは、画像データを受け付けて文書処理及び画像処理するコンピュータに、画像データに基づく画像に含まれる横書きの語句に補足説明を付与した補足説明付文書の画像を生成させるコンピュータプログラムにおいて、コンピュータに、前記画像データに基づく画像に含まれる文字の前記画像における上下方向の位置を特定させるステップと、コンピュータに、前記語句中の文字について特定させた位置に基づいて、前記語句に対する補足説明を付与すべき上下方向の位置を決定させる付与位置決定ステップと、コンピュータに、前記語句中の文字が所定の形状を有する文字と一致するか否かを判定させるステップとを含み、前記付与位置決定ステップは、コンピュータに、一致／不一致の判定結果に応じて異なる位置を決定させることを特徴とする。

本発明にあっては、画像読取装置等から受け付けた画像データに基づく画像（原文書画像）において、原文書画像に含まれる文字の上下方向の位置を特定し、原文書画像に含まれる横書きの語句に対する補足説明を付与すべき上下方向の位置を語句中の文字の位置に基づいて決定し、語句中の文字が特定の形状を有する文字と一致するか否かに応じて、補足説明を付与すべき位置を異ならせる。
これにより、語句に付与すべき補足説明の位置が、標準的には、語句中の文字の位置から一律に決まる語句の位置に対して決定され、語句中の文字の一部又は全部が特定の形状を有する文字である場合は、前記語句の位置とは異なる位置に対して決定される。

本発明にあっては、文字を配列するための横方向の基準線（ベースライン）から下方へ突出するもの（又は上方へ離隔するもの）を特定の形状としてある。
これにより、語句に対する補足説明を付与すべき上下方向の位置を決定する際に、語句中の文字の形状によって文字の上下方向の位置が変化する度合いが最大限に反映される。

本発明にあっては、原文書画像に含まれる語句中に特定の形状、即ち文字を配列するための横方向の基準線から下方へ突出する形状（又は上方へ離隔する形状）を有する文字が１つも含まれていない場合は、語句に対する補足説明を付与すべき位置を、語句中の文字の上下方向に係る平均的な位置に基づいて決定する。
また、語句中に特定の形状を有する文字が１つでも含まれている場合は、補足説明を付与すべき位置を、語句中の文字の上下方向に係る平均的な位置に対して上方に（又は下方に）偏倚させて決定する。

本発明にあっては、補足説明は、語句に対する訳語、語句の読み、又は語句に対する注釈の何れにも適用される。

本発明にあっては、画像データに基づく画像（原文画像）及び補足説明を、ＰＤＦファイルの異なるレイヤに割り付けて重ね合わせる。
これにより、原文画像のレイアウトが保存され、原文の行間にルビがぴったりと揃うように付与される。

本発明によれば、原文書画像に含まれる語句に付与すべき補足説明の位置が、標準的には、語句中の文字の位置から決まる語句の位置に対して決定され、語句中の文字の一部又は全部が特定の形状を有する文字である場合は、前記語句の位置とは異なる位置に対して決定される。
従って、文字が特定の形状を有することにより変動して決まる語句の位置を補正することによって、補足説明を付与すべき位置を決定した場合は、語句の下方又は上方の行間にきれいに揃っているように見える補足説明を付与することが可能となる。

本発明に係る文書画像生成装置の内部構成を示すブロック図である。原文書画像及び訳語付文書画像の例を示す模式図である。文書画像生成装置が実行する処理の手順を示すフローチャートである。文字認識により得られた文字データの例を示す概念図である。ステップＳ１４の訳語取得処理の手順を示すフローチャートである。行データの内容例を示す概念図である。テキストデータ及び改行データの内容例を示す概念図である。訳語データの内容例を示す概念図である。ステップＳ１５の付属情報決定処理の手順を示すフローチャートである。ステップＳ１５の付属情報決定処理の手順を示すフローチャートである。ステップＳ１６３の上下方向位置決定処理の手順を示すフローチャートである。特殊文字データベースに記憶した文字コードが表す文字を示す説明図である。特殊文字データベースに記憶した文字コードが表す文字が含まれている単語の例を示す説明図である。訳語画像の例を示す模式図である。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
図１は、本発明に係る文書画像生成装置の内部構成を示すブロック図である。図中１は文書画像生成装置であり、文書画像生成装置１は、パーソナルコンピュータ（ＰＣ）又はサーバ装置等の汎用コンピュータを用いて構成されている。文書画像生成装置１は、演算を行うＣＰＵ１１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ１２と、光ディスク又はメモリカード等の記録媒体２から情報を読み取るＣＤ−ＲＯＭドライブ等のドライブ部１３と、ハードディスク等の記憶部１４とを備えている。

ＣＰＵ１１は、記録媒体２から本発明のコンピュータプログラム２１をドライブ部１３に読み取らせ、読み取ったコンピュータプログラム２１を記憶部１４に記憶させる。コンピュータプログラム２１は必要に応じて記憶部１４からＲＡＭ１２へロードされ、ロードされたコンピュータプログラム２１に基づいて、ＣＰＵ１１が文書画像生成装置１に必要な処理を実行する。
尚、コンピュータプログラム２１は、図示しない外部のサーバ装置からインターネット又はＬＡＮ等の通信ネットワークを介して文書画像生成装置１へダウンロードされて、記憶部１４に記憶される形態であってもよい。

記憶部１４には、また、自然言語処理に必要なデータを記録した辞書データベース２２及び特定の形状を有する文字のデータを記録した特殊文字データベース２３を記憶している。辞書データベース２２は、言語の文法、構文の出現頻度、及び単語の意味等を示す情報を記録している。特殊文字データベース２３は、欧文フォントのベースラインから離隔した位置に文字の一部または全部を配してデザインされた文字を表す文字コードを記憶している。辞書データベース２２及び特殊文字データベース２３は、最初から記憶部１４に記憶されている形態でもよく、また記録媒体２に記録されたものがドライブ部１３で読み取られて記憶部１４に記憶される形態でもよい。

文書画像生成装置１は、また、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部１５と、各種の情報を表示する液晶ディスプレイ等の表示部１６と、画像読取装置３１及び画像形成装置３２が接続されたインタフェース部１７とを備えている。画像読取装置３１は、フラットベッドスキャナ又はフィルムスキャナ等のスキャナであり、画像形成装置３２は、インクジェットプリンタ又はレーザープリンタ等のプリンタである。
尚、画像読取装置３１及び画像形成装置３２は一体に構成されていてもよい。

画像読取装置３１は、文書原稿に記録された原稿画像を光学的に読み取って画像データを生成し、生成した画像データを文書画像生成装置１へ送信する。インタフェース部１７は、画像読取装置３１から送信された画像データを受信し、ＣＰＵ１１から与えられた画像データを画像形成装置３２へ送信する。画像形成装置３２は、文書画像生成装置１から送信された画像データに基づいて画像を形成する。

ＣＰＵ１１は、本発明のコンピュータプログラム２１をＲＡＭ１２にロードし、ロードしたコンピュータプログラム２１に従って、本発明の文書画像生成方法の処理を実行する。この文書画像生成方法では、画像読取装置３１が文書原稿に記録された原稿画像を読み取ることによって生成した画像データを受け付け、受け付けた画像データに基づく原文書画像から、文章中の単語又は連語に対する訳語を付与した訳語付文書画像を生成する。

ここで連語とは、複数の単語から構成された独自の意味を有する語句であって、名詞句、動詞句、熟語、又は慣用句等が連語に相当する。

図２は、原文書画像及び訳語付文書画像の例を示す模式図であり、図２（ａ）は原文書画像の例を示し、図２（ｂ）は訳語付文書画像の例を示す。図２（ａ）に示す原文書画像には、「X-ray crystallographic analysis also confirmed the molecular structure. 」という内容の文章が含まれている。本発明の文書画像生成方法では、図２（ｂ）に示すように、連語「X-ray crystallographic analysis 」、並びに単語「confirmed 」、「molecular 」及び「structure 」に対する訳語を付与した訳語付文書画像を生成する。本実施の形態においては、図２に示すように、横書きの文章に対し、単語又は連語の下方の行間に訳語を配置する例について説明する。

図３は、文書画像生成装置１が実行する処理の手順を示すフローチャートである。ＣＰＵ１１は、ＲＡＭ１２にロードしたコンピュータプログラム２１に従って、以下の処理を実行する。文書画像生成装置１は、まず、原稿画像が読み取られた画像データを受け付けて（Ｓ１０）、画像データに基づく画像である原文書画像を取得する処理を行う（Ｓ１１）。ステップＳ１０，１１では、画像読取装置３１に文書原稿が載置された状態で、使用者が入力部１５を操作することにより、入力部１５が処理指示を受け付け、ＣＰＵ１１がインタフェース部１７から画像読取装置３１へ画像読取の指示を送信する。

画像読取装置３１は、文書原稿に記録された原稿画像を光学的に読み取ることによって画像データを生成し、生成した画像データを文書画像生成装置１へ送信する。文書画像生成装置１は、画像読取装置３１から送信された画像データをインタフェース部１７で受信し、受信して受け付けた画像データをＲＡＭ１２に記憶することによって、画像データに基づく原文書画像を取得する処理を実行する。なお、ステップＳ１０，１１に代えて、予め記憶部１４に記憶してある画像データをＲＡＭ１２に読み出すことによって、原文書画像を取得する処理を実行してもよい。またＣＰＵ１１は、ステップＳ１１の処理の際に、必要に応じて、解像度の調整、及び画像データのデータ形式の変換等の画像処理を行う。

ＣＰＵ１１は、次に、ＲＡＭ１２に記憶した原文書画像から、文字が含まれている文字領域を抽出し（Ｓ１２）、抽出した文字領域に含まれる文字を認識する処理を実行する（Ｓ１３）。ステップＳ１３の処理では、ＣＰＵ１１は、例えば従来のＯＣＲ（Optical Character Recognition ）技術を利用して、文字領域に含まれる文字の認識と、原文書画像中での文字位置の特定とを行う。

図４は、文字認識により得られた文字データの例を示す概念図である。図４に示す例は、図２に例を示した原文書画像から文字を認識した結果の一部を示している。文字認識により得られた文字データは、文字の認識結果と文字に係る付属情報とを含んでなる。文字認識処理では、行内にあるスペースも文字として認識するようになっており、文字データにはスペースを認識した認識結果と、その認識結果に係る付属情報とが含まれている。図４に示す文字データは、文字の夫々に順に付した文字番号、各文字の原文書画像における位置、文字領域に付した領域番号、各文字の行内での位置を示す行内位置情報、文字のサイズ、及び文字の内容を示す認識結果を含んでなる。各文字の位置は、原文書画像における文字の左端のＸ座標、上端のＹ座標、右端のＸ座標、及び下端のＹ座標で表されている。

図４には、原文書画像の下端左端を原点とし、座標をポイントの単位で表した例を示している。行内位置情報は、行頭を示す１、行末を示す２、行中を示す０、及び行頭かつ行末を示す３の何れかの数値で文字の行内での位置を示す。例えば、ＣＰＵ１１は、原文書画像中で文字の左側方に他の文字が無い場合に行内位置情報の１を生成し、文字の右側方に他の文字が無い場合に行内位置情報の２を生成し、右にも左にも他の文字がない場合に行内位置情報の３を生成する処理を行う。文字のサイズとしては、文字のフォントサイズをポイントの単位で示している。ＣＰＵ１１は、ステップＳ１３の文字認識処理により取得した文字データを、ＲＡＭ１２に記憶させる。

ＣＰＵ１１は、次に、文字認識処理により取得した文字データから、認識した文字で構成される文章に含まれる単語又は連語に対する訳語を取得する訳語取得処理を実行する（Ｓ１４）。
図５は、ステップＳ１４の訳語取得処理の手順を示すフローチャートである。ＣＰＵ１１は、ステップＳ１３で認識した文字データに基づいて、原文書画像に含まれる各行におけるテキストの内容を表す行データを生成する（Ｓ１４１）。ステップＳ１４１では、ＣＰＵ１１は、文字番号の順に行頭の文字から行末の文字まで文字を並べることによって一行分の行データを生成し、各行毎に行データを生成する。

図６は、行データの内容例を示す概念図である。図６に示す例は、図２に例を示した原文書画像から行データを生成した結果を示している。図６では、０を開始値として各行に順に付した行番号に関連付けて、各行におけるテキストの内容を表す行テキストが関連付けられている。行テキストの内容は、文字認識処理で認識された文字を表す文字コードからなる。

ＣＰＵ１１は、次に、生成した行データに基づき、原文書画像に含まれるテキストの内容を表すテキストデータ、及び原文書画像中での改行位置を記録した改行データを生成する（Ｓ１４２）。ステップＳ１４２では、ＣＰＵ１１は、各行の行テキストを行番号の順に連結することにより、テキストデータを生成する。このとき、原文書画像に記載されている言語が英語等のスペースで単語が区切られている言語である場合は、各行テキストの最後尾にスペースを挿入した上で行テキストを連結する。これは、スペースで単語が区切られている言語では、改行位置が単語の区切りになっていることが多いためである。日本語等のスペースで単語が区切られていない言語の場合は、ＣＰＵ１１は、スペースを挿入せずに行テキストを連結する。更にステップＳ１４２では、ＣＰＵ１１は、行テキストを連結する都度、連結により生成されたテキストデータの中でどの位置が原文書画像中での改行位置に対応した位置であるかを記録することにより、改行データを生成する。

図７は、テキストデータ及び改行データの内容例を示す概念図である。図７（ａ）はテキストデータの例を示し、図６の例に示す各行データを順に連結した内容となっている。図７ではテキストデータを２行に亘って表示しているが、データ上ではテキストデータは一行分のデータとなっている。ステップＳ１４２では、ステップＳ１２で抽出した文字領域からステップＳ１３で認識した文字が含まれるテキストデータが生成される。即ち、ステップＳ１４２で生成されるテキストデータには、一般的に複数の文が含まれる。

図７（ｂ）は改行データの内容例を示しており、各行番号が示す行における改行位置を、０を開始値としてテキスト中の各文字に順に付した番号で示している。スペースで単語が区切られている言語の場合は、図７（ｂ）に示すように、改行位置は、行テキストを連結する際に挿入したスペースの位置とすればよい。スペースで単語が区切られていない言語の場合は、各行末の文字の位置を改行位置とすればよい。改行位置で行データを連結したテキストデータを生成することにより、以降の処理で行う自然言語処理では、複数の行に亘って文単位で自然言語処理を実行することができ、効率的で高精度の自然言語処理を実行することが可能となる。例えば、複数の行に亘る連語については、行単位の自然言語処理では連語に含まれる各単語に対する訳語が得られるのみであるのに対し、複数の行に亘った自然言語処理では連語の訳語が得られる。

ＣＰＵ１１は、次に、生成したテキストデータに対して、自然言語処理を行うことにより、テキストデータが表す文章に含まれる単語及び連語の意味を推定する処理を行う（Ｓ１４３）。ステップＳ１４３では、ＣＰＵ１１は、辞書データベース２２に記録されたデータに基づいて、文章の形態素解析、局所構文解析、及び品詞推定等の自然言語処理を行うことにより、文章に含まれる単語、及び複数の単語からなる連語を特定し、意味を推定する。ＣＰＵ１１は、次に、文章に含まれる単語及び連語の内、訳語付文書画像に付加するために訳語を取得すべき単語及び連語を選択する処理を行う（Ｓ１４４）。

辞書データベース２２に記録してあるデータでは、単語及び連語の夫々について難易度を予め定めてあり、また記憶部１４は、訳語付文書画像中に訳語を付与すべき単語及び連語の難易度を設定した設定情報を記憶している。設定情報の内容は、使用者が入力部１５を操作することにより、使用者によって予め設定しておくことが可能である。ステップＳ１４４では、ＣＰＵ１１は、設定情報で定められた難易度以上の難易度が定められている単語及び連語を、訳語を取得すべき単語及び連語として選択する。ステップＳ１４４により、訳語を配置することが必要な単語及び連語が選択される。なお、ステップＳ１４４では、訳語を付与すべき単語及び連語の難易度を入力するための入力画面を表示部１６に表示し、入力部１５で難易度を入力される処理を行ってもよく、また、使用者が入力部１５を操作することにより、訳語を取得すべき単語及び連語を逐一指定する処理を行ってもよい。

ＣＰＵ１１は、次に、選択した単語及び連語の夫々について、辞書データベース２２から訳語を取得する処理を行う（Ｓ１４５）。訳語が複数存在する場合、ＣＰＵ１１は、ステップＳ１４３の自然言語処理により推定した意味に対応する訳語を取得する。ＣＰＵ１１は、単語又は連語と取得した訳語とを関連付けた訳語データを生成してＲＡＭ１２に記憶させ、処理をメインの処理へ戻す。図８は、訳語データの内容例を示す概念図である。訳語を取得すべき連語として「X-ray crystallographic analysis 」が選択され、訳語を取得すべき単語として「confirmed 」、「molecular 」及び「structure 」が選択され、夫々に対して訳語が関連付けられている。

図３に戻って、ＣＰＵ１１は、取得した訳語の夫々について、訳語付文書画像に訳語を配置する際の位置及びサイズ等の訳語の配置状態を示す付属情報を決定する付属情報決定処理を実行する（Ｓ１５）。図９及び図１０は、ステップＳ１５の付属情報決定処理の手順を示すフローチャートである。ＣＰＵ１１は、文字データに基づいて、原文書画像に含まれる各行の平均高さ及び行間の大きさ（縦幅）を算出する（Ｓ１５１）。ステップＳ１５１では、ＣＰＵ１１は、各行について文字データから行内の文字の上端及び下端のＹ座標を取得し、夫々の平均値を各行の上端及び下端の平均Ｙ座標とする。そして、ＣＰＵ１１は、一の行の上端及び下端の平均Ｙ座標の差を一の行の平均高さとし、一の行の下端の平均Ｙ座標と次の行の上端の平均Ｙ座標との差を行間の大きさとする。ＣＰＵ１１は、算出した平均高さ及び行間の大きさを各行に関連付けてＲＡＭ１２に記憶させる。ＣＰＵ１１は、次に、取得した訳語の中から、一の訳語を選択する（Ｓ１５２）。

ＣＰＵ１１は、次に、訳語のフォントサイズを決定する処理を行う（Ｓ１５３）。ステップＳ１５３では、訳語を付与すべき単語又は連語が含まれる行と次の行との行間の大きさを取得し、取得した行間の大きさと、訳語を付与すべき単語又は連語のフォントサイズとを比較する。行間の大きさが、単語又は連語のフォントサイズの４０％よりも小さい場合、ＣＰＵ１１は、訳語のフォントサイズを単語又は連語のフォントサイズの４０％に決定する。行間の大きさが、単語又は連語のフォントサイズの８０％よりも大きい場合、ＣＰＵ１１は、訳語のフォントサイズを単語又は連語のフォントサイズの８０％に決定する。行間の大きさが、単語又は連語のフォントサイズの４０％以上８０％以下である場合、ＣＰＵ１１は、訳語のフォントサイズを行間と同じ大きさに決定する。尚、閾値として、４０％又は８０％とは異なる値を用いてもよい。

ステップＳ１５３のように、各単語又は連語別に訳語のフォントサイズを決定することにより、画像読取時に行が歪んで読み取られる等の原因により原文書画像中で行間の大きさに変動がある場合でも、各行の文字に重ならないように訳語を配置することができる。
尚、本発明では、各単語又は連語別に訳語のフォントサイズを決定するのではなく、行単位で訳語のフォントサイズを決定する処理を行ってもよい。この場合は、一行内で訳語のフォントサイズが変動することがないので、行間に訳語を配置した文書の美観が向上する。また本発明では、文字を認識した文字領域単位で統一した訳語のフォントサイズを定める処理を行ってもよい。この場合は、訳語のフォントサイズが段落等の文字領域内で統一され、行間に訳語を配置した文書の美観が向上する。

ＣＰＵ１１は、次に、単語又は連語に隣接する行間で、行に沿った方向の訳語を配置すべき開始位置、及び訳語を配置することが可能な終端位置を設定する処理を行う（Ｓ１５４）。ここで、開始位置は、訳語が配置されたときの訳語の先端の位置であり、終端位置は、訳語がこれ以降には配置されないように定めた限界の位置である。ステップＳ１５４では、ＣＰＵ１１は、訳語を付与すべき単語又は連語の最初の文字の左端のＸ座標を開始位置に設定し、単語又は連語の最後の文字の右端のＸ座標を終端位置に設定する。連語の途中に改行が存在する場合、ＣＰＵ１１は、行末を終端位置に設定する。
尚、本発明では、開始位置を、単語又は連語の最初の文字の左端から所定量だけずらした位置としてもよく、終端位置を、最後の文字の右端から所定量だけずらした位置としてもよい。

ＣＰＵ１１は、次に、訳語の文字数にフォントサイズを乗じることによって訳語の長さを計算し、終端位置の値から開始位置の値を引くことによって訳語を配置可能な配置スペースの長さを計算し、訳語の長さが配置スペースの長さよりも長いか否かを判定する（Ｓ１５５）。訳語の長さが配置スペースの長さよりも長い場合（Ｓ１５５：ＹＥＳ）、ＣＰＵ１１は、行中で、訳語を付与すべき単語又は連語の後方に隣接する位置に、他の訳語を行間に配置しない単語が存在するか否かを判定する（Ｓ１５６）。他の訳語を行間に配置しない単語が後方に存在する場合（Ｓ１５６：ＹＥＳ）、ＣＰＵ１１は、後方に隣接する単語を選択し、選択した単語の最後の文字の右端のＸ座標を終端位置に設定することにより、終端位置を修正し（Ｓ１５７）、処理をステップＳ１５５へ戻す。

ステップＳ１５６で、他の訳語を行間に配置しない単語が後方に存在しない場合（Ｓ１５６：ＮＯ）、ＣＰＵ１１は、行中で、訳語を付与すべき単語又は連語の前方に隣接する位置に、他の訳語を行間に配置しない単語が存在するか否かを判定する（Ｓ１５８）。他の訳語を行間に配置しない単語が前方に存在する場合（Ｓ１５８：ＹＥＳ）、ＣＰＵ１１は、前方に隣接する単語の中心位置よりも後方に位置する範囲内で、開始位置を前方にずらすことにより、開始位置を修正する（Ｓ１５９）。

ステップＳ１５９では、例えば、ＣＰＵ１１は、訳語の長さから配置スペースの長さを引いた値が、前方に隣接する単語の中心位置から開始位置までの距離より小さい場合に、訳語の長さから配置スペースの長さを引いた値だけ開始位置を前方にずらす処理を行う。また例えば、ＣＰＵ１１は、訳語の長さから配置スペースの長さを引いた値が、前方に隣接する単語の中心位置から開始位置までの距離以上である場合に、前方に隣接する単語の中心位置から所定量だけ後方にずれた位置を開始位置とする処理を行う。開始位置を前方にずらし過ぎた場合は、訳語と単語又は連語との対応関係が不明瞭となるので、ステップＳ１５９の処理では、開始位置を、前方に隣接する単語の中心位置よりも後方の位置とするのが適切である。

ＣＰＵ１１は、次に、訳語の長さが、開始位置を修正した後の配置スペースの長さよりも長いか否かを判定する（Ｓ１６０）。訳語の長さが配置スペースの長さよりも長い場合（Ｓ１６０：ＹＥＳ）、又はステップＳ１５８で他の訳語を行間に配置しない単語が前方に存在しない場合（Ｓ１５８：ＮＯ）、ＣＰＵ１１は、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算する（Ｓ１６１）。ステップＳ１５５で訳語の長さが配置スペースの長さ以下である場合（Ｓ１５５：ＮＯ）、又はステップＳ１６０で訳語の長さが配置スペースの長さ以下である場合（Ｓ１６０：ＮＯ）、ＣＰＵ１１は、訳語の長さの圧縮率を１に決定する（Ｓ１６２）。

ステップＳ１５５〜Ｓ１６２の処理により、訳語を付与すべき単語又は連語の長さよりも長い訳語については、他の訳語を配置すべき単語が前後に存在する場合に、訳語の長さが配置スペースに収まるように、訳語の長さが縮小される。訳語の長さを縮小することにより、訳語を配置したときに他の訳語に位置が重なることが無く、単語又は連語と訳語との対応関係が明確となる。また他の訳語を配置すべき単語が前後に存在しない場合には、訳語を付与すべき単語又は連語に隣接した行間の位置に加えて、前後の単語に隣接した行間の位置を含む位置に、訳語の行に沿った方向の配置位置が定められる。このため、訳語を配置する際には、前後の単語に隣接した部分にまで訳語が配置され、極端に訳語の長さが圧縮されることが無く、読み易い大きさで訳語を配置することができる。

ステップＳ１６１又はＳ１６２の処理が終了した場合、ＣＰＵ１１は、単語又は連語に隣接する行間で、行方向と直交する方向、即ち上下方向の訳語の配置位置を決定する上下方向位置決定処理を行う（Ｓ１６３）。
図１１は、ステップＳ１６３の上下方向位置決定処理の手順を示すフローチャートである。図１１の処理では、判定のためのワークメモリ１〜３をＲＡＭ１２に確保してあり、ＣＰＵ１１は、処理に先立ってこれらのワークメモリ１〜３をクリアする（Ｓ１６３１）。

ＣＰＵ１１は、次に、訳語を付与すべき単語又は連語に含まれる文字のうち先頭から順に１文字を選択し（Ｓ１６３２）、選択した１文字の文字コードが、特殊文字ＤＢ１（図１２参照）に記憶した文字コードと一致するか否かを判定する（Ｓ１６３３）。選択した１文字の文字コードが特殊文字ＤＢ１に記憶した文字コードと一致する場合（Ｓ１６３３：ＹＥＳ）、ＣＰＵ１１は、選択した１文字をワークメモリ１に記憶する（Ｓ１６３４）。ここでの文字の記憶は、文字コードの記憶による。

図１２は、特殊文字データベース２３に記憶した文字コードが表す文字を示す説明図である。特殊文字データベース２３は、図１２（ａ）及び１２（ｂ）に夫々示す特殊文字ＤＢ１及び特殊文字ＤＢ２からなる。特殊文字ＤＢ１には、アルファベットのフォントにおけるベースラインから下方に突出した部分を有する５つの文字「g,j,p,q,y 」の文字コードを記憶してあり、特殊文字ＤＢ２には、ベースラインから文字全体が上方に離隔した２つの文字「’,”」の文字コードを記憶してある。

訳語を付与すべき単語又は連語に含まれている文字の文字コードが特殊文字ＤＢ１の文字コードと一致する場合は、単語又は連語の下端がベースラインから下方に離隔しているように見える。また、単語又は連語に含まれている文字の文字コードが特殊文字ＤＢ２の文字コードと一致する場合は、逆に、単語又は連語の下端がベースラインから上方に離隔しているように見える。このような場合に、単語又は連語に訳語を配置すべき位置を上下方向に変更することにより、訳語が単語又は連語の下方の行間にぴったりと揃っているように見せることができる。

図１３は、特殊文字データベース２３に記憶した文字コードが表す文字が含まれている単語の例を示す説明図である。図１３（ａ）に示す単語「giant 」には、特殊文字ＤＢ１の文字「g」と文字コードが一致する文字が含まれている。また、図１３（ｂ）に示す単語「jpy 」は、特殊文字ＤＢ１の文字コードが表す文字のみからなる。更に、図１３（ｃ）に示す単語「” ”」は、特殊文字ＤＢ２の文字コードが表す文字のみからなる。ここでは、単語「giant 」及び「jpy 」に含まれる文字の下端のＹ座標を、先頭の文字から順にＹＢｎ（ｎ＝１，２，３・・・）とする。また、単語「” ”」に含まれる文字の上端のＹ座標をＹＴ１とする。

図１１に戻って、選択した１文字の文字コードが特殊文字ＤＢ１に記憶した文字コードと一致しない場合（Ｓ１６３３：ＮＯ）、ＣＰＵ１１は、選択した１文字の文字コードが、特殊文字ＤＢ２に記憶した文字コードと一致するか否かを判定する（Ｓ１６３５）。特殊文字ＤＢ２に記憶した文字コードと一致する場合（Ｓ１６３５：ＹＥＳ）、ＣＰＵ１１は、選択した１文字をワークメモリ２に記憶し（Ｓ１６３４）、一致しない場合（Ｓ１６３５：ＮＯ）、ＣＰＵ１１は、選択した１文字をワークメモリ３に記憶する（Ｓ１６３７）。つまり、ワークメモリ３には、特殊文字ＤＢ１にも特殊文字ＤＢ２にもない文字が記憶される。

ステップＳ１６３４、Ｓ１６３６、又はＳ１６３７の処理を終えた場合、ＣＰＵ１１は、訳語を付与すべき単語又は連語に含まれる文字のうち、未選択の文字があるか否かを判定する（Ｓ１６３８）。未選択の文字がある場合（Ｓ１６３８：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ１６３２に戻す。未選択の文字がない場合（Ｓ１６３８：ＮＯ）、ＣＰＵ１１は、ワークメモリ３に記憶された文字があるか否かを判定する（Ｓ１６３９）。

ワークメモリ３内に文字がある場合（Ｓ１６３９：ＹＥＳ）、即ち、図１３（ａ）に示す単語「giant 」について処理した場合のように、ワークメモリ３に特殊文字ＤＢ１にも特殊文字ＤＢ２にもない文字が記憶されている場合、ＣＰＵ１１は、訳語を付与すべき単語又は連語に含まれる文字のうち、特にワークメモリ３内の文字により、単語又は連語の下端位置を決定する（Ｓ１６４０）。単語「giant 」を例にした場合、ＣＰＵ１１は、文字「i,a,n,t 」夫々の下端のＹ座標ＹＢ２，ＹＢ３，ＹＢ４，ＹＢ５の値を取得し、これらの平均の値ＹＢａｖを算出して単語「giant 」の下端のＹ座標とする。
尚、ここでＹ座標を算出する場合の平均値は、算術平均による値に限定されるものではなく、例えば、中央値のような値を用いてもよい。

ステップＳ１６３９で、ワークメモリ３内に文字がない場合（Ｓ１６３９：ＮＯ）、ＣＰＵ１１は、ワークメモリ１に記憶された文字があるか否かを判定する（Ｓ１６３９）。ワークメモリ１内に文字がある場合（Ｓ１６４１：ＹＥＳ）、即ち、図１３（ｂ）に示す単語「jpy 」について処理した場合のように、ワークメモリ３に特殊文字ＤＢ１にも特殊文字ＤＢ２にもない文字が記憶されておらず、ワークメモリ１に特殊文字ＤＢ１にある文字が記憶されている場合、ＣＰＵ１１は、訳語を付与すべき単語又は連語に含まれる文字のうち、特にワークメモリ１内の文字により、単語又は連語の下端位置を決定する（Ｓ１６４２）。単語「jpy 」を例にした場合、ＣＰＵ１１は、「j,p,y 」の文字夫々の下端のＹ座標ＹＢ１，ＹＢ２，ＹＢ３を取得してこれらの平均の値ＹＢａｖ０を算出し、値ＹＢａｖ０に対して、ステップＳ１５１で算出した各行の平均高さに一定値（例えば０．２）を掛けた値だけ上方にシフトさせた値ＹＢａｖを、単語「jpy 」の下端のＹ座標とする。

ステップＳ１６４１で、ワークメモリ１内に文字がない場合（Ｓ１６４１：ＮＯ）、即ち、図１３（ｃ）に示す単語「” ”」について処理した場合のように、ワークメモリ１，３に文字が記憶されておらず、ワークメモリ２に特殊文字ＤＢ２にある文字が記憶されている場合、つまり、訳語を付与すべき単語又は連語に含まれる文字が全てワークメモリ２に記憶されている場合、ＣＰＵ１１は、ワークメモリ２内の文字により、単語又は連語の下端位置を決定する（Ｓ１６４３）。単語「” ”」を例にした場合、ＣＰＵ１１は、２つの文字「”,”」の上端のＹ座標ＹＴ１,ＹＴ２を取得してこれらの平均の値ＹＴａｖを算出し、単語「” ”」が属する行の平均高さを値ＹＴａｖから減算して得た値ＹＢａｖを単語「” ”」の下端のＹ座標とする。

ステップＳ１６４０、Ｓ１６４２、又はＳ１６４３の処理を終えた場合、ＣＰＵ１１は、単語又は連語に付与すべき訳語の下端位置を決定し（Ｓ１６４４）、処理を付属情報決定処理に戻す。ステップＳ１６４４では、ＣＰＵ１１は、Ｙ座標が値ＹＢａｖである位置から、ステップＳ１５３で決定した訳語のフォントサイズだけ下方へずらした位置を、訳語の下端位置、即ち上下方向の訳語の配置位置と決定する。ステップＳ１６３の上下方向位置決定処理により、訳語付の文書中で訳語を配置する位置が、文書中の単語又は連語に隣接する行間に定まる。またステップＳ１５３〜Ｓ１６３の処理により、ステップＳ１５２で選択した訳語のフォントサイズ、配置位置、及び圧縮率を示す付属情報が決定される。

本発明では、ステップＳ１６４４で算出した訳語の下端位置から、更に下方へ一定ポイント数だけずらせた位置を訳語の配置位置と決定してもよい。この場合は、訳語と単語又は連語との間に一定の隙間が確保されて読み易さが向上する。また本発明では、行の位置と傾きとを検出し、行の傾きに沿って訳語の配置位置を決定する処理を行ってもよい。この場合は、画像読取時に行が歪んで読み取られる等の原因により行が傾いている状態の原文書画像についても、行に沿って訳語を配置することが可能となる。

ステップＳ１６３の処理が終了した場合、ＣＰＵ１１は、取得した訳語のうち、まだ付属情報を決定していない訳語があるか否かを判定する（Ｓ１６５）。まだ付属情報を決定していない訳語がある場合（Ｓ１６５：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ１５２へ戻して、まだ付属情報を決定していない訳語の中から一の訳語を選択する。まだ付属情報を決定していない訳語が無い場合（Ｓ１６５：ＮＯ）、ＣＰＵ１１は、訳語データに含まれる訳語に、決定した付属情報を関連付けた上で、訳語データをＲＡＭ１２に記憶させ、処理をメインの処理へ戻す。
ステップＳ１３〜Ｓ１５の処理は、ステップＳ１２で抽出した文字領域の夫々について実行される。

ＣＰＵ１１は、次に、原文書画像と同一の大きさの画像中に、付属情報で定められた配置状態で夫々の訳語を配置して、訳語画像を生成する処理を行う（Ｓ１７）。ステップＳ１７では、ＣＰＵ１１は、原文書画像と同一の大きさの画像中に、訳語データに含まれる夫々の訳語を、付属情報が示すサイズで付属情報が示す配置位置に配置して、訳語画像を生成する。具体的には、付属情報が示すフォントサイズで生成した訳語の長さを適宜の圧縮率で圧縮し、訳語の先頭文字の左端は開始位置となり、訳語の下端は上下方向の配置位置となるように、夫々の訳語を配置した画像を生成する。更に、ステップＳ１７では、ＣＰＵ１１は、訳語画像中に、訳語を取得した連語に対して下線に相当する線を配置する。更に、ステップＳ１７では、ＣＰＵ１１は、訳語画像中に配置した夫々の文字に当該文字を示すテキストデータを関連付ける。またステップＳ１７では、生成する訳語画像中の訳語及び線以外の部分は透明にしておく。

図１４は、訳語画像の例を示す模式図である。図１４に示す例は、図２に例を示した原文書画像中から生成した訳語画像を示している。図１４では、原文書画像中の単語及び連語に対する訳語が配置されており、更に、原文書画像中の連語「X-ray crystallographic analysis 」に対して下線に相当する線が配置されている。

ＣＰＵ１１は、次に、原文書画像と同一の大きさの透明画像中に、原文書画像中の各文字の位置に相当する位置に各文字を示すテキストデータを関連付けた透明テキスト画像を生成し、原文書画像に透明テキスト画像と訳語画像とを重ねることによって、訳語付文書画像を生成する（Ｓ１８）。例えば、ステップＳ１８では、ＰＤＦ（Portable Document Format）形式の画像で訳語付文書画像を生成することとし、ＣＰＵ１１は、原文書画像を第１の画像レイヤ、透明テキスト画像を第２の画像レイヤ、訳語画像を第３の画像レイヤとして重ねることにより、ＰＤＦ形式の訳語付文書画像を生成する。図２（ｂ）に示す訳語付文書画像は、図２（ａ）に示す原文書画像に図１２に示す訳語画像を重ねることにより生成した訳語付文書画像である。原文書画像に透明テキスト画像と訳語画像とを重ねた訳語付文書画像を生成することにより、文書の内容及び訳語の内容を訳語付文書画像から検索することが可能となり、また文書の内容及び訳語の内容をコピーすることも容易となる。

ＣＰＵ１１は、次に、訳語付文書画像を表す画像データを、インタフェース部１７から画像形成装置３２へ送信し、画像形成装置３２に画像データに基づいて訳語付文書画像を形成させる処理を行い（Ｓ１９）、本発明の文書画像生成の処理を終了する。なお、本発明では、ステップＳ１９で訳語付文書画像を形成する処理を行わずに、表示部１６で表示するか、又は訳語付文書画像を表す画像データを記憶部１４に記憶させる処理を行ってもよい。

以上の処理により、図２（ｂ）に示す如き訳語付文書画像が生成される。原文書画像に含まれる単語又は連語からなる語句に対する訳語が、単語又は連語に隣接する行間に配置されており、訳語付文書を読む使用者は、訳語を利用して文書の内容を理解することができる。
また、語句中の文字が、特殊文字データベースに記憶された特定の形状を有する文字と一致するか否かに応じて補足説明を付与すべき上下方向の位置を異ならせる。これにより。語句に付与すべき補足説明の位置が、標準的には、語句中の文字の上下方向の位置から決まる語句の位置に対して決定され、語句中の文字の一部又は全部が特定の形状を有する文字である場合は、前記語句の位置とは異なる位置に対して決定される。
従って、文字が特定の形状を有することにより変動して決まる語句の位置を補正することによって、補足説明を付与すべき位置を決定した場合は、語句の下方の行間にきれいに揃っているように見える補足説明を付与することが可能となる。

また、特殊文字データベースには、ベースラインから下方へ突出する形状を有する文字「g,j,p,q,y 」（又は上方へ離隔する文字「’,”」）を記憶してあるため、補足説明を付与すべき位置を決定する際に、語句中の文字の形状により文字の上下方向の位置が変化する度合いを最大限に反映させて、語句の位置を適正に補正することが可能となる。つまり、語句中の全ての文字が特殊文字データベースに記憶された文字である場合、上下方向の平均的な文字の位置から語句の位置が下方に（又は上方に）偏倚しているように決まることを考慮して、補足説明を付与すべき位置を平均的な位置より上方に（又は下方に）決定する。そして、語句中の文字の少なくとも１つが特殊文字データベースに記憶されていない文字である場合は、特殊文字データベースに記憶されている文字を除いた文字の上下方向の平均的な位置を語句の位置として、補足説明を付与すべき位置を決定する。
換言すれば、語句中に特殊文字データベースに記憶された文字が１つも含まれていない場合は、補足説明を付与すべき位置を、語句中の文字の上下方向に係る平均的な位置に基づいて決定する。また、語句中に特殊文字データベースに記憶された文字が１つでも含まれている場合は、補足説明を付与すべき位置を、語句中の文字の上下方向に係る平均的な位置に対して上方に（又は下方に）偏倚させて決定する。
従って、補足説明を付与する位置が、単語又は連語からなる語句の下端から不自然に離隔しないように補正することが可能となる。

更にまた、訳語付文書画像は、原文書画像に訳語画像を重ねることによって生成されるので、文書に含まれる文字のサイズ及び位置は不変であり、文書のレイアウトは維持される。従って、原文書と訳語付の文書とを比較することが容易であり、文書の内容を正しく理解することが容易となる。また訳語付文書画像では、文章を翻訳した訳文を生成するのではなく、単語又は連語に対する訳語を付加しているので、原文書と訳語との対応関係は明らかであり、把握し易い。また原文書での単語の綴り間違い、文字認識の処理における誤認識、又は自然言語処理の不備による誤訳等があった場合でも、誤った訳語が付加されるだけであって、前後の文脈から訳語が誤っていることを推測することは容易であり、使用者が文書の内容を正しく理解することを大きく妨げることはない。また本発明では、原文書に対する加工を行わないので、文字認識の処理における誤認識等の原因により誤った内容の原文書を生成することが無く、使用者は正しく文書の内容を理解することができる。

尚、本実施の形態にあっては、文書画像生成装置１は、画像読取装置３１及び画像形成装置３２が接続された汎用コンピュータであるが、これに限定されるものではなく、文書画像生成装置１は、画像読取機能を備えたスキャナ又は複合機等の画像処理装置であってもよい。また本実施の形態にあっては、文書画像生成装置１が、コンピュータプログラム２１に基づいて本発明の文書画像生成方法を実行する形態を示したが、これに限るものではなく、文書画像生成装置１は、本発明の文書画像生成方法に係る処理の一部又は全部を実行する専用の情報処理回路を備えて本発明に係る処理を実行する形態であってもよい。

また本実施の形態にあっては、画像読取装置３１で生成した原文書画像に対して本発明に係る処理を実行する形態を示したが、文書画像生成装置１は、その他の方法で得られた原文書画像に対して本発明に係る処理を実行する形態であってもよい。例えば、文書画像生成装置１は、ファクシミリ通信又は電子メール等により外部から送信された画像データを受信し、受信した画像データに対して文書画像生成方法の処理を実行する形態であってもよい。また例えば、文書画像生成装置１は、インタフェース部１７に撮影装置を接続してあり、撮影装置が原稿画像を撮影することによって取得した原文書画像に対して文書画像生成方法の処理を実行する形態であってもよい。

また例えば、文書画像生成装置１は、インタフェース部１７に代えて、外部のウェブサーバ装置が接続されている通信ネットワークに接続された通信部を備えてあり、ウェブサーバ装置から送信されたウェブページ用のデータを通信部が受信し、受信したデータに基づく画像データに対して文書画像生成方法の処理を実行する形態であってもよい。具体的には、受信したデータに基づいて、ウェブページである原文書画像を表す画像データを生成し、生成した画像データとウェブページ用のデータとをＲＡＭ１２に記憶させる。この場合、ウェブページ用のデータが画像データ等のテキストデータを抽出できるデータであるときは、ＲＡＭ１２に記憶した画像データに基づく原文書画像から認識した文字を、ＲＡＭ１２に記憶したウェブページ用のデータから抽出したテキストデータに合わせるようにすればよい。本発明に係る処理を実行して生成した訳語付文書画像は、表示部１６に表示してもよいし、インタフェース部１７から画像形成装置３２へ送信してもよい。

更にまた、本実施の形態にあっては、ルビ（補足説明）として単語又は連語に対する訳語を取得し、訳語を行間に配置した訳語付文書画像を生成する形態を示したが、本発明に係るルビは訳語に限るものではない。例えば、本発明は、ルビとして、単語又は連語の読みを読み仮名、発音記号又はピンイン記号等で説明した読み情報を、単語又は連語に隣接した行間に配置する形態であってもよい。この形態の場合は、文書を読む使用者は、文書中の単語又は連語の読みを確認することができる。また例えば、本発明は、ルビとして、単語又は連語の意味、同義語又は由来等を説明した注釈を、単語又は連語に隣接した行間に配置する形態であってもよい。この形態の場合は、文書を読む使用者は、たとえ母国語であっても難解な言葉又は専門用語等を理解することができる。これらの形態では、文書画像生成装置１は、単語又は連語に関連づけた読み情報又は注釈を辞書データベース２２に予め記録しておき、辞書データベース２２から読み情報又は注釈を取得する処理を行う。

更にまた、本実施の形態にあっては、横書きの語句の下方の行間に補足説明を付与しているが、語句の上方の行間に補足説明を付与してもよいし、本発明を縦書きの文章に対して適用してもよい。例えば、日本語による縦書きの文書に対して本発明の処理を実行する形態の場合は、訳語は単語又は連語に隣接する右側方の行間に配置すればよい。

更にまた、本実施の形態にあっては、文書画像生成装置１は辞書データベース２２を内部の記憶部１４に記録してある形態を示したが、これに限るものではなく、本発明の文書画像生成装置は、外部の辞書データベースを用いて本発明に係る処理を実行する形態であってもよい。例えば、文書画像生成装置の外部のサーバ装置に辞書データベースを記憶しておき、文書画像生成装置は、必要に応じて外部の辞書データベースから必要なデータを読み出すことによって本発明に係る処理を実行してもよい。

１文書画像生成装置
１１ＣＰＵ
１２ＲＡＭ
１４記憶部
１６表示部
１７インタフェース部
２記録媒体
２１コンピュータプログラム
２２辞書データベース
２３特殊文字データベース２３
３１画像読取装置
３２画像形成装置

Claims

横書きの文章が含まれる原稿画像を表す画像データを受け付け、受け付けた画像データに基づく画像に含まれる語句に補足説明を付与した補足説明付文書の画像を生成する文書画像生成装置において、
前記画像データに基づく画像に含まれる文字の前記画像における上下方向の位置を特定する文字位置特定手段と、
前記語句中の文字について前記文字位置特定手段が特定した位置に基づいて、前記語句に対する補足説明を付与すべき上下方向の位置を決定する付与位置決定手段と、
前記語句中の文字が特定の形状を有する文字と一致するか否かを判定する判定手段とを備え、
前記付与位置決定手段は、前記判定手段による一致／不一致の判定結果に応じて異なる位置を決定するようにしてあること
を特徴とする文書画像生成装置。
前記特定の形状は、文字を配列するための横方向の基準線から下方へ突出するもの（又は上方へ離隔するもの）であることを特徴とする請求項１に記載の文書画像生成装置。
前記判定手段が、全ての文字が一致しないと判定した場合、前記付与位置決定手段は、前記語句中の文字について前記文字位置特定手段が特定した上下方向の位置に係る平均的な位置に基づいて、前記補足説明を付与すべき位置を決定するようにしてあり、
前記判定手段が、少なくとも１文字が一致すると判定した場合、前記付与位置決定手段は、前記補足説明を付与すべき位置を上方へ（又は下方へ）偏倚させて決定するようにしてあること
を特徴とする請求項２に記載の文書画像生成装置。
前記補足説明は、語句に対する訳語、語句の読み、又は語句に対する注釈であることを特徴とする請求項１から３の何れか１項に記載の文書画像生成装置。
前記画像データに基づく画像及び前記補足説明をＰＤＦファイル形式のデータに変換する手段を備えることを特徴とする請求項１から４の何れか１項に記載の文書画像生成装置。
横書きの文章が含まれる原稿画像を表す画像データを受け付け、受け付けた画像データに基づく画像に含まれる語句に補足説明を付与した補足説明付文書の画像を生成する文書画像生成方法において、
前記画像データに基づく画像に含まれる文字の前記画像における上下方向の位置を特定するステップと、
前記語句中の文字について特定した位置に基づいて、前記語句に対する補足説明を付与すべき上下方向の位置を決定する付与位置決定ステップと、
前記語句中の文字が特定の形状を有する文字と一致するか否かを判定するステップとを含み、
前記付与位置決定ステップは、一致／不一致の判定結果に応じて異なる位置を決定すること
を特徴とする文書画像生成方法。
画像データを受け付けて文書処理及び画像処理するコンピュータに、画像データに基づく画像に含まれる横書きの語句に補足説明を付与した補足説明付文書の画像を生成させるコンピュータプログラムにおいて、
コンピュータに、前記画像データに基づく画像に含まれる文字の前記画像における上下方向の位置を特定させるステップと、
コンピュータに、前記語句中の文字について特定させた位置に基づいて、前記語句に対する補足説明を付与すべき上下方向の位置を決定させる付与位置決定ステップと、
コンピュータに、前記語句中の文字が所定の形状を有する文字と一致するか否かを判定させるステップとを含み、
前記付与位置決定ステップは、コンピュータに、一致／不一致の判定結果に応じて異なる位置を決定させること
を特徴とするコンピュータプログラム。