JP2014219909A

JP2014219909A - 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム

Info

Publication number: JP2014219909A
Application number: JP2013100215A
Authority: JP
Inventors: 毅九津見; Takeshi Kutsumi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2014-11-20

Abstract

【課題】ルビをより読みやすくした画像を生成すること。【解決手段】本発明は、文字列を表す原文書が表記された原文書画像を取得し（Ｓ１１）、原文書画像中の文字列の位置を特定文字位置として特定し（Ｓ１２、Ｓ１３）、原文書画像中の文字列に対する補足説明であるルビを取得し（Ｓ１４）、特定文字位置に基づいて、原文書画像中の文字列に近接する行間の位置をルビの配置スペースとして決定し、配置スペースとルビの文字列であるルビ文字列とを含む付属情報を生成し（Ｓ１５）、付属情報に基づいて、原文書画像中の配置スペースにルビ文字列を付与した補足説明付文書画像を生成し（Ｓ１６）、Ｓ１５において、文字列の長さがルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に予め定められた特定文字が含まれている場合に、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。【選択図】図３

Description

本発明は、画像で表される文書に対して補足説明を付加する文書画像生成装置、文書画像生成方法、及びコンピュータプログラムに関する。

近年、文書をスキャナにて読み込み、その読み取った画像における文書中の原文の、単語や連語等の文字列に対応する訳語等の説明情報（以下「ルビ」と呼ぶ。）を行間に付与する技術が知られている。当該技術については、たとえば特許文献１〜３に開示されている。

特許文献１には、文書中の特定の文字列に対応するルビ情報をその文字列（原文文字列）の直下に示す方法が記載されている。また、他の方法として、ルビ付与対象の原文文字列の進行方向の長さに対してルビ文字列の進行方向の長さが長い場合は、辞書情報の文字列の進行方向のみの寸法を縮小して表示する方法が記載されている（特に、特許文献１の段落００５７）。

また、特許文献１には、更に他の方法として、ルビ付与対象の原文文字列の進行方向の長さに対してルビ文字列の進行方向の長さが長い場合において、当該ルビ付与対象の原文文字列の前方または後方の原文文字列がルビ付与対象でない場合は、当該ルビ付与対象の原文文字列に対するルビ文字列を、当該ルビ付与対象の原文文字列の前方または後方の原文文字列に対応する位置まではみ出して、ルビ文字列を配置することで、ルビ文字列をなるべく縮小せずに表示する方法が記載されている（特に、特許文献１の段落００４９〜段落００５６）

特許文献２には、行中のある単語に対するルビの長さがその単語の長さより長い場合において、そのルビの内容が、複数通りの語義を併記しているようなものである場合は、複数の語義のうち、いくつかの語義の出力をやめることで、ルビ文字列をなるべく縮小せずに表示する方法が記載されている（特に、特許文献２の段落０１０５）。

特許文献３には、行頭や行末のマージン部分を利用することや、より文字数の短いルビに置き換えることで、ルビ文字列をなるべく縮小せずに表示する方法が記載されている。

特開２０１１−１００３５６号特開２００９−２９４７８８号特開２０１２−１１８８９０号

特許文献１に開示された方法では、行中のある単語に対するルビの長さがその単語の長さより長い場合には、ルビ文字を文字列の進行方向にサイズ圧縮して表示している。しかし、この方法だけでは、ルビが小さくなりすぎたり、縦横比が本来のものより変化しすぎたりして、読みにくくなる恐れがある。

また、同じく特許文献１に開示された方法では、行中のある単語や連語に対するルビの長さがその単語や連語の長さより長い場合に、前方や後方の単語・連語の行間（ルビ用スペース）が利用可能ならば利用して、ルビの圧縮や縮小をなるべく緩和している。しかし、この方法は、前方や後方の単語・連語にルビが存在する場合には実現し難い。また、前方や後方の単語・連語にルビが存在しない場合であっても、原文の言語が中国語などの単語間の空白が無い言語の場合は、この方法を採ると原文単語・連語とルビとの対応が判りにくくなるので、不適である。

特許文献２に開示された方法では、複数存在するルビのうち、出力をやめるルビを決定する必要がある。そのためには、それぞれのルビに出力優先度などの情報を予め付与しておく必要がある。あるいは、複数存在するルビのうち、原文に応じて最適なルビを選択するように実施する場合は、高度なルビ選択技術を導入する必要があることに加え、各ルビに対しては、例えば意味情報などの更に多量の情報を予め付与しておく必要がある。ルビ用の辞書データ全体にこのような情報を付与することは、開発上、膨大な手間とコストを要する。

また、同じく特許文献２に開示された方法では、原文のある単語・連語に対しルビが１種類しか出力されていない場合には、そのルビの文字数をそれ以上削減する手段が示されていない。この場合に、そのルビの長さが対応する原文単語・連語の長さより長いと、結局、ルビの文字サイズ縮小などの手段を採らざるを得ず、やはり読みやすさに問題が生じる。

特許文献３に開示された方法では、対象のルビが行頭や行末でなく行の途中にある場合や、代替可能なより短いルビを辞書に持たない場合は、効果が無い。

本発明は、上述したような従来の方法の問題点を解決するものであり、ルビをより読みやすくした画像を生成することができる文書画像生成装置、文書画像生成方法、及びコンピュータプログラムを提供するものである。

本発明の文書画像生成装置は、文字列を表す原文書が表記された原文書画像を取得する原文書画像取得手段と、前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識手段と、前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得手段と、前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定手段と、前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成手段と、を具備し、前記付属情報決定手段は、前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、ことを特徴とする。

本発明の文書画像生成装置において、前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に少なくとも２つの前記特定文字が含まれている場合、前記ルビ文字列に含まれる前記特定文字と前記特定文字間の文字とを省略する、ことを特徴とする。

本発明の文書画像生成装置において、前記特定文字は、開始を表す記号と終了を表す記号を含む、ことを特徴とする。

本発明の文書画像生成装置において、前記特定文字は、括弧記号である、ことを特徴とする。

本発明の文書画像生成方法は、文字列を表す原文書が表記された原文書画像を取得する原文書画像取得処理と、前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識処理と、前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得処理と、前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定処理と、前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成処理と、を具備し、前記付属情報決定処理は、前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、ことを特徴とする。

本発明のコンピュータプログラムは、上記文書画像生成方法の各ステップをコンピュータに実行させる。

文書の単語・連語へのルビふりにおいて、ルビ文字列が文字列進行方向に対し強く圧縮した場合、前述のように読みにくくなってしまう。そこで、本発明では、文字列の長さが、対象となるルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に予め定められた特定文字が含まれている場合に、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。これにより、圧縮の度合いを緩和することができる。

また、本発明では、文字列の長さが、対象となるルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に少なくとも２つの特定文字が含まれている場合、ルビ文字列に含まれる特定文字と特定文字間の文字とを省略する。すなわち、ルビ文字列のうち、特定文字で挟まれた箇所を省略する。その特定文字としては、開始及び終了を表す括弧記号が例示される。

このように、本発明によれば、ルビ（訳語）中に括弧で挟まれた注釈部分がある場合、そこをカットすることで、意味をあまり変えずにルビ文字数が削減できるので、ルビ文字列の圧縮度合いを緩和することができ、可読性を損なわずに済む。ルビ配置長さに余裕があるなら括弧部分も表示して、意味をより正確に伝えることができる。したがって、本発明によれば、ルビをより読みやすくした画像を生成することができる。

また、本発明によれば、ルビ（訳語）に事前に情報（出力優先度や意味情報など）を付与することなく、上記効果を得ることができるので、開発の手間やコストを削減することができる。

本発明の文書画像生成装置の内部構成を示すブロック図である。原文書画像及び補足説明付文書画像の例を示す模式図である。本実施形態に係る文書画像生成装置が実行する処理の手順を示すフローチャートである。文字認識処理により得られた文字データの例を示す概念図である。ステップＳ１４のルビ取得処理の手順を示すフローチャートである。行データの内容例を示す概念図である。テキストデータ及び改行データの内容例を示す概念図である。ルビデータの内容例を示す概念図である。ステップＳ１５の付属情報決定処理の手順を示すフローチャートである。ステップＳ１５の付属情報決定処理のうち、当初決定された付属情報の長さが所定の基準を超えて長い場合の手順を示すフローチャートである。当初決定された付属情報（ルビ）の長さがその配置スペースを超えて長い場合の例を示す模式図である。図１１の場合に付属情報（ルビ）が配置スペースに収まるように圧縮して配置した例を示す模式図である。本実施形態に係る付属情報データベース（ルビ辞書）の例を示す概念図である。本実施形態に係る特定の記号類（括弧類）が定義された記憶内容の例を示す概念図である。本発明の技術を利用して圧縮度合いが緩和されて付属情報（ルビ）が配置された例を示す模式図である。ステップＳ１６の補足説明付文書画像生成処理の手順を示すフローチャートである。補足説明テキストレイヤ及び印画像レイヤの例を示す模式図である。

以下本発明をその実施の形態を示す図面に基づき具体的に説明する。

図１は、本発明の一実施形態の文書画像生成装置の内部構成を示すブロック図である。本実施の形態に係る文書画像生成装置１は、ＰＣ（Personal Computer）又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うＣＰＵ（Central Processing Unit）１１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ（Random Access Memory）１２と、光ディスク又はメモリカード等の記録媒体２から情報を読み取るＣＤ−ＲＯＭ（Compact Disc Read Only Memory）ドライブ等のドライブ部１３と、ハードディスク等の記憶部１４と、を備えている。ＣＰＵ１１は、記録媒体２から本発明のコンピュータプログラム２１をドライブ部１３に読み取らせ、読み取ったコンピュータプログラム２１を記憶部１４に記憶させる。

コンピュータプログラム２１は必要に応じて記憶部１４からＲＡＭ１２へロードされ、ＣＰＵ１１は、ロードされたコンピュータプログラム２１に基づいて、文書画像生成装置１に必要な処理を実行する。ここで、コンピュータプログラム２１は、文書認識処理、ルビ取得処理、付属情報決定処理、補足説明付文書画像生成処理などの各処理をＣＰＵ１１に実行させる。文書認識処理、ルビ取得処理、付属情報決定処理、補足説明付文書画像生成処理については後述する。

なお、コンピュータプログラム２１は、インターネット又はＬＡＮ（Local Area Network）等の通信ネットワークを介して図示しない外部のサーバ装置から文書画像生成装置１へダウンロードされて記憶部１４に記憶される形態であってもよい。

また、記憶部１４には、自然言語処理に必要なデータを記録した辞書データベース２２を記憶している。辞書データベース２２は、言語の文法、構文の出現頻度、及び単語の意味等を示す情報を記録している。辞書データベース２２は、最初から記憶部１４に記憶されている形態でもよく、また、記録媒体２に記録されてあってドライブ部１３で記録媒体２から読み取られて記憶部１４に記憶される形態でもよい。

文書画像生成装置１は、更に、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部１５と、各種の情報を表示する液晶ディスプレイ等の表示部１６とを備えている。

文書画像生成装置１は、更に、外部のウェブサーバ装置４が接続されている通信ネットワークＮに接続された通信部１８を備えている。ウェブサーバ装置４は、通信ネットワークＮを介して、原文書画像を含むウェブページ用の画像データを送信する。通信部１８は、ウェブサーバ装置４から通信ネットワークＮを介して送信された画像データを受信する。ＣＰＵ１１は、受信した画像データに含まれる原文書画像を表示部１６に表示する。

ＣＰＵ１１は、ウェブページである原文書画像を表示部１６に表示する際に、ＲＡＭ１２にロードされた上述のコンピュータプログラム２１に従って、受信したウェブページ用のデータに含まれる原文書画像に対して、本実施形態の文書画像生成方法の処理を実行する。

文書画像生成方法では、原文書画像から、原文書中の単語又は連語に対するルビ（訳語）を補足説明として付加した補足説明付文書画像を生成する。ここで、原文書画像は、原文書がテキストデータにより表記された文字領域を含み、原文書は、テキストの内容を表す文字列である単語又は連語を表す。連語とは、複数の単語から構成され、独自の意味を有する語句であり、名詞句、動詞句、熟語、又は慣用句等が連語に相当する。また、連語には、連語に含まれる複数の単語が原文書中に連続して配置されている連続連語と、複数の単語が不連続に配置されている不連続連語とがある。不連続連語は、例えば、「He takes difference into consideration.」という文書の「takes…into consideration」のように、連語に含まれる複数の単語の間に他の単語が配置されている連語である。また、本実施の形態では、連語の途中で改行が行われている連語についても、不連続連語として扱う。

図２は、原文書画像及び補足説明付文書画像の例を示す模式図であり、図２（ａ）は原文書画像の例を示し、図２（ｂ）は補足説明付文書画像の例を示す。図２（ａ）に示す原文書画像には、「X-ray crystallographic analysis also confirmed the molecular structure.」という内容の文書が含まれている。

本実施形態の文書画像生成方法では、図２（ｂ）に示すように、連語「X-ray crystallographic analysis 」、並びに単語「confirmed 」、「molecular 」及び「structure 」に対するルビを付した補足説明付文書画像を生成する。連語「X-ray crystallographic analysis 」は、本来は連続連語であるものの、図２（ａ）に示す例では途中で改行が行われているので、不連続連語として扱われる。本実施の形態においては、図２に示すように、横書きの原文書に対し、単語又は連語の下側の行間にルビを配置する例について説明する。

図３は、本実施形態に係る文書画像生成装置１が実行する処理の手順を示すフローチャートである。ＣＰＵ１１は、ＲＡＭ１２にロードしたコンピュータプログラム２１に従って、以下の処理を実行する。

文書画像生成装置１は、まず、原文書を表す画像である原文書画像を取得する原文書画像取得処理を実行する（ステップＳ１１）。ステップＳ１１では、ＣＰＵ１１は、ウェブサーバ装置４から通信ネットワークＮを介して送信された画像データを通信部１８で受信し、ＲＡＭ１２に記憶させる。ＣＰＵ１１は、その画像データに含まれる原文書画像を取得する。なお、ステップＳ１１では、予め記憶部１４に記憶してある画像データをＲＡＭ１２に読み出すことによって、原文書画像を取得する処理を実行してもよい。また、ＣＰＵ１１は、ステップＳ１１の処理の際に、必要に応じて、解像度の調整、及び画像データのデータ形式の変換等の画像処理を行う。

ＣＰＵ１１は、次に、ＲＡＭ１２に記憶した画像データに含まれる原文書画像から、文字が表記されている文字領域を抽出する文字領域抽出処理を実行し（ステップＳ１２）、抽出した文字領域に含まれる文字を認識する文字認識処理を実行する（ステップＳ１３）。ステップＳ１３の処理では、ＣＰＵ１１は、例えば従来のＯＣＲ（Optical Character Recognition）技術を利用して、文字領域に表記された文字により原文書を文字データとして認識し、原文書画像中において文字データに含まれる文字列の位置を特定文字位置として特定する。

図４は、文字認識処理により得られた文字データの例を示す概念図である。図４に示す例は、図２に例を示した原文書画像中から文字を認識した結果の一部を示している。文字認識処理により得られた文字データは、ＣＰＵ１１が文字を認識した認識結果と、その認識結果に係る付属情報とを含んでいる。文字認識処理では、行内にあるスペースも文字として認識するようになっており、文字データは、更に、ＣＰＵ１１がスペースを認識した認識結果と、その認識結果に係る付属情報とを含んでいる。

具体的には、上記付属情報は、文字の夫々に順に付した文字番号と、各文字における上記特定文字位置と、文字領域に付した領域番号と、各文字の行内での位置を示す行内位置情報と、文字のサイズとを含み、上記認識結果は、文字の内容を示している。各文字の特定文字位置は、原文書画像における文字の左端のＸ座標、上端のＹ座標、右端のＸ座標、及び下端のＹ座標で表されている。

図４には、原文書画像の下端左端を原点とし、座標をポイントの単位で表した例を示している。行内位置情報は、行頭を示す１、行末を示す２、行中を示す０、及び行頭かつ行末を示す３の何れかの数値で文字の行内での位置を示す。例えば、ＣＰＵ１１は、原文書画像中で文字の左側に他の文字が無い場合に行内位置情報の１を生成し、文字の右側に他の文字が無い場合に行内位置情報の２を生成し、右にも左にも他の文字がない場合に行内位置情報の３を生成する処理を行う。文字のサイズとしては、文字のフォントサイズをポイントの単位で示している。ＣＰＵ１１は、ステップＳ１３の文字認識処理により取得した文字データを、ＲＡＭ１２に記憶させる。

ＣＰＵ１１は、次に、辞書データベース２２を参照して、文字データに含まれる文字列（単語又は連語）に対するルビ（訳語）を取得するルビ取得処理を実行する（ステップＳ１４）。ルビは、ルビ文字列により表され、ルビ文字列は、文字データに含まれる文字列に対する補足説明として用いられる。

図５は、ステップＳ１４のルビ取得処理の手順を示すフローチャートである。ＣＰＵ１１は、ステップＳ１３で取得した文字データに基づいて、原文書に含まれる各行におけるテキストの内容を表す行データを生成する（ステップＳ１４１）。

ステップＳ１４１では、ＣＰＵ１１は、文字番号の順に行頭の文字から行末の文字まで文字を並べることによって一行分の行データを生成し、各行毎に行データを生成する。図６は、行データの内容例を示す概念図である。

図６に示す例は、図２に例を示した原文書画像中から行データを生成した結果を示している。０を開始値として各行に順に付した行番号に関連付けて、各行におけるテキストの内容を表す行テキストが関連付けられている。行テキストの内容は、文字認識処理で認識された文字を示す文字コードからなる。

ＣＰＵ１１は、次に、生成した行データに基づき、原文書に含まれるテキストの内容を表すテキストデータ、及び原文書中での改行位置を記録した改行データを生成する（ステップＳ１４２）。

ステップＳ１４２では、ＣＰＵ１１は、各行の行テキストを行番号の順に連結することにより、テキストデータを生成する。このとき、原文書に記載されている言語が英語等のスペースで単語が区切られている言語である場合は、各行テキストの最後尾にスペースを挿入した上で行テキストを連結する。これは、スペースで単語が区切られている言語では、改行位置が単語の区切りになっていることが多いためである。

日本語等のスペースで単語が区切られていない言語の場合は、ＣＰＵ１１は、スペースを挿入せずに行テキストを連結する。更にステップＳ１４２では、ＣＰＵ１１は、行テキストを連結する都度、連結により生成されたテキストデータの中でどの位置が原文書中での改行位置に対応した位置であるかを記録することにより、改行データを生成する。

図７は、テキストデータ及び改行データの内容例を示す概念図である。図７（ａ）はテキストデータの例を示し、図６の例に示す各行データを順に連結した内容となっている。図７中ではテキストデータを２行に亘って表記しているが、データ上ではテキストデータは一行分のデータとなっている。

ステップＳ１４２では、ステップＳ１２で抽出した文字領域からステップＳ１３で認識した文字が含まれるテキストデータが生成される。即ち、ステップＳ１４２で生成されるテキストデータには、一般的に複数の文が含まれる。

図７（ｂ）は改行データの内容例を示しており、各行番号が示す行における改行位置を、０を開始値としてテキスト中の各文字に順に付した番号で示している。スペースで単語が区切られている言語の場合は、図７（ｂ）に示すように、改行位置は、行テキストを連結する際に挿入したスペースの位置とすればよい。

スペースで単語が区切られていない言語の場合は、各行末の文字の位置を改行位置とすればよい。改行位置で行データを連結したテキストデータを生成することにより、以降の処理で行う自然言語処理では、複数の行に亘って文単位で自然言語処理を実行することができ、効率的で高精度の自然言語処理を実行することが可能となる。

例えば、複数の行に亘る連語については、行単位の自然言語処理では連語に含まれる各単語に対するルビ（訳語）が得られるのみであるのに対し、複数の行に亘った自然言語処理では連語のルビ（訳語）が得られる。

ＣＰＵ１１は、次に、生成したテキストデータに対して、自然言語処理を行うことにより、テキストデータが表す文書に含まれる単語及び連語の意味を推定する処理を行う（ステップＳ１４３）。

ステップＳ１４３では、ＣＰＵ１１は、辞書データベース２２に記録されたデータに基づいて、文書の形態素解析、局所構文解析、及び品詞推定等の自然言語処理を行うことにより、文書中に含まれる単語、及び複数の単語からなる連語を特定し、意味を推定する。ＣＰＵ１１は、次に、文書に含まれる単語及び連語のうち、補足説明付文書画像に付加するためにルビを取得すべき単語及び連語を選択する処理を行う（ステップＳ１４４）。

辞書データベース２２に記録してあるデータでは、単語及び連語の夫々について難易度を予め定めてあり、また、記憶部１４は、補足説明付文書画像中にルビを付加すべき単語及び連語の難易度を設定した設定情報を記憶している。

設定情報の内容は、使用者が入力部１５を操作することにより、使用者によって予め設定しておくことが可能である。ステップＳ１４４では、ＣＰＵ１１は、設定情報で定められた難易度以上の難易度が定められている単語及び連語を、ルビを取得すべき単語及び連語として選択する。ステップＳ１４４により、ルビを配置することが必要な単語及び連語が選択される。

なお、ステップＳ１４４では、ルビを付加すべき単語及び連語の難易度を入力するための入力画面を表示部１６に表示し、入力部１５で難易度を入力される処理を行ってもよく、また、使用者が入力部１５を操作することにより、ルビを取得すべき単語及び連語を逐一指定する処理を行ってもよい。

ＣＰＵ１１は、次に、選択した単語及び連語の夫々について、辞書データベース２２からルビを取得する処理を行う（ステップＳ１４５）。ルビが複数存在する場合は、ＣＰＵ１１は、ステップＳ１４３の自然言語処理により推定した意味に対応するルビを取得する。

また、ステップＳ１４５において、ＣＰＵ１１は、文字データに含まれる文字列（単語又は連語）と、取得したルビ（訳語）とを関連付けたルビデータを生成してＲＡＭ１２に記憶させ、処理をメインの処理へ戻す。図８は、ルビデータの内容例を示す概念図である。ルビを取得すべき連語として「X-ray crystallographic analysis 」が選択され、ルビを取得すべき単語として「confirmed 」、「molecular 」及び「structure 」が選択され、夫々に対してルビが関連付けられている。

次に、本発明の一実施形態の、スペースが不十分な箇所にルビを配置する方法について説明する。

ＣＰＵ１１は、図３のステップＳ１４でルビ取得処理を実行した後、原文書画像に対してルビ（ルビデータに含まれる訳語）を配置（付加）して補足説明付文書画像とする際に、上述の特定文字位置に基づいて、原文書画像中における単語又は連語に近接する行間の位置であるルビの配置スペースを決定し、ルビの文字列であるルビ文字列と、ルビの配置スペースと、ルビのフォントサイズと、ルビの圧縮率とを含む付属情報を生成する付属情報決定処理を実行する（ステップＳ１５）。

図９及び図１０は、本実施形態に係る、図３のステップＳ１５の付属情報決定処理の手順を示すフローチャートである。

図９は、付属情報決定処理手順の全般的な流れを示すフローチャートである。図１０は、付属情報決定処理手順のうち、ルビの長さが当初の配置スペース長より長く、当初の配置スペース長にルビを収めようとしてルビの横幅を圧縮するとその圧縮率が閾値を下回る場合に、この問題を解決する処理手順を示すフローチャートである。この処理手順には、本発明の技術である、ルビの一部の文字を削除することでルビの本来の長さを短くすることと、前述の特許文献１や特許文献３で開示されている技術とが含まれる。

まず、付属情報決定処理手順の全般的な流れを説明する。

ＣＰＵ１１は、文字データに基づいて、原文書に含まれる各行の行間の大きさを計算する（ステップＳ１５０１）。

ステップＳ１５０１では、ＣＰＵ１１は、文字データから各行の先頭文字の上端及び下端のＹ座標を取得し、一の行の先頭文字の下端のＹ座標と次の行の先頭文字の上端のＹ座標との差を計算することにより、行間の大きさを計算する。ＣＰＵ１１は、計算した行間の大きさを各行に関連付けてＲＡＭ１２に記憶させる。ＣＰＵ１１は、次に、取得したルビ（訳語）の中から、一のルビを選択する（ステップＳ１５０２）。

ＣＰＵ１１は、次に、ステップＳ１５０２で選択したルビが不連続連語のルビであるか否かを判定する（ステップＳ１５０３）。ルビが不連続連語のルビである場合は（ステップＳ１５０３：ＹＥＳ）、ＣＰＵ１１は、ルビに係る不連続連語に含まれる単語又は連続単語列のうち、行間にルビを配置することによりルビを近接させる単語又は連続単語列を決定する処理を行う（ステップＳ１５０４）。ステップＳ１５０４では、ＣＰＵ１１は、不連続連語に含まれる先頭単語、連続単語列、又は最長単語の長さを互いに比較し、長さが最大である単語又は連続単語列を、ルビを近接させる単語又は連続単語列として決定する処理を行う。長さの比較には、連続単語列に含まれるスペースをも一文字として数えた文字数を比較すればよい。不連続連語の場合、できるだけ長い単語又は連続単語列にルビを近接させた方がルビと連語との対応関係を把握し易い。また、使用者が文書を文頭から順に読んでいく際には、不連続連語のルビはできるだけ先頭の単語に近接していた方が意味を理解し易い。従って、ステップＳ１５０４の処理により、不連続連語の意味がより理解し易くなる位置が、ルビの配置スペースとして定められる。

ステップＳ１５０３でルビが不連続連語のルビではない場合（ステップＳ１５０３：ＮＯ）、又はステップＳ１５０４が終了した場合は、ルビのフォントサイズを決定する処理を行う（ステップＳ１５０５）。ステップＳ１５０５では、ＣＰＵ１１は、ルビを近接して配置させるべき単語、連語又は連続単語列が含まれる行と次の行との行間の大きさを取得し、取得した行間の大きさと、ルビを近接して配置させるべき単語、連語又は連続単語列のフォントサイズとを比較する。行間の大きさが、単語、連語又は連続単語列のフォントサイズの４０％よりも小さい場合は、ＣＰＵ１１は、ルビのフォントサイズを、単語、連語又は連続単語列のフォントサイズの４０％に決定する。行間の大きさが、単語、連語又は連続単語列のフォントサイズの８０％よりも大きい場合は、ＣＰＵ１１は、ルビのフォントサイズを、単語、連語又は連続単語列のフォントサイズの８０％に決定する。行間の大きさが、単語、連語又は連続単語列のフォントサイズの４０％以上８０％以下である場合は、ＣＰＵ１１は、ルビのフォントサイズを、行間と同じ大きさに決定する。なお、閾値として、４０％又は８０％とは異なる値を用いてもよい。

ステップＳ１５０５のように、各単語又は連語別にルビのフォントサイズを決定することにより、画像読取時に行が歪んで読み取られる等の原因により原文書中で行間の大きさに変動がある場合でも、各行の文字に重ならないようにルビを配置することができる。なお、本発明では、各単語又は連語別にルビのフォントサイズを決定するのではなく、行単位でルビのフォントサイズを決定する処理を行ってもよい。この場合は、一行内でルビのフォントサイズが変動することがないので、行間にルビを配置した文書の美観が向上する。また、本発明では、文字を認識した文字領域単位で統一したルビのフォントサイズを定める処理を行ってもよい。この場合は、ルビのフォントサイズが段落等の文字領域内で統一され、行間にルビを配置した文書の美観が向上する。

ＣＰＵ１１は、次に、単語又は連語に近接する行間の中で、行に沿った方向のルビを配置すべき開始位置、及びルビを配置することが可能な終端位置を設定する処理を行う（ステップＳ１５０６）。ここで、開始位置は、ルビが配置されたときのルビの先端の位置であり、終端位置は、ルビがこれ以降には配置されないように定めた限界の位置である。ステップＳ１５０６は、ＣＰＵ１１は、ルビを近接して配置させるべき単語、連語又は連続単語列の最初の文字の左端のＸ座標を、上記配置スペースの開始位置として設定し、単語、連語又は連続単語列の最後の文字の右端のＸ座標を、上記配置スペースの終端位置として設定する。連語の途中に改行が存在する場合は、ＣＰＵ１１は、行末を終端位置に設定する。なお、本発明では、開始位置を、単語、連語又は連続単語列の最初の文字の左端から所定量だけずらした位置としてもよく、終端位置を、最後の文字の右端から所定量だけずらした位置としてもよい。また、ステップＳ１５０６では、ＣＰＵ１１は、以前の処理により開始位置又は終端位置が既に定まっている場合は既に定まっている位置を採用する処理を行う。

ＣＰＵ１１は、次に、ルビの文字数にフォントサイズを乗じることによってルビの長さを計算し、終端位置の値から開始位置の値を引くことによってルビを配置可能な配置スペースの長さを計算し、ルビの長さが配置スペースの長さよりも長いか否かを判定する（ステップＳ１５０７）。ルビの長さが配置スペースの長さ以下である場合は（ステップＳ１５０７：ＮＯ）、ＣＰＵ１１は、ルビの長さの圧縮率を１に決定する（ステップＳ１５０８）。即ち、ルビを縮小せずに原文書中に配置することになる。ＣＰＵ１１は、次に、単語又は連語に近接する行間の中で、行に交差する方向のルビの配置スペースを決定する処理を行う（ステップＳ１５０９）。ステップＳ１５０９では、ＣＰＵ１１は、ルビを近接して配置させるべき単語、連語又は連続単語列に含まれる各文字の下端のＹ座標を全て取得し、取得したＹ座標の値を平均し、Ｙ座標の平均値からルビのフォントサイズだけ下方へずらした位置を、行に交差する方向のルビの配置スペースとして決定する。ステップＳ１５０９の処理により、補足説明付文書中でルビを配置する位置が、原文書中の単語、連語又は連続単語列に近接する行間に定まる。また、ステップＳ１５０５以降、ステップＳ１５０９までの処理により、ステップＳ１５０２で選択したルビの文字列、フォントサイズ、配置スペース、及び圧縮率を含む付属情報が決定される。

ステップＳ１５０９が終了した後は、ＣＰＵ１１は、取得したルビののうち、まだ付属情報を決定していないルビがあるか否かを判定する（ステップＳ１５１０）。まだ付属情報を決定していないルビがある場合は（ステップＳ１５１０：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ１５０２へ戻して、まだ付属情報を決定していないルビの中から一のルビを選択する。まだ付属情報を決定していないルビが無い場合は（ステップＳ１５１０：ＮＯ）、ＣＰＵ１１は、付属情報決定処理を終了する。

ステップＳ１５０７でルビの長さが配置スペースの長さよりも長い場合は（ステップＳ１５０７：ＹＥＳ）、ＣＰＵ１１は、配置スペースの長さの値をルビの長さの値で除することにより、ルビの長さの圧縮率を計算する（ステップＳ１５１１）。ＣＰＵ１１は、次に、計算した圧縮率が予め定めてある閾値より小さいか否かを判定する（ステップＳ１５１２）。圧縮率の閾値は、１以下の所定の値に予め定められており、コンピュータプログラム２１に含まれているか、又は設定により記憶部１４に記憶されている。圧縮率が閾値以上である場合は（ステップＳ１５１２：ＮＯ）、ＣＰＵ１１は、処理をステップＳ１５０９へ進める。

たとえば、原文書に中国語単語で母方の祖父という意味の文字列（中国語表記の漢字）が含まれている場合を考える。図１１は、原文書の中国語単語（中国語表記の漢字）に対する日本語訳語が「おじいさん（母方）」であり、ルビの文字サイズを所定のサイズにして、「おじいさん（母方）」をルビの文字列（ルビ文字列）とした場合に、その配置スペースが不足していることを示す模式図である。

図９のステップＳ１５１２で圧縮率が閾値より小さい場合は（ステップＳ１５１２：ＹＥＳ）、図１０のフローチャートに移る（図１０のＳ１５５１）。

図１２は、たとえば、上述のような場合に、ルビ文字列「おじいさん（母方）」の長さをその配置スペースである原語文字列（中国語表記の漢字）の長さに圧縮して配置を試みたが、圧縮度合いがあまりにも強い（圧縮率が小さい）ために読みづらい例の模式図である。

図１０のステップＳ１５５１において、ＣＰＵ１１は、ルビとして配置すべき訳語に、省略可能な箇所があるか否かを判定する。本実施例の場合は、たとえば、ルビ文字列を決定した辞書データベース２２を参照し、訳語を構成する文字を照合していく。図１３はそのような辞書データベース２２の例を示した概念図で、文字列である中国語単語（中国語表記の漢字）に対して、ルビ文字列である日本語訳語が「おじいさん（母方）」であることを示しており、このルビ文字列「おじいさん（母方）」を構成する文字・記号を照合していくことになる。

ステップＳ１５５１における第１の方法として、ルビ文字列は、予め定められた特定文字を含み、ＣＰＵ１１は、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。たとえば、ルビ文字列「おじいさん（母方）」は、予め定められた特定文字として、記号「（」を含み、ＣＰＵ１１は、ルビ文字列「おじいさん（母方）」に含まれる特定文字「（」と特定文字「（」に続く文字「母方）」とを省略する。この場合、特定文字は「（」に限定されず、「◇」、「□」、「○」等でもよい。

ステップＳ１５５１における第２の方法として、ルビ文字列は、予め定められた少なくとも２つの特定文字を含み、ＣＰＵ１１は、ルビ文字列に含まれる特定文字と特定文字間の文字とを省略する。たとえば、ルビ文字列「おじいさん（母方）」は、予め定められた特定文字として、開始及び終了をそれぞれ表す括弧記号「（」及び「）」を含み、ＣＰＵ１１は、ルビ文字列「おじいさん（母方）」に含まれる特定文字「（」及び「）」と特定文字「（」及び「）」間の文字「母方」とを省略する。

ステップＳ１５５１における第２の方法について、具体例を挙げて説明する。

図１４は、この照合の際に参照する、括弧記号を定義したデータ表の概念図である。この表で、同じ行（同じＩＤ番号）に属する２種の記号は、対をなしており、ある文字列において、あるＩＤ番号の「開き括弧」の欄の記号の後方に、同じＩＤ番号の「閉じ括弧」の欄の記号があれば、その文字列のうち、上記開き括弧の記号から閉じ括弧の記号までの部分が、省略可能とみなせる。

本実施例に挙げている、ルビ文字列が「おじいさん（母方）」の場合は、この文字列の６番目の文字が「（」であり、図１４におけるＩＤ番号１の「開き括弧」の欄の記号である。そして、この文字列の９番目の文字が「）」であり、図１４におけるＩＤ番号１の「閉じ括弧」の欄の記号である。よって、この文字列「おじいさん（母方）」のうち、６番目の文字から９番目の文字までの範囲である「（母方）」の部分を、省略可能と扱う。

このように、当該訳語（ルビ文字列）に省略可能な部分があると判定された場合は（ステップＳ１５５１：ＹＥＳ）、ＣＰＵは、その当該訳語（ルビ文字列）から、省略可能と判定された部分をカットした省略済ルビ文字列を生成する（ステップＳ１５５２）。この例では、文字列「おじいさん」が生成される。そして、省略済ルビ文字列を既定のルビ用文字サイズの文字で表した場合の長さを改めて求める（ステップＳ１５５３）。

そして、改めて求め直された訳語（省略済ルビ文字列）の長さが配置スペースの長さよりも長いか否かを判定する（ステップＳ１５５４）。訳語の長さが配置スペースの長さ以下である場合は（ステップＳ１５５４：ＮＯ）、ＣＰＵは、処理を図９のステップＳ１５０８へ進める。訳語の長さが配置スペースの長さよりも長い場合は（ステップＳ１５５４：ＹＥＳ）、ＣＰＵは、本発明以外のルビ文字列圧縮緩和手法を適用することが可能ならば適用する（ステップＳ１５５５）。本発明以外のルビ文字列圧縮緩和手法には、たとえば、特許文献２に示されているように、当該ルビ文字列が行頭あるいは行末にあれば、行頭や行末のマージン部分を利用して、配置スペースを伸ばすような手法が考えられる。

Ｓ１５５５で本発明以外の圧縮緩和手法を検討または実施したら、その時点での、訳語（ルビ文字列）の長さが配置スペースの長さよりも長いか否かを判定する（ステップＳ１５５６）。訳語の長さが配置スペースの長さ以下である場合は（ステップＳ１５５７：ＮＯ）、ＣＰＵは、処理を図９のステップＳ１５０８へ進める。訳語の長さが配置スペースの長さよりも長い場合は（ステップＳ１５５６：ＹＥＳ）、ＣＰＵは、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算し（ステップＳ１５５７）、処理を図９のステップＳ１５０９へ進める。

なお、上記の説明では、訳語（ルビ文字列）のうち、省略可能な部分は、その文字列に含まれる開き括弧の記号から、それに対応する閉じ括弧の記号までの部分としていたが、実施の形態はこれに限られる物ではない。たとえば、ルビ文字列中に、開き括弧と閉じ括弧のいずれか一方しか存在しない場合に、その括弧記号から見て括弧内とみなされる方向にある文字すべてを省略可能として扱ってもよい。

以上で、図１０の説明を終わる。

ステップＳ１５０７以降の処理により、ルビを近接して配置させるべき単語、連語又は連続単語列の長さよりも長い文字列については、ルビの長さが配置スペースに収まるように、ルビの長さが縮小される。ルビの長さを縮小することにより、ルビを配置したときに他のルビに位置が重なることが無く、単語又は連語とルビとの対応関係が明確となる。また、上述のように、ルビの文字数を減らすことやその他の措置を講じたために、極端にルビの長さが圧縮されることが無く、読み易い大きさでルビを配置することができる。

図１５は、ルビの長さが原文単語（配置スペース）よりも長い場合に、本発明の実施形態を適用した結果の例を示す模式図である。原文書の中国語単語（中国語表記の漢字）に対するルビ「おじいさん（母方）」の長さが長いので、図１２に示す例ではルビの長さが強く圧縮されているが、図１５）に示す例では、ルビが「おじいさん」とされて字数が短くなったため、圧縮の度合いをより弱めた形でルビが配置され、ルビの大きさが図１２に比べて読み易い大きさとなっている。

また、これを実現するに際して、辞書データベース２２においては、原文書の中国語単語（中国語表記の漢字）に対して既定のルビ「おじいさん（母方）」以外のルビを予め用意しておく必要はない。また、既定のルビに対して、配置スペースが足りない場合に省略可能な箇所を指定するような情報を予め付与しておく必要もない。このため、辞書作成の手間の増大を抑えられる。

以上の通り、実施の形態の説明で示したごとく、ステップＳ１５の付属情報決定処理を終了した後は、ルビデータに含まれるルビに、決定した付属情報を関連付けた上で、ルビデータをＲＡＭ１２に記憶させ、処理をメインの処理へ戻す。ステップＳ１３〜Ｓ１５の処理は、ステップＳ１２で抽出した文字領域の夫々について実行される。

ＣＰＵ１１は、次に、付属情報決定処理により決定された付属情報（ルビの配置スペース、ルビ文字列、フォントサイズ、圧縮率）に基づいて、原文書画像中の配置スペースにルビ文字列を付与した補足説明付文書画像を生成する補足説明付文書画像生成処理を実行する（ステップＳ１６）。

図１６は、ステップＳ１６の補足説明付文書画像生成処理の手順を示すフローチャートである。ＣＰＵ１１は、まず、原文書画像と同一の大きさのレイヤ中に、ルビデータに含まれる夫々のルビのテキストデータを、付属情報が示すサイズで、付属情報が示す配置スペースに配置した補足説明テキストレイヤを生成する（ステップＳ１６１）。

具体的には、付属情報が示すフォントサイズで生成したルビの長さを圧縮率で圧縮し、ルビの先頭文字の左端は開始位置となり、ルビの下端は行に交差する方向の配置スペースとなるように、各ルビのテキストを配置した画像を生成する。ステップＳ１６１では、生成する補足説明テキストレイヤ中のルビのテキストデータ以外の部分は透明にしておく。ＣＰＵ１１は、次に、原文書画像と同一の大きさの画像中に、ルビを取得した不連続連語に対する下線に相当する線を、不連続連語であることを示す印として配置した印画像レイヤを生成する（ステップＳ１６２）。ステップＳ１６２では、生成する印画像レイヤ中の線以外の部分は透明にしておく。

図１７は、補足説明テキストレイヤ及び印画像レイヤの例を示す模式図である。図１７に示す例は、図２に例を示した原文書画像中から生成した補足説明テキストレイヤ及び印画像レイヤである。図１７（ａ）は、補足説明テキストレイヤを示し、原文書画像中の単語及び連語に対するルビが配置されている。図１７（ｂ）は、印画像レイヤを示し、原文書画像中の連語「X-ray crystallographic analysis 」に対する下線に相当する線が配置されている。この連語は、連語の途中で改行が行われることにより不連続連語となっており、連語に対する下線に相当する線が配置される。

ＣＰＵ１１は、次に、原文書画像と同一の大きさの透明なレイヤ中に、原文書画像中の各文字の位置に相当する位置に各文字を示すテキストデータを透明にした状態で配置した原文書テキストレイヤを生成し（ステップＳ１６３）、原文書画像を画像レイヤにした原文書画像レイヤを生成する（ステップＳ１６４）。ＣＰＵ１１は、次に、補足説明テキストレイヤ、印画像レイヤ、及び原文書テキストレイヤを、原文書画像レイヤに重ねることにより、補足説明付文書画像を生成し（ステップＳ１６５）、生成した補足説明付文書画像を表す画像データをＲＡＭ１２に記憶させ、処理をメインの処理へ戻す。例えば、ステップＳ１６では、ＰＤＦ（Portable Document Format）形式の画像で補足説明付文書画像を生成することとし、ＣＰＵ１１は、ＰＤＦ形式のレイヤとして各レイヤを生成し、生成した補足説明テキストレイヤ、印画像レイヤ、及び原文書テキストレイヤを、原文書画像レイヤに重ねることにより、ＰＤＦ形式の補足説明付文書画像を生成する。図２（ｂ）に示す補足説明付文書画像は、図２（ａ）に示す原文書画像に図１７に示す補足説明テキストレイヤ及び印画像レイヤ並びに透明な原文書テキストレイヤを重ねることにより生成した補足説明付文書画像である。原文書画像レイヤに補足説明テキストレイヤ及び原文書テキストレイヤを重ねた補足説明付文書画像を生成することにより、原文書の内容及びルビの内容を補足説明付文書画像から検索することが可能となり、また、原文書の内容及びルビの内容をコピーすることも容易となる。なお、印画像レイヤ及び原文書テキストレイヤは、補足説明付文書画像を生成するために必須のものではなく、ステップＳ１６では、原文書画像レイヤに少なくとも補足説明テキストレイヤを重ねることにより、印画像レイヤ及び／又は原文書テキストレイヤを含まない補足説明付文書画像を生成する処理を行ってもよい。

ＣＰＵ１１は、次に、補足説明付文書画像を表す画像データを形成する画像形成処理を実行し（ステップＳ１７）、本発明の各処理を終了する。ステップＳ１７では、ＣＰＵ１１は、補足説明付文書画像を表す画像データを表示部１６に表示してもよいし、補足説明付文書画像を表す画像データを記憶部１４に記憶させてもよい。

以上の説明により、本発明の文書画像生成装置は、以下の効果を実現する。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も特許請求の範囲に含まれる。

本発明では、特定文字として開始と終了とを表す括弧記号とし、付属情報決定処理において、文字列の長さがルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に開始と終了とを表す括弧記号が含まれている場合、ルビ文字列に含まれる開始と終了とを表す括弧記号と、その括弧記号間の文字とを省略しているが、これに限定されない。本発明では、２つの特定文字に挟まれた文字を省略可能であれば、２つの特定文字は、たとえば、括弧記号や「◇」、「□」、「○」等の組み合わせでもよい。

１ … 文書画像生成装置、
２ … 記録媒体、
４ … ウェブサーバ装置、
１１ … ＣＰＵ、
１２ … ＲＡＭ、
１３ … ドライブ部、
１４ … 記憶部、
１５ … 入力部、
１６ … 表示部、
１８ … 通信部、
２１ … コンピュータプログラム、
２２ … 辞書データベース、
Ｎ … 通信ネットワーク

Claims

文字列を表す原文書が表記された原文書画像を取得する原文書画像取得手段と、
前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識手段と、
前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得手段と、
前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定手段と、
前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成手段と、
を具備し、
前記付属情報決定手段は、
前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、
ことを特徴とする文書画像生成装置。
前記付属情報決定手段は、
前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に少なくとも２つの前記特定文字が含まれている場合、前記ルビ文字列に含まれる前記特定文字と前記特定文字間の文字とを省略する、
ことを特徴とする請求項１に記載の文書画像生成装置。
前記特定文字は、開始を表す記号と終了を表す記号を含む、
ことを特徴とする請求項２に記載の文書画像生成装置。
前記特定文字は、括弧記号である、
ことを特徴とする請求項１乃至３のいずれかに記載の文書画像生成装置。
文字列を表す原文書が表記された原文書画像を取得する原文書画像取得処理と、
前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識処理と、
前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得処理と、
前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定処理と、
前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成処理と、
を具備し、
前記付属情報決定処理は、
前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、
ことを特徴とする文書画像生成方法。
請求項５に記載の文書画像生成方法の各ステップをコンピュータに実行させるコンピュータプログラム。