JP2004005453A

JP2004005453A - 文書画像レイアウトの解体と再表示の方法およびシステム

Info

Publication number: JP2004005453A
Application number: JP2003053197A
Authority: JP
Inventors: William C Janssen Jr; ウィリアム　シー　ジャンセン　ジュニア; Henry S Baird; ヘンリー　エス　バード; M Bruel Thomas; トーマス　エム　ブリューエル; Ashok C Popat; アショク　シー　ポパット; S Bloomberg Dan; ダン　エス　ブルームバーグ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2002-03-01
Filing date: 2003-02-28
Publication date: 2004-01-08
Also published as: US20040205568A1; EP1343095A2; US20110289395A1; EP1343095A3; US10606933B2

Abstract

【課題】ビットマップとして表現されるスキャン後のハードコピー文書等の、ページ画像フォーマットで与えられる任意の文書を、任意のサイズの画面上で表示するのに適当な形式に変換する方法およびシステムを提供する。
【解決手段】本発明は、ページ画像フォーマットで与えられる文書を、文書の再フォーマットまたは「リフローイング（ｒｅ−ｆｌｏｗｉｎｇ）」によって任意のサイズの表示装置に適合させて、任意のサイズのディスプレイに適した形式に変換する。
【選択図】　　　　図３

Description

【０００１】
【発明の属する技術分野】
本発明は、一般には、任意サイズの表示装置上で簡便に読取り可能な任意文書作成の問題に関する。
【０００２】
【従来の技術】
表示画面上に文書のページ画像版をレンダリング（表示）する既存のシステムでは、別サイズの表示画面上でページ画像をそのまま表示したものを見るには、レンダリングを改善する手動操作や面倒なパニングメカニズムが必要であった。特に、視覚的に重要なレイアウト特徴を保存するためには、（１）全テキストを手動キーイングするか、または（２）光学文字認識（ＯＣＲ）システムによるページ画像処理後、得られたテキストに手動でタグ付けすることが必要であった。
【０００３】
【発明が解決しようとする課題】
既存のシステムの問題点には、（ａ）手動キーイングおよび／またはＯＣＲ結果の補正、および手動タグ付けの費用が高いこと、（ｂ）ＯＣＲのミスに起因するテキスト中の非常に顕著かつ目障りなエラーの危険性、（ｃ）意味あるまたは視覚的に美麗な書体や活字サイズの選択、グラフィックス、およびその他のテキスト以外の要素の損失、および（ｄ）各要素がページ上で適正に配置されないこと、がある。
【０００４】
このような問題は、例えば現在出版されている書籍やバックナンバー書籍のページ画像版を作成する出版業者らがますます増えていることから、重大な問題である。ページ画像版はプリントオンデマンド用に作成されている。プリントオンデマンド画像は、画像のスケーリングによってわずかに拡大縮小するよう再ターゲットできるが、現在のところ、書籍をＸＭＬフォーマットに再キーイングするか、またはＯＣＲを用いてページ画像をスキャンし、再キーイングおよびスキャン後の画像を手動で補正しなければ、大半の電子書籍には再利用できない。
【０００５】
【課題を解決するための手段】
本発明は、ビットマップとして表現されるスキャン後のハードコピー文書等の、ページ画像フォーマットで与えられる任意の文書を、文書内容の自動再フォーマットまたは「リフローイング（ｒｅｆｌｏｗｉｎｇ）」によって、任意のサイズの画面上で表示するのに適当な形式に変換する方法およびシステムを提供する。
【０００６】
リフローイングとは、テキスト要素（多くは単語）をあるテキストライン（文字列）から別のテキストラインへ移動させ、各テキストラインが所定の余白内に収まるようにする処理である。リフローイングは、一般にはテキストラインを分解またはテキストラインに単語を充填し、ディスプレイ全幅が利用できるようにカラム（ｃｏｌｕｍｎ）の余白を再調整して、テキストの手動「パニング」を不要にする。例えば、テキストラインが現れるディスプレイ領域が可視テキスト幅を縮小するように変更されると、単語をあるテキストラインから別のテキストラインへ移動させて全テキストラインの長さを短縮し、長すぎて完全に見えないテキストラインがディスプレイ領域中に存在しないようにしなければならない。反対に、ディスプレイ領域の幅が拡大されると、テキストラインの長さを伸ばすように単語をあるテキストラインから別のテキストラインへ移動して、どの単語画像も不明瞭になることなく、より多くのテキストラインが見られるようにする。
【０００７】
画像およびレイアウト解析によって、未処理の文書画像をリフロー可能な形式かつ手持ち式デバイス上でよりコンパクトに表示できるような形式に変換する。各種実施形態では、画像解析は適応型しきい値処理および二値化から開始される。各画素（ピクセル）ごとに、その画素周囲のある領域内の最大値および最小値をグレースケール・モルフォロジー（形態学）を用いて求める。これら２つの値の差が統計的に求めたしきい値未満ならば、該領域はホワイトピクセルのみを含むと判定される。差がしきい値を超過すれば、該領域はブラックピクセルとホワイトピクセルとを含み、最大値および最小値はそれぞれ黒インク値と白用紙背景値とを表わす。前者の場合、推定ホワイトレベルをディスプレイの実際のホワイトレベルにして画素値を正規化する。後者の場合、推定ホワイトレベルと推定ブラックレベル間の範囲をディスプレイのホワイトレベルとブラックレベル間の全範囲に拡大して、画素値を正規化する。この正規化処理後、標準的なしきい値処理方法を適用できる。
【０００８】
しきい値処理した画像中で、有効和集合発見データ構造（ａｎ　ｅｆｆｉｃｉｅｎｔ　ｕｎｉｏｎ−ｆｉｎｄ　ｄａｔａ　ｓｔｒｕｃｔｕｒｅ）と組み合わせたスキャンアルゴリズムを用いて、連結成分にラベル付けを行う。その後、各連結成分ごとに１つのバウンディングボックス（外接矩形）を決定する。これにより、通常は１ページあたり数千の連結成分の集合が得られる。各連結成分は、１つの文字（キャラクタ）、文字の一部、接触文字の集合、背景ノイズ、または線引きもしくは画像の一部を表現しうる。連結成分のこれらバウンディングボックスは、以後のレイアウト解析の基礎となる。
【０００９】
各種実施形態では、レイアウト解析のために、文書の連続テキスト中、およびヘッダ、フッタ（脚注）、および／またはセクション見出し等のその他いくつかのページ要素中の文字に対応するバウンディングボックスを用いて、リフローイングに必要なページレイアウトに関する重要な情報を得る。特に、バウンディングボックスとその空間上の配置とによって、ページ回転と傾き（スキュー）カラムの境界、トークンベースの圧縮に必要なトークン、読出し順、および／またはレイアウトの２箇所間でテキストをどのようにフローさせるべきか、を特定する。ただし、このフィルタリング操作で「テキスト」を表わさないことが判明したバウンディングボックスは削除されない。このようなバウンディングボックスは、後にグラフィック要素としてシステムの出力中に組み入れられる。
【００１０】
単純な統計的プロシージャを用いて、本文テキストを表わすバウンディングボックスの寸法を求める。テキストを含む大半のページについて、各種成分を統計的に混合した高さの分布を用いると、最大の混合成分は主たるフォントサイズのロワーケース文字（小文字等）に相当する場合が多い。このサイズを用いて主フォントのｘ方向の高さを見つけ、この寸法を用いて本文テキストまたは標準的見出しを表わすには小さすぎる、または大きすぎるバウンディングボックスを削除する。
【００１１】
テキストを表わすバウンディングボックスの集合が得られると、テキストラインとカラム境界の発見が望まれる。テキストラインとカラム境界特定のために各種実施形態で用いるアプローチは、ロバストな最小２乗誤差モデル、すなわち擬似（スプリアスな）背景特徴が存在するガウス雑音モデル下で、ラインモデルに対して一致の確率がもっとも高いものを発見する分岐および境界（ｂｒａｎｎｃｈ−ａｎｄ−ｂｏｕｎｄ）アルゴリズムに依る。テキストラインのモデルは、ラインの角度、オフセット、およびディセンダ（文字の下降部分）高さの３つのパラメータによって記述される。バウンディングボックスのアライメント点すなわち底辺の中心がライン上に位置するか、またはラインから下方向へディセンダ高さだけ離れた位置にあるバウンディングボックスは、当該ラインに一致するとみなされる。一致には、モデルからの距離の二乗がペナルティーとしてしきい値∈まで与えられる。このしきい値は、通常、５ピクセルのオーダーである。
【００１２】
テキストライン発見後、当該一致に関与した全接続成分に外接するバウンディングボックスを求める。該バウンディングボックス内のその他接続成分すべては、同一テキストラインに割り当てられる。これにより他の態様では見落とされる場合がある句読点記号、アクセント、および「ｉ」の点（ドット）を「一掃」できる。各テキストライン内では、ベースラインの重なり上へ突出する複数のバウンディングボックスは統合される。これにより文字の一部のみまたは文字の一部を主として含むバウンディングボックスとは反対に、完全な文字のみまたはより完全な文字を主として含むバウンディングボックス群が得られる。その後、これらバウンディングボックスにバウンディングボックス左下隅のｘ座標によって順序をつけ、読み出し順の文字画像シーケンスを得る。グリーディな（ｇｒｅｅｄｙ）戦略を用いて複数のテキストラインを発見し、一致の確率がもっとも高いものを最初に特定する。そしてこの一致に関与したバウンディングボックスが以後の考慮から削除される。続いて、２番目に最適なテキストラインを発見し、テキストラインがうまく一致しなくなるまで続行される。
【００１３】
このテキストラインモデリングのアプローチは、公知の投影法またはリンク法に対していくつか有利な点がある。第１に、各テキストラインの向きが異なってもよいこと。第２に、この技術ではベースラインとディセンダラインとの両方を考慮することにより、公知のテキストラインファインダでは見落とされていたテキストラインを発見できること。第３に、この方法によって得られる一致は他の公知の方法よりも各テキストラインに正確に準拠する。
【００１４】
カラムの境界も同様に特定でき、これにはラインモデルに対してバウンディングボックスの左辺中心が一致する確率が全体的に最適かつ最大のものを発見する。背景ノイズ削減のため、ラインファインダをカラムの発見に適用する前に、バウンディングボックス間の水平距離の分布に関する統計を用いて、文字内部および単語内部のスペーシング、すなわちバウンディングボックス間の水平距離の統計的分布における２つの最大成分を推定する。その後、複数の文字についてのバウンディングボックス群が単語に統合される。これによりカラムの一致に考慮しなければならないバウンディングボックス数が数分の一に減少し、カラム境界検出の信頼性を向上させる。
【００１５】
テキストラインの一部ではないすべての連結成分は、一つに集められて画像として処理される。１カラムの文書では、テキストラインと画像のバウンディングボックスとをそのｙ座標に沿って列挙することにより、文字のシーケンス、ホワイトスペース、および画像が読出し順に得られる。２カラムの文書では、右カラムが左カラム下に配置されているようにこれら２カラムを処理する。
【００１６】
この単純なレイアウト解析技術は、印刷文書でよく見られる多数のレイアウトに対処し、これらレイアウトを画像シーケンスに変換してリフローし、小型表示デバイス上で表示できるようにする。文書リーダ等の小型表示デバイスに対するリフローの要件は単語プロセッサへのレンダリング等の他のレイアウト解析タスクよりも厳しくないため、この単純な技術はかかる応用において良好に機能する。レイアウト解析の出力はリフローイング用にのみ使用され、編集用には使用されないので、テキストブロックにセマンティック（意味情報）ラベルを貼付する必要はない。文書は小型画面上でリフローされるので、レイアウト解析の出力レンダリングと入力文書のレイアウトとの正確な一致をユーザが期待することもない。さらに、ヘッダ、フッタ、および／またはページ番号等のページ要素がレイアウト解析の出力に組み入れられた場合、ユーザはこのようなページ要素を簡単にとばして読むことができる。またこれらページ要素は、小型表示デバイス上でナビゲーション上の便利な道標としても機能しうる。
【００１７】
各種実施形態では、本発明に従う方法およびシステムは、より特定的にはページ画像レイアウトを解析または「解体」する２段階システムを提供する。解体は、ページ画像を物理的、例えば幾何学的に、かつ論理的、例えば機能的にセグメント化することを含む。セグメント化した画像要素は、テキストのブロック、ライン、および／または単語、ならびにその他のセグメント化した画像要素を含みうる。その後、セグメント化した画像要素を合成し、正しい読出し順の単語画像と非テキスト画像要素へのリンクとを含む中間データ構造に変換する。中間データ構造は、例えばＯｐｅｎ　Ｅ−ｂｏｏｋ　ＸＭＬ，Ａｄｏｂｅ（商標）ＰＤＦ１．４以上、ＨＴＭＬ、および／またはＸＨＴＭＬ、ならびにその他の現在利用可能もしくは将来開発されるであろう有用なフォーマット等の各種フォーマットで記述できる。その後、各種実施形態では、本発明に従う方法およびシステムは中間データ構造を精選（ｄｉｓｔｉｌｌ）または変換して、多数の標準的な電子ブックフォーマット、インターネット閲覧可能フォーマット、および／または印刷フォーマットのいずれかに「再表示」する。
【００１８】
本発明の方法およびシステムの各種実施形態では、中間データ構造はＳＧＭＬおよびＸＭＬで使用されるようなタグを含み、このタグにはタグが注釈をつける特定の画像要素の論理機能または幾何学的プロパティが記載される。また、各種実施形態では、いくつかの画像要素にはタグがつけられない場合もある。例えば画像要素の機能およびプロパティが、中間データ構造中の該要素の位置と、他のタグ付き／タグなし画像要素の位置とから推定可能な場合は、タグは不要となる。
【００１９】
また各種実施形態では、この目的のために使用可能な特別の画像要素を、元ページ画像からの抽出ではなくタグつき／タグなし要素として作成することも可能である。このような特別な画像要素は、他の画像要素の希望する機能およびプロパティを定義するような順序で中間データ構造に挿入されることができる。例えば、特別な画像要素は２つの単語間のスペースを表わす空白でもよい。さらに、特定の画像要素に貼付されるタグ以外に特別の非画像マーカを挿入して、中間データ構造中で該マーカとの相対位置から、少なくともいくつかの画像要素の機能およびプロパティが推定できるようにすることも可能である。
【００２０】
中間データ構造を再表示用に準備するには、中間データ構造を、例えば標準的なインターネットブラウザ上で使用するＨＴＭＬ、またはＯｐｅｎ　Ｅ−ｂｏｏｋリーダ上で使用するＯｐｅｎ　Ｅ−ｂｏｏｋ　ＸＭＬフォーマットに変換できる。他の方法には、例えば、中間データ構造をＰｌｕｃｋｅｒ電子ブックビューワ上で使用するＰｌｕｃｋｅｒフォーマット、またはＭＳリーダフォーマットを用いて表示するためのＭｉｃｒｏｓｏｆｔ　Ｒｅａｄｅｒフォーマット、または用紙等に印刷するための印刷フォーマットに変換する方法がある。
【００２１】
どの文書画像においても、物理的なレイアウトジオメトリは固定されており、論理上または機能上のレイアウト構造は潜在的である。すなわち、読むというタスクに、レイアウト、書体、活字サイズ選択の意味および潜在的意味に対する慣習的予想をもちこむ人間である読者が理解することを意図している。これに対して、各種実施形態では、本発明の方法およびシステムに従う中間データ構造において、単語の元の固定位置は記載はされるが厳密に固守はされないので、物理的レイアウトは流動的である。各種実施形態では、文書の論理構造の各側面が明確かつ自動的に取り込まれ、追加情報によって表現される。各種実施形態では、本発明に従う中間データ構造は、表示時に、どのような表示デバイスまたは閲覧環境のサイズ、解像度、コントラスト、カラー、ジオメトリ等の制約に対しても自動的に適応可能である。
【００２２】
本発明の方法およびシステムによって可能となる適応性には、テキストの再ページ番号付与、テキストをテキストラインへ行揃えしなおしたり再フォーマット等を行うリフローイング、ならびにテキストおよび／または非テキスト内容、例えばイラスト、図面、脚注、署名等の関連テキストへの論理的リンクが含まれる。各種実施形態では、本発明に従う方法およびシステムは、文書の論理要素を示すのに用いられる活字上の約束ごと、例えばタイトル、著者リスト、本文テキスト、パラグラフ、および／またはハイフン等を考慮する。各種実施形態では、本発明の方法およびシステムはまた、ページ上のテキストブロック内、および／またはブロック間で読み出し順序の推定が可能である。
【００２３】
上記のように、文書内容の高度な読みやすさと完全な理解を達成するために文書内容の再フォーマット、リフロー、リカラー、および／または再構成が必要なサイズ、解像度、コントラスト、利用可能な色、および／またはジオメトリをもつ広範な表示装置について、ＯＣＲまたは再キーイングなしで、かつＯＣＲまたは再キーイングに付随するそれぞれのエラーの影響を受けることなく、かつ著者および出版業者よって選択された元の文書の外観および感じを損なうことなく、文書の再表示が可能となる。
【００２４】
各種実施形態では、本発明に従う方法およびシステムは、手動キーイング、ＯＣＲ結果の補正、および／またはタグ付けを不要にすることにより、費用の削減をはかる。各種実施形態では、本発明に従う方法およびシステムは、ＯＣＲ文字認識エラーの発生を回避できる。各種実施形態では、本発明に従う方法およびシステムは、元の著者および出版業者による書体および活字サイズの選択を維持し、これは読者が著者の意図を理解することを助けるという点で有用、または場合によっては必須である。各種実施形態では、本発明に従う方法およびシステムはまた、グラフィックスおよび非テキスト要素と関連テキストとの関連付けを維持する。
【００２５】
本発明の上記およびその他の特徴および利点は、以下の本発明に従うシステムおよび方法の各種実施形態の詳細な説明で記載するか、または詳細な説明から明らかとなる。
【００２６】
以下に、添付の図面を参照して本発明に従うシステムおよび方法の各種実施形態を詳細に説明する。
【００２７】
【発明の実施の形態】
図１は、ページ画像３００の中間データ構造２６０の詳細例を示す。図１では、中間構造２６０は中間データ構造フォーマットの一例としてＸＨＴＭＬを用いて記述される。図示するページ画像３００は概略的に、タイトルとして機能する第１テキスト領域３１０と、著者リストとして機能する第２テキスト領域３２０と、パラグラフとして機能する第３テキスト領域３３０と、ページ番号として機能する第４テキスト領域３４０とを含む。これらテキスト領域３１０〜３４０によって表わされる構造は、通常、著者および読者双方にとって重要であり、中間データ構造２６０中でもそのように検出され保存される。例えば、中間データ構造２６０はタイトルテキスト領域３１０を保存する際、このタイトルテキスト領域３１０の位置がページ画像の一番上であること、テキスト領域３１０がセンタリングされること、かつテキスト領域３１０中では大きな書体を使用することを記載する。位置は中間データ構造２６０中ではＸＨＴＭＬタグ＜ＤＩＶ　ＣＬＡＳＳ＝ｔｉｔｌｅ　ＩＤ＝ｔｉｔｌｅ＞として保存される。また中間データ構造２６０は、著者リストテキスト領域３２０をタイトルテキスト領域３１０のすぐ下の位置に保存する。中間データ構造２６０は、著者リストテキスト領域３２０の位置がセンタリングされること、著者リストテキスト領域３２０が大活字だがタイトルテキスト領域３１０の活字よりは小さな活字で印刷されることを保存する。特に図１に示す具体例では、著者リストテキスト領域３２０は、ＸＨＴＭＬタグ＜ＤＩＶ　ＣＬＡＳＳ＝ａｕｔｈｏｒｓ　ＩＤ＝ａｕｔｈｏｒｓ＞で中間データ構造２６０中に保存される。
【００２８】
図２は、ページ画像３００を、添付タグまたは明確な分離符号（セパレータ）を使用せずに、画像要素１９０のシーケンスとそれに対応する代表的な圧縮画像トークン２００として示す。例えば、画像要素の機能およびプロパティがページ上の該要素の位置、および中間データ構造中の他のタグ付きおよびタグなし画像要素の位置から推定可能な文書では、全画像要素にタグを付ける必要はない。なお、＜ｅｎｃｏｄｅｄ　ｉｍａｇｅ　ｅｌｅｍｅｎｔ　ｆｏｒ　Ｔ＞とは、「Ｔ用の符号化された画像要素」を意味する。他も同様である。
【００２９】
図３は文書画像レイアウトの解体および再表示方法の一実施形態の概要を示すフローチャートである。図３に示すように、この方法の操作はステップＳ１００で始まってステップＳ１１０へ進み、ここでスキャンまたはページ画像フォーマットの文書が得られる他のデータソースを用いて、文書を入力する。文書はＴＩＦＦおよびＪＰＥＧ等の画像ファイルフォーマットの一つで、二値レベル、グレースケール、またはカラー画像等のページ画像の組として表現されうる。
【００３０】
その後、ステップＳ１１０で、ページ画像の画像ファイルを解析してテキスト画像領域と非テキスト画像領域とを特定する。テキスト領域画像には、例えばテキストのブロック（もしくはカラム）、ライン、単語、または文字（キャラクタ）等が含まれる。非テキスト領域画像には、例えばイラスト、図面、グラフィックス、線画、写真、手書き、脚注、署名等が含まれる。
【００３１】
次にステップＳ１２０，３００で、特定したテキスト画像領域と非テキスト画像領域との位置確認および分離を行う。テキスト画像領域の位置確認および分離は、例えば各テキストラインの画像のベースライン（並び線）、および多くの場合はトップライン（背線）および／またはキャップライン（大文字線）の位置確認および分離を含む。特定したライン領域は、テキストライン画像の一方端から他方端へ走るラインセグメントとしてモデル化する。ベースラインは水平の直線としてモデル化するか、または日本語、中国語、およびその他のスクリプトの場合は垂直、または水平もしくは垂直に近い角度に配向された直線としてモデル化してもよい。ベースラインは曲線機能としてモデル化する場合もある。その後、操作はステップＳ１４０へ進む。
【００３２】
ステップＳ１４０では、特定したテキスト画像をさらなる処理のために選択する。次にステップＳ１６０，１８０では、選択したテキスト画像領域のテキストライン領域の位置確認および分離を行い、選択したテキスト画像領域のレイアウトプロパティを決定する。レイアウトプロパティには、例えばインデント、左および／または右の行揃え（ジャスティフィケーション）、センタリング、ハイフン、特別なスペーシング（表データ等）、図面およびその他の非テキスト領域との近接度等が含まれる。レイアウトプロパティにはまた、ページ内でのテキストの機能を示唆しうる活字サイズおよび書体グループのプロパティ（ローマン体／太字体／イタリック体等）も含まれる。その後、操作はステップＳ２００へ進む。
【００３３】
ステップＳ２００では、位置確認したテキストライン領域をさらに処理して、セグメント化した画像要素のセットを作成する。続いてステップＳ２１０，２２０では、セグメント化した画像領域を読出し、基本テキスト要素の位置確認および分離を行う。基本テキスト要素には、例えば単語、数字、日付、正しい名称、引用文献の参照、図面の参照、および／または文書内外のその他の非テキスト要素が含まれる。これらテキスト要素は基本画像単位となり、以後の段階でリフローおよび再構成される。セグメント化した画像要素の位置確認の一環として、各セグメント化画像要素には該要素とテキストラインのベースラインとの相対位置をラベル付けし、後にテキストラインをリフローする際に、再構成されたベースラインを参照して対応するセグメント化画像要素を配置し、該要素が新たに構成されたベースラインを共有するようにする。その後、操作はステップＳ２３０へ進む。
【００３４】
ステップＳ２３０では、セグメント化画像要素の組にベースラインに対する相対位置をラベル付けする。次にステップＳ２５０では、セグメント化画像要素と関連したベースラインの箇所とをトークンベースの画像要素に圧縮する。次にステップＳ２４０で、画像要素を中間データ構造に合成する。その後、操作はステップＳ２６０へ進む。
【００３５】
ステップＳ２６０では、データを中間フォーマットで保存し、精選および再表示の要求があるまで中間データ構造を保持する。続いてステップＳ２８０で、保存したデータを精選してデータを特定デバイス向けの表示フォーマットに変換する。中間データ構造は、例えば標準的なインターネットブラウザ上で使用するためにＨＴＭＬに変換するか、またはＯｐｅｎ　Ｅ−ｂｏｏｋリーダ上で使用するためにＯｐｅｎ　Ｅ−ｂｏｏｋ　ＸＭＬフォーマットに変換してもよい。他の方法には、例えば中間データ構造をＰｌｕｃｋｅｒ電子ブックビューワ上での使用向けにＰｌｕｃｋｅｒフォーマットへ変換、ＭＳ　Ｒｅａｄｅｒフォーマットを使用して表示するためにＭｉｃｒｏｓｏｆｔ　Ｒｅａｄｅｒフォーマットへ変換、または用紙等への印刷用に印刷フォーマットへ変換する等を含む。次にＳ２９０で、精選したデータがユーザに表示される。その後、本方法の操作は次へ進み、終了する。
【００３６】
本発明の各種実施形態では、中間データ構造はまた、Ｅ−Ｂｏｏｋディスティラ（ｄｉｓｔｉｌｌｅｒ）で処理してＥ−ｂｏｏｋリーダ上で再表示可能な形式でもよい。電子ブック上での表示を意図する場合は、Ｅ−Ｂｏｏｋディスティラが中間データ構造を読取って、ＰＤＡ、コンピュータ・グラフィック・インターフェースウィンドウ、またはその他のグラフィック表示デバイス等の特定デバイス上で表示できるように調整する。このような中間データ構造の処理は、Ｅ−Ｂｏｏｋディスティラに限らず、中間データ構造を再変換し選択した表示デバイス上で再表示するための任意の方法またはデバイスによっても行うことができる。
【００３７】
本発明の各種実施形態では、中間データ構造は、Ｏｐｅｎ　Ｅ−Ｂｏｏｋ　ＸＭＬ、Ａｄｏｂｅ（商標）ＰＤＦ１．４以上、ＨＴＭＬ、および／またはＸＨＴＭＬ、ならびに現在利用可能または将来開発されるであろう他の有用なフォーマット等の各種フォーマットで記述できる。本発明の各種実施形態では、中間データ構造はＳＧＭＬおよびＸＭＬで使用されるようなタグを含んでもよい。
【００３８】
各種実施形態では、ステップＳ２５０において、セグメント化画像要素をより少数のプロトタイプ画像に圧縮し、入来する各要素を、視覚的には画像要素と同一またはおそらく判別不能であるプロトタイプと交換するようにしてもよい。これは「トークンベースの」圧縮の一例であり、この場合トークンは画像要素である。従って画像要素が単語ならばトークンは単語である。または、言語によっては単語より明確に識別できる文字が少ないため、画像要素を個々の文字に正確または概ね対応するより小さな画像に切断するのが有利な場合もある。セグメント化した画像要素の圧縮はさらに、代表的な圧縮画像トークンの組または辞書を書き込むこと、およびこの代表的な圧縮画像トークンに参照リストを書き込むことを含みうる。各参照は、元の画像要素にベースラインに対する相対位置をラベル付けしたものを表わす。
【００３９】
本発明の各種実施形態では、ステップＳ２４０において、非テキスト画像領域、圧縮した非テキスト画像領域、代表的な圧縮画像トークンの組、セグメント化した画像要素、および／またはレイアウト特徴を中間データ構造に合成する。しかし本発明の各種実施形態では、任意で非テキスト画像領域をまずステップＳ３１０でファイル圧縮用に圧縮し、その後ステップＳ２４０で合成して中間データ構造に統合してもよい。さらに、本発明の各種実施形態では、セグメント化した画像要素を任意でステップＳ３１０で圧縮し、その後ステップＳ２４０で合成して中間データ構造に統合してもよい。非テキスト画像領域およびセグメント化した画像要素を圧縮するかどうかの判断は、ファイルサイズまたはその他の特定ユーザ向けパラメータによって異なる。中間データ構造が圧縮データを含まない場合は、中間データ構造はＸＨＴＭＬ等で表現できる。
【００４０】
本発明の各種実施形態では、中間データ構造はまた、各テキスト画像要素、およびテキスト画像要素に近接したまたは参照される非テキスト画像要素への参照、かつインデント、ハイフン、スペーシング等のレイアウト特徴を含むタグ付きリストを含みうる。このリストに加えて、代表的な圧縮画像トークンの組を、別個だが緊密に関連付けられた画像要素データベースに書き込んでもよい。中間データ構造は、画像要素のリフローイングおよび再構成のサポートに必要な全情報を含む。
【００４１】
図４は、本発明に従う文書解体および再表示システム５００の一実施形態のブロック図である。図４に示すように、１つ以上のユーザ入力デバイス４１０が１つ以上のリンク４８２によって入出力インターフェース４３０に接続される。さらに、データソース４００はリンク５０２によって入出力インターフェース４３０に接続される。入出力インターフェース４３０にはデータシンク４２０もリンク６０２によって接続される。
【００４２】
各リンク４８２，５０２，６０２は、１つ以上のユーザ入力デバイス４１０、データソース４００、およびデータシンク４２０をそれぞれ文書レイアウト解体および再表示システム５００に接続する、直接ケーブル接続、広域ネットワークもしくは構内ネットワークによる接続、イントラネットによる接続、インターネットによる接続、または他の任意の分散型処理ネットワークもしくはシステムによる接続等の、公知または今後開発される装置またはシステムを用いて実現可能である。一般には、各リンク４８２，５０２，６０２は１つ以上のユーザ入力デバイス４１０、データソース４００、およびデータシンク４２０をそれぞれ文書レイアウト解体および再表示システム５００へ接続するのに使用可能な、任意の公知または今後開発されるシステムまたは構造で構成できる。
【００４３】
入出力インターフェース４３０は、データソース４００および／または１つ以上のユーザ入力デバイス４１０からのデータを入力し、リンク６０２を介してデータシンク４２０へデータを出力する。入出力インターフェース４３０はまた、受信したデータを１つ以上のコントローラ４４０、メモリ５１０、解体回路，ルーチン又はアプリケーション４５０、合成回路，ルーチン又はアプリケーション４７０、精選回路，ルーチン又はアプリケーション４８０、および／またはディスプレイ４９０へ与える。入出力インターフェース４３０は、１つ以上のコントローラ４４０、メモリ５１０、解体回路，ルーチン又はアプリケーション４５０、合成回路，ルーチン又はアプリケーション４７０、および／または精選回路，ルーチン又はアプリケーション４８０からデータを受信する。
【００４４】
メモリ５１０は、解体回路，ルーチン又はアプリケーション４５０、合成回路，ルーチン又はアプリケーション４７０、精選回路，ルーチン又はアプリケーション４８０、および／または入出力インターフェース４３０から受信したデータを保存する。例えばメモリ５１０には、元データ、解体したデータ、合成したデータ、および／または精選したデータが保存される。メモリはまた、コントローラ４４０が文書レイアウト解体および再表示システム５００の操作に使用する１つ以上の制御ルーチンも保存可能である。
【００４５】
メモリ５１０は、変更可能な揮発性もしくは不揮発性メモリ、または変更不可もしくは固定メモリを任意に適切に組み合わせたものを用いて実現できる。変更可能なメモリは、揮発性不揮発性に関わらず、スタティックもしくはダイナミックＲＡＭ、フレキシブルディスクおよびディスクドライブ、書き込み可能もしくは書き換え可能な光ディスクおよびディスクドライブ、ハードドライブ、フラッシュメモリ等のうち１つまたは複数のものを用いて実現可能である。同様に、変更不可または固定メモリは、ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，光ＲＯＭディスク、例えばＣＤ−ＲＯＭもしくはＤＶＤ−ＲＯＭディスクおよびディスクドライブ等のうちの１つまたは複数のものを用いて実現可能である。
【００４６】
図４に示す各回路またはルーチンは、適切にプログラムされた汎用コンピュータの一部として実現可能であることを理解されたい。または、図４に示す各回路またはルーチンは、ＡＳＩＣ内部で物理的に別個のハードウェア回路として、またはＦＰＧＡ，ＰＤＬ，ＰＬＡもしくはＰＡＬを用いて、または個別論理素子もしくは個別回路素子を用いて実現可能である。図４に示す各回路またはルーチンがとる形式は設計上の選択であり、当業者には明白または予測可能と思われる。操作時には、データソース４００が元データの組、すなわち入力した文書、スキャンした文書等を、リンク５０２によって入出力インターフェース４３０へ出力する。同様に、ユーザ入力デバイス４１０を用いて、新規作成した元データやスキャンしたデータ等の組を、リンク４８２によって入出力インターフェース４３０へ入力してもよい。入出力インターフェース４３０は、コントローラ４４０の制御下で、受信したデータ組をメモリ５１０へ与える。ただしこれらデータ組の一方または両方は、文書レイアウト解体および再表示システム５００に事前に入力しておいてもよいことを理解されたい。
【００４７】
入力文書は、コントローラ４４０の制御下で解体回路，ルーチン又はアプリケーション４５０へ入力される。解体回路，ルーチン又はアプリケーション４５０は画像ファイルを読取り、テキスト領域画像と非テキスト領域画像との位置を確認かつ分離する。その後、非テキスト画像領域はコントローラ４４０の制御下で合成回路，ルーチン又はアプリケーション４７０へ送信され、データが中間データ構造に合成される。任意で、非テキスト画像領域は合成回路，ルーチン又はアプリケーション４７０での合成前に圧縮してもよい。
【００４８】
解体回路，ルーチン又はアプリケーション４５０は、特定した画像テキスト領域画像の組を読出し、テキストライン領域の位置を確認かつ分離し、テキストライン領域のレイアウトプロパティを検出する。レイアウトプロパティは、コントローラ４４０の制御下で合成回路，ルーチン又はアプリケーション４７０へ送信される。テキストライン領域は、解体回路，ルーチン又はアプリケーション４５０によってさらに処理され、ベースラインとの相対箇所付きのセグメント化画像要素の組となり、合成回路，ルーチン又はアプリケーション４７０へ送信されて、コントローラ４４０の制御下で中間データ構造に合成される。解体回路，ルーチン又はアプリケーション４５０はまた、コントローラ４４０の制御下で合成回路，ルーチン又はアプリケーション４７０へ送信されて中間データ構造に合成される前に、ベースラインとの相対箇所付きのセグメント化画像要素をトークンベースの画像要素に圧縮してもよい。
【００４９】
解体回路，ルーチン又はアプリケーション４５０および合成回路，ルーチン又はアプリケーション４７０は、中間データ構造に変換すべきデータを解体かつ合成し、その後、精選回路，ルーチン又はアプリケーション４８０によって精選して表示デバイス４９０上で表示する、任意の公知または将来開発される符号化方式を利用可能であることを理解されたい。
【００５０】
合成回路，ルーチン又はアプリケーション４７０は、非テキスト領域画像と圧縮した非テキスト領域画像要素、代表的な圧縮画像トークンの組、セグメント化した画像要素、およびレイアウト特徴を合成し、該データを中間データ構造に書き換える。中間データ構造は、コントローラ４４０の制御下でメモリ５１０に送信されて保存される。
【００５１】
ユーザから入力文書のリクエストがあると、精選回路，ルーチン又はアプリケーション４８０は、中間データ構造を表示デバイス４９０が利用可能なフォーマットに変換する。精選回路，ルーチン又はアプリケーション４８０は、コントローラ４４０および入出力インターフェース４３０の制御下で、変換した中間データ構造をユーザデバイスに出力して表示する。
【００５２】
精選回路，ルーチン又はアプリケーション４８０は、中間データ構造を任意のサイズの表示装置上で再表示するのに利用可能な特定デバイス向けフォーマットに変換する、例えば本願に記載した方式、またはそれ以外の方式等の任意の公知または将来開発される符号化方式を利用可能なことを理解されたい。
【００５３】
各種実施形態では、本発明のシステムおよび方法はまた、特定の画像要素に添付されるタグ以外に特別な非画像マーカを用いて、全画像要素の機能およびプロパティを中間データ構造内のマーカとの相対位置から推定してもよい。
【図面の簡単な説明】
【図１】ＸＨＴＭＬを用いたページ画像の中間表示を示す図である。
【図２】タグまたは明確なセパレータを使用しない中間表示のフォーマットおよび内容を示す図である。
【図３】文書画像レイアウトの解体および再表示方法の一実施形態の概要を示すフローチャートである。
【図４】本発明に従う文書解体および表示システムの一実施形態のブロック図である。
【符号の説明】
４１０　ユーザ入力装置、４３０　入出力インターフェース、４４０　コントローラ、４５０　解体回路，ルーチン又はアプリケーション、４７０　合成回路，ルーチン又はアプリケーション、４８０　抽出回路，ルーチン又はアプリケーション、４９０　ディスプレイ、５００　文書レイアウト解体および再表示システム、５１０　記憶装置（メモリ）。

Claims

ページ画像フォーマットの文書を任意のサイズの表示装置に適した形式に変換する方法であって、
ページ画像フォーマットの文書を解体するステップと、
前記解体した文書を中間データ構造に合成するステップと、
前記中間データ構造を精選して、任意のサイズの表示装置で利用可能なフォーマットで再表示するステップと、
を含む方法。
ページ画像フォーマットの文書を任意のサイズの表示装置に適した形式に変換する方法であって、
ページレイアウトを解析するステップと、
ページ画像のシーケンスを、タグ付きフォーマットに取り込まれた文書要素画像のシーケンスに変換するステップと、
前記タグ付きフォーマットを、電子ブックフォーマット、画像を受容可能なインターネット閲覧可能フォーマット、および印刷フォーマットのうちの少なくとも１つのフォーマットに再変換するステップとを含む方法。
ページ画像フォーマットの文書を任意のサイズの表示装置に適した形式に変換するシステムであって、
入出力装置と、
コントローラと、
文書を解体する解体回路、ルーチン、またはアプリケーションと、
前記解体された文書を中間データ構造に合成する合成回路、ルーチン、またはアプリケーションと、
任意のサイズの表示装置で利用可能なフォーマットで再表示するため、前記中間データ構造を精選する精選回路、ルーチン、アプリケーションと、
メモリと、
を含むシステム。