JP2004005453A - 文書画像レイアウトの解体と再表示の方法およびシステム - Google Patents

文書画像レイアウトの解体と再表示の方法およびシステム Download PDF

Info

Publication number
JP2004005453A
JP2004005453A JP2003053197A JP2003053197A JP2004005453A JP 2004005453 A JP2004005453 A JP 2004005453A JP 2003053197 A JP2003053197 A JP 2003053197A JP 2003053197 A JP2003053197 A JP 2003053197A JP 2004005453 A JP2004005453 A JP 2004005453A
Authority
JP
Japan
Prior art keywords
text
image
document
format
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003053197A
Other languages
English (en)
Inventor
William C Janssen Jr
ウィリアム シー ジャンセン ジュニア
Henry S Baird
ヘンリー エス バード
M Bruel Thomas
トーマス エム ブリューエル
Ashok C Popat
アショク シー ポパット
S Bloomberg Dan
ダン エス ブルームバーグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2004005453A publication Critical patent/JP2004005453A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

【課題】ビットマップとして表現されるスキャン後のハードコピー文書等の、ページ画像フォーマットで与えられる任意の文書を、任意のサイズの画面上で表示するのに適当な形式に変換する方法およびシステムを提供する。
【解決手段】本発明は、ページ画像フォーマットで与えられる文書を、文書の再フォーマットまたは「リフローイング(re−flowing)」によって任意のサイズの表示装置に適合させて、任意のサイズのディスプレイに適した形式に変換する。
【選択図】    図3

Description

【0001】
【発明の属する技術分野】
本発明は、一般には、任意サイズの表示装置上で簡便に読取り可能な任意文書作成の問題に関する。
【0002】
【従来の技術】
表示画面上に文書のページ画像版をレンダリング(表示)する既存のシステムでは、別サイズの表示画面上でページ画像をそのまま表示したものを見るには、レンダリングを改善する手動操作や面倒なパニングメカニズムが必要であった。特に、視覚的に重要なレイアウト特徴を保存するためには、(1)全テキストを手動キーイングするか、または(2)光学文字認識(OCR)システムによるページ画像処理後、得られたテキストに手動でタグ付けすることが必要であった。
【0003】
【発明が解決しようとする課題】
既存のシステムの問題点には、(a)手動キーイングおよび/またはOCR結果の補正、および手動タグ付けの費用が高いこと、(b)OCRのミスに起因するテキスト中の非常に顕著かつ目障りなエラーの危険性、(c)意味あるまたは視覚的に美麗な書体や活字サイズの選択、グラフィックス、およびその他のテキスト以外の要素の損失、および(d)各要素がページ上で適正に配置されないこと、がある。
【0004】
このような問題は、例えば現在出版されている書籍やバックナンバー書籍のページ画像版を作成する出版業者らがますます増えていることから、重大な問題である。ページ画像版はプリントオンデマンド用に作成されている。プリントオンデマンド画像は、画像のスケーリングによってわずかに拡大縮小するよう再ターゲットできるが、現在のところ、書籍をXMLフォーマットに再キーイングするか、またはOCRを用いてページ画像をスキャンし、再キーイングおよびスキャン後の画像を手動で補正しなければ、大半の電子書籍には再利用できない。
【0005】
【課題を解決するための手段】
本発明は、ビットマップとして表現されるスキャン後のハードコピー文書等の、ページ画像フォーマットで与えられる任意の文書を、文書内容の自動再フォーマットまたは「リフローイング(reflowing)」によって、任意のサイズの画面上で表示するのに適当な形式に変換する方法およびシステムを提供する。
【0006】
リフローイングとは、テキスト要素(多くは単語)をあるテキストライン(文字列)から別のテキストラインへ移動させ、各テキストラインが所定の余白内に収まるようにする処理である。リフローイングは、一般にはテキストラインを分解またはテキストラインに単語を充填し、ディスプレイ全幅が利用できるようにカラム(column)の余白を再調整して、テキストの手動「パニング」を不要にする。例えば、テキストラインが現れるディスプレイ領域が可視テキスト幅を縮小するように変更されると、単語をあるテキストラインから別のテキストラインへ移動させて全テキストラインの長さを短縮し、長すぎて完全に見えないテキストラインがディスプレイ領域中に存在しないようにしなければならない。反対に、ディスプレイ領域の幅が拡大されると、テキストラインの長さを伸ばすように単語をあるテキストラインから別のテキストラインへ移動して、どの単語画像も不明瞭になることなく、より多くのテキストラインが見られるようにする。
【0007】
画像およびレイアウト解析によって、未処理の文書画像をリフロー可能な形式かつ手持ち式デバイス上でよりコンパクトに表示できるような形式に変換する。各種実施形態では、画像解析は適応型しきい値処理および二値化から開始される。各画素(ピクセル)ごとに、その画素周囲のある領域内の最大値および最小値をグレースケール・モルフォロジー(形態学)を用いて求める。これら2つの値の差が統計的に求めたしきい値未満ならば、該領域はホワイトピクセルのみを含むと判定される。差がしきい値を超過すれば、該領域はブラックピクセルとホワイトピクセルとを含み、最大値および最小値はそれぞれ黒インク値と白用紙背景値とを表わす。前者の場合、推定ホワイトレベルをディスプレイの実際のホワイトレベルにして画素値を正規化する。後者の場合、推定ホワイトレベルと推定ブラックレベル間の範囲をディスプレイのホワイトレベルとブラックレベル間の全範囲に拡大して、画素値を正規化する。この正規化処理後、標準的なしきい値処理方法を適用できる。
【0008】
しきい値処理した画像中で、有効和集合発見データ構造(an efficient union−find data structure)と組み合わせたスキャンアルゴリズムを用いて、連結成分にラベル付けを行う。その後、各連結成分ごとに1つのバウンディングボックス(外接矩形)を決定する。これにより、通常は1ページあたり数千の連結成分の集合が得られる。各連結成分は、1つの文字(キャラクタ)、文字の一部、接触文字の集合、背景ノイズ、または線引きもしくは画像の一部を表現しうる。連結成分のこれらバウンディングボックスは、以後のレイアウト解析の基礎となる。
【0009】
各種実施形態では、レイアウト解析のために、文書の連続テキスト中、およびヘッダ、フッタ(脚注)、および/またはセクション見出し等のその他いくつかのページ要素中の文字に対応するバウンディングボックスを用いて、リフローイングに必要なページレイアウトに関する重要な情報を得る。特に、バウンディングボックスとその空間上の配置とによって、ページ回転と傾き(スキュー)カラムの境界、トークンベースの圧縮に必要なトークン、読出し順、および/またはレイアウトの2箇所間でテキストをどのようにフローさせるべきか、を特定する。ただし、このフィルタリング操作で「テキスト」を表わさないことが判明したバウンディングボックスは削除されない。このようなバウンディングボックスは、後にグラフィック要素としてシステムの出力中に組み入れられる。
【0010】
単純な統計的プロシージャを用いて、本文テキストを表わすバウンディングボックスの寸法を求める。テキストを含む大半のページについて、各種成分を統計的に混合した高さの分布を用いると、最大の混合成分は主たるフォントサイズのロワーケース文字(小文字等)に相当する場合が多い。このサイズを用いて主フォントのx方向の高さを見つけ、この寸法を用いて本文テキストまたは標準的見出しを表わすには小さすぎる、または大きすぎるバウンディングボックスを削除する。
【0011】
テキストを表わすバウンディングボックスの集合が得られると、テキストラインとカラム境界の発見が望まれる。テキストラインとカラム境界特定のために各種実施形態で用いるアプローチは、ロバストな最小2乗誤差モデル、すなわち擬似(スプリアスな)背景特徴が存在するガウス雑音モデル下で、ラインモデルに対して一致の確率がもっとも高いものを発見する分岐および境界(brannch−and−bound)アルゴリズムに依る。テキストラインのモデルは、ラインの角度、オフセット、およびディセンダ(文字の下降部分)高さの3つのパラメータによって記述される。バウンディングボックスのアライメント点すなわち底辺の中心がライン上に位置するか、またはラインから下方向へディセンダ高さだけ離れた位置にあるバウンディングボックスは、当該ラインに一致するとみなされる。一致には、モデルからの距離の二乗がペナルティーとしてしきい値∈まで与えられる。このしきい値は、通常、5ピクセルのオーダーである。
【0012】
テキストライン発見後、当該一致に関与した全接続成分に外接するバウンディングボックスを求める。該バウンディングボックス内のその他接続成分すべては、同一テキストラインに割り当てられる。これにより他の態様では見落とされる場合がある句読点記号、アクセント、および「i」の点(ドット)を「一掃」できる。各テキストライン内では、ベースラインの重なり上へ突出する複数のバウンディングボックスは統合される。これにより文字の一部のみまたは文字の一部を主として含むバウンディングボックスとは反対に、完全な文字のみまたはより完全な文字を主として含むバウンディングボックス群が得られる。その後、これらバウンディングボックスにバウンディングボックス左下隅のx座標によって順序をつけ、読み出し順の文字画像シーケンスを得る。グリーディな(greedy)戦略を用いて複数のテキストラインを発見し、一致の確率がもっとも高いものを最初に特定する。そしてこの一致に関与したバウンディングボックスが以後の考慮から削除される。続いて、2番目に最適なテキストラインを発見し、テキストラインがうまく一致しなくなるまで続行される。
【0013】
このテキストラインモデリングのアプローチは、公知の投影法またはリンク法に対していくつか有利な点がある。第1に、各テキストラインの向きが異なってもよいこと。第2に、この技術ではベースラインとディセンダラインとの両方を考慮することにより、公知のテキストラインファインダでは見落とされていたテキストラインを発見できること。第3に、この方法によって得られる一致は他の公知の方法よりも各テキストラインに正確に準拠する。
【0014】
カラムの境界も同様に特定でき、これにはラインモデルに対してバウンディングボックスの左辺中心が一致する確率が全体的に最適かつ最大のものを発見する。背景ノイズ削減のため、ラインファインダをカラムの発見に適用する前に、バウンディングボックス間の水平距離の分布に関する統計を用いて、文字内部および単語内部のスペーシング、すなわちバウンディングボックス間の水平距離の統計的分布における2つの最大成分を推定する。その後、複数の文字についてのバウンディングボックス群が単語に統合される。これによりカラムの一致に考慮しなければならないバウンディングボックス数が数分の一に減少し、カラム境界検出の信頼性を向上させる。
【0015】
テキストラインの一部ではないすべての連結成分は、一つに集められて画像として処理される。1カラムの文書では、テキストラインと画像のバウンディングボックスとをそのy座標に沿って列挙することにより、文字のシーケンス、ホワイトスペース、および画像が読出し順に得られる。2カラムの文書では、右カラムが左カラム下に配置されているようにこれら2カラムを処理する。
【0016】
この単純なレイアウト解析技術は、印刷文書でよく見られる多数のレイアウトに対処し、これらレイアウトを画像シーケンスに変換してリフローし、小型表示デバイス上で表示できるようにする。文書リーダ等の小型表示デバイスに対するリフローの要件は単語プロセッサへのレンダリング等の他のレイアウト解析タスクよりも厳しくないため、この単純な技術はかかる応用において良好に機能する。レイアウト解析の出力はリフローイング用にのみ使用され、編集用には使用されないので、テキストブロックにセマンティック(意味情報)ラベルを貼付する必要はない。文書は小型画面上でリフローされるので、レイアウト解析の出力レンダリングと入力文書のレイアウトとの正確な一致をユーザが期待することもない。さらに、ヘッダ、フッタ、および/またはページ番号等のページ要素がレイアウト解析の出力に組み入れられた場合、ユーザはこのようなページ要素を簡単にとばして読むことができる。またこれらページ要素は、小型表示デバイス上でナビゲーション上の便利な道標としても機能しうる。
【0017】
各種実施形態では、本発明に従う方法およびシステムは、より特定的にはページ画像レイアウトを解析または「解体」する2段階システムを提供する。解体は、ページ画像を物理的、例えば幾何学的に、かつ論理的、例えば機能的にセグメント化することを含む。セグメント化した画像要素は、テキストのブロック、ライン、および/または単語、ならびにその他のセグメント化した画像要素を含みうる。その後、セグメント化した画像要素を合成し、正しい読出し順の単語画像と非テキスト画像要素へのリンクとを含む中間データ構造に変換する。中間データ構造は、例えばOpen E−book XML,Adobe(商標)PDF1.4以上、HTML、および/またはXHTML、ならびにその他の現在利用可能もしくは将来開発されるであろう有用なフォーマット等の各種フォーマットで記述できる。その後、各種実施形態では、本発明に従う方法およびシステムは中間データ構造を精選(distill)または変換して、多数の標準的な電子ブックフォーマット、インターネット閲覧可能フォーマット、および/または印刷フォーマットのいずれかに「再表示」する。
【0018】
本発明の方法およびシステムの各種実施形態では、中間データ構造はSGMLおよびXMLで使用されるようなタグを含み、このタグにはタグが注釈をつける特定の画像要素の論理機能または幾何学的プロパティが記載される。また、各種実施形態では、いくつかの画像要素にはタグがつけられない場合もある。例えば画像要素の機能およびプロパティが、中間データ構造中の該要素の位置と、他のタグ付き/タグなし画像要素の位置とから推定可能な場合は、タグは不要となる。
【0019】
また各種実施形態では、この目的のために使用可能な特別の画像要素を、元ページ画像からの抽出ではなくタグつき/タグなし要素として作成することも可能である。このような特別な画像要素は、他の画像要素の希望する機能およびプロパティを定義するような順序で中間データ構造に挿入されることができる。例えば、特別な画像要素は2つの単語間のスペースを表わす空白でもよい。さらに、特定の画像要素に貼付されるタグ以外に特別の非画像マーカを挿入して、中間データ構造中で該マーカとの相対位置から、少なくともいくつかの画像要素の機能およびプロパティが推定できるようにすることも可能である。
【0020】
中間データ構造を再表示用に準備するには、中間データ構造を、例えば標準的なインターネットブラウザ上で使用するHTML、またはOpen E−bookリーダ上で使用するOpen E−book XMLフォーマットに変換できる。他の方法には、例えば、中間データ構造をPlucker電子ブックビューワ上で使用するPluckerフォーマット、またはMSリーダフォーマットを用いて表示するためのMicrosoft Readerフォーマット、または用紙等に印刷するための印刷フォーマットに変換する方法がある。
【0021】
どの文書画像においても、物理的なレイアウトジオメトリは固定されており、論理上または機能上のレイアウト構造は潜在的である。すなわち、読むというタスクに、レイアウト、書体、活字サイズ選択の意味および潜在的意味に対する慣習的予想をもちこむ人間である読者が理解することを意図している。これに対して、各種実施形態では、本発明の方法およびシステムに従う中間データ構造において、単語の元の固定位置は記載はされるが厳密に固守はされないので、物理的レイアウトは流動的である。各種実施形態では、文書の論理構造の各側面が明確かつ自動的に取り込まれ、追加情報によって表現される。各種実施形態では、本発明に従う中間データ構造は、表示時に、どのような表示デバイスまたは閲覧環境のサイズ、解像度、コントラスト、カラー、ジオメトリ等の制約に対しても自動的に適応可能である。
【0022】
本発明の方法およびシステムによって可能となる適応性には、テキストの再ページ番号付与、テキストをテキストラインへ行揃えしなおしたり再フォーマット等を行うリフローイング、ならびにテキストおよび/または非テキスト内容、例えばイラスト、図面、脚注、署名等の関連テキストへの論理的リンクが含まれる。各種実施形態では、本発明に従う方法およびシステムは、文書の論理要素を示すのに用いられる活字上の約束ごと、例えばタイトル、著者リスト、本文テキスト、パラグラフ、および/またはハイフン等を考慮する。各種実施形態では、本発明の方法およびシステムはまた、ページ上のテキストブロック内、および/またはブロック間で読み出し順序の推定が可能である。
【0023】
上記のように、文書内容の高度な読みやすさと完全な理解を達成するために文書内容の再フォーマット、リフロー、リカラー、および/または再構成が必要なサイズ、解像度、コントラスト、利用可能な色、および/またはジオメトリをもつ広範な表示装置について、OCRまたは再キーイングなしで、かつOCRまたは再キーイングに付随するそれぞれのエラーの影響を受けることなく、かつ著者および出版業者よって選択された元の文書の外観および感じを損なうことなく、文書の再表示が可能となる。
【0024】
各種実施形態では、本発明に従う方法およびシステムは、手動キーイング、OCR結果の補正、および/またはタグ付けを不要にすることにより、費用の削減をはかる。各種実施形態では、本発明に従う方法およびシステムは、OCR文字認識エラーの発生を回避できる。各種実施形態では、本発明に従う方法およびシステムは、元の著者および出版業者による書体および活字サイズの選択を維持し、これは読者が著者の意図を理解することを助けるという点で有用、または場合によっては必須である。各種実施形態では、本発明に従う方法およびシステムはまた、グラフィックスおよび非テキスト要素と関連テキストとの関連付けを維持する。
【0025】
本発明の上記およびその他の特徴および利点は、以下の本発明に従うシステムおよび方法の各種実施形態の詳細な説明で記載するか、または詳細な説明から明らかとなる。
【0026】
以下に、添付の図面を参照して本発明に従うシステムおよび方法の各種実施形態を詳細に説明する。
【0027】
【発明の実施の形態】
図1は、ページ画像300の中間データ構造260の詳細例を示す。図1では、中間構造260は中間データ構造フォーマットの一例としてXHTMLを用いて記述される。図示するページ画像300は概略的に、タイトルとして機能する第1テキスト領域310と、著者リストとして機能する第2テキスト領域320と、パラグラフとして機能する第3テキスト領域330と、ページ番号として機能する第4テキスト領域340とを含む。これらテキスト領域310〜340によって表わされる構造は、通常、著者および読者双方にとって重要であり、中間データ構造260中でもそのように検出され保存される。例えば、中間データ構造260はタイトルテキスト領域310を保存する際、このタイトルテキスト領域310の位置がページ画像の一番上であること、テキスト領域310がセンタリングされること、かつテキスト領域310中では大きな書体を使用することを記載する。位置は中間データ構造260中ではXHTMLタグ<DIV CLASS=title ID=title>として保存される。また中間データ構造260は、著者リストテキスト領域320をタイトルテキスト領域310のすぐ下の位置に保存する。中間データ構造260は、著者リストテキスト領域320の位置がセンタリングされること、著者リストテキスト領域320が大活字だがタイトルテキスト領域310の活字よりは小さな活字で印刷されることを保存する。特に図1に示す具体例では、著者リストテキスト領域320は、XHTMLタグ<DIV CLASS=authors ID=authors>で中間データ構造260中に保存される。
【0028】
図2は、ページ画像300を、添付タグまたは明確な分離符号(セパレータ)を使用せずに、画像要素190のシーケンスとそれに対応する代表的な圧縮画像トークン200として示す。例えば、画像要素の機能およびプロパティがページ上の該要素の位置、および中間データ構造中の他のタグ付きおよびタグなし画像要素の位置から推定可能な文書では、全画像要素にタグを付ける必要はない。なお、<encoded image element for T>とは、「T用の符号化された画像要素」を意味する。他も同様である。
【0029】
図3は文書画像レイアウトの解体および再表示方法の一実施形態の概要を示すフローチャートである。図3に示すように、この方法の操作はステップS100で始まってステップS110へ進み、ここでスキャンまたはページ画像フォーマットの文書が得られる他のデータソースを用いて、文書を入力する。文書はTIFFおよびJPEG等の画像ファイルフォーマットの一つで、二値レベル、グレースケール、またはカラー画像等のページ画像の組として表現されうる。
【0030】
その後、ステップS110で、ページ画像の画像ファイルを解析してテキスト画像領域と非テキスト画像領域とを特定する。テキスト領域画像には、例えばテキストのブロック(もしくはカラム)、ライン、単語、または文字(キャラクタ)等が含まれる。非テキスト領域画像には、例えばイラスト、図面、グラフィックス、線画、写真、手書き、脚注、署名等が含まれる。
【0031】
次にステップS120,300で、特定したテキスト画像領域と非テキスト画像領域との位置確認および分離を行う。テキスト画像領域の位置確認および分離は、例えば各テキストラインの画像のベースライン(並び線)、および多くの場合はトップライン(背線)および/またはキャップライン(大文字線)の位置確認および分離を含む。特定したライン領域は、テキストライン画像の一方端から他方端へ走るラインセグメントとしてモデル化する。ベースラインは水平の直線としてモデル化するか、または日本語、中国語、およびその他のスクリプトの場合は垂直、または水平もしくは垂直に近い角度に配向された直線としてモデル化してもよい。ベースラインは曲線機能としてモデル化する場合もある。その後、操作はステップS140へ進む。
【0032】
ステップS140では、特定したテキスト画像をさらなる処理のために選択する。次にステップS160,180では、選択したテキスト画像領域のテキストライン領域の位置確認および分離を行い、選択したテキスト画像領域のレイアウトプロパティを決定する。レイアウトプロパティには、例えばインデント、左および/または右の行揃え(ジャスティフィケーション)、センタリング、ハイフン、特別なスペーシング(表データ等)、図面およびその他の非テキスト領域との近接度等が含まれる。レイアウトプロパティにはまた、ページ内でのテキストの機能を示唆しうる活字サイズおよび書体グループのプロパティ(ローマン体/太字体/イタリック体等)も含まれる。その後、操作はステップS200へ進む。
【0033】
ステップS200では、位置確認したテキストライン領域をさらに処理して、セグメント化した画像要素のセットを作成する。続いてステップS210,220では、セグメント化した画像領域を読出し、基本テキスト要素の位置確認および分離を行う。基本テキスト要素には、例えば単語、数字、日付、正しい名称、引用文献の参照、図面の参照、および/または文書内外のその他の非テキスト要素が含まれる。これらテキスト要素は基本画像単位となり、以後の段階でリフローおよび再構成される。セグメント化した画像要素の位置確認の一環として、各セグメント化画像要素には該要素とテキストラインのベースラインとの相対位置をラベル付けし、後にテキストラインをリフローする際に、再構成されたベースラインを参照して対応するセグメント化画像要素を配置し、該要素が新たに構成されたベースラインを共有するようにする。その後、操作はステップS230へ進む。
【0034】
ステップS230では、セグメント化画像要素の組にベースラインに対する相対位置をラベル付けする。次にステップS250では、セグメント化画像要素と関連したベースラインの箇所とをトークンベースの画像要素に圧縮する。次にステップS240で、画像要素を中間データ構造に合成する。その後、操作はステップS260へ進む。
【0035】
ステップS260では、データを中間フォーマットで保存し、精選および再表示の要求があるまで中間データ構造を保持する。続いてステップS280で、保存したデータを精選してデータを特定デバイス向けの表示フォーマットに変換する。中間データ構造は、例えば標準的なインターネットブラウザ上で使用するためにHTMLに変換するか、またはOpen E−bookリーダ上で使用するためにOpen E−book XMLフォーマットに変換してもよい。他の方法には、例えば中間データ構造をPlucker電子ブックビューワ上での使用向けにPluckerフォーマットへ変換、MS Readerフォーマットを使用して表示するためにMicrosoft Readerフォーマットへ変換、または用紙等への印刷用に印刷フォーマットへ変換する等を含む。次にS290で、精選したデータがユーザに表示される。その後、本方法の操作は次へ進み、終了する。
【0036】
本発明の各種実施形態では、中間データ構造はまた、E−Bookディスティラ(distiller)で処理してE−bookリーダ上で再表示可能な形式でもよい。電子ブック上での表示を意図する場合は、E−Bookディスティラが中間データ構造を読取って、PDA、コンピュータ・グラフィック・インターフェースウィンドウ、またはその他のグラフィック表示デバイス等の特定デバイス上で表示できるように調整する。このような中間データ構造の処理は、E−Bookディスティラに限らず、中間データ構造を再変換し選択した表示デバイス上で再表示するための任意の方法またはデバイスによっても行うことができる。
【0037】
本発明の各種実施形態では、中間データ構造は、Open E−Book XML、Adobe(商標)PDF1.4以上、HTML、および/またはXHTML、ならびに現在利用可能または将来開発されるであろう他の有用なフォーマット等の各種フォーマットで記述できる。本発明の各種実施形態では、中間データ構造はSGMLおよびXMLで使用されるようなタグを含んでもよい。
【0038】
各種実施形態では、ステップS250において、セグメント化画像要素をより少数のプロトタイプ画像に圧縮し、入来する各要素を、視覚的には画像要素と同一またはおそらく判別不能であるプロトタイプと交換するようにしてもよい。これは「トークンベースの」圧縮の一例であり、この場合トークンは画像要素である。従って画像要素が単語ならばトークンは単語である。または、言語によっては単語より明確に識別できる文字が少ないため、画像要素を個々の文字に正確または概ね対応するより小さな画像に切断するのが有利な場合もある。セグメント化した画像要素の圧縮はさらに、代表的な圧縮画像トークンの組または辞書を書き込むこと、およびこの代表的な圧縮画像トークンに参照リストを書き込むことを含みうる。各参照は、元の画像要素にベースラインに対する相対位置をラベル付けしたものを表わす。
【0039】
本発明の各種実施形態では、ステップS240において、非テキスト画像領域、圧縮した非テキスト画像領域、代表的な圧縮画像トークンの組、セグメント化した画像要素、および/またはレイアウト特徴を中間データ構造に合成する。しかし本発明の各種実施形態では、任意で非テキスト画像領域をまずステップS310でファイル圧縮用に圧縮し、その後ステップS240で合成して中間データ構造に統合してもよい。さらに、本発明の各種実施形態では、セグメント化した画像要素を任意でステップS310で圧縮し、その後ステップS240で合成して中間データ構造に統合してもよい。非テキスト画像領域およびセグメント化した画像要素を圧縮するかどうかの判断は、ファイルサイズまたはその他の特定ユーザ向けパラメータによって異なる。中間データ構造が圧縮データを含まない場合は、中間データ構造はXHTML等で表現できる。
【0040】
本発明の各種実施形態では、中間データ構造はまた、各テキスト画像要素、およびテキスト画像要素に近接したまたは参照される非テキスト画像要素への参照、かつインデント、ハイフン、スペーシング等のレイアウト特徴を含むタグ付きリストを含みうる。このリストに加えて、代表的な圧縮画像トークンの組を、別個だが緊密に関連付けられた画像要素データベースに書き込んでもよい。中間データ構造は、画像要素のリフローイングおよび再構成のサポートに必要な全情報を含む。
【0041】
図4は、本発明に従う文書解体および再表示システム500の一実施形態のブロック図である。図4に示すように、1つ以上のユーザ入力デバイス410が1つ以上のリンク482によって入出力インターフェース430に接続される。さらに、データソース400はリンク502によって入出力インターフェース430に接続される。入出力インターフェース430にはデータシンク420もリンク602によって接続される。
【0042】
各リンク482,502,602は、1つ以上のユーザ入力デバイス410、データソース400、およびデータシンク420をそれぞれ文書レイアウト解体および再表示システム500に接続する、直接ケーブル接続、広域ネットワークもしくは構内ネットワークによる接続、イントラネットによる接続、インターネットによる接続、または他の任意の分散型処理ネットワークもしくはシステムによる接続等の、公知または今後開発される装置またはシステムを用いて実現可能である。一般には、各リンク482,502,602は1つ以上のユーザ入力デバイス410、データソース400、およびデータシンク420をそれぞれ文書レイアウト解体および再表示システム500へ接続するのに使用可能な、任意の公知または今後開発されるシステムまたは構造で構成できる。
【0043】
入出力インターフェース430は、データソース400および/または1つ以上のユーザ入力デバイス410からのデータを入力し、リンク602を介してデータシンク420へデータを出力する。入出力インターフェース430はまた、受信したデータを1つ以上のコントローラ440、メモリ510、解体回路,ルーチン又はアプリケーション450、合成回路,ルーチン又はアプリケーション470、精選回路,ルーチン又はアプリケーション480、および/またはディスプレイ490へ与える。入出力インターフェース430は、1つ以上のコントローラ440、メモリ510、解体回路,ルーチン又はアプリケーション450、合成回路,ルーチン又はアプリケーション470、および/または精選回路,ルーチン又はアプリケーション480からデータを受信する。
【0044】
メモリ510は、解体回路,ルーチン又はアプリケーション450、合成回路,ルーチン又はアプリケーション470、精選回路,ルーチン又はアプリケーション480、および/または入出力インターフェース430から受信したデータを保存する。例えばメモリ510には、元データ、解体したデータ、合成したデータ、および/または精選したデータが保存される。メモリはまた、コントローラ440が文書レイアウト解体および再表示システム500の操作に使用する1つ以上の制御ルーチンも保存可能である。
【0045】
メモリ510は、変更可能な揮発性もしくは不揮発性メモリ、または変更不可もしくは固定メモリを任意に適切に組み合わせたものを用いて実現できる。変更可能なメモリは、揮発性不揮発性に関わらず、スタティックもしくはダイナミックRAM、フレキシブルディスクおよびディスクドライブ、書き込み可能もしくは書き換え可能な光ディスクおよびディスクドライブ、ハードドライブ、フラッシュメモリ等のうち1つまたは複数のものを用いて実現可能である。同様に、変更不可または固定メモリは、ROM,PROM,EPROM,EEPROM,光ROMディスク、例えばCD−ROMもしくはDVD−ROMディスクおよびディスクドライブ等のうちの1つまたは複数のものを用いて実現可能である。
【0046】
図4に示す各回路またはルーチンは、適切にプログラムされた汎用コンピュータの一部として実現可能であることを理解されたい。または、図4に示す各回路またはルーチンは、ASIC内部で物理的に別個のハードウェア回路として、またはFPGA,PDL,PLAもしくはPALを用いて、または個別論理素子もしくは個別回路素子を用いて実現可能である。図4に示す各回路またはルーチンがとる形式は設計上の選択であり、当業者には明白または予測可能と思われる。操作時には、データソース400が元データの組、すなわち入力した文書、スキャンした文書等を、リンク502によって入出力インターフェース430へ出力する。同様に、ユーザ入力デバイス410を用いて、新規作成した元データやスキャンしたデータ等の組を、リンク482によって入出力インターフェース430へ入力してもよい。入出力インターフェース430は、コントローラ440の制御下で、受信したデータ組をメモリ510へ与える。ただしこれらデータ組の一方または両方は、文書レイアウト解体および再表示システム500に事前に入力しておいてもよいことを理解されたい。
【0047】
入力文書は、コントローラ440の制御下で解体回路,ルーチン又はアプリケーション450へ入力される。解体回路,ルーチン又はアプリケーション450は画像ファイルを読取り、テキスト領域画像と非テキスト領域画像との位置を確認かつ分離する。その後、非テキスト画像領域はコントローラ440の制御下で合成回路,ルーチン又はアプリケーション470へ送信され、データが中間データ構造に合成される。任意で、非テキスト画像領域は合成回路,ルーチン又はアプリケーション470での合成前に圧縮してもよい。
【0048】
解体回路,ルーチン又はアプリケーション450は、特定した画像テキスト領域画像の組を読出し、テキストライン領域の位置を確認かつ分離し、テキストライン領域のレイアウトプロパティを検出する。レイアウトプロパティは、コントローラ440の制御下で合成回路,ルーチン又はアプリケーション470へ送信される。テキストライン領域は、解体回路,ルーチン又はアプリケーション450によってさらに処理され、ベースラインとの相対箇所付きのセグメント化画像要素の組となり、合成回路,ルーチン又はアプリケーション470へ送信されて、コントローラ440の制御下で中間データ構造に合成される。解体回路,ルーチン又はアプリケーション450はまた、コントローラ440の制御下で合成回路,ルーチン又はアプリケーション470へ送信されて中間データ構造に合成される前に、ベースラインとの相対箇所付きのセグメント化画像要素をトークンベースの画像要素に圧縮してもよい。
【0049】
解体回路,ルーチン又はアプリケーション450および合成回路,ルーチン又はアプリケーション470は、中間データ構造に変換すべきデータを解体かつ合成し、その後、精選回路,ルーチン又はアプリケーション480によって精選して表示デバイス490上で表示する、任意の公知または将来開発される符号化方式を利用可能であることを理解されたい。
【0050】
合成回路,ルーチン又はアプリケーション470は、非テキスト領域画像と圧縮した非テキスト領域画像要素、代表的な圧縮画像トークンの組、セグメント化した画像要素、およびレイアウト特徴を合成し、該データを中間データ構造に書き換える。中間データ構造は、コントローラ440の制御下でメモリ510に送信されて保存される。
【0051】
ユーザから入力文書のリクエストがあると、精選回路,ルーチン又はアプリケーション480は、中間データ構造を表示デバイス490が利用可能なフォーマットに変換する。精選回路,ルーチン又はアプリケーション480は、コントローラ440および入出力インターフェース430の制御下で、変換した中間データ構造をユーザデバイスに出力して表示する。
【0052】
精選回路,ルーチン又はアプリケーション480は、中間データ構造を任意のサイズの表示装置上で再表示するのに利用可能な特定デバイス向けフォーマットに変換する、例えば本願に記載した方式、またはそれ以外の方式等の任意の公知または将来開発される符号化方式を利用可能なことを理解されたい。
【0053】
各種実施形態では、本発明のシステムおよび方法はまた、特定の画像要素に添付されるタグ以外に特別な非画像マーカを用いて、全画像要素の機能およびプロパティを中間データ構造内のマーカとの相対位置から推定してもよい。
【図面の簡単な説明】
【図1】XHTMLを用いたページ画像の中間表示を示す図である。
【図2】タグまたは明確なセパレータを使用しない中間表示のフォーマットおよび内容を示す図である。
【図3】文書画像レイアウトの解体および再表示方法の一実施形態の概要を示すフローチャートである。
【図4】本発明に従う文書解体および表示システムの一実施形態のブロック図である。
【符号の説明】
410 ユーザ入力装置、430 入出力インターフェース、440 コントローラ、450 解体回路,ルーチン又はアプリケーション、470 合成回路,ルーチン又はアプリケーション、480 抽出回路,ルーチン又はアプリケーション、490 ディスプレイ、500 文書レイアウト解体および再表示システム、510 記憶装置(メモリ)。

Claims (3)

  1. ページ画像フォーマットの文書を任意のサイズの表示装置に適した形式に変換する方法であって、
    ページ画像フォーマットの文書を解体するステップと、
    前記解体した文書を中間データ構造に合成するステップと、
    前記中間データ構造を精選して、任意のサイズの表示装置で利用可能なフォーマットで再表示するステップと、
    を含む方法。
  2. ページ画像フォーマットの文書を任意のサイズの表示装置に適した形式に変換する方法であって、
    ページレイアウトを解析するステップと、
    ページ画像のシーケンスを、タグ付きフォーマットに取り込まれた文書要素画像のシーケンスに変換するステップと、
    前記タグ付きフォーマットを、電子ブックフォーマット、画像を受容可能なインターネット閲覧可能フォーマット、および印刷フォーマットのうちの少なくとも1つのフォーマットに再変換するステップとを含む方法。
  3. ページ画像フォーマットの文書を任意のサイズの表示装置に適した形式に変換するシステムであって、
    入出力装置と、
    コントローラと、
    文書を解体する解体回路、ルーチン、またはアプリケーションと、
    前記解体された文書を中間データ構造に合成する合成回路、ルーチン、またはアプリケーションと、
    任意のサイズの表示装置で利用可能なフォーマットで再表示するため、前記中間データ構造を精選する精選回路、ルーチン、アプリケーションと、
    メモリと、
    を含むシステム。
JP2003053197A 2002-03-01 2003-02-28 文書画像レイアウトの解体と再表示の方法およびシステム Pending JP2004005453A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36017102P 2002-03-01 2002-03-01
US10/064,892 US20040205568A1 (en) 2002-03-01 2002-08-27 Method and system for document image layout deconstruction and redisplay system

Publications (1)

Publication Number Publication Date
JP2004005453A true JP2004005453A (ja) 2004-01-08

Family

ID=27759894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003053197A Pending JP2004005453A (ja) 2002-03-01 2003-02-28 文書画像レイアウトの解体と再表示の方法およびシステム

Country Status (3)

Country Link
US (2) US20040205568A1 (ja)
EP (1) EP1343095A3 (ja)
JP (1) JP2004005453A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195980A (ja) * 2005-01-10 2006-07-27 Xerox Corp ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置
JP2009531789A (ja) * 2006-03-29 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド 種々のサイズのディスプレイ上にレンダリングするための画像に基づくリフロー可能なファイルの生成
JP2009531790A (ja) * 2006-03-28 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド ディジタル画像における非リフローコンテンツの効率的な処理
US8023738B1 (en) 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
JP2012216038A (ja) * 2011-03-31 2012-11-08 Kyocera Communication Systems Co Ltd 文書イメージ出力装置
US8413048B1 (en) 2006-03-28 2013-04-02 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
US8499236B1 (en) 2010-01-21 2013-07-30 Amazon Technologies, Inc. Systems and methods for presenting reflowable content on a display
US8572480B1 (en) 2008-05-30 2013-10-29 Amazon Technologies, Inc. Editing the sequential flow of a page
WO2014050481A1 (ja) * 2012-09-26 2014-04-03 富士フイルム株式会社 文書画像処理装置ならびにその動作制御方法およびその動作制御プログラム
US8782516B1 (en) 2007-12-21 2014-07-15 Amazon Technologies, Inc. Content style detection
US9208133B2 (en) 2006-09-29 2015-12-08 Amazon Technologies, Inc. Optimizing typographical content for transmission and display
US9229911B1 (en) 2008-09-30 2016-01-05 Amazon Technologies, Inc. Detecting continuation of flow of a page

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004946A1 (en) * 2001-06-28 2003-01-02 Vandenavond Todd M. Package labeling
US20040205568A1 (en) * 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
US7020838B2 (en) * 2002-09-05 2006-03-28 Vistaprint Technologies Limited System and method for identifying line breaks
JP4462819B2 (ja) * 2002-09-26 2010-05-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP3991836B2 (ja) * 2002-10-04 2007-10-17 富士ゼロックス株式会社 画像形成装置
US7310773B2 (en) * 2003-01-13 2007-12-18 Hewlett-Packard Development Company, L.P. Removal of extraneous text from electronic documents
US20040202352A1 (en) * 2003-04-10 2004-10-14 International Business Machines Corporation Enhanced readability with flowed bitmaps
US20050050052A1 (en) * 2003-08-20 2005-03-03 3M Innovative Properties Company Centralized management of packaging data with artwork importation module
US20050044171A1 (en) * 2003-08-21 2005-02-24 3M Innovative Properties Company Centralized management of packaging data having modular remote device control architecture
US7350143B2 (en) * 2003-10-03 2008-03-25 Sandisk Corporation Method for page translation
EP1603072A1 (de) * 2004-06-02 2005-12-07 CCS Content Conversion Specialists GmbH Verfahren und Einrichtung zur Strukturanalyse eines Dokuments
JP3977373B2 (ja) * 2004-12-08 2007-09-19 ザイオソフト株式会社 通信端末
US7865353B2 (en) * 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium
EP1739574B1 (en) * 2005-07-01 2007-09-12 PDFlib GmbH Method of identifying words in an electronic document
JP4738943B2 (ja) * 2005-09-01 2011-08-03 キヤノン株式会社 画像処理装置およびその方法
GB2430060A (en) * 2005-09-08 2007-03-14 Hewlett Packard Development Co Flows for variable data printing
US8438476B2 (en) * 2005-10-14 2013-05-07 Uhlig Llc Dynamic variable-content publishing
CN100356377C (zh) * 2005-12-20 2007-12-19 无锡永中科技有限公司 文档显示方法
US8630498B2 (en) 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US7889932B2 (en) * 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7792359B2 (en) * 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
IES20060361A2 (en) * 2006-05-05 2007-10-31 Big River Ltd Electronic document conversion
US8437054B2 (en) * 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7864365B2 (en) 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US7876959B2 (en) 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US8181107B2 (en) 2006-12-08 2012-05-15 Bytemobile, Inc. Content adaptation
US8631005B2 (en) * 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
JP2009053932A (ja) * 2007-08-27 2009-03-12 Fuji Xerox Co Ltd 文書画像処理装置、及び文書画像処理プログラム
US8014596B2 (en) * 2007-10-30 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for background color extrapolation
US20090279108A1 (en) * 2008-05-12 2009-11-12 Nagayasu Hoshi Image Processing Apparatus
US8347232B1 (en) 2009-07-10 2013-01-01 Lexcycle, Inc Interactive user interface
US9035887B1 (en) 2009-07-10 2015-05-19 Lexcycle, Inc Interactive user interface
US9400769B2 (en) * 2009-08-06 2016-07-26 Hewlett-Packard Development Company, L.P. Document layout system
US10831982B2 (en) 2009-10-14 2020-11-10 Iplcontent, Llc Hands-free presenting device
US9330069B2 (en) * 2009-10-14 2016-05-03 Chi Fai Ho Layout of E-book content in screens of varying sizes
US8381101B2 (en) * 2009-11-16 2013-02-19 Apple Inc. Supporting platform-independent typesetting for documents
US20110173532A1 (en) * 2010-01-13 2011-07-14 George Forman Generating a layout of text line images in a reflow area
US20120054605A1 (en) * 2010-08-31 2012-03-01 Hillcrest Publishing Group, Inc. Electronic document conversion system
US9218680B2 (en) * 2010-09-01 2015-12-22 K-Nfb Reading Technology, Inc. Systems and methods for rendering graphical content and glyphs
US8542926B2 (en) 2010-11-19 2013-09-24 Microsoft Corporation Script-agnostic text reflow for document images
US9575561B2 (en) 2010-12-23 2017-02-21 Intel Corporation Method, apparatus and system for interacting with content on web browsers
US9645986B2 (en) 2011-02-24 2017-05-09 Google Inc. Method, medium, and system for creating an electronic book with an umbrella policy
US8855413B2 (en) * 2011-05-13 2014-10-07 Abbyy Development Llc Image reflow at word boundaries
JP5812702B2 (ja) * 2011-06-08 2015-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文字の読み順を決定するための読み順決定装置、方法及びプログラム
FR2977692B1 (fr) * 2011-07-07 2015-09-18 Aquafadas Sas Enrichissement de document electronique
US9141404B2 (en) 2011-10-24 2015-09-22 Google Inc. Extensible framework for ereader tools
US9031493B2 (en) 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
US9734132B1 (en) * 2011-12-20 2017-08-15 Amazon Technologies, Inc. Alignment and reflow of displayed character images
US20130191728A1 (en) * 2012-01-20 2013-07-25 Steven Victor McKinney Systems, methods, and media for generating electronic books
EP2807603B1 (en) * 2012-01-23 2020-03-18 Microsoft Technology Licensing, LLC Formula detection engine
KR101872564B1 (ko) 2012-01-23 2018-06-28 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 무경계 표 검출 엔진
CN104067293B (zh) 2012-01-23 2017-07-25 微软技术许可有限责任公司 矢量图分类引擎
US9069744B2 (en) 2012-05-15 2015-06-30 Google Inc. Extensible framework for ereader tools, including named entity information
CN105027142A (zh) * 2012-10-16 2015-11-04 海因策格雷特尔Pc公司 文本阅读辅助工具
JP6099961B2 (ja) * 2012-12-18 2017-03-22 キヤノン株式会社 画像表示装置、画像表示装置の制御方法およびコンピュータプログラム
KR20140081470A (ko) * 2012-12-21 2014-07-01 삼성전자주식회사 문자 확대 표시 방법, 상기 방법이 적용되는 장치, 및 상기 방법을 수행하는 프로그램을 저장하는 컴퓨터로 읽을 수 있는 저장 매체
US9953008B2 (en) * 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
US9400549B2 (en) 2013-03-08 2016-07-26 Chi Fai Ho Method and system for a new-era electronic book
US20140258852A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
US9323733B1 (en) 2013-06-05 2016-04-26 Google Inc. Indexed electronic book annotations
CN104331391B (zh) * 2013-07-22 2018-02-02 北大方正集团有限公司 文档格式转换装置和文档格式转换方法
US9411790B2 (en) 2013-07-26 2016-08-09 Metrodigi, Inc. Systems, methods, and media for generating structured documents
US9542363B2 (en) 2014-01-31 2017-01-10 Konica Minolta Laboratory U.S.A., Inc. Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods
US10372789B2 (en) 2014-08-22 2019-08-06 Oracle International Corporation Creating high fidelity page layout documents
US20160140086A1 (en) * 2014-11-19 2016-05-19 Kobo Incorporated System and method for content repagination providing a page continuity indicium while e-reading
WO2016119913A1 (en) * 2015-01-29 2016-08-04 Hewlett-Packard Development Company L.P. Text formatting
JP2017151768A (ja) * 2016-02-25 2017-08-31 富士ゼロックス株式会社 翻訳プログラム及び情報処理装置
US10452748B2 (en) 2016-06-20 2019-10-22 Microsoft Technology Licensing, Llc Deconstructing and rendering of web page into native application experience
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
US20200250613A1 (en) * 2019-01-31 2020-08-06 Walmart Apollo, Llc System and method for dispatching drivers for delivering grocery orders and facilitating digital tipping
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation
US11436286B1 (en) * 2019-04-04 2022-09-06 Otsuka America Pharmaceutical, Inc. System and method for using deconstructed document sections to generate report data structures
US11087448B2 (en) * 2019-05-30 2021-08-10 Kyocera Document Solutions Inc. Apparatus, method, and non-transitory recording medium for a document fold determination based on the change point block detection
US11410446B2 (en) * 2019-11-22 2022-08-09 Nielsen Consumer Llc Methods, systems, apparatus and articles of manufacture for receipt decoding
US11106858B2 (en) * 2020-01-16 2021-08-31 Adobe Inc. Merging selected digital point text objects while maintaining visual appearance fidelity
CN111275139B (zh) * 2020-01-21 2024-02-23 杭州大拿科技股份有限公司 手写内容去除方法、手写内容去除装置、存储介质
US11810380B2 (en) 2020-06-30 2023-11-07 Nielsen Consumer Llc Methods and apparatus to decode documents based on images using artificial intelligence
US11822216B2 (en) 2021-06-11 2023-11-21 Nielsen Consumer Llc Methods, systems, apparatus, and articles of manufacture for document scanning
US11625930B2 (en) 2021-06-30 2023-04-11 Nielsen Consumer Llc Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture
US11687700B1 (en) * 2022-02-01 2023-06-27 International Business Machines Corporation Generating a structure of a PDF-document
US11699021B1 (en) 2022-03-14 2023-07-11 Bottomline Technologies Limited System for reading contents from a document

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US582530A (en) * 1897-05-11 Crank-fastening for bicycles
US4251799A (en) * 1979-03-30 1981-02-17 International Business Machines Corporation Optical character recognition using baseline information
EP0385009A1 (en) * 1989-03-03 1990-09-05 Hewlett-Packard Limited Apparatus and method for use in image processing
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
CA2027253C (en) 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
US5390354A (en) * 1991-03-15 1995-02-14 Itt Corporation Computerized directory pagination system and method
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
JP3272842B2 (ja) * 1992-12-17 2002-04-08 ゼロックス・コーポレーション プロセッサベースの判定方法
US5825919A (en) * 1992-12-17 1998-10-20 Xerox Corporation Technique for generating bounding boxes for word spotting in bitmap images
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
US6587587B2 (en) * 1993-05-20 2003-07-01 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
DE69525401T2 (de) 1994-09-12 2002-11-21 Adobe Systems Inc Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
US5574802A (en) * 1994-09-30 1996-11-12 Xerox Corporation Method and apparatus for document element classification by analysis of major white region geometry
US5724985A (en) * 1995-08-02 1998-03-10 Pacesetter, Inc. User interface for an implantable medical device using an integrated digitizer display screen
KR100259417B1 (ko) * 1996-04-04 2000-06-15 오케노 다카시 팩시밀리 통신방법 및 팩시밀리 장치
US5911146A (en) * 1996-05-03 1999-06-08 Mitsubishi Electric Information Technology Center America, Inc. (Ita) Apparatus and method for automatic yellow pages pagination and layout
US5784487A (en) * 1996-05-23 1998-07-21 Xerox Corporation System for document layout analysis
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
JP3634099B2 (ja) * 1997-02-17 2005-03-30 株式会社リコー 文書情報管理システム,媒体用紙情報作成装置および文書情報管理装置
US6023714A (en) * 1997-04-24 2000-02-08 Microsoft Corporation Method and system for dynamically adapting the layout of a document to an output device
US6562077B2 (en) * 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6300947B1 (en) * 1998-07-06 2001-10-09 International Business Machines Corporation Display screen and window size related web page adaptation system
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
US7028258B1 (en) * 1999-10-01 2006-04-11 Microsoft Corporation Dynamic pagination of text and resizing of image to fit in a document
JP3879350B2 (ja) * 2000-01-25 2007-02-14 富士ゼロックス株式会社 構造化文書処理システム及び構造化文書処理方法
US6633314B1 (en) * 2000-02-02 2003-10-14 Raja Tuli Portable high speed internet device integrating cellular telephone and palm top computer
SE0000941L (sv) * 2000-03-21 2001-09-22 Anoto Ab Förfarande och arrangemang för överföring av meddelande
US20020056085A1 (en) 2000-03-21 2002-05-09 Christer Fahraeus Method and system for transferring and displaying graphical objects
US6895552B1 (en) * 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US20020046245A1 (en) * 2000-09-29 2002-04-18 Hillar Christopher J. System and method for creating customized web pages
US20020143821A1 (en) * 2000-12-15 2002-10-03 Douglas Jakubowski Site mining stylesheet generator
US20030014445A1 (en) * 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
US6947162B2 (en) * 2001-08-30 2005-09-20 Hewlett-Packard Development Company, L.P. Systems and methods for converting the format of information
US20040205568A1 (en) * 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
US8443278B2 (en) * 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195980A (ja) * 2005-01-10 2006-07-27 Xerox Corp ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置
US8023738B1 (en) 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
US8413048B1 (en) 2006-03-28 2013-04-02 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
JP2009531790A (ja) * 2006-03-28 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド ディジタル画像における非リフローコンテンツの効率的な処理
US7966557B2 (en) 2006-03-29 2011-06-21 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
JP2009531789A (ja) * 2006-03-29 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド 種々のサイズのディスプレイ上にレンダリングするための画像に基づくリフロー可能なファイルの生成
US8566707B1 (en) 2006-03-29 2013-10-22 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
US9208133B2 (en) 2006-09-29 2015-12-08 Amazon Technologies, Inc. Optimizing typographical content for transmission and display
US8782516B1 (en) 2007-12-21 2014-07-15 Amazon Technologies, Inc. Content style detection
US8572480B1 (en) 2008-05-30 2013-10-29 Amazon Technologies, Inc. Editing the sequential flow of a page
US9229911B1 (en) 2008-09-30 2016-01-05 Amazon Technologies, Inc. Detecting continuation of flow of a page
US8499236B1 (en) 2010-01-21 2013-07-30 Amazon Technologies, Inc. Systems and methods for presenting reflowable content on a display
JP2012216038A (ja) * 2011-03-31 2012-11-08 Kyocera Communication Systems Co Ltd 文書イメージ出力装置
WO2014050481A1 (ja) * 2012-09-26 2014-04-03 富士フイルム株式会社 文書画像処理装置ならびにその動作制御方法およびその動作制御プログラム

Also Published As

Publication number Publication date
US20040205568A1 (en) 2004-10-14
EP1343095A2 (en) 2003-09-10
US20110289395A1 (en) 2011-11-24
EP1343095A3 (en) 2005-01-19
US10606933B2 (en) 2020-03-31

Similar Documents

Publication Publication Date Title
JP2004005453A (ja) 文書画像レイアウトの解体と再表示の方法およびシステム
EP0543598B1 (en) Method and apparatus for document image processing
US8566707B1 (en) Generating image-based reflowable files for rendering on various sized displays
US7259753B2 (en) Classifying, anchoring, and transforming ink
US7705848B2 (en) Method of identifying semantic units in an electronic document
US8209600B1 (en) Method and apparatus for generating layout-preserved text
US8520224B2 (en) Method of scanning to a field that covers a delimited area of a document repeatedly
US20030229857A1 (en) Apparatus, method, and computer program product for document manipulation which embeds information in document data
TWI291139B (en) Enhanced readability with flowed bitmaps
US8830241B1 (en) Image conversion of text-based images
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
JPH08249329A (ja) ポータブル電子文書に記載されている単語を識別する方法及び装置
US20150138220A1 (en) Systems and methods for displaying scanned images with overlaid text
US8605297B2 (en) Method of scanning to a field that covers a delimited area of a document repeatedly
Breuel et al. Paper to PDA
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
US6958755B1 (en) Personalized computer fonts
JP2008181174A (ja) 特許出願又は実用新案登録出願の図面原稿の作成方法
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
JP2006171851A (ja) 文書ファイル解析システム、文書ファイル解析方法及びプログラム
Breuel et al. Reflowable document images
JP7127365B2 (ja) 文字切り出し装置、文字切り出し方法、及びプログラム
JP2005253004A (ja) 情報処理装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP4508264B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
CN117542056A (zh) 图文数据生成文本的方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090120