JP5068963B2 - 論理的文書構造を決定するための方法及び装置 - Google Patents

論理的文書構造を決定するための方法及び装置 Download PDF

Info

Publication number
JP5068963B2
JP5068963B2 JP2006139976A JP2006139976A JP5068963B2 JP 5068963 B2 JP5068963 B2 JP 5068963B2 JP 2006139976 A JP2006139976 A JP 2006139976A JP 2006139976 A JP2006139976 A JP 2006139976A JP 5068963 B2 JP5068963 B2 JP 5068963B2
Authority
JP
Japan
Prior art keywords
cuts
hypothetical
block
document
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006139976A
Other languages
English (en)
Other versions
JP2006331423A (ja
Inventor
リューク ムニエール ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2006331423A publication Critical patent/JP2006331423A/ja
Application granted granted Critical
Publication of JP5068963B2 publication Critical patent/JP5068963B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は一般に、文書の読み取り又は表示順序といった論理的文書構造を決定するための方法、装置及びその製品に関する。
電子的に作成され記録された文書(ドキュメント)の使用が一般化しているが、こうした電子文書の多くは、それらを表示し又は印刷すること以外には使用できない形式のものである。この制約の理由には、中でも、文書を本来のフォーマット(例えば、原稿書類を走査しただけのもの、すなわち、表現レベルの低いものが存在する)では利用できないこと、又は、文書の最初の作成環境の非汎用化又は消滅(例えば、もはや販売されていない又は既存のソフトウェア・プラットフォームでは動作しない文書エディタ)が含まれる。
文書コンテンツ(例えば、記号、文字など)及び論理構造(例えば、表示及び読み取り順序)の回復は、表示及び印刷といった用途以外の文書の有効な再利用のための基礎を築く。しかしながら、ハードコピー文書を走査することによって又は電子的表現(例えば、PDF又はポストスクリプト表現)を復元することによって電子文書が復元されたとき、文書の表現が非常に低いレベルである(例えばビットマップ)か又は中レベルである(例えば頁記述言ワード又は移植可能文書形式にフォーマットされた文書)かのいずれかであるため、普通は論理的文書構造が失われることになる。
低レベル又は中レベル表現で記録された電子文書のオブジェクトの論理編成は、それらが印刷、表示又は保存といった特定の用途のために最適化されているので、特定の高レベル表現(例えば高レベル構成体の編集を可能にする)を失わせることがある。例えば、文書を形成するオブジェクトが印刷指向又は保存指向のファイル形式でフォーマットされる順序は、文書のオブジェクトの論理順序ではなく印刷又は保存のために最適化される。特定の印刷、保存又は表示効率を達成するために、最適化された印刷、保存又は表示形式で記録された電子文書は、文書の高レベル構成体又はグループ要素を、その論理フローの外に現れる順に、まとめて廃棄することがある。
対照的に、走査することによって電子形式に変換されたハードコピー文書は、高レベル記述を用いて増強しない限り、それらの文書構造を失う(例えば、米国特許第5486686号参照)。光学式文字認識(OCR)は、文書イメージのオブジェクトを復元して認識するように使用されて、文書イメージの低レベル表現(例えば記号又は文字レベル)、又は中レベル表現(フォーマット操作、パラグラフ及びオブジェクト検出)を識別することができる。さらに、文書エディタ及び文書リーダといった、文書の論理構造に頼るアプリケーションがそのコンテンツを動作させ又は自動的に処理することを可能にするのに、文書の高レベル表現の特定の態様を復元する方法が存在する。
文書の論理構造、すなわち文書イメージ上にオブジェクトがレイアウトされる(すなわち「オブジェクトのレイアウト」)順序を決定するための方法が知られている。こうした公知の方法は、オブジェクトのコンテンツ、及び特定の文書クラスについての優先順位の知識の使用と共に、又はそれらを使用することなく、文書イメージ・オブジェクトの幾何学的又は印刷特性を活用する。こうした公知の方法は、例えば以下の刊行物、すなわち、
R.Cattoni、T.Coianiz、S.Messelodi、C.M.Modena著、「Geometric Layout Analysis Techniques for Document Image Understanding a Review」、ITC−IRST Technical Report #9703−09、1998;
Y.Ishitani、「Document Transformation System from Papers to XML Data Based on Pivot XML Document Method」、International conference on document analysis and recognition(ICDAR)、2003;
G.Nagy及びS.Seth著、「Hierarchical representation of optically scanned documents」、Proceedings of the 7th International Conference On Pattern Recognition、pp.347−349、1984;
Jaekyu Ha、R.M.Haralick、I.T.Phillips、「Recursive X−Y cut using bounding boxes of connected components」、International Conference on Document Analysis and Recognition(ICDAR)、第2巻、1995;及び
A.K.Jain、M.N.Myrty、及びP.J.Flynn著、「Data clustering:A survey」、ACM Computing Survey、31(3)、264−323、1999;
に記載されている。
米国特許第5,486,686号明細書 米国特許第5,884,014号明細書 米国特許出願第11/032,817号明細書 R.Cattoni、T.Coianiz、S.Messelodi、C.M.Modena著、「Geometric Layout Analysis Techniques for Document Image Understanding」「a Review」、ITC−IRST Technical Report #9703−09、1998 Y.Ishitani、「Document Transformation System from Papers to XML Data Based on Pivot XML Document Method」、International conference on document analysis and recognition(ICDAR)、2003 G.Nagy及びS.Seth著、「Hierarchical representation of optically scanned documents」、 Proceedings of the 7th International Conference On Pattern Recognition、pp.347−349、1984 Jaekyu Ha、R.M.Haralick、I.T.Phillips、「Recursive X−Y cut using bounding boxes of connected components」、International Conference on Document Analysis and Recognition(ICDAR)、第2巻、1995 A.K.Jain、M.N.Myrty、及びP.J.Flynn著、「Data clustering:A survey」、ACM Computing Survey、31(3)、264−323、1999
文書イメージのレイアウト・オブジェクトをセグメントに分けるためのこうした公知の方法の1つは、XY切断法として知られている(上述のNagy及びSeth(非特許文献3)参照)。手短に述べると、1つの実施形態においては、この方法は、垂直方向又は水平方向のいずれかに頁(すなわちブロック)全体を横切る最も広い切断部又は最も広い空き長方形(すなわち谷)を見つけることを含む。次に、頁が、それらのコンテンツに合う大きさにされたブロックにセグメント化される。この方法は、谷が残らなくなるまで各ブロックに反復的に適用される。XY切断法の1つの実施形態においては、黒色ピクセルの結合されたコンポーネントの境界ボックスは、代わりに、イメージ・ピクセル・データに頼るものである。
図1は、XY切断法を用いる頁セグメント化(1頁をセグメントに分けること)の例を示す。図1において、文書イメージすなわち頁104は、5つのレイアウト・オブジェクト(クロスエッチ(斜め交差線)された塗りつぶしで示される)を有する。XY切断法が実行されたときに、Y切断(すなわち横切断)谷106を有する第1ブロックすなわち頁が、X切断(すなわち縦切断)谷110を有するブロック108と、X切断(すなわち縦切断)谷114を有するブロック112とにセグメント化される。XY切断法は、図1に示されるように、頁104上のレイアウト・オブジェクトがブロック1からブロック5までにセグメント化されるまで繰り返される。
各反復において最も広い空き長方形を切断するための図1に示されたXY切断方法は、頁イメージ上のレイアウト・オブジェクトをセグメント化するために良好に働くが、この方法は、頁イメージ上のレイアウト・オブジェクトの読み取り順序を決定するためにはあまり適合されておらず、この読み取り順序は、切断部の階層(例えば、上から下へ且つ左から右への読み取り順序のとき、縦切断では、切断の右側のコンテンツの前に切断の左側のコンテンツがきて、横切断では、切断の下側のコンテンツの前に切断の上側のコンテンツがくる)から推測することができる。例えば、図1に示された切断方法を二列の文書頁に用いて、文書頁上のレイアウト・オブジェクトの適正な読み取り順序を決定するとき、頁が列分離に沿って縦に切断される前に横に切断される場合には、エラーが起こることがある。
したがって、文書イメージ上のレイアウト・オブジェクトの論理順序を決定して、文書イメージのレイアウト・オブジェクトが順序をもたない(例えば、走査されたビットマップ・イメージ)か又は不適正な順序をもつ(例えば、印刷、保存又は表示のために最適化された順序である)ときに人によって読まれるようにレイアウト・オブジェクトのコンテンツを適切に順序付けるための改善された方法への必要性が引き続き存在している。こうした方法が、多くの微細粒度ほど小さいレイアウト・オブジェクトを有する文書イメージを処理し、レイアウト・オブジェクトが頁文書を列又は行分離に沿って切断する複数の別法を与えるときに、こうした方法が決定的かつ効果的であれば、それは利点となるであろう。
本書での開示によれば、文書のレイアウト・オブジェクトを順序付けて、それらの論理すなわちセマンティック(意味的すなわち読み取り)順を決定するための方法が提供される。かかる方法は、文書イメージの幾何学的特性を活用するようになっており、それにより種々の言ワードで表現された文書のような種々の文書のクラスにこの方法を適用可能であるという利点がある。レイアウト・オブジェクトは1つ又はそれ以上の文字、ワード、ライン又はパラグラフを含むことがあるため、本発明にかかる方法は、文書イメージの種々の細かい粒度すなわち小さな領域のレイアウト・オブジェクトと共に動作可能である。例えば、このレイアウト・オブジェクトは、テキスト・コンテンツ及びイメージ・コンテンツの組み合わせを含むことができる。
本書に開示された種々の実施形態によれば、(a)文書の1頁を、第1方向に沿った幅(例えば水平方向)と第1方向に対し垂直な第2方向(例えば垂直方向)とに沿った長さを有し、複数のレイアウト・オブジェクトが配置されたブロックであるように、割り当てるステップと、(b)実質的にレイアウト・オブジェクトの境界と境界の間において、前記ブロックの幅の方向に延びる第1組の仮定的切断部を識別するステップであって、前記第1組の仮定的切断部は一組のサブ(小又は下位)ブロックを形成しており、前記一組のサブブロックの各々が前記第1方向に沿った幅と前記第2方向に沿った長さとを有している、前記第1組の仮定的切断部の識別ステップと、(c)実質的にレイアウト・オブジェクトの境界と境界との間に、前記一組のサブブロックにおけるサブブロック長さ方向に延びる第2組の仮定的切断部を識別するステップと、(d)前記第1組の仮定的切断部及び第2組の仮定的切断部に従って順序付けられたレイアウト・オブジェクトの配置基準を計算するステップと、(e)前記計算された配置基準を用いて、前記第1組の仮定的切断部及び第2組の仮定的切断部における切断部を修正して前記第2方向に沿った2つ又はそれ以上のサブブロックにわたって延びる切断部を結合するステップと、(f)前記ステップ(e)を行った後に前記第1組の仮定的切断部及び第2組の仮定的切断部に残っている前記ブロックの複数のレイアウト・オブジェクトの間の切断部を用いて文書の論理順序を決定するステップとを含む、文書の論理順序を決定するための方法、装置及び製品が提供される。
本発明のこれらの及びその他の態様は、以下の詳細な説明を、同じ部分に同じ参照番号が付されている付属の図面と併せて読むことから明らかとなるであろう。
A.論理文書構造を決定するためのコンテキスト
図2は、論理文書構造を決定するためのシステム202のブロック図を示す。図2に示されたシステム202の実施形態は、3つのオペレーティング・コンポーネント、すなわち、レイアウト計算モジュール206、順序計算モジュール210、及び文書アプリケーション・モジュール214を含む。ここで各モジュールによって説明された機能は、あらゆる数のモジュールによって実行され得るように構成され、説明された機能の1つ又はそれ以上の組み合わせを含むことができ、ここで説明された機能の全てを含む必要はなく、又はさらに別の機能を含むこともできることが、当業者であれば分かるであろう。したがって、システム202を、ここで説明された機能及び特徴の異なる組み合わせに従って構成することができる、あらゆる数の異なる構成が存在する。
図2に示されたシステム202の実施形態においては、レイアウト計算モジュール206は、走査されたイメージから、又は高レベル表現から低レベル表現に変換されたイメージから発生する、ビットマップ文書204(又は部分ビットマップ文書)の入力としてとられる。低レベル表現は、例えば、印刷、表示又は圧縮のために最適化された(例えば、米国特許第5,884,014号を参照されたい)イメージ・フラグメントの組(すなわち、位置及び境界ボックスによって指定されたビットマップ)からなるイメージとすることができる。
レイアウト計算モジュール206は、文書に既に存在する構造レベルに応じて異なる度合いにビットマップ文書204(又は部分ビットマップ文書)を処理する(例えば、部分ビットマップ文書は、文字レベルにセグメント化された文書イメージのレイアウト・オブジェクトを有することができる)。レイアウト計算モジュールの出力は、構造が組織化されていない(unstructured:以下「構造組織化されていない」)文書208ではあるが、文書頁のレイアウト・オブジェクトは識別されている文書208である。ここで定められたように、レイアウト・オブジェクトは、文書の構造要素を識別する。レイアウト・オブジェクトは、レイアウト・オブジェクトの文書頁上の領域(例えば、頁上の位置や寸法)を定める境界ボックス、レイアウト・オブジェクトを形成するコンテンツの形式(例えばテキスト・データ又はイメージ・データ)、及び他のレイアウト・オブジェクトとの関係(例えば、最も近い近隣レイアウト・オブジェクトとの水平方向及び垂直方向距離)を含むことができる。OCR(光学文字認識)を実行してレイアウト・オブジェクトに存在するテキスト・コンテンツを識別することを含む、動作時に、レイアウト計算モジュール206は、レイアウト・オブジェクト及びそれらの属性を識別する。
さらに、図2に示されたシステムにおいては、構造組織化されていない文書208は、レイアウト計算モジュール206によって生成され又はアプリケーション(図示されていないが米国特許第5,884,014号に記載されている)によって作成された後に、順序計算モジュール210に入力され、順序計算モジュール210は、出力として低レベル又は中レベル表現(すなわちアプリケーション独立、例えば、ポストスクリプト)、或いは高レベル文書表現(すなわちアプリケーション依存、例えば、Microsoft Word(登録商標)文書)を生成することができる。一実施形態においては、順序計算モジュール210によって入力として受け取られた構造組織化されていない文書208は、一実施形態においてはビットマップ・イメージ・データのOCR解析を用いて識別される境界ボックス内の識別されたテキスト・コンテンツを含み得る1つ又はそれ以上の細部レベル(例えば、文字、ワード、センテンス、パラグラフなど)の境界ボックスを特定するレイアウト・オブジェクトを有する文書である。例えば、構造組織化されていないPDF文書は、頁フッター及びヘッダーのような要素を、それらが頁上のレイアウト・オブジェクトの順序付けに影響を及ぼさないようにするために除去しながら、PDF−XMLコンバータ(例えば、米国マサチューセッツ州ボストン所在のCambridgeDocs社から入手可能なコンバータ)を用いて変換することができる。その後、文書頁上のレイアウト・オブジェクトの論理フローを決定した後に、頁のレイアウト・オブジェクトの決定されたフローの頁ヘッダー及びフッターを、それぞれ開始及び終了に付加することができる。文書のヘッダー及びフッターを識別し、除去するための1つの方法は、米国特許出願第11/032817号に開示されている。
順序計算モジュール210の出力は、構造組織化された文書212であって、構造組織化されていない文書208の論理構造(例えば論理的読み取り及び表示順序)を定めている。次いで、構造組織化された文書212は、あらゆる数のアプリケーションを実行するために文書アプリケーション・モジュール214によって用いられる。例えば、一実施形態においては、構造組織化されていない文書208は、Adobe PDFといったポータブル・ドキュメント・フォーマットでエンコードされた文書とすることができる。XML(拡張可能マークアップ言語ワード)、SGML(汎用マークアップ言語ワード)、又はHTML(ハイパーテキスト・マークアップ言語ワード)など、或いはアプリケーション指定フォーマットといった構造組織化された文書212に変換された後に、構造組織化された文書212は、例えば、音響再生を実行するテキスト・リーダ又はテキスト・トランスレータといった文書エディタ又はテキスト−音声変換アプリケーションか、又は表示のためのコンテンツの適正な配置を要求するスクリーン・サイズに応じてコンテンツを拡大縮小する文書表示アプリケーションによって用いられ、これらの全ては、文書頁における要素の適正な順序付けに頼るものである。
一実施形態においては、構造組織化された文書212は、そのコンテンツを、テキストや図面やテーブル含む、表示された構造ノードに組織化させるのが好ましい。文書の下位レベルの構造は、例えば、ワード、センテンス、テキスト・ブロックなどに対応することができ、一方、高レベルの構造は、ノードのネストされたグループ、ツリー状のグループあるいは他の組織化されたグループに表示することができる。文書構造は、文書にわたって散在するマークアップ・タグを用いて実現することができる。幾つかの構造組織化された文書においては、XML、DTD(文書タイプ定義)又はそれに類似の専用文書部分といったフォーマットを用いて、文書に関する構造情報を提供することができる。次いで、XML文書のコンテンツは、組織によって、例えばレガシー文書を修正し又は維持するために再使用されてもよい。
B.論理文書構造を決定するための方法
図3は、一実施形態においては図2に示された順序計算モジュール210によって実行される論理文書構造を決定するための流れ図である。それらの特定性(例えば、文字、ワード、センテンス又はパラグラフ・レベルで)に関して変化しうるレイアウト・オブジェクトの組を有すると明記された、上述の構造組織化されていない文書208を受け取った後に、各文書頁は、図3のステップ302において処理が開始され、そこで、文書の頁がブロックの組におけるブロックに割当てられる。すなわち、一実施形態においては、文書は、頁上に幾何学的に配置された長方形のレイアウト・オブジェクトを含む1つ又はそれ以上の頁の組を含むと想定され、各レイアウト・オブジェクトは、座標の組(例えば、頁上のx−y位置、高さ、幅)を有する。
ステップ304において、複数のレイアウト・オブジェクト境界の間に(実質的に)存在する第1組の仮定的切断部は、ブロックの組における各ブロックについてのサブ(小又は下位)ブロックの組を定める。ステップ306において、第2組の仮定的切断部は、ブロックの組における各ブロックのサブブロックの組の各々についてのレイアウト・オブジェクト境界(すなわち谷)の間に(実質的に)定められる。図3に示された論理文書構造を決定するための方法の例が図4に示されている。図4に示された文書頁402Aは、8つのレイアウト・オブジェクトの組(文書頁402においてクロスエッチされた塗りつぶし(斜めの交差線)で示される)からなる。ステップ304において第1組の仮定的切断部を識別した後に、402Aに示されるように切断部A、B及びCが識別される。ステップ306において第2組の仮定的切断部を識別した後に、402Bに示されるように切断部a、b及びcが識別される。一実施形態においては、仮定的切断部は、レイアウト・オブジェクトの間の最も広い空き長方形を識別する。
より具体的には、ステップ304において、第1組の仮定的切断部は、記載された切断が水平方向(すなわち第1方向)に沿って、ブロックの組における各ブロックの幅にわたるように選択される。例えば、ブロック402Aにおける切断部A、B及びCは、ブロック402Aの幅にわたる。ブロック402Aにおける切断部A、B及びCを定めた後に、1、2、3及び4として識別されたサブブロックの組が、ブロック402Aから形成される。ステップ306において、垂直方向(すなわち第2方向)に沿って、各サブブロック1、2、3及び4の長さにわたる切断部は、ブロック402Bにおけるa、b及びcにおいて示されるように識別される。ブロックのスパンを両方向(水平方向及び垂直方向)に切断する全体的な手法を用いることによって、最小の水平方向切断部幅(すなわち行間)に対する方法の敏感さが緩和されるという利点がある。すなわち、文書の行幅より小さいか又は行幅に等しい値に、水平方向切断部幅を設定することにより、文書のレイアウト・オブジェクトが適正な列に沿って切断されることが防止される。最小の水平方向切断部幅に対して実質的に敏感でないことは、文書が頁上に種々の行幅を有する場合にさらに利点がある。
ステップ304及びステップ306において、可能性のある仮定的垂直方向及び水平方向切断部が所定の最小サイズ(すなわち、レイアウト・オブジェクト間のスペース)で出会うかどうかを評価するために閾値が用いられる。垂直方向及び水平方向閾値は、同一であっても良いし、それらは異なっていても良い。一実施形態においては、垂直方向及び/又は水平方向切断部閾値は、垂直方向及び/又は水平方向切断部が、それぞれ小さい(すなわち最小限に)重なる領域をもってレイアウト・オブジェクト間に存在することはないようにする。別の実施形態においては、提案された仮定的垂直方向及び/又は水平方向切断部が考慮されるべきかどうかを評価するために用いられるイメージ・ノイズのための閾値がさらに存在してもよい。
ステップ304に示されるように、各ブロックは、全体的に(すなわちブロック又はサブブロックの幅又は長さ全体にわたる切断部)最良の列の組につながるレイアウト・オブジェクトの中で切断部を選択することが考慮される。さらに、レイアウト・オブジェクトの切断方法は、図4に示された例において説明されるように、ポートレート指向(縦長)文書イメージにおいて水平方向切断よりも垂直方向切断を好むように指定される。しかしながら、ポートレート又はランドスケープ指向(横長)を有するかに応じて、それぞれ、ブロック長さに沿った垂直方向の第1方向にわたる切断部、及びブロック幅に沿った水平方向の第2方向にわたる切断部を有することができる。
ステップ308において、第1組の仮定的切断部及び第2組の仮定的切断部に従って、レイアウト・オブジェクトのための論理的読み取り順序基準(すなわち配置基準)が計算される。計算された基準は、イメージを形成するレイアウト・オブジェクトを切断し、順序付けるように最大化されたスコア関数を計算するために用いられる。スコア関数は、一実施形態においては、第1組の仮定的切断部及び第2組の仮定的切断部を用いて作成された列の最大累積高さに報いる。
より具体的には、ステップ308において計算されたスコア関数は、複数の連続ブロックにわたる垂直方向切断を好む。一実施形態においては、スコア関数は、結合されるブロックの高さの合計に基づいている。例えば、サブブロック1及び2(ブロック402Aに示される)の垂直方向切断部「a」及び「b」(ブロック402Bに示される)は、それぞれ結合されて、ブロック402Cに示されるように垂直方向切断部「d」を定める。さらに、サブブロックは、あらゆる数の隣接サブブロックと結合することができ、垂直方向切断部の結合は、2つの垂直方向切断部(402Bに示されるように)必ずしも制限されず、連続ブロックの間のあらゆる数の垂直方向切断部に拡張することができる。垂直方向切断部(例えば、ブロック402Bの垂直方向切断部「a」及び「c」)を結合させるための異なる選択肢が存在するが、最も適合した切断部が選択される。
別の実施形態においては、サブブロックの垂直方向切断部の1つ又はそれ以上の選択肢を結合させる適合性をスコア付けすることは、垂直方向切断部を結合させることによって生成されたブロックの累積高さ、結合された切断部の垂直方向の位置合わせ、結合が行われた場合に生じた列の幅、及び互いに結合されるサブブロックの近接性、のうちの1つ又はその組み合わせを含むパラメータの数に基づくことができる。一実施形態においては、サブブロックの近接性は、結合されたサブブロック(すなわち、互いにより近いサブブロックが好ましい)の間の距離の逆数を計算することによってパラメータ化される。一実施形態においては、列幅は、最小列幅と頁幅との比(例えば一実施形態においては1:5の最小比)を定義することによってパラメータ化される。
ステップ310において、再び図3を参照すると、第1組の仮定的切断部及び第2組の仮定的切断部(ステップ304及びステップ306において識別された)における切断部(ステップ308)をスコア付けするための計算された配置基準を用いて、2つ又はそれ以上のサブブロックにわたる切断部を結合させることができる。例えば、図4のブロック402Bにおいては、計算された配置基準のスコア付けされた結果に基づいて、ブロック402Cに示されるように垂直方向切断部「c」及び水平方向切断部「A」を除去しながら、垂直方向切断部「a」及び「b」が定められた垂直方向切断部「d」に結合される。ベスト・スコアの選択に達するために、第1組の仮定的切断部から水平方向の仮定的切断部が選択されない可能性がある。
ステップ312において(ステップ310において修正された後に)仮定的切断部が識別されない場合には、ステップ316において頁の論理構造が出力され、そうでなければ、ステップ314において、第1組の仮定的切断部及び第2組の仮定的切断部に残っている切断部に従って、ブロックの組における現在のブロックがセグメント化されてブロックの組が定められ、その後、ステップ304、306、308、310及び312が引き続き繰り返される。一実施形態においては、ステップ314において、セグメント化されたブロックが、それらのコンテンツ(例えばテキスト・コンテンツ)に合うような大きさにされ(例えば縮小され)、さらに別の実施形態においては、イメージ・ノイズに対して頑強な閾値を用いて拡大縮小されてもよい。この態様は、図4に示されたレイアウト・オブジェクトを取り囲む破線の長方形によって図4に説明されている。
ステップ316において、一実施形態においては、論理文書読み取り順序は、最初にブロックの上及び左に位置するレイアウト・オブジェクトを切断することによって読み取り順序を定める試行錯誤法により誘導される。切断レイアウト・オブジェクトがブロック・ツリーとして順序付けられたときには、ツリーの深さ優先の左から右への水平方向移動を実行することによって適正な読み取り順序を得ることができる。ステップ316において頁の論理構造を出力するときに、ブロックが上から下へ、かつ左から右への順序で、又はブロックが作動的に現れる順序で読み取られる。例えば、図4の402Cにおいて、サブブロック1.1;1.2;2及び3がブロック402Aと同様の方法で処理され、結果として、ブロック1.1に関する水平方向の仮定的切断部「D」及び「E」、ブロック1.2に関する水平方向切断部「F」、及びサブブロック1.2.bに関する垂直方向切断部「e」が識別され、結果として、ブロック1.1.a;1.1.b;1.1.c;1.2.a;1.2.b.i;1.2.b.ii;2及び3として、ブロック402Dにおける識別された論理構造がもたらされる。
別の実施形態において、ステップ316の結論において定められた順序付けられたブロックの組は、頁要素(すなわち、ページ上のあらゆる要素は、その他の要素と関連付けられている)間の全順序を誘導するようにさらに処理される。この付加的な処理ステップの間に、ステップ316において出力された各順序付けブロック内の要素がさらに順序付けられる。この順序付けは、一実施形態においては、ステップ304又は306において既に用いられた閾値より小さい閾値を用いて、ブロック内で一方向に(例えば、水平方向又は垂直方向のいずれかに)切断することによって実行することができる。これらの切断部は、行又は列を形成し、そのコンテンツは、切断部が水平方向又は垂直方向のいずれに行われたかに応じて、左から右へ又は上から下へのいずれかに配置される。或いは、この順序付けは、ステップ304及び/又は306において閾値を減少させることによって行われ、ステップ316において原始的に出力された各順序付けブロックに関して、ステップ302、304、306、308、310、312、314及び316を繰り返す。
或いは、図3に詳細に示された流れ図は、以下のように要約することができる。レイアウト・オブジェクトを有するブロックを想定すると、この方法は、全ての可能性のある水平方向切断部(例えば、ブロック402Aにおける切断部A、B及びC)を列挙する。列挙された水平方向切断部によって生じる可能性がある各ブロックについて、この方法は、内部の全ての可能性のある垂直方向切断部(例えばブロック402Bのサブブロック1における切断部「a」及びサブブロック2における切断部「b」及び「c」)を列挙する。その後、水平方向切断部の(潜在的に空きの)組が、垂直方向切断部の最良の可能な結合に達するように(関連する垂直方向切断部と共に)選択され、結果として異なる代替物のためのスコアを与える。水平方向切断部の選択された組が実行され、次いで、切断部によって生成された各ブロックについて、関連する垂直方向切断が実行される。このプロセスは、付加的な切断部が形成されなくなるまで、選択された水平方向切断及びそれに関連する垂直方向切断によって生成された各ブロックについて繰り返される。
C.動的プログラミングによる反復的(recursive)方法
図5は、反復及び動的プログラミングを用いて文書イメージの水平方向及び垂直方向切断の全ての可能な組み合わせを列挙する論理文書構造を決定するための別の実施形態を示す。動的プログラミング(例えばインターネット上のen.wikipedia.orgで入手可能なWikipedia百科事典に記載されている)を用いて、文書イメージの水平方向及び垂直方向切断の全ての可能な組み合わせを列挙するときの計算の複雑さを減少させることができる。手短に述べると、動的プログラミングは、主問題を、該主問題を解決するときに数回現れる副問題に分解することによって、主問題を最適化することを含む。各副問題によって実行された計算は、同じ計算に直面する他の副問題を解決するときに再利用するために記録される(すなわち記憶される)。
より具体的には、図5は、動的プログラミングを用いて副問題を反復的に解決する関数BCの擬似コードを示す。簡潔にするために、関数BCによって戻されたスコアのみが示されており、垂直方向切断といった他のソリューションの細部は示されていない。関数BCは、予め計算された水平方向切断部の組を与えるように選択された場合には、各サブブロックのスコア付けの副問題を解決する。すなわち、副問題は、水平方向切断部によって生成された異なる可能性のあるサブブロックを試験すること、近隣サブブロックの可能性のある垂直方向切断部を結合させるかどうか、又は予め計算された水平方向切断部を用いて試験されたサブブロックを水平方向に切断することによって近隣ブロック間の垂直方向切断部の結合を妨げるかどうかを決定することからなる。例えば、ブロック402Aの水平方向切断部A、B及びCを予め計算した後の4つのサブブロック1、2、3及び4を想定すると、4つのサブブロックの各々は、予め計算された水平方向切断部を残すかどうか、又はサブブロックにおける可能性のある垂直方向切断部を結合させるかどうかの副問題を解決するために、図5に示された関数BCによって評価される。
ここで、図5に示された関数BCの細部を参照すると、BC(i,X)は、BC(i+1,X’)及びBC(i+1,φ)の間の最大を計算することによって計算することができる。最初に、「i」は、水平方向切断ブロックの可能性のあるサブブロックのリストのことをいう。「x」は、垂直方向切断部の組Xとブロック「i」における可能性のある垂直方向切断部の組との交差を示す。「φ」は、ブロックi+1に、垂直方向切断は課されないことを示す(すなわち、水平方向切断はブロックiとブロックi+1を分離する)。「#」は、コメントが後に続くことを示す。図6は、図4に示された例示的なブロック402Aについて図5に詳細に示されたBCによって実行された副問題の計算を示す。リーフ(leaf)ノードは、各々スコア付けされた頁の異なる可能性のある最終セグメント化を表す。無効な組み合わせをもたらすリーフ・ノードは、図6に「×」で示される。最も高いスコアを戻す反復計算は、参照番号602によって示されるノードの組によって識別され、サブブロック1及び2は、図4に示されるように垂直方向切断部「d」を適用してサブブロック1.1及び1.2を定める前に、サブブロック1及び2が組み合わされる。図6は、また重複なしの計算としての動的プログラミングからの計算の利点が、BC(i,X)に対してどのように行われるかを示す(すなわち、BC(i,X)が一度計算されると、例えばBC(4,φ)が一度計算されると、二度計算されることはない)。
D.その他種々のこと
要約すると、ここで説明した文書の論理構造を回復し又は決定するための方法は、垂直方向又は水平方向のいずれかに試験されるブロック又はサブブロックを完全に横切る(最も大きい)空きの谷(例えば長方形)を見つけるものである。次いで、ブロックは、それらのコンテンツに合うサイズにされたサブブロックにセグメント化される。この方法は、一実施形態においては、各セグメント化されたサブブロックに反復的に適用され、これは、セグメント化されたブロックのいずれかにおいて十分に大きな谷が見つからないときに止まる。この方法は、3つのパラメータ、すなわち、最小の垂直方向及び水平方向の谷の大きさを定める第1及び第2の閾値と、分割される前のブロックの最小の垂直方向の幅を定める第3の閾値とを使用するものである。選択されたセグメント化は、1つの読み取り順序について、近隣サブブロック間で共有された垂直方向切断を優先して水平方向切断を除去するスコア付け関数に基づいている。ブロック及びサブブロックがセグメント化される順序は、その読み取り順序といった文書の論理構造を定めるために用いられる。
文書のレイアウト・オブジェクトは、単に長方形の形状だけではなく多くの形態を取ることができることが認識される。ここで説明された方法に従って処理された文書が、例えば、いずれの方向にも(すなわち、水平方向にも垂直方向にも)完全には切断(すなわちセグメント化)できない「L」字形のレイアウト・オブジェクトを含む場合には、文書内の残りのレイアウト・オブジェクトを処理しているあいだ、「L」字形状を一時的に無視することができる。リストを含むレイアウト・オブジェクトは、2つのレイアウト・オブジェクトにセグメント化して、レイアウト・オブジェクトをセグメント化する垂直方向切断部がリスト識別子(例えば黒丸)を含み、テキスト・ブロックを含むレイアウト・オブジェクトが廃棄されるようにすることができる。次いで、リスト識別子を含むレイアウト・オブジェクトは、テキスト・ブロックを含むレイアウト・オブジェクトの「接頭部付きテキスト」クラスに属するものとしてマークすることができる。
ここで説明された方法は、左から右へかつ上から下への頁の読み取り又は表示順序に従う文書について説明されることがさらに認識される。ここで説明された方法は、例えば、図4の例に示された左から右へとは逆に、レイアウト・オブジェクトに右から左への優先順位を与えることによって、右から左への読み取り順序に従う言ワードで、文書の別の読み取り又は表示順で動作するようにすぐに修正できることが、当業者であれば分かるであろう。文書イメージの幾何学的特徴が、オープンな複数の可能性のある有効な順序を残す場合には、レイアウト・オブジェクトのテキスト・コンテンツといった他の特徴を活用して、こうした不確かなケースを解決することができる。
図2に示されここで説明されたシステム202を実現するために汎用コンピュータを使用できることを、当業者であれば理解するであろう。こうした汎用コンピュータは、ハードウェア及びソフトウェアを含む。ハードウェアは、例えば、プロセッサ(すなわちCPU)、メモリ(ROM、RAMなど)、永続的メモリ(例えばCD−ROM、ハードドライブ、FDドライブ、テープドライブなど)、ユーザI/O、及びネットワークI/Oを含む。ユーザI/Oは、カメラ、マイク、スピーカ、キーボード、ポインティング・デバイス(例えばポインティング・スティック、マウスなど)及びディスプレイを含むことができる。ネットワークI/Oは、例えば、インターネットといったネットワークに結合することができる。汎用コンピュータのソフトウェアは、システム202の機能を与えるオペレーティング・システム及びアプリケーション・ソフトウェアを含む。
さらに、上記の実施形態は、標準的なプログラミング及び/又は工学技術を用いてプログラミング・ソフトウェア、ファームウェア、ハードウェア又はこれらのいずれかの組み合わせを製造することによって、機械(又はシステム)、プロセス(又は方法)又は製品として実現できることを当業者であれば理解するであろう。本明細書で説明した流れ図は、異なる可能性のある実施形態の理解を与えることを意図していることを、当業者であれば認識するであろう。したがって、ステップの別の順序付け、1つ又はそれ以上のステップを並行して行うこと、及び/又は付加的な又はより少ないステップを行うことを、別の実施形態において実施することができる。
XY切断法を用いて頁をセグメント化する例を示す図である。 論理文書構造を決定する、本発明に係るシステムのブロック図である。 論理文書構造を決定する、本発明に係る実施形態の流れ図である。 図3に示された論理文書構造を決定する、例を示す図である。 反復及び動的プログラミングにより論理文書構造を決定する、別の実施形態の図である。 図4に示された例示的な頁を用いる図5の別の実施形態の例示的な計算を示す図である。
符号の説明
204:ビットマップ文書
206:レイアウト計算モジュール
208:構造組織化されていない文書
210:順序計算モジュール
212:構造組織化された文書
214:文書アプリケーション・モジュール

Claims (5)

  1. 文書の論理順序を決定するための方法であって、
    (a)第1方向に沿った幅と前記第1方向に対し垂直な第2方向に沿った長さとを有するブロックであってその中に複数のレイアウト・オブジェクトが配置されたブロックであるように、文書の頁を割り当てるステップと、
    (b)実質的にレイアウト・オブジェクトの境界と境界との間において、前記ブロックの幅の方向に延びる第1組の仮定的切断部を識別するステップであって、前記第1組の仮定的切断部は一組のサブブロックを形成しており、前記一組のサブブロックの各々が前記第1方向に沿った幅と前記第2方向に沿った長さとを有している、前記識別ステップと、
    (c)実質的にレイアウト・オブジェクトの境界と境界との間に、前記一組のサブブロックにおけるサブブロック長さ方向に延びる第2組の仮定的切断部を識別するステップと、
    (d)前記第1組の仮定的切断部及び第2組の仮定的切断部に従って順序付けられたレイアウト・オブジェクトの配置基準を計算するステップと、
    (e)前記計算された配置基準を用いて、前記第1組の仮定的切断部及び第2組の仮定的切断部における切断部を修正して、前記第1組の仮定的切断部において1つの切断部を除去し、前記第2組の仮定的切断部において2つの切断部を組み合わせることにより、前記第2方向に沿った2つ又はそれ以上のサブブロックにわたって延びる切断部を結合させるステップと、
    (f)前記ステップ(e)を行った後に前記第1組の仮定的切断部及び第2組の仮定的切断部に残っている前記ブロックの複数のレイアウト・オブジェクトの間の切断部を用いて文書の論理順序を決定するステップと、
    を含むことを特徴とする方法。
  2. (g)前記ステップ(e)を行った後に、前記第1組の仮定的切断部及び第2組の仮定的切断部に残っている切断部を用いて、前記ブロックの複数の前記レイアウト・オブジェクトを、一組のブロックを形成するように、セグメントに分けるステップと、
    (h)前記ステップ(g)で形成された前記一組のブロックの各ブロックについて前記ステップ(b)〜(e)を繰り返すステップと、を更に含む、
    請求項1に記載の方法。
  3. 更に、前記第1組の仮定的切断部及び前記第2組の仮定的切断部の切断部を修正するステップを含み、該切断部の修正ステップが、
    (i)前記第1方向に沿って前記一組のサブブロックの2つ又はそれ以上のサブブロックにわたって延びる、前記第2組の仮定的切断部における切断部をグループ化し、
    (ii)前記第2方向に沿った2つ又はそれ以上のサブブロックの間のスパン(長さ)を分割する、前記第1組の仮定的切断部内の切断部を除去する、ことを含み、
    更に、前記第2組の仮定的切断部における切断部を、(iii)前記第1方向に沿ったレイアウト・オブジェクトの論理的グループ分けを示す、該第2組の仮定的切断部の切断部を除去することによって、修正する、
    ことを含む、請求項1に記載の方法。
  4. 前記第1組の仮定的切断部及び第2組の仮定的切断部に従って順序付けられたレイアウト・オブジェクトの配置基準を計算する前記ステップ(d)が、
    垂直方向切断部を結合させることによって生成されたブロックの累積高さと、結合された切断部の垂直方向の位置合わせと、切断部によって生成された列の幅と、互いに結合されるサブブロックの近接性とのうちの、1つ又はそれらの組み合わせを評価すること、
    を含む、請求項1に記載の方法。
  5. 前記識別するステップ(b)において、実質的にレイアウト・オブジェクトの境界と境界との間において、前記ブロックの幅全体に延びる第1組の仮定的切断部を識別するステップであって、前記第1方向における前記ブロックの幅全体より小さいいずれかの仮定的切断部が除外される、請求項1乃至4のいずれかに記載の方法。
JP2006139976A 2005-05-26 2006-05-19 論理的文書構造を決定するための方法及び装置 Expired - Fee Related JP5068963B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/137,566 2005-05-26
US11/137,566 US7392473B2 (en) 2005-05-26 2005-05-26 Method and apparatus for determining logical document structure

Publications (2)

Publication Number Publication Date
JP2006331423A JP2006331423A (ja) 2006-12-07
JP5068963B2 true JP5068963B2 (ja) 2012-11-07

Family

ID=37136847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006139976A Expired - Fee Related JP5068963B2 (ja) 2005-05-26 2006-05-19 論理的文書構造を決定するための方法及び装置

Country Status (3)

Country Link
US (1) US7392473B2 (ja)
EP (1) EP1729225A3 (ja)
JP (1) JP5068963B2 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051371B2 (en) * 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system
US20060132837A1 (en) * 2004-12-20 2006-06-22 Michael Barth Platform independent remote printing system
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP4658128B2 (ja) * 2005-08-31 2011-03-23 シャープ株式会社 データ生成装置、データ生成方法、およびシステム
US8176414B1 (en) * 2005-09-30 2012-05-08 Google Inc. Document division method and system
US9348799B2 (en) * 2005-12-09 2016-05-24 Adobe Systems Incorporated Forming a master page for an electronic document
JP4940973B2 (ja) * 2007-02-02 2012-05-30 富士通株式会社 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
WO2008099776A1 (ja) * 2007-02-16 2008-08-21 Sharp Kabushiki Kaisha ユーザインタフェース生成装置、情報端末、ユーザインタフェース生成制御プログラム、記録媒体、およびユーザインタフェース生成方法
US20080222522A1 (en) * 2007-03-05 2008-09-11 Xerox Corporation Method of background form print submission for document enhancement
US8861856B2 (en) 2007-09-28 2014-10-14 Abbyy Development Llc Model-based methods of document logical structure recognition in OCR systems
US8452132B2 (en) * 2008-09-23 2013-05-28 Abbyy Software Ltd. Automatic file name generation in OCR systems
US8260049B2 (en) * 2007-09-28 2012-09-04 Abbyy Software Ltd. Model-based method of document logical structure recognition in OCR systems
US8782516B1 (en) 2007-12-21 2014-07-15 Amazon Technologies, Inc. Content style detection
US8572480B1 (en) * 2008-05-30 2013-10-29 Amazon Technologies, Inc. Editing the sequential flow of a page
CN101308488B (zh) * 2008-06-05 2010-06-02 北京大学 基于版式文件的文档流式信息处理方法及装置
US8473467B2 (en) 2009-01-02 2013-06-25 Apple Inc. Content profiling to dynamically configure content processing
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8261180B2 (en) * 2009-04-28 2012-09-04 Lexmark International, Inc. Automatic forms processing systems and methods
US8214733B2 (en) * 2010-04-28 2012-07-03 Lexmark International, Inc. Automatic forms processing systems and methods
WO2012015406A1 (en) 2010-07-29 2012-02-02 Hewlett-Packard Development Company, L.P. Inserting content and exclusion zone(s) into a page
US9454520B2 (en) * 2010-07-29 2016-09-27 Hewlett-Packard Development Company, L.P. Generating a representation of a layout having partitions for exclusion zones
US8340425B2 (en) 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US8442998B2 (en) 2011-01-18 2013-05-14 Apple Inc. Storage of a document using multiple representations
US8543911B2 (en) 2011-01-18 2013-09-24 Apple Inc. Ordering document content based on reading flow
US9678618B1 (en) * 2011-05-31 2017-06-13 Google Inc. Using an expanded view to display links related to a topic
US8560937B2 (en) 2011-06-07 2013-10-15 Xerox Corporation Generate-and-test method for column segmentation
US8645819B2 (en) 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
US8903175B2 (en) 2011-08-29 2014-12-02 Hewlett-Packard Development Company, L.P. System and method for script and orientation detection of images
US9465785B2 (en) * 2011-09-16 2016-10-11 Adobe Systems Incorporated Methods and apparatus for comic creation
US8478046B2 (en) 2011-11-03 2013-07-02 Xerox Corporation Signature mark detection
WO2013110286A1 (en) * 2012-01-23 2013-08-01 Microsoft Corporation Paragraph property detection and style reconstruction engine
US8891822B2 (en) 2012-04-10 2014-11-18 Hewlett-Packard Development Company, L.P. System and method for script and orientation detection of images using artificial neural networks
US8868230B2 (en) * 2012-04-26 2014-10-21 Disney Enterprises, Inc. Iterative packing optimization
US9008443B2 (en) 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages
US9798711B2 (en) * 2012-05-31 2017-10-24 Xerox Corporation Method and system for generating a graphical organization of a page
US9384172B2 (en) 2012-07-06 2016-07-05 Microsoft Technology Licensing, Llc Multi-level list detection engine
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
US8830487B2 (en) 2012-07-09 2014-09-09 Xerox Corporation System and method for separating image and text in a document
JP2014067192A (ja) * 2012-09-25 2014-04-17 Dainippon Screen Mfg Co Ltd ページデータ生成装置、プログラムおよびページデータ生成方法
US8812870B2 (en) 2012-10-10 2014-08-19 Xerox Corporation Confidentiality preserving document analysis system and method
US9413912B2 (en) 2012-10-26 2016-08-09 Abbyy Development Llc Scanning device having a bed cover including a pattern of repeated design elements
KR101429466B1 (ko) * 2012-11-19 2014-08-13 네이버 주식회사 동적 페이지 분할을 이용한 웹페이지 제공 방법 및 시스템
CN103049183B (zh) * 2012-12-07 2016-06-22 腾讯科技(深圳)有限公司 一种应用于社交平台的媒体内容展示方法及系统
US9008425B2 (en) 2013-01-29 2015-04-14 Xerox Corporation Detection of numbered captions
US9256795B1 (en) 2013-03-15 2016-02-09 A9.Com, Inc. Text entity recognition
US9588675B2 (en) 2013-03-15 2017-03-07 Google Inc. Document scale and position optimization
US20140282127A1 (en) * 2013-03-15 2014-09-18 Lite-On It Corporation Method of converting an application of a mobile device into a distraction-free mode
US9934526B1 (en) 2013-06-27 2018-04-03 A9.Com, Inc. Text recognition for search results
KR102240279B1 (ko) * 2014-04-21 2021-04-14 삼성전자주식회사 컨텐트 처리 방법 및 그 전자 장치
JP2015215853A (ja) * 2014-05-13 2015-12-03 株式会社リコー システム、画像処理装置、画像処理方法およびプログラム
RU2604668C2 (ru) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Визуализация машинно-генерируемого изображения документа
US9658990B2 (en) 2014-09-18 2017-05-23 International Business Machines Corporation Reordering text from unstructured sources to intended reading flow
US20160140145A1 (en) * 2014-11-13 2016-05-19 International Business Machines Corporation Extracting information from PDF Documents using Black-Box Image Processing
US9721155B2 (en) * 2014-11-14 2017-08-01 Microsoft Technology Licensing, Llc Detecting document type of document
US9430766B1 (en) * 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US9881003B2 (en) * 2015-09-23 2018-01-30 Google Llc Automatic translation of digital graphic novels
CN105528333B (zh) * 2015-12-15 2019-06-07 网易(杭州)网络有限公司 一种文档优化显示的方法和装置
FI20176151A1 (en) * 2017-12-22 2019-06-23 Vuolearning Ltd A heuristic method for analyzing the contents of an electronic document
US10885270B2 (en) 2018-04-27 2021-01-05 International Business Machines Corporation Machine learned document loss recovery
JP7176246B2 (ja) * 2018-06-22 2022-11-22 コニカミノルタ株式会社 文書解析装置、文書構成解析方法及びプログラム
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
US11176310B2 (en) * 2019-04-01 2021-11-16 Adobe Inc. Facilitating dynamic document layout by determining reading order using document content stream cues
US11397981B2 (en) * 2019-12-30 2022-07-26 DoorDash, Inc. System and method for universal menu integration interface
US11615244B2 (en) * 2020-01-30 2023-03-28 Oracle International Corporation Data extraction and ordering based on document layout analysis
US11475686B2 (en) 2020-01-31 2022-10-18 Oracle International Corporation Extracting data from tables detected in electronic documents
US11194953B1 (en) * 2020-04-29 2021-12-07 Indico Graphical user interface systems for generating hierarchical data extraction training dataset

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2039652C (en) * 1990-05-30 1996-12-24 Frank Zdybel, Jr. Hardcopy lossless data storage and communications for electronic document processing systems
JP2816241B2 (ja) * 1990-06-20 1998-10-27 株式会社日立製作所 画像情報検索装置
JPH0594433A (ja) * 1991-10-02 1993-04-16 Fuji Xerox Co Ltd 文書処理装置
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
JP3484274B2 (ja) * 1995-10-05 2004-01-06 株式会社リコー 類似文書の領域分割方法
JPH09237354A (ja) * 1996-02-29 1997-09-09 Chokosoku Network Computer Gijutsu Kenkyusho:Kk 3次元形状データ転送表示方法
US5884014A (en) * 1996-05-23 1999-03-16 Xerox Corporation Fontless structured document image representations for efficient rendering

Also Published As

Publication number Publication date
EP1729225A3 (en) 2008-01-16
EP1729225A2 (en) 2006-12-06
US20060271847A1 (en) 2006-11-30
JP2006331423A (ja) 2006-12-07
US7392473B2 (en) 2008-06-24

Similar Documents

Publication Publication Date Title
JP5068963B2 (ja) 論理的文書構造を決定するための方法及び装置
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
Simon et al. A fast algorithm for bottom-up document layout analysis
CN108614898B (zh) 文档解析方法与装置
JP5789525B2 (ja) 文書コンテンツの順序付け
US5335290A (en) Segmentation of text, picture and lines of a document image
JP3940491B2 (ja) 文書処理装置および文書処理方法
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JPH10162150A (ja) ページ解析システム
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JPH0668301A (ja) 文字認識方法及び装置
Meunier Optimized XY-cut for determining a page reading order
US7046847B2 (en) Document processing method, system and medium
JP4834351B2 (ja) 文字認識装置及び文字認識方法
US10120852B2 (en) Data processing method, non-transitory computer-readable storage medium, and data processing device
JP3634574B2 (ja) 情報処理方法及び装置
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
US11055526B2 (en) Method, system and apparatus for processing a page of a document
Jain et al. TSR-DSAW: table structure recognition via deep spatial association of words
JPH08320914A (ja) 表認識方法および装置
CN115203415A (zh) 一种简历文档信息提取方法及相关装置
JP2002232679A (ja) 画像処理方法及び装置及びコンピュータプログラム及び記憶媒体
JP2000090194A (ja) 画像処理方法および画像処理装置
Liang et al. The Prototype of a Complete Document Image Understanding System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees