JP2008123528A - 文書のページ番号を検出する方法及びシステム - Google Patents

文書のページ番号を検出する方法及びシステム Download PDF

Info

Publication number
JP2008123528A
JP2008123528A JP2007295374A JP2007295374A JP2008123528A JP 2008123528 A JP2008123528 A JP 2008123528A JP 2007295374 A JP2007295374 A JP 2007295374A JP 2007295374 A JP2007295374 A JP 2007295374A JP 2008123528 A JP2008123528 A JP 2008123528A
Authority
JP
Japan
Prior art keywords
sequence
document
page
text
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007295374A
Other languages
English (en)
Other versions
JP2008123528A5 (ja
JP4717049B2 (ja
Inventor
Herve Dejean
デジャン エルベ
Jean-Luc Meunier
ムニエ ジャン−リュック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2008123528A publication Critical patent/JP2008123528A/ja
Publication of JP2008123528A5 publication Critical patent/JP2008123528A5/ja
Application granted granted Critical
Publication of JP4717049B2 publication Critical patent/JP4717049B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】印刷可能または画像フォーマットの文書を構造化フォーマットに文書を変換する際に、ページ番号を検出する方法及びシステムを提供する。
【解決手段】文書のページ番号検出方法は、文書の複数のページから1以上のテキスト断片を識別し、前記識別されたテキスト断片から、複数の項を各々含み、少なくとも1つの所定のナンバリング方式に従った、少なくとも1つのシーケンスを識別し、前記識別されたシーケンスの部分集合を計算し、前記部分集合の項の少なくとも幾つかを文書のページのページ番号と解釈することを含む。
【選択図】図1

Description

例示的実施形態は、情報記憶および処理技術に関する。具体的には、印刷可能フォーマットまたは画像フォーマットで利用可能な文書から、文書の論理構造を反映した構造化フォーマットへの変換に関連して、文書のページ番号を検出する方法及びシステムに関する。
従来の文書変換は、アドビ(Adobe)社のポータブルドキュメントフォーマット(PDF)、ポストスクリプト(PostScript)、PCL‐5、PCL‐5E、PCL‐6、PCL‐XL等のページ記述言語フォーマットの既存の非構造化文書を、拡張可能マークアップ言語(XML)、汎用マークアップ言語(SGML)、ハイパーテキストマークアップ言語(HTML)等のマークアップ言語を使用する構造化文書に変換することに関連している。
構造化文書では、文書の内容は、適切なヘッダ/フッタなどを持つ文書ページのような線引きされたセクションに編成される。そのような編成は一般的に、マークアップタグを用いて実現される。XMLのような一部の構造化文書では、文書型定義(DTD)または同様の文書の部分が、セクション識別のような文書に関する全体的な情報を提供し、入れ子状セクションのような複雑な文書構造を容易化する。
しかしページ番号は、1つのコレクション(文書ページの集合)全体にわたって、かつコレクション毎に、多種多様な外見、レイアウト、およびナンバリング方式を文書内に持つことができるため、検出が困難である。
ナンバリング方式は変更することもでき、アラビア数字、ローマ数字、文字、N/M形式(ここでNはページ番号、Mはページ総数、あるいはNはセクション番号、Mはセクション内のサブセクションまたはページ番号)、またはTOC‐N形式、INTRO‐N形式のような複合ページ番号を含みうる。
ページ番号を付けるための従来の手法はページレベルで適用される。番号が抜けているページに対しては、人間のオペレータが出力を検証する。
例えば特許文献1は、文書に由来する認識可能なテキストブロックを含むテキスト断片を順番に配列するために、文書のヘッダ/フッタ内容を識別するための方法を開示している。ヘッダ/フッタ域は、テキスト変動性の低いテキスト内容によって定義される。代替的実施形態は、選択されたテキストボックスを相似性および近似性について比較し、所定の相似値を満たすテキストボックスをクラスタ化することによって、ページ付け構造を識別する。クラスタ化されたテキストボックスは、ページ付け構造を含むと考えられる。
特許文献2は、文書フォーマット変換に関し、特に、拡張可能なマークアップ言語(XML)のようなマークアップフォーマットでの従来の形式による文書の目録作成に関する。
特許文献3は、文書中の目次を識別するための方法に関する。
米国特許出願第2006/0156226号明細書 米国特許出願第2006/0155700号明細書 米国特許出願第2006/0155703号明細書
本発明は、印刷可能フォーマットまたは画像フォーマットの文書を構造化フォーマットに文書を変換する際に、ページ番号を検出する方法及びシステムを提供することを目的とする。
例示的実施形態の1態様によると、文書のページ番号検出のための方法は、文書の複数のページに関連付けられる複数のテキスト断片(text fragment)を識別することを含む。識別されたテキスト断片から、少なくとも1つのシーケンス(配列)が識別される。識別された各シーケンスは複数の項(term)を含む。各項は、複数のテキスト断片から選択された1つのテキスト断片に由来するものである。識別されたシーケンスの項は、シーケンスにおける項の形式および項の増分状態を定義する、少なくとも1つの所定のナンバリング方式に従うものである。文書の少なくとも幾つかのページにわたる、識別されたシーケンスの部分集合(サブセット)が計算される。識別されたシーケンスの部分集合の少なくとも一部の項が、文書のページのページ番号と解釈される。
本方法では、少なくとも1つのナンバリング方式は、任意の連続する2ページの間で項が一定値だけ異なるという増分状態に従わないシーケンスからの項を排除してもよい。
前記少なくとも1つのナンバリング方式は、アラビア数字、ローマ数字、複合ナンバリング、アスキー文字、およびそれらの組合せから成るグループから選択されるナンバリング方式を含む。
少なくとも1つのシーケンスの識別はさらに、ページに対し項が追加されていないシーケンスが存在する場合に、シーケンスを終了することにより、後続ページのシーケンスにはそれ以上の項を追加しないこと、およびそのページに項が欠落しているものとしてシーケンスを識別するように、シーケンスに穴を追加すること、の少なくとも1つを実行することを含む。
シーケンス密度が所定の最低シーケンス密度より低い場合も、シーケンスを終了することができる。
識別されたシーケンスの部分集合の計算は、識別されたシーケンスの各々に対し、識別されたシーケンスを一連のノードとして定義し、各ノードが複数の連続ページの中の1ページのシーケンスの状態を表わし、各ノードが項または穴を含み、穴はシーケンスの項の欠落としてページを識別させ、かつ、最大でも文書全体に及ぶ範囲で識別されたシーケンスの部分集合のノードに割当てられたスコアに基づいて、識別されたシーケンスの部分集合を選択することを含むことができる。選択されたシーケンスの各ノードの割当てスコアは、ノードが穴または項を含むかどうか、シーケンス内の項の個数、およびシーケンスのカバレージ(範囲)のうちの少なくとも1つの関数とすることができる。
ノードが項を含む場合、割当てスコアは、シーケンス中の項の個数およびシーケンスのカバレージのうちの少なくとも1つの関数とすることができる。
部分集合の選択は、シーケンスの最初のノードだけを部分集合に受け入れ、かつ任意選択的に、その部分集合が各ページにおいてシーケンスのノードを1つしか含まないように、シーケンスをその最後のノードの前で終了することを含むことができる。
部分集合の選択は、識別されたシーケンスのどれもが文書の各ページからの1つの項を含まない場合に、2つのシーケンス各々の複数の連続ノードを選択することによって、各ノードのスコアの合計を最大にする、少なくとも2つのシーケンスを組み合わせることを含むことができる。
識別されたシーケンスの部分集合のノードの割当てスコアに基づく部分集合の選択は、合計されるスコアを1ページにつき1つだけにして、シーケンス内のノードのスコアを合計することを含むことができる。
シーケンスの集合の計算は、識別されたシーケンスにビタビ(Viterbi)アルゴリズムを適用して、識別されたシーケンスの部分集合を識別することを含むことができる。
文書の複数のページに関連付けられる複数のテキスト断片の識別は、各々のページの少なくとも1つの指定された領域内でテキスト断片を識別することを含むことができ、前記少なくとも1つの領域はページの面積に満たない面積を有する。
本方法は、シーケンスを含むテキスト断片の少なくとも1つの特徴の類似性を比較することによって、選択されたシーケンスの部分集合を検証することを含むことができる。
前記少なくとも1つの特徴は、位置特徴、外観特徴、ならびにそれらの組合せおよび複合から成るグループから選択することができる。
シーケンスの形式が許容可能な信頼度でシーケンスの外挿(補外)を可能とする場合、本方法は、部分集合のシーケンスを外挿してシーケンスにおける穴に対する項を識別することを含むことができる。
本方法は、シーケンスの識別された部分集合に無いテキスト断片の少なくとも1つの特徴を、シーケンスの識別された部分集合にあるテキスト断片の少なくとも1つの特徴と比較することによって、追加的テキスト断片を潜在的なページ番号として識別し、シーケンスの部分集合のテキスト断片および追加的に識別されたテキスト断片に基づいて、テキスト断片の最適集合を計算することを含むことができる。識別されたシーケンスの部分集合内の少なくとも幾つかのテキスト断片の項を文書のページのページ番号と解釈することは、最適集合のテキスト断片の項を文書のページのページ番号と解釈することを含むことができる。
最適集合のテキスト断片の計算は、部分集合内の識別されたシーケンスおよび追加的テキスト断片にビタビアルゴリズムを適用して、最大で文書全体に及ぶ範囲でテキスト断片の部分集合を識別することを含むことができる。
文書の複数のページに関連付けられる複数のテキスト断片の識別は、文書のページに対し、各ページの所定部分に関連付けられたテキスト断片を識別することを含むことができる。
文書でページ番号を検出するためのシステムは、本方法を実行するための命令を実行するプロセッサ、または本方法を実行するための命令が記録された有形媒体を含むことができる。
別の態様では、ページ番号の検出のためのシステムは、(a)識別されたテキスト断片から、文書の複数のページに関連付けられる複数のテキスト断片を識別し、(b)複数のテキスト断片から選択された1テキスト断片に由来する複数の項を含む、少なくとも1つのシーケンスを識別し、前記シーケンスは各々、シーケンスの項の形式および増分状態を定義する少なくとも1つの所定のナンバリング方式に従う複数の項を含み、(c)識別されたシーケンスの部分集合を計算し、かつ(d)前記シーケンスの部分集合の項を文書のページのページ番号と解釈するようにシステムを機能させるための命令を格納するメモリと、プロセッサを含む。プロセッサは前記命令を実行する。
プロセッサは、部分集合のシーケンスの項を含むページ番号を注釈として文書に付けることができる。
別の態様では、文書のページ番号検出のための方法は、文書の複数のページに関連付けられる複数のテキスト断片を識別することを含み、前記識別された複数のテキスト断片は各々、少なくとも1つの所定のナンバリング方式の形式に従う項を含んで成る。複数のページの各ページに対し順番に、a)識別されたテキスト断片毎に、既存のシーケンスに該テキスト断片を受け入れるか否かを判定し、前記テキスト断片が既存のシーケンスの少なくとも1つの所定のナンバリング方式の形式に適合し、かつ既存のシーケンスの増分状態に適合する場合にだけ、シーケンスにテキスト断片を受け入れ、b)既存のシーケンス毎に、シーケンスにテキスト断片を受け入れる場合、テキスト断片の項を既存のシーケンスに追加し、かつその項の状態を増分させ、c)既存のシーケンスのいずれにも追加されていない識別テキスト断片毎に、該テキスト断片の項を含む新しいシーケンスを開始し、新しいシーケンスは文書の後続ページに対して既存のシーケンスとなり、d)任意選択的に、そのページに対しテキスト断片項が追加されていない既存のシーケンス毎に、テキスト断片の項の欠如を示す穴をシーケンスに提供し、e)任意選択的に、既存のシーケンス内の項の総数および既存のシーケンス内の穴の総数の関数である、所定の最低密度を満たさない各シーケンスについて、文書の後続ページからの断片項の追加に対してその既存のシーケンスを閉じる。次いで、シーケンスの部分集合が計算される。シーケンス内の穴の項を識別するために、任意選択的に、シーケンスの部分集合は外挿される。任意選択的に、追加的なテキスト断片は、追加的テキスト断片の特徴と、識別されたシーケンスのテキスト断片の特徴とを比較することによって、ページ番号である可能性があるものとして識別される。部分集合のシーケンスの項、および任意選択的に追加的テキスト断片の項も、文書のページのページ番号と解釈される。
別の態様では、文書のページ番号検出のための方法は、文書の複数のページに関連付けられる複数のテキスト断片を識別することを含む。識別されたテキスト断片から、複数の項を含む少なくとも1つのシーケンスが識別される。各項は、複数のテキスト断片から選択されたテキスト断片に由来し、シーケンスの項は、シーケンスにおける項の形式および増分状態を定義する少なくとも1つの所定のナンバリング方式に従う。シーケンスの部分集合が計算され、この計算は、第1長さファクタの関数としてシーケンスの長さに基づいてシーケンスのノードのスコアを得ることを含む。シーケンスにおける各項は、別個のノードとして表わされる。追加的なテキスト断片を潜在的ページ番号(ページ番号である可能性があるもの)として識別するためのモデルが開発されており、該モデルは、第1部分集合のシーケンスの項が由来する少なくとも1つのテキスト断片の少なくとも1つの特徴に基づく。該モデルは、文書内の識別されたテキスト断片の少なくとも幾つかに適用され、潜在的ページ番号である追加テキスト断片が識別される。シーケンスの部分集合および追加テキスト断片からの項の最適集合が計算され、この計算は、第1長さファクタより短いシーケンスを受け入れる傾向のある第2長さファクタの関数として、シーケンスまたは追加的テキスト断片の長さに基づいて、シーケンスのノードおよび追加的テキスト断片のスコアを得ことを含み、最適集合の少なくともいくつかの項を、文書ページのページ番号と解釈する。
例示的実施形態は、オリジナル(原稿)文書のページ番号を検出するためのシステムおよび方法を提供する。本方法は、文書のページのテキスト断片を識別し、識別された断片のいずれかが2ページ以上にわたるシーケンスを形成するか否かを判定することを含みうる。特に、本方法は、文書の第1ページ(またはその所定の領域)に関連付けられるテキスト断片を識別し、識別されたテキスト断片のいずれかが、所定のナンバリング方式に従う項であるか、またはそのような項を含むか否かを判定し、そうである場合、これらのテキスト断片の項を潜在的なナンバリングシーケンスの一部とみなすことを含む。文書の次のページで、テキスト断片が識別され、これらの識別されたテキスト断片のいずれかが所定のナンバリング方式に従う項を含むか否かの判定が行なわれる。従う項の各々について、その項が、第1(または先行)ページですでに識別されたテキスト断片の項の1つを含むナンバリングシーケンスに、適合するか否かの判定も行なわれ、適合する場合、そのテキスト断片は前記シーケンスに追加される。ナンバリング方式に従うが、先行ページからのテキスト断片の1つからの項を含むナンバリングシーケンスに適合しない項を含むテキスト断片はいずれも、潜在的な新しいナンバリングシーケンスの一部とみなされる。本方法は、文書の全ページに対して1ページ毎に繰り返され、既存のシーケンスに対して項が適宜追加され、項が既存のシーケンスに適合しない場合には、新しいシーケンスが開始される。次いで、最大で文書全体に及ぶ範囲で識別されたシーケンスの最適な部分集合(つまり、最大で文書1ページにつきシーケンスの1項)が計算される。これにより、シーケンスの最適部分集合の項を文書ページのページ番号と解釈することができる。文書のテキスト断片の外観または位置特徴と、最適部分集合の項が由来するテキスト断片の外観または位置特徴を比較することによって、さらにページ番号が検出されることがある。例示的システムは、入力文書のページ番号を検出するための方法を実行するための命令を実行するプロセッサを含む。
例示的システムおよび方法は、文書レベルでページ番号を検出することを可能にし、それにより、ページ番号の検出のために根本的にページ番号のレイアウトまたは外見に関連する特性に依存する必要性を回避することができる。
例示的方法では、文書のページナンバリングに固有の特性が第1段階で利用される。具体的には、ナンバリングは1ページにつき1つ増加する項のシーケンスを形成し、より一般的には、それは1セットの重複しない増加シーケンスによって構成される。第2の任意選択的(オプションとしての)段階で、レイアウトおよびタイポグラフィック(活字体)情報を利用して、本例示的方法の精度および/または回収率をさらに改善することができる。
デジタル文書は、各ページに1セットのテキスト断片が含まれる1セットのページとみなすことができる。テキスト断片は一般的に1語に対応し、あるいは場合によっては1行または1行の一部分に対応する。これは、PDF‐XML変換の出力またはOCRエンジンによく適合するモデルである。デジタル文書は一般的に、文書のオリジナル(元の)ページ番号からなるテキスト断片を含む。しかし、多くの場合、オリジナルページ番号は、文書のページ位置とは異なる可能性がある。例えば、スキャンされ、OCR処理された書物の1章は12ページあるかもしれないが、書物におけるこれらのページのオリジナルページ番号は559〜570であることがある。
一般的に、オリジナル文書は非構造化フォーマットであり、この場合、それはテキスト部分がページ番号を含む可能性があるが、文書の構造がそれらをページ番号等として識別しないことを意味する。非構造化文書を構造化デジタル文書に変換する際には、オリジナルページ番号はテキストの一部になるが、文書構造でページ番号であるとは識別されない。例示的システムおよび方法は、例えばタグ付け、索引付け、および/または削除といった後続の処理のために、オリジナルページ番号を識別しようとするものである。オリジナル文書は、PDF、ポストスクリプト、PCL‐5、PCL‐5E、PCL‐6、PCL‐XLのようなページ記述言語文書、または他の適切な文書とすることができる。例えばPDFでは、ページ番号は1つ以上のテキストオブジェクトの一部分を形成することができる。オリジナル文書が変換される構造化フォーマットは、XML、SGML、XML、HTMLのような、任意の適切なマークアップ言語とすることができる。
ページ番号を識別するページ番号タグは、適切なテキストオブジェクトに埋め込まれるか、または文書の6ページ目の場合には<ページ番号値=“6”/>のように、テキストオブジェクトに関連付けられることができる。
図1は、入力されたデジタル文書の自動処理のための複数の処理モジュールを備えたプロセッサ10を含む組立体1を示す。例えばPDFフォーマットの技術マニュアル、ユーザマニュアル、所有権を持つ他の参考文書等の非構造化文書12は、変換プロセッサ14によって、XMLまたは他の構造化フォーマットのような代替的言語フォーマットに、様々な目的のためにレガシー文書としてそのようなフォーマットで処理することができる場合に、変換される。変換プロセッサ14は入力オリジナル文書を、オリジナル文書から生成されたXMLファイルからのテキスト文字列のリストに変換する。テキストフラグメンタ(テキスト断片生成器)16は、変換された文書をテキスト断片18の順序シーケンスに分割する。紙の文書20を光学スキャナ22を用いてスキャンし、光学文字認識(OCR)プロセッサ24によって処理することにより、デジタル文書を形成することができる。テキスト文書の場合、各行が行単位で順序付けられたテキスト断片になることができる。XMLまたはHML文書の場合、テキスト断片は語レベルに基づいてもよく、各語は一般的に空白によって隣接する語から区別される(語はここでは、文字および/または数字を含む任意の種類の1つ以上の認識される文字を含むことができる)。フラグメンタ16はまた、テキスト内容のページ毎のページ区切りおよび垂直位置が維持されるように、文書のテキスト内容の位置割当てをも実行することができる。プレーンテキスト形式の場合、使用される垂直位置は行番号である。
テキスト断片シーケンス化モジュール26は、1つ以上ナンバリング方式を定義する規則を適用することによって、増加数列を表わすテキスト断片を識別する。特に、シーケンス化モジュール26は、増加数列を形成し、かつ最大で文書全体までに及ぶ範囲の、一連のテキスト断片を探索する。一般的に、そのようなシーケンスは複数識別されうる。選択モジュール28は、定義された選択基準を適用することによって、最適シーケンスまたはシーケンス群を選択する。ページ関連付けモジュール30は、最適シーケンスの項に基づいて文書のページにタグ32を付けるか、或いはシーケンス化モジュール28の出力に基づいて情報の注釈を文書に付ける。代替的または追加的に、ページ関連付けモジュール30は、選択されたシーケンスを含む識別されたテキスト断片の削除のような別の自動プロセスを実行することができる。任意選択的に、検証モジュール34は検証ステップを実行して、以前に識別されたページ番号を確認し、かつ/または以前にページ番号が識別されなかったページに対し追加的にページ番号を識別する。
各々の処理モジュール14、16、26、28、30、および34は、関連するメモリ36に格納することのできる、以下でさらに詳述する例示的方法を実行するための命令を実行することができる。テキスト断片、文書、識別されたシーケンス、ナンバリング方式を定義する規則等も、メモリ36に格納することができる。メモリ36は、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、磁気ディクスまたはテープのような任意の種類のコンピュータ可読媒体で実現されることができる。キーボード、タッチスクリーン、カーソル制御装置、またはそれらの組合せのようなユーザインタフェース38は、ユーザと組立体1との対話を可能にする。
例示的組立体1は、汎用コンピュータまたは専用コンピュータ装置のようなコンピュータ装置に実装することができる。
図2を参照すると、図1の組立体を使用し、コンピュータ上で実行できるコンピュータプログラム製品として実装できる、本発明に係る例示的方法が示されている。
本方法はS100で開始される。S102で、オリジナル文書12が構造化フォーマットに変換される。
S104で、変換された文書は、テキストの行、1行の一部分、または単一の語のようなテキスト断片に断片化される。テキスト断片は、それらが見出されたページによって識別され、ここで各ページは一般的にオリジナル文書のページに対応する。
S106で、テキスト断片が検査され、それらが2ページ以上に及ぶシーケンスを表現しているか否かが判定される。特に、本システムは、アラビア数字、ローマ数字等のような、格納されたナンバリング方式の集合に依存する。新しい方式は単に後述する単純なプログラマチックインタフェースに適合しさえすればよいので、ナンバリング方式の集合は拡張可能である。
ナンバリング方式の任意の所与の集合に対し、シーケンス化ステップS106は、3つまたは4つのサブステップ、すなわちシーケンスの列挙(S108)、最適化(S110)、オプションとして検証(S112)、およびページへの関連付け(S114)を使用することができる。これらのステップは、連続して、または1つ以上のリターンループとして実行することができる。S108で、テキスト断片の連続文書ページにわたって発生するシーケンスであって、(a)全て同一のナンバリング方式(例えば全てローマ数字)に属するシーケンス、および(b)増分シーケンスを形成するシーケンスが識別される。このステップは、そのようなシーケンスである可能性のある、2つ以上のテキスト断片からなるシーケンスの全てを識別することを含みうる。
S110で、識別されたシーケンスにスコア付け関数を適用することによって、重複しないシーケンスの最適部分集合が、最大で文書全体に及ぶ範囲で選択される。
S112で、各ページは、文書のそのページ部分に対して選択された、シーケンス内の対応する項と関連付けられる。S112はさらに、欠落した番号についてシーケンスを外挿することを含むことができる。S112段階が終わった後にも、依然として関連付けられる項が無いページがありうる。
S114で、最適シーケンスの検証および/または欠落したページ番号の識別のために、文書に対してさらなる処理を任意選択的に行なうことができる。1実施形態では、このステップは、S110で識別された最適シーケンスに1つ以上のページ番号が欠落している(穴がある)場合にのみ実行される。別の実施形態では、S114は、穴が識別されるか否かに関係なく実行することができる。S114に続いて、ステップS110およびS112を繰り返して、新しい最適シーケンスを確立することができる。任意選択的に、S114が実行される場合、S114はS112に先行してもよい。
S116においてコンピュータで実行されるステップは、S112および/またはS114の出力に基づいて開始することができる。このさらなる処理ステップは、次のうちの1つ以上を含むことができる。
a)文書またはそのページに、割り当てられた項に由来する情報を含む、例えばXMLタグの注釈を付ける(S118)。
b)デジタル文書からオリジナルページ番号に対応する識別された項のシーケンスの一部または全部を削除する(S120)。
c)デジタル文書からオリジナルページ番号に対応する識別された項のシーケンスに従って文書に索引を付ける(S122)。
d)特に、オリジナルページ番号が欠落しているか、あるいは欠落しているように見えるページについて、デジタル文書の一部または全ての語を表示する(S124)。
本方法はS126で終了する。
ナンバリング方式は一般的に、定義された形式および定義された増分性(incrementality)を有するものと定義することができる。「形式」とは、ナンバリング方式が認めるページ番号の統語論的形式を定義していることを意味する。例えばアラビア数字方式の統語論的形式は、一連の数字から構成される。「増分性」とは、ナンバリング方式のインスタンス(実体)が、一連のページにわたってページ番号の増加を実施する状態を維持することを意味する。ナンバリング方式はシーケンスに穴を容認することも、容認しないこともあり、各穴はページ番号が見つからない構造化文書のページに対応する。
穴が容認される場合、欠落した値のための外挿を実行することができる。外挿は一般的に、シーケンスの形式が許容可能な信頼度でシーケンスの外挿を可能にする場合、穴のあるページに、シーケンスにおける先行ページの値の次の値を割り当てることを含む。
1実施形態では、ナンバリング方式の集合は以下のナンバリング方式の一部または全部を含み、それらは各々、順序シーケンスを定義する文字および/または数字のような構文解析可能な文字の集合に基づく。
1.アラビア数字: 統語論的形式は一連の数字であり、このナンバリング方式の制約条件は、連続するページに対応するシーケンスの連続する項の間に+1が観察されることである。欠落した番号は許容でき、+1の制約条件に基づいて考慮される。欠落番号の外挿も可能である。
2.ローマ数字: 統語論的形式は大文字および小文字の両方による一連のローマ数字、すなわちi、ii、iii、iv等であり、このナンバリング方式の制約条件は、対応するアラビア数字の場合と同じである。
3.単一文字: 統語論的形式は、一般的に同一ケース(即ち大文字または小文字)のa、b、c、dのような一連の文字であり、このナンバリング方式の制約条件は、連続するページに対応するシーケンスの連続項の間に、通常のアルファベット文字列における+1が観察されることである。欠落文字は許容でき、+1の制約条件に基づいて考慮される。欠落番号の外挿も可能である。
4.複合ナンバリング: このナンバリング方式は、ナンバリング方式「1.3.1、1.3.2、1.3.3・・・」、または「toc‐1、toc‐2、toc‐3」、または「A‐5、A‐6、A‐7」のようなアラビア数字/ローマ数字/文字番号の組合せによる任意の構成を対象とする。このようなナンバリング方式は、任意の文字列定数、区切り記号、および1つ以上のアラビア数字/ローマ数字/文字値から形成された値を許容することができる。実際には、可能な区切り記号は[\ |\t|\.|,|;|:|/|%|&|\*|\−|_|\+\]+のような正規表現によって定義される。テキスト断片はこれに従ってトークン化され、トークンはアラビア数字/ローマ数字/文字ファミリに対して照合される。合致しないトークンは、シーケンスの文字列定数とみなされる。これに対し、そのようなシーケンスの最初に観察されるページ番号は、区切り記号、数字ファミリ、および文字列定数(すなわち区切り記号でもアラビア数字/ローマ数字/文字ファミリでもないもの)から成るシーケンスプロトタイプを定義する。それは、シーケンスの全ての残りの項の統語論的形式を定義する。欠落番号は容認することができる。
複合ナンバリング方式における欠落番号のための外挿は、より単純なナンバリング方式の場合より難しくなりうる。
5.一般的アスキーファミリ: 該ナンバリング方式は英数字で始まるどんな文字列でも許容し、ここで全ての文字列は、最初に列に受け入れられた(許容された)テキスト断片と同じ長さを有する。増加制約条件は、1つの文字が(アスキー/ユニコード数字コードに関して)+1に従うことを除き、2つの連続項が厳密に等しいことを確認することから構成される。一般的に、例えばAZからBAへの推移は制約条件に従わず、BA、BB、BC等に対して新しいシーケンスが開始される。欠落番号はこのナンバリング方式で容認される。外挿は一般的に不可能である。
一般的アスキーはかなり包括的であり、ほとんどの事例を網羅する。テキスト断片は、ノイズの影響を最小化するために、上に提示したナンバリング方式の順番でこれらのファミリに照らして検査されることができる。
本方法のS108には次の方法を含みうる。
1.テキスト断片が方式の形式に従うか否かを検査するクラスメソッド「fit」。
2.ページの処理前および処理後に呼び出され、そのファミリのシーケンスオブジェクトの増分状態およびシーケンスに存在する可能性のある穴を処理する、2つのインスタンスメソッド「startPage(ページ始め)」および「endPage(ページ終わり)」。
3.テキスト断片がシーケンスの内部状態の観点からそのシーケンスによって受け入れられるか否かを検査するインスタンスメソッド「accept(受入れ)」。
4.物理的ページに対し実際のページ番号または外挿ページ番号を割り当てるインスタンスメソッド「extrapolate(外挿)」。
5.新しいファミリは、NumberingScheme(ナンバリング方式)クラスの特殊化(specialization)である。この設計は、必要に応じて新しいファミリを追加することが容易に可能である。
列挙ステップ(S108)では、定義されたナンバリング方式の1つ以上に従う可能性のある全ての項のシーケンスの探索が行なわれる。例えば、連続的なページの集合にわたって、文書のテキスト断片により作ることのできる全てのシーケンスを列挙するために、全てのページを順々に、かつ1ページ毎に全てのテキスト断片を検討して、徹底的な(greedy)列挙が実行される。
シーケンスの評価を支援するために、シーケンスのカバレージ(範囲)および長さを次のように定義することができる。すなわち、シーケンスの「カバレージ」はシーケンスの断片(項)が観察された最初のページから最後のページまでのページの集合である。シーケンスの「長さ」はその中に観察される項の個数である。その構造から、シーケンスの長さと穴の個数の和は、そのカバレージの基数に等しい。例えば、4つの項および2つの穴を含むシーケンスは、長さ4、およびカバレージ基数6を有する。一般的に、シーケンスは項で始まり、項で終わる。
選択ステップ(S110)は、S108で識別されたシーケンスから、その最適な部分集合を選択することを含む。選択の規則は一般的に短いシーケンスより長いシーケンスの選択を優先し、シーケンスの重複(2つ以上の選択されたシーケンスからの項を含むページ)を回避または防止する。実施形態によっては、長さおよび/またはカバレージに関して閾値に満たないシーケンスは、考慮から排除することができる。
シーケンスの最適集合の選択を支配する規則は、項および/またはシーケンスが所定の選択基準にどの程度従うかを反映するスコアを、各項および/またはシーケンスに割り当てることを含むことができる。
例として、図3は8ページの文書に対するアルゴリズムの適用をシミュレートするものであり、そこには4つの可能性としてのシーケンスが識別されている(シーケンス1、シーケンス2、シーケンス3、およびシーケンス4)。シーケンスは、文書のページ数に対応するx軸およびシーケンスに対応するy軸の行列に配置される。シーケンスはその開始点のみで取ることができるというという要件を前提として、図3の矢印は、全ての可能な推移を示す。シーケンスの各項または穴はノード38によって表わされる。行列を開始するために、例えばスコアリング関数を用いて、各ノード38にスコアが割り当てられる。文書の始めから終わりまでの経路のスコアは、訪問されたノードのスコアの和である。長いシーケンスを優先するために、項を表わすノードのスコアは、その関連するシーケンスの長さと共に増加する。穴のスコアは、項のスコアより低く、例えば零とすることができる。一般的に、所定の経路で通過されたシーケンスの全ての項ノードは、同じスコアを有する。シーケンスが部分的に通過されるだけである場合、スコアリング関数は短いシーケンスについて計上するために再計算される。
次の形のスコアリング関数を使用することができる。
スコア(ノード)=1−f/長さ(シーケンス)
ここでfは定数であり、ここでは長さファクタと呼ばれる。
シーケンス(スコアされるノードがその一部を形成する)の長さは、シーケンスの一部分だけが経路の一部を形成する場合、その一部分だけが長さの判定に使用されることを除き、上に定義した通りである。長さファクタfは、任意の適切な値であってよい。例えばfが2である場合、2つの項を有するシーケンスでは、各ノードのスコアは零である。fは少なくとも1、例えば1.5から5までとすることができる。
最適スコアを計算するために、経路をその終端(最後の)ノードから経路の最初のノードに逆向きに移動することができる。一般的に各ノードで、最高スコアを出す経路がたどられる。各ノードを通過するたびに、そのスコアが経路の総スコアに加算される。
各ページにページ番号を関連付けることを含むS112は単に、最善(最高スコア)の経路を選択することによって達成される。このように、この経路におけるこれらのシーケンスの項は、文書のオリジナルページ番号として使用することができる。シーケンスの穴は自動的に埋めることができる。
任意選択的な検証ステップS114では、文書からの追加情報を使用して、選択されたシーケンスが検証され、および/またはさらなる項が識別される。例えば本方法は、検出されたページ番号のタイポグラフィおよび/または位置に関して、それらの間の規則性を見出すことを含むことができる。許容可能な信頼度でページ番号を他のテキストから区別することを可能にする規則性がひとたび定められると、それを使用して、ページ番号が割り当てられていなかったページのページ番号を表わす文字を識別することができる。
ステップS114に続いて、本方法はS110に戻ることができ、そこでS114によって変更された列挙シーケンスにビタビアルゴリズムを適用することによって、該アルゴリズムが再実行される。ビタビアルゴリズムのこの2回目またはその後の再実行は全て、S110の以前の実行で使用されたものより小さい長さファクタfを用いて実行される。
1実施形態では、監督の下で機械学習法を利用して、検証段階(S114)を改善することができる。主要な「機能(関数)的」手法で検出された番号は、タイポグラフィおよび位置に基づく特徴セットを持つ訓練セットとして使用することができる。第1および第2段階は従ってテキスト断片の異なる特性に依存する。
例えば、そのような機械学習法を使用する方法を図4に示す。本例示的方法は最初にS110までは図2の方法と同様に、ビタビステップ(S110)で第1長さ制約値f=f1を使用して、文書に対して実行される。S114は、以下のサブステップを含むことができる。サブステップS114Aでは、S110でページ番号を含むと認識されたテキスト断片の少なくとも1つのグループまたは全部が選択される。
S114Bでは、機械学習法(例えばロジスティック回帰)が以下の入力データを用いて適用される。
a.選択されすでに認識されたページ番号の項に対応する肯定的な例。
b.ページのテキスト断片の残部の中から無作為に引き出された否定的な例。
c.使用される特徴(機械学習法のためにテキスト断片をいかに特徴付けるか)は、次の中から、すなわちページ内のテキスト断片の位置、フォント名、フォントサイズ、フォント色、他のレイアウト情報、およびそれらの組合せから選択することができる。
選択される否定的な例の数は肯定的な例の数に比例させることができ、例えばそれらが文書に現われるのと略同一比率とすることができる。否定的な例は、ページ番号がシーケンスの一部と認識されたページのみから引き出すことができる。
機械学習法はこれらのデータで訓練され、モデルが生成される。次いでモデルは、例えば潜在的なページ番号を識別するために、テキスト断片データ全体に、または以前にページ番号と識別されなかったテキスト断片のみに、適用される。
S114Cでは、S108と類似のステップを実行して、114Bで「潜在的ページ番号」と識別されたテキストが、S110で以前に識別されたシーケンスの部分集合を持つシーケンスを形成するかどうかを調べる。
S114Dでは、S110について記載された方法が、以下の変化を加えて繰り返される。第一に、第2長さファクタf=f2が使用される。ここで値f2はf1より低くすることができる。例えばf2は1より低くすることができ、それにより長さ1のシーケンスの検出が可能になる。第二に該アルゴリズムは、例えば、S110で(高いf値を用いて)すでに識別されたテキスト断片のシーケンスの部分集合のみ、およびS114Bで「潜在的ページ番号」と識別された追加のテキスト断片を使用して、S110より少ないシーケンスを調べることができる。これらの潜在的ページ番号は、S114Cでシーケンスに追加されるか、あるいは1つ以上の項を有する新しいシーケンスとみなすことができる。第三に、シーケンスはS114Dの場合、わずか1つだけのテキスト断片の項を持つものであってよい。ページ番号の見込みがあるこれらのテキスト断片だけがS114Dで考慮されるので、長さ制約(パラメータf2)は緩和することができ、長さ1のシーケンスが認識される。
S114Dの後にS112が続き、S114で識別された項を文書のそれらのそれぞれのページに関連付けることができる。次いで該方法は、図2の方法と同様に、S116に進むことができる。
別の実施形態では、シーケンスのためのスコアリング関数は、シーケンスの項の類似性を考慮に入れる1つ以上のファクタを含むことができる。
スコア(ノード)=1−f/長さ(シーケンス)*ft*fs*tp
ここでftはフォントタイプファクタ、fsはフォントサイズファクタ、tpは項位置ファクタ、等であり、シーケンスの項の1つ以上が異なるフォントタイプを有する場合、そのノードには他のノードより低いft値を与えることができる。
1実施形態では、シーケンスを列挙する(S108)ときに、所与の点以後でまばらになりすぎるシーケンスは非アクティブにされる(即ち使用されない)。例えば所定の最低シーケンス密度(シーケンスのページカバレージに対する項の観察数の比率)が適用される。ひとたび密度がこの値未満に低下すると、文書の各後続ページが検査されるときにシーケンスに項はもはや追加されず、識別された最後の項に対応する固定されたカバレージのままとなる。
例えば図5は、まばらに番号が付けられた7ページのシーケンスを示す。各ページの下のイタリック体の数字は、対応するアラビア数字のシーケンスの各ページまでの密度を示す。最低シーケンス密度に応じて、このアラビア数字のシーケンスは、文書で遅かれ速かれ使用されなくなる。例えば最低シーケンス密度が0.4である(つまり、5つのノードでわずか2つの穴しか許されない)と仮定すると、このシーケンスでは5ページ目で最低値に達し、それ以上のノードはシーケンスに追加されず、シーケンスはシーケンスの穴とみなされる5ページで非アクティブにされる(したがってシーケンスは4ページで終了する)。こうして、シーケンスが非アクティブ化された後で発生するページに、シーケンスに従う項が存在したとしても、その項はシーケンスに現われない。
別の変形例では、所与のページに現われる全てのテキスト断片を考慮するのではなく、全て合わせてもページの全面積より小さい面積の、所定の1以上の領域内のテキスト断片だけが考慮される。例えば、ページの縁に近い余白内にあるテキスト断片がシーケンスの潜在的なページ番号とみなされる。別の実施形態では、先行する項が見出された領域だけが考慮される(それは左右の見開きページに対し、項の可能なシフトを考慮に入れることができる)。
本発明に係る、オリジナル文書のページ番号検出のための装置の機能ブロック図である。 オリジナル文書のページ番号検出のための方法のフローチャートである。 シーケンスを含む4つの状態を示す、8ページの文書に対してアルゴリズムを適用した場合を示す図である。 本発明に係る、オリジナル文書のページ番号検出の別の方法のフローチャートである。 オリジナル文書のページおよび、まばらになりすぎるとシーケンスが停止するように構成された方法で前記ページにおいて識別されたシーケンスの項を概略的に示す図である。 ページ番号シーケンスの項のソースとみなされるページの領域を示す図である。
符号の説明
12 非構造化デジタル文書
14 変換プロセッサ
16 テキストフラグメンタ
18 ページおよびテキストブロック
20 物理的文書
22 スキャナ
24 OCR
26 テキスト断片シーケンス化モジュール
28 選択モジュール
30 ページ関連付けモジュール
32 デジタル文書
34 検証モジュール
36 メモリ

Claims (3)

  1. 文書の複数のページに関連付けられる複数のテキスト断片を識別し、
    前記識別されたテキスト断片から、前記複数のテキスト断片から選択された1つのテキスト断片に各々由来する複数の項を各々含む、少なくとも1つのシーケンスを識別し、前記複数の項が、シーケンスにおける項の形式および増分状態を定義する少なくとも1つの所定のナンバリング方式に従っており、
    文書のページの少なくとも一部にわたる、識別されたシーケンスの部分集合を計算し、
    前記識別されたシーケンスの前記部分集合の項の少なくとも幾つかを文書のページのページ番号と解釈する、
    ことを含む、文書のページ番号検出のための方法。
  2. 前記少なくとも1つのシーケンスの識別が、シーケンス内の文書の複数のページの各ページについて順番に、
    前記所定のナンバリング方式の形式に従う項を含むテキスト断片を識別し、
    前記識別されたテキスト断片の各々に対し、前記識別されたテキスト断片の項が、文書の前ページのテキスト断片に由来する少なくとも1つの項を含む既存のシーケンスで受け入れられる増分状態に従うか否かを判定し、従う場合、前記項をそのシーケンスに追加し、
    既存のシーケンスで受け入れられる増分状態に従わない項の各々を、新しいシーケンスが開始したことの可能性とみなす、
    ことを含む、請求項1に記載の方法。
  3. 命令を格納するメモリと、
    前記命令を実行するプロセッサと、
    を含み、前記命令はシステムを、
    (a)文書の複数のページに関連付けられる複数のテキスト断片を識別し、
    (b)前記識別されたテキスト断片から、前記複数のテキスト断片から選択された1テキスト断片に由来する複数の項を各々含む、少なくとも1つのシーケンスを識別し、前記複数の項は、シーケンスにおける項の形式および増分状態を定義する少なくとも1つの所定のナンバリング方式に従っており、
    (c)前記識別されたシーケンスの部分集合を計算し、
    (d)前記シーケンスの部分集合の項を文書のページのページ番号と解釈するように機能させる、
    ページ番号の検出のためのシステム。
JP2007295374A 2006-11-15 2007-11-14 文書のページ番号を検出する方法及びシステム Expired - Fee Related JP4717049B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/599,947 US7797622B2 (en) 2006-11-15 2006-11-15 Versatile page number detector
US11/599947 2006-11-15

Publications (3)

Publication Number Publication Date
JP2008123528A true JP2008123528A (ja) 2008-05-29
JP2008123528A5 JP2008123528A5 (ja) 2011-01-06
JP4717049B2 JP4717049B2 (ja) 2011-07-06

Family

ID=39370416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007295374A Expired - Fee Related JP4717049B2 (ja) 2006-11-15 2007-11-14 文書のページ番号を検出する方法及びシステム

Country Status (2)

Country Link
US (1) US7797622B2 (ja)
JP (1) JP4717049B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086151A (ja) * 2008-09-30 2010-04-15 Brother Ind Ltd データ生成装置、スキャナ、及びコンピュータプログラム
JP2013210827A (ja) * 2012-03-30 2013-10-10 Kyocera Document Solutions Inc 電子化装置
JP2015141495A (ja) * 2014-01-28 2015-08-03 富士フイルム株式会社 データ処理装置、方法及びプログラム
WO2015167555A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Digital document including reference page numbers and fractional page numbers
JP2021057710A (ja) * 2019-09-27 2021-04-08 キヤノン株式会社 画像読取装置、学習装置、方法及びプログラム

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110868B2 (en) 2005-01-10 2015-08-18 Xerox Corporation System and method for logical structuring of documents based on trailing and leading pages
US8645821B2 (en) 2010-09-28 2014-02-04 Xerox Corporation System and method for page frame detection
US8117527B2 (en) * 2007-05-08 2012-02-14 Eastman Kodak Company Automated folio references
US8250469B2 (en) * 2007-12-03 2012-08-21 Microsoft Corporation Document layout extraction
US20090144277A1 (en) * 2007-12-03 2009-06-04 Microsoft Corporation Electronic table of contents entry classification and labeling scheme
US8392816B2 (en) * 2007-12-03 2013-03-05 Microsoft Corporation Page classifier engine
US8214736B2 (en) 2008-08-15 2012-07-03 Screenplay Systems, Inc. Method and system of identifying textual passages that affect document length
US9253536B2 (en) * 2009-03-18 2016-02-02 Microsoft Technology Licensing, Llc Updating data-consuming entities
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
WO2011085562A1 (en) * 2010-01-18 2011-07-21 Hewlett-Packard Development Company, L.P. System and method for automatically extracting metadata from unstructured electronic documents
US8719702B2 (en) * 2010-03-09 2014-05-06 Xerox Corporation Document organizing based on page numbers
US8938668B2 (en) 2011-08-30 2015-01-20 Oracle International Corporation Validation based on decentralized schemas
US8606789B2 (en) 2010-07-02 2013-12-10 Xerox Corporation Method for layout based document zone querying
US8340425B2 (en) 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
US8798366B1 (en) * 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
JP2012181776A (ja) * 2011-03-02 2012-09-20 Ricoh Co Ltd 印刷管理プログラム、印刷管理装置、印刷管理方法及び印刷システム
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US8560937B2 (en) 2011-06-07 2013-10-15 Xerox Corporation Generate-and-test method for column segmentation
US8478046B2 (en) 2011-11-03 2013-07-02 Xerox Corporation Signature mark detection
US20130191366A1 (en) * 2012-01-23 2013-07-25 Microsoft Corporation Pattern Matching Engine
US9516089B1 (en) * 2012-09-06 2016-12-06 Locu, Inc. Identifying and processing a number of features identified in a document to determine a type of the document
US9483740B1 (en) 2012-09-06 2016-11-01 Go Daddy Operating Company, LLC Automated data classification
US10489493B2 (en) 2012-09-13 2019-11-26 Oracle International Corporation Metadata reuse for validation against decentralized schemas
US9008425B2 (en) 2013-01-29 2015-04-14 Xerox Corporation Detection of numbered captions
US20140230075A1 (en) 2013-02-08 2014-08-14 Xerox Corporation Physical and electronic book reconciliation
US9740995B2 (en) * 2013-10-28 2017-08-22 Morningstar, Inc. Coordinate-based document processing and data entry system and method
EP3018614A1 (en) * 2014-11-05 2016-05-11 Funai Electric Co., Ltd. Image reading device and image reading method
US10217257B1 (en) * 2015-03-17 2019-02-26 Amazon Technologies, Inc. Process for contextualizing continuous images
US9530070B2 (en) 2015-04-29 2016-12-27 Procore Technologies, Inc. Text parsing in complex graphical images
JP6583164B2 (ja) * 2016-06-30 2019-10-02 京セラドキュメントソリューションズ株式会社 画像形成装置
US10402486B2 (en) * 2017-02-15 2019-09-03 LAWPRCT, Inc. Document conversion, annotation, and data capturing system
JP6841322B2 (ja) * 2017-04-06 2021-03-10 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
US11943415B2 (en) 2017-08-18 2024-03-26 Hewlett-Packard Development Company, L.P. Repurposing a document
US10635743B2 (en) * 2018-03-12 2020-04-28 Microsoft Technology Licensing, Llc Automatic extraction of document page numbers from PDF
US11328025B1 (en) * 2019-04-26 2022-05-10 Bank Of America Corporation Validating mappings between documents using machine learning
US10956731B1 (en) 2019-10-09 2021-03-23 Adobe Inc. Heading identification and classification for a digital document
US11256913B2 (en) * 2019-10-10 2022-02-22 Adobe Inc. Asides detection in documents
US10949604B1 (en) * 2019-10-25 2021-03-16 Adobe Inc. Identifying artifacts in digital documents
JP7338432B2 (ja) * 2019-11-27 2023-09-05 京セラドキュメントソリューションズ株式会社 画像形成装置
US20210350080A1 (en) * 2020-01-24 2021-11-11 Thomson Reuters Enterprise Centre Gmbh Systems and methods for deviation detection, information extraction and obligation deviation detection
US11495039B2 (en) * 2020-10-19 2022-11-08 Accenture Global Solutions Limited Processing digitized handwriting
US20230419713A1 (en) * 2022-06-27 2023-12-28 Kyocera Document Solutions Inc. Information processing apparatus, image forming apparatus, and information processing method for automatically ordering page

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007013799A (ja) * 2005-07-01 2007-01-18 Konica Minolta Business Technologies Inc 書類画像データ入力システム、書類画像データ入力方法、およびコンピュータプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699453A (en) * 1994-09-30 1997-12-16 Xerox Corporation Method and apparatus for logically tagging of document elements in the column by major white region pattern matching
US5940583A (en) 1994-11-15 1999-08-17 Canon Kabushiki Kaisha Image forming apparatus
KR100382709B1 (ko) * 1998-08-07 2003-05-09 가부시키가이샤 세가 정보 처리 시스템 및 주변 장치
US6256610B1 (en) * 1998-12-30 2001-07-03 Lernout & Hauspie Speech Products N.V. Header/footer avoidance for reading system
US6466336B1 (en) * 1999-08-30 2002-10-15 Compaq Computer Corporation Method and apparatus for organizing scanned images
US6735335B1 (en) * 2000-05-30 2004-05-11 Microsoft Corporation Method and apparatus for discriminating between documents in batch scanned document files
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
JP2004070523A (ja) * 2002-08-02 2004-03-04 Canon Inc 情報処理装置およびその方法
US7165216B2 (en) 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
EP1603072A1 (de) 2004-06-02 2005-12-07 CCS Content Conversion Specialists GmbH Verfahren und Einrichtung zur Strukturanalyse eines Dokuments
US7440967B2 (en) 2004-11-10 2008-10-21 Xerox Corporation System and method for transforming legacy documents into XML documents
US7937653B2 (en) 2005-01-10 2011-05-03 Xerox Corporation Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
US7693848B2 (en) 2005-01-10 2010-04-06 Xerox Corporation Method and apparatus for structuring documents based on layout, content and collection
US8706475B2 (en) 2005-01-10 2014-04-22 Xerox Corporation Method and apparatus for detecting a table of contents and reference determination

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007013799A (ja) * 2005-07-01 2007-01-18 Konica Minolta Business Technologies Inc 書類画像データ入力システム、書類画像データ入力方法、およびコンピュータプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086151A (ja) * 2008-09-30 2010-04-15 Brother Ind Ltd データ生成装置、スキャナ、及びコンピュータプログラム
US8456688B2 (en) 2008-09-30 2013-06-04 Brother Kogyo Kabushiki Kaisha Data generating device, scanner and non-transitory computer readable medium
JP2013210827A (ja) * 2012-03-30 2013-10-10 Kyocera Document Solutions Inc 電子化装置
JP2015141495A (ja) * 2014-01-28 2015-08-03 富士フイルム株式会社 データ処理装置、方法及びプログラム
US9367525B2 (en) 2014-01-28 2016-06-14 Fujifilm Corporation Data processing apparatus for page ordering, data processing method, and nontransitory storage medium for same
WO2015167555A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Digital document including reference page numbers and fractional page numbers
US10102185B2 (en) 2014-04-30 2018-10-16 Hewlett-Packard Development Company, L.P. Digital document including reference page numbers and fractional page numbers
JP2021057710A (ja) * 2019-09-27 2021-04-08 キヤノン株式会社 画像読取装置、学習装置、方法及びプログラム
JP7402647B2 (ja) 2019-09-27 2023-12-21 キヤノン株式会社 画像読取装置、判定方法及びプログラム

Also Published As

Publication number Publication date
US20080114757A1 (en) 2008-05-15
JP4717049B2 (ja) 2011-07-06
US7797622B2 (en) 2010-09-14

Similar Documents

Publication Publication Date Title
JP4717049B2 (ja) 文書のページ番号を検出する方法及びシステム
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
US9135249B2 (en) Number sequences detection systems and methods
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
US7756871B2 (en) Article extraction
JP4974529B2 (ja) ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置
US7747943B2 (en) Robust anchoring of annotations to content
US8302002B2 (en) Structuring document based on table of contents
US7236923B1 (en) Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
JP5037965B2 (ja) 目次判別目的類似度リンク計算の高速化
US20080065671A1 (en) Methods and apparatuses for detecting and labeling organizational tables in a document
JP5826299B2 (ja) 文書内のリストの再構築
EP2180411B1 (en) Methods and apparatuses for intra-document reference identification and resolution
EP1745396A1 (en) Document information mining tool
US8527516B1 (en) Identifying similar digital text volumes
JP5056337B2 (ja) 情報検索システム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Lin Header and footer extraction by page association
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JP2005107793A (ja) キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
JP7561378B2 (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
JP2006146705A (ja) 構造化文書曖昧照合装置及びそのプログラム
JP2829264B2 (ja) 文書レイアウト方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101115

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20110128

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees