JP5412916B2 - 文書画像処理装置、文書画像処理方法および文書画像処理プログラム - Google Patents

文書画像処理装置、文書画像処理方法および文書画像処理プログラム Download PDF

Info

Publication number
JP5412916B2
JP5412916B2 JP2009080167A JP2009080167A JP5412916B2 JP 5412916 B2 JP5412916 B2 JP 5412916B2 JP 2009080167 A JP2009080167 A JP 2009080167A JP 2009080167 A JP2009080167 A JP 2009080167A JP 5412916 B2 JP5412916 B2 JP 5412916B2
Authority
JP
Japan
Prior art keywords
candidate
heading
headline
feature
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009080167A
Other languages
English (en)
Other versions
JP2010231637A (ja
Inventor
由夫 小巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2009080167A priority Critical patent/JP5412916B2/ja
Priority to US12/727,311 priority patent/US8611666B2/en
Publication of JP2010231637A publication Critical patent/JP2010231637A/ja
Application granted granted Critical
Publication of JP5412916B2 publication Critical patent/JP5412916B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関し、特に、文書画像から見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関する。
従来、特定のフォーマットに限定されずに見出し部分の抽出を行なうものがあった。例えば特許文献1では文字サイズにより文字ブロックを見出しと本文に分類し、分類した見出しと本文を関連づける実施例が開示されている。
特開2000−251067号公報
しかしながら、文字サイズが本文と見出しで明確な違いが無い文書も多数存在し、これらの文書に対して文字サイズで見出しと本文の分類をすることはできない。文字サイズの代わりに文字色,背景色,字下げなどの他の種別を用いる場合にも、それぞれの文書は限定される。
また、属性に統一性のない見出しが連続して配置された文書も多く存在する。従来技術では、このような文書に対して、ユーザの手間無く適切に見出し領域を抽出することはできない。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、見出しが連続して配置された文書画像から、ユーザの手間無く自動的に見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムを提供することである。
この発明のある局面に従う文書画像処理装置は、文書画像から、見出し領域を抽出するための文書画像処理装置であって、文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するための分類手段と、読み順が大領域の直前に位置する小領域を第1の候補として判定するための第1の候補判定手段と、第1の候補ごとに、当該第1の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各第1の候補が見出しであるか否かの評価処理を行なうことにより、第1の候補の少なくとも一部を第1の見出しと判定するための第1の評価処理手段と、読み順が第1の見出しの直前に位置する小領域を第2の候補として判定するための第2の候補判定手段と、第2の候補ごとに、当該第2の候補である小領域の直後に位置する第1の見出しの特徴との差異に基づいて各第2の候補が見出しであるか否かの評価処理を行なうことにより、第2の候補の少なくとも一部を第2の見出しと判定するための第2の評価処理手段と、第1の見出しおよび第2の見出しと判定された小領域を、見出し領域として抽出するための抽出手段とを備える。
好ましくは、第1の評価処理手段は、第1の候補ごとに、複数のスタイル種別のうち、第1の候補である小領域の直後に位置する大領域と特徴が異なるスタイル種別について、第1の候補の特徴を含み、かつ、第1の候補である小領域の直後に位置する大領域の特徴を含まない第1の特徴区分を設定するための第1の設定手段と、設定された第1の特徴区分に含まれる特徴を有する、第1の候補である小領域の直後に位置する大領域および第1の候補の少なくとも一方をグループ化するための第1のグループ化手段と、第1の候補ごとに、第1のグループ化手段によりグループ化された各領域群の大きさに基づいて、第1の見出し評価度を算出するための第1の算出手段と、算出された第1の見出し評価度に基づいて、各第1の候補の論理要素が見出しであるか否かを判定するため第1の見出し判定手段とを含み、第2の評価処理手段は、第2の候補ごとに、複数のスタイル種別のうち、第2の候補である小領域の直後に位置する第1の見出しと特徴が異なるスタイル種別について、第2の候補の特徴を含み、かつ、第2の候補である小領域の直後に位置する第1の見出しの特徴を含まない第2の特徴区分を設定するため第2の設定手段と、設定された第2の特徴区分に含まれる特徴を有する、第2の候補である小領域の直後に位置する第1の見出しおよび第2の候補の少なくとも一方をグループ化するための第2のグループ化手段と、第2の候補ごとに、第2のグループ化手段によりグループ化された各領域群の大きさに基づいて、第2の見出し評価度を算出するための第2の算出手段と、算出された第2の見出し評価度に基づいて、各第2の候補の論理要素が見出しであるか否かを判定するため第2の見出し判定手段とを含む。
好ましくは、第2のグループ化手段は、第2の候補ごとに、第2の特徴区分に含まれる特徴を有する、第2の候補である小領域の直後に位置する第1の見出しおよび第2の候補の両方をグループ化し、第2の算出手段は、第1の見出し群および第2の候補群の大きさから、第2の見出し評価度を算出する。
好ましくは、第2のグループ化手段は、さらに、第2の候補ごとに、第2の特徴区分に含まれない特徴を有する、第2の候補である小領域の直後に位置する第1の見出しおよび第2の候補の少なくとも一方をグループ化し、第2の算出手段は、さらに、第2の特徴区分に含まれない各領域群の大きさを、第2の見出し評価度の算出に用いる。
好ましくは、第2の設定手段は、さらに、第2の候補ごとの第2の見出し評価度の値に差異がなければ、第2の特徴区分を変更する。
好ましくは、複数のスタイル種別は、インデント量、行揃え、前後の文字列要素領域との距離、文字列修飾、先頭文字種、終端文字種、言語種別、文字サイズ、行高さ、文字間隔、フォント、文字修飾、文字色、背景色のうちのいずれかを含む。
好ましくは、第2の候補の特徴は、スタイル種別の特徴量であり、第2のグループ化手段は、第2の候補の特徴値の前後所定範囲を第2の特徴区分として設定する。
好ましくは、第2の候補の特徴は、スタイル種別の特徴量であり、第2のグループ化手段は、第2の候補の特徴値と第2の候補である小領域の直後に位置する第1の見出しの特徴値との間を区切り点とし、区切り点よりも第2の候補の特徴値側の特徴を含むように第2の特徴区分を設定する。
好ましくは、第2の見出しと判定された小領域および他の小領域の特徴を比較し、他の小領域のうち判定された小領域と類似した特徴を有する小領域を、新たな第2の見出しとして判定するための手段をさらに備える。
好ましくは、第2の見出しが抽出された場合に、第2の見出しを第1の見出しに置き換えて、第2の候補判定手段および第2の評価処理手段の処理を繰り返すための手段をさらに備える。
好ましくは、第2の評価処理手段は、第2の候補ごとに、第2の候補である小領域の直後に位置する第1の見出しについての第1の候補である小領域の直後に位置する大領域の特徴と比較し、対応の第1の候補である小領域の直後に位置する大領域の特徴と類似する第2の候補を、見出しの候補から除外するための手段をさらに含む。
この発明の他の局面に従う文書画像処理方法は、文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、記憶部に記憶された文書画像から見出し領域を抽出するための方法であって、文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、読み順が大領域の直前に位置する小領域を第1の候補として判定するステップと、第1の候補ごとに、当該第1の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各第1の候補が見出しであるか否かの評価処理を行なうことにより、第1の候補の少なくとも一部を第1の見出しと判定するステップと、読み順が第1の見出しの直前に位置する小領域を第2の候補として判定するステップと、第2の候補ごとに、当該第2の候補である小領域の直後に位置する第1の見出しの特徴との差異に基づいて各第2の候補が見出しであるか否かの評価処理を行なうことにより、第2の候補の少なくとも一部を第2の見出しと判定するステップと、第1の見出しおよび第2の見出しと判定された小領域を、見出し領域として抽出するステップとを備える。
この発明のさらに他の局面に従う文書画像処理プログラムは、文書画像から見出し領域を抽出するためのプログラムであって、文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、読み順が大領域の直前に位置する小領域を第1の候補として判定するステップと、第1の候補ごとに、当該第1の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各第1の候補が見出しであるか否かの評価処理を行なうことにより、第1の候補の少なくとも一部を第1の見出しと判定するステップと、読み順が第1の見出しの直前に位置する小領域を第2の候補として判定するステップと、第2の候補ごとに、当該第2の候補である小領域の直後に位置する第1の見出しの特徴との差異に基づいて各第2の候補が見出しであるか否かの評価処理を行なうことにより、第2の候補の少なくとも一部を第2の見出しと判定するステップと、第1の見出しおよび第2の見出しと判定された小領域を、見出し領域として抽出するステップとをコンピュータに実行させる。
本発明によると、小領域が連続して配置されている場合であっても、大領域を基準とした階層ごとに、両者の特徴の差異に基づいて、各小領域が見出しか否かを判定することができる。そのため、階層化された見出しを含む文書など、様々なスタイルの文書画像から、ユーザの手間を要することなく、見出し領域を精度良く抽出することができる。
本発明の実施の形態に従う文書画像処理装置を含むシステムの概略構成図である。 本発明の実施の形態に従う文書画像処理装置における概略構成を示すブロック図である。 図1に示したシステムに含まれるパーソナルコンピュータの概略構成を示すブロック図である。 本発明の実施の形態に従う文書画像処理装置における機能構成を示すブロック図である。 本発明の実施の形態に従う文書画像処理装置が生成する電子化文書のデータ構造の一例を示す図である。 本発明の実施の形態において、電子化文書に含まれるしおりデータのデータ構造の一例を示す図である。 本発明の実施の形態における見出し領域抽出処理を示すフローチャートである。 図7のステップS4で判別される内容領域を説明するための図である。 本発明の実施の形態における文字列要素判別処理を示すフローチャートである。 文字列要素領域を説明するための図である。 本発明の実施の形態において、ページ単位で生成された文字列要素領域の例を示す図である。 図11に示す文字列要素領域について大領域と小領域との分類結果を示す図である。 第1の候補(見出し1候補)と、第1の候補に関連付けられる大領域との関係を示す図である。 本発明の実施の形態における見出し1候補評価処理を示すフローチャートである。 見出し1候補ごとに設定された、大領域と区分可能なスタイル種別の例を示す図である。 見出し1候補ごとに設定された特徴区分の例を示す図である。 特徴区分の設定方法を説明するための図であり、見出し1候補とそれに関連付けられる大領域とのインデント量の違いを示す図である。 区分可能なスタイル種別がインデント量である場合の特徴区分の設定方法の一例を示す図である。 区分可能なスタイル種別がインデント量である場合の特徴区分の設定方法の他のを示す図である。 見出し1候補ごとの、特徴区分によるグループ化の結果の一例を示す図である。 見出し1候補ごとの、見出し評価度および見出し判定結果を示す図である。 第2の候補(見出し2候補)と、第2の候補に関連付けられる第1の見出し(見出しと判定された見出し1候補:見出し1)との関係を示す図である。 本発明の実施の形態における見出しN+1候補評価処理を示すフローチャートである。 本発明の実施の形態において、見出し2候補ごとに設定された、見出し1と区分可能なスタイル種別の例を示す図である。 本発明の実施の形態において、見出し2候補ごとに設定された特徴区分の例を示す図である。 本発明の実施の形態において、見出し2候補ごとの、特徴区分によるグループ化の結果の一例を示す図である。 本発明の実施の形態において、見出し2候補ごとの、見出し評価度および見出し判定結果を示す図である。 本発明の実施の形態において、図11に示した文字列要素領域からなる文書に対して抽出された見出し領域を示す図である。 本発明の実施の形態の変形例1における文字列要素領域の例を示す図である。 本発明の実施の形態の変形例1において、見出し2候補と、見出し2候補に関連付けられる見出し1との関係を示す図である。 本発明の実施の形態の変形例1において、見出し2候補ごとに設定された、見出し1と区分可能なスタイル種別の例を示す図である。 本発明の実施の形態の変形例1において、見出し2候補ごとに設定された、関連する大領域と区分可能なスタイル種別の例を示す図である。 本発明の実施の形態の変形例1において、図29に示した文字列要素領域からなる文書に対して抽出された見出し領域を示す図である。 本発明の実施の形態の変形例2における文字列要素領域の例を示す図である。 本発明の実施の形態の変形例2において、見出し2候補と、見出し2候補に関連付けられる見出し1との関係を示す図である。 本発明の実施の形態の変形例2において、見出し2候補ごとに設定された、見出し1と区分可能なスタイル種別の例を示す図である。 本発明の実施の形態の変形例2において、見出し2候補ごとに設定された特徴区分の例を示す図である。 本発明の実施の形態の変形例2において、見出し2候補ごとの、特徴区分によるグループ化の結果の一例を示す図である。 本発明の実施の形態の変形例2において、見出し2候補ごとの、見出し評価度および見出し判定結果を示す図である。 本発明の実施の形態の変形例2において、図34に示した文字列要素領域からなる文書に対して抽出された見出し領域を示す図である。 従来の見出し領域の抽出方法を説明するための図であり、(A),(B),(C)には、それぞれ、文字サイズが異なる複数の文書スタイルの例が示されている。 従来の見出し領域の抽出方法を説明するための図であり、特定の文字サイズを用いて図41(A)の文書画像から見出し領域を抽出する場合の例が示されている。 従来の見出し領域の抽出方法を説明するための図であり、特定の文字サイズを用いて図41(B)の文書画像から見出し領域を抽出する場合の例が示されている。 従来の見出し領域の抽出方法を説明するための図であり、特定の文字サイズを用いて図41(C)の文書画像から見出し領域を抽出する場合の例が示されている。 従来の見出し領域の抽出方法を説明するための図であり、文字サイズをグループ化することにより図41(C)の文書画像から見出し領域を抽出する場合の例が示されている。 従来の見出し領域の抽出方法を説明するための図であり、文字サイズをグループ化することにより図41(A)の文書画像から見出し領域を抽出する場合の例が示されている。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
本発明の実施の形態の説明に先立ち、図41〜図46を用いて、従来より存在する一般的な見出し部分の抽出方法について説明する。
従来より、あらかじめ設けた特徴区分に対して見出しレベルを割り当てることで、見出し領域(見出し部分)を抽出する技術(以下、「従来例1」という)が存在する。また、特徴が似た領域をグループ化した上でグループに対して見出しレベルを割り当てることで、見出し領域を抽出する技術(以下、「従来例2」という)が存在する。
図41(A)には、見出しに対応する領域1a,3aの文字サイズの方が本文に対応する領域2a,4aの文字サイズよりも大きい例が示されている。図41(B)には、見出しに対応する領域1b,3bの文字サイズと本文に対応する領域2b,4bの文字サイズとが同じ例が示されている。図41(C)には、見出しに対応する領域1c,3cの文字サイズの方が本文に対応する領域2c,4cの文字サイズよりも小さい例が示されている。なお、図41(A)の文書スタイルでは、同じ見出しであっても、領域3aの文字サイズの方が、領域1aの文字サイズよりも大きいとする。
これらのスタイルの場合、読み手は容易に見出し部分を判別することが可能である。
従来例1では、特定のサイズである10ポイント以上の領域を見出しとし、10ポイント未満であれば見出しとはしないという特徴区分を設けるとする。その場合、図41(A)の文書では、図42に示されるように、領域1a,3aを見出しとして正しく抽出することができる。
しかしながら、このような特徴区分であると、図41(B),(C)の文書スタイルの場合は、見出し部分のサイズが小さいため、図43,図44に示されるように、見出しを正しく抽出できない。
従来例2では、特徴が似た領域をグループ化した上で見出しの判定を行なう。図41(C)の文書スタイルの場合、文字サイズでグループ化することで図45に示すようにグループA,Bに分類される。従来例2によると、位置が高いグループまたは行数が少ないグループを見出しと判定することで、見出しを正しく抽出することができる。
しかしながら、図41(A)の文書スタイルのように、見出しに対応する領域1a,3aの文字サイズにバラツキがあるものも考えられる。この場合は、従来例2では、図46に示されるように見出しを一つにグループ化できず、正しく見出しを抽出することができない。
以上の従来方法では、使用するスタイル種別(たとえば文字サイズ)、および、特徴量(たとえば10ポイント)の設定が固定的であるため、正しく見出しを抽出することができない場合がある。たとえば、従来例1では、文字サイズに加え、第1行の先頭文字の種別(英字/数字/日本語)を判別することで、見出しを正しく抽出することが可能になったり、従来例2では、グループBの特徴量の範囲を領域1,3を含む程度に広くすることで正しく抽出することが可能になったりする。
そこで、本実施の形態では、複数のスタイル種別を使用し、かつ、特徴区分を動的に設定する。
なお、「スタイル種別」とは、インデント量,行揃え,前後の文字列要素領域との距離,文字列修飾(下線,囲み),文字種(先頭または終端),言語種別,文字サイズ,行高さ,文字間隔,フォント,文字修飾(太文字,斜体),文字色,背景色などを含む。見出し領域を精度良く抽出するためには、上記種別のうち、少なくとも、インデント量、文字の大きさに関する特徴量(たとえば、文字サイズまたは行高さ)、および、第1行の先頭文字種を使用することが好ましい。なお、スタイル種別には、読み手が識別可能で文書作成ツールなどで利用可能な様々な種別が含まれ得る。
また、「特徴区分」とは、見出し領域と他領域とを識別するために用いられる、スタイル種別ごとの特徴値または範囲を表わす。なお、「特徴」とは、領域そのものや領域内の行,文字の「属性」と言い換えることもできる。
<構成について>
(全体システム構成)
本実施の形態においては、代表的に、本発明に係る文書画像処理装置の一形態であるMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書画像処理装置は、MFPに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含んで構成される。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。この際、MFP1は、文書画像から少なくとも1つの見出し領域を抽出し、抽出した見出し領域に対して文書画像内での位置を特定するための閲覧ナビゲート情報を生成する。
なお、「閲覧ナビゲート情報」とは、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる見出し領域等が存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり(bookmark)」、「注釈」、「スレッド」、「リンク」などを含み、見出し領域の位置を特定するための情報に加えて、対応する見出し領域のサムネイル(縮小画像)などを含めてもよい。本実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。
MFP1は、生成した電子化文書400を自身の記憶部(図示しない)に格納したり、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)や携帯端末MTに送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子化文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。さらに、携帯端末MTには、WANおよび公衆携帯電話網や無線LANなどの無線ネットワーク回線(図示しない)を介して、MFP1から電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書400として生成することができる。
(MFPの概略構成)
図2を参照して、MFP1は、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、データ格納部110とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書画像処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)や携帯端末MTとの間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。データ格納部110は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100で生成された電子化文書400などを格納する。
(パーソナルコンピュータの構成)
図3を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、MFP1で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、入出力インターフェイス部217またはCD−ROMドライブ215によって、それぞれメモリカード(たとえばSDカード)217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子化文書を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
なお、携帯端末MTについては、図3においてFDDドライブ217やCD−ROMドライブ215などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。
(MFPの機能的構成)
図4を参照して、MFP1の機能構成としては、画像読取部104と、画像前処理部12と、画像バッファ部13と、圧縮処理部14と、電子化文書生成部15と、画像解析部16と、しおりデータ生成部17と、送信部18と、画像処理部19と、プリント部106とを含む。MFP1の機能は、主としてMFP1の制御部100やメモリ部102(図2)などによって実現される。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像前処理部12へ出力する。画像前処理部12は、主としてパーソナルコンピュータPCなどでの表示に適するように、文書画像の表示特性などを調整する。さらに、画像前処理部12が文書画像に含まれるノイズを除去してもよい。そして、画像前処理部12で画像処理が施された文書画像は、画像バッファ部13へ送られる。
画像バッファ部13は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14、画像解析部16および画像処理部19へ出力する。
圧縮処理部14は、画像バッファ部13から出力される文書画像を圧縮処理して、電子化文書生成部15へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はJPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
画像解析部16は、画像バッファ部13から出力される文書画像を解析し、見出し領域を抽出する。画像解析部16は、その機能として、分類部161と、候補判定部162と、評価処理部163と、抽出部164とを含む。
分類部161は、文書画像を複数の文字列要素領域(詳しくは後述)に分割し、文字列要素領域を小領域と大領域とに分類する。たとえば、領域の大きさ(行数,面積,文字数など)と、特定の文字(見出しとして使われる頻度が小さい文字,ピリオド,句読点など)の有無とに基づいて、分類する。
候補判定部162は、小領域と大領域との配置関係を比較することにより、関連付けられる大領域が存在する小領域を、第1の見出し候補(以下「見出し1候補」という)として判定する。「関連付けられる大領域」は、たとえば、読み順が見出し1候補の後続(直後)の大領域を示す。つまり、見出し1候補は、読み順が(関連付けられる)大領域の直前に位置する小領域を表わしている。
候補判定部162は、さらに、読み順が第1の見出しの直前に位置する小領域を第2の候補(以下「見出し2候補」という)として判定する。「第1の見出し」とは、第1の見出し候補のうち、後述の評価処理部163により見出しと判定された小領域を表わす。また、以下の説明において、当該小領域を「見出し1」とも表わす。
なお、上記のように、見出し2候補は、読み順が第1の見出しの直前に位置する小領域であるとしているが、本実施の形態において「直前に位置する」とは、見出し2候補と第1の見出しとの間に何ら領域が存在しない場合のほか、見出し2候補と第1の見出しとの間に、両者の関連付けを妨げない範囲で、下線などの領域が存在する場合も含まれるものとする。また、見出し1候補と関連付けられる大領域との位置関係においても、同様であるものとする。
評価処理部163は、見出し1候補ごとに、関連付けられる大領域の特徴との差異に基づいて見出しか否かの評価処理を行なう。そして、その評価結果に基づいて、見出し1候補が見出しか否かを判定する。また、見出し2候補ごとに、関連付けられる第1の見出し(見出し1)の特徴との差異に基づいて各見出し2候補が見出しであるか否かの評価処理を行なう。そして、その評価結果に基づいて、見出し2候補が見出しか否かを判定する。
本実施の形態において、より上位の見出し候補が無くなるまで、つまり、読み順が、見出しと判定された小領域の直前に小領域がないと判断されるまで、候補判定部162および評価処理部163の処理を繰返す。具体的には、第2の見出し候補のうち、評価処理部163により見出しと判定された小領域を「第2の見出し」と表わすとする。そうすると、上述の説明における第2の見出しを第1の見出しに置き換えて(読み替えて)、候補判定部162および評価処理部163の処理を繰返す。
なお、評価処理部163における具体的な処理例については後述する。
抽出部164は、評価処理部163により見出しと判定された小領域を、見出し領域として抽出する。抽出された見出し領域の情報(位置情報など)は、しおりデータ生成部17へ送られる。
しおりデータ生成部17は、画像解析部16から出力される見出し領域の情報に基づいて、しおりデータを生成する。なお、しおりデータ生成部17は、見出し以外の特定の論理要素(たとえば、図、表、キャプションなど)についても、しおりデータに含めてもよい。しおりデータ生成部17は、生成したしおりデータを電子化文書生成部15へ出力する。
電子化文書生成部15は、圧縮処理部14で圧縮された文書画像に、しおりデータ生成部17からのしおりデータを付加することで、電子化文書を生成する。そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部110へ格納され、もしくは送信部18へ出力される。送信部18は、通信インターフェイス部108によって実現され、LANなどのネットワークを介してパーソナルコンピュータPC(図1)などへ電子化文書生成部15で生成された電子化文書を送信する。
一方、画像処理部19は、ユーザ操作に応じて、画像バッファ部13から出力される文書画像をプリント部106でのプリント動作に適した画像に変換する。代表的に、RGB表示系で規定された文書画像をカラープリントに適したCMYK表示系の画像データなどに変換する。このとき、プリント部106の特性に応じた色調整を行なってもよい。プリント部106は、画像処理部19から出力される画像データに基づいて紙媒体などへの印刷処理を行なう。
なお、各機能ブロックの動作は、メモリ部102中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも1つについては、ハードウェアで実現されてもよい。
(電子化文書のデータ構造例)
図5を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、しおりデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部406には、文書画像に含まれる見出し領域すなわち、見出しと判定された文字列要素領域を特定するためのしおりデータが格納される。
図6を参照して、しおりデータには、各見出し領域に対応付けて、ページ番号・領域左上座標・領域右下座標・要素種別などが格納される。ページ番号は、対応する見出し領域が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応する見出し領域のページ内での位置(矩形)を特定するための位置情報である。また、要素種別は、対応する見出し領域の種別を特定するための情報である。なお、しおりデータには、見出し以外の種別の文書要素(領域)の位置情報がさらに含まれてもよい。
<動作について>
MFP1が実行する処理のうち、画像解析部16が実行する見出し領域抽出処理が最も特徴的な処理である。したがって、以下に、見出し領域抽出処理の詳細について説明する。
図7のフローチャートを参照して、本発明の実施の形態における見出し領域抽出処理について説明する。図7のフローチャートに示す処理は、予めプログラムとしてメモリ部102に格納されており、制御部100がこのプログラムを読み出して実行することにより、見出し領域抽出処理の機能が実現される。
図7を参照して、画像解析部16は、文書画像のデータを入力する(ステップS2)。入力した文書画像のデータは、ページ毎に内部メモリ上に記憶される。
次に、内部メモリ上の各ページのデータを読み出して、内容領域の判別を行う(ステップS4)。内容領域とは、各ページの部分領域であり、各内容領域は一段分の文字を含む。
図8には、入力した文書画像の各ページに設定した内容領域(X1,Yl)−(X2,Y2),(X3,Yl)−(X4,Y2)が示されている。
「内容領域」とはページ上の一つの段落に相当する領域であり、各ページに対して同じ場所に設定する。内容領域は既存の様々の方法で求めることができる。
たとえば、ページの濃度画像に対して上下方向への射影ヒストグラムを作成し、濃度の累計が低い位置から内容領域の横方向の位置X1,X2,X3,X4を得る。同様に左右方向への射影ヒストグラムを作成し内容領域の上下の開始終了位置Yl,Y2を求める。
次に、画像解析部16は、行領域の判別を行う(ステップS6)。行領域は既存の様々の方法で求めることができる。たとえば、内容領域の濃度画像に対して左右方向への射影ヒストグラムを作成し、濃度の累計が低い位置から各行領域の上端下端の位置を得る。
続いて、画像解析部16は、文字列要素領域の判別(文字列要素判別処理)を行う(ステップS8)。文字列要素領域は、行領域を統合することで作成される。画像解析部16は、各行領域の右余白の大きさ及び行末の文字種を使って統合を制御する。
図9のフローチャートを参照して、本発明の実施の形態における文字列要素判別処理について説明する。
図9を参照して、まず、初期状態の文字列要素領域を1つ生成する(ステップS102)。そして、読み順に従って未処理の行領域を一つ取得する(ステップS104)。具体的には、ページ番号が小さく左側にある内容領域において最も上側にある行領域を取得する。
ここで、ステップS104での行領域の取得に成功したか否かが判断される(ステップS106)。未処理の行領域がない場合は、所得に失敗したとして(ステップS106にてNO)、ステップS114に進む。
これに対し、行領域の取得に成功した場合(ステップS106にてYES)、取得した行領域を文字列要素領域に統合する(ステップS108)。
次に、画像解析部16は、取得した行領域が最終行であるか否かを判断する(ステップS110)。具体的には、取得した行領域の右余白が所定値以上あるか、または、行末の文字種がピリオドであるかが判定される。右余白の所定値は、たとえば、行領域に含む文字の高さに設定される。取得した行領域が最終行であると判断された場合(ステップS110にてYES)、ステップS112に進む。そうでない場合は(ステップS110にてNO)、STEP104に戻り、上記処理を繰返す。
ステップS112では、画像解析部16は、文字列要素領域を完成させる。この処理が終わると、ステップS114に進む。
ステップS114では、全ての内容領域を処理済みかどうかを判断する。未処理の内容領域があれば(ステップS114にてNO)、ステップS102に戻る。未処理の内容領域がなければ(ステップS114にてYES)、文字列要素判別処理は終了する。
図10を参照して、文字列要素領域の例を説明する。
図10(A)には、図7のステップS6で判別された行領域の一部が示されていると仮定する。図10(B)には、図10(A)に示した行領域に対して行なわれた文字列要素領域の判別結果が示される。
行領域(図において「LE」と示す)1,11,14,15,23,11が、ステップS110において、右余白ありと判定される。したがって、行領域1,15は、各々、単独で文字列要素領域(図において「CE」と示す)1#,4#を構成する。また、行領域2〜11,12〜14,16〜23は、それぞれ、上下方向に統合されて文字列要素領域2#,3#,5#が生成される。
なお、文字列要素領域に右余白がある場合は、右余白を除いた領域を文字列要素領域として設定されるものとする。
再び図7を参照して、文字列要素判別処理が終わると、画像解析部16の分類部161は、文字列要素領域を大領域と小領域に分類する(ステップS10)。具体的には、たとえば、各文書領域の面積、文書全体の平均文字高さ、文書全体の平均内容領域の幅を求める。文書領域の面積が文書全体の平均文字高さ×文書全体の平均内容領域の幅×2より大きければ、その文字列要素領域は大領域であると判断し、そうでなければ小領域と判断する。
このような分類について、図11〜図13を用いて説明する。
図11には、ページ単位で生成された文字列要素領域の例が示されている。
図11(A)を参照して、ページPG1において、文字列要素領域1〜16(CE1〜CE16)が生成されたとする。また、図11(B)を参照して、ページPG2において、文字列要素領域17〜23(CE17〜CE23)が生成されたとする。
なお、全ての領域1〜23は、文字サイズ、文字色、文字高さは統一されているものとする。行頭文字種は、以下のようであると仮定する。領域1,2,4,5,7は漢字、領域3,8,13,20は平仮名、領域6,9,12,16,19,23は片仮名、他の領域11,15,18,22は英字、他の領域10,14,17,21は数字である。
図12には、図11に示す文字列要素領域について大領域と小領域との分類結果が示されている。
図12を参照して、太枠で示す文字列要素領域1,2,4,5,7,10,11,14,15,17,18,21,22が小領域に分類される。それ以外の文字列要素領域3,6,8,9,12,13,16,19,20,23が大領域に分類される。
文字列要素領域の分類が終わると、画像解析部16の候補判定部162は、各小領域の後続する文字列要素領域が大領域か小領域かを判定する(ステップS12)。つまり、各小領域の下側に連続する大領域があるかを判定する。
候補判定部162は、後続する大領域がある小領域を「見出し1候補」と判定する(ステップS14)。また、見出し1候補に後続する大領域を、直上の見出し1候補に関連付ける。
図13には、見出し1候補と、見出し1候補に関連付けられる大領域との関係が示されている。
図13を参照して、図12において小領域として示した文字列要素領域のうち、文字列要素領域2,5,7,11,15,18,22が、見出し1候補として判定される。以下の説明において、見出し1候補として判定された各文字列要素領域を、「見出し1候補領域」ともいう。見出し1候補領域に後続する大領域が関連づけられる大領域である。
ステップS14の処理が終わると、見出し1候補評価処理が実行される(ステップS16)。
図14のフローチャートを参照して、本発明の実施の形態における見出し1候補評価処理について説明する。
はじめに、見出し1候補ごとに、見出し1候補の特徴と、それに関連付けられる大領域の特徴とを比較して、その差異が一定以上のスタイル種別を探す(ステップS202)。
本実施の形態では、初期設定のスタイル種別は、たとえば、行高さ,インデント量,行頭文字種,文字色である。
ここで、「行高さ」の判定には、たとえば、領域の第1行の高さを用いる。ただし、これに代えて、領域の高さ、領域に含む行数、文字のベースライン位置を推定する方法などの既存の文字高さ検出方法が利用可能である。
「インデント量」の判定には、たとえば、各段落の左基準位置(内容領域の左辺)から文字列要素領域の左辺までの距離を用いる。
「行頭文字種」の判定には、たとえば、第1行の第1文字の文字種(たとえば、数字・日本語・英字)を用いる。なお、第1行の先頭複数行に対して、ピリオド,括弧などの組み合わせ,出現順を考慮して文字種を判定してもよい。または、フォント,文字種の違い(“1”,“I”,“一”)などを考慮してもよい。または、“第”,“章”,“〇”などの見出しとして良く使われる文字種を区別するようにしてもよい。行頭文字種の判定は、文字認識した結果と文字種判定用の辞書データ(メモリ部102に予め記憶されている)とを参照することで行なうことができる。
「文字色」の判定には、たとえば、文字の線部分の色の値を用いる。なお、背景色と組み合わせて文字色を判定してもよい。
比較結果から、見出し1候補と、それに関連付けられる大領域とを区分可能なスタイル種別を設定する(ステップS204)。なお、複数のスタイル種別には、予め優先順位が定められており、複数の区分可能なスタイル種別があると判断された場合は、順位が上位であるスタイル種別を用いることとする。または、異なるスタイル種別の差異の大きさを比較する基準データを用意しておき、基準データに対して最も差異が大きいスタイル種別を用いるようにしてもよい。ここで、有意な差異があるスタイル種別が見つからない見出し1候補は、候補から外すこととする。
初期設定のスタイル種別を用いた場合における、各見出し1候補について設定される区分可能なスタイル種別の例について図15を用いて説明する。
図15を参照して、上述の見出し1候補領域2,5,7,11,15,18,22は、それぞれに関連付けられる大領域と区分可能なスタイル種別として「インデント量」が設定されている。行頭文字種にも差異があるが、インデント量の方が行頭文字種よりも優先順位が上位であるからである。
なお、図15等、以降の表に示されるように、見出し判定対象の小領域を「領域A」、比較対象の領域を「領域B」とも表わす。
次に、区分可能なスタイル種別に対して、見出し1候補と、それに関連付けられる大領域とを区分可能な特徴区分を設ける(ステップS206)。
見出し1候補ごとに設定された特徴区分の例を図16に示す。
図16を参照して、上述の見出し1候補領域2,5,7,11,15,18,22は、それぞれに関連付けられる大領域と区分可能な特徴区分として、次のような特徴区分が設定されている。すなわち、見出し1候補を含む区分として、インデント量0.5以上1.5未満(「0.5,1.5」)が設定され、大領域を含む区分として、0.5未満1.5以下(見出し1候補の区分以外)が設定されている。
ここで、図17〜図19を参照して、特徴区分の設定方法の一例を説明する。
図17に示されるように、見出し1候補領域2のインデント量が1.0であり、それに関連付けられた大領域3のインデント量が0であるとする。その場合、図18に示されるように、見出し1候補と、それに関連付けられる大領域との中央値を求める。そして、見出し1候補の近傍で中央値を含む区間を“見出し1候補を含む区分”とする。つまり、本実施の形態では、見出し1候補の特徴値の前後所定範囲を見出し1を含む区分として設定する。それ以外を“大領域を含む区分”とする。
本実施の形態では、図18に示したように、見出し1候補の特徴に近いか否かにより特徴区分を設定するが、このような設定方法に限定されない。たとえば、図19に示されるように、見出し1候補の特徴と、それに関連付けられた大領域の特徴とのうちいずれに近いか否かによって、特徴区分が設定されてもよい。具体的には、見出し1候補の特徴値と大領域の特徴値との中間点(中央値)を区切りとする。そして、見出し1候補の特徴値を含む方の区間を、“見出し1候補を含む区分”とし、それ以外を“大領域を含む区分”と設定してよい。
再び図14を参照して、見出し1候補ごとに、設定した特徴区分すなわち、見出し1候補を含む区分(以下「第1の区分」ともいう)および大領域を含む区分(以下「第2の区分」ともいう)による領域のグループ化を行なう(ステップS208)。具体的には、設定した特徴区分を用いて、a−i)第1の区分に含まれる見出し1候補の個数、a−ii)第1の区分に含まれる大領域の個数、a−iii)第2の区分に含まれる見出し1候補の個数、a−iv)第2の区分に含まれる大領域の個数を求める。
その結果、図20に示されるように、全ての見出し1候補は、a−i)の個数が7個(領域2,5,7,11,15,18,22)、a−ii)の個数が0個、a−iii)の個数が0個、a−iv)の個数が10個(領域3,6,8,9,12,13,16,19,20,23)となった。
次に、見出し1候補ごとに、見出し評価度を算出する(ステップS210)。見出し評価度の算出は、たとえば、以下のような式(1)を用いて行なう。
見出し評価度
=((Ka1×(Ca1―Ca2)―Ka2×(Ca3―Ca4))*Ka3)
/(Sa1+Sa2) …(1)
ただし、Ca1:a−i)の個数、Ca2:a−ii)の個数、Ca3:a−iii)の個数、Ca4:a−iv)の個数、Sa1:見出し1候補の個数の総数、Sa2:大領域の個数の総数、Ka1,Ka2:係数(それぞれ:1)、Ka3:係数(:10)とする。
算出の結果、見出し評価度が所定値以上の見出し1候補を「見出し1」と決定する(ステップS212)。ここでは所定値は“5”と設定されている。図21に示されるように、全ての見出し1候補が、見出し評価度が10であるため、全ての見出し1候補が、見出し1と判定される(判定結果:○)。
この処理が終わると、メインルーチンに戻る。
なお、見出し評価度の算出は、以下の式(2)のように、見出し1候補の個数のみから求めることも可能である。
見出し評価度
=((Ka1×(Ca1)―Ka2×(Ca3))*Ka3)/(Sa1) …(2)
あるいは、見出し評価度の算出は、以下の式(3)のように、大領域の個数のみから求めることも可能である。
見出し評価度
=((Ka2×(Ca4))*Ka3―Ka1×(Ca2))/(Sa2) …(3)
図7を再度参照して、上述のような見出し1候補評価処理が終わると、変数Nを“1”とする(ステップS18)。変数Nは、大領域を基準とした配置順位(階層)を管理するためのものである。
配置関係から、見出し1候補以外の小領域のうち、関連付けられる見出しNがある小領域を「見出しN+1候補」とする(ステップS20)。具体的には、見出しNの直前に位置する小領域があれば、それを見出しN+1候補とする。見出しN+1候補が無い場合は(ステップS22にてNO)、ステップS28へ進む。見出しN+1候補が存在する場合は(ステップS22にてYES)、ステップS24に進む。
変数N=1の場合、見出しN+1候補は、「見出し2候補」である。
図22において、見出し2候補(文字列要素領域1,4,10,14,17,21)をハッチングで示している。見出し2候補は、見出し1と判定された領域2,5,7,11,15,18,22の直前(直上)に存在している。
変数N=2の場合、見出しN+1候補が無いため、ステップS28へ進む。
ステップS24において、見出しN+1候補評価処理を実行する。
図23を参照して、本実施の形態における見出しN+1候補評価処理を説明する。見出しN+1候補評価処理も、上述の見出し1候補評価処理と同様の手順にて実行されてよい。そのため、各処理において、見出し1候補評価処理と共通する事項については詳細な説明は繰返さない。
はじめに、見出しN+1候補の特徴と、それに関連付けられる見出しNの特徴とを比較して、差異が一定以上のスタイル種別を探す(ステップS302)。
次に、比較結果から、見出しN+1候補と、それに関連付けられる見出しNとを区分可能なスタイル種別を設定する(ステップS304)。N=1の場合の結果を図24に示す。
区分可能なスタイル種別に対して、見出しN+1候補と、それに関連付けられる見出しNとを区分可能な特徴区分を設ける(ステップS306)。N=1の結果を図25に示す。
次に、見出しN+1候補ごとに、設定した特徴区分すなわち、見出しN+1候補を含む区分(以下「第3の区分」ともいう)および関連する見出しNを含む区分(以下「第4の区分」ともいう)による領域のグループ化を行なう(ステップS308)。具体的には、設定した特徴区分を用いて、b−i)第3の区分に含まれる見出しN+1候補の個数、b−ii)第3の区分に含まれる見出しNの個数、b−iii)第4の区分に含まれる見出しN+1候補の個数、b−iv)第4の区分に含まれる見出しNの個数を求める。
グループ化の結果が図26に示されている。
図26を参照して、見出し2候補10,14については、b−i)の個数すなわち、行頭文字種が数字である見出し2候補の個数は、4個(領域10,14,17,21)である。b−ii)の個数すなわち、行頭文字種が数字である見出し1の個数は、0個である。b−iii)の個数すなわち、行頭文字種が数字以外である見出し2候補の個数は、2個(領域1,4)である。b−iv)の個数すなわち、行頭文字種が数字以外である見出し1の個数は、8個(領域2,5,7,9,11,15,18,22)である。
見出し2候補1,4については、b−i)の個数すなわち、インデント量[−0.5,+0.5]に含まれる見出し2候補の個数は、2個(領域1,4)である。b−ii)の個数すなわち、インデント量[−0.5,+0.5]に含まれる見出し1の個数は、0個である。b−iii)の個数すなわち、インデント量[−0.5,+0.5]以外である見出し2候補の個数は、4個(領域10,14,17,21)である。b−iv)の個数すなわち、インデント量[−0.5,+0.5]以外である見出し1の個数は、8個(領域2,5,7,9,11,15,18,22)である。
見出し2候補17,21については、b−i)の個数すなわち、インデント量[1,+3]に含まれる見出し2候補の個数は、2個(領域17,21)である。b−ii)の個数すなわち、インデント量[1,+3]に含まれる見出し1の個数は、0個である。b−iii)の個数すなわち、インデント量[1,+3]以外である見出し2候補の個数は、4個(領域1,4,10,14)である。b−iv)の個数すなわち、インデント量[1,+3]以外である見出し1の個数は、8個(領域2,5,7,9,11,15,18,22)である。
グループ化処理が終わると、見出しN+1候補ごとに、見出し評価度を算出する(ステップS310)。見出し評価度の算出は、たとえば、上記式(1)と同様の式(4)を用いて行なってよい。
見出し評価度
=((Kb1×(Cb1―Cb2)―Kb2×(Cb3―Cb4))*Kb3)
/(Sb1+Sb2) …(4)
ただし、Cb1:b−i)の個数、Cb2:b−ii)の個数、Cb3:b−iii)の個数、Cb4:b−iv)の個数、Sb1:見出しN+1候補の個数の総数、Sb2:見出しNの個数の総数、Kb1,Kb2:係数(それぞれ:1)、Kb3:係数(:10)とする。
算出の結果、見出し評価度が所定値以上の見出しN+1候補を「見出しN+1」と決定する(ステップS312)。ここでは所定値は“4”と設定されている。
変数N=1の場合、図27に示されるように、全ての見出し2候補が、見出し評価度が4以上であるため、全ての見出し2候補が、見出し2と判定される(判定結果:○)。
この処理が終わると、メインルーチンに戻る。
再び図7を参照して、見出しN+1候補評価処理が終わると、変数Nを1だけインクリメントし(ステップS26)、ステップS20に戻る。そして、見出しN+1候補が存しなくなるまで、ステップS20〜S26の処理が繰り返される。
見出しN+1候補が存在しないと判断されると、ステップS28において、見出しと判定された領域すなわち、見出し1から見出しNまでの全ての文字列要素領域を、しおりデータ生成部17へ出力する。
図28においてハッチングで示した領域は、図11に示した文字列要素領域からなる文書に対して抽出された見出し領域(すなわち見出し1から見出しN)である。
これにより、しおりデータ生成部17は、入力された見出し領域をしおりとして機能させるために、図6に示したようなしおりデータを生成する。
以上で、本発明の実施の形態における見出し領域抽出処理は終了される。
上述のように、本実施の形態によると、設定した特徴区分により見出しNおよび見出しN+1候補をグループ化することで、階層的な見出しを持つ文書に対して見出し領域を適切に抽出することができる。その結果、適切なしおりを付加したPDFを生成することができる。
<変形例1>
上記実施の形態では、見出しN+1候補の特徴と見出しNの特徴とを比較して、見出しN+1候補と、それに関連付けられる見出しNとを区分可能な特徴区分を設定した。
これに対し、本変形例では、関連する大領域まで遡って、見出しN+1候補の特徴の比較を行なう。
本変形例では、入力され文書画像のデータから、図29に示すように、ページPG1aにおいて、文字列要素領域CE1a〜CE16aが抽出されているものとする。
図29に示す文字列要素領域CE1a〜CE16aのそれぞれの特徴は、領域CE14a以外は図11(A)に示したページPG1における文字列要素領域CE1〜CE16と同一であるものと仮定する。
図11(A)の例では、ページPG1において、小領域14と小領域15とが同じインデント(1.0)であり、小領域14の行頭文字種は数字、小領域15の行頭文字種は英字であった。
これに対し、ページPG1aにおいては、小領域14aと小領域15aとが異なるインデント量であり、小領域14aのインデント量は、“0”である。これは、直上の大領域13aのインデント量と同じである。また、小領域14aの行頭文字種は、平仮名であるものとする。
本例においても、図7、図14および図23のフローチャートに基づいて、見出し領域抽出処理が実行される。
図7のフローチャートにおいて、N=1の場合に、ステップS20において、見出しN+1候補の検索処理が実行されたとする。その場合の見出し2候補と、それに関連付けられる見出し1との関係を図30に示す。
図30において、見出し2候補がハッチングで示されており、各見出し2候補に関連付けられる見出し1が図中矢印で表わされている。
図23のステップS302において、上記実施の形態と同様に、見出し2候補の特徴と、それに関連付けられる見出し1の特徴とを比較して、差異が一定以上のスタイル種別を探す。そして、差異が一定以上のスタイル種別があれば、ステップS304において、見出し2候補と、それに関連付けられる見出し1とを区別可能なスタイル種別が設定される。その結果が、図31に示される。
なお、ここでは、行頭文字種として良く使われる“第”を、日本語一般とは区別して判断しているものとする。
図31を参照して、本例では、見出し2候補の小領域14aと見出し1の小領域15aとは、行頭文字種だけでなく、インデント量も異なる。行頭文字種よりもインデント量の方が、優先順位が上位であるため、見出し2候補領域14aと見出し1領域15aとを区分可能なスタイル種別として、インデント量が設定される。
さらに、本変形例では、ステップS304とステップS306との間に、以下の処理を実行する。すなわち、見出しN+1候補ごとに、関連付けられる大領域まで遡って、関連する大領域と区別可能なスタイル種別があるか否かを判定する。つまり、見出し2候補の特徴と、それに関連付けられる大領域の特徴とを比較して、差異が一定以上のスタイル種別を探す。そして、差異が一定以上のスタイル種別があれば、見出し2候補と、それに関連付けられる大領域とを区別可能なスタイル種別が設定される。その結果が、図32に示される。
図32に示されるように、見出し2候補である小領域14aは、関連付けられる大領域16aと区別可能なスタイル種別がないと判断される。そのため、本変形例では、このような小領域を、見出しN+1候補から除外する。
図33においてハッチングで示した領域は、本変形例において、図29に示した文字列要素領域からなる文書に対して抽出された見出し領域(すなわち見出し1から見出しN)である。
図28のフローチャートによる処理だけでは、領域14aも見出し2と判定されることになるが、本変形例によると、領域14aは、見出し2とはならない。
位置が近傍であるほど(距離が近いほど)、見出しと本文とでスタイルの違いが明確であり、論理的な役割がスタイルの相違として表現されている場合が多い。したがって、見出しN+1候補の特徴と、後続の領域のうち最初に登場する大領域の特徴とで有意差が存在しなければ、その見出しN+1候補は、直前の大領域の一部である可能性が高い。
以上のように、本変形例によると、見出しN+1候補の判定において、関連付けられる大領域すなわち、後続の領域のうち最初に登場する大領域との特徴の比較も行なうことで、本文の一部が見出しとして誤判定されることを回避することができる。
<変形例2>
上記実施の形態では、見出しN+1候補についての見出し評価度の算出には、上記式(4)を用いた。
これに対し、本変形例では、上記式(4)よりも、簡略化した評価式を用いる。
本変形例では、入力され文書画像のデータから、図34に示すように、ページPG1bにおいて、文字列要素領域CE1b〜CE16bが抽出されているものとする。ページPG1bに示す文書は、「見出し2候補」に相当する文字列要素領域1b,4b,10b,14bのインデント量にばらつきがある。
本例においても、図7、図14および図23のフローチャートに基づいて、見出し領域抽出処理が実行される。
図7のフローチャートにおいて、N=1の場合に、ステップS20において、見出しN+1候補の検索処理が実行されたとする。その場合の見出し2候補と、それに関連付けられる見出し1との関係を図35に示す。
図35において、見出し2候補がハッチングで示されており、各見出し2候補に関連付けられる見出し1が図中矢印で表わされている。
図23のステップS302において、上記実施の形態と同様に、見出し2候補の特徴と、それに関連付けられる見出し1の特徴とを比較して、差異が一定以上のスタイル種別を探す。そして、差異が一定以上のスタイル種別があれば、ステップS304において、見出し2候補と、それに関連付けられる見出し1とを区別可能なスタイル種別が設定される。その結果が、図36に示される。ここでは、両者の特徴の差異は、インデント量のみであると仮定する。
次に、図23のステップS306において、区分可能なスタイル種別に対して見出し2候補とそれに関連付けられる見出し1とを区分可能な特徴区分を設ける。その結果を、図37に示す。
続いて、図23のステップS308において、設定した特徴区分によるグループ化が行なわれる。グループ化の結果が、図38に示される。
図38には、上記実施の形態で説明したようなb−i)〜b−iv)の個数のカウント結果が示されている。
そして、ステップS310において、見出し2候補ごとに、見出し評価度が算出される。
本変形例では、見出し評価度の算出に、見出し1(見出しN)の個数のみを用いる。つまり、たとえば、上記式(3)と同様の式(5)により、見出し評価度が算出される。
見出し評価度=((Kb2×(Cb4))*Kb3―Kb1×(Cb2))/(Sb2)
…(5)
なお、上述のように、Cb2:第3の区分(見出しN+1候補を含む特徴区分)に含まれる見出しNの個数(b−ii)の個数)、Cb4:第4の区分(関連する見出しNを含む特徴区分)に含まれる見出しNの個数(b−iv)の個数)、Sb2:見出しNの個数の総数、Kb1,Kb2:係数(それぞれ:1)、Kb3:係数(:10)である。
上記評価式(5)による算出の結果、全ての見出し2候補領域1b,4b,10b,14bの見出し評価度は、“10”である。
ステップS312において、見出し評価度が所定値以上の見出し2候補が「見出し2」と決定される。ここでも、上記実施の形態と同様に、所定値は、たとえば“4”と設定されてよい。したがって、図39に示されるように、図34に示した見出し2候補である小領域1b,4b,10b,14bは全て、見出し2と判定される(判定結果:○)。
図40においてハッチングで示した領域は、本変形例において、図34に示した文字列要素領域からなる文書に対して抽出された見出し領域(すなわち見出し1から見出しN)である。
このように、見出しN+1候補が見出しであるかどうかを判定する際に、設定した特徴区分により見出しNのみをグループ化するだけでも、特徴量にバラツキがある文書に対して見出し領域を適切に抽出できる効果がある。
なお、上記式(5)は、特に、本文部分の特徴に一貫性がある文書に適している。見出しの特徴に一貫性がある文書に対しては、上記式(2)と同様の式(6)のように、見出しN+1候補に関する個数Cb1,Cb3を用いて、見出し評価度を算出するようにしてもよい。
見出し評価度
=((Kb1×(Cb1)―Kb2×(Cb3))*Kb3)/(Sb1) …(6)
あるいは、個数Cb2,Cb3によるマイナス評価を除いて、評価度の算出を簡略化してもよい。つまり、以下のような式(7)〜(9)を用いて、見出し評価度を算出してもよい。
見出し評価度=((Kb1×(Cb1)+Kb2×(Cb4))*Kb3)
/(Sb1+Sb2) …(7)
見出し評価度=((Kb1×(Cb1)3)/(Sb1) …(8)
見出し評価度=((Kb2×(Cb4))*Kb3)/(Sb2) …(9)
このような式(7)〜(9)を用いた見出し度の評価は、スタイルの統一性が低い文書に対して有効的である。
評価度の算出に用いる式は、ユーザが選択できてもよい。また、選択のタイミングは、見出し抽出処理が実行される前や、処理の途中であってもよい。このようにすることで、たとえば、ある式を用いてうまく見出しが抽出されなかった場合に、他の式を用いて見出しがうまく抽出されるまで見出し判定を行なうことが可能となる。
<その他の変形例>
上記の実施の形態では、図23のステップS308において、見出しN+1候補群と見出しN群をグループ化した。しかしながら、本来見出しとなるべき小領域であっても、つまり、見出しN+1の階層と同じ階層の小領域があったとしても、同じ見出しN+1候補群とならない可能性がある。たとえば、当該小領域と大領域との距離の相違等の理由により、小領域が見出し1にならなかった場合には、小領域は、見出しN+1にもならない。このような不都合を解消するために、ステップS312(見出しN+1の決定)の後で、見出しN+1と同じ特徴を持つ小領域があるかどうかを検索する。そして、あると判断されれば、その小領域を新たな見出しN+1として追加する処理を追加してもよい。
または、上記の実施の形態では、区別可能なスタイル種別が複数存在する場合、優先順位に従ってその中から1つを選択した(図14のステップS204、図23のステップS304)。しかしながら、区別可能な複数のスタイル種別を組み合わせてもよい(たとえばAND条件の組み合わせ)。そうすることで、見出し1候補や見出しN+1候補を含む区分を適切に設定することが可能になる。
または、上記実施の形態では、1つのスタイル種別に対して、1つの特徴区分を設定した(図14のステップS206、図23のステップS306)。しかしながら、1つのスタイル種別に対して、複数の異なる特徴区分を設定可能としてもよい。たとえば、見出し2候補ごとの見出し評価度の値に差異がほとんどなければ、特徴区分を変更してもよい。そして、設定した特徴区分について、領域のグループ化および見出し評価度の算出を実行し(繰り返し)、候補間の差異が最大の見出し評価度を用いて見出し判定(図14のステップS212、図23のステップS312)を行なうようにしてもよい。
または、見出し評価度の判定(算出)では、各特徴区分に含まれる領域の個数を用いた(図14のステップS210、図23のステップS310)。しかしながら、判定対象の小領域(領域A)から他の領域までの距離を併用するようにしてもよい。これは、近傍であるほど(距離が近いほど)、見出しと本文でスタイルの違いが明確であり、論理的な役割がスタイルの相違として表現されている場合が多いためである。言い換えれば、連続しない離れた領域や、別ページの領域とのスタイルの相違は、書き手によって意図されたものでない場合があるためである。
判定対象の小領域(領域A)が見出しN+1候補であるとすると、たとえば、個数の代わりに、見出しN+1候補からの距離の関数の総和を用い、距離が近い場合にはCb1及びCb2が大きく計数されるようにしてもよい。
この場合、Cb1#:見出しN+1候補(領域A)を含む特徴区分に含まれる見出しN+1候補の距離関数の総和、Cb2#:見出しN+1候補(領域A)を含む特徴区分に含まれる見出しNの距離関数の総和とされる。
このように、近い距離に同じ特徴の領域がある場合の方が見出し度の評価の影響度を大きくすることで、より人の感覚にあった見出し評価が可能になる。
図9の文字列要素判別処理において、最終行と判断された場合に文字列要素領域を完成することとした(ステップS110,S112)。しかしながら、次行との特徴(行高さなど)が変化するかを判定し、次行との特徴(行高さなど)が変化する場合に、文字列要素領域を完成させてもよい。
上記実施の形態および各変形例では、MFP1を例に説明したが、たとえば、図3に示したようなパーソナルコンピュータPCや、携帯電話等の携帯端末において、上記見出し領域抽出処理が実行されてもよい。本実施の形態における見出し領域抽出処理は、少なくとも、CPU等の演算装置、および、文書画像等を記憶するためのメモリを搭載した様々なコンピュータにて実行され得る。
また、本発明の文書画像処理装置が行なう、見出し領域抽出処理方法(文書画像処理方法)を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 MFP、12 画像前処理部、13 画像バッファ部、14 圧縮処理部、15 電子化文書生成部、16 画像解析部、17 データ生成部、18 送信部、19 画像処理部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 データ格納部、161 分類部、162 候補判定部、163 評価処理部、164 抽出部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部、213 メモリ部、215 CD−ROMドライブ、217 入出力インターフェイス部、217a メモリカード、MT 携帯端末、PC,PC1,PC2,PC3 パーソナルコンピュータ、SRV サーバ装置。

Claims (13)

  1. 文書画像から、見出し領域を抽出するための文書画像処理装置であって、
    前記文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するための分類手段と、
    読み順が前記大領域の直前に位置する小領域を第1の候補として判定するための第1の候補判定手段と、
    前記第1の候補ごとに、当該第1の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各前記第1の候補が見出しであるか否かの評価処理を行なうことにより、前記第1の候補の少なくとも一部を第1の見出しと判定するための第1の評価処理手段と、
    読み順が前記第1の見出しの直前に位置する小領域を第2の候補として判定するための第2の候補判定手段と、
    前記第2の候補ごとに、当該第2の候補である小領域の直後に位置する第1の見出しの特徴との差異に基づいて各前記第2の候補が見出しであるか否かの評価処理を行なうことにより、前記第2の候補の少なくとも一部を第2の見出しと判定するための第2の評価処理手段と、
    前記第1の見出しおよび前記第2の見出しと判定された小領域を、前記見出し領域として抽出するための抽出手段とを備える、文書画像処理装置。
  2. 前記第1の評価処理手段は、
    前記第1の候補ごとに、複数のスタイル種別のうち、前記第1の候補である小領域の直後に位置する大領域と特徴が異なるスタイル種別について、前記第1の候補の特徴を含み、かつ、前記第1の候補である小領域の直後に位置する大領域の特徴を含まない第1の特徴区分を設定するための第1の設定手段と、
    設定された前記第1の特徴区分に含まれる特徴を有する、前記第1の候補である小領域の直後に位置する大領域および前記第1の候補の少なくとも一方をグループ化するための第1のグループ化手段と、
    前記第1の候補ごとに、前記第1のグループ化手段によりグループ化された各領域群の大きさに基づいて、第1の見出し評価度を算出するための第1の算出手段と、
    算出された前記第1の見出し評価度に基づいて、各前記第1の候補の論理要素が見出しであるか否かを判定するため第1の見出し判定手段とを含み、
    前記第2の評価処理手段は、
    前記第2の候補ごとに、前記複数のスタイル種別のうち、前記第2の候補である小領域の直後に位置する第1の見出しと特徴が異なるスタイル種別について、前記第2の候補の特徴を含み、かつ、前記第2の候補である小領域の直後に位置する第1の見出しの特徴を含まない第2の特徴区分を設定するため第2の設定手段と、
    設定された前記第2の特徴区分に含まれる特徴を有する、前記第2の候補である小領域の直後に位置する第1の見出しおよび前記第2の候補の少なくとも一方をグループ化するための第2のグループ化手段と、
    前記第2の候補ごとに、前記第2のグループ化手段によりグループ化された各領域群の大きさに基づいて、第2の見出し評価度を算出するための第2の算出手段と、
    算出された前記第2の見出し評価度に基づいて、各前記第2の候補の論理要素が見出しであるか否かを判定するため第2の見出し判定手段とを含む、請求項1に記載の文書画像処理装置。
  3. 前記第2のグループ化手段は、前記第2の候補ごとに、前記第2の特徴区分に含まれる特徴を有する、前記第2の候補である小領域の直後に位置する第1の見出しおよび前記第2の候補の両方をグループ化し、
    前記第2の算出手段は、第1の見出し群および第2の候補群の大きさから、前記第2の見出し評価度を算出する、請求項2に記載の文書画像処理装置。
  4. 前記第2のグループ化手段は、さらに、前記第2の候補ごとに、前記第2の特徴区分に含まれない特徴を有する、前記第2の候補である小領域の直後に位置する第1の見出しおよび前記第2の候補の少なくとも一方をグループ化し、
    前記第2の算出手段は、さらに、前記第2の特徴区分に含まれない各領域群の大きさを、前記第2の見出し評価度の算出に用いる、請求項2または3に記載の文書画像処理装置。
  5. 前記第2の設定手段は、さらに、前記第2の候補ごとの前記第2の見出し評価度の値に差異がなければ、前記第2の特徴区分を変更する、請求項2〜4のいずれかに記載の文書画像処理装置。
  6. 前記複数のスタイル種別は、インデント量、行揃え、前後の文字列要素領域との距離、文字列修飾、先頭文字種、終端文字種、言語種別、文字サイズ、行高さ、文字間隔、フォント、文字修飾、文字色、背景色のうちのいずれかを含む、請求項2〜5のいずれかに記載の文書画像処理装置。
  7. 前記第2の候補の特徴は、スタイル種別の特徴量であり、
    前記第2のグループ化手段は、前記第2の候補の特徴値の前後所定範囲を前記第2の特徴区分として設定する、請求項2〜6のいずれかに記載の文書画像処理装置。
  8. 前記第2の候補の特徴は、スタイル種別の特徴量であり、
    前記第2のグループ化手段は、前記第2の候補の特徴値と前記第2の候補である小領域の直後に位置する第1の見出しの特徴値との間を区切り点とし、前記区切り点よりも前記第2の候補の特徴値側の特徴を含むように前記第2の特徴区分を設定する、請求項2〜6のいずれかに記載の文書画像処理装置。
  9. 前記第2の見出しと判定された小領域および他の小領域の特徴を比較し、前記他の小領域のうち前記判定された小領域と類似した特徴を有する小領域を、新たな第2の見出しとして判定するための手段をさらに備える、請求項1〜8のいずれかに記載の文書画像処理装置。
  10. 前記第2の見出しが抽出された場合に、前記第2の見出しを前記第1の見出しに置き換えて、前記第2の候補判定手段および前記第2の評価処理手段の処理を繰り返すための手段をさらに備える、請求項1〜9のいずれかに記載の文書画像処理装置。
  11. 前記第2の評価処理手段は、前記第2の候補ごとに、前記第2の候補である小領域の直後に位置する第1の見出しについての前記第1の候補である小領域の直後に位置する大領域の特徴と比較し、対応の前記第1の候補である小領域の直後に位置する大領域の特徴と類似する前記第2の候補を、見出しの候補から除外するための手段をさらに含む、請求項1〜10のいずれかに記載の文書画像処理装置。
  12. 文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、前記記憶部に記憶された前記文書画像から見出し領域を抽出するための方法であって、
    前記文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、
    読み順が前記大領域の直前に位置する小領域を第1の候補として判定するステップと、
    前記第1の候補ごとに、当該第1の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各前記第1の候補が見出しであるか否かの評価処理を行なうことにより、前記第1の候補の少なくとも一部を第1の見出しと判定するステップと、
    読み順が前記第1の見出しの直前に位置する小領域を第2の候補として判定するステップと、
    前記第2の候補ごとに、当該第2の候補である小領域の直後に位置する第1の見出しの特徴との差異に基づいて各前記第2の候補が見出しであるか否かの評価処理を行なうことにより、前記第2の候補の少なくとも一部を第2の見出しと判定するステップと、
    前記第1の見出しおよび前記第2の見出しと判定された小領域を、前記見出し領域として抽出するステップとを備える、文書画像処理方法。
  13. 文書画像から見出し領域を抽出するためのプログラムであって、
    前記文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、
    読み順が前記大領域の直前に位置する小領域を第1の候補として判定するステップと、
    前記第1の候補ごとに、当該第1の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各前記第1の候補が見出しであるか否かの評価処理を行なうことにより、前記第1の候補の少なくとも一部を第1の見出しと判定するステップと、
    読み順が前記第1の見出しの直前に位置する小領域を第2の候補として判定するステップと、
    前記第2の候補ごとに、当該第2の候補である小領域の直後に位置する第1の見出しの特徴との差異に基づいて各前記第2の候補が見出しであるか否かの評価処理を行なうことにより、前記第2の候補の少なくとも一部を第2の見出しと判定するステップと、
    前記第1の見出しおよび前記第2の見出しと判定された小領域を、前記見出し領域として抽出するステップとをコンピュータに実行させる、文書画像処理プログラム。
JP2009080167A 2009-03-27 2009-03-27 文書画像処理装置、文書画像処理方法および文書画像処理プログラム Expired - Fee Related JP5412916B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009080167A JP5412916B2 (ja) 2009-03-27 2009-03-27 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US12/727,311 US8611666B2 (en) 2009-03-27 2010-03-19 Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009080167A JP5412916B2 (ja) 2009-03-27 2009-03-27 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2010231637A JP2010231637A (ja) 2010-10-14
JP5412916B2 true JP5412916B2 (ja) 2014-02-12

Family

ID=42783826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009080167A Expired - Fee Related JP5412916B2 (ja) 2009-03-27 2009-03-27 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Country Status (2)

Country Link
US (1) US8611666B2 (ja)
JP (1) JP5412916B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10162809B2 (en) * 2013-10-11 2018-12-25 Conduent Business Services, Llc Method and apparatus for customized handwriting entry zones
US9454696B2 (en) 2014-04-17 2016-09-27 Xerox Corporation Dynamically generating table of contents for printable or scanned content
JP2016167156A (ja) * 2015-03-09 2016-09-15 キヤノン株式会社 システム、プログラム及び制御方法
US10713519B2 (en) * 2017-06-22 2020-07-14 Adobe Inc. Automated workflows for identification of reading order from text segments using probabilistic language models
US11494555B2 (en) * 2019-03-29 2022-11-08 Konica Minolta Business Solutions U.S.A., Inc. Identifying section headings in a document

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法
CA2078423C (en) * 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
JP3313519B2 (ja) * 1994-09-19 2002-08-12 シャープ株式会社 画像処理装置
US5689342A (en) * 1994-11-17 1997-11-18 Canon Kabushiki Kaisha Image processing method and apparatus which orders text areas which have been extracted from an image
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
JPH09297765A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文書画像処理方法
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3940491B2 (ja) * 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
JP2000251067A (ja) 1999-02-25 2000-09-14 Sumitomo Metal Ind Ltd 文書解析方法及び装置並びに記録媒体
KR100319756B1 (ko) * 2000-01-21 2002-01-09 오길록 논문 문서영상 구조 분석 방법
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
JPWO2006112507A1 (ja) * 2005-04-20 2008-12-11 株式会社アイ・ピー・ビー 調査対象文書の索引語抽出装置及び文書特徴分析装置
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
US9098581B2 (en) * 2005-07-27 2015-08-04 Hewlett-Packard Development Company, L.P. Method for finding text reading order in a document
KR100664311B1 (ko) * 2005-11-18 2007-01-04 삼성전자주식회사 자동 인덱스 생성이 가능한 화상형성장치 및 그 자동인덱스 생성방법
US7743327B2 (en) * 2006-02-23 2010-06-22 Xerox Corporation Table of contents extraction with improved robustness
US8189920B2 (en) * 2007-01-17 2012-05-29 Kabushiki Kaisha Toshiba Image processing system, image processing method, and image processing program
JP4398988B2 (ja) * 2007-03-26 2010-01-13 株式会社東芝 構造化文書を管理する装置、方法およびプログラム
JP5125238B2 (ja) * 2007-06-06 2013-01-23 コニカミノルタビジネステクノロジーズ株式会社 文書処理装置、文書処理方法および文書処理プログラム
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
US8233671B2 (en) * 2007-12-27 2012-07-31 Intel-Ge Care Innovations Llc Reading device with hierarchal navigation

Also Published As

Publication number Publication date
US20100245875A1 (en) 2010-09-30
JP2010231637A (ja) 2010-10-14
US8611666B2 (en) 2013-12-17

Similar Documents

Publication Publication Date Title
JP4590433B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
KR102403964B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
EP2162859B1 (en) Image processing apparatus, image processing method, and computer program
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US8170862B2 (en) Document image processing device and document image processing program for maintaining layout in translated documents
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5915628B2 (ja) 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP2010020468A (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP2009146064A (ja) 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JPWO2021084702A1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
JP5412916B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
CN110245570B (zh) 扫描文本分段方法、装置、计算机设备和存储介质
US8600175B2 (en) Apparatus and method of processing image including character string
US20120014612A1 (en) Document processing apparatus and computer readable medium
JP2009169675A (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2004363786A (ja) 画像処理装置
JP5098614B2 (ja) 文章処理装置の制御方法および文章処理装置
JP2012015896A (ja) 画像処理装置
JP2016045896A (ja) 表示制御装置、表示装置、プログラム、記録媒体
JP6201686B2 (ja) テキストデータの埋め込み装置、該装置を備えた画像処理装置、テキストデータの埋め込み方法及び埋め込みプログラム
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2011040075A (ja) 画像処理装置、画像処理方法、コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130410

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130415

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131028

LAPS Cancellation because of no payment of annual fees