JP2011070558A - 文書画像処理装置、文書画像処理方法および文書画像処理プログラム - Google Patents

文書画像処理装置、文書画像処理方法および文書画像処理プログラム Download PDF

Info

Publication number
JP2011070558A
JP2011070558A JP2009223031A JP2009223031A JP2011070558A JP 2011070558 A JP2011070558 A JP 2011070558A JP 2009223031 A JP2009223031 A JP 2009223031A JP 2009223031 A JP2009223031 A JP 2009223031A JP 2011070558 A JP2011070558 A JP 2011070558A
Authority
JP
Japan
Prior art keywords
heading
group
range
document image
set range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009223031A
Other languages
English (en)
Inventor
Yoshio Komaki
由夫 小巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Business Technologies Inc
Original Assignee
Konica Minolta Business Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Business Technologies Inc filed Critical Konica Minolta Business Technologies Inc
Priority to JP2009223031A priority Critical patent/JP2011070558A/ja
Priority to US12/889,908 priority patent/US8538154B2/en
Publication of JP2011070558A publication Critical patent/JP2011070558A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】背景文字や、繰り返し表れる小さい文字列要素を含む文書スタイルに対しても、適切に見出し領域を抽出すること。
【解決手段】文書画像処理装置は、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化し(S104)、グループごとにグループ特性を検出する(S106)。グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択すると(S108)、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定する(S112)。代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割し(S116)、分割後の範囲を新たに設定された範囲として、グループ化、代表グループの選択および見出し判定の処理を再実行する(S116,S104)。
【選択図】図14

Description

本発明は、本発明は、文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関し、特に、文書画像から見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関する。
従来、文書画像全体の文字列要素領域を対象として,特徴量に基づいた共通した抽出ルールを用いて見出し(タイトル見出し、セクション見出し)を抽出する方法があった。
たとえば特許文献1では、文書画像処理装置において、文書画像に含まれる全ての行から行単位に特定の特徴量に基づいてリスト構造(見出し相当)が抽出されることが記載されている。
特開平11−238096号公報
しかしながら、特許文献1の技術は、文書に含まれる全ての行を対象とし、文書全体を1つの範囲として特定の特徴量を用いて見出しを抽出するものである。したがって、見出しを適切に抽出できる文書スタイルに大きな制限があるという問題があった。
つまり、背景文字や、繰り返し表れる小さい文字列要素(たとえば、箇条書き、表示媒体であるページやスライドに付加されたヘッダ,フッタ、など)を含む文書スタイルの場合、文書全体に対して一律に同じルールを適用すると、適切に見出し領域を抽出することができない。
従来、このようなスタイルの文書から複数の異なるレベルの見出しを適切に抽出するためには、特徴量抽出処理の追加、ルールの複雑化が必要である。しかし、特徴量抽出処理の追加、ルールの複雑化をすることは、コスト増加や処理時間増加を生じさせるため、実際上できないという課題があった。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、背景文字や、繰り返し表れる小さい文字列要素を含む文書スタイルに対しても、適切に見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムを提供することである。
この発明のある局面に従う文書画像処理装置は、文書画像から、見出し領域を抽出するための文書画像処理装置であって、文書画像を記憶するための記憶手段と、文書画像における複数の文字列要素領域のうち見出し領域の候補の領域を、見出し候補として検出するための検出手段と、検出された見出し候補のうちから、見出し領域を抽出する処理を行なうための抽出手段とを備える抽出手段は、複数の文字列要素領域を含む範囲を処理対象の範囲に設定するための設定手段と、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するためのグループ化手段と、グループごとにグループ特性を検出し、グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択するための選択手段と、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定するための判定手段と、代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割するための分割手段とを含み、抽出手段は、分割後の範囲を新たに設定された範囲として、グループ化手段、選択手段および判定手段の処理を再実行する。
好ましくは、グループ特性は、設定された範囲に依存した特徴を含む。
好ましくは、依存した特徴は、設定された範囲内の見出し候補の上限位置、および、設定された範囲内の本文領域との順序関係の少なくともいずれかを含む。
好ましくは、分割手段は、代表グループに属する見出し候補の前もしくは後で、設定された範囲を分割する。
好ましくは、選択手段は、さらに、グループ特性の検出結果に抽出ルールを適用した場合に所定の基準を満たさないグループについては、代表グループから除外する。
好ましくは、判定手段は、さらに、代表グループから除外されたグループのみが含まれる範囲内の見出し候補を、非見出しとして判定する。
好ましくは、分割手段は、分割後の範囲のうち、判定手段による判定が未済みである見出し候補が存在している範囲を、新たに設定された範囲とする。
好ましくは、選択手段は、グループ特性として、グループごとのスタイル種別による特徴量をさらに用いる。
好ましくは、検出手段は、複数の文字列要素領域を小領域と大領域とに分類し、小領域を見出し候補として検出し、大領域を本文領域として検出する。
好ましくは、抽出手段は、範囲の分割のレベルに応じて、見出し領域を階層化する。
この発明の他の局面に従う文書画像処理方法は、文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、記憶部に記憶された文書画像から見出し領域を抽出するための方法であって、文書画像における複数の文字列要素領域のうち見出し領域の候補の領域を、見出し候補として検出するステップと、複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、グループごとにグループ特性を検出し、グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択するステップと、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定するステップと、代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割するステップと、分割後の範囲を新たに設定された範囲として、グループ化するステップ、選択するステップおよび判定するステップの処理を再実行するステップとを備える。
この発明のさらに他の局面に従う文書画像処理プログラムは、文書画像から見出し領域を抽出するためのプログラムであって、文書画像における複数の文字列要素領域のうち見出し領域の候補の領域を、見出し候補として検出するステップと、複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、グループごとにグループ特性を検出し、グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択するステップと、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定するステップと、代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割するステップと、分割後の範囲を新たに設定された範囲として、グループ化するステップ、選択するステップおよび判定するステップの処理を再実行するステップとをコンピュータに実行させる。
本発明によると、背景文字や、繰り返し表れる小さい文字列要素を含む文書スタイルに対しても、適切に見出し領域を抽出することができる。
本発明の実施の形態に従う文書画像処理装置を含むシステムの概略構成図である。 本発明の実施の形態に従う文書画像処理装置における概略構成を示すブロック図である。 図1に示したシステムに含まれるパーソナルコンピュータの概略構成を示すブロック図である。 本発明の実施の形態に従う文書画像処理装置における機能構成を示すブロック図である。 本発明の実施の形態に従う文書画像処理装置が生成する電子化文書のデータ構造の一例を示す図である。 本発明の実施の形態において、電子化文書に含まれるしおりデータのデータ構造の一例を示す図である。 本発明の実施の形態における画像解析処理を示すフローチャートである。 本発明の実施の形態における文字列要素判別処理を示すフローチャートである。 文字列要素領域の例を示す図である。 サンプル文書を示す図である。 図10のサンプル文書に対して設定された文字列要素領域の例を示す図である。 図11の部分拡大図である。 図10に示したサンプル文書における文字列要素領域の分類結果を示す図である。 本発明の実施の形態における見出し抽出処理を示すフローチャートである。 (A),(B)は、図10に示したサンプル文書全体を範囲とし、範囲内の見出し候補をグループ化した結果を示す図である。 図15(A)に示した範囲内のグループに対する見出し判定の結果を示す表である。 (A),(B)は、図15(A)に示した範囲の分割後の範囲それぞれにおける見出し候補をグループ化した結果を示す図である。 図17(A)に示した範囲内のグループに対する見出し判定の結果を示す表である。 図17(A)に示した範囲の分割後の範囲それぞれにおける見出し候補をグループ化した結果を示す図である。 図19に示した範囲内のグループに対する見出し判定の結果を示す表である。 図19に示した範囲の分割後の範囲それぞれにおける見出し候補をグループ化した結果を示す図である。 図21に示した範囲内のグループに対する見出し判定の結果を示す表である。 本発明の実施の形態における見出し抽出処理の結果を模式的に示した図である。 図10に示したサンプル文書に対して設定された見出し領域/非見出し領域を示す図である。 本発明の実施の形態における見出し抽出処理の比較例を説明するための図である。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
本実施の形態において、文書画像処理装置は、文書画像内の見出し候補のうち見出し抽出ルールを適用する範囲を(段階的に)設定する。そして、設定された範囲ごとに見出し抽出ルールを用いることで、複数レベルの見出しを含む多様な文書スタイルを持つ文書画像に対して、適切に見出し領域を抽出するものである。
以下に、本実施の形態の文書画像処理装置について詳細に説明する。
<構成について>
(全体システム構成)
本実施の形態においては、代表的に、本発明に係る文書画像処理装置の一形態であるMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書画像処理装置は、MFPに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含んで構成される。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。この際、MFP1は、文書画像から少なくとも1つの見出し領域を抽出し、抽出した見出し領域に対して文書画像内での位置を特定するための閲覧ナビゲート情報を生成する。
なお、「閲覧ナビゲート情報」とは、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる見出し領域等が存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり(bookmark)」、「注釈」、「スレッド」、「リンク」などを含み、見出し領域の位置を特定するための情報に加えて、対応する見出し領域のサムネイル(縮小画像)などを含めてもよい。本実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。
MFP1は、生成した電子化文書400を自身の記憶部(図示しない)に格納したり、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)や携帯端末MTに送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子化文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。さらに、携帯端末MTには、WANおよび公衆携帯電話網や無線LANなどの無線ネットワーク回線(図示しない)を介して、MFP1から電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書400として生成することができる。
(MFPの概略構成)
図2を参照して、MFP1は、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、データ格納部110とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書画像処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)や携帯端末MTとの間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。データ格納部110は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100で生成された電子化文書400などを格納する。
(パーソナルコンピュータの構成)
図3を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、MFP1で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、入出力インターフェイス部217またはCD−ROMドライブ215によって、それぞれメモリカード(たとえばSDカード)217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子化文書を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
なお、携帯端末MTについては、図3においてCD−ROMドライブ215などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。
(MFPの機能的構成)
図4を参照して、MFP1の機能構成としては、画像読取部104と、画像前処理部12と、画像バッファ部13と、圧縮処理部14と、電子化文書生成部15と、画像解析部16と、しおりデータ生成部17と、送信部18と、画像処理部19と、プリント部106とを含む。MFP1の機能は、主としてMFP1の制御部100やメモリ部102(図2)などによって実現される。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像前処理部12へ出力する。画像前処理部12は、主としてパーソナルコンピュータPCなどでの表示に適するように、文書画像の表示特性などを調整する。さらに、画像前処理部12が文書画像に含まれるノイズを除去してもよい。そして、画像前処理部12で画像処理が施された文書画像は、画像バッファ部13へ送られる。
画像バッファ部13は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14、画像解析部16および画像処理部19へ出力する。
圧縮処理部14は、画像バッファ部13から出力される文書画像を圧縮処理して、電子化文書生成部15へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はJPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
画像解析部16は、画像バッファ部13から出力される文書画像を解析し、見出し領域を抽出する。画像解析部16は、その機能として、検出部161と、見出し抽出部162とを含む。
検出部161は、文書画像を複数の文字列要素領域に分割し、これら複数の文字列要素領域のうちから見出し候補を検出する。本実施の形態では、複数の文字列要素を小領域と大領域とに分類し、小領域を見出し候補、大領域を本文として検出する。たとえば、領域の大きさ(行数,面積,文字数など)と、特定の文字(見出しとして使われる頻度が小さい文字,ピリオド,句読点など)の有無とに基づいて、大領域と小領域とに分類される。
なお、本実施の形態において、「文字列要素領域」とは、前後余白や句読点により区分される一連の行領域を囲む領域であり、段落(本文)、見出し、ヘッダ・フッタの領域に対応する。文字列要素領域の設定方法の具体例は、後述する。
見出し抽出部162は、検出部161にて検出された見出し候補のうちから、見出し候補を抽出する。そのために、見出し抽出部162は、次のような処理を行なう。
見出し抽出部162は、検出された見出し候補のうち見出し抽出ルールを適用する範囲を(段階的に)設定する。設定された範囲内の見出し候補(小領域)を所定のスタイル種別による特徴量に基づいて、グループ化する。
「スタイル種別」とは、文字列のスタイル上の特徴を識別するための項目を表わし、インデント量,行高さ,文字色,背景色,領域の中央位置,行揃え,線幅の太さ,前後の文字列要素領域との距離,文字列修飾(下線,囲み),文字サイズ,文字間隔,フォント,文字修飾(太文字,斜体)などを含む。本実施の形態において、見出し候補のグループ化に用いるスタイル種別としては、論理要素の区別に有効なものを予め定めることが望ましい。具体的には、たとえば、スタイル種別として、「インデント量(左辺開始位置)」および「行高さ」が用いられる。これらのスタイル種別それぞれの特徴量(つまり、左辺開始位置の値および行高さの値)が類似している領域は、同一グループと設定する。たとえば、左辺開始位置および行高さの特徴量(値)の分布が所定範囲以内に収まる場合は同一グループとされる。
見出し抽出部162は、グループ毎にグループ特性を検出し、グループ特性の検出結果に所定の見出し抽出ルール(後述)を適用することにより、範囲を代表するグループ(以下「代表グループ」という)を選択(検出)する。代表グループは、設定された範囲のうち、最も見出しらしい特性(特徴)を有する見出し候補のグループを表わす。
「グループ特性」は、見出し/非見出しらしさを示す情報、すなわち、グループに属する見出し候補が、範囲を代表する見出しであるかの判定に有効な情報である。グループ特性は、グループ化に用いられた上記スタイル種別による特徴量すなわち、i)「左辺開始位置」およびii)「行高さ」を含み、さらに、設定された範囲に依存した特徴として、設定された範囲内の見出し候補の上限位置、および、設定された範囲内の本文(大領域)との順序関係の少なくともいずれかを含む。具体的には、前者の特徴として、iii)「グループ内で最上流にある見出し候補の位置」が用いられる。後者の特徴として、iv)「範囲内において、全ての本文領域よりも上流に位置する見出し候補を含むか否か」、および、v)「範囲内において、下流に本文が無い見出し候補を含むか否か」が用いられる。
見出し抽出部162は、グループ特性の検出結果に見出し抽出ルールを適用した場合に所定の基準を満たさない(たとえば所定のしきい値未満である)グループについては、代表グループから除外することが望ましい。このような処理を加えることで、見出の誤判定を避けることができる。
見出し抽出部162は、代表グループに含まれる見出し候補を見出し領域として判定する。また、代表グループから除外されたグループに属する見出し候補を、非見出し候補として判定してもよい。言い換えると、代表グループから除外されたグループのみが含まれる範囲内の見出し候補を非見出しとして判定してもよい。
見出し抽出部162は、代表グループに含まれる見出し候補の位置に基づいて、元の範囲を分割する。具体的には、代表グループに属する見出し候補の前もしくは後で、設定された範囲を分割する。また、分割後の範囲のうち、見出し/非見出しの判定が未済みである見出し候補が存在している範囲のみを、新たに設定された範囲とする。
見出し抽出部162は、分割後の範囲に対しても、上記と同様の処理を再度実行する。これにより、設定できる範囲がなくなるまで、見出し候補のグループ化から範囲の分割までの処理が繰返される。
このように、設定された範囲に依存したグループ特性の検出結果を利用して、見出しらしさが最も高い代表グループが選択される。したがって、複数レベルの見出しを含む多様な文書スタイルを持つ文書画像に対して、適切に見出し領域を抽出することが可能となる。
見出し抽出部162は、見出し領域と判定された見出し候補の情報(位置情報など)を、しおりデータ生成部17に出力する。
しおりデータ生成部17は、画像解析部16から出力される見出し領域の情報に基づいて、しおりデータを生成する。なお、しおりデータ生成部17は、見出し以外の特定の論理要素(たとえば、図、表、キャプションなど)についても、しおりデータに含めてもよい。しおりデータ生成部17は、生成したしおりデータを電子化文書生成部15へ出力する。
電子化文書生成部15は、圧縮処理部14で圧縮された文書画像に、しおりデータ生成部17からのしおりデータを付加することで、電子化文書を生成する。そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部110へ格納され、もしくは送信部18へ出力される。送信部18は、通信インターフェイス部108によって実現され、LANなどのネットワークを介してパーソナルコンピュータPC(図1)などへ電子化文書生成部15で生成された電子化文書を送信する。
一方、画像処理部19は、ユーザ操作に応じて、画像バッファ部13から出力される文書画像をプリント部106でのプリント動作に適した画像に変換する。代表的に、RGB表示系で規定された文書画像をカラープリントに適したCMYK表示系の画像データなどに変換する。このとき、プリント部106の特性に応じた色調整を行なってもよい。プリント部106は、画像処理部19から出力される画像データに基づいて紙媒体などへの印刷処理を行なう。
なお、各機能ブロックの動作は、メモリ部102中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも1つについては、ハードウェアで実現されてもよい。
(電子化文書のデータ構造例)
図5を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、しおりデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部406には、文書画像に含まれる見出し領域すなわち、見出しと判定された文字列要素領域(小領域)を特定するためのしおりデータが格納される。
図6を参照して、しおりデータには、各見出し領域に対応付けて、ページ番号・領域左上座標・領域右下座標・要素種別などが格納される。ページ番号は、対応する見出し領域が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応する見出し領域のページ内での位置(矩形)を特定するための位置情報である。また、要素種別は、対応する見出し領域の種別を特定するための情報である。なお、しおりデータには、見出し以外の種別の文書要素(領域)の位置情報がさらに含まれてもよい。
<動作について>
MFP1が実行する処理のうち、画像解析部16が実行する処理(以下「画像解析処理」という)が最も特徴的な処理である。したがって、以下に、画像解析処理の詳細について説明する。
図7のフローチャートを参照して、本発明の実施の形態における画像解析処理について説明する。図7のフローチャートに示す処理は、予めプログラムとしてメモリ部102に格納されており、制御部100がこのプログラムを読み出して実行することにより、画像解析処理の機能が実現される。
図7を参照して、画像解析部16は、文書画像のデータを入力する(ステップS2)。入力した文書画像のデータは、ページ毎に内部メモリ上に記憶される。
次に、内部メモリ上の各ページのデータを読み出して、内容領域の判別を行なう(ステップS4)。内容領域とは、各ページの部分領域であり、各内容領域は一段分の文字を含む。
「内容領域」とはページ上の一つの段落に相当する領域であり、各ページに対して同じ
場所に設定する。内容領域は既存の様々の方法で求めることができる。
たとえば、ページの濃度画像に対して上下方向への射影ヒストグラムを作成し、濃度の累計が低い位置から内容領域の横方向の位置を得る。同様に左右方向への射影ヒストグラムを作成し内容領域の上下の開始終了位置を求める。
次に、画像解析部16は、行領域の判別を行なう(ステップS6)。行領域は既存の様々の方法で求めることができる。たとえば、内容領域の濃度画像に対して左右方向への射影ヒストグラムを作成し、濃度の累計が低い位置から各行領域の上端下端の位置を得る。
続いて、画像解析部16は、文字列要素領域の判別(文字列要素判別処理)を行なう(ステップS8)。文字列要素領域は、行領域を統合することで作成される。画像解析部16は、各行領域の右余白の大きさ及び行末の文字種を使って統合を制御する。
図8のフローチャートを参照して、本発明の実施の形態における文字列要素判別処理について説明する。
図8を参照して、まず、初期状態の文字列要素領域を1つ生成する(ステップS102)。そして、読み順に従って未処理の行領域を一つ取得する(ステップS104)。具体的には、ページ番号が小さく左側にある内容領域において最も上側にある行領域を取得する。
ここで、ステップS104での行領域の取得に成功したか否かが判断される(ステップS106)。未処理の行領域がない場合は、所得に失敗したとして(ステップS106にてNO)、ステップS114に進む。
これに対し、行領域の取得に成功した場合(ステップS106にてYES)、取得した行領域を文字列要素領域に統合する(ステップS108)。
次に、画像解析部16は、取得した行領域が最終行であるか否かを判断する(ステップS110)。具体的には、取得した行領域の右余白が所定値以上あるか、または、行末の文字種がピリオドであるかが判定される。右余白の所定値は、たとえば、行領域に含む文字の高さに設定される。取得した行領域が最終行であると判断された場合(ステップS110にてYES)、ステップS112に進む。そうでない場合は(ステップS110にてNO)、STEP104に戻り、上記処理を繰返す。
ステップS112では、画像解析部16は、文字列要素領域を完成させる。この処理が終わると、ステップS114に進む。
ステップS114では、全ての内容領域を処理済みかどうかを判断する。未処理の内容領域があれば(ステップS114にてNO)、ステップS102に戻る。未処理の内容領域がなければ(ステップS114にてYES)、文字列要素判別処理は終了する。
図9を参照して、文字列要素領域の例を説明する。
図9(A)には、図7のステップS6で判別された行領域の一部が示されていると仮定する。図9(B)には、図9(A)に示した行領域に対して行なわれた文字列要素領域の判別結果が示される。
行領域LE1,11,14,15,23,11が、ステップS110において、右余白ありと判定される。したがって、行領域1,15は、各々、単独で文字列要素領域CE1#,4#を構成する。また、行領域LE2〜11,LE12〜14,LE16〜23は、それぞれ、上下方向に統合されて文字列要素領域CE2#,3#,5#が生成される。
ただし、文字列要素領域に右余白がある場合は、右余白を除いた領域を文字列要素領域として設定されるものとする。
本実施の形態では、上記方法により文字列要素領域を設定することとしたが、限定的ではなく、公知の手法により設定されてもよい。
文字列要素領域が設定された後に画像解析部16が実行する処理については、図10に示すサンプル文書を例に説明する。
図10は、背景文字が挿入されたサンプル文書30を示す図である。図10に示すサンプル文書30は、画像読取部104によって取得された画像であり、画像バッファ部13に格納されている。サンプル文書30には、背景文字として“プロジェクトA”と“2009年度活動”が繰り返し挿入されている。このような背景文字が挿入されることで、読み手が文書の一部だけを見た場合でも、文書の主題を確認することができる。
図10のサンプル文書30に対して設定された文字列要素領域の例を、図11に示す。
図11を参照して、サンプル文書30に対して、文字列要素領域CE1〜CE21が設定されている。図12は、図11の部分拡大図である。
図11に示した文字列要素領域CE1〜CE21を例に、以降の処理について説明する。
再び図7を参照して、文字列要素判別処理が終わると、画像解析部16の検出部161は、文字列要素領域を大領域と小領域に分類する(ステップS10)。具体的には、たとえば、各文書領域の面積、文書全体の平均文字高さ、文書全体の平均内容領域の幅を求める。文書領域の面積が文書全体の平均文字高さ×文書全体の平均内容領域の幅×2より大きければ、その文字列要素領域は大領域であると判断し、そうでなければ小領域と判断する。
または、各領域が所定値(例えば1行)より小さければ小領域と判定するようにしてもよい。同様に、各領域の文字数から判定することも可能である。
図13は、サンプル文書30の文字列要素領域CE1〜CE21の分類結果を示す図である。図13(A)には、サンプル文書30の文字列要素領域CE1〜CE21が模式的に矩形として示されている。図13(B)は、図13(A)に示した文字列要素領域CE1〜CE21の分類結果を示している。
図13(A)および(B)を参照して、文字列要素領域CE5,CE10,CE16,CE18,CE21が、それぞれ、大領域BE1〜BE5と判定されている。それ以外の領域CE1〜CE4,CE6〜CE9,CE11〜CE15,CE17,CE19,CE20が、それぞれ、小領域SE1〜SE16と判定されている。
小領域SE〜SE16が、見出し領域の候補(以下「見出し候補」という)として扱われる。大領域BE1〜BE5が、本文領域として扱われる。
次に、小領域である見出し候補SE1〜SE16から見出し領域を抽出する処理(見出し抽出処理)が実行される(ステップS12)。
図14は、本実施の形態における見出し抽出処理を示すフローチャートである。
図14を参照して、見出し抽出部162は、はじめに、文書全体を処理対象の範囲に設定する(ステップS102)。具体的には、文書画像中の全ての文字列要素領域CE1〜CE21(つまり、見出し候補SE1〜SE16および本文領域BE1〜BE5)を含む範囲が、処理対象とされる。
見出し抽出部162は、設定された範囲内の見出し候補SE1〜SE16について、所定のスタイル種別についての特徴量が類似した見出し候補をグループ化する(ステップS104)。つまり、左辺開始位置および行高さの双方が同一または所定範囲内の見出し候補を同一グループと設定する。
図15は、サンプル文書30全体を範囲R1とし、範囲R1内の見出し候補SE1〜SE16をグループ化した結果を示す図である。図15(A)には、全ての文字列要素領域すなわち、見出し候補SE1〜SE16および本文領域BE1〜BE5を含む範囲R1が、処理対象の範囲として設定された例が示されている。図15(B)には、図15(A)に示した範囲R1に対して、見出し候補(小領域)SE1〜SE16がグループ化された結果が示されている。
図15(B)を参照して、見出し候補SE1,SE2,SE5,SE6,SE9,SE10,SE12,SE13,SE15,SE16が、“グループ1”である。見出し候補SE3が、“グループ2”である。見出し候補SE4,SE7,SE14が、“グループ3”である。見出し候補SE8,SE11が、“グループ4”である。
見出し抽出部162は、グループごとに、グループ特性を検出する(ステップS106)。本実施の形態では、グループごとに、i)「左辺開始位置」、ii)「行高さ」、iii)「グループ内で最上流にある見出し候補の位置」が用いられる。後者の特徴として、iv)「範囲内において、全ての本文領域よりも上流に位置する見出し候補を含むか否か」、および、v)「範囲内において、下流に本文が無い見出し候補を含むか否か」を検出する。
これらグループ特性が検出されると、見出し抽出部162は、検出結果を所定の見出し抽出ルールに従って比較することで、範囲を代表するグループを選択する(ステップS108)。選択されたグループに含まれる見出し候補は、見出し領域として確定される。
見出し抽出ルールは、i)〜v)のグループ特性の検出結果が、見出しである確からしさを示しているかを判定する。ここでは、各検出結果に対して、予めポイントを加算/減算するルールを定めておく。見出し抽出部162は、ポイントの総計が最大であるグループを、範囲を代表するグループ(代表グループ)と判定する。ここで、i)〜v)のグループ特性ごとに用いる条件と加点・減点を行なうポイントとを示す。
i)「左開始位置」が最も左側にある(インデント量が小さい)グループ:+1点
ii)「行高さ」が最も大きいグループ:+1点
iii)最上流の見出し候補の位置が、範囲内で最も上にあるグループ:+1点
iv)範囲内において全ての本文より上流にある見出し候補を含むグループ:+5点
v)範囲内において、下流に本文が無い見出し候補を含むグループ:−10点
なお、上述のグループ特性ごとの加算/減算点の重みは、上記に限定されない。
図16は、範囲R1内のグループ1〜4に対する見出し判定の結果を示す表である。図16に示すような情報が、見出し抽出処理において、たとえばメモリ部102の作業領域に一時的に記録される。
図16の表は、列方向に、グループ1〜4が記述されている。行方向には、7つの項目すなわち、見出し数、i)左開始位置、ii)行高さ、iii)最上流位置、iv)全ての本文より上流にある候補領域(見出し候補)を含むか否か、v)下流に本文が無い候補領域(見出し候補)を含むか否か、総ポイントが記述されている。
見出し数の項目には、グループごとに含まれる見出し候補の数が記録されている。
i)左開始位置の項目からv)下流に本文が無い候補領域(見出し候補)を含むか否かの項目までの欄において、その上段には、それぞれの検出結果が記録されている。これらの項目の下段には、上記条件(抽出ルール)を適用した結果のポイント数が記録されている。
総ポイントの項目には、グループごとに、ポイント数の総計が記録されている。
見出し抽出部162は、範囲内に代表グループが存在するか否かを判定する(ステップS110)。具体的には、範囲内にポイントの総計が、所定のしきい値(たとえば5点)以上のグループが存在しなければ、範囲内に代表グループが存在しないと判定する。言い換えると、範囲内でポイントの総計が最大であるグループのポイント総計が、しきい値未満であれば、そのグループは、代表グループから除外される。これによりその範囲に代表グループは存在しないと判定される。
範囲内に代表グループが存在すれば(ステップS110にてYES)、つまり、ポイントの総計が5点以上のグループが存在すれば、代表グループに属する見出し候補を見出し領域と判定する(ステップS112)。範囲R1内においては、グループ2の総ポイントが7点である。したがって、グループ2が、代表グループと判定され、グループ2内の見出し候補が見出し領域と判定される。
一方、範囲内に代表グループが存在しないと判断された場合(ステップS110にてNO)、つまり、ポイントの総計が5点以上のグループが存在しない場合、範囲内に見出しらしい見出し候補のグループは存在しないと判断し、ステップS118に進む。
ステップS118では、未処理の範囲が存在するか否かが判定される。未処理の範囲がある場合は(ステップS118でYES)、見出し抽出部162は、未処理の範囲を処理対象の範囲に設定する(ステップS120)。未処理の範囲がない場合は(ステップS118でNO)、見出し抽出処理を終了する。
このように、総ポイントにしきい値を設けることで、見出しらしい見出し候補のグループが存在しないであろうと推定される範囲については、見出し判定から除外する。これにより、見出し抽出処理の時間を短縮することができる。
ステップS112の後、見出し抽出部162は、見出し領域の位置情報をしおりデータ生成部17へ出力する(ステップS114)。
続いて、元の範囲R1を、代表グループに属する見出し領域の位置から範囲を分割する(ステップS116)。分割後の範囲が、未処理の範囲として新たに設定される。設定された未処理の範囲のうちの一つ(たとえば、上流に位置する範囲)が、処理対象の範囲として設定される。本実施の形態では、代表グループに属する見出し領域の上辺と下辺との間を除くことで、元の範囲R1が分割される。
範囲が分割されると、ステップS104に戻り、処理対象の範囲に対して上記処理を繰返す。
したがって、図15(A)に示した範囲R1の分割後の2つの範囲に対しても、再度ステップS104〜S116の処理が実行される。
図17は、図15(A)に示した範囲R1の分割後の2つの範囲R11,R12それぞれにおける見出し候補SE1〜SE2,SE4〜SE16をグループ化(ステップS104)した結果を示す図である。図17(A)には、前回の範囲R1における代表グループ(グループ2)に属する見出し(小領域SE3)の位置を基準として、2つの範囲R11,R12が設定された例が示されている。図17(B)には、図17(A)に示した範囲R11,R12それぞれに対して、見出し候補(小領域)がグループ化された結果が示されている。
範囲R11において、見出し候補SE1,SE2が、“グループ1_1”である。範囲R12において、見出し候補SE5,SE6,SE9,SE10,SE12,SE13,SE15,SE16が、“グループ1_2”である。範囲R12におけるグループ3およびグループ4は、範囲R1のときと同じである。
範囲R11,R12内のグループに対する見出し判定の結果を、図18に示す。
図18(A)は、範囲R11内のグループ1_1に対する見出し判定の結果を示す表である。図17(B)および図18(A)を参照して、範囲R11内には、グループ1_1しか含まれず、範囲R11内に本文領域が存在しない。そのため、このような範囲R11内のグループ1_1に対しては、見出し抽出ルールを適用することなく見出し判定を終了することとしてもよい。
図18(B)は、範囲R12内のグループ1_2,グループ3,グループ4に対する見出し判定の結果を示す表である。範囲R12では、グループ3が、総ポイントが最も高く、かつ、しきい値(5点)以上である。したがって、範囲R12における代表グループは、グループ3と選択される(ステップS108,ステップS110でYES)。これにより、グループ3に属する見出し候補SE4,SE7,SE14は、見出し領域と判定され、当該領域SE4,SE7,SE14の位置情報がしおりデータ生成部17に出力される(ステップS112,S114)。
図19は、元の範囲R12が、範囲R12における代表グループ(グループ3)に属する見出し(領域SE4,SE7,SE14)の位置を基準として、3つの範囲R21,R22,R23に分割された例を示す図である。
範囲R21,R22,R23ごとに、再度、見出し候補のグループ化が行なわれる(ステップS104)。範囲R21において、見出し候補SE5,SE6が“グループ1_2_1”である。範囲R22において、見出し候補SE9,SE10,SE12,SE13が“グループ1_2_2”である。範囲R22におけるグループ4は、範囲R1のときと同じである。範囲R23において、見出し候補SE15,SE16が“グループ1_2_3”である。
範囲R21,R22,R23内のグループに対する見出し判定の結果を、図20に示す。
図20(A)は、範囲R21内のグループ1_2_1に対する見出し判定の結果を示す表である。図20(B)は、範囲R22内のグループ1_2_2,グループ4に対する見出し判定の結果を示す表である。図20(C)は、範囲R23内のグループ1_2_3に対する見出し判定の結果を示す表である。
図20(A)を参照して、範囲R21には、本文領域BE1が存在するが、本文領域BE1は、範囲R21の最上流に位置しているため、グループ1_2_1の総ポイントは、−7点と低い値となる。このように、グループ1_2_1の総ポイントはしきい値(5点)未満であるので、範囲R21に代表グループは存在しないと判断される(ステップS110にてNO)。その結果、グループ1_2_1は、見出し候補から除外される。
図20(B)を参照して、範囲R22では、グループ4が、総ポイントが最も高く、かつ、5点以上である。したがって、範囲R22における代表グループは、グループ4と選択される(ステップS108,ステップS110でYES)。これにより、グループ4に属する見出し候補SE8,SE11は、見出し領域と判定され、当該領域SE8,SE11の位置情報がしおりデータ生成部17に出力される(ステップS112,ステップS114)。
図20(C)を参照して、範囲R23内のグループ1_2_3の総ポイントは、3点であり、しきい値(5点)未満である。したがって、範囲R23に代表グループは存在しないと判断される(ステップS110にてNO)。その結果、グループ1_2_3は、見出し候補から除外される。
図21は、代表グループが存在した元の範囲R22が、範囲R22における代表グループ(グループ4)に属する見出し(領域SE8,SE11)の位置を基準として、2つの範囲R31,R32に分割された例を示す図である。
範囲R31,R32ごとに、再度、見出し候補のグループ化が行なわれる(ステップS104)。範囲R31において、見出し候補SE9,SE10が“グループ1_2_3_1”である。範囲R32において、見出し候補SE12,SE13が“グループ1_2_3_2”である。
範囲R31,R32内のグループに対する見出し判定の結果を、図22に示す。
図22(A)は、範囲R31内のグループ1_2_3_1に対する見出し判定の結果を示す表である。図22(B)は、範囲R32内のグループ1_2_3_2に対する見出し判定の結果を示す表である。
図22(A)を参照して、範囲R31には、本文領域BE2が存在するが、本文領域BE2は、範囲R31の最上流に位置しているため、グループ1_2_3_1の総ポイントは、−7点と低い値となる。このように、グループ1_2_3_1の総ポイントはしきい値(5点)未満であるので、範囲R31に代表グループは存在しないと判断される(ステップS110にてNO)。その結果、グループ1_2_3_1は、見出し候補から除外される。
図22(B)を参照して、範囲R32内のグループ1_2_3_2の総ポイントは、8点であり、5点以上である。したがって、グループ1_2_3_2は、範囲R32の代表グループと決定される(ステップS108,ステップS110でYES)。これにより、グループ1_2_3_2に属する見出し候補SE12,SE13は、見出し領域と判定され、当該領域SE12,SE13の位置情報がしおりデータ生成部17に出力される(ステップS112,S114)。
グループ1_2_3_2に属する見出しの位置から新たな範囲を設定するが、範囲内に見出し候補を含まないため無効とする。
図10に示したサンプル文書30に対して設定された見出し領域を、図23,図24に示す。
図23を参照して、図13(B)に示した小領域(見出し候補)SE1〜SE14のうち、グレー以外の領域SE3,SE4,SE7,SE8,SE11〜SE14が見出し領域と判定されている。これらの領域は、上記処理の結果、見出しのグループ(代表グループ)として抽出されたグループ2,グループ3,グループ4,グループ1_2_3_2に属する領域である。
グレーで示された小領域SE1,SE2,SE5,SE6,SE9,SE10,SE15,SE16は、上記処理の結果、見出しから除外されたグループ1_1,グループ1_2_1,グループ1_2_3,グループ1_2_3_1に属する領域である。
図24を参照すると、非見出しとして判定された見出し候補SE1,SE2,SE5,SE6,SE9,SE10,SE15,SE16は、背景文字の領域に対応していることが分かる。
以上のように、本実施の形態によると、背景文字が繰り返し挿入されたような文書に対しても、段階的な範囲の絞り込みと、算出が容易な少数のスタイル種別(左開始位置および行高さ)による特徴量の使用とによって、適切に見出しを抽出することが可能となる。
<比較例>
図10に示したサンプル文書30に対して、範囲の絞り込みを行なわず文書全体を1つの範囲とした場合の見出し判定を、本実施の形態の比較例として説明する。
比較例においても、図13(B)に示したような見出し候補の文字列要素領域(小領域)SE1−SE16が検出されていると仮定する。
図25は、本発明の実施の形態における見出し抽出処理の比較例を説明するための図である。
図25には、各見出し候補SE1−SE16について、上記スタイル種別「左開始位置」および「行高さ」それぞれの特徴量が示されている。
従来のグループ分けでは、左開始位置および行高さが類似した見出し候補を同じグループに分けるルールが、全ての見出し候補SE1−SE16に対して用いられる。これによるグループ分けの結果が、図25の右側の列に示されている。なお、比較例におけるグループ分けの結果は、本実施の形態にける範囲R1でのグループ分けの結果と等しい。
比較例では、グループ1には、背景文字と見出しが混在している。そのため、この状態のままでは見出しを適切に抽出できない。引き続いて、グループを選択するルールを適用しても、見出し候補SE12,SE13を見出しとしない判定抜け、または背景文字を見出しとする誤判定が生じる。
見出し候補SE12,13と背景文字とを区別できるようなスタイル種別による特徴量を追加することも考えられるが、有効なスタイル種別の選定は文書タイプに依存し容易ではない。また、判定に用いるスタイル種別の追加に伴い、新たな処理の追加が必要であり、コスト増加や処理時間の増加が生じる。
これに対し、本実施の形態では、見出し抽出ルールを適用する範囲を適切に設定し、範囲内でのグループ特性を用いて見出しを抽出するため、MFP1によれば、レベルが異なる複数の見出しにも対応可能である。
<変形例>
見出し抽出処理において行なわれた範囲設定の細分化のレベルに応じて、見出し領域を階層分けすることもできる。このことについて、上記サンプル文書30を例に説明する。サンプル文書30に対して、はじめに設定された範囲R1をレベル1、範囲R1より分割された範囲R11,R12をレベル2、範囲R12より分割された範囲R21,R22,R23をレベル3、範囲R22より分割された範囲R31,R32をレベル4とする。そうすると、レベル1の見出し領域(つまり、範囲R1から抽出された見出し領域)が最上位の階層、レベル2の見出し領域(つまり、範囲R12から抽出された見出し領域)が、レベル1の見出し領域の次の階層といったように、見出し領域を階層分けすることができる。つまり、範囲の分割(絞り込み)により、見出し領域の親子関係を検出することができる。
このように見出し領域を階層分けする場合、各見出し領域の階層を示すデータもしおりデータ生成部17に出力してよい。しおりデータ生成部17は、見出し領域ごとの階層データに基づいて、PDFへ付与するしおりを階層化してもよい。
また、しおりデータ生成部17は、ユーザにより選択された階層の見出し領域(たとえば、階層1〜3の見出し領域)のみをしおりとしてPDFへ付与することとしてもよい。または、ユーザが見出し抽出処理の前に、見出し抽出の階層数を指定しておくと、ユーザが指定した階層レベルで見出し抽出を終了してもよい。このように、見出しの階層ごとに利用形態を変更することで、しおり作成の利便性が向上する。
また、上記実施の形態では、グループ化に用いるスタイル種別として左辺開始位置および行高さを用いたが、レイアウト上有意な他のスタイル種別を用いてもよい。例えば、文字色,背景色,領域の中央位置,領域の行揃えの違い(左寄せ、右寄せ、中央揃えを判定して別グループにする)、線幅の太さ,上下の領域との間隔などを用いてもよい。また、これらのスタイル種別のうち、グループ化に用いるものを、ユーザに選択させてもよい。ユーザは、処理対象の文書中の、見出しとそれ以外(背景文字など)との特徴(属性)の違いに着目して、グループ化に適切なスタイル種別を選択することができる。このようにすることで、より多様なスタイルの文書に対応可能になる。
また、上記実施の形態では、グループを評価するルールに用いるグループ特性として、設定された範囲に依存する他の特徴(項目)を用いてもよい。
たとえば、グループ内の見出し候補領域の個数の少なさ(個数が少ない方がポイントが高い)、グループ内の見出し候補領域の最上流と最下流の間の読み順に沿った距離の大きさ(距離が大きい方がポイントが高い)などがある。このように、設定された範囲に依存する項目をさらに用いることで、より多様なスタイルの文書に対応することができる。その結果、見出し抽出の精度をさらに向上させることができる。
また、上記実施の形態では、文書の内容が上から下へ進むことを想定した。他段組など、内容の進行方向が上下する文書の場合には、内容の進行方向に沿って上流であるか下流かを判断することで、このような文書にも対応可能である。
また、本実施の形態の文書画像処理装置が行なう、文書処理方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
なお、本実施の形態に係るプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本実施の形態に係るプログラムに含まれ得る。
また、本実施の形態に係るプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本実施の形態に係るプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 MFP、12 画像前処理部、13 画像バッファ部、14 圧縮処理部、15 電子化文書生成部、16 画像解析部、17 データ生成部、18 送信部、19 画像処理部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 データ格納部、161 検出部、162 見出し抽出部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部、213 メモリ部、215 CD−ROMドライブ、217 入出力インターフェイス部、217a メモリカード、MT 携帯端末、PC,PC1,PC2,PC3 パーソナルコンピュータ、SRV サーバ装置。

Claims (12)

  1. 文書画像から、見出し領域を抽出するための文書画像処理装置であって、
    前記文書画像を記憶するための記憶手段と、
    前記文書画像における複数の文字列要素領域のうち前記見出し領域の候補の領域を、見出し候補として検出するための検出手段と、
    検出された前記見出し候補のうちから、前記見出し領域を抽出する処理を行なうための抽出手段とを備え、
    前記抽出手段は、
    前記複数の文字列要素領域を含む範囲を処理対象の範囲に設定するための設定手段と、
    設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するためのグループ化手段と、
    グループごとにグループ特性を検出し、前記グループ特性の検出結果に所定の抽出ルールを適用することで、前記設定された範囲から、範囲を代表する代表グループを選択するための選択手段と、
    前記設定された範囲内の見出し候補のうち、前記代表グループに属する見出し候補を前記見出し領域の一部として判定するための判定手段と、
    前記代表グループに属する見出し候補の位置に基づいて、前記設定された範囲を分割するための分割手段とを含み、
    前記抽出手段は、分割後の範囲を新たに設定された範囲として、前記グループ化手段、前記選択手段および前記判定手段の処理を再実行する、文書画像処理装置。
  2. 前記グループ特性は、前記設定された範囲に依存した特徴を含む、請求項1に記載の文書画像処理装置。
  3. 前記依存した特徴は、前記設定された範囲内の見出し候補の上限位置、および、前記設定された範囲内の本文領域との順序関係の少なくともいずれかを含む、請求項2に記載の文書画像処理装置。
  4. 前記分割手段は、前記代表グループに属する見出し候補の前もしくは後で、前記設定された範囲を分割する、請求項2または3に記載の文書画像処理装置。
  5. 前記選択手段は、さらに、前記グループ特性の検出結果に前記抽出ルールを適用した場合に所定の基準を満たさないグループについては、前記代表グループから除外する、請求項4に記載の文書画像処理装置。
  6. 前記判定手段は、さらに、前記代表グループから除外されたグループのみが含まれる範囲内の見出し候補を、非見出しとして判定する、請求項5に記載の文書画像処理装置。
  7. 前記分割手段は、分割後の範囲のうち、前記判定手段による判定が未済みである見出し候補が存在している範囲を、前記新たに設定された範囲とする、請求項6に記載の文書画像処理装置。
  8. 前記選択手段は、前記グループ特性として、グループごとの前記スタイル種別による特徴量をさらに用いる、請求項2〜7のいずれかに記載の文書画像処理装置。
  9. 前記検出手段は、前記複数の文字列要素領域を小領域と大領域とに分類し、前記小領域を前記見出し候補として検出し、前記大領域を前記本文領域として検出する、請求項3に記載の文書画像処理装置。
  10. 前記抽出手段は、範囲の分割のレベルに応じて、前記見出し領域を階層化する、請求項1〜9のいずれかに記載の文書画像処理装置。
  11. 文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、前記記憶部に記憶された前記文書画像から見出し領域を抽出するための方法であって、
    前記文書画像における複数の文字列要素領域のうち前記見出し領域の候補の領域を、見出し候補として検出するステップと、
    前記複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、
    設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、
    グループごとにグループ特性を検出し、前記グループ特性の検出結果に所定の抽出ルールを適用することで、前記設定された範囲から、範囲を代表する代表グループを選択するステップと、
    前記設定された範囲内の見出し候補のうち、前記代表グループに属する見出し候補を前記見出し領域の一部として判定するステップと、
    前記代表グループに属する見出し候補の位置に基づいて、前記設定された範囲を分割するステップと、
    分割後の範囲を新たに設定された範囲として、前記グループ化するステップ、前記選択するステップおよび前記判定するステップの処理を再実行するステップとを備える、文書画像処理方法。
  12. 文書画像から見出し領域を抽出するためのプログラムであって、
    前記文書画像における複数の文字列要素領域のうち前記見出し領域の候補の領域を、見出し候補として検出するステップと、
    前記複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、
    設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、
    グループごとにグループ特性を検出し、前記グループ特性の検出結果に所定の抽出ルールを適用することで、前記設定された範囲から、範囲を代表する代表グループを選択するステップと、
    前記設定された範囲内の見出し候補のうち、前記代表グループに属する見出し候補を前記見出し領域の一部として判定するステップと、
    前記代表グループに属する見出し候補の位置に基づいて、前記設定された範囲を分割するステップと、
    分割後の範囲を新たに設定された範囲として、前記グループ化するステップ、前記選択するステップおよび前記判定するステップの処理を再実行するステップとをコンピュータに実行させる、文書画像処理プログラム。
JP2009223031A 2009-09-28 2009-09-28 文書画像処理装置、文書画像処理方法および文書画像処理プログラム Withdrawn JP2011070558A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009223031A JP2011070558A (ja) 2009-09-28 2009-09-28 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US12/889,908 US8538154B2 (en) 2009-09-28 2010-09-24 Image processing method and image processing apparatus for extracting heading region from image of document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009223031A JP2011070558A (ja) 2009-09-28 2009-09-28 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2011070558A true JP2011070558A (ja) 2011-04-07

Family

ID=43780471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009223031A Withdrawn JP2011070558A (ja) 2009-09-28 2009-09-28 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Country Status (2)

Country Link
US (1) US8538154B2 (ja)
JP (1) JP2011070558A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025331A (ja) * 2011-07-14 2013-02-04 Konica Minolta Business Technologies Inc 画像処理装置、同装置によるサムネイル画像作成方法及びサムネイル画像作成プログラム
JP2014164688A (ja) * 2013-02-27 2014-09-08 Kyocera Document Solutions Inc 画像処理装置及びこれを備えた画像形成装置
JP2015142263A (ja) * 2014-01-29 2015-08-03 シャープ株式会社 画像処理装置及び画像形成装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014078168A (ja) * 2012-10-11 2014-05-01 Fuji Xerox Co Ltd 文字認識装置及びプログラム
US10572587B2 (en) * 2018-02-15 2020-02-25 Konica Minolta Laboratory U.S.A., Inc. Title inferencer
US11468346B2 (en) * 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document
US20210319180A1 (en) 2020-01-24 2021-10-14 Thomson Reuters Enterprise Centre Gmbh Systems and methods for deviation detection, information extraction and obligation deviation detection
CN111859931B (zh) * 2020-07-27 2023-11-03 北京字节跳动网络技术有限公司 文本的提取处理方法、装置、终端和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11238096A (ja) 1998-02-20 1999-08-31 Ricoh Co Ltd 文書画像処理装置および文書画像処理方法,並びに文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
US6912555B2 (en) * 2002-01-18 2005-06-28 Hewlett-Packard Development Company, L.P. Method for content mining of semi-structured documents
US7233938B2 (en) * 2002-12-27 2007-06-19 Dictaphone Corporation Systems and methods for coding information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025331A (ja) * 2011-07-14 2013-02-04 Konica Minolta Business Technologies Inc 画像処理装置、同装置によるサムネイル画像作成方法及びサムネイル画像作成プログラム
CN102984417A (zh) * 2011-07-14 2013-03-20 柯尼卡美能达商用科技株式会社 图像处理装置及基于该装置的缩略图像生成方法
US8937737B2 (en) 2011-07-14 2015-01-20 Konica Minolta Business Technologies, Inc. Image processing apparatus, thumbnail image generating method, and recording medium
JP2014164688A (ja) * 2013-02-27 2014-09-08 Kyocera Document Solutions Inc 画像処理装置及びこれを備えた画像形成装置
JP2015142263A (ja) * 2014-01-29 2015-08-03 シャープ株式会社 画像処理装置及び画像形成装置

Also Published As

Publication number Publication date
US8538154B2 (en) 2013-09-17
US20110075932A1 (en) 2011-03-31

Similar Documents

Publication Publication Date Title
JP4181892B2 (ja) 画像処理方法
JP2011070558A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US9348799B2 (en) Forming a master page for an electronic document
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP2009122760A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US8522138B2 (en) Content analysis apparatus and method
JP2008146605A (ja) 画像処理装置及びその制御方法
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
US8611666B2 (en) Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2004363786A (ja) 画像処理装置
JP6322086B2 (ja) 表示制御装置、表示装置、プログラム、記録媒体
JP2009145963A (ja) 文書処理装置および文書処理方法
JP5298997B2 (ja) 文書画像編集装置、文書画像編集方法、文書画像編集プログラム、及びその方法をコンピュータに実行させるプログラムを記憶したコンピュータ読み取り可能な記録媒体
JP4569162B2 (ja) 画像処理方法、画像処理プログラムおよび画像処理装置
JP2011018311A (ja) 画像検索装置、画像検索プログラムおよび記録媒体
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method
JP7470264B1 (ja) レイアウト解析システム、レイアウト解析方法、及びプログラム
US20230206660A1 (en) Image processing apparatus, image processing method, and storage medium

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20121204