JP2011039839A - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents
文書処理装置、文書処理方法および文書処理プログラム Download PDFInfo
- Publication number
- JP2011039839A JP2011039839A JP2009187381A JP2009187381A JP2011039839A JP 2011039839 A JP2011039839 A JP 2011039839A JP 2009187381 A JP2009187381 A JP 2009187381A JP 2009187381 A JP2009187381 A JP 2009187381A JP 2011039839 A JP2011039839 A JP 2011039839A
- Authority
- JP
- Japan
- Prior art keywords
- text
- text area
- area
- document
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Image Analysis (AREA)
Abstract
【課題】図中テキストと背景付きテキストとを判別することにより、精度良く見出し領域を抽出することのできる文書処理装置、文書処理方法および文書処理プログラムを提供する。
【解決手段】文書処理装置1は、文書画像から、テキスト領域および非テキスト領域を特定し(ステップS4〜8)、特定されたテキスト領域のうち、非テキスト領域と重なったテキスト領域を、重畳テキスト領域として検出する(ステップS10)。非テキスト領域のうち、重畳テキスト領域が重なった領域について、背景グラフィックである度合いを表わす背景度を算出し(ステップS12)、背景度の算出結果に基づいて、重畳テキスト領域のうち、見出し領域の候補から除外するための図中テキストを検出する(ステップS14)。
【選択図】図6
【解決手段】文書処理装置1は、文書画像から、テキスト領域および非テキスト領域を特定し(ステップS4〜8)、特定されたテキスト領域のうち、非テキスト領域と重なったテキスト領域を、重畳テキスト領域として検出する(ステップS10)。非テキスト領域のうち、重畳テキスト領域が重なった領域について、背景グラフィックである度合いを表わす背景度を算出し(ステップS12)、背景度の算出結果に基づいて、重畳テキスト領域のうち、見出し領域の候補から除外するための図中テキストを検出する(ステップS14)。
【選択図】図6
Description
本発明は、文書処理装置、文書処理方法および文書処理プログラムに関し、特に、文書画像から見出し領域を検出することのできる文書処理装置、文書処理方法および文書処理プログラムに関する。
スキャン文書(文書画像)から自動で見出し領域を抽出する技術において、図中テキスト(図の中に存在するテキスト要素)や図キャプション(図の近傍に存在するテキスト要素)が見出しとして誤検出されることがある。図中テキストや図キャプションは、本文とは独立しているためである。
このような誤検出を避けるために、特許文献1では、図の近傍内のテキストについては見出しとして検出しないことが記載されている。
また、特許文献2では、文書画像の空白領域を解析することにより文書要素に分解し、その過程でキャプションが検出できた場合は図表と認識し、そのキャプションと図表近傍のテキストとを図表の一部とみなすことが記載されている。
しかしながら、見出しとして検出すべき背景付きテキストがスキャン文書に含まれていた場合、上記のような従来技術を適用すると、背景付きテキストとテキスト付きの図とを区別できないため、見出しの検出漏れを起こしてしまう。つまり、背景付きテキストも図中テキスト(図,表などと重なっているテキスト)と認識されるため、背景付きテキストが見出し候補から除外されてしまうという問題がある。このように、背景付きテキストとテキスト付きの図とを区別できないことが、新たな検出精度低下の要因の一つとなっていた。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、図中テキストと背景付きテキストとを判別することにより、精度良く見出し領域を抽出することのできる文書処理装置、文書処理方法および文書処理プログラムを提供することである。
この発明のある局面に従う文書処理装置は、文書画像から見出し領域を抽出するための文書処理装置であって、文書画像から、第1のテキスト領域および第1の非テキスト領域を特定するための特定手段と、特定された第1のテキスト領域のうち、第1の非テキスト領域と重なったテキスト領域を、第2のテキスト領域として検出するための第1の検出手段と、第1の非テキスト領域のうち、第2のテキスト領域が重なった第2の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するための算出手段と、背景度の算出結果に基づいて、第2のテキスト領域のうち、見出し領域の候補から除外するための第3のテキスト領域を検出するための第2の検出手段とを備える。
好ましくは、第2の非テキスト領域内の画像の画像情報を記憶するための記憶手段をさらに備え、算出手段は、画像情報に基づいて得られる、第2の非テキスト領域内の画像における色または輝度の不均一度から、背景度を算出する。
より望ましくは、算出手段は、第2の非テキスト領域から、第2のテキスト領域との重なりを除いた部分における画像についての、色または輝度の不均一度を算出する。
好ましくは、算出手段は、第2の非テキスト領域に対する、第2のテキスト領域の位置から、背景度を算出する。
好ましくは、算出手段は、第2の非テキスト領域内の、複数の第2のテキスト領域の規則性から、背景度を算出する。
好ましくは、第2のテキスト領域の位置として、第2のテキスト領域が第2の非テキスト領域に完全に含まれるか否かを検出することににより、背景度を算出する。
好ましくは、複数の第2のテキスト領域の規則性として、第2のテキスト領域の先頭位置または中心位置の行方向へのばらつきの有無を検出することににより、背景度を算出する。
好ましくは、第2の検出手段は、第2のテキスト領域のうち、背景度が予め定められたしきい値以下である第2の非テキスト領域を検出し、検出された第2の非テキスト領域に重なった第2のテキスト領域を、第3のテキスト領域として検出する。
好ましくは、第2の検出手段は、各第2のテキスト領域について、重なった第2の非テキスト領域の背景度の総和を求め、総和または総和の平均が予め定められたしきい値以下である第2のテキスト領域を、第3のテキスト領域として検出する。
好ましくは、第1の検出手段は、第1の非テキスト領域と所定の割合以上重なったテキスト領域を、第2のテキスト領域として検出する。
好ましくは、算出手段は、第2の非テキスト領域のうち、第2のテキスト領域の周囲の特定の範囲内に限定して、色または輝度の不均一度による背景度を算出する。
好ましくは、特定手段は、文書画像から複数の初期テキスト領域を抽出するための抽出手段と、予め定められた複数種類の特徴種別に基づいて初期テキスト領域を分割するための分割手段とを含み、第1のテキスト領域は、分割手段による処理後のテキスト領域を表わす。
この発明の他の局面に従う文書処理方法は、制御部を備えた文書処理装置において、文書画像から見出し領域を抽出するための方法であって、制御部が、文書画像から、第1のテキスト領域および第1の非テキスト領域を特定するステップと、制御部が、特定された第1のテキスト領域のうち、第1の非テキスト領域と重なったテキスト領域を、第2のテキスト領域として検出するステップと、制御部が、第1の非テキスト領域のうち、第2のテキスト領域が重なった第2の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、制御部が、背景度の算出結果に基づいて、第2のテキスト領域のうち、見出し領域の候補から除外するための第3のテキスト領域を検出するステップとを備える。
この発明のさらに他の局面に従う文書処理プログラムは、文書画像から見出し領域を抽出するためのプログラムであって、文書画像から、第1のテキスト領域および第1の非テキスト領域を特定するステップと、特定された第1のテキスト領域のうち、第1の非テキスト領域と重なったテキスト領域を、第2のテキスト領域として検出するステップと、第1の非テキスト領域のうち、第2のテキスト領域が重なった第2の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、背景度の算出結果に基づいて、第2のテキスト領域のうち、見出し領域の候補から除外するための第3のテキスト領域を検出するステップとをコンピュータに実行させる。
本発明によると、非テキスト領域と重なるテキスト領域のうち、見出し領域の候補から除外するためのテキスト領域(すなわち、図中テキスト)を検出することができる。その結果、見出し領域を精度良く検出することができる。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
<構成について>
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含む。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、MFP1は、読取った文書画像に含まれる文書要素のうち「見出し」であると特定されたものについて、付属情報を生成する。そして、MFP1は、読取った文書画像に付属情報を付加して、電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。
「文書要素」とは、文書を構成する記述要素である。「付属情報」は、「メタデータ(meta data)」とも称される。付属情報は、少なくとも文書画像内における位置を特定す
るための位置データを含み、さらに、たとえば各文書要素に対応するテキストデータなどを含んでもよい。付属情報は、たとえば「しおり」である。
るための位置データを含み、さらに、たとえば各文書要素に対応するテキストデータなどを含んでもよい。付属情報は、たとえば「しおり」である。
MFP1は、インターネットを介して、メールサーバMSおよび複数の端末PC1,PC2(以下、「端末PC」という)と接続されている。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書として生成することができる。
(MFP1の概略構成)
図2は、本発明の実施の形態に従うMFP1における概略のハードウェア構成を示すブロック図である。
図2は、本発明の実施の形態に従うMFP1における概略のハードウェア構成を示すブロック図である。
図2を参照して、MFP1の機能構成としては、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、操作パネル部110と、記憶部112とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構
成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、インターネットを介して端末PC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100の動作のためのプログラムや制御部100で生成された電子化文書などを格納する。
成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、インターネットを介して端末PC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100の動作のためのプログラムや制御部100で生成された電子化文書などを格納する。
操作パネル部110の外観例を図3に示す。操作パネル部110は、液晶表示装置やタッチパネルなどから構成される表示パネル110aと、ストップボタン110bと、スタートボタン110cと、英数キーなどを含む操作ボタン110dとを備えている。
なお、本実施の形態では、表示機能と指示の入力機能とを兼ね備えた操作パネル部110を備えることとしたが、これに代えて、表示部とハードウェアボタンを含む入力部との両方を備えることとしてもよい。
(端末の構成)
図4は、本発明の実施の形態に従う端末PCの概略のハードウェア構成を示す模式図である。
図4は、本発明の実施の形態に従う端末PCの概略のハードウェア構成を示す模式図である。
図4を参照して、端末PCは、たとえば一般的なパーソナルコンピュータであり、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、文書データ(MFP1で生成された電子化文書を含む)を表示するための閲覧アプリケーションプログラム(以下、「ビューワ」という)、および、文書データを印刷するための印刷ドライバソフトが記憶されている。このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られてよい。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置(図示せず)から電子化文書を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
なお、端末PCは、パーソナルコンピュータに限定されず、携帯電話などの携帯端末であってもよい。その場合の端末PCは、図4においてFDDドライブ217やCD−ROMドライブ215などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。
(MFPの機能構成)
本実施の形態におけるMFP1は、テキスト領域と非テキスト領域とが重なっている場合に、テキスト領域と重なっている非テキスト領域が、テキストの背景であるか否かを検出する。これにより、非テキスト領域と重なっているテキスト領域(以下「重畳テキスト領域」ともいう)が、図中テキストおよび背景付きテキストのいずれに対応するかが検出される。そして、図中テキストと判定されたテキスト領域については、見出し領域として判定しないことで、見出し領域を精度良く検出することができる。
本実施の形態におけるMFP1は、テキスト領域と非テキスト領域とが重なっている場合に、テキスト領域と重なっている非テキスト領域が、テキストの背景であるか否かを検出する。これにより、非テキスト領域と重なっているテキスト領域(以下「重畳テキスト領域」ともいう)が、図中テキストおよび背景付きテキストのいずれに対応するかが検出される。そして、図中テキストと判定されたテキスト領域については、見出し領域として判定しないことで、見出し領域を精度良く検出することができる。
なお、本実施の形態において、テキストの背景であると判断された非テキスト領域を「背景グラフィック」という。背景ではないと判断された非テキスト領域を「図領域」という。
また、「図中テキスト」とは、背景ではないと判断された非テキスト領域(図領域)に重なるテキスト領域を表わす。「背景付きテキスト」とは、背景と判断された非テキスト領域(背景グラフィック)に重なるテキスト領域を表わす。
以下に、MFP1の具体的な機能構成例を示す。
図5は、本発明の実施の形態に従うMFP1の機能構成を示す機能ブロック図である。
図5は、本発明の実施の形態に従うMFP1の機能構成を示す機能ブロック図である。
図5を参照して、MFP1の機能構成としては、画像読取部104と、画像バッファ部12と、圧縮処理部14と、特定部18と、図中テキスト検出部26と、見出し検出部28と、メタデータ生成部30と、電子化文書生成部32と、通信インターフェイス部108と、記憶部112とを含む。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像バッファ部12へ出力する。画像バッファ部12は、画像読取部104が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14および文書要素抽出部20に出力する。
圧縮処理部14は、画像バッファ部12から出力される文書画像を圧縮処理して、電子化文書生成部32へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はJPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
特定部18は、文書画像からテキスト領域および非テキスト領域を特定する。ここで特定されるテキスト領域および非テキスト領域は、1つの段落、1つの図など、まとまりごとに特定される。本実施の形態では、特定部18は、文書要素抽出部20と、文字認識部22と、テキスト要素分割部24とを含む。
文書要素抽出部20は、画像バッファ部12から出力される文書画像を解析し、当該文書画像に含まれる文書要素を抽出する。文書要素としては、テキスト要素、非テキスト要素がある。各文書要素は、矩形領域として検出される。テキスト要素の領域すなわち、テキスト領域の抽出は、たとえば、特開平6−214983号公報に開示される方法により可能である。また、その認識処理の過程において、図、写真、表など非テキスト要素の領域すなわち、非テキスト領域も抽出する。
文書要素抽出部20は、また、テキスト要素について、「段(段組)」を検出し、さらに、各段の「行方向」、および、各段の「接続情報」を検出する。そして、抽出した各段の接続情報に基づいて、テキスト領域をハンドリングする。このようにして検出されたテキスト領域を、「初期テキスト領域」という。また、初期テキスト領域内のテキスト要素を「初期テキスト要素」という。
段はたとえば、「図書の電子のための文書認識技術(鎌田 博、藤本 克仁、黒川 浩司)、雑誌FUJITSU、VOL.49,No.6、1998」に開示された公知技術で検出することができる。各段の接続情報は、各段が、文脈等からどの段に接続されるべきかを示す情報(すなわち段の順序を示す情報)であり、たとえば特開平10−40248号公報に開示される公知の技術で検出することができる。行方向の検出は、周知の方法で検出することができる。
文書要素抽出部20は、各文書要素の文書画像内における位置も抽出する。そして、初期テキスト領域について抽出された位置情報は、文字認識部22に出力される。
文字認識部22は、文書要素抽出部20にて抽出された初期テキスト領域について、文字認識すなわち、OCR(Optical Character Recognition)を実行する。具体的には、初期テキスト領域の各行について、文字認識処理により文字列を抽出する。これにより、各初期テキスト領域中の画像は、行単位でテキストデータに変換される。行単位のテキストデータは、テキスト要素分割部24に出力される。
テキスト要素分割部24は、文書要素抽出部20で抽出された初期テキスト領域(要素)を、本文・見出しが混在したり異なる種類の見出し同士が混在したりしないように、予め定められた条件に基づいて分割する。具体的には、たとえば、初期テキスト領域は、行単位のテキストデータの属性(特徴)に基づいて分割される。
テキスト要素分割部24は、たとえば、特開平6−214983号公報の参考文献に開示されているような複数種類の行特徴を用いて、各初期テキスト領域を分割することができる。
本実施の形態では、次のような種類の行特徴(以下「特徴種別」という)すなわち、行間、文字間隔、行の高さ、行揃え(左揃え/中央揃え/右揃え)、インデント(上記参考文献では「オフセット」)、字下げの有無(上記参考文献では「第1行オフセット」)、特定行頭文字(上記参考文献では「小タイトル」)が用いられる。なお、本実施の形態では、行間、文字間隔、行高さ、インデントについては、予め定められた間隔で量子化された値を用いるものとする。
テキスト要素分割部24は、分割後の初期テキスト領域すなわち、見出し判別の処理対象となるテキスト領域の各々の要素について、上記のような特徴種別を利用して要素種別を判別する。
テキスト要素分割部24は、テキスト要素ごとに、文書画像中の対応する位置を示す位置データ、要素種別、および、テキスト要素に含まれる少なくとも一部の文字列データ(OCRテキスト)を図中テキスト検出部26に出力する。
本実施の形態では、上記のような手法によって、以下の処理対象となるテキスト領域(テキスト要素)と非テキスト領域(非テキスト要素)とを特定したが、上記手法に限定されない。
図中テキスト検出部26は、図などの非テキスト領域と位置が重なるテキスト領域を、「重畳テキスト領域」として検出する。そして、重畳テキスト領域と重なる非テキスト領域が、背景グラフィックか否かを判定する。つまり、重畳テキスト領域と重なる非テキスト領域の画像が、背景グラフィックか、それ以外(図、表、写真など)であるかが判定される。
これにより、背景グラフィックと判定された非テキスト領域と重なる重畳テキスト領域の要素が、背景付きテキストとして検出される。背景グラフィックでないと判定された非テキスト領域(すなわち図領域)と重なる重畳テキスト領域が、図中テキストとして検出される。このように、重畳テキスト領域と判定された文書要素が、図中テキストと背景付きテキストとに分類される。
背景グラフィックか否かの具体的な判定方法については後述する。
図中テキスト検出部26は、図中テキストと判定されたテキスト要素を見出し検出部28に通知する。
図中テキスト検出部26は、図中テキストと判定されたテキスト要素を見出し検出部28に通知する。
見出し検出部28は、まず、テキスト要素分割部24から得られる複数のテキスト領域のうち、図中テキストと判定されたものを除外する。そして、除外後のテキスト領域の中から見出し領域を検出する。言い換えると、除外後のテキスト領域で特定されるテキスト要素が、見出し要素として検出される。
具体的には次の手順により、見出し要素が抽出される。
まず、見出し検出部28は、上記7つの特徴種別(行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字)に基づいて、各テキスト要素をクラスタリングし、テキスト要素をグループ化する。つまり、同じような特徴量(属性)を有するテキスト要素を同一のグループとする。
まず、見出し検出部28は、上記7つの特徴種別(行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字)に基づいて、各テキスト要素をクラスタリングし、テキスト要素をグループ化する。つまり、同じような特徴量(属性)を有するテキスト要素を同一のグループとする。
また、各テキスト要素について、上記特徴種別それぞれの特徴量に基づいて、統合見出し度を算出する。統合見出し度の算出方法については後述する。
そして、統合見出し度が予め定められたしきい値以上のテキスト要素を特定する。特定されたテキスト要素を、見出し要素として検出(特定)する。なお、グループ単位で見出し要素を特定してもよい。たとえば、グループ内の統合見出し度の平均値が予め定められたしきい値以上のグループを特定し、特定されたグループ内のテキスト要素を、見出し要素として特定してもよい。
メタデータ生成部30は、見出し検出部28により見出し要素と検出されたテキスト要素について、位置データとテキストデータとを含むメタデータを生成する。そして、メタデータ生成部30は、生成したメタデータを電子化文書生成部32へ出力する。
電子化文書生成部32は、圧縮処理部14からの(圧縮された)文書画像に、メタデータ生成部30からのメタデータを付加することで、電子化文書を生成する。
電子化文書生成部32は、生成した電子化文書をユーザによる設定などに応じて、記憶部112へ格納し、または通信インターフェイス部108へ出力する。通信インターフェイス部108は、電子化文書生成部32で生成された電子化文書をLANなどのネットワークを介して、端末PC(図1)などへ送信する。
なお、図5に示した各機能ブロックの動作は、メモリ部102中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも1つについては、ハードウェアで実現されてもよい。
<動作について>
図6は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図6のフローチャートに示される電子化文書生成処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
図6は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図6のフローチャートに示される電子化文書生成処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
図5および図6を参照して、まず、画像読取部104が原稿300を(光学的に)読取って文書画像を生成する(ステップS2)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧縮処理して、電子化文書生成部32へ出力する。電子化文書生成部32において、公知の手法により電子化文書が生成される。
一方、文書要素抽出部20が、画像バッファ部12に格納された文書画像を解析し、文書画像中の文書要素を抽出する(ステップS4)。具体的には、初期テキスト領域(要素)および非テキスト領域(要素)が抽出される。文書要素の抽出について図7および図8を用いて説明する。
図7は、生成された文書画像の一例を示す図である。図8は、文書要素抽出直後の文書要素管理情報の一例を示す図である。
たとえば、図7に示すような画像を1頁目に持つ文書に対し、文書要素を抽出したとする。その場合、図8のような文書要素管理情報が得られる。
図8を参照して、文書要素管理情報は、6つの項目すなわち、要素ID、頁番号、領域左上座標、領域右下座標、要素種別および、OCRテキストの項目を含む。
要素IDは、各文書要素を一意に特定するための識別データである。なお、後の説明をし易くするために、図8では、要素ID“3”は存在していない。
頁番号は、対応の文書要素が存在するページを特定するための位置データである。また、領域左上座標および領域右下座標は、対応のテキスト要素のページ内での領域(矩形)を特定するための位置データである。領域左上座標および領域右下座標は、対応するテキスト要素の領域のサイズを特定するための情報でもある。
要素種別は、対応する文書要素の種別(セクション見出し、本文、図など)を特定するための情報である。なお、この時点では、テキスト要素の要素種別は検出されていないため、要素種別の項目において、テキスト要素と非テキスト要素(図,表,写真)とが区別されているのみである。
OCRテキストは、対応するテキスト要素の少なくとも一部のテキストデータである。なお、この時点では、OCR実行前なので、未検出であることを示すフラグ(*)が記述されている。
再び図6を参照して、文書要素が抽出されると、文字認識部22は、各初期テキスト領域の画像について文字認識(OCR)を実行する(ステップS6)。これにより、行単位のテキストデータが生成される。この時点で、文書要素管理情報におけるOCRテキストの項目に、認識された文字列が格納される。
図9は、文字認識実行後の文書要素管理情報の一例を示す図である。
図9を参照して、OCRテキストの項目には、たとえば、最初の1行目の文字列のみ格納される。または、行頭文字から所定バイト数の文字列のみが格納されてもよい。
図9を参照して、OCRテキストの項目には、たとえば、最初の1行目の文字列のみ格納される。または、行頭文字から所定バイト数の文字列のみが格納されてもよい。
続いて、テキスト要素分割部24は、各初期テキスト領域を、上記7つの特徴種別(行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字)を用いて分割する(ステップS8)。初期テキスト領域が分割されると、分割後の各領域が以降の処理対象のテキスト領域として特定される。これにより、初期テキスト要素が分割される。
図10は、テキスト要素の分割後の文書要素管理情報の一例を示す図である。
図10を参照して、図8,9における要素ID“4”の初期テキスト要素が、2つに分割されている。図10における要素ID“3”のテキスト要素は、図8,9における要素ID“4”の初期テキスト要素の一部である。図10における要素ID“4”のテキスト要素は、図8,9における要素ID“4”の初期テキスト要素の残りの部分である。
図10を参照して、図8,9における要素ID“4”の初期テキスト要素が、2つに分割されている。図10における要素ID“3”のテキスト要素は、図8,9における要素ID“4”の初期テキスト要素の一部である。図10における要素ID“4”のテキスト要素は、図8,9における要素ID“4”の初期テキスト要素の残りの部分である。
本実施の形態では、この時点において、各テキスト要素が本文であるか見出し候補であるかが暫定的に判別される。なお、この時点で見出し候補には、要素種別が「タイトル(表題)」、「セクション(章・節・項)見出し」、「図中テキスト(仮)」が含まれる。
要素種別の判別は、上述の特開平6−214983号公報の参考文献など、公知の技術により実現可能である。
各テキスト要素について、テキスト要素の種別が暫定的に判別された場合の文書要素管理情報の一例を図11に示す。
本実施の形態では、「図中テキスト(仮)」と判別されたテキスト要素が、図中テキストおよび背景付きテキストのいずれであるかを判定する。そして、後に詳述するように、図中テキストを除外した見出し候補の統合見出し度を算出することにより、見出しか否かを検出する。したがって、本実施の形態によると、図11において見出し候補であったテキスト要素から、精度良く見出しを抽出することができる。
次に、図中テキスト検出部26は、重畳テキスト領域を検出する(ステップS10)。つまり、ステップS8で得られたテキスト領域のうち、ステップS4で抽出された各非テキスト領域に、所定の割合(たとえば3割)以上重なるものを検出する。本実施の形態では、各要素の位置が矩形領域として抽出されているため、各要素を囲む領域同士で重なりを判定できる。
重畳テキスト領域の例を、図12および図13に示す。
図12に示した文書画像では、2つの非テキスト領域AR10,AR20がある。非テキスト領域AR10に重なるテキスト領域TX11(「2.詳細内容」)が、重畳テキスト領域として検出される。また、非テキスト領域AR20に重なるテキスト領域TX21(「減少傾向」)も、重畳テキスト領域として検出される。
図12に示した文書画像では、2つの非テキスト領域AR10,AR20がある。非テキスト領域AR10に重なるテキスト領域TX11(「2.詳細内容」)が、重畳テキスト領域として検出される。また、非テキスト領域AR20に重なるテキスト領域TX21(「減少傾向」)も、重畳テキスト領域として検出される。
図13に示した文書画像では、2つの非テキスト領域AR30,AR40がある。非テキスト領域AR30に重なるテキスト領域TX31(「世界経済のトレンド」)およびテキスト領域TX32(「−BRICSの台頭−」)が、重畳テキスト領域として検出される。また、非テキスト領域AR40に重なるテキスト領域TX41(「ロシア」)、テキスト領域TX42(「中国」)およびテキスト領域TX43(「インド」)も、重畳テキスト領域として検出される。
続いて、重畳テキスト領域と重なる各非テキスト領域について、背景度を算出する(ステップS12)。背景度は、(見出しを含む可能性のある)背景グラフィックである可能性の高さを示す。背景度を“B”で表わすと、背景度Bは、以下の式(1)により算出される。
B=1/(wcC+wiI+wtT) …(1)
ただし、wc,wi,wt:予め定められた重み係数。
ただし、wc,wi,wt:予め定められた重み係数。
“C”は、「判定対象画像」の色および/または輝度の不均一度を示す。「判定対象画像」とは、非テキスト領域内の画像であって、たとえば、非テキスト領域内における、重畳テキスト領域を除いた部分の画像を表わす。または、判定対象画像は、非テキスト領域から、重畳テキスト領域内における文字,記号などを構成している線や点のみが刳り貫かれた部分の画像であってもよい。
不均一度Cは、たとえば、判定対象画像のRGB値の共分散行列の対角和として算出される。あるいは、不均一度Cは、画像のエッジの総量として算出されてもよい。あるいは、RGB値に代えてCMYK値などを用いてもよい。また、輝度を用いて、公知の手法により不均一度Cが算出されてもよい。
不均一度Cは、均一である程低く、不均一である程高くなる。その結果、判定対象画像の色および/または輝度が均一である程、背景度は高くなる。
このように、判定対象画像の不均一度Cを算出するためには、判定対象画像についての画像情報が別途記憶されているものとする。本実施の形態では、たとえば、頁ごとに、テキスト部分のみの画像とテキスト以外(文字,記号などを構成している線や点のみが刳り貫かれた部分)の画像とを記憶している(これらの画像を合成すると元の画像となる)。本実施の形態では、両画像の画像情報は、画素単位で記憶されるが、限定的ではない。
なお、非テキスト領域の画像から重畳テキスト領域(矩形)を除いた部分を判定対象画像として、背景度を求めてもよい。または、(重畳テキスト領域を含んだ)非テキスト領域の画像を判定対象画像として背景度を求めてもよいが、上述の手法と比較すると精度は落ちる。
“I”は、位置ずれ度を表わし、重畳テキスト領域が非テキスト領域に完全に含まれる場合に「0」、そうでない場合には予め定められた正の定数として算出される。その結果、非テキスト領域内に重畳テキスト領域が完全に含まれる場合の方が、そうでない場合に比べて、背景度は高くなる。
“T”は、ばらつき度を表わし、一つの非テキスト領域に、複数個の重畳テキスト領域が含まれている場合に、以下に説明する値T1,T2のうち小さい方の値として算出される。値T1は、重畳テキスト領域中のテキスト行の先頭位置の行方向への画像座標の分散として算出される。値T2は、重畳テキスト領域中のテキスト行の中心位置の行方向への画像座標の分散として算出される。その結果、複数個の重畳テキスト領域の行の先頭位置または中心位置が統一されている(ばらつきが小さい)程、背景度は高くなる。なお、一つの非テキスト領域に一つの重畳テキスト領域しか含まれていない場合には、ばらつき度Tには、所定値(たとえば「0」)が代入されてよい。
上記式(1)により背景度Bが算出されると、図中テキスト検出部26は、背景度Bが予め定められたしきい値以上である非テキスト領域を、背景グラフィックと特定する。それ以外の非テキスト領域を図領域と判定する。図領域と判定された非テキスト領域に重なる重畳テキスト領域を、図中テキストとして検出する(ステップS14)。
図12および図13に示した例では、非テキスト領域AR10のような着色された矩形や、非テキスト領域AR30のような色帯が、背景グラフィックとして検出される。非テキスト領域AR10,AR30は、色(輝度)が均一であり、重畳テキスト領域を完全に含んでおり、かつ、非テキスト領域AR30のように2以上の重畳テキスト領域がある場合でもこれらの行方向のばらつきが少ないためである。
これに対し、非テキスト領域AR20内の表や、非テキスト領域AR40内の図は、図領域と判定される。非テキスト領域AR20,AR40は、色(輝度)が均一でなく、重畳テキスト領域を完全に含んでいないか、完全に含んでいたとしても、非テキスト領域AR40のように2以上の重畳テキスト領域がある場合にこれらの行方向のばらつきが大きいためである。
図6のステップS10〜S14の処理の結果は、テキスト管理情報に格納される。
図14は、テキスト管理情報の一例を示す図である。テキスト管理情報は、たとえばメモリ部102に一時記憶される。
図14は、テキスト管理情報の一例を示す図である。テキスト管理情報は、たとえばメモリ部102に一時記憶される。
図14を参照して、テキスト管理情報は、5つの項目すなわち、要素ID、重畳フラグ、図フラグ、要素グループおよび、見出しフラグの項目を含む。
テキスト管理情報における要素IDは、図11の文書要素管理情報に含まれるテキスト要素の要素IDを表わす。
重畳フラグは、対応するテキスト要素が重畳テキストか否かを示す識別データである。たとえば、重畳テキストと検出されたテキスト要素の重畳フラグは「1」にセットされ、他は「0」とされる。
図フラグは、対応するテキスト要素(重畳テキスト)が図中テキストか否かを示す識別データである。たとえば、図中テキストとして検出したテキスト要素の図フラグは「1」にセットされ、それ以外は「0」とされる。
要素グループID(=グループID)は、対応するテキスト要素が属するグループを一意に特定するための識別データであり、後述のステップS16の処理で決定される。なお、本実施の形態のような、テキスト要素のグループ化をした場合、同じ要素種別(たとえばセクション見出し)であっても、同じグループとは限らない。また逆に、異なる要素種別であったとしても、同一グループとなり得る。
見出しフラグは、対応するテキスト要素が見出しか否かを示す識別データである。たとえば、見出しであれば「1」、それ以外(非見出し)であれば「0」がセットされる。見出しか否かは、後述のステップS20の処理で判定される。
図6を再び参照して、次に、見出し検出部28は、図中テキスト以外のテキスト要素を上記7つの特徴種別に基づいてグループ化する(ステップS16)。このように、見出し検出部28は、ステップS8で特定された複数のテキスト要素から、ステップS14にて図中テキストと判定されたテキスト要素(つまり、図フラグが1にセットされたテキスト要素)を、見出し要素の検出対象から除外する。
グループ化処理がされると、各要素IDに対応付けて、グループIDを記憶する。
なお、本実施の形態では上記7つの特徴種別(行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字)を用いて初期テキスト領域の分割、および、テキスト要素のグループ化を行なうこととしたが、これら全ての特徴種別を用いなくてもよい。また、分割に用いる特徴種別とグループ化に用いる特徴種別とが完全に一致していなくてもよい。ただし、分割およびグループ化の精度をある程度高く保つためには、7つの特徴種別のうち、行の高さ、行揃えおよびインデントは必ず用いることが好ましい。
なお、本実施の形態では上記7つの特徴種別(行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字)を用いて初期テキスト領域の分割、および、テキスト要素のグループ化を行なうこととしたが、これら全ての特徴種別を用いなくてもよい。また、分割に用いる特徴種別とグループ化に用いる特徴種別とが完全に一致していなくてもよい。ただし、分割およびグループ化の精度をある程度高く保つためには、7つの特徴種別のうち、行の高さ、行揃えおよびインデントは必ず用いることが好ましい。
見出し検出部28は、対象のテキスト要素(図フラグが1ではないテキスト要素)ごとに、統合見出し度を算出する(ステップS18)。この処理について、具体的に説明する。
各特徴種別iについては、特徴種別の各値に対して、個別見出し度hi(vi)が予め設定されている。たとえば、特徴種別iを「文字サイズ」と仮定すると、その特徴量(vi):…、10、12、…それぞれに対して、見出しらしさを表わす個別見出し度hi:…、50、100、…が予め設定されている。
本実施の形態では、たとえば、特徴種別ごとに、特徴種別の各値と個別見出し度とが対応付けられたテーブルが、メモリ部102に予め記憶されている。
各テキスト要素kについて、各個別見出し度に初期設定の重みwiを掛ける。そして、個別見出し度の重み付け総和により、テキスト要素kごとの統合見出し度Hkが算出される。
統合見出し度Hkは、以下の式(2)により求められる。
なお、初期設定の重み係数wiは、たとえば、多数の文書を対象にした実験の結果に基づいて、予め定められている。
統合見出し度が算出されると、見出し検出部28は、見出し要素を検出する(ステップS14)。具体的には、グループごとに、統合見出し度の平均値を算出し、算出された平均値が予め定められたしきい値以上のグループを特定する。特定されたグループ内の全てのテキスト要素を見出し要素として検出する。統合見出し度の平均値が予め定められたしきい値未満のグループのテキスト要素を非見出し要素と特定する。
なお、本実施の形態では、上記のような手法で、見出し要素を検出した。しかし、見出し要素の検出方法は、このような手法に限定されず、たとえば、公知の線形・非線形の識別器(たとえば、ニューラルネットワーク、サポートベクターマシン、LVQ(Learning vector quantization))などを適用可能である。これらの識別器についても、重みまたはそれと同等の意味を持つパラメータが存在し、同様の処理を行なうことができる。
または、公知の手法により判別された要素種別が、「タイトル(表題)」および「セクション(章・節・項)見出し」と判別されたテキスト要素を、見出し要素として検出してもよい。
見出し検出部28は、見出し要素と判定したテキスト要素の見出しフラグを「1」にセットする。
見出し検出部28は、見出し検出が終わると、見出しフラグが1(見出し)であるテキスト要素についての文書要素データをメタデータ生成部30に出力する。具体的には、図11の文書要素管理情報のうち、見出しと判定された各テキスト要素について6項目のデータを出力する。その後、ステップS22に進む。
ステップS22において、メタデータ生成部30は、見出し検出部28より入力した情報に基づいて、見出し要素についてのメタデータ(見出しメタデータ)を生成する。そして、電子化文書生成部32が、圧縮処理部14からの(圧縮された)文書画像に、メタデータ生成部30からの見出しメタデータを付加する(埋め込む)ことで、電子化文書を生成する(ステップS116)。
さらに、ユーザの設定に応じて、電子化文書の出力処理が実行される(ステップS24)。具体的には、通信インターフェイス部108から、ネットワークを介して接続された所定の送信先に電子化文書が送信される。もしくは、ユーザの設定に応じて、記憶部112の所定のディレクトリに電子化文書が格納される。
以上で、本実施の形態における電子化文書の生成処理は終了する。
<電子化文書の構造例について>
図15は、本発明の実施の形態においてMFP1が生成する電子化文書400のデータ構造の一例を示す図である。
<電子化文書の構造例について>
図15は、本発明の実施の形態においてMFP1が生成する電子化文書400のデータ構造の一例を示す図である。
図15を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、メタデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。メタデータ部406には、文書画像に含まれる見出し要素を特定するための見出しメタデータが格納される。
図16は、見出しメタデータのデータ構造の一例を示す図である。
図16を参照して、見出しメタデータには、図11に示した文書要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。
図16を参照して、見出しメタデータには、図11に示した文書要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。
具体的には、見出しメタデータには、見出し要素ごとに、要素ID、頁番号、領域左上座標、領域右下座標、要素種別、OCRテキストが含まれる。見出しメタデータに含まれるこれらのデータは、既に説明済みであるため、ここでの説明は繰返さない。
以上のように、本実施の形態によると、テキスト領域と重なる非テキスト領域が背景グラフィックか否かが検出される。したがって背景グラフィックと判定された非テキスト領域と重なるテキスト領域を、見出し候補として見出し検出の対象とすることができる。その結果、見出し要素(領域)を精度良く検出することができる。
なお、本実施の形態では、非テキスト領域の背景度の算出に、色(輝度)の均一度、重なり度合い(重なる位置)、および、複数の重畳テキスト領域の行方向のばらつきを用いた。しかし、これら全てを用いるものに限定されず、これらのうち1つまたは2つを用いてもよい。ただし、色(輝度)の均一度は、背景度の算出に含めることが好ましい。
また、上記実施の形態では、図中テキストと判別されたテキスト領域は、見出し要素検出処理(図6のステップS16〜S20)の前に見出し候補から除外されることとした。しかしながら、全てのテキスト要素について見出し要素検出処理を行なった後で、図中テキストを見出し要素から除外してもよい。
または、文書要素抽出処理(ステップS4)において、図中テキストを判別し、要素分割(図6のステップS8)以降の処理で、図中テキストと判別された領域を除外してもよい。
<変形例1>
背景度のパラメータC(色(輝度)の不均一度)を算出する対象の画像すなわち、判定対象画像の変形例について説明する。
背景度のパラメータC(色(輝度)の不均一度)を算出する対象の画像すなわち、判定対象画像の変形例について説明する。
上記実施の形態では、判定対象画像は、非テキスト領域内における、重畳テキスト領域を除いた部分の画像として説明した。つまり、判定対象画像を囲む矩形は、非テキスト要素を囲む矩形と一致していた。
本実施の形態の変形例1について、図17および図18を参照してより詳細に説明する。
図17を参照して、非テキスト要素の外形が、矩形ではない飾り枠501であるとする。その場合、非テキスト領域は、破線502で囲まれた領域である。
上記実施の形態では、判定対象画像を囲む矩形は、破線で示された矩形502と一致していたため、飾り枠501自体も色(輝度)の不均一度の算出対象となっていた。
判定対象画像を囲む矩形は、非テキスト領域を囲む矩形(破線502)よりも内側に設定されてもよい。たとえば、判定対象画像を囲む矩形は、重畳テキスト領域503の周囲の所定範囲の位置(矩形504)としてもよい。矩形504は、たとえば、重畳テキスト領域503を所定倍率分だけ拡大した領域である。
判定対象画像を、矩形504で囲まれる領域内とすることにより、飾り枠501の影響で、本来背景グラフィックである非テキスト要素の領域を、図領域と誤検出する可能性を低減することができる。
また、用紙をスキャンする際に、画像を歪んで読み込んでしまった場合にも対応できる。図18を参照して、判定対象画像を、非テキスト領域を囲む矩形(破線512)よりも内側であって、テキスト領域513の周囲の所定範囲の位置(矩形514)とすることで、斜めに歪んだ非テキスト領域の矩形枠511が、色(輝度)の不均一度の算出への影響を低減することができる。
なお、矩形504,514は、重畳テキスト領域503,513を所定倍分拡大した領域であるとしたが、限定的ではない。たとえば、矩形504,514は、重畳テキスト領域503,513の各辺より所定の長さ分だけ範囲を広げた領域であってもよい。あるいは、矩形504,514は、非テキスト領域502,512を所定倍率分だけ縮小した領域であってもよいし、非テキスト領域502,512の各辺より所定の長さ分だけ範囲を狭めた領域であってもよい。
<変形例2>
上記実施の形態では、非テキスト領域の背景度を求め、背景度が低い(予め定められたしきい値未満の)非テキスト領域に重なるテキスト領域を、見出し候補から除外すべき図中テキストであると判定した。しかし、各テキスト領域の図中テキスト度(図中テキストらしさの度合い)を直接求めてもよい。
上記実施の形態では、非テキスト領域の背景度を求め、背景度が低い(予め定められたしきい値未満の)非テキスト領域に重なるテキスト領域を、見出し候補から除外すべき図中テキストであると判定した。しかし、各テキスト領域の図中テキスト度(図中テキストらしさの度合い)を直接求めてもよい。
具体的には、まず、各テキスト領域について、重なる非テキスト領域の背景度の総和の平均を算出する。この値は、背景付きテキスト度(背景付きテキストらしさの度合い)を表わしている。そして、算出された値が、予め定められたしきい値未満である(背景付きテキストらしくない)テキスト領域を、図中テキストと判定してもよい。
これにより、1つのテキスト領域が複数の非テキスト領域にまたがって重なっている場合にでも、そのテキスト領域が図中テキストであるか否かを容易に推定することができる。なお、上記例では、重なる非テキスト領域の背景度の総和の平均値に基づいて図中テキストを特定したが、重なる非テキスト領域の背景度の総和そのものに基づいて図中テキストを特定してもよい。この場合も、背景度の総和が、予め定められたしきい値未満であるテキスト領域を、図中テキストと判定してよい。
以上説明したような、本実施の形態およびその変形例1,2の文書処理装置(たとえばMFP1)が行なう文書処理方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
なお、本実施の形態にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本実施の形態にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 MFP、12 画像バッファ部、14 圧縮処理部、18 特定部、20 文書要素抽出部、22 文字認識部、24 テキスト要素分割部、26 図中テキスト検出部、28 見出し検出部、30 メタデータ生成部、32 電子化文書生成部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 操作パネル部、112 記憶部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部、213 メモリ部、215 CD−ROMドライブ、217 FDDドライブ、217a フレキシブルディスク、300 原稿、PC1,PC2 端末、MS メールサーバ。
Claims (13)
- 文書画像から見出し領域を抽出するための文書処理装置であって、
前記文書画像から、第1のテキスト領域および第1の非テキスト領域を特定するための特定手段と、
特定された前記第1のテキスト領域のうち、前記第1の非テキスト領域と重なったテキスト領域を、第2のテキスト領域として検出するための第1の検出手段と、
前記第1の非テキスト領域のうち、前記第2のテキスト領域が重なった第2の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するための算出手段と、
前記背景度の算出結果に基づいて、前記第2のテキスト領域のうち、前記見出し領域の候補から除外するための第3のテキスト領域を検出するための第2の検出手段とを備えた、文書処理装置。 - 前記第2の非テキスト領域内の画像の画像情報を記憶するための記憶手段をさらに備え、
前記算出手段は、前記画像情報に基づいて得られる、前記第2の非テキスト領域内の画像における色または輝度の不均一度から、前記背景度を算出する、請求項1に記載の文書処理装置。 - 前記算出手段は、前記第2の非テキスト領域に対する、前記第2のテキスト領域の位置から、前記背景度を算出する、請求項1または2に記載の文書処理装置。
- 前記算出手段は、前記第2の非テキスト領域内の、複数の前記第2のテキスト領域の規則性から、前記背景度を算出する、請求項1〜3のいずれかに記載の文書処理装置。
- 前記第2のテキスト領域の位置として、前記第2のテキスト領域が前記第2の非テキスト領域に完全に含まれるか否かを検出することににより、前記背景度を算出する、請求項3に記載の文書処理装置。
- 前記複数の第2のテキスト領域の規則性として、前記第2のテキスト領域の先頭位置または中心位置の行方向へのばらつきの有無を検出することににより、前記背景度を算出する、請求項4に記載の文書処理装置。
- 前記第2の検出手段は、前記第2のテキスト領域のうち、前記背景度が予め定められたしきい値以下である前記第2の非テキスト領域を検出し、前記検出された第2の非テキスト領域に重なった前記第2のテキスト領域を、前記第3のテキスト領域として検出する、請求項1〜4のいずれかに記載の文書処理装置。
- 前記第2の検出手段は、各前記第2のテキスト領域について、重なった前記第2の非テキスト領域の前記背景度の総和を求め、前記総和または前記総和の平均が予め定められたしきい値以下である前記第2のテキスト領域を、前記第3のテキスト領域として検出する、請求項1〜4のいずれかに記載の文書処理装置。
- 前記第1の検出手段は、前記第1の非テキスト領域と所定の割合以上重なったテキスト領域を、前記第2のテキスト領域として検出する、請求項1〜8のいずれかに記載の文書処理装置。
- 前記算出手段は、前記第2の非テキスト領域のうち、前記第2のテキスト領域の周囲の特定の範囲内に限定して、色または輝度の不均一度による前記背景度を算出する、請求項2に記載の文書処理装置。
- 前記特定手段は、
前記文書画像から複数の初期テキスト領域を抽出するための抽出手段と、
予め定められた複数種類の特徴種別に基づいて前記初期テキスト領域を分割するための分割手段とを含み、
前記第1のテキスト領域は、前記分割手段による処理後のテキスト領域を表わす、請求項1〜10のいずれかに記載の文書処理装置。 - 制御部を備えた文書処理装置において、文書画像から見出し領域を抽出するための方法であって、
前記制御部が、前記文書画像から、第1のテキスト領域および第1の非テキスト領域を特定するステップと、
前記制御部が、特定された前記第1のテキスト領域のうち、前記第1の非テキスト領域と重なったテキスト領域を、第2のテキスト領域として検出するステップと、
前記制御部が、前記第1の非テキスト領域のうち、前記第2のテキスト領域が重なった第2の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、
前記制御部が、前記背景度の算出結果に基づいて、前記第2のテキスト領域のうち、前記見出し領域の候補から除外するための第3のテキスト領域を検出するステップとを備えた、文書処理方法。 - 文書画像から見出し領域を抽出するためのプログラムであって、
前記文書画像から、第1のテキスト領域および第1の非テキスト領域を特定するステップと、
特定された前記第1のテキスト領域のうち、前記第1の非テキスト領域と重なったテキスト領域を、第2のテキスト領域として検出するステップと、
前記第1の非テキスト領域のうち、前記第2のテキスト領域が重なった第2の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、
前記背景度の算出結果に基づいて、前記第2のテキスト領域のうち、前記見出し領域の候補から除外するための第3のテキスト領域を検出するステップとをコンピュータに実行させる、文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009187381A JP2011039839A (ja) | 2009-08-12 | 2009-08-12 | 文書処理装置、文書処理方法および文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009187381A JP2011039839A (ja) | 2009-08-12 | 2009-08-12 | 文書処理装置、文書処理方法および文書処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011039839A true JP2011039839A (ja) | 2011-02-24 |
Family
ID=43767533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009187381A Withdrawn JP2011039839A (ja) | 2009-08-12 | 2009-08-12 | 文書処理装置、文書処理方法および文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011039839A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107689070A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 图表数据结构化提取方法、电子设备及计算机可读存储介质 |
-
2009
- 2009-08-12 JP JP2009187381A patent/JP2011039839A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107689070A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 图表数据结构化提取方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1999687B1 (en) | Efficient processing of non-reflow content in a digital image | |
EP2162859B1 (en) | Image processing apparatus, image processing method, and computer program | |
US8413048B1 (en) | Processing digital images including headers and footers into reflow content | |
US8023738B1 (en) | Generating reflow files from digital images for rendering on various sized displays | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
JP2009146064A (ja) | 画像処理装置、画像処理方法、そのプログラム及び記憶媒体 | |
US11574489B2 (en) | Image processing system, image processing method, and storage medium | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP2007004621A (ja) | 文書管理支援装置、文書管理支援方法およびプログラム | |
JP5412903B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP2017017455A (ja) | 画像処理装置およびコンピュータプログラム | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
JP2009169675A (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
US9858513B2 (en) | Document file output apparatus, document file output method, and computer readable medium | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP5098614B2 (ja) | 文章処理装置の制御方法および文章処理装置 | |
JP5051756B2 (ja) | 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム | |
US20150254884A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2011039839A (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
JP5310206B2 (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
US9400926B2 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium | |
JP4710672B2 (ja) | 文字色判別装置、文字色判別方法、およびコンピュータプログラム | |
JP7302175B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP6201686B2 (ja) | テキストデータの埋め込み装置、該装置を備えた画像処理装置、テキストデータの埋め込み方法及び埋め込みプログラム | |
JP2013069008A (ja) | 電子書籍作成装置、電子書籍表示装置、電子書籍作成方法、電子書籍表示方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20121106 |