JP2017084012A

JP2017084012A - 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体

Info

Publication number: JP2017084012A
Application number: JP2015210168A
Authority: JP
Inventors: 松岡　輝彦; Teruhiko Matsuoka; 輝彦松岡; 真彦高島; Masahiko Takashima; 和之濱田; Kazuyuki Hamada
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2017-05-18
Anticipated expiration: 2035-10-26
Also published as: JP6607490B2

Abstract

【課題】表のセルの中に画像など文字以外のオブジェクトが存在する場合でも、そのオブジェクトを文字として誤って抽出することなく、正しくオブジェクトを抽出して変換し、表の中にそのオブジェクトを正しく配置する。【解決手段】文書画像情報に存在する文字領域を抽出し、文書画像情報に存在する線分を抽出し、線分の情報を用い、表領域を抽出し、文書画像情報に対して、予め定められる局所領域を設定し、局所領域の輝度ヒストグラムを作成して局所領域の輝度変化情報を求め、輝度変化情報と、文字領域の情報と、線分の情報と、表領域の情報と、を用いて表領域の外、または表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行い、表領域における文字領域、線分、および画像オブジェクト領域をもとに表構造を解析し、表を再構成する表構造情報を取得する。【選択図】図７

Description

本発明は、変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体に関する。

従来、電子写真方式又はインクジェット方式等により画像形成を行う複写機又は複合機等の画像形成装置が広く普及している。また、近年の複合機は高機能化が進められており、スキャナにより読み取った文書を文書画像データ（以下、文書画像情報、または文書画像ともいう）として保存し、保存した文書画像を管理する機能等が求められている。一般に、スキャナにより読み取った文書は画像データとして保存されるため読み取った文書をそのまま再編集することはできない。これに対し、読み取った文書画像に含まれる文字や図表の情報を取得して再編集したいといった要望があり、更には文書画像に含まれる文字や図、表などの構造を認識し、文書作成ソフトウェアや、表計算ソフトウェア、またはプレゼンテーションソフトウェアなどで作成、使用されるオフィス文書ファイルとして再構成する機能への需要が高まっている。

こうしたオフィス文書ファイルへの変換処理機能を支える技術として、文書画像に含まれる文字や図、写真、表などといった要素を抽出、解析する技術が必要となる。既に、光学文字認識（Optical Character Recognition; OCR）技術により、文書画像に含まれる文字画像を解析して文字コードなどの情報に変換する機能が多くのスキャナなどにも搭載されている。これにより、文書画像中の文字画像の集合を編集可能なテキストデータとして取得することは一般に行われている。また、文書画像中に含まれる図や写真、また表の領域を分離、抽出するといった機能も種々提案されている。また、紙媒体でしか保存されていない帳票を作り直したり、膨大な実験データを表計算ソフトに入力したりといった利用例を考えると、特に表の再構成の頻度は高いと考えられる。しかし、文書画像から手動で同様のレイアウトの文書を作成する場合、表を再構成する作業が、特に手間のかかる作業であり、表の再構成の自動化がますます重要となっている。

こうした表画像から精度よく表を再構成するための技術が開発されている。たとえば、特許文献１に記載の技術では、枠に接触する文字等を含む画像から枠を正確に抽出し、文字等を高品位に復元可能とする画像抽出装置を提案している。この画像抽出装置では、画像を構成するパターンから画素と画素が繋がっている部分パターンを抽出し、抽出した各部分パターンに基づいて枠を抽出し、抽出した部分パターン及び枠に基づいて文字と枠との交点を算出する。枠の線幅に応じて枠を挟む文字線分間の距離及び傾きの連続性の判定基準を適応的に変化させ、距離及び傾きの連続性に基づいて算出した交点の対応付けを行い、対応付けた交点に基づいて枠内の文字線分を抽出する。これにより、１文字枠のサイズや位置がわからない矩形で分離した文字枠が複数個あり、その文字枠に接触、またはその文字枠からはみ出して手書き文字が書かれた場合であっても、良好に文字及び文字枠のパターンから文字部分だけを一文字、一文字切り出すことを可能としている。

特開平１１−３５３４１５号公報

しかしながら、特許文献１の手法の場合、電子化された文書の画像データから表領域を抽出し、再利用可能な表データに変換する際、表の中に写真やイラストなどの画像オブジェクトが存在する場合に、それを文字ではなく画像オブジェクトだと認識する手段がない。そのため、画像オブジェクトを文字として誤認識し、画像オブジェクトを間違った文字として再構成してしまう可能性があるという問題がある。

そこで、本発明では、表のセルの中に画像など文字以外のオブジェクトが存在する場合でも、そのオブジェクトを文字として誤って抽出することなく、正しくオブジェクトを抽出して変換し、表の中にそのオブジェクトを正しく配置することを可能とする変換処理装置、それを備えた情報処理装置、プログラム、並びに記憶媒体を提供することを目的とする。

上記問題を解決するために、本発明の一態様は、文書画像情報に存在する文字領域を抽出する文字抽出処理部と、前記文書画像情報に存在する線分を抽出するライン抽出処理部と、前記ライン抽出処理部より抽出される前記線分の情報を用い、表領域を抽出する表領域抽出処理部と、前記文書画像情報に対して、予め定められる局所領域を設定し、前記局所領域の輝度ヒストグラムを作成して前記局所領域の輝度変化情報を求め、前記輝度変化情報と、前記文字抽出処理部より抽出される前記文字領域の情報と、前記ライン抽出処理部より抽出される線分の情報と、前記表領域抽出処理部より抽出される表領域の情報と、を用いて前記表領域の外、または前記表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行う図領域抽出処理部と、前記表領域における前記文字領域の情報、前記線分の情報、および前記画像オブジェクト領域の情報をもとに表構造を解析し、表を再構成する表構造情報を取得する表構造化処理部と、を備えることを特徴とする変換処理装置である。

また、本発明の一態様は、上記に記載の発明において、前記文字抽出処理部が、前記文書画像情報から抽出する前記文字領域には、文字列を含む文字列領域も含まれており、前記図領域抽出処理部は、前記文書画像情報に対して、予め定められる局所領域を設定し、前記局所領域の輝度ヒストグラムを作成して前記局所領域の輝度変化情報を求め、前記輝度変化情報と、前記文字抽出処理部より抽出される前記文字列領域の情報と、前記ライン抽出処理部より抽出される線分の情報と、前記表領域抽出処理部より抽出される表領域の情報と、を用いて前記表領域の外、または前記表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行い、前記表構造化処理部は、前記表領域における前記文字列領域の情報、前記線分の情報、および前記画像オブジェクト領域の情報をもとに表構造を解析し、表を再構成する表構造情報を取得することを特徴としてもよい。

また、本発明の一態様は、上記に記載の発明において、前記文字列領域のオブジェクト、前記表領域のオブジェクト、前記線分領域のオブジェクト、前記画像オブジェクトの順番、または、前記文字列領域のオブジェクト、前記表領域のオブジェクト、前記画像オブジェクト、前記線分領域のオブジェクトの順番でオブジェクトを配置するように指定されたファイル形式で記述するファイル記述部をさらに備えることを特徴としてもよい。

また、本発明の一態様は、上記に記載の発明において、前記図領域抽出処理部は、前記文書画像情報に対してエッジ検出を行い、前記エッジ検出の結果から、前記文字抽出処理部より抽出される文書構成要素の１つである文字列領域を除外することにより、前記画像オブジェクト領域の候補となる非文字列マップを生成する非文字列マップ生成処理部と、前記輝度変化情報として、前記文書画像情報の局所領域におけるヒストグラムのエントロピーを算出し、算出したエントロピーの値が高い値である領域を前記画像オブジェクト領域の候補として前記非文字列マップに追加する非文字列エリア追加処理部と、前記画像オブジェクト領域の候補が追加された前記非文字列マップに対し、前記表領域抽出処理部より抽出される前記表領域の線分を削除し、前記表領域の線分を削除した非文字列マップに対してラベリング処理を行うことにより前記画像オブジェクト領域のラベル付けを行い、ラベル付けされた画像オブジェクト領域の矩形領域を求めることによりオブジェクトマップを生成するオブジェクトマップ生成処理部と、を備えることを特徴としてもよい。

また、本発明の一態様は、上記に記載の発明において、前記図領域抽出処理部は、前記画像オブジェクト領域の矩形領域それぞれについて、前記矩形領域の統合処理、または、前記矩形領域の分割処理を行う有効オブジェクトエリア判定処理部を備えることを特徴としてもよい。

また、本発明の一態様は、上記に記載の発明において、前記有効オブジェクトエリア判定処理部は、複数の前記画像オブジェクト領域の矩形領域が重複している場合には、複数の画像オブジェクトの矩形領域座標の最大値と最小値を算出し、重複している画像オブジェクト領域を１つの矩形領域に統合することを特徴としてもよい。

また、本発明の一態様は、上記に記載の発明において、前記有効オブジェクトエリア判定処理部は、前記画像オブジェクト領域の矩形領域に対し、前記文字列領域が重複している場合には、前記画像オブジェクトの矩形領域と前記文字列領域よりなる領域の、座標の最大値と最小値を算出し、前記画像オブジェクト領域と重複している文字列領域を１つの矩形領域に統合することを特徴としてもよい。

また、本発明の一態様は、上記に記載の発明において、前記有効オブジェクトエリア判定処理部は、前記画像オブジェクト領域の矩形領域に対し、前記表領域が重複している場合には、前記画像オブジェクト領域の矩形領域から前記表領域が重複している領域を排除すると共に、前記重複している表領域の水平方向の枠線、または、垂直方向の枠線の延長線上に沿って前記画像オブジェクト領域の矩形領域を分割することを特徴としてもよい。

また、本発明の一態様は、上記に記載の変換処理装置を備えることを特徴とする情報処理装置である。

また、本発明の一態様は、コンピュータを、文書画像情報に存在する文字領域を抽出する文字抽出処理手段、前記文書画像情報に存在する線分を抽出するライン抽出処理手段、前記ライン抽出処理手段より抽出される前記線分の情報を用い、表領域を抽出する表領域抽出処理手段、前記文書画像情報に対して、予め定められる局所領域を設定し、前記局所領域の輝度ヒストグラムを作成して前記局所領域の輝度変化情報を求め、前記輝度変化情報と、前記文字抽出処理手段より抽出される前記文字領域の情報と、前記ライン抽出処理手段より抽出される線分の情報と、前記表領域抽出処理手段より抽出される表領域の情報と、を用いて前記表領域の外、または前記表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行う図領域抽出処理手段、前記表領域における前記文字領域の情報、前記線分の情報、および前記画像オブジェクト領域の情報をもとに表構造を解析し、表を再構成する表構造情報を取得する表構造化処理手段、として機能させるためのプログラムである。

また、本発明の一態様は、上記に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

この発明によれば、表のセルの中に画像など文字以外のオブジェクトが存在する場合でも、そのオブジェクトを文字として誤って抽出することなく、正しくオブジェクトを抽出して変換し、表の中にそのオブジェクトを正しく配置することが可能となる。

本発明の実施の形態１による画像形成装置の構成を示すブロック図である。同実施の形態による変換処理部の構成を示すブロック図である。同実施の形態による表構造情報の一例を示す図（その１）である。同実施の形態による表構造情報の一例を示す図（その２）である。Ｗｏｒｄファイルのファイル構造の一例を示す図である。マークアップ言語を用いて記述された表の一例を示す図である。同実施の形態による図領域抽出処理部の構成を示すブロック図である。同実施の形態による表画像の一例を示す図である。同実施の形態による非文字列マップ生成処理部による処理の流れを示すフローチャートである。同実施の形態に適用されるラプラシアンフィルタと適用結果の一例を示す図である。同実施の形態による非文字列マップ生成処理部による処理が適用された表画像の一例を示す図である。同実施の形態による非文字列エリア追加処理部による処理の流れを示すフローチャートである。同実施の形態による非文字列エリア追加処理部による処理が適用された表画像の一例を示す図（その１）である。同実施の形態による非文字列エリア追加処理部による処理が適用された表画像の一例を示す図（その２）である。同実施の形態によるオブジェクトマップ生成処理部による処理の流れを示すフローチャートである。同実施の形態によるオブジェクトマップ生成処理部による処理が適用された表画像の一例を示す図（その１）である。同実施の形態によるオブジェクトマップ生成処理部による処理が適用された表画像の一例を示す図（その２）である。同実施の形態によるオブジェクトマップ生成処理部による処理が適用された表画像の一例を示す図（その３）である。同実施の形態による有効オブジェクトエリア判定処理部による処理の流れを示すフローチャートである。同実施の形態による有効オブジェクトエリア判定処理部による処理が適用された画像オブジェクトの一例を示す図（その１）である。同実施の形態による有効オブジェクトエリア判定処理部による処理が適用された画像オブジェクトの一例を示す図（その２）である。同実施の形態による有効オブジェクトエリア判定処理部による処理が適用された画像オブジェクトの一例を示す図（その３）である。本発明の実施の形態２による画像読取装置の構成を示すブロック図である。輝度変化情報の変形例を説明するための図である。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。本発明による実施形態では、電子化された文書の画像データから表領域を抽出し、再利用可能な表データに変換する際、表のセルの中に写真・図・グラフ・イラストといった文字以外の画像オブジェクトが存在する場合でも、その画像オブジェクトを文字として誤って抽出することなく、正しく画像オブジェクトを抽出して変換し、表の中にその画像オブジェクトを正しく配置する。また、画像オブジェクト領域同士や画像オブジェクト領域と文字列領域、画像オブジェクト領域と表領域が重なった場合でも、所定のファイルフォーマットに変換する際に見栄え良く変換する。

〔実施の形態１〕
以下の説明では、本発明に係る変換処理装置が変換処理部３０として画像処理装置１の一部を成し、また、その画像処理装置１が画像形成装置１００の一部を成す形態を例示する。図１は、実施の形態１に係る画像形成装置１００（情報処理装置）の機能的構成を示すブロック図である。画像形成装置１００は、例えば、コピー機能及びスキャナ機能等を有するデジタル複合機である。画像形成装置１００は、画像処理装置１、画像入力装置２、画像出力装置３、送信装置４、操作パネル５、及び記憶部６を備えている。

操作パネル５は、画像入力装置２、画像処理装置１、画像出力装置３及び送信装置４に接続されている。操作パネル５は、ユーザが画像形成装置１００の動作モードを設定するための設定ボタン及びテンキー等の操作部（不図示）と、液晶ディスプレイ等で構成される表示部（不図示）とを備える。

画像形成装置１００で実行される各種処理は、不図示の制御部（ＣＰＵ（Central Processing Unit）あるいはＤＳＰ（Digital Signal Processor）等のプロセッサを含むコンピュータ）が制御する。画像形成装置１００の制御部は、不図示のネットワークカード及びＬＡＮケーブルを介して、ネットワークに接続されたコンピュータ及び他のデジタル複合機等とデータ通信を行う。

以下、画像形成装置１００の各部について詳述する。画像入力装置２は、原稿から画像を光学的に読み取る。画像入力装置２は、たとえば、ＣＣＤ（Charge Coupled Device）を有するカラースキャナよりなり、原稿からの反射光像を、ＣＣＤを用いてＲＧＢ（Ｒ：赤，Ｇ：緑，Ｂ：青）のアナログ信号として読み取り、画像処理装置１へ出力する。画像入力装置２は、スキャナでなくてもよく、たとえば、デジタルカメラ等であってもよい。

画像処理装置１は、画像入力装置２が読み取った画像データに処理を施し、処理を施した画像データを保存、あるいは、送信するために圧縮ファイルを生成する。画像処理装置１は、画像入力装置２から入力されたＲＧＢのアナログ信号に対して、Ａ／Ｄ変換部１０、シェーディング補正部１１、原稿種別判別部１２、入力階調補正部１３、及び領域分離処理部１４により、各後述する画像処理を実行することによって、ＲＧＢのデジタル信号（以下、ＲＧＢ信号という）からなる画像データを生成する。

また、画像処理装置１は、領域分離処理部１４が出力したＲＧＢ信号に対して色補正部１５、黒生成下地除去部１６、空間フィルタ処理部１７、出力階調補正部１８、及び階調再現処理部１９により、各後述する画像処理を実行することによって、ＣＭＹＫ（Ｃ：シアン，Ｍ：マゼンタ，Ｙ：イエロー，Ｋ：ブラック）のデジタル信号からなる画像データを生成して、ストリームとして画像出力装置３へ出力する。なお、画像出力装置３へ出力される前に、画像データが記憶部６に一旦記憶されてもよい。記憶部６は、たとえば、不揮発性の記憶装置（たとえばハードディスク）である。

画像出力装置３は、画像処理装置１が生成した画像データに基づいて画像を出力する。画像出力装置３は、画像処理装置１から入力された画像データに基づいて、熱転写、電子写真、又はインクジェット等の方式により、記録シート（たとえば記録用紙等）上にカラー画像を形成（印刷）して出力する。なお、画像出力装置３はカラー画像を出力する構成に限られるものではなく、たとえば、記録シート上にモノクローム画像（白黒画像）を形成して出力する構成であってもよい。この場合、画像処理装置１により、カラー画像の画像データがモノクローム画像の画像データに変換されてから画像出力装置３へ出力される。

更にまた、画像処理装置１において、領域分離処理部１４が出力したＲＧＢ信号に対して圧縮処理部２０が、画像圧縮処理を実行することによって、圧縮されたカラー画像の画像データを有する圧縮ファイルを生成し、送信装置４へ出力する。なお、送信装置４へ出力される前に、圧縮ファイルが記憶部６に一旦記憶されてもよい。

画像処理装置１の変換処理部３０は、操作パネル５においてフォーマット変換モードが選択されている場合、領域分離処理部１４が出力したＲＧＢ信号に対してフォーマット変換処理を実行する。このフォーマット変換処理により、変換処理部３０は、後述のように、カラー画像が有する文書レイアウトを解析して文書構造ツリーを生成し、この文書構造ツリーを操作パネル５においてユーザが選択したフォーマットに変換して、送信装置４へ出力する。なお、変換処理部３０は、本発明に係る変換処理装置として機能する機能部でもある。また、送信装置４へ出力される前に、変換されたファイルが記憶部６に一旦記憶されてもよい。

送信装置４は、画像処理装置１が生成した圧縮ファイルを外部へ送信する。送信装置４は、図示しない公衆回線網、ＬＡＮ（Local Area Network）又はインターネット等の通信ネットワークに接続可能であり、ファクシミリ又は電子メール等の通信方法により、通信ネットワークを介して外部へ圧縮ファイルを送信する。たとえば、操作パネル５において「scan to e-mail」モードが選択されている場合、ネットワークカード、モデム等を用いてなる送信装置４は、圧縮ファイルを電子メールに添付し、設定された送信先へ送信する。

なお、ファクシミリ送信を行う場合は、画像形成装置１００の制御部が、モデム等を用いてなる送信装置４により、相手先との通信手続きを行い、送信可能な状態が確保されたときに、圧縮ファイルに対して圧縮形式の変更等の必要な処理を施してから、相手先に通信回線を介して順次送信する。
また、ファクシミリを受信する場合、画像形成装置１００の制御部は、送信装置４により、通信手続きを行いながら、相手先から送信されてくる圧縮ファイルを受信して、画像処理装置に入力する。

画像処理装置１では、受信した圧縮ファイルに対し、不図示の圧縮／伸張処理部で伸張処理が施される。圧縮ファイルを伸張することによって得られた画像データには、必要に応じて、不図示の処理部で回転処理及び／又は解像度変換処理等が施され、また、出力階調補正部１８で出力階調補正が施され、階調再現処理部１９で階調再現処理が施される。各種画像処理が施された画像データは、画像出力装置３へ出力され、画像出力装置３により、記録シート上に画像が形成される。

以下では、画像処理装置１の構成について、画像処理装置における画像処理及びフォーマット変換処理を詳述しながら説明する。Ａ／Ｄ変換部１０は、画像入力装置２から画像処理装置１へ入力されたＲＧＢのアナログ信号を受け付け、ＲＧＢのアナログ信号をＲＧＢのデジタル信号（即ちＲＧＢ信号）へ変換し、変換したＲＧＢ信号をシェーディング補正部１１へ出力する。

シェーディング補正部１１は、Ａ／Ｄ変換部１０から入力されたＲＧＢ信号に対して、画像入力装置２の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。次いで、シェーディング補正部１１は、歪みを取り除いたＲＧＢ信号を原稿種別判別部１２へ出力する。原稿種別判別部１２では、シェーディング補正部１１から入力されたＲＧＢの反射率信号をＲＧＢ各色の濃度を示す濃度信号に変換し、文字、印刷写真、又は写真（連続階調写真）等の原稿のモードを判別する原稿種別判別処理が実行される。原稿種別判別処理を、ユーザが操作パネル５を用いてマニュアル設定する場合、原稿種別判別部１２は、シェーディング補正部１１から入力されたＲＧＢ信号をそのまま後段の入力階調補正部１３に出力する。原稿種別判別処理の処理結果は、後段の画像処理に反映される。

入力階調補正部１３は、ＲＧＢ信号に対して、カラーバランスの調整、下地濃度の除去、及びコントラストの調整等の画質調整処理を行う。入力階調補正部１３は、次に、処理を行ったＲＧＢ信号を領域分離処理部１４へ出力する。領域分離処理部１４は、入力階調補正部１３から入力されたＲＧＢ信号が表す画像中の各画素を、文字領域、網点領域、又は写真領域のいずれかに分離する。また、領域分離処理部１４は、分離結果に基づき、各画素がいずれの領域に属しているかを示す領域識別信号を、黒生成下地除去部１６、空間フィルタ処理部１７、階調再現処理部１９、及び圧縮処理部２０へ出力する。更に、領域分離処理部１４は、入力階調補正部１３から入力されたＲＧＢ信号を、そのまま後段の色補正部１５及び圧縮処理部２０へ出力する。

色補正部１５は、領域分離処理部１４から入力されたＲＧＢ信号をＣＭＹのデジタル信号（以下、ＣＭＹ信号という）へ変換し、色再現の忠実化実現のために、不要吸収成分を含むＣＭＹ色材の分光特性に基づいた色濁りをＣＭＹ信号から取り除く処理を行う。次いで、色補正部１５は、色補正後のＣＭＹ信号を黒生成下地除去部１６へ出力する。黒生成下地除去部１６は、色補正部１５から入力されたＣＭＹ信号に基づき、ＣＭＹ信号から黒色（Ｋ）信号を生成する黒生成処理と、ＣＭＹ信号から黒生成処理で得たＫ信号を差し引いて新たなＣＭＹ信号を生成する処理とを行う。この結果、ＣＭＹ３色のデジタル信号は、ＣＭＹＫ４色のデジタル信号（以下、ＣＭＹＫ信号という）に変換される。次いで、黒生成下地除去部１６は、ＣＭＹ信号を変換したＣＭＹＫ信号を空間フィルタ処理部１７へ出力する。

黒生成処理の一例としては、一般に、スケルトン・ブラックによる黒生成を行う方法が用いられる。この方法では、スケルトン・カーブの入出力特性をｙ＝ｆ（ｘ）、入力されるデータをＣ，Ｍ，Ｙ、出力されるデータをＣ'，Ｍ'，Ｙ'，Ｋ'、ＵＣＲ（Under Color Removal）率をα（０＜α＜１）とすると、黒生成下地除去処理は、下記の式（１）〜式（４）で表わされる。

ここで、ＵＣＲ率α（０＜α＜１）とは、ＣＭＹが重なっている部分をＫに置き換えてＣＭＹをどの程度削減するかを示すものである。式（１）は、ＣＭＹの各信号強度の内の最も小さい信号強度に応じてＫ信号が生成されることを示している。

空間フィルタ処理部１７は、黒生成下地除去部１６から入力されたＣＭＹＫ信号の画像データに対して、領域分離処理部１４から入力された領域識別信号に基づいてデジタルフィルタによる空間フィルタ処理を行い、空間周波数特性を補正することによって、画像のぼやけ又は粒状性劣化を改善する。たとえば、領域分離処理部１４により文字に分離された領域に対しては、空間フィルタ処理部１７は、文字の再現性を高めるために、高周波成分の強調量が大きいフィルタを用いて空間フィルタ処理を行う。また、領域分離処理部１４により網点に分離された領域に対しては、空間フィルタ処理部は、入力網点成分を除去するためのローパス・フィルタ処理を行う。

次いで、空間フィルタ処理部１７は、処理後のＣＭＹＫ信号を出力階調補正部１８へ出力する。出力階調補正部１８は、空間フィルタ処理部１７から入力されたＣＭＹＫ信号に対して、画像出力装置３の特性に基づく出力階調補正処理を行い、出力階調補正処理後のＣＭＹＫ信号を階調再現処理部１９へ出力する。階調再現処理部１９は、出力階調補正部１８から入力されたＣＭＹＫ信号に対して、領域分離処理部１４から入力された領域識別信号に基づいて、中間調処理を行う。たとえば、領域分離処理部１４により文字に分離された領域に対しては、階調再現処理部１９は、高域周波成分の再現に適した高解像度のスクリーンによる二値化又は多値化の処理を行う。また、領域分離処理部１４にて網点に分離された領域に対しては、階調再現処理部１９は、階調再現性を重視したスクリーンでの二値化又は多値化の処理を行う。次いで、階調再現処理部１９は、処理後の画像データを画像出力装置３へ出力する。

圧縮処理部２０は、領域分離処理部１４から入力された領域識別信号と、ＲＧＢ信号からなる画像データとに基づき、圧縮ファイルを生成する。圧縮処理部２０に入力される画像データは、マトリクス状に配置されている複数の画素で構成されている。この画像データは、前景レイヤと背景レイヤとに分離され、前景レイヤが更に二値画像に変換され、各二値画像がたとえばＭＭＲ（Modified Modified READ）で可逆圧縮され、背景レイヤがたとえばＪＰＥＧ(Joint Photographic Experts Group)で非可逆圧縮される。最後に、可逆圧縮された二値画像及び非可逆圧縮された背景レイヤと、これらを伸張してカラー画像の画像データとなすための伸張情報とが一つのファイルにまとめられる。このファイルが圧縮ファイルとなる。また、この伸張情報としては、圧縮形式を示す情報、及びインデックス・カラー・テーブル等が用いられる。画素毎に生成された領域識別信号の圧縮は、たとえば、可逆圧縮方法であるＭＭＲ方式、ＭＲ（Modified READ）方式に基づいて行われる。圧縮された画像データ（圧縮画像）は、一旦記憶部６に格納され、たとえば、操作パネル５において、「scan to e-mail」モードが選択されている場合、送信装置４から、電子メールに添付されて、設定された送信先に送信される。

（変換処理部の構成）
変換処理部３０は、入力された文書画像の情報（以下、入力画像の情報ともいう）に対してフォーマット変換処理を実行する。変換処理部３０の詳細について、以下に説明する。図２は変換処理部３０の構成を示すブロック図である。変換処理部３０は、文字抽出処理部３１、ライン抽出処理部３２、表領域抽出処理部３３、図領域抽出処理部３４、表構造化処理部３５及びファイル記述部３６を備える。

文字抽出処理部３１は、入力画像に含まれる文字画像を抽出し、その文字画像が示す文字の情報をＯＣＲ等により解析する。また、文字抽出処理部３１は、各文字の並び方から、１つ以上の文字で構成される文字列を定義する（ここでは、１文字のものも文字列に含むこととする）。更に、文字抽出処理部３１は、抽出された文字のサイズや文字の色などの属性を取得する。

ライン抽出処理部３２は、入力画像に含まれるライン（線分）を抽出し、各ラインの情報を取得する。ラインの情報は、少なくともラインの抽出された位置（座標）や方向、長さ、幅及び色を含む。表領域抽出処理部３３は、ライン抽出処理部３２で抽出されたラインの情報から、互いに交差する水平方向のラインと垂直方向のラインからなる集合を表領域として抽出する。図領域抽出処理部３４は、入力画像に含まれる図や写真などの領域を抽出して、各領域の情報を取得する。図領域の情報として、少なくとも各図領域を囲む矩形の左上位置及びサイズ（幅、高さ）を含む。表構造化処理部３５は、抽出された表領域において、表領域に含まれるラインや、表領域と重複する位置で抽出された文字や図などの要素を用いて表構造を解析し、表を構造化するための情報（表構造情報）を取得する。ファイル記述部３６は、表構造の情報や文字、図などの要素、また表に含まれないライン等の情報から、入力画像と同様のレイアウトの文書構造となるように、指定されたファイル形式の記述方法に従ってファイルを記述する。

文字抽出処理部３１、ライン抽出処理部３２、表領域抽出処理部３３、及び表構造化処理部３５は、公知の技術を利用してもよい。文字抽出処理部３１は、公知のＯＣＲ技術により文字及び文字列の抽出を行うことができる。文字列の抽出手法としては、たとえば、表から文字列を抽出する手法（特願２０１４−１７４３４８に記載の技術）を利用することができる。当該手法では、まず、文字抽出処理部３１が、ＯＣＲにより抽出した文字の文字矩形（外接矩形）を求める。文字抽出処理部３１が、求めた各矩形に対し、近傍の矩形同士の距離を算出し、近い矩形同士を同じ文字列のグループとして統合する。このとき、近傍の矩形サイズと比較して、あまりにもサイズが違い過ぎており、かつ、近傍に似たような矩形が存在しない矩形については、非文字矩形として除去する。文字抽出処理部３１は、各文字列グループの水平方向のサイズ、垂直方向のサイズを検出し、長い方を文字列の方向として設定する。水平方向のサイズと垂直方向のサイズが同じくらいの場合は、方向が判定できないので、文字列方向不定として設定する。文字抽出処理部３１は、同じ方向の近傍文字列でサイズが近いもの、または文字列の開始位置や終了位置が近いもの同士でグループ分けを行って文字列領域とする。

なお、文字抽出処理部３１による、文字の抽出及び文字列の抽出は、ライン抽出処理部３２の処理の前に行っても、後に行ってもよい。ただし、後述する図領域抽出処理部３４による処理は、文字、ライン、表の情報を用いることから、文字抽出処理部３１、ライン抽出処理部３２、表領域抽出処理部３３による処理は、図領域抽出処理部３４による処理よりも前に行われている必要がある。
また、文字抽出処理部３１が外接矩形を求める際、文字または文字列を含む表の各セルの大きさは既知であり、外接矩形は、セルの大きさを超えないことから、セルの大きさを超えるような外接矩形が得られた場合、セルの範囲以内となるように外接矩形の大きさを補正するようにしてもよい。

ライン抽出処理部３２及び表領域抽出処理部３３は、たとえば、参考文献１（特許第５１５３８５７号公報）で挙げられる方法によりライン及び表領域を抽出することができる。参考文献１に記載の方法では、文書画像データからラインとなる可能性のある候補画素を抽出し、前記候補画素が水平方向もしくは垂直方向に所定画素数以上連続する場合に、前記連続する候補画素の集合をラインとして抽出する。前記抽出された水平方向及び垂直方向のラインの位置関係から、各ラインが表を構成する罫線であるか単一のラインであるかを判定し、同一の表を構成するラインの集合について、それら全てを囲む最小外接矩形を表領域として抽出する。参考文献２に記載の方法では、ラインを構成する画素（ライン画素）を文書画像中から抽出しているため、ライン画素の画素値の平均値をラインの色として算出することも可能である。また、上記ライン画素の方向と直交する方向（水平方向のラインであれば垂直方向）に並ぶ画素数からラインの太さを算出することができ、たとえば垂直方向に連続するライン画素の平均値をラインの太さとして算出することも可能である。

また、よく知られた方法により、点線や破線を抽出することが可能であり、当該方法と、参考文献１の方法と組み合わせることで、実線以外の線種のラインを抽出することも可能である。たとえば、参考文献２（特開平７−２３０５２５号公報）の方法では、二値化された文書画像から、注目する罫線方向（水平または垂直方向）に連結する黒画素を抽出し、それぞれの連結画素を全て内包する矩形を抽出したとき、その大きさが所定の閾値以下である場合に点線要素とし、更に点線要素同士の間隔が所定閾値内である場合にそれらの点線要素同士を統合した矩形を、点線の罫線として抽出することができる。

また、参考文献３（特開平４−６８４７７号公報）では、二値化された文書画像から黒画素の連結を追跡することで輪郭ベクトルを抽出する。そのうち実線の直線もしくは曲線を構成するものを除いた輪郭ベクトルで囲まれた領域の長軸および短軸の長さの関係から破線候補としての領域を抽出し、得られた破線候補の相互関係を調べることで、同一の破線を構成する破線領域を抽出している。

図領域抽出処理部３４については後述する。表構造化処理部３５は、たとえば、入力された文書画像と、入力画像から抽出されたラインから水平方向の基準線及び垂直方向の基準線を決定し、２本の隣り合う水平方向の基準線と、２本の隣り合う垂直方向の基準線からなる四角形をそれぞれ仮セルとして定義する。定義された仮セルを、入力画像から抽出された要素の情報をもとに、少なくとも１つ以上の仮セルからなる四角形の集合である結合セル候補として第１の分類を行う。第１の分類が行われた結合セル候補ごとに、入力画像から抽出された要素の情報をもとに、判定基準に従って、結合セル候補に含まれる仮セルを、最も適切とされるセルブロック（少なくとも１つ以上の仮セルからなる四角形の集合）として第２の分類を行う。第２の分類が行われたセルブロックの属性、及び予め抽出されている要素の情報から、表構造を解析し、表を再構成するために参照すべき情報を表構造情報として記述する。

これらの表構造情報の具体的な記述方法について、特に決まりは無く、たとえば、図３のようにツリー形状に参照できるように記述しておくと、後述するＸＭＬ(Extensible Markup Language)形式のファイルフォーマットなどへの変換が容易になる。また、属性の種別ごとに別途リストなどを記述しておき、そのリストで指定されたＩＤ（Identification）を参照して情報を取得するようにすることで、同一の属性を何度も繰り返し記述することを避けることができる。たとえば抽出されたラインの情報を図４のようにリストとして記述し、各ラインにＩＤ（ラインＩＤ）を割り振っておき、図３のように記述されたツリー形状の表構造情報において、各セルブロックの罫線の情報としてラインＩＤを記述することで、同一のラインを共有する複数のセルブロック間で同一の情報を何度も繰り返して記述する必要が無くなる。記述の順序は特に決まりは無いが、記述の対象となるセルブロックの順序は、親ＩＤの小さい順とし、表の左上から順に情報が記述されるようにすることが望ましい。もちろん、図３及び図４に示された項目以外にも記述する情報を増やしてもよい。

なお、変換したいオフィス文書ファイルの種類によって、後述するファイル記述部３６が実行するファイルの記述方法（変換方法）が異なる。たとえば、ＯｆｆｉｃｅＯｐｅｎＸＭＬ（ＯＯＸＭＬ）の規格に準拠するオフィススイート（オフィス業務用ソフトウェアのセット）では、ＸＭＬで記述された文書群と、写真やイラストレーション、図形などのバイナリデータを圧縮により１つのファイルとして統合したものをオフィス文書ファイルとして使用する。これに対して、異なる種類のソフトウェア（たとえば文書作成ソフトウェアとプレゼンテーションソフトウェア）の間ではファイルの記述方法は異なり、また、ＯＯＸＭＬと、異なる規格の文書形式（たとえば、ＯｐｅｎＤｏｃｕｍｅｎｔＦｏｒｍａｔ）では、同じ種類のソフトウェアであってもファイルの記述方法は異なる。

従って、あらゆるファイル形式に容易に対応できるようにするため、表構造化処理部３５では、特定のファイル形式に限定されない表構造情報を取得するようにし、後述するファイル記述部３６において、前記表構造情報を用いて、指定されたファイル形式に合わせて表を構造化するようにする。このようにすることで、ユーザが、変換処理部３０の機能を有する変換処理装置を利用する際に、あるファイル形式で変換した結果を見た後に、異なるファイル形式に変換する場合も、表構造化処理部３５を最初から実行しなくても、既に得られている表構造情報を再使用して容易に変換することが可能となる。

ファイル記述部３６は、前段までに抽出された文字や図などの要素の情報、ラインの情報及び表構造情報を用いて、指定されたファイル形式への変換を行う。ファイル記述部３６は、指定されたファイル形式によって記述方法が異なるが、ファイル構造が公開されているファイル形式については、既に得られている表構造情報や要素の情報等を用いて公知の方法により記述することができる。たとえば、Ｍｉｃｒｏｓｏｆｔ（登録商標）社が提供する文書作成ソフトウェアである「ＭｉｃｒｏｓｏｆｔＷｏｒｄ２０１０」（左記において、Ｍｉｃｒｏｓｏｆｔは登録商標）、またはその後継バージョン（以降、単純にＷｏｒｄと表記する）のファイル形式（ｄｏｃｘ）が採用するファイルフォーマットであるＯＯＸＭＬは、ＥＣＭＡ−３７６、及びＩＳＯ／ＩＥＣ２９５００として標準化されており、それらの仕様書に記載されたフォーマットに従って記述することでＷｏｒｄのファイルとして構造化することができる。ＥＣＭＡ−３７６として標準化されたフォーマットは、下記の参考文献４として公開されており、参考文献４に記載のフォーマットに従って記述する。以下では、文書画像中の特に表の構造化に係る部分の処理例を挙げ、詳細の記述方法については省略する。
「参考文献４：ECMA-376, 4th Edition Office Open XML File Formats、［平成２７年９月１０日検索］、インターネット(URL http://www.ecma-international.org/publications/standards/Ecma-376.htm)」

図５は、Ｗｏｒｄファイルのファイル構造（一部）の一例を示すツリー図である。Ｗｏｒｄファイルでは、図５に示すような一連のフォルダ及びファイルをＺＩＰ圧縮し、ファイル拡張子をｄｏｃｘに置き換えることで１つのファイルとしている。図５の１行目の/word/フォルダ以下に、文書を構造化するためのデータを記述したファイルや、文書画像中から抽出されたグラフィックを画像として保存した画像ファイルなどを格納する。たとえば、document.xmlファイルは、ドキュメント本文を構成する文字（列）やグラフィック、表などのオブジェクトを、その情報に従って、ＷｏｒｄＰｒｏｃｅｓｓｉｎｇＭＬと呼ばれるマークアップ言語を用いて記述される。たとえば表は、図６に示すように、<w:tbl>を開始宣言、</w:tbl>を終了宣言とするタグの間に記述された情報（以下、この情報を記述１という）に従って、表を構造化する。記述１は、表全体にわたるプロパティなどの情報（以下、この情報を記述２という）と、各行を構造化するための情報（以下、この情報を記述３という）に分かれる。

記述３は<w:tr>から</w:tr>の間に記述され、先頭の行から順に行数分反復する。記述３は更に、行全体にわたるプロパティなどの情報（以下、この情報を記述４という）と、各セルを構造化するための情報（以下、この情報を記述５という）に分かれる。記述５は<w:tc>から</w:tc>の間に記述され、先頭（左端）から順に列数分反復する。記述５は更に、セルに関するプロパティなどの情報（以下、この情報を記述６という）と、各セルに格納される要素の集合である段落を構造化するための情報（以下、この情報を記述７という）に分かれる。記述７の<w:p>から</w:p>の間に記述される内容は１つの段落を示す。記述７は、更に、各段落に関するプロパティなどの情報（以下、この情報を記述８という）と、格納される要素を構造化するための情報（以下、この情報を記述９という）に分かれる。

記述９の<w:r>から</w:r>の間に記述される内容は１つのランを示す。ラン毎に、プロパティなどの情報（以下、この情報を記述１０という）と要素を示すデータの情報（以下、この情報を記述１１という）を記述するため、プロパティなどの情報を共有する要素毎にランに分類する。すなわち、文字列の場合でも、文字色やサイズなどのプロパティが異なる場合はランを分ける。なお、図６において、記述１１にあたる<w:t>から</w:t>の間の情報は文字（列）データを記述するものであり、画像を格納する場合は<w:drawing>から</w:drawing>の間に、格納する画像に関する情報を記述する。なお、画像ファイルは図５の/word/mediaフォルダに格納され、/word/rels/document.xml.relsにおいてファイル名と関連づけられたIDをdocument.xmlファイル内で参照することにより、対応するグラフィックを文書ファイル中に貼り付けることができる。図５の各ファイルの詳細、及び具体的な各ファイルの記述方法については参考文献４などのフォーマット仕様書を参照されたい。

なお、各種属性において算出過程を省略するなどにより適切な値が設定されていない場合は、その属性に関するプロパティの記述などを省略し、各種アプリケーションで設定される初期値を使用するようにしてもよい。たとえば、文字色の算出を省略した場合、黒色など予め決められた色を初期値として使うことができる。なお、セルブロックの四辺の罫線について、前述の通り「不定」として与えられている場合、そのセルの辺の罫線情報は設定しない。また、各行において、行を構成する全ての仮セルの上辺もしくは下辺の罫線が、同一のラインにより構成されている場合、セル単位でなく、行単位（図６では記述４にあたる）で上辺もしくは下辺の罫線の情報を一括して設定するようにしてもよい。

また、上述した図３において、セルブロックに対応付けられる格納要素（第１要素、第２要素、…）としては、文字や、文字を複数並べて成る文字列に加えて、画像オブジェクトである図、及び写真などがある。これらの情報をどのよう利用するかはファイル記述部３６における記述の仕方と変換するファイルフォーマット次第である。例えば、Ｍｉｃｒｏｓｏｆｔ（登録商標）社のＥｘｃｅｌなどは、セルの中に画像を文字のように記述することができないため、単純に画像オブジェクトを重ねているだけになる。これに対して、Ｗｏｒｄであれば、表のセル中に画像オブジェクトを挿入することもできる。したがって、本実施の形態では、変換先のファイルフォーマットにしたがって変換を行うことになる。

図７は、図領域抽出処理部３４（図領域抽出装置）の構成を示すブロック図である。図領域抽出処理部３４は、非文字列マップ生成処理部３４１、非文字列エリア追加処理部３４２、オブジェクトマップ生成処理部３４３、及び有効オブジェクトエリア判定処理部３４４を備える。

非文字列マップ生成処理部３４１は、入力画像に対してエッジ検出処理を行い、得られたエッジ検出結果に対し、文字抽出処理部３１で抽出された文字から構成される文字列領域を排除することにより、残されたエッジ領域を非文字列マップとして生成する。非文字列エリア追加処理部３４２は、文字抽出処理部３１で抽出された文字から構成された文字列領域を除いた領域に対して画像のヒストグラムエントロピー値を算出し、エントロピー値の高い領域を非文字列エリアとして非文字列マップに追加する。オブジェクトマップ生成処理部３４３は、非文字列エリアが追加された非文字列マップに対して表のライン領域の除去処理、ラベリング処理、矩形化処理を行い、オブジェクトマップを生成する。有効オブジェクトエリア判定処理部３４４は、オブジェクトマップ生成処理部３４３で生成されたオブジェクトマップ上の各オブジェクトに対し、必要に応じて矩形領域の統合・分割処理を行い、最終的にフォーマット変換処理時に変換すべき画像オブジェクトであるかを判定し、変換すべき画像オブジェクトと判定した場合はそのオブジェクトエリアをマップ上に残し、変換すべきでないと判定した場合にはそのオブジェクトエリアをマップ上から削除する。

以下では、図領域抽出処理部３４の各処理部について図８の表画像４００と図９，１２，１５，１９のフローチャートを用いながら詳述する。図８の表画像４００における表において、四角とハートは便宜上網掛けにしているが、実際には写真のように適度な濃度変化があり、また、図形の外周のエッジ強度が弱いものであるとする。非文字列マップ生成処理部３４１は、図９のフローチャートに示すように、まず、入力画像に対してエッジ検出処理を行う（ステップＳａ１）。エッジ検出の方法としては、たとえば、ＳｏｂｅｌフィルタやＰｒｅｗｉｔｔフィルタなどの１次微分フィルタや、ラプラシアンフィルタなどの２次微分系のフィルタを用いて検出を行う。ここでは一例として、ラプラシアンフィルタを用いてＲＧＢ値のＧ値に対してエッジ検出を行う方法について説明する。図１０（ａ）は３×３サイズのラプラシアンフィルタである。フィルタ処理を行う注目画素の水平座標位置をｘ、垂直座標位置をｙとし、注目画素のＧ値をｐ＿ｇ（ｘ，ｙ）と表すとき、ラプラシアンフィルタ処理結果ｐ’_ｇ（ｘ，ｙ）は以下の式（５）によって表される。

式（５）に従って、図１０（ｂ）の太線で囲まれた領域内にある各画素のＧ値に対して図１０（ａ）のラプラシアンフィルタによるエッジ強度検出処理を行った結果が図１０（ｃ）である。なお、ラプラシアンフィルタの計算では±の値が出てくるが、ここでは絶対値を取ることで処理結果がプラスの値のみになるようにしている。

更に、このエッジ強度検出結果に対し、非文字列マップ生成処理部３４１は、予め定められた閾値を用いて閾値よりも大きいエッジ強度を持つ画素のみエッジ画素として検出する（ステップＳａ２）。たとえば、閾値を５０と設定し、エッジ強度が５０よりも大きい画素をエッジ画素として１を設定し、それ以外の画素を０とした結果が、図１０（ｄ）である。このエッジ検出結果に対し、非文字列マップ生成処理部３４１は、文字抽出処理部３１で定義された文字列領域に存在するエッジ検出結果を排除する（ステップＳａ３）。たとえば、図８の表画像４００に対するエッジ検出結果が、図１１（ａ）の表画像４０１であり、文字抽出処理部３１で定義された文字列領域が図１１（ｂ）の表画像４０２における黒く塗られた部分だとすると、エッジ検出結果に対し、文字抽出処理部３１で定義された文字列領域に存在するエッジ検出結果を排除した結果は、図１１（ｃ）のようになる。表画像全体に対し、このような処理を行った結果が非文字列マップ４０３である。

次に、非文字列エリア追加処理部３４２は、図１２に示すフローチャートにしたがって、非文字列マップ生成処理部３４１によるエッジ検出処理に基づいては抽出できない写真などのオブジェクトを非文字列エリアとして抽出し、非文字列マップに追加する。文書画像の所定局所領域毎に画素値の出現頻度（即ち、ヒストグラム）を求めた場合に、図領域の一つである写真領域上の各画素では輝度変化が広範囲に及ぶヒストグラムが得られることを利用して、ヒストグラムのエントロピー（平均情報量）を輝度変化情報として算出する。例えば、非文字列エリア追加処理部３４２は、１１×１１画素のエリアを１つの局所領域とみなし、この領域内でのヒストグラムを算出する（ステップＳｂ１）。次いで、非文字列エリア追加処理部３４２は、このヒストグラムのエントロピー値を算出する（ステップＳｂ２）。なお、ヒストグラムを求める際には、文字抽出処理部３１で抽出された文字から構成された文字列領域を排除した画素のみでヒストグラムを求めることで、文字のエントロピー値が算出されることを極力抑えることができる。ヒストグラムのエントロピーは次式（６）で求められる。

式（６）において、Ｌはヒストグラムの階調数（８ビットならばＬ＝２５６）を表し、ｈ（ｉ）は階調ｉの度数、Ｎはヒストグラムカウント対象の画素数、ｐ（ｉ）はｈ（ｉ）をＮで正規化した値である。以上で求められたエントロピー値が高い領域を抽出することで精度よく写真領域を抽出することが可能となる。その為に、非文字列エリア追加処理部３４２は、予め定められた閾値（たとえば、３５程度の値）を超えるエントロピー値の画素領域のみを１とし、それ以外を０とする（ステップＳｂ３）。図１３は、非文字列エリア追加処理部３４２が、ヒストグラムエントロピーによる非文字列エリア検出処理を図８の表画像４００に対して行った結果である非文字列エリア４０４を示す例である。非文字列エリア４０４を検出した場合、非文字列エリア追加処理部３４２は、非文字列マップ４０３に非文字列エリア４０４を追加する（ステップＳｂ４）。図１１（ｃ）の非文字列マップ４０３に図１３の非文字列エリア４０４を追加した結果が、図１４に示す非文字列マップ４０５である。

次に、オブジェクトマップ生成処理部３４３は、図１５に示すフローチャートにしたがって、まず、ライン抽出処理部３２で判定された表領域のラインの除去処理を行う（ステップＳｃ１）。図８の表画像４００を表領域と判定し、ライン抽出により各罫線をラインとして抽出できているとする。オブジェクトマップ生成処理部３４３は、図１６のように、図１４の更新された非文字列マップ４０５から表領域のラインを削除する。なお、図１６に示すライン削除後の非文字列マップ４０６では、削除された跡がわかりやすいように削除されたラインを点線で示しているが、実際には、当該点線は存在しない。このように非文字列マップ４０５に対して表の罫線を除去する処理を行うことによって、表の罫線に画像オブジェクトが接触したり重畳したりしている場合でも、表の罫線から切り離し、画像オブジェクト領域だけを抽出することが可能となる。

次に、オブジェクトマップ生成処理部３４３は、ラベリング処理を行う（ステップＳｃ２）。上下左右斜めに接続している画素は同一のラベルとすることを条件として、ラベリング処理を行う。ラベリングの手法としては一般的な手法で構わない。図１７に、図１６の非文字列マップ４０６に対してラベリング処理を行った結果の例を示す。オブジェクトマップ生成処理部３４３により、四角がラベル２０１に、丸の外側のラインがラベル２０２に、丸の内側のラインがラベル２０３に、三角がラベル２０４に、ハートがラベル２０５に、スターの外側のラインがラベル２０６に、スターの内側のラインがラベル２０７にラベル付けされる。

オブジェクトマップ生成処理部３４３は、ラベル付けした各オブジェクトに対し、各画素の座標情報を比較し、ラベル毎の座標の水平・垂直方向それぞれの最小値と最大値を求める。オブジェクトマップ生成処理部３４３は、求めた最大値と最小値を頂点に持つ矩形領域（最小値が矩形領域の左上、最大値が矩形領域の右下の頂点を表す）の値を１とすることで図１８に示すようにラベル付けした各オブジェクト領域を矩形化処理する（ステップＳｃ３）。その際、オブジェクトマップ生成処理部３４３は、各ラベルの最大値座標と最小値座標を比較する。これにより、ラベル２０３の矩形領域はラベル２０２の矩形領域に包含されることがわかるので、オブジェクトマップ生成処理部３４３は、ラベル２０３を、ラベル２０２に統合する。同様に、ラベル２０７の矩形領域はラベル２０６の矩形領域に包含されることがわかるので、オブジェクトマップ生成処理部３４３は、ラベル２０７をラベル２０６に統合する。このようにして、オブジェクトマップ生成処理部３４３は、ラベル２０１、ラベル２０２、ラベル２０４、ラベル２０５、ラベル２０６の５つの矩形領域を作成する。

なお、ライン抽出処理で抽出された表以外の罫線を画像オブジェクトとして扱う場合には、矩形化処理された画像オブジェクトからなるオブジェクトマップに対し、罫線も画像オブジェクトとして追加しても構わない。また、ライン抽出処理で抽出された表以外の罫線を画像オブジェクトとしてではなく、ベクター情報として扱うのであれば、オブジェクトマップは矩形化処理された画像オブジェクトのみとなる。

上記のように、非文字列マップ生成処理部３４１が、輝度変化の高いイラストなどの線画やグラフなどの図はエッジベースで抽出する。エッジ強度がそれほど強くないが輝度変化のある写真などの画像領域については、非文字列エリア追加処理部３４２が、ヒストグラムエントロピーに基づいて抽出する。これにより、オブジェクトマップ生成処理部３４３は、様々なタイプの画像オブジェクトを幅広く抽出することが可能となる。また、一部が抽出できていなくても、図形や写真は矩形であることが多いので、ラベリングと矩形化処理を行うことで、図形や写真の一部の抽出抜けを防ぐことが可能となる。

次に、有効オブジェクトエリア判定処理部３４４は、図１９のフローチャートに示すように、まず、オブジェクトマップ生成処理部３４３で生成されたオブジェクトマップ上の各オブジェクトに対し、必要に応じて矩形領域の統合・分割処理を行う（ステップＳｄ１）。図１８の例の場合、表中の画像オブジェクトのみで矩形が区切られていたので統合・分割処理は、必要ない。実際には、表中の画像オブジェクトだけに関わらず、表の外にも画像オブジェクトが存在することもあり、入力画像の画像オブジェクトの形状や配置によっては、画像オブジェクトの矩形領域の一部同士が重なっていたり、画像オブジェクトの矩形領域が文字列と重なっていたり、画像オブジェクトの矩形領域の一部が表と重なっていたり、といったことが起こり得る。このような場合に、矩形領域の統合処理や分割処理を行う。

例えば、図２０に示す、画像オブジェクト５０１，５０２のように、矩形領域同士が一部重なっている場合、有効オブジェクトエリア判定処理部３４４は、再度ラベリング処理を行い、座標の最大値と最小値を算出し、矩形化処理を行う。これにより、重なり合っていた２つの画像オブジェクト５０１，５０２の矩形領域が１つの矩形領域５０４に統合される。これにより、ファイルフォーマット変換処理時に、画像オブジェクトの上から別の画像オブジェクトを重ねて見栄えが悪くなったり、重複している分、ファイルサイズが大きくなったりすることを防ぐことが可能となる。

また、図２１のように、画像オブジェクト５０１の矩形領域に文字列３０１が重なっている場合に、文字列３０１の一部だけが画像オブジェクトになるとフォーマット変換後のレイアウトで一部フォント、一部画像といった具合になる。すなわち、図２１の例では、最下層のレイヤから順に、文字のオブジェクト、表のオブジェクト、ラインのオブジェクト、画像オブジェクトの順に重なっており、画像オブジェクト５０１と重なっている部分の文字列３０１の部分と、画像オブジェクト５０１と重なっていない部分の文字列３０１の部分を分けて情報を格納したとする。このとき、画像オブジェクト５０１と重なっている部分の文字列３０１は、画像オブジェクト５０１に含まれる単なるイメージとしての文字画像として格納されることになる。このように格納された情報を、再構成する場合、画像オブジェクト５０１と重なっていない文字列３０１の部分は、他のフォントで置き換えられることもある。その場合、画像オブジェクト５０１で表示された文字画像と重ね合わせた結果、フォントや大きさが異なってしまう場合があり、見栄えが悪くなる。

有効オブジェクトエリア判定処理部３４４は、図２１のような場合、文字列３０１の矩形座標と画像オブジェクト５０１の矩形座標を比較し、画像オブジェクト５０１，５０２同士の重なりのときと同様に座標の最大値と最小値を算出し、矩形化処理を行う（ステップＳｄ２）。この処理により、画像オブジェクト５０１と重なっていない部分の文字列３０１は、文字列３０１を含んだ画像オブジェクト５０３の矩形領域に統合される。なお、この統合により、文字列３０１自体がなくなるわけではなく、文字列３０１自体はフォーマット変換時に画像オブジェクト５０１の下に配置されることになるため、画像オブジェクト５０４に統合された文字列も、テキスト検索など、テキストデータして使用可能である。これにより、ファイルフォーマット変換処理時に、フォントに変換された文字列３０１の上から別の画像オブジェクト５０１内にある文字画像を重ねて文字の書体や大きさが変化し見栄えが悪くなってしまうことを防ぐことが可能となる。

また、図２２のように、画像オブジェクト５０５の矩形領域が表領域４１０と重なっている場合がある。この場合、有効オブジェクトエリア判定処理部３４４は、画像オブジェクト５０５の矩形領域の座標と表領域４１０の座標とを比較して重なっている範囲を抽出し、画像オブジェクト５０５の矩形領域から重なっている表領域４１０を削除する。更に、有効オブジェクトエリア判定処理部３４４は、表領域４１０の外枠のラインの延長上に沿って、画像オブジェクト５０５の残った領域に対し、分割処理を行う（ステップＳｄ３）。これにより、有効オブジェクトエリア判定処理部３４４は、矩形化された画像オブジェクト５０５の領域と表領域４１０が重なった際にも画像オブジェクト５０５の重なっている領域を画像オブジェクト５０５の分割により排除し、表領域４１０に重なって表領域４１０の一部が見えなくなることを回避可能となる。すなわち、ファイルフォーマット変換処理時に、表領域４１０の上に画像オブジェクト５０５が重ねられて、表領域４１０の一部が見えなくなってしまうことを防ぐことが可能となる。

図２２の例では表領域４１０の水平方向の外枠のラインの延長線上に沿って画像オブジェクト５０５の残った領域を画像オブジェクト５０６，５０７に分割している例を示している。なお、画像オブジェクトの残った領域の分割は、表領域４１０の外枠ラインの水平方向ではなく、垂直方向の外枠のラインの延長線上に沿って分割しても構わないし、水平垂直両方とも分割しても構わない。また、分割する際はたとえば２画素分の領域で分割を行い、あとでこのオブジェクトエリア判定結果を用いて画像オブジェクト５０５を切り出す際には、矩形領域から全体に１画素分膨張させた領域を切り出すことによって、分割された画像オブジェクト５０６，５０７が見た目には２つに分割されたようには見えずにフォーマット変換可能となる。

このようにして得られた各画像オブジェクト５０４，５０３，５０６，５０７の矩形領域に対し、有効オブジェクトエリア判定処理部３４４は、再ラベリングを行って矩形化処理を行う（ステップＳｄ４）。このとき、有効オブジェクトエリア判定処理部３４４は、予め定められた面積未満の矩形領域については画像オブジェクトとしてはふさわしくない大きさとして、キャンセル処理を行ってもよい。例えば、３００ｄｐｉの入力画像を７５ｄｐｉに解像度変換処理し、７５ｄｐｉの画像サイズで矩形化処理をした場合、矩形領域の横のサイズが３０画素未満、または、矩形領域の縦のサイズが３０画素未満、または、矩形領域の面積が９００画素未満の矩形領域については画像オブジェクトとしなくてもよい。また、矩形領域の面積に対し、実際にラベリングされたオブジェクト領域の画素数が２５％未満の矩形領域については画像オブジェクトとしなくてもよい。ただし、分割処理された画像オブジェクトに対しては、分割前の大きさも考慮して画像オブジェクトにするかどうかを判定する。

以上の処理を行い、有効オブジェクトエリア判定処理部３４４は、最終的に残った画像オブジェクトの領域を有効オブジェクトエリアとして判定する（ステップＳｄ５）。有効オブジェクトエリア判定処理部３４４は、有効オブジェクトエリアと判定した情報に従って、入力画像から画像オブジェクトを切り出すことで、表内にある画像オブジェクトはもとより、他の画像オブジェクトも精度よく切り出すことが可能となり、フォーマット変換した際にも、見栄えの良い結果を得ることが可能となる。

上記の実施の形態１の構成により、文字列領域情報と、線分情報と、表領域情報と、ヒストグラムエントロピーによる輝度変化情報とを用いることで、表外にある画像オブジェクト領域はもとより、表内に存在する画像オブジェクト領域の抽出をも行うことが可能となる。また、矩形化された画像オブジェクト領域と表領域が重なった際にも画像オブジェクトの重なっている領域を排除し、表が重なって見えなくなることを回避可能となる。したがって、表のセルの中に画像など文字以外のオブジェクトが存在する場合でも、そのオブジェクトを文字として誤って抽出することなく、正しくオブジェクトを抽出して変換し、表の中にそのオブジェクトを正しく配置することが可能となる。

また、上述したように、ファイル記述部３６による、各オブジェクトを重ね合わせる順は、最下層から文字領域のオブジェクト、表領域のオブジェクト、線分領域のオブジェクト、画像オブジェクトの順である。線分のオブジェクトは、画像オブジェクトの一部として扱われることもあるため、線分領域のオブジェクトと画像オブジェクトの順が入れ替わってもよい。このように、文字領域のオブジェクトを一番下にすることで、画像オブジェクトと重なった場合に、重なった文字領域は画像オブジェクトに統合された文字画像で表示されることで見栄えが良くなり、検索ではＯＣＲされた文字情報で検索可能な状態にすることができる。また、表領域と重なった画像オブジェクトは分割されているので、表領域が画像オブジェクトの下にあっても、表領域が隠れるようなことはない。

なお、上記の実施の形態１における図領域抽出処理部３４の非文字列マップ生成処理部３４１、非文字列エリア追加処理部３４２、オブジェクトマップ生成処理部３４３、及び有効オブジェクトエリア判定処理部３４４において、文字抽出処理部３１により抽出された文字列を扱うようにしているが、本発明の構成は、当該実施の形態に限られない。文字列だけでなく、文字抽出処理部３１により抽出される文字を対象に処理を行ってもよい。文字列として抽出する場合に比べて、文字として抽出する場合、抽出の精度によって、文字の一部が抽出できなかったり、句読点等を抽出できなかったりする恐れがあるものの、図領域抽出処理部３４における処理を、文字列として処理しても、文字として処理をしても同様の作用効果を奏する。
また、上記の実施の形態１では、文字抽出処理部３１は、文字列領域、または上記の文字領域を抽出する際に、その領域として、外接矩形を求めるようにしているが、本発明の構成は、当該実施の形態に限られない。文字列領域、または文字領域として、外接矩形に限らず、曲線が一部に含まれる形状、たとえば、外接する円や外接する楕円などであってもよい。

また、上記の実施の形態１における非文字列エリア追加処理部３４２において、全ての領域においてヒストグラムを求めて、エントロピーを算出するのではなく、不明な領域に対してのみ行うようにしてもよい。例えば、エッジ検出により検出した表領域を除いた残りの表領域についてのみヒストグラムを求めて、エントロピーを算出するようにしてもよい。
また、上記の実施の形態１において、非文字列エリア追加処理部３４２が、ヒストグラムエントロピーを求める場合、隣接する画像オブジェクトの距離が近い場合、１つの画像オブジェクトとみなしてしまう場合がある。この場合、各々の画像オブジェクトは、多くの場合、１つのセルに含まれていることから、非文字列エリア追加処理部３４２が、セルの境界を示す情報を参照して、各々のオブジェクトを明確に分離して、ヒストグラムエントロピーを求めるようにしてもよい。

また、上記の実施の形態１において、非文字列エリア追加処理部３４２が、求める輝度変化情報は、エントロピーに限られるものではなく、他の指標であってもよい。
ここで、輝度変化情報の変形例について説明する。
図２４は、輝度変化情報の変形例を説明するための図である。
図２４に示す例において、画像Ｐは、文字列と、画像オブジェクトとを含む。非文字列エリア追加処理部３４２は、例えば、注目画素に対応する局所領域（例えば、１１［ｐｉｘｅｌ］×１１［ｐｉｘｅｌ］の領域）のヒストグラムを求め、その度数が所定の閾値Ｔ（例えば、度数５）以上である階調値（ビン）の中からピークの度数を示す階調値を抽出する。次に、非文字列エリア追加処理部３４２は、ピークの周囲において、その度数が閾値Ｔ以上で連続している階調値を抽出し、抽出した一連の階調値の幅（階調幅）を輝度変化情報として使用する。そして、非文字列エリア追加処理部３４２は、この階調幅が所定の階調数（例えば、４８階調）の幅（基準幅ＳＷ）以上である場合、写真領域であるとして非文字列エリアに追加してもよい。

具体的には、例えば、図２４において、画像Ｐのうち、写真を含む局所領域Ａ１の場合、ピークＢに係る階調幅ＷＢは基準幅ＳＷよりも大きいため、局所領域Ａ１は写真オブジェクトの領域であると判定される。これに対して、画像Ｐのうち、写真も文字列も含まない局所領域Ａ２や、文字列を含む局所領域Ａ３の場合、各局所領域に現れるピークＣ、Ｄ、Ｅに係る階調幅ＷＣ、ＷＤ、ＷＥは、いずれも基準幅ＳＷに満たないため、局所領域Ａ２、Ａ３は、写真オブジェクトの領域でないと判定される。このように、エントロピーだけでなく、各ピークに係る階調幅を、輝度変化情報として用いてもよい。

また、上記の実施の形態１において、オブジェクトマップ生成処理部３４３は、１つのセルの中に、重複しない矩形領域が存在する場合、２つの矩形領域として処理しているが、本発明の構成は、当該実施の形態に限られず、１つのセル内の矩形領域を１つに統合するようにしてもよい。
また、上記の実施の形態１において、有効オブジェクトエリア判定処理部３４４は、表領域に文字列領域が重なっている場合、表領域に画像オブジェクトが重なっている場合と同様の処理を文字列領域に適用するようにしてもよい。

なお、実施の形態１、及び以下に記載する実施の形態２，３において、閾値等の予め定める数値以上か否かの判定は、一例であり、予め定める数値の大きさによっては、予め定める数値を超えるか否かの判定であってもよく、また、予め定める数値以下か否かの判定についても、予め定める数値の大きさによっては、予め定める数値未満か否かの判定であってもよい。

〔実施の形態２〕
上記の実施の形態１では、本発明に係る変換処理装置を変換処理部３０として、画像形成装置１００が有する画像処理装置１に適用した構成について説明したが、本発明の構成は、これに限るものではない。実施の形態２では、本発明に係る変換処理装置を変換処理部３０として、フラットベッドスキャナ等の画像読取装置１００ａが有する画像処理装置１ａに適用した例について説明する。
なお、実施の形態１の説明に用いた図面に記載されている部材と同じ機能を有する部材については、以下の説明においても同じ符号を付記する。また、それらの各部材の詳細な説明はここでは繰り返さない。

図２３は、実施の形態２に係る画像処理装置１ａを備える画像読取装置１００ａ（情報処理装置）の構成を示すブロック図である。図２３に示すように、画像読取装置１００ａは、画像処理装置１ａ、画像入力装置２、送信装置４、記憶部６、及び操作パネル５を備えている。画像処理装置１ａは、Ａ／Ｄ変換部１０、シェーディング補正部１１、原稿種別判別部１２、入力階調補正部１３、領域分離処理部１４、圧縮処理部２０、及び変換処理部３０（変換処理装置）を備えている。当該変換処理部３０により、実施の形態１において説明したのと同様に、指定されたファイル形式に変換されたファイルが出力される。画像読取装置１００ａで実行される各種処理は、画像読取装置１００ａに備えられる図示しない制御部（ＣＰＵ（Central Processing Unit）あるいはＤＳＰ（Digital Signal Processor）等のプロセッサを含むコンピュータ）により制御される。実施の形態２では、画像読取装置１００ａは、スキャナに限定されることはなく、たとえば、デジタルスチルカメラ、書画カメラ、あるいは、カメラを搭載した電子機器類（たとえば、携帯電話、スマートフォン、タブレット端末等）であってもよい。

〔実施の形態３〕
実施の形態１及び２において、本発明に係る変換処理装置を変換処理部３０として、画像形成装置１００、または画像読取装置１００ａが有する画像処理装置１、１ａに適用する例を示したが、本発明の構成は、これに限るものではない。本発明に係る変換処理装置を、たとえばサーバ装置に適用してもよい。この場合のサーバ装置の構成の一例は、画像形成装置１００、または画像読取装置１００ａにより画像読取及び各種画像処理が施された文書画像をネットワークを介して受信する受信装置と、実施の形態１にて説明した変換処理部での処理を実行する変換処理装置と、当該変換処理装置が備えるファイル記述部から出力された文書ファイルを、ネットワークを介して送信する送信装置と、を備えたサーバ装置（情報処理装置）である。このようにサーバ装置を構成することにより、画像形成装置１００、または画像読取装置１００ａにより画像読取及び各種画像処理が施された文書画像を、ネットワークを経由して受信して、前記の変換処理部での処理を実行する変換処理装置により文書ファイルを作成し、出力されたファイルをユーザの端末装置（たとえば、パーソナルコンピュータやタブレット端末等）に送信する、という使い方が可能となる。また、このサーバ装置により、既に設置された画像形成装置あるいは画像読取装置を交換することなく、フォーマット変換機能を利用することが可能となる。

また、前記変換処理装置を、ファイル記述部３６を除いて構成し、文書を構造化するための各種情報を作成し、ネットワークを介して送信するようにしても良い。この場合、ファイル記述部３６が実行する処理手段を、前記各種情報を受信した前記端末装置側が実行することで、文書の構造化に必要な各種情報の取得を何度も繰り返すことなく、所望のファイルへの変換をスムーズに実行することができるので、操作ミスにより誤ったファイル形式を指定してしまった場合や、指定したファイル形式の変換結果に満足できない場合などに、異なるファイル形式に変換し直すことが容易となる。

実施の形態１、２、３における画像処理装置１、１ａ（特に、変換処理部３０）やサーバ装置（特に、変換処理装置）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、画像処理装置１、１ａやサーバ装置は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、前記プログラム及び各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、前記プログラムを展開するＲＡＭ（Random Access Memory）等を備えている。そして、コンピュータ（又はＣＰＵ）が前記プログラムを前記記録媒体から読み取って実行することにより、本発明の目的が達成される。前記記録媒体としては、「一時的でない有形の媒体」、たとえば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、前記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して前記コンピュータに供給されてもよい。なお、本発明は、前記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、前記した画像処理装置１、１ａ及び画像処理方法は、カラーの画像データを扱う構成としたが、これに限るものではなく、白黒の画像データを扱う構成であってもよい。

本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能である。すなわち、本発明の要旨を逸脱しない範囲内において適宜変更した技術的手段を組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。

３０変換処理部
３１文字抽出処理部
３２ライン抽出処理部
３３表領域抽出処理部
３４図領域抽出処理部
３５表構造化処理部
３６ファイル記述部
３４１非文字列マップ生成処理部
３４２非文字列エリア追加処理部
３４３オブジェクトマップ生成処理部
３４４有効オブジェクトエリア判定処理部

Claims

文書画像情報に存在する文字領域を抽出する文字抽出処理部と、
前記文書画像情報に存在する線分を抽出するライン抽出処理部と、
前記ライン抽出処理部より抽出される前記線分の情報を用い、表領域を抽出する表領域抽出処理部と、
前記文書画像情報に対して、予め定められる局所領域を設定し、前記局所領域の輝度ヒストグラムを作成して前記局所領域の輝度変化情報を求め、前記輝度変化情報と、前記文字抽出処理部より抽出される前記文字領域の情報と、前記ライン抽出処理部より抽出される線分の情報と、前記表領域抽出処理部より抽出される表領域の情報と、を用いて前記表領域の外、または前記表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行う図領域抽出処理部と、
前記表領域における前記文字領域の情報、前記線分の情報、および前記画像オブジェクト領域の情報をもとに表構造を解析し、表を再構成する表構造情報を取得する表構造化処理部と、
を備えることを特徴とする変換処理装置。
前記文字抽出処理部が、前記文書画像情報から抽出する前記文字領域には、文字列を含む文字列領域も含まれており、
前記図領域抽出処理部は、
前記文書画像情報に対して、予め定められる局所領域を設定し、前記局所領域の輝度ヒストグラムを作成して前記局所領域の輝度変化情報を求め、前記輝度変化情報と、前記文字抽出処理部より抽出される前記文字列領域の情報と、前記ライン抽出処理部より抽出される線分の情報と、前記表領域抽出処理部より抽出される表領域の情報と、を用いて前記表領域の外、または前記表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行い、
前記表構造化処理部は、
前記表領域における前記文字列領域の情報、前記線分の情報、および前記画像オブジェクト領域の情報をもとに表構造を解析し、表を再構成する表構造情報を取得する
ことを特徴とする請求項１に記載の変換処理装置。
前記文字列領域のオブジェクト、前記表領域のオブジェクト、前記線分のオブジェクト、前記画像オブジェクトの順番、または、前記文字列領域のオブジェクト、前記表領域のオブジェクト、前記画像オブジェクト、前記線分のオブジェクトの順番でオブジェクトを配置するように指定されたファイル形式で記述するファイル記述部
をさらに備えることを特徴とする請求項２に記載の変換処理装置。
前記図領域抽出処理部は、
前記文書画像情報に対してエッジ検出を行い、前記エッジ検出の結果から、前記文字抽出処理部より抽出される文書構成要素の１つである文字列領域を除外することにより、前記画像オブジェクト領域の候補となる非文字列マップを生成する非文字列マップ生成処理部と、
前記輝度変化情報として、前記文書画像情報の局所領域におけるヒストグラムのエントロピーを算出し、算出したエントロピーの値が高い値である領域を前記画像オブジェクト領域の候補として前記非文字列マップに追加する非文字列エリア追加処理部と、
前記画像オブジェクト領域の候補が追加された前記非文字列マップに対し、前記表領域抽出処理部より抽出される前記表領域の線分を削除し、前記表領域の線分を削除した非文字列マップに対してラベリング処理を行うことにより前記画像オブジェクト領域のラベル付けを行い、ラベル付けされた画像オブジェクト領域の矩形領域を求めることによりオブジェクトマップを生成するオブジェクトマップ生成処理部と、
を備えることを特徴とする請求項２に記載の変換処理装置。
前記図領域抽出処理部は、
前記画像オブジェクト領域の矩形領域それぞれについて、前記矩形領域の統合処理、または、前記矩形領域の分割処理を行う有効オブジェクトエリア判定処理部
を備えることを特徴とする請求項４に記載の変換処理装置。
前記有効オブジェクトエリア判定処理部は、
複数の前記画像オブジェクト領域の矩形領域が重複している場合には、複数の画像オブジェクトの矩形領域座標の最大値と最小値を算出し、重複している画像オブジェクト領域を１つの矩形領域に統合する
ことを特徴とする請求項５に記載の変換処理装置。
前記有効オブジェクトエリア判定処理部は、
前記画像オブジェクト領域の矩形領域に対し、前記文字列領域が重複している場合には、前記画像オブジェクトの矩形領域と前記文字列領域よりなる領域の、座標の最大値と最小値を算出し、前記画像オブジェクト領域と重複している文字列領域を１つの矩形領域に統合する
ことを特徴とする請求項５又は６に記載の変換処理装置。
前記有効オブジェクトエリア判定処理部は、
前記画像オブジェクト領域の矩形領域に対し、前記表領域が重複している場合には、前記画像オブジェクト領域の矩形領域から前記表領域が重複している領域を排除すると共に、前記重複している表領域の水平方向の枠線、または、垂直方向の枠線の延長線上に沿って前記画像オブジェクト領域の矩形領域を分割する
ことを特徴とする請求項５から７のいずれか１項に記載の変換処理装置。
請求項１から８の何れか１項に記載の変換処理装置
を備えることを特徴とする情報処理装置。
コンピュータを、
文書画像情報に存在する文字領域を抽出する文字抽出処理手段、
前記文書画像情報に存在する線分を抽出するライン抽出処理手段、
前記ライン抽出処理手段より抽出される前記線分の情報を用い、表領域を抽出する表領域抽出処理手段、
前記文書画像情報に対して、予め定められる局所領域を設定し、前記局所領域の輝度ヒストグラムを作成して前記局所領域の輝度変化情報を求め、前記輝度変化情報と、前記文字抽出処理手段より抽出される前記文字領域の情報と、前記ライン抽出処理手段より抽出される線分の情報と、前記表領域抽出処理手段より抽出される表領域の情報と、を用いて前記表領域の外、または前記表領域の中に存在する図、または写真を含む画像オブジェクト領域の抽出を行う図領域抽出処理手段、
前記表領域における前記文字領域の情報、前記線分の情報、および前記画像オブジェクト領域の情報をもとに表構造を解析し、表を再構成する表構造情報を取得する表構造化処理手段、
として機能させるためのプログラム。
請求項１０に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。