JP6950320B2

JP6950320B2 - 画像処理装置

Info

Publication number: JP6950320B2
Application number: JP2017139124A
Authority: JP
Inventors: 健一桂
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2021-10-13
Anticipated expiration: 2037-07-18
Also published as: CN109274850B; CN109274850A; US20190028607A1; JP2019022085A; US10455116B2

Description

本発明は、画像データを変換し、文書ファイルを生成する画像処理装置に関する。

紙文書（原稿）を電子化することがある。電子化を行うとき、原稿が読み取られる。読み取りで得られた画像データを変換し、画像データのファイル形式と異なる形式のファイルを生成することがある。

紙文書の電子化に関する技術の一例が特許文献１に記載されている。特許文献１には、画像の領域を識別し、画像の領域に対応した画像処理を行い、画像処理されたデータを構造化し、画像の内容を示す内容データを生成し、領域識別に基づき内容データを各アプリケーションソフトで利用可能なデータへ変換するために用いる変換データを複数生成する画像処理装置が記載されている。原稿は文字列や表のような複数種の情報を含む。情報の種類により、編集に適したソフトウェアは異なる。そのため、読み取りで得られた画像データを変換するとき、形式が異なる複数のファイルを同時に生成することがある。特許文献１記載の技術では、編集に使用するソフトウェアの種類ごとにファイルを生成するよりも、作成されるデータの総量を小さくしようとする（特許文献１：請求項１、段落［００１２］、［００３６］等参照）。

特開２００８−２８２１４９号公報

紙文書（原稿）を電子化するとき、原稿の読み取りが行われる。読み取りで得られた画像データを特定の形式のファイルに変換することがある。そして、どのように変換するかを設定できる場合がある。例えば、使用者は、複数の変換手法の中から１つの手法を選ぶ。例えば、使用者は、変換後のファイルを都合よく編集できる変換手法を選択する。画像処理装置は、設定された手法を適用し、画像データから新たなファイルを生成する。

原稿のページの内容や生成したファイルの使用目的を考慮して、適切に変換手法を選択する必要がある。従来、複数の原稿を連続して電子化する場合、選んだ１つの手法が全ページに適用される。原稿に含まれる情報（内容）はページごとに変わる。例えば、表が含まれるページもあれば、表が含まれないページがある。また、文字が多いページもあれば、文字が少ないページもある。そのため、変換手法が不適切なページが出てくる場合があるという問題がある。一方、不適切な変換を防ぐため、１ページずつ変換手法を設定することが考えられる。しかし、１ページずつ変換手法を設定することは使用者にとって煩わしいという問題がある。

ここで、特許文献１は、作成されるデータの総量を小さくするための技術である。従って、特許文献１記載の技術では、上記の問題を解決することはできない。

本発明は、上記従来技術の問題点に鑑み、文書ファイルの編集作業が容易になるように
文書ファイルの生成処理を自動的に選択し、使用者の煩わしさを無くす。

上記課題解決のため、本発明に係る画像処理装置は、レイアウト解析部、ＯＣＲ処理部、文書ファイル生成部を含む。前記レイアウト解析部は、画像データのレイアウトを解析する。前記レイアウト解析部は文字を含む文字領域を前記画像データから抽出する。前記ＯＣＲ処理部は、前記文字領域に含まれる文字を認識する。前記ＯＣＲ処理部はテキストデータを生成する。前記文書ファイル生成部は、前記文字領域の面積を、前記文字領域と前記文字領域以外の領域の合計面積で除して比率を求める。前記文書ファイル生成部は、前記比率が閾値未満のとき、第１生成処理により文書ファイルを生成する。前記文書ファイル生成部は、前記比率が前記閾値以上のとき、第２生成処理により前記文書ファイルを生成する。前記第１生成処理は、前記テキストデータを含むテキストボックスを貼りつけた前記文書ファイルを生成する処理である。前記第２生成処理は、前記テキストボックスを用いずに、直接、前記テキストデータを記入して前記文書ファイルを生成する処理である。

本発明によれば、文書ファイルの編集作業が容易になるように、画像データに基づく文書ファイルの生成処理を自動的に選択することができる。使用者の煩わしさを無くすことができる。

実施形態に係る複合機の一例を示す図である。実施形態に係る画像読取部と制御部の一例を示す図である。原稿を読み取って得られた画像データの一例を示す図である。実施形態に係る第１生成処理で生成された文書ファイルの一例を示す図である。実施形態に係る第１生成処理で生成されるＸＭＬ形式のファイルの一例を示す図である。画像データ（原稿）の他の一例を示す図である。実施形態に係る第２生成処理で生成された文書ファイルの一例を示す図である。実施形態に係る第２生成処理で生成されるＸＭＬ形式のファイルの一例を示す図である。実施形態に係る複合機での文書ファイルの生成の流れの一例を示す図である。

以下、図１〜図９を用い、実施形態に係る画像処理装置を説明する。画像処理装置として複合機１００を例に挙げて説明する。複合機１００は、原稿読み取りの他、印刷、送信が可能である。複合機１００は画像形成装置でもある。本実施形態の説明に記載されている構成、配置等の各要素は発明の範囲を限定せず単なる説明例にすぎない。

（複合機１００）
図１を用いて、実施形態に係る複合機１００の一例を説明する。図１は、実施形態に係る複合機１００の一例を示す図である。

図１に示すように、複合機１００は、制御部１、記憶部２、操作パネル３、印刷部４、通信部５、画像読取部６、原稿搬送部７を含む。

制御部１は複合機１００を制御する。制御部１は、ＣＰＵ１１と画像処理部８を含む。記憶部２は、ＲＯＭ、フラッシュＲＯＭ、ストレージ（ＨＤＤ）のような不揮発性の記憶装置を含む。記憶部２はＲＡＭのような揮発性の記憶装置も含む。制御部１は、記憶部２に記憶されたプログラムやデータを利用して各部を制御する。また、制御部１は原稿読取や画像データの生成を制御する。画像処理部８は、画像処理専用の集積回路である。例えば、画像処理部８はＡＳＩＣである。画像処理部８は画像データの画像処理を行う。

操作パネル３は、表示パネル３１、タッチパネル３２、ハードキー３３を含む。制御部１は、設定用画面や操作用画像を表示パネル３１に表示させる。操作用画像は、例えば、ボタン、キー、タブである。タッチパネル３２の出力に基づき、制御部１は、操作された操作用画像を認識する。ハードキー３３はスタートキーやテンキーを含む。タッチパネル３２、ハードキー３３は使用者の設定操作を受け付ける。制御部１は操作パネル３と通信する。制御部１は設定内容を認識する。

印刷部４は、給紙部４ａ、用紙搬送部４ｂ、画像形成部４ｃ、定着部４ｄを含む。印刷ジョブのとき、制御部１は用紙を給紙部４ａに供給させる。制御部１は用紙を用紙搬送部４ｂに搬送させる。用紙搬送部４ｂは印刷済み用紙を機外に排出する。制御部１は画像データに基づくトナー像を画像形成部４ｃに形成させる。制御部１は搬送用紙へのトナー像の転写を画像形成部４ｃに行わせる。制御部１は転写されたトナー像の用紙への定着を定着部４ｄに行わせる。制御部１は印刷部４の動作を制御する。

通信部５は、コンピューター２００と通信可能に接続される。通信部５とコンピューター２００はネットワークを介して通信する。通信部５は、通信用回路、通信用ソフトウェアを含む。通信部５はコンピューター２００から送信された印刷用データを受信する。印刷用データは画像データやページ記述言語で記述されたデータを含む。制御部１は受信した印刷用データに基づき、印刷部４に印刷させる（プリントジョブ）。

画像読取部６は原稿ガラス（不図示）を含む、原稿ガラスは光を透過する。原稿は原稿ガラスにセットされる。画像読取部６は、原稿ガラスにセットされた原稿に光を照射する。画像読取部６は原稿の下側の面を読み取って画像データを生成する。制御部１は生成された画像データを記憶部２に記憶させる。

また、原稿搬送部７は開閉可能である。閉じられたとき、原稿搬送部７は原稿ガラス上の原稿を押さえる。原稿搬送部７は、自動的に１枚ずつセットされた原稿を読み取り位置（搬送読取用コンタクトガラス）に搬送する。搬送読取用ガラス（不図示）は画像読取部６に設けられる。搬送原稿は搬送読取用ガラスの上を通過する。画像読取部６は、搬送読取用コンタクトガラスを通過する原稿に光を照射する。画像読取部６は原稿を読み取って画像データを生成する。制御部１は生成された画像データを記憶部２に記憶させる。

（画像読取部６と制御部１）
次に、図２、図３を用いて、実施形態に係る画像読取部６と制御部１の一例を説明する。図２は、実施形態に係る画像読取部６と制御部１の一例を示す図である。図３は、原稿を読み取って得られた画像データの一例を示す図である。

図２に示すように、画像読取部６は、ランプ６１、イメージセンサー６２、画像データ生成回路６３を含む。原稿を読み取るとき、ランプ６１は原稿に光を照射する。ランプ６１は、例えば、ＬＥＤを含む。イメージセンサー６２は複数の受光素子（画素）を含む。受光素子は主走査方向に並べられる。イメージセンサー６２はカラーでの読み取りに対応している。そのため、イメージセンサー６２は、Ｒ、Ｇ、Ｂの３色のラインセンサーを含む。原稿で反射された光は、受光素子に入射する。ラインセンサーの各受光素子は、受光量（反射光量）に応じたアナログ画像信号を出力する。

画像データ生成回路６３は、イメージセンサー６２から出力されたアナログ画像信号に基づき、画像データを生成する。画像データ生成回路６３は、アナログ画像信号を調整するための調整回路を含む。調整回路は、例えば、増幅回路やオフセット回路である。また、画像データ生成回路６３は、Ａ／Ｄ変換回路を含む。Ａ／Ｄ変換回路は、調整されたアナログ画像信号をディジタル値に変換する。また、画像データ生成回路６３は、補正回路を含む。補正回路は、ランプ６１の発光特性や、イメージセンサー６２の読取特性に起因するディジタル値の歪みを補正する。補正回路は、例えば、シェーディング補正を行う。

ここで、複合機１００は、読み取りで得られた画像データから文書ファイル１０を生成する。制御部１（ＣＰＵ１１、画像処理部８）が画像データから文書ファイル１０を生成する。図２に示すように、文書ファイル１０の生成に関し、制御部１はレイアウト解析部８１、ＯＣＲ処理部８２、文書ファイル生成部８３、色数認識部８４、サイズ認識部８５を含む。

ＣＰＵ１１が、レイアウト解析部８１、ＯＣＲ処理部８２、文書ファイル生成部８３、色数認識部８４、サイズ認識部８５のうち、１又は複数として動作してもよい。この場合、記憶部２に記憶されたプログラムに基づき、ＣＰＵ１１が処理を行う。また、レイアウト解析部８１、ＯＣＲ処理部８２、文書ファイル生成部８３、色数認識部８４、サイズ認識部８５のうち、１又は複数は、ハードウェア（回路）として設けられてもよい。例えば、画像処理部８内の一部として回路が設けられてもよい。

レイアウト解析部８１は、画像データのレイアウトを解析する。そして、レイアウト解析部８１は、例えば、画像データから文字領域９１、図領域９２、表領域９３を抽出する。文字領域９１は、文字列（文字）のみからなる領域である。図領域９２は、図形、写真のような図を含む領域である。表領域９３は表を含む領域である。表は罫線、枠を含む。枠内に文字を含む場合がある。なお、レイアウト解析部８１は、適切な領域抽出のため、傾き補正処理を行ってもよい。

各領域の抽出のアルゴリズムは、適宜定めることができる。アルゴリズムは、領域を抽出できるものであればよい。例えば、レイアウト解析部８１は、画像データから画像としてのブロック（まとまり）を抽出する。レイアウト解析部８１は矩形のブロックを抽出する。例えば、レイアウト解析部８１は画像データを２値化する。２値化したデータのうち、予め定められた第１閾値以上の幅を有する空白領域を認識する。第１閾値は記憶部２に記憶される。レイアウト解析部８１は、画像データのうち、空白領域内に対応する領域内にブロックの境界を設定してもよい。また、レイアウト解析部８１は、２値化したデータのうち、所定距離内にある黒画素をグループ化（結合）してもよい。そして、レイアウト解析部８１はグループ化した画素群と覆う最小の矩形を認識する。レイアウト解析部８１は、画像データのうち、矩形に対応する領域を１つのブロックとしてもよい。また、レイアウト解析部８１は、他の手法により、ブロックを抽出してもよい。

図３において、ある原稿の画像データにおいて、抽出されるブロックの一例を破線枠で示している。次に、レイアウト解析部８１は、抽出したブロックを文字領域９１、図領域９２、表領域９３の何れかに分類する。

例えば、レイアウト解析部８１は、ブロックに含まれる画素のうち、所定濃度以上の画素値を有する画素を認識する。所定濃度は予め定められる。レイアウト解析部８１は、所定濃度以上の画素値を有し、つながっている画素のかたまりごとに、外接矩形を定める。例えば、黒文字の場合、黒文字を囲う矩形が定められる。

図（写真）、表などでは、外接矩形は大きくなる。ブロック内の全外接矩形が予め定められた第２閾値より小さいとき、レイアウト解析部８１は、そのブロックを文字領域９１と分類する。第２閾値は記憶部２に記憶される。残りのブロックのうち、レイアウト解析部８１は、直線の成分を認識する。例えば、レイアウト解析部８１は、ハフ変換処理を用いて、直線（線分）を認識する。レイアウト解析部８１は、各直線の端部が表を形成するように接続されているブロックを表領域９３に分類する。レイアウト解析部８１は、抽出ブロックのうち、文字領域９１と表領域９３の何れにも分類できないブロックを図領域９２に分類する。なお、他の手法により、レイアウト解析部８１は分類を行ってもよい。

ＯＣＲ処理部８２は、文字領域９１の文字認識処理を行う。ＯＣＲ処理部８２は、文字領域９１に含まれる文字列（行）を認識する。例えば、ＯＣＲ処理部８２は、文字列を枠で囲う。また、ＯＣＲ処理部８２は、文字列に含まれる個々の文字を認識する。ＯＣＲ処理部８２は、文字間隔（空白）に基づき、個々の文字を枠で囲う。ＯＣＲ処理部８２は、パターンマッチングにより、各文字を認識してもよい。また、ＯＣＲ処理部８２は、各文字の特徴点を認識し、特徴点に基づき、文字を認識してもよい。文字を認識するための文字認識用データＤ１が記憶部２に記憶される。ＯＣＲ処理部８２は、文字認識用データＤ１を用いて、文字を認識する。そして、ＯＣＲ処理部８２は、文字領域９１に含まれる文字のテキストデータＴ１を生成する。

文書ファイル生成部８３は、入力された画像データに基づき、文書ファイル１０を生成する。文書ファイル１０は、ＯＣＲ処理により生成されたテキストデータＴ１を含む。文書ファイル生成部８３は、画像データ（ページ）ごとに、第１生成処理と第２生成処理の何れか一方を選択する。文書ファイル生成部８３は、選択した生成処理を行って文書ファイル１０を生成する。

文書ファイル生成部８３は、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）形式のファイルを文書ファイル１０として生成する。文書ファイル生成部８３は、文書作成用ソフトウェア（ワープロソフトウェア）で使用できる形式の文書ファイル１０を生成する。ワープロソフトウェアは、例えば、マイクロソフト社のＷＯＲＤである。文書ファイル生成部８３は、他のワープロソフトウェアで利用可能な形式の文書ファイル１０を生成してもよい。また、文書ファイル生成部８３は、ＸＭＬ以外の形式のファイルを文書ファイル１０として生成してもよい。

色数認識部８４は、文字領域９１に含まれる文字で使用される色数をカウントする。色数の上限値は適宜定められる。例えば、色数認識部８４は、文字領域９１に含まれる画素のうち、白とみなす画素値を有する画素を除外する。そして、色数認識部８４は残る画素を黒、灰、赤、黄、緑、青、紫の何れかに分類する。色ごとに、画素値の範囲が予め定められる。赤、黄、緑、青、紫の各中間色（橙、黄緑、青緑、青紫、赤紫）を含めてもよい。この場合、色数認識部８４は、画素を１２色のうち、何れかに分類する。色数認識部８４は、分類した画素がある色の数をカウントする。例えば、文字領域９１に含まれる画素を黒、赤、緑の何れかに分類したとき、色数認識部８４は色数が３であると認識する。

サイズ認識部８５は、文字領域９１に含まれる個々の文字のサイズを認識する。サイズ認識部８５は、ＯＣＲ処理部８２が囲った文字列の高さ又は幅に基づき、文字のサイズを認識する。また、サイズ認識部８５は、ＯＣＲ処理部８２が囲った個々の文字の枠の大きさに基づき、文字のサイズを認識してもよい。

制御部１が画像データから生成した文書ファイル１０は、記憶部２に記憶される。そして、制御部１は、宛先に設定されたコンピューター２００に向けて、生成された文書ファイル１０を通信部５に送信させる。各使用者は、コンピューター２００及びコンピューター２００にインストールされたソフトウェアを用いて、文書ファイル１０を編集することができる。

操作パネル３は、原稿を読み取って文書ファイル１０を生成するジョブ（文書ファイル生成ジョブ）の実行指示を受け付ける。また、操作パネル３は、生成された文書ファイル１０の送信先の設定を受け付ける。なお、複合機１００に文書ファイル１０を蓄積したい場合がある。そのため、宛先として、記憶部２を設定することができる。例えば、操作パネル３は、記憶部２に設けられるフォルダーを宛先とする設定を受け付ける。

（第１生成処理）
次に、図４、図５を用いて、実施形態に係る第１生成処理の一例を説明する。図４は実施形態に係る第１生成処理で生成された文書ファイル１０の一例を示す図である。図５は実施形態に係る第１生成処理で生成されるＸＭＬ形式のファイルの一例を示す図である。

第１生成処理は、文書ファイル１０を生成する手法の１つである。第１生成処理のとき、文書ファイル生成部８３は、文字領域９１に含まれる文字のテキストデータＴ１をオブジェクトとして貼りつけた文書ファイル１０を生成する。文字領域９１に含まれる文字のテキストデータＴ１を含むオブジェクトがテキストボックス１０ａである。

図４は、図３に示す原稿の読み取りで得られた画像データに基づき、第１生成処理により生成された文書ファイル１０の一例を示す。図４では、テキストボックス１０ａの外枠の一例を太い破線で示している。

また、第１生成処理のとき、文書ファイル生成部８３は、図領域９２をオブジェクトとして貼りつけた文書ファイル１０を生成する。第１生成処理のとき、文書ファイル生成部８３は、画像データから図領域９２を切り出す（コピーする）。そして、文書ファイル生成部８３は、図領域９２の画像データをイメージオブジェクト１０ｂとして貼りつける。図４では、図領域９２に対応するイメージオブジェクト１０ｂの外枠の一例を太い１点鎖線で示している。

また、第１生成処理のとき、文書ファイル生成部８３は、表領域９３をオブジェクトとして貼りつけた文書ファイル１０を生成する。第１生成処理のとき、文書ファイル生成部８３は、画像データから表領域９３を変換し、罫線で組まれた表（テーブルデータ１０ｃ）を生成する。尚、表内の文字、数字は、ＯＣＲ処理部８２が認識する。そして、文書ファイル生成部８３は、罫線で組まれた表のデータをオブジェクトとして貼りつける。図４では、表領域９３に対応するテーブルデータ１０ｃの外枠の一例を太い２点鎖線で示している。なお、文書ファイル生成部８３は、画像データから表領域９３をそのまま切り出してもよい。そして、文書ファイル生成部８３は、表領域９３の画像データをイメージオブジェクト１０ｂとして貼りつけてもよい。

文書ファイル生成部８３は、原稿と同様の位置に各オブジェクト（テキストボックス１０ａ、イメージオブジェクト１０ｂ、テーブルデータ１０ｃ）を配した文書ファイル１０を生成する。文書ファイル生成部８３は、画像データと同じとなるように、各オブジェクトの大きさを設定する。これにより、原稿に近似する文書ファイル１０を生成することができる。

図５は、生成されたＸＭＬ文書の一例を示す。ＸＭＬファイルは、要素名を示すタグを含む。ＸＭＬファイルでは、〈要素名〉が開始タグである。〈／要素名〉が終了タグである。例えば、図５のうち、「ｗ：ｂｏｄｙ」が要素名である。図５のうち、〈ｗ：ｂｏｄｙ〉が開始タグである。図５のうち、〈／ｗ：ｂｏｄｙ〉が開始タグである。図３に示す原稿の画像データに基づき、第１生成処理により文書ファイル１０を生成したとき、文書ファイル１０はテキストボックス１０ａ、イメージオブジェクト１０ｂ、テーブルデータ１０ｃを要素として含む。そのため、図５に示すように、文書ファイル生成部８３は、テキストボックス１０ａ、イメージオブジェクト１０ｂ、テーブルデータ１０ｃのそれぞれを定義する部分を含むＸＭＬファイルを生成する。

第１生成処理で生成された文書ファイル１０は、各要素がオブジェクトとして貼りつけられる。そのため、編集時、文字、図、表のレイアウトを変更しやすいという利点がある。言い換えると、レイアウトを再構築しやすいという利点がある。

（第２生成処理）
次に、図６〜図８を用いて、実施形態に係る第２生成処理の一例を説明する。図６は、画像データ（原稿）の他の一例を示す図である。図７は、実施形態に係る第２生成処理で生成された文書ファイル１０の一例を示す図である。図８は、実施形態に係る第２生成処理で生成されるＸＭＬ形式のファイルの一例を示す図である。

第２生成処理は、文書ファイル１０を生成する手法の１つである。第２生成処理のとき、文書ファイル生成部８３は、テキストボックス１０ａを用いない。文書ファイル生成部８３は、直接、テキストデータＴ１を記入した文書ファイル１０を生成する。

図６の画像データは、便宜上、図３の原稿から図と表を削除した原稿である。図６の原稿は、図領域９２と表領域９３を含まない。そのため、図６の原稿では、レイアウト解析部８１は、２つの文字領域９１を認識する。

図７は、読み取りで得られた画像データに基づき、第２生成処理により生成された文書ファイル１０の一例を示す。第２生成処理のとき、文書ファイル生成部８３は、文字領域９１に含まれる文字のテキストデータＴ１を文書ファイル１０に直接書き込む。

図８は、第２生成処理により生成されたＸＭＬ文書の一例を示す。第２生成処理により文書ファイル１０を生成したとき、文書ファイル１０はテキストボックス１０ａを要素として含まない。図８に示すように、文書ファイル生成部８３は、テキストボックス１０ａを使用しないＸＭＬファイルを生成する。文書ファイル生成部８３は、文書ファイル１０のボディに直接テキストデータＴ１を定義するＸＭＬファイルを生成する。

なお、第２生成処理の場合、画像データに図領域９２が含まれているとき、文書ファイル生成部８３は、図領域９２をイメージオブジェクト１０ｂとして貼りつけた文書ファイル１０を生成する。第２生成処理の場合、画像データに表領域９３が含まれているとき、文書ファイル生成部８３は、表領域９３をオブジェクト（テーブルデータ１０ｃ）として貼りつけた文書ファイル１０を生成する。これらの点は、第１生成処理と同様である。

第２生成処理で生成された文書ファイル１０は、テキストデータＴ１が文書ファイル１０に直接貼りつけられる。テキストの全選択、コピー、ペーストがしやすいという利点がある。言い換えると、テキストの編集が容易であるという利点がある。

（文書ファイル１０の生成の流れ）
次に、図９を用いて、実施形態に係る複合機１００での文書ファイル１０の生成の流れの一例を説明する。図９は、実施形態に係る複合機１００での文書ファイル１０の生成の流れの一例を示す図である。

図９のスタートは、操作パネル３で文書ファイル生成ジョブの実行指示がなされた時点である。操作パネル３との通信に基づき、制御部１は、文書ファイル生成ジョブの実行指示がなされたことを認識する。

まず、制御部１は原稿を画像読取部６に読み取らせる（ステップ♯１）。そして、制御部１は、原稿の画像データを画像読取部６に生成させる（ステップ♯２）。次に、制御部１は、画像データのレイアウト解析をレイアウト解析部８１に行わせる（ステップ♯３）。レイアウト解析部８１は、抽出したブロックを文字領域９１、図領域９２、表領域９３の何れかに分類する（ステップ♯４）。そして、ＯＣＲ処理部８２は、文字領域９１、表領域９３の文字を認識する（ステップ♯５）。

次に、文書ファイル生成部８３（制御部１）は、文字領域９１の面積を求める（ステップ♯６）。また、文書ファイル生成部８３は、文字領域９１以外の領域と文字領域９１の合計面積を求める（ステップ♯７）。そして、文書ファイル生成部８３は、文字領域９１の面積を合計面積で除し、比率を求める（ステップ♯８）。文字領域９１の面積が多いほど、比率が大きくなる。

面積を求めるとき、文書ファイル生成部８３は、文字領域９１のドット数（画素数）を数える。また、合計面積を求めるとき、文書ファイル生成部８３は、文字領域９１のドット数と、図領域９２のドット数と、表領域９３のドット数を足しあわせる。

そして、文書ファイル生成部８３は閾値を設定する（ステップ♯９）。文書ファイル生成部８３は、予め定められた基準値を閾値としてもよい。基準値は、例えば、４０〜６０％（０．４〜０．６）の範囲の何れかの値とされる。そして、文書ファイル生成部８３は、比率が閾値以上であるか否かを確認する（ステップ♯１０）。

比率が閾値未満のとき（ステップ♯１０のＮｏ）、画像データの文字領域９１が少ない。文字列（テキスト）が少ないといえる。このような画像データの文書ファイル１０では、レイアウトの変更の頻度が高い。そこで、比率が閾値未満のとき（ステップ♯１０のＮｏ）、文書ファイル生成部８３は、第１生成処理を行って文書ファイル１０を生成する（ステップ♯１１）。そして、本フローは終了する（エンド）。

例えば、図３の画像データの場合、文字領域９１の比率は、３０％（０．３）程度となる。この場合、レイアウトの変更がしやすいように、文書ファイル生成部８３は、第１生成処理により文書ファイル１０を生成する。

比率が閾値以上のとき（ステップ♯１０のＹｅｓ）、画像データでは、文字列（テキスト）が多いとみなせる。このような画像データの文書ファイル１０では、ページのレイアウトの変更よりも、文書（文字列）自体の編集の頻度が高いと考えられる。そこで、比率が閾値以上のとき（ステップ♯１０のＹｅｓ）、文書ファイル生成部８３は、第２生成処理を行って文書ファイル１０を生成する（ステップ♯１２）。そして、本フローは終了する（エンド）。

例えば、図６の画像データの場合、図や表を含まない。文字領域９１の比率は１００％となる。この場合、文字列の編集がしやすいように、文書ファイル生成部８３は、第２生成処理により文書ファイル１０を生成する。

ここで、画像データ（原稿）では、文字に複数色を用いている場合がある。強調したい文字列を有彩色にする場合がある。例えば、見出しの文字列を赤色にすることがある。また、例えば、強調したい文章を青色にする場合もある。つまり、カラフルな原稿がある。複数色の文字が配されているとき、色単位での文字列を移動したい場合がある。文字の色数が多いほど、レイアウトを変更する編集が行われやすい。

そこで、ステップ♯９の前に、色数認識部８４が文字領域９１に含まれる文字の色数をカウントしてもよい。そして、ステップ♯９において、文書ファイル生成部８３は、色数が多いほど、閾値を大きくしてもよい。例えば、文書ファイル生成部８３は、色数に予め定められた係数を乗じて第１演算値を得る。係数は記憶部２に記憶される。文書ファイル生成部８３は、基準値に第１演算値を加算した値を閾値と設定してもよい。なお、操作パネル３は、色数に応じて閾値を調整するか否かの設定を受け付けてもよい。色数に応じて閾値を設定する設定がなされているとき、文書ファイル生成部８３は、色数が多いほど、閾値を大きくする。文書ファイル生成部８３は、色数が多いほど、閾値の調整量を大きくする。文書ファイル生成部８３は、色数が少ないほど、閾値の調整量を小さくする。

なお、文書ファイル生成部８３は、原稿（画像データ）と同じ色又は近似する色の文字を文書ファイル１０に含ませる。第１生成処理により文書ファイル１０を生成するとき、文書ファイル生成部８３は、原稿（画像データ）と同じ色又は近似する色の文字を含むテキストボックス１０ａを文書ファイル１０に含める。第２生成処理により文書ファイル１０を生成するとき、文書ファイル生成部８３は、原稿（画像データ）と同じ色又は近似する色の文字を文書本体に貼りつける。

また、原稿が様々なサイズの文字を含む場合がある。強調したい文字列では、文字のサイズ（ポイント）を大きくする場合がある。例えば、他の文字よりも見出し部分の文字のサイズを大きくすることがある。そして、様々なサイズの文字列が配されているとき、同じサイズ単位で、文字列を移動させたい場合がある。様々な文字のサイズが配されているとき、テキストの編集よりも、レイアウトを変更する編集が行われやすい場合がある。

そこで、ステップ♯９の前に、サイズ認識部８５が文字領域９１に含まれる各文字のサイズを認識してもよい。そして、ステップ♯９において、文書ファイル生成部８３は、使用されている文字のサイズの種類が多いほど、閾値を大きくしてもよい。例えば、文書ファイル生成部８３は、使用されている文字のサイズの種類に係数を乗じて第２演算値を得る。文書ファイル生成部８３は、第２演算値と基準値を加算した値を閾値と設定してもよい。なお、操作パネル３は、サイズの種類の数に応じて閾値を調整するか否かの設定を受け付けてもよい。サイズの種類の数に応じて閾値を設定する設定がなされているとき、文書ファイル生成部８３は、サイズの種類の数が多いほど、閾値を大きくする。文書ファイル生成部８３は、サイズの種類の数が多いほど、閾値の調整量を大きくする。文書ファイル生成部８３は、サイズの種類の数が少ないほど、閾値の調整量を小さくする。また、文書ファイル生成部８３は、第１演算値と第２演算値と基準値を加算した値を閾値と設定してもよい。

なお、操作パネル３は係数の設定を受け付けてもよい。係数が設定されたとき、文書ファイル生成部８３は、設定された係数を用いて、閾値を設定する。

なお、文書ファイル生成部８３は、原稿（画像データ）と同じ又は近似するサイズの文字を文書ファイル１０に含ませる。第１生成処理により文書ファイル１０を生成するとき、文書ファイル生成部８３は、原稿（画像データ）と同じ又は近似するサイズの文字を含むテキストボックス１０ａを文書ファイル１０に含める。第２生成処理により文書ファイル１０を生成するとき、文書ファイル生成部８３は、原稿（画像データ）と同じ又は近似するサイズの文字を文書本体に貼りつける。

ここで、図９のフローチャートは、原稿１枚ごとに実行される。原稿搬送部７に複数の原稿をセットしているとき、連続的に並行して、図９のフローチャートが実行される。この場合、原稿搬送部７が１枚ずつ原稿を読み取り位置に搬送する。連続して原稿が搬送され、画像読取部６が画像データを連続して生成したとき、レイアウト解析部８１は、１ページずつ、画像読取部６が生成した画像データのレイアウトの解析と各領域の抽出を行う。文書ファイル生成部８３は、１ページずつ、第１生成処理と第２生成処理のうち何れを行うかを選択する。文書ファイル生成部８３は、選択した処理により、各ページの画像データを変換した文書ファイル１０を生成する。なお、文書ファイル生成部８３は、１ページずつ文書ファイル１０を生成してもよい。また、文書ファイル生成部８３は、複数ページをまとめた文書ファイル１０を生成してもよい。

このようにして、実施形態に係る画像処理装置（複合機１００）は、画像処理装置は、レイアウト解析部８１、ＯＣＲ処理部８２、文書ファイル生成部８３を含む。レイアウト解析部８１は、画像データのレイアウトを解析する。レイアウト解析部８１は文字を含む文字領域９１を画像データから抽出する。ＯＣＲ処理部８２は、文字領域９１に含まれる文字を認識する。ＯＣＲ処理部８２はテキストデータＴ１を生成する。文書ファイル生成部８３は、文字領域９１の面積を、文字領域９１と文字領域９１以外の領域の合計面積で除して比率を求める。文書ファイル生成部８３は、比率が閾値未満のとき、第１生成処理により文書ファイル１０を生成する。文書ファイル生成部８３は、比率が閾値以上のとき、第２生成処理により文書ファイル１０を生成する。

これにより、文字領域９１の大きさに基づき、複数種の生成処理の中から、適用する生成処理を自動的に選択することができる。使用者は、適用する生成処理を選択しなくてもよくなる。使用者の設定の煩わしさを無くすことができる。

原稿と完全に一致するように、画像データを変換できるわけではない。生成された文書ファイル１０に原稿とのずれが目立つ部分が含まれことがある。ページ中、文字領域９１が少なく、他種の領域が多い場合、原稿にあわせるため、各領域の位置やサイズを調整する編集が行われやすい。つまり、レイアウト変更の編集がなされることが多くなる。ここで、テキストボックス１０ａを移動させれば、内部の文字列全体を移動させることができる。テキストボックス１０ａを用いた文書ファイル１０は、レイアウトの編集、再構築が容易という利点を有する。そこで、文字領域９１が少ない場合、第１生成処理により、テキストボックス１０ａが貼りつけられた文書ファイル１０を生成する。文書ファイル１０の編集作業が容易になるように、文書ファイル１０を生成することができる。

ページ中の文字領域９１が広い場合、主に、文字列（文章）が編集の対象となる。例えば、文字列のコピー、ペーストが多くなる。文書に直接貼りつけられた文字列（テキストデータＴ１）は、テキストボックス１０ａ内に配された文字列よりも、編集が容易である。また、文書に直接テキストデータＴ１が貼りつけられている場合、テキストボックス１０ａ内のテキストよりも、検索しやすい。そこで、文字領域９１の割合が大きい場合、第２生成処理により、テキストが直接貼りつけられた文書ファイル１０を生成することができる。テキストの編集、検索に適した文書ファイル１０を生成することができる。文書ファイル１０の編集作業が容易になるように、文書ファイル１０を生成することができる。

画像処理装置は、原稿搬送部７と画像読取部６を含む。原稿搬送部７は、１枚ずつ原稿を読み取り位置に搬送する。画像読取部６は、搬送される原稿を読み取り、画像データを生成する。連続して原稿が搬送され、画像読取部６が画像データを連続して生成したとき、レイアウト解析部８１は、１ページずつ、画像読取部６が生成した画像データのレイアウトの解析と領域の抽出を行う。文書ファイル生成部８３は、１ページずつ、第１生成処理と第２生成処理のうち何れを行うかを選択する。文書ファイル生成部８３は、選択した処理を行って各ページの画像データを変換した文書ファイル１０を生成する。これにより、複数の原稿を連続して電子化する場合、１ページずつ採用する生成処理を選択しなくてすむ。使用者に煩わしさを感じさせることがない。使い勝手を向上させることができる。

また、レイアウト解析部８１は、画像データから文字領域９１と、図を含む図領域９２と、表を含む表領域９３を抽出する。文書ファイル生成部８３は、文字領域９１と図領域９２と表領域９３の合計を合計面積とする。文書ファイル生成部８３は、図領域９２をイメージオブジェクト１０ｂとして貼りつけた文書ファイル１０を生成する。文書ファイル生成部８３は、表領域９３をテーブルとして貼りつけた文書ファイル１０を生成する。これにより、１ページの文書に含まれる多数の要素を考慮して、第１生成処理と第２生成処理のうち何れを行うかを判定することができる。また、図や表がイメージオブジェクト１０ｂやテーブルのようなオブジェクトとして文書ファイル１０に貼りつけられる。従って、文字、図、表のレイアウトの変更することができる。

ページ内で文字の色が多彩である場合、同じ色の文字単位で、文字列の位置を移動させたい場合がある。そこで、画像処理装置は、文字領域９１に含まれる文字で使用される色数をカウントする色数認識部８４を含む。文書ファイル生成部８３は、色数が多いほど、閾値を大きくする。これにより、ページ内での文字の色数に応じて、閾値を自動的に調整することができる。文字の色数が多い場合、テキストボックス１０ａが貼りつけられた文書ファイル１０が生成されやすくなるように、閾値を自動的に調整することができる。生成後の編集がしやすいように、文書ファイル１０を生成することができる。

ページ内で様々なサイズ（ポイント）の文字が用いられている場合、同様のサイズの文字列単位で、文字列の位置を移動させたい場合がある。そこで、画像処理装置は、文字領域９１に含まれる文字のサイズを認識するサイズ認識部８５を含む。文書ファイル生成部８３は、文字のサイズの種類が多いほど、閾値を大きくする。これにより、ページ内での文字のサイズの種類に応じて、閾値を自動的に調整することができる。ページ内での文字のサイズの種類が多いほど、テキストボックス１０ａが貼りつけられた文書ファイル１０が生成されやすくなるように、閾値を自動的に調整することができる。生成後の編集がしやすいように、文書ファイル１０を生成することができる。

また、文書ファイル生成部８３は、文書ファイル１０として、ＸＭＬ形式のファイルを生成する。近年のワープロソフトウェア（文書編集ソフトウェア）は、ＸＭＬ形式のファイルに対応している。従って、汎用性の高い文書ファイル１０を生成することができる。

又、本発明の実施形態を説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実施することができる。

例えば、上記の説明では、画像読取部６が生成した画像データに基づき、文書ファイル１０を生成する例を説明した。しかし、画像データは、通信部５が受信した画像データでもよい。例えば、画像データは、何れかのコンピューター２００が送信した画像データでもよい。また、画像データは、ネットワークで接続された他の画像形成装置が送信した画像データでもよい。

本発明は、読み取りで得られた画像データに基づき、文書ファイルを生成する画像処理装置に利用可能である。

１００複合機（画像処理装置）６画像読取部
７原稿搬送部８１レイアウト解析部
８２ＯＣＲ処理部８３文書ファイル生成部
８４色数認識部８５サイズ認識部
９１文字領域９２図領域
９３表領域１０ａテキストボックス
１０ｂイメージオブジェクト１０ｃテーブルデータ
Ｔ１テキストデータ

Claims

画像データのレイアウトを解析し、文字のみからなる文字領域を前記画像データから抽出するレイアウト解析部と、
前記文字領域の前記文字を認識し、テキストデータを生成するＯＣＲ処理部と、
前記文字領域の面積を、前記文字領域と前記文字領域以外の領域の合計面積で除して比率を求め、
前記比率が閾値未満のとき、第１生成処理により文書ファイルを生成し、
前記比率が前記閾値以上のとき、第２生成処理により前記文書ファイルを生成する文書ファイル生成部と、を含み、
前記第１生成処理は、前記テキストデータを含むテキストボックスを貼りつけた前記文書ファイルを生成する処理であり、
前記第２生成処理は、前記テキストボックスを用いずに、直接、前記テキストデータを記入して前記文書ファイルを生成する処理であることを特徴とする画像処理装置。
１枚ずつ原稿を読み取り位置に搬送する原稿搬送部と、
搬送される原稿を読み取り、前記画像データを生成する画像読取部と、を含み、
連続して原稿が搬送され、前記画像読取部が前記画像データを連続して生成したとき、
前記レイアウト解析部は、１ページずつ、前記画像読取部が生成した前記画像データのレイアウトの解析と前記文字領域と前記文字領域以外の領域の抽出を行い、
前記文書ファイル生成部は、
１ページずつ、前記第１生成処理と前記第２生成処理のうち何れを行うかを選択し、
選択した処理を行って各ページの前記画像データを変換した前記文書ファイルを生成することを特徴とする請求項１に記載の画像処理装置。
前記レイアウト解析部は、前記画像データから前記文字領域と、図を含む図領域と、表を含む表領域を抽出し、
前記文書ファイル生成部は、
前記文字領域と前記図領域と前記表領域の合計を前記合計面積とし、
前記図領域をイメージオブジェクトとして貼りつけた前記文書ファイルを生成し、
前記表領域をテーブルデータとして貼りつけた前記文書ファイルを生成することを特
徴とする請求項１又は２に記載の画像処理装置。
前記文字領域に含まれる文字で使用される色数をカウントする色数認識部を含み、
前記文書ファイル生成部は、前記色数が多いほど、前記閾値を大きくすることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記文字領域に含まれる文字のサイズを認識するサイズ認識部を含み、
前記文書ファイル生成部は、前記文字のサイズの種類が多いほど、前記閾値を大きくすることを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記文書ファイル生成部は、前記文書ファイルとして、ＸＭＬ形式のファイルを生成することを特徴とする請求項１乃至５の何れか１項に記載の画像処理装置。