JP5197464B2

JP5197464B2 - 画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体

Info

Publication number: JP5197464B2
Application number: JP2009080442A
Authority: JP
Inventors: 仁志廣畑
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2013-05-15
Anticipated expiration: 2029-03-27
Also published as: JP2010231654A

Description

本発明は、不可視の色が指定された検索可能な文字列データを画像データに埋め込む画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体に関する。

近年、記録用紙又は書籍等の記録媒体に記録されている文書（以下、原稿という）を画像読取装置で読み取ることによって、原稿の画像データを生成する技術が利用されている。また、生成した画像データに対して文字認識処理を施すことによって、この原稿に含まれる文字のテキストデータを生成する技術が利用されている。
電子文書には、生成された画像データとテキストデータとが関連付けて保存されている。このため、電子文書を閲覧するユーザは、適宜のキーワードを用いて、電子文書に含まれる所望の情報を検索することができる。
ここで、文字とは、英数字、かな文字、及び記号等である。

ＰＤＦ(Personal Document Format)（登録商標）は、文書作成者が意図した通りに文書レイアウトを再現するための文書フォーマットである。ＰＤＦ形式の電子文書では、透明色が指定された検索可能な文字列データ（いわゆる透明テキスト）が、画像データに埋め込まれる。例えばパーソナルコンピュータ（以下、ＰＣという）を用いて、表示画面にＰＤＦ形式の電子文書を表示させた場合、文書画像内の文字画像上に、透明な文字画像が描画される。
透明テキストを含むＰＤＦ形式の電子文書に対してキーワード検索を行なった場合、透明テキストが検索される。しかしながら、描画された透明テキストは不可視であるため、ユーザには、あたかも文書画像内の文字画像が検索されているかのように見える。

文書画像内に描画される不可視の文字は、透明テキストに限定されるものではない。例えば不可視の文字は、文書画像内の余白領域上に、余白領域の色と同一の色で描画されることもある（特許文献１参照）。

従来、本文にルビ（ふりがな）が振られている原稿の画像データに対して文字認識処理を施した場合に、本文の文字認識結果がルビの文字認識結果によって分断されるという問題がある。
例えば、キーワードの前半の文字列と後半の文字列とが、１行目の行末と２行目の行頭とに分かれて配置されている場合、文字認識結果のテキストデータにおいては、キーワードの中途に、２行目の本文に振られているルビの文字列が含まれることがある。
このような不都合を解消するために、フォントの違いに基づいて本文とルビとを区別し、本文のみのテキストデータとルビのみのテキストデータとを個別に生成する技術が提案されている（特許文献２参照）。
この場合、ルビに邪魔されずに本文をキーワード検索することができる。

ところで、原稿の画像データに対して文字認識処理を施す際に、走査方向に対して文書画像が傾いていると、認識率が悪化する虞がある。
従って、文書画像の傾きを検出し（特許文献３参照）、検出結果に基づいて画像データを補正し、補正後の画像データに対して文字認識処理を施すことが望ましい。

特開２００４−２８０５１４公報特開２００４−１３８６３号公報特開平７−１９２０８６号公報

複数頁の原稿の画像データ夫々に対して文字認識処理を施した場合、１頁目の原稿の透明テキストは１頁目の原稿の画像データに埋め込まれ、２頁目の原稿の透明テキストは２頁目の原稿の画像データに埋め込まれる。このため、１頁目の原稿と２頁目の原稿とに跨って、意味を成す文字列（例えば単語、熟語等の語句）が配置されている場合、意味を成す文字列が中途で分断された状態で、１頁目の透明テキストと２頁目の透明テキストとに含まれてしまうという問題がある。

つまり、キーワードの前半の文字列と後半の文字列とが、１頁目の原稿の最終行の行末と２頁目の原稿の第１行の行頭とに分かれて配置されている場合、１頁目の透明テキストには、キーワードの前半の文字列の透明テキストのみが含まれ、２頁目の透明テキストには、キーワードの後半の文字列の透明テキストのみが含まれることになる。
１頁目の透明テキストと２頁目の透明テキストとは連続していない。従って、透明テキスト全体を検索したとしても、１頁目の原稿及び２頁目の原稿に跨って配置されているキーワードの検索漏れが生じる。

本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、少なくとも、一の頁の文書の末尾文字の文字列データを次の頁の文書の画像データに埋め込むか、又は、次の頁の文書の先頭文字の文字列データを一の頁の文書の画像データに埋め込むことにより、電子文書に対してキーワード検索を行なう際に、検索漏れが生じることを抑制することができる画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体を提供することにある。

本発明に係る画像処理方法は、文書に含まれる文字を抽出する文字抽出手段、及び、文字列データを画像データに埋め込む文字埋込手段を備える画像処理装置にて、複数頁の文書夫々に含まれる文字列を、不可視の色が指定された検索可能な文字列データとして前記文書の画像データに埋め込む画像処理方法であって、前記文字抽出手段は、最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字、及び、前記一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を夫々抽出し、前記文字埋込手段は、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込むか、又は、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込むことを特徴とする。

本発明に係る画像処理装置は、複数頁の文書夫々に含まれる文字列を、不可視の色が指定された検索可能な文字列データとして前記文書の画像データに埋め込む画像処理装置において、最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字、及び、前記一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を夫々抽出する文字抽出手段と、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記文字抽出手段が抽出した先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込むか、又は、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記文字抽出手段が抽出した末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込む文字埋込手段とを備えることを特徴とする。

本発明に係る画像処理装置は、意味を成す文字列を予め記憶してある文字記憶手段と、前記文字抽出手段が抽出した末尾文字及び先頭文字をこの順に合成することによって、新たな文字列を生成する文字生成手段と、該文字生成手段が生成した文字列を、前記文字記憶手段に記憶してある文字列と比較することによって、前記文字列が意味を成す文字列であるか否かを判定する文字判定手段とを更に備え、前記文字埋込手段は、前記文字判定手段が意味を成す文字列であると判定した場合に、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記文字抽出手段が抽出した先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込み、且つ、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記文字抽出手段が抽出した末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込むようにしてあることを特徴とする。

本発明に係る画像処理装置は、前記文字抽出手段は、前記末尾部分の複数行夫々の行末に位置する１又は複数個の末尾文字、及び、前記先頭部分の複数行夫々の行頭に位置する１又は複数個の先頭文字を夫々抽出するようにしてあり、前記文字生成手段は、前記文字抽出手段が抽出した各複数行分の末尾文字及び先頭文字の組み合わせをこの順に合成することによって、新たな文字列を生成するようにしてあり、前記文字埋込手段は、前記文字判定手段が意味を成す文字列であると判定した場合に、前記文字生成手段が生成した文字列の内、前記文字判定手段が意味を成す文字列であると判定した文字列が、前記一の頁の文書の画像データに埋め込まれる前記文字列データの末尾部分及び前記次の頁の文書の画像データに埋め込まれる前記文字列データの先頭部分夫々に含まれるようにして、前記一の頁の文書の画像データ及び前記次の頁の文書の画像データ夫々に前記文字列データを埋め込むようにしてあることを特徴とする。

本発明に係る画像処理装置は、画像読取装置が読み取った文書の画像データを受け付ける画像受付手段と、該画像受付手段が受け付けた画像データに基づいて、文書に含まれる文字を認識する文字認識手段とを更に備え、前記文字認識手段が認識した文字を、前記文字列データとして前記画像受付手段が受け付けた画像データに埋め込むようにしてあることを特徴とする。

本発明に係る画像形成装置は、本発明の画像処理装置と、記録シート上に画像を形成する画像形成手段とを備えることを特徴とする。

本発明に係るコンピュータプログラムは、コンピュータに、複数頁の文書夫々に含まれる文字を、不可視の色が指定された検索可能な文字列データとして前記文書の画像データに埋め込ませるためのコンピュータプログラムであって、コンピュータに、最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字、及び、前記一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を夫々抽出させる文字抽出ステップと、コンピュータに、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記文字抽出ステップで抽出された先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込ませるか、又は、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記文字抽出ステップで抽出された末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込ませる文字埋込ステップとを実行させることを特徴とする。

本発明に係る記録媒体は、本発明のコンピュータプログラムを記録してあることを特徴とする。

本発明にあっては、例えば、本発明の画像処理装置を用いて本発明の画像処理方法を実行することによって、複数頁の文書夫々に含まれる文字列が、不可視の色が指定された検索可能な文字列データとして、この文書の画像データに埋め込まれる。本発明の画像処理装置は、文字抽出手段及び文字埋込手段を備える。

文字抽出手段は、最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字を抽出する。最終頁の次の頁は存在しないため、最終頁の文書に係る末尾文字を抽出する必要はない。
また、文字抽出手段は、一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を抽出する。第１頁の前頁は存在しないため、第１頁の文書に係る先頭文字を抽出する必要はない。

一の頁の文書の画像データには、一の頁の文書に含まれる文字列が、不可視の色が指定された検索可能な文字列データとして埋め込まれる。同様に、次の頁の文書の画像データには、次の頁の文書に含まれる文字列が、不可視の色が指定された検索可能な文字列データとして埋め込まれる。

ところが、このままの状態では、一連の文字列が一の頁の文書及び次の頁の文書に跨って配置されている場合、即ち、一連の文字列の前半の文字列が一の頁の文書に配置され、後半の文字列が次の頁の文書に配置されている場合に、前半の文字列の文字列データが一の頁の文書に係る文字列データのみに含まれ、後半の文字列の文字列データが一の頁の文書に係る文字列データのみに含まれることになる。
キーワード検索は、一の頁の文書に係る文字列データ及び次の頁の文書に係る文字列データ夫々に対して実行される。このため、一の頁の文書及び次の頁の文書に跨って配置されている文字列を含むキーワードを検索した場合に、検索漏れが生じる虞がある。

そこで、文字埋込手段は、一の頁の文書の画像データに、次の頁の文書に係る先頭文字の文字列データを埋め込む。更に詳細には、文字埋込手段は、次の頁の文書に係る先頭文字の文字列データを、一の頁の文書に係る末尾文字の文字列データの後方側に連続して、一の頁の文書の画像データに埋め込む。
このため、一連の文字列が一の頁の文書及び次の頁の文書に跨って配置されている場合であっても、分断されたり一部が欠けたりすることなく、一連の文字列の文字列データが、一の頁の文書に係る文字列データに含まれる。

又は、文字埋込手段は、次の頁の文書の画像データに、一の頁の文書に係る末尾文字の文字列データを埋め込む。更に詳細には、文字埋込手段は、一の頁の文書に係る末尾文字の文字列データを、次の頁の文書に係る先頭文字の文字列データの前方側に連続して、次の頁の文書の画像データに埋め込む。
このため、一連の文字列が一の頁の文書及び次の頁の文書に跨って配置されている場合であっても、分断されたり一部が欠けたりすることなく、一連の文字列の文字列データが、次の頁の文書に係る文字列データに含まれる。

従って、一の頁の文書及び次の頁の文書に跨って配置されている文字列を含むキーワードを検索した場合に、検索漏れの発生を抑制することができる。
しかも、文字列データには不可視の色が指定されているため、一の頁の文書画像に次の頁の先頭文字の文字画像が含まれて見えることはない。同様に、次の頁の文書画像に一の頁の末尾文字の文字画像が含まれて見えることはない。

本発明にあっては、本発明の画像処理装置は、文字記憶手段、文字生成手段、及び文字判定手段を更に備える。
文字記憶手段には、意味を成す文字列が予め記憶されている。
文字抽出手段は、一の頁の文書の末尾文字、及び、次の頁の文書の先頭文字を夫々抽出する。
文字生成手段は、文字抽出手段が抽出した末尾文字及び先頭文字をこの順に合成することによって、新たな文字列を生成する。
文字判定手段は、文字生成手段が生成した新たな文字列を、文字記憶手段に記憶してある文字列と比較する。このことによって、文字判定手段は、文字生成手段が生成した新たな文字列が、意味を成す文字列であるか否かを判定する。

文字生成手段が生成した新たな文字列とは、末尾文字及び先頭文字が合成された文字列である。従って、文字判定手段が、意味を成す文字列であると判定した場合、意味を成す文字列が、一の頁の文書及び次の頁の文書に跨って配置されていることがわかる。例えば、一の頁の文書の末尾部分及び次の頁の文書の先頭部分夫々に、一部が欠けた不完全な語句が配置されている。
一方、文字判定手段が、意味を成す文字列ではないと判定した場合、意味を成す文字列が、一の頁の文書及び次の頁の文書に跨って配置されていないことがわかる。例えば、一の頁の文書の末尾部分及び次の頁の文書の先頭部分夫々に、完全無欠の語句が配置されている。

一の頁の文書の末尾部分及び次の頁の文書の先頭部分夫々に意味を成す文字列が配置されている場合、一の頁の文書に次の頁の先頭文字を付加したり、次の頁の文書に一の頁の末尾文字を付加したりしても、検索漏れの抑制にはほとんど貢献しない。しかも、無用な文字列データを埋め込まれた画像データは、データ量が無用に増大する。
このため、文字判定手段が否と判定した場合は、文字埋込手段による文字列データの埋め込みは実行されない。

一方、意味を成す文字列が一の頁の文書及び次の頁の文書に跨って配置されている場合、一の頁の文書に次の頁の先頭文字を付加し、且つ、次の頁の文書に一の頁の末尾文字を付加することによって、検索漏れが更に抑制される。何故ならば、一の頁の文書及び次の頁の文書に跨って配置されている文字列を含むキーワードを用いて文書を検索した場合に、一の頁の文書の画像データに埋め込まれている文字列データ及び次の頁の文書の画像データに埋め込まれている文字列データのいずれか一方又は両方でキーワードがヒットする可能性が高いからである。しかも、必要最小限の文字列データを埋め込まれた画像データは、必要最小限のデータ量を有する。

そこで、文字埋込手段は、文字判定手段が意味を成す文字列であると判定した場合に、次の頁の文書に係る先頭文字の文字列データを、一の頁の文書の画像データに埋め込まれる末尾文字の文字列データの後方側に連続して埋め込む。且つ、文字埋込手段は、一の頁の文書に係る末尾文字の文字列データを、次の頁の文書の画像データに埋め込まれる先頭文字の文字列データの前方側に連続して埋め込む。
この結果、意味を成す文字列の文字列データを、一の頁の文書に係る文字列データと次の頁の文書に係る文字列データとに夫々含ませることができる。
従って、意味を成す文字列として文字記憶手段に予め記憶させておく文字列を適切に設定することによって、検索漏れを更に抑制することができる。

本発明にあっては、本発明の画像処理装置は、一の頁の文書にフッタが含まれる場合、及び／又は、次の頁の文書にヘッダが含まれる場合であっても、意味を成す文字列の文字列データが、一の頁の文書に係る文字列データと次の頁の文書に係る文字列データとに夫々含まれるようにする。

このために、文字抽出手段は、一の頁の文書の末尾部分の複数行夫々の行末に位置する１又は複数個の末尾文字と、次の頁の文書の先頭部分の複数行夫々の行頭に位置する１又は複数個の先頭文字とを夫々抽出する。複数行夫々の行末から末尾文字を抽出する理由は、一の頁の文書の本文の少なくとも最終行とフッタとが含まれるようにするためである。同様に、複数行夫々の行頭から先頭文字を抽出する理由は、次のページの文書のヘッダと本文の少なくとも第１行とが含まれるようにするためである。

そして、文字生成手段は、文字抽出手段が抽出した各複数行分の末尾文字及び先頭文字の組み合わせをこの順に合成する。このことによって文字生成手段が生成する新たな文字列は、少なくとも、本文最終行の末尾文字とヘッダの先頭文字との組み合わせ、本文最終行の末尾文字と本文第１行の先頭文字との組み合わせ、フッタの末尾文字とヘッダの先頭文字との組み合わせ、及び、フッタの末尾文字と本文第１行の先頭文字との組み合わせの４種類である。

ところが、本文最終行の末尾文字とヘッダの先頭文字との組み合わせ、フッタの末尾文字とヘッダの先頭文字との組み合わせ、及び、フッタの末尾文字と本文第１行の先頭文字との組み合わせの３種類については、生成された新たな文字列が、意味を成す文字列であると判定される可能性は非常に低い。また、例えば本文最終行の末尾文字と本文第２行の先頭文字とが合成された新たな文字列が、意味を成す文字列であると判定される可能性は低い。

そこで、文字埋込手段は、文字判定手段が意味を成す文字列であると判定した場合に、次の頁の文書に係る先頭文字の文字列データを、一の頁の文書に係る末尾文字の文字列データの後方側に連続して、一の頁の文書の画像データに埋め込む。ただし、この末尾文字と先頭文字とを合成してなる文字列は、文字判定手段が意味を成す文字列であると判定した文字列である。このため、文字生成手段が生成した文字列の内、文字判定手段が意味を成す文字列であると判定した文字列の文字列データが、一の頁の文書の画像データに埋め込まれる本文の文字列データの後方側に連続して配置される。

且つ、文字埋込手段は、文字判定手段が意味を成す文字列であると判定した場合に、一の頁の文書に係る末尾文字の文字列データを、次の頁の文書に係る先頭文字の文字列データの前方側に連続して、次の頁の文書の画像データに埋め込む。ただし、この末尾文字と先頭文字とを合成してなる文字列は、文字判定手段が意味を成す文字列であると判定した文字列である。このため、文字生成手段が生成した文字列の内、文字判定手段が意味を成す文字列であると判定した文字列の文字列データが、次の頁の文書の画像データに埋め込まれる本文の文字列データの前方側に連続して配置される。

この結果、ヘッダ及び／又はフッタに邪魔されることなく、意味を成す文字列の文字列データを、一の頁の文書の本文に係る文字列データ及び次の頁の文書の本文に係る文字列データ夫々に含ませることができる。

本発明にあっては、本発明の画像処理装置は、画像受付手段及び文字認識手段を更に備える。
画像受付手段は、画像読取装置が読み取った文書の画像データを受け付ける。このために、本発明の画像処理装置は、画像読取装置に直結されているか、又は、インターネット若しくはＬＡＮ（Local Area Network）等を介して画像読取装置に接続されている。或いは、本発明の画像処理装置と画像読取装置とが、デジタル複合機に組み込まれている。なお、本発明の画像処理装置は、画像読取装置が読み取った文書の画像データを、例えば画像読取装置に直結されているＰＣから受信する構成でもよい。

文字認識手段は、画像受付手段が受け付けた画像データに基づいて、文書に含まれる文字を認識する。
画像受付手段が受け付けた画像データには、文字認識手段が認識した文字列が、不可視の色が指定された検索可能な文字列データとして埋め込まれる。
従って、本発明の画像処理装置は、原稿から電子文書を生成する場合に特に有用である。

本発明にあっては、画像形成装置が、本発明の画像処理装置及び画像形成手段を備え、画像形成手段は、記録シート上に画像を形成する。
本発明の画像処理装置は、画像データに埋め込まれている文字列データに対してキーワード検索を行なう際に、検索漏れが生じることを抑制することができる。このため、本発明の画像形成装置は、検索漏れの発生が抑制されている文字列データが埋め込まれた画像データに基づいて、記録シート上に画像を形成することができる。

文字列データには不可視の色が指定されているため、記録シート上に形成された一の頁の文書画像に、次の頁の先頭文字の文字画像が含まれて見えることはない。同様に、記録シート上に形成された次の頁の文書画像に一の頁の末尾文字の文字画像が含まれて見えることはない。従って、記録シートに記録してある文書画像をユーザが視認した場合に、各頁の文書画像の先頭部分又は末尾部分の文字画像が、無用に繰り返し記録されて見える不都合を防止することができる。

本発明にあっては、コンピュータプログラムが、本発明の画像処理装置が備える文字抽出手段及び文字埋込手段等を、コンピュータのハードウェア要素を用いてソフトウェア的に実現させる。本発明のコンピュータプログラムによる場合、公知のコンピュータを、本発明の画像処理装置として機能させることができる。
なお、本発明のコンピュータプログラムは、コンピュータに画像生成処理又は画像圧縮処理等を実行させるための一連の画像処理プログラムに組み入れられた構成であってもよい。

本発明にあっては、コンピュータでの読み取りが可能な記録媒体が、本発明のコンピュータプログラムを記録する。本発明の記録媒体による場合、本発明のコンピュータプログラムの配布、保管等の利便性を向上させることができる。
なお、本発明の記録媒体には、本発明のコンピュータプログラムが組み込まれている前記一連の画像処理プログラムが記録されていてもよい。

本発明の画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体による場合、一の頁の文書の末尾文字の文字列データと次の頁の文書の先頭文字の文字列データとがこの順に連続して、一の頁の文書の画像データ及び／又は次の頁の文書の画像データに埋め込まれる。
この結果、画像データが示す文書画像においては、一連の文字列が、頁の境界の前後に分割配置されていたとしても、文字列データに対するキーワード検索の際に、検索漏れが生じることを抑制することができる。

更に、画像データに基づく文書画像に重ねて、文字列データに基づく文字画像を表示画面に表示させた場合でも、一の頁の文書画像に次の頁の先頭文字の文字画像が含まれて見えたり、次の頁の文書画像に一の頁の末尾文字の文字画像が含まれて見えたりすることはない。従って、表示画面に表示された文書画像をユーザが視認した場合に、各頁の文書画像の先頭部分又は末尾部分の文字画像が、無用に繰り返し表示されて見える不都合を防止することができる。

本発明の実施の形態１に係る画像処理装置を含む画像形成装置がコピー機能を実現する場合の機能構成を示すブロック図である。本発明の実施の形態１に係る画像処理装置を含む画像形成装置がscan to e-mail機能を実現する場合の機能構成を示すブロック図である。本発明の実施の形態１に係る画像処理装置が備える画像入力装置の内部構成を模式的に示す正面図である。本発明の実施の形態１に係る画像処理装置で用いられるγ曲線の一例を示す特性図である。本発明の実施の形態１に係る画像処理装置が備える原稿検知部の内部構成を示すブロック図である。本発明の実施の形態１に係る画像処理装置が備えるレイアウト解析部で実行されるレイアウト解析処理を説明するための模式図である。本発明の実施の形態１に係る画像処理装置が備える文字認識部の内部構成を示すブロック図である。意味を成す文字列が頁の境界の前後に分割配置されていない文書画像を例示する模式図である。意味を成す文字列が頁の境界の前後に分割配置されている文書画像を例示する模式図である。図９に示す文書画像の画像データに埋め込まれる透明テキストを例示する模式図である。本発明の実施の形態１に係る画像処理装置が備える認識処理部で実行されるテキスト認識処理の手順を示すフローチャートである。本発明の実施の形態１に係る画像処理装置が備える認識処理部で実行されるテキスト認識処理の手順を示すフローチャートである。ヘッダ及びフッタを有する文書画像を例示する模式図である。図１３に示す文書画像に係る末尾文字と先頭文字との合成結果を示す説明図である。本発明の実施の形態２に係る画像処理装置を含む画像形成装置がscan to e-mail機能を実現する場合の機能構成を示すブロック図である。本発明の実施の形態３に係る画像処理装置を含む画像形成装置がscan to e-mail機能を実現する場合の機能構成を示すブロック図である。本発明の実施の形態４に係る画像処理装置を含むスキャナ装置の内部の機能構成を示すブロック図である。本発明の実施の形態５に係る画像処理装置の機能構成を示すブロック図である。本発明の実施の形態５に係る画像処理装置で実行される電子文書生成処理の手順を示すフローチャートである。本発明の実施の形態５に係る画像処理装置で実行される電子文書生成処理の手順を示すフローチャートである。

以下、本発明を、その実施の形態を示す図面に基づいて詳述する。

実施の形態１．
本実施の形態では、画像処理装置が画像形成装置の一部をなす形態を例示する。
図１及び図２は、本発明の実施の形態１に係る画像処理装置２を含む画像形成装置１の内部の機能構成を夫々示すブロック図である。図１は、画像形成装置１がコピー機能を実現する場合の機能構成を示し、図２は、画像形成装置１がscan to e-mail機能を実現する場合の機能構成を示している。
画像形成装置１は、コピー機能、scan to e-mail機能、プリンタ機能、ファクシミリ通信機能、及びスキャナ機能等を有するデジタル複合機である。

画像形成装置１は、画像処理装置２と、画像処理装置２の入力側に接続されている画像入力装置１１と、画像処理装置２の出力側に接続されている画像出力装置１３とを備える。また、画像形成装置１は、画像処理装置２に夫々接続されている記憶部１２及び送受信装置１４を備える。更に、画像形成装置１は、制御部１０及び操作パネル１７を備えている。

記憶部１２は、不揮発性の記憶装置（例えばハードディスク）である。
操作パネル１７は、ユーザが画像形成装置１を操作するための操作ボタン及びテンキー等の操作部と、液晶ディスプレイ等で構成される表示部とを備える。操作パネル１７を用いてユーザが入力した指示又は数値等は、制御部１０に与えられる。
制御部１０には、画像形成装置１の制御中枢であるＣＰＵ（Central Processing Unit）と、画像形成装置１を作動させるためのコンピュータプログラムが予め記憶されているＲＯＭと、ＣＰＵの作業領域として用いられるＲＡＭとが含まれている。制御部１０は、操作パネル１７を介してユーザから与えられた指示又は数値等に応じて、画像形成装置１の各部を制御する。

画像処理装置２は、本発明の実施の形態に係る画像処理方法を実現する。このために、画像処理装置２は、Ａ／Ｄ変換部２０、シェーディング補正部２１、入力処理部２２、原稿検知部４、原稿補正部２４、色補正部２５、黒色生成／下色除去部２６、空間フィルタ処理部２７、出力階調補正部２８、中間調生成部２９、領域分離部３０、フォーマット化処理部３１、及び文字認識部５を備える。

画像形成装置１がコピー機能を実現する場合、図１に示すように、画像入力装置１１から画像処理装置２へ画像データが出力され、画像処理装置２から画像出力装置１３へ画像データが出力される。このとき、送受信装置１４、フォーマット化処理部３１、及び文字認識部５に画像データが入力されることはない。
画像形成装置１がscan to e-mail機能を実現する場合、図２に示すように、画像入力装置１１から画像処理装置２へ画像データが出力され、画像処理装置２から送受信装置１４へ画像データが出力される。このとき、画像データが画像出力装置１３に入力されることはない。
以下では、まず、図１及び図２夫々を参照しながら画像形成装置１の各部について詳述する。

画像入力装置１１は、原稿を光学的に読み取って、原稿の画像データを生成する。このために、画像入力装置１１は、例えばＣＣＤ（Charge Coupled Device ）を有するカラー・スキャナを用いてなる。画像入力装置１１は、原稿からの反射光像をＣＣＤで受光することによって、ＲＧＢ（Ｒ：赤，Ｇ：緑，Ｂ：青）のアナログの電気信号（以下、アナログ信号という）を生成し、生成したアナログ信号からなる画像データを画像処理装置２へ出力する。このような画像入力装置１１は、本発明における画像読取装置として機能する。
画像入力装置１１で読み取った原稿の枚数Ｐ（ＰはＰ≧１の自然数）を示す枚数情報は、制御部１０に与えられる。
ここで、画像入力装置１１の原稿読み取り部分の構成を詳述する。

図３は、画像入力装置１１の内部構成を模式的に示す正面図である。
画像入力装置１１は、原稿を静止させた状態で読み取る静止読取モードと、原稿を搬送しながら原稿の一面を読み取る搬送読取モードと、原稿を搬送しながら原稿の両面を読み取る両面読取モードとを有する。
このために、画像入力装置１１は、イメージセンサ部１５３及び読取部１５４を備える。
読取部１５４は、第１コンタクトガラス１５１に載置されている原稿を走査することによって原稿を読み取る。このために、原稿押さえマット１５７は、第１コンタクトガラス１５１上に載置された原稿を押さえる。

更に詳細には、読取部１５４は、第１走査ユニット１６３、第２走査ユニット１６４、結像レンズ１６５、及びＣＣＤ１６６を備える。
第１走査ユニット１６３は、第１コンタクトガラス１５１に沿って図中の左から右へ一定速度Ｖで移動しながら、原稿を露光するものである。このために、第１走査ユニット１６３は、例えば露光ランプを用いてなる光源１６２と、原稿からの反射光を第２走査ユニット１６４へ導く第１反射ミラー１６７とを有している。
第２走査ユニット１６４は、第１走査ユニット１６３に追随して一定速度Ｖ／２で移動しながら、第１反射ミラー１６７からの反射光を、第２反射ミラー１６８及び第３反射ミラー１６９でこの順に反射することによって、結像レンズ１６５へ導く。

結像レンズ１６５は、第３反射ミラー１６９からの反射光を、ＣＣＤ１６６上で結像させる。
ＣＣＤ１６６は、結像レンズ１６５からの光をアナログ信号に変換する。
以上のような読取部１５４は、静止読取モードでは、第１コンタクトガラス１５１の一端部Ｐに相対する位置から、図示しない原稿サイズ検知手段で検出された原稿サイズに応じて所定距離だけ移動する。
原稿サイズ検知手段は、画像入力装置１１内に配置されたフォトトランジスタ等の光電変換素子を用いて、第１コンタクトガラス１５１に載置された原稿の主走査方向及び副走査方向夫々の原稿サイズを検知する。なお、原稿サイズ検知手段は、操作パネル１７を用いてユーザが選択した原稿のサイズを検知する構成でもよい。

一方、イメージセンサ部１５３は、第２コンタクトガラス１５２上を搬送される原稿を読み取る。このために、画像入力装置１１はＡＤＦ（Auto Document Feeder）として構成され、ＡＤＦが、原稿搬送路１５６に沿って原稿を搬送する。この場合、整合ローラ対１５５は、搬送された原稿の先端が、整合ローラ対１５５のニップ部に付き当たることによって、原稿に所定の撓みを形成し、その後、下流側に原稿を搬送するように回動する。このとき、整合ローラ対１５５のニップ部は、原稿の先端が搬送方向に直角となるように整合する。上側原稿搬送ガイド１５８は、搬送される原稿のガイドである。

搬送読取モード及び両面読取モード夫々における読取部１５４は、図示しないホームポジションから、第２コンタクトガラス１５２に相対する位置へ移動する。
両面読取モードでは、イメージセンサ部１５３と読取部１５４とが同時的に原稿の両面を読み取る。このため、例えば、読取部１５４が原稿の表面を読み取るように設定されている場合、イメージセンサ部１５３で読み取られた原稿の裏面の画像データは、例えば記憶部１２に一旦格納され、読取部１５４で読み取られた原稿の表面の画像データが、画像処理装置２へ出力されて、各種処理を施される。
裏面の画像データは、表面の画像データの処理が終了した後で、記憶部１２から読み出されて画像処理装置２へ出力される。

遮光部材１５９は、読取部１５４の光源１６２が照射する光が、イメージセンサ部１５３へ入射することによって、不適切な濃度の画像データが生成されてしまう不都合を防止する。
以上のような画像入力装置１１の各部のうち、イメージセンサ部１５３、整合ローラ対１５５、原稿搬送路１５６、原稿押さえマット１５７、及び上側原稿搬送ガイド１５８等が、上部筐体（原稿カバー）１６０を構成している。また、第１コンタクトガラス１５１、第２コンタクトガラス１５２、読取部１５４、及び遮光部材１５９等が、下部筐体１６１を構成している。
上部筐体１６０は、下部筐体１６１に対して開閉可能に構成されている。

図１及び図２夫々に示す画像処理装置２は、画像入力装置１１から入力されたＲＧＢのアナログ信号に基づいて、ＲＧＢのデジタル信号（以下、ＲＧＢ信号という）からなる画像データを生成する。更に、画像処理装置２は、生成したＲＧＢ信号に基づいて、ＣＭＹＫ（Ｃ：シアン，Ｍ：マゼンタ，Ｙ：イエロー，Ｋ：ブラック）のデジタル信号からなる画像データを生成して、ストリームとして画像出力装置１３へ出力する。

画像出力装置１３は、画像処理装置２から入力された画像データに基づいて、熱転写、電子写真、又はインクジェット等の方式により、記録シート（例えば記録用紙）上にカラーの文書画像を形成して出力する。このような画像出力装置１３は、本発明における画像形成手段として機能する。

なお、画像出力装置１３は、記録シート上にモノクロームの文書画像を形成して出力する構成でもよい。この場合、画像処理装置２が、画像入力装置１１から入力されたカラーのアナログ信号を、モノクロームのデジタル信号に変換して画像出力装置１３へ出力する。又は、画像入力装置１１が、モノクロームのアナログ信号を画像処理装置２へ出力し、画像処理装置２が、入力されたモノクロームのアナログ信号を、モノクロームのデジタル信号に変換して画像出力装置１３へ出力する。

送受信装置１４は、画像処理装置２から出力された画像データを、画像形成装置１の外部へ送信する。
このために、送受信装置１４は、図示しない公衆電話回線網、ＬＡＮ又はインターネット等の通信ネットワークに接続可能であり、ファクシミリ又は電子メール等の通信方法により、通信ネットワークを介して画像形成装置１の外部へ画像データを送信する。例えば、操作パネル１７を用いてユーザがscan to e-mail機能を選択した場合、画像データは、ネットワークカード、モデム等を用いてなる送受信装置１４によってe-mailに添付され、設定された送信先へ送信される。

なお、画像形成装置１は、画像処理装置２から送受信装置１４へ画像データを出力する前に、記憶部１２に一旦記憶させる構成でもよい。また、画像形成装置１は、画像処理装置２から画像出力装置１３へ画像データを出力する前に、記憶部１２に一旦記憶させる構成でもよい。

本実施の形態においては、送受信装置１４でe-mailに添付される画像データは、透明テキストが埋め込まれている画像データ（具体的には、ＰＤＦ形式の電子文書）であるものとする。ここで、透明テキストとは、透明色が指定された検索可能な文字列データである。

なお、画像データに埋め込むべき文字列データは、透明テキストに限定されるものではない。つまり、画像データに埋め込むべき文字列データは、検索可能、且つ、文書画像内に不可視の文字を描画するためのデータであれば、どのようなものでもよい。例えば、文字列データは、テキストデータに対するキーワード検索と同様にしてキーワード検索が可能であり、更に、文書画像上の文字列が配置される領域の色と同一の色で文字列が描画されるように構成されたデータであればよい。

次に、図１を参照しながら、画像形成装置１がコピー機能を実現する場合の画像処理装置２の各部の動作を詳述する。
Ａ／Ｄ変換部２０は、画像入力装置１１から画像処理装置２へ入力されたＲＧＢのアナログ信号からなる画像データを受け付け、受け付けたアナログ信号をＲＧＢのデジタル信号（即ちＲＧＢ信号）からなる画像データに変換し、変換後の画像データをシェーディング補正部２１へ出力する。
シェーディング補正部２１は、Ａ／Ｄ変換部２０から入力された画像データに対して、画像入力装置１１の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行なう。次いで、シェーディング補正部２１は、歪みを取り除いた画像データを入力処理部２２へ出力する。

入力処理部２２は、シェーディング補正部２１から入力された画像データに対して、各種の画像処理を施す。入力処理部２２にて実行される画像処理は、例えばγ補正処理、カラーバランスの調整処理、下地濃度の除去処理、及びコントラストの調整処理等の画質調整処理である。
入力処理部２２にて画像処理された画像データは、記憶部１２に記憶される。

原稿検知部４は、記憶部１２から画像データを読み出す。原稿検知部４では、例えば特許文献３に記載されている画像傾き検出方法を用いて、読み出した画像データに基づき、原稿の傾きが検知される。原稿の傾きの検知結果は、原稿検知部４から原稿補正部２４へ出力される。
原稿補正部２４は、記憶部１２から画像データを読み出し、原稿検知部４から入力された検知結果に基づき、読み出した画像データに対して、傾き補正処理を施す。原稿補正部２４にて傾き補正処理が施された画像データは、記憶部１２に記憶される。

更に、原稿検知部４は、傾き補正処理が施された画像データを記憶部１２から読み出す。原稿検知部４では、読み出した画像データに基づいて、原稿の天地が判定される。原稿の天地の判定結果は、原稿検知部４から原稿補正部２４へ出力される。
更に、原稿補正部２４は、傾き補正処理が施された画像データを記憶部１２から読み出し、原稿検知部４から入力された判定結果に基づき、読み出した画像データに対して、方向補正処理を施す。原稿補正部２４にて方向補正処理が施された画像データは、色補正部２５及び領域分離部３０夫々へ出力される。

なお、原稿補正部２４にて方向補正処理が施された画像データが、図示しない圧縮部に引き渡されて、例えばＪＰＥＧ圧縮アルゴリズムに基づいて圧縮されてから、記憶部１２に記憶される構成でもよい。この場合、記憶部１２にはＪＰＥＧコードの圧縮ファイルが記憶される。
この後、記憶部１２から読み出された圧縮ファイルは、図示しないＪＰＥＧ伸張部に引き渡されて復号化処理が施されてから、色補正部２５及び領域分離部３０夫々へ出力される。又は、記憶部１２から読み出された圧縮ファイルは、送受信装置１４へ引き渡されることによって、画像形成装置１の外部へ送信される。
記憶部１２に記憶されている圧縮ファイルの管理及び圧縮ファイルの引き渡し等の動作制御は、制御部１０が行なう。

領域分離部３０は、原稿補正部２４から入力された画像データが表す画像中の各画素を、黒文字領域、色文字領域、網点領域、又は印画紙写真（連続階調領域）領域等のいずれかに分離する。また、領域分離部３０は、分離結果に基づき、各画素がいずれの領域に属しているかを示す領域識別信号を、黒色生成／下色除去部２６、空間フィルタ処理部２７、及び中間調生成部２９夫々へ出力する。

色補正部２５は、原稿補正部２４から入力された画像データを、ＣＭＹのデジタル信号（以下、ＣＭＹ信号という）からなる画像データに変換し、色再現の忠実化実現のために、不要吸収成分を含むＣＭＹ色材の分光特性に基づいた色濁りをＣＭＹ信号から取り除く処理を行なう。次いで、色補正部２５は、色補正後のＣＭＹ信号からなる画像データを、黒色生成／下色除去部２６へ出力する。

黒色生成／下色除去部２６は、色補正部２５から入力されたＣＭＹ信号に基づき、ＣＭＹ信号からＫ信号を生成する黒色生成処理と、ＣＭＹ信号から黒色生成で得たＫ信号を差し引いて新たなＣＭＹ信号を生成する処理とを行なう。この結果、ＣＭＹ３色のデジタル信号からなる画像データは、ＣＭＹＫ４色のデジタル信号（以下、ＣＭＹＫ信号という）からなる画像データに変換される。次いで、黒色生成／下色除去部２６は、ＣＭＹＫ信号からなる画像データを空間フィルタ処理部２７へ出力する。

空間フィルタ処理部２７は、黒色生成／下色除去部２６から入力されたＣＭＹＫ信号に対して、領域分離部３０から入力された領域識別信号に基づき、デジタルフィルタによる空間フィルタ処理（強調処理及び平滑化処理）を行なう。
次いで、空間フィルタ処理部２７は、処理後のＣＭＹＫ信号からなる画像データを出力階調補正部２８へ出力する。

出力階調補正部２８では、空間フィルタ処理部２７から入力された画像データに対して出力γ補正処理が施される。次いで、出力階調補正部２８は、処理後の画像データを中間調生成部２９へ出力する。
中間調生成部２９では、出力階調補正部２８から入力された画像データに対して、領域分離部３０から入力された領域識別信号に基づき、領域の種類に応じた階調再現処理が施される。次いで、中間調生成部２９は、処理後の画像データを画像出力装置１３へ出力する。
出力階調補正部２８における出力γ補正処理及び中間調生成部２９における階調再現処理は、夫々、画像出力装置１３にて記録シート上に形成される文書画像の画質を向上させるためのものである。

次に、図２を参照しながら、画像形成装置１がscan to e-mail機能を実現する場合の画像処理装置２の各部の動作を詳述する。
Ａ／Ｄ変換部２０、シェーディング補正部２１、及び入力処理部２２夫々の動作は、コピー機能を実現する場合と同様である。
原稿検知部４及び原稿補正部２４夫々の動作は、コピー機能を実現する場合と略同様である。

ただし、原稿検知部４は、原稿の傾きを検知する傾き検知処理及び原稿の天地を判定する天地判定処理の他に、後述する文字認識処理の前処理であるレイアウト解析処理を実行する。
また、原稿補正部２４は、方向補正処理を施した後の画像データを、色補正部２５及び領域分離部３０夫々へ出力し、更に、記憶部１２に記憶させる。

領域分離部３０の動作は、コピー機能を実現する場合と略同様である。ただし、領域分離部３０は、領域識別信号を、空間フィルタ処理部２７及び出力階調補正部２８夫々へ出力する。
色補正部２５は、原稿補正部２４から入力された画像データを、一般に普及している表示装置の表示特性に適合した画像データ（例えば、ｓＲＧＢ規格の画像データ）に変換する。以下では、区別のため、色補正部２５によって変換された後の画像データを、Ｒ’Ｇ’Ｂ’信号からなる画像データという。次いで、色補正部２５は、Ｒ’Ｇ’Ｂ’信号に変換後の画像データを、黒色生成／下色除去部２６へ出力する。

黒色生成／下色除去部２６は、色補正部２５から入力された画像データを、そのまま空間フィルタ処理部２７へ出力する。
空間フィルタ処理部２７は、黒色生成／下色除去部２６から入力されたＲ’Ｇ’Ｂ’信号に対して、領域分離部３０から入力された領域識別信号に基づき、デジタルフィルタによる空間フィルタ処理（強調処理及び平滑化処理）を行なう。
次いで、空間フィルタ処理部２７は、処理後のＲ’Ｇ’Ｂ’信号からなる画像データを出力階調補正部２８へ出力する。

出力階調補正部２８は、空間フィルタ処理部２７から入力された画像データに対して、領域分離部３０から入力された領域識別信号に基づき、出力γ補正処理を施す。ただし、この場合の出力γ補正処理は、一般に普及している表示装置の表示画面に表示される文書画像の画質を向上させるためのものである。
図４は、出力階調補正部２８で用いられるγ曲線の一例を示す特性図である。図４の横軸は出力階調補正部２８に入力されたＲ’Ｇ’Ｂ’信号のレベルを示し、縦軸は出力階調補正部２８から出力されるＲ’Ｇ’Ｂ’信号のレベルを示している。

出力階調補正部２８では、例えば、文字領域に対しては、図４に実線で示すγ曲線を用いた出力γ補正処理を施し、文字領域以外の領域に対しては、図４に破線で示すγ曲線を用いた出力γ補正処理を施す。
次いで、出力階調補正部２８は、処理後の画像データを中間調生成部２９へ出力する。
中間調生成部２９は、出力階調補正部２８から入力された画像データを、そのままフォーマット化処理部３１へ出力する。

フォーマット化処理部３１は、出力階調補正部２８から入力された画像データをＰＤＦ形式の画像データに変換する。次いで、フォーマット化処理部３１は、後述する描画コマンド生成部５２から入力された描画コマンドに従って、公知の手法を用いて、ＰＤＦ形式に変換した画像データに、透明テキストを埋め込む。つまり、フォーマット化処理部３１は、ＰＤＦ形式の電子文書を生成する。最後に、フォーマット化処理部３１は、生成した電子文書を送受信装置１４へ出力する。

以下に、原稿検知部４における傾き検知処理及びレイアウト解析処理について詳細に説明する。天地判定処理についての詳述は省略する。
図５は、原稿検知部４の内部構成を示すブロック図である。
原稿検知部４は、信号変換部４１、２値化処理部４２、解像度変換部４３、原稿傾き検知部４４、及びレイアウト解析部４５を備える。
原稿検知部４では、まず、傾き検知処理が実行される。この場合、原稿検知部４では、入力処理部２２にて画像処理された画像データが、記憶部１２から読み出される。読み出された画像データは、信号変換部４１に入力される。

信号変換部４１は、ＲＧＢ信号からなる画像データを、輝度信号からなる画像データに変換する。
ここで、画像入力装置１１で原稿を読み取る際の主走査方向及び副走査方向を、ｘ座標方向及びｙ座標方向とする。このとき、座標（ｘ，ｙ）は画像上の画素の位置を示し、座標によって各画素を特定することができる。
座標（ｘ，ｙ）の画素におけるＲＧＢ信号の強度をＲＧＢ値（Ｒ_xy，Ｇ_xy，Ｂ_xy）と表わし、輝度信号の強度を輝度値Ｙ_xyと表わすと、輝度値Ｙ_xyは下記の式（１）を用いて求められる。
Ｙ_xy＝0.30×Ｒ_xy＋0.59×Ｇ_xy＋0.11×Ｂ_xy…（１）

次いで、信号変換部４１は、輝度信号からなる画像データを２値化処理部４２へ出力する。
なお、信号変換部４１は、ＲＧＢ値をＬ^* ａ^* ｂ^* 表色系（ＣＩＥ１９７６。ＣＩＥ：Commission Internationale de l' Eclairage ：国際照明委員会）における均等色空間上の座標（Ｌ^*値：明度。ａ^* 値，ｂ^* 値：色度）に変換する構成でもよい。又は、信号変換部４１は、Ｇ信号からなる画像データを２値化処理部４２へ出力する構成でもよい。

２値化処理部４２は、信号変換部４１から入力された画像データを２値化し、２値化処理後の画像データを解像度変換部４３へ出力する。
８ビットの画像データを２値化する場合、２値化処理部４２は、例えば、閾値を“１２８”とし、注目画素の画素値が“１２８”以上であれば、この画素値を“１”に変換し、“１２８”未満であれば、“０”に変換することを全画素に対して実行する。

なお、閾値は一定値に限定されるものではない。例えば、２値化処理部４２は、注目画素及び周囲２４画素夫々の画素値の平均値を演算して、演算結果を閾値とし、注目画素の画素値が閾値以上であれば、この画素値を“１”に変換し、閾値未満であれば、“０”に変換することを全画素に対して実行する構成でもよい。

ここで、画像入力装置１１においては、原稿は例えば１２００ｄｐｉ又は６００ｄｐｉで読み込まれるものとする。
解像度変換部４３は、２値化処理部４２から入力された画像データの解像度を、公知のニアレストネイバー法、バイリニア法、又はバイキュービック法等を用いて、第１の解像度（例えば３００ｄｐｉ）、又は第１の解像度よりも更に低い第２の解像度（例えば７５ｄｐｉ）に低解像度化する。
傾き検知処理を実行する場合、解像度変換部４３は、第１の解像度に低解像度化した画像データを原稿傾き検知部４４へ出力する。

原稿傾き検知部４４は、解像度変換部４３から入力された画像データに基づいて、原稿の傾きを検知し、検知結果を原稿補正部２４へ出力する。
このために、原稿傾き検知部４４は、入力された画像データ、即ち２値の画像データに基づいて、画素値“０”の黒画素と画素値“１”の白画素との境界点を複数個抽出し、抽出した境界点夫々の座標を求める。次いで、原稿傾き検知部４４は、求めた座標に基づいて回帰直線を求め、求めた回帰直線の回帰計数ｂを得る。最後に、原稿傾き検知部４４は、下記の式（２）を用いて傾き角度θを求める。
ｔａｎθ＝ｂ…（２）

ここで、境界点の個数をｎ（ｎはｎ≧２の自然数）個とし、ｉ個目の境界点の座標を座標（ｘ_i，ｙ_i）とし、回帰直線上の座標（ｘ，ｙ）とすると、回帰計数ｂは、下記の式（３）〜式（６）を用いて求められる。即ち、回帰計数ｂは、座標ｘ_i，ｘの残差平方和Ｓ_x、座標ｙ_i，ｙの残差平方和Ｓ_y、及び、座標ｘ_i，ｘの残差と座標ｙ_i，ｙの残差との積Ｓ_xyを用いて求められる。

傾き検知処理の実行後、この場合、原稿検知部４は、原稿補正部２４にて方向補正処理が施された画像データを、記憶部１２から読み出す。読み出された画像データは、信号変換部４１に入力される。
信号変換部４１は、方向補正処理が施された画像データ（即ちＲＧＢ信号からなる画像データ）を、輝度信号からなる画像データに変換して、２値化処理部４２へ出力する。

２値化処理部４２は、信号変換部４１から入力された画像データを２値化し、２値化処理後の画像データを解像度変換部４３へ出力する。
解像度変換部４３は、２値化処理部４２から入力された画像データの解像度を、第１の解像度及び第２の解像度に低解像度化して、レイアウト解析部４５へ出力する。つまり、解像度変換部４３からレイアウト解析部４５へは、第１の解像度に低解像度化された２値の画像データと、第２の解像度に低解像度化された２値の画像データとが両方とも出力される。

図６は、レイアウト解析部４５で実行されるレイアウト解析処理を説明するための模式図である。
図６には、記録シートＳに形成されている文書画像が例示されており、文書画像には、複数個の文字Ｈ，Ｈ，…が含まれている。
レイアウト解析部４５は、解像度変換部４３から入力された画像データの内、第２の解像度に低解像度化された画像データに基づいて、文書画像のレイアウトを解析し、レイアウト解析結果と、解像度変換部４３から入力された画像データの内、第１の解像度に低解像度化された画像データとを文字認識部５へ出力する。

具体的には、レイアウト解析部４５は、文書画像が横書きである（文字が並ぶ方向が主走査方向、即ちｘ座標方向に等しい）か、又は文書画像が縦書きである（文字が並ぶ方向が副走査方向、即ちｙ座標方向に等しい）かを解析する。
このために、レイアウト解析部４５は、図６に破線で示すような各文字Ｈの外接矩形Ｑを求め、求めた外接矩形Ｑ，Ｑ，…同士の主走査方向の距離Ｌ_x，Ｌ_x，…と副走査方向の距離Ｌ_y，Ｌ_y，…とを求める。そして、レイアウト解析部４５は、距離Ｌ_x，Ｌ_x，…の平均値が距離Ｌ_y，Ｌ_y，…の平均値よりも小さい（又は大きい）場合に、文書画像が横書きである（又は縦書きである）と判定する。
図６に示す文字領域の場合、距離Ｌ_x＜距離Ｌ_yであるため、レイアウト解析部４５は、横書きであるというレイアウト解析結果を文字認識部５へ出力する。

ここで、各文字Ｈの外接矩形Ｑを求める手順を説明する。
画像データには、主走査方向にＩ個の画素が含まれ、副操作方向にＪ個の画像が含まれるものとする。ただし、定数Ｉ，Ｊ夫々は“２”以上の自然数である。
レイアウト解析部４５は、まず，画像データに含まれるｊ番目のラインを注目ラインとし、黒画素にラベリングを行なう。ただし、変数ｊは１≦ｊ≦Ｊ−１の自然数である。
このとき、主走査方向に連結している黒画素夫々には、同じラベルが与えられ、連結していない黒画素夫々には、異なるラベルが与えられる。

次いで、レイアウト解析部４５は、画像データに含まれるｊ＋１番目のラインを注目ラインとし、黒画素にラベリングを行なう。
このとき、主走査方向に連結している黒画素夫々には、同じラベルが与えられ、連結していない黒画素夫々には、異なるラベルが与えられる。ただし、この時点では、ｊ＋１番目のラインの黒画素に与えられるラベルは、ｊ番目以下のラインの黒画素に与えられているラベルのいずれとも異なるものである。

次に、レイアウト解析部４５は、ｊ番目のラインに含まれる黒画素とｊ＋１番目のラインに含まれる黒画素とが連結しているか否かを判定する。
連結していると判定した場合、レイアウト解析部４５は、連結している黒画素夫々に、同じラベルを与える。
以上のような処理を、レイアウト解析部４５は、変数ｊが定数Ｊ−１に達するまで繰り返す。
更に、レイアウト解析部４５は、同じラベルが与えられている領域夫々を、一の文字Ｈを形成する文字領域であると判定し、各文字領域の上端、下端、左端、及び右端の画素位置に基づいて、外接矩形Ｑを求める。

このようにしてレイアウトを解析する場合、文字領域は大凡の位置がわかればよい。このため、レイアウト解析部４５に入力される画像データの解像度は、文字領域の大凡の位置を判定することが可能な程度の低い解像度であればよい。故に、本実施の形態においても、レイアウト解析部４５に入力される画像データの解像度は、原稿傾き検知部４４に入力される画像データの解像度よりも低い。
仮に、過剰に高い解像度の画像データに基づいてレイアウトを解析すると、レイアウト解析部４５の演算負荷が無駄に重くなる。

図７は、文字認識部５の内部構成を示すブロック図である。
文字認識部５は、認識処理部５１、描画コマンド生成部５２、及び辞書記憶部５３を備える。
レイアウト解析部４５から出力されたレイアウト解析結果及び画像データは、認識処理部５１に入力される。認識処理部５１には、画像入力装置１１で読み取った原稿の枚数Ｐを示す枚数情報が、制御部１０から入力される。
認識処理部５１は、入力されたレイアウト解析結果、画像データ、及び枚数情報に基づいて、後述する図１１及び図１２に示すテキスト認識処理を実行する。テキスト認識処理には、公知の文字認識処理が含まれている。

文字認識処理では、主に文字の形状（即ち字形）でパターンマッチングを行なうことによって、文字の候補が選択され、前後の文字を組み合わせて意味を成す単語が得られるか否かを判定することによって、文字が特定される。
このため、辞書記憶部５３には、各文字の字形データを有する字形辞書データと、一般的な単語のデータを有する単語辞書データとが予め記憶されている。
このような辞書記憶部５３は、本発明における文字記憶手段として機能する。

なお、一般的な単語のみならず、熟語、及び慣用句等のデータが単語辞書データに含まれていてもよい。また、単語辞書データに含むべきデータを、ユーザが追加又は削除することが可能であってもよい。更に、文字認識部５が辞書記憶部５３を備える構成ではなく、記憶部１２の記憶領域の一部が辞書記憶部５３として構成されていてもよい。

図８及び図９は、夫々複数行の本文が含まれる文書画像を例示する模式図である。図８には、意味を成す文字列が頁の境界の前後に分割配置されていない文書画像Ｄ１１，Ｄ１２が例示されており、図８（ａ）は第１頁の文書画像Ｄ１１を示し、図８（ｂ）は第２頁の文書画像Ｄ１２を示している。一方、図９には、意味を成す文字列が頁の境界の前後に分割配置されている文書画像Ｄ２１，Ｄ２２が例示されており、図９（ａ）は第１頁の文書画像Ｄ２１を示し、図９（ｂ）は第２頁の文書画像Ｄ２２を示している。

図８（ａ）に示すように、第１頁の文書画像Ｄ１１の末尾部分には、「血糖値を下げる効果があります。」という１５文字分の文字画像が含まれている。更に詳細には、最終行に「げる効果があります。」という文字画像が含まれている。このように、第１頁の文書画像Ｄ１１においては、最終行の行末に、意味を成す文字列「あります。」が含まれている。

図８（ｂ）に示すように、第２頁の文書画像Ｄ１２の先頭部分には、「生鮮食品では、緑黄色野菜をはじめ、」という１７文字分の文字画像が含まれている。更に詳細には、第１行に「生鮮食品では、緑黄色」という文字画像が含まれている。このように、第２頁の文書画像Ｄ１２においては、第１行の行頭に、意味を成す文字列「生鮮」が含まれている。
即ち、図８に示す文書画像Ｄ１１，Ｄ１２は、意味を成す文字列が頁の境界の前後に分割配置されていない文書画像である。

図９（ａ）に示すように、第１頁の文書画像Ｄ２１の末尾部分には、「最新機種を取り揃え、携帯電話サマ」という１６文字分の文字画像が含まれている。更に詳細には、最終行に「揃え、携帯電話サマ」という文字画像が含まれている。
図９（ｂ）に示すように、第２頁の文書画像Ｄ２２の先頭部分には、「ーキャンペーンを、開催いたします。」という１７文字分の文字画像が含まれている。更に詳細には、第１行に「ーキャンペーンを、」という文字画像が含まれている。

このように、第１頁の最終行の行末から第２頁の第１行の行頭に亘って、意味を成す文字列「サマー」が含まれている。
即ち、図９に示す文書画像Ｄ２１，Ｄ２２は、意味を成す文字列が頁の境界の前後に分割配置されている文書画像である。

従来、ＰＤＦ形式の電子文書を生成する場合、図８（ａ）に示す文書画像Ｄ１１の画像データには、「血糖値を下げる効果があります。」という透明テキストＴ１１が埋め込まれ、図８（ｂ）に示す文書画像Ｄ１２の画像データには、「生鮮食品では、緑黄色野菜をはじめ、」という透明テキストＴ１２が埋め込まれる。
同様に、図９（ａ）に示す文書画像Ｄ２１の画像データには、「最新機種を取り揃え、携帯電話サマ」という透明テキストが埋め込まれ、図９（ｂ）に示す文書画像Ｄ２２の画像データには、「ーキャンペーンを、開催いたします。」という透明テキストが埋め込まれる。

ユーザが、図８に示す文書画像Ｄ１１，Ｄ１２の電子文書に対して、文書画像Ｄ１１，Ｄ１２上に存在する「生鮮」という言葉をキーワードにして検索を実行した場合には、検索漏れは生じない。何故ならば、「生鮮」という透明テキストが、第２頁の文書画像Ｄ１２の画像データに埋め込まれている透明テキストＴ１２に含まれているからである。

しかしながら、ユーザが、図９に示す文書画像Ｄ２１，Ｄ２２の電子文書に対して、文書画像Ｄ２１，Ｄ２２上に存在する「サマー」という言葉をキーワードにして検索を実行した場合には、検索漏れが生じる。何故ならば、「サマー」という透明テキストは、第１頁の文書画像Ｄ２１の画像データに埋め込まれている透明テキストにも、第２頁の文書画像Ｄ２２の画像データに埋め込まれている透明テキストにも、含まれていないからである。

そこで、本実施の形態においては、文字認識部５が、図９に示す文書画像Ｄ２１，Ｄ２２夫々の画像データに埋め込むべき透明テキストを補正する。
図１０は、図９に示す文書画像Ｄ２１，Ｄ２２の画像データに埋め込まれる透明テキストＴ２１，Ｔ２２を例示する模式図である。図１０（ａ）は第１頁の透明テキストＴ２１を示し、図１０（ｂ）は第２頁の透明テキストＴ２２を示している。
図１０に示すように、文書画像Ｄ２１の画像データには、「最新機種を取り揃え、携帯電話サマー」という透明テキストＴ２１が埋め込まれ、文書画像Ｄ２２の画像データには、「サマーキャンペーンを、開催いたします。」という透明テキストＴ２２が埋め込まれている。

つまり、図９に示す文書画像Ｄ２１，Ｄ２２では、意味を成す文字列「サマー」が頁の境界の前後に分割配置されているが、図１０に示す透明テキストＴ２１，Ｔ２２では、意味を成す文字列「サマー」が第１頁の透明テキストＴ２１にも第２頁の透明テキストＴ２２にも含まれている。つまり、透明テキストＴ２１は、文書画像Ｄ２１の本文の透明テキストの内、末尾文字「サマ」の後方側に連続して、文書画像Ｄ２２の第１行の行頭に位置する１個の先頭文字「ー」の透明テキストが追加されたものである。また、透明テキストＴ２２は、文書画像Ｄ２２の本文の透明テキストの内、先頭文字「ー」の前方側に連続して、文書画像Ｄ２１の最終行の行末に位置する２個の末尾文字「サマ」の透明テキストが追加されたものである。

この場合、ユーザが、文書画像Ｄ２１，Ｄ２２の電子文書に対して、文書画像Ｄ２１，Ｄ２２上に存在する「サマー」という言葉をキーワードにして検索を実行しても、検索漏れは生じない。
更に、ユーザが、文書画像Ｄ２１，Ｄ２２の電子文書に対して、文書画像Ｄ２１，Ｄ２２上に存在する「サマーキャンペーン」という言葉をキーワードにして検索を実行しても、検索漏れは生じない。何故ならば、「サマーキャンペーン」という透明テキストが、第２頁の文書画像Ｄ２２の画像データに埋め込まれている透明テキストＴ２２に含まれているからである。

なお、文字認識部５は、第１頁の本文の透明テキストには、第２頁の先頭文字の透明テキストを追加するが、第２頁の本文の透明テキストには、第１頁の末尾文字の透明テキストを追加しない構成でもよい。また、文字認識部５は、第１頁の本文の透明テキストには、第２頁の先頭文字の透明テキストを追加しないが、第２頁の本文の透明テキストには、第１頁の末尾文字の透明テキストを追加する構成でもよい。この場合、先頭文字又は末尾文字の透明テキストを追加することによるデータ量の増加を抑制することができる。

ただし、例えば「メモリ」の「メ」と「モリ」との間に頁の境界が位置する場合、第１頁にのみ「メモリ」を配置すると、「メモリの購入」というキーワードを検索したときに、たとえ第２頁に「モリの購入」という透明テキストが配置されていたとしても、検索キーワード「メモリの購入」はヒットしない。逆に、第２頁にのみ「メモリ」を配置すると、「新しいメモリ」というキーワードを検索したときに、たとえ第１頁に「新しいメ」という透明テキストが配置されていたとしても、検索キーワード「新しいメモリ」がヒットしない。つまり、検索漏れが生じる虞がある。

しかしながら、第１頁及び第２頁の両方に「メモリ」を配置すると、検索キーワード「メモリ」は第１頁及び第２頁の両方でヒットし、検索キーワード「メモリの購入」と「新しいメモリ」とは、第１頁及び第２頁のいずれか一方でヒットする。つまり、検索漏れの発生を抑制することができる。

また、文字認識部５は、第１頁の本文の透明テキストに、第２頁の第１行全部の透明テキストを追加し、第２頁の本文の透明テキストに、第１頁の最終行全部の透明テキストを追加する構成でもよい。この場合、例えば、意味を成す文字列「サマー」を含む「揃え、携帯電話サマーキャンペーンを、」という文言が、第１頁の透明テキストにも第２頁の透明テキストにも含まれる。

このとき、ユーザが、文書画像に対して「携帯電話サマーキャンペーン」という言葉をキーワードにして検索を実行しても、検索漏れは生じない。つまり、検索漏れの発生を更に抑制することができる。特に、意味を成す文字列をいちいち抽出せずに、単純に１行分（又は複数行分）の透明テキストを前後の頁に追加する場合は、処理が非常に簡易である。
ただし、本文の透明テキストに１行分（又は複数行分）の透明テキストを追加することによるデータ量の増加が顕著になるという問題がある。

ところで、本実施の形態においては、辞書記憶部５３の単語辞書データに、意味を成す文字列として「サマー」が記憶してある。このため、文字認識部５は、「サマー」が意味を成す文字列であると判定する。ただし、文字認識部５は、「携帯電話サマーキャンペーン」が意味を成す文字列であると判定する構成でもよい。このためには、辞書記憶部５３の単語辞書データに、意味を成す文字列として「携帯電話サマーキャンペーン」を記憶させておけばよい。

図１１及び図１２は、認識処理部５１で実行されるテキスト認識処理の手順を示すフローチャートである。
図１１に示すように、まず、認識処理部５１は、変数ｋを“１”にリセットする（Ｓ１１）。
次に、認識処理部５１は、原稿の枚数を示す枚数情報が制御部１０から入力されたか否かを判定し（Ｓ１２）、入力されていない場合は（Ｓ１２でＮＯ）、Ｓ１２の処理を繰り返し実行する。枚数情報が入力された場合（Ｓ１２でＹＥＳ）、認識処理部５１は、Ｓ１３以降の処理を実行する。

認識処理部５１は、第ｋ頁の文書画像のレイアウトを示すレイアウト解析結果と画像データとがレイアウト解析部４５から入力されたか否かを判定し（Ｓ１３）、入力されていない場合は（Ｓ１３でＮＯ）、Ｓ１３の処理を繰り返し実行する。
レイアウト解析結果と画像データとが入力された場合（Ｓ１３でＹＥＳ）、認識処理部５１は、第ｋ頁の画像データに基づいて、公知の文字認識処理を実行する（Ｓ１４）。

Ｓ１４における認識処理部５１は、画像データの特徴を数値的に示す特徴量（例えばエッジ強度）を演算し、演算結果に基づいて、図６に示すような一の文字Ｈを形成する文字領域を判別する。次に、認識処理部５１は、辞書記憶部５３に記憶されている字形辞書データを参照し、判別した文字領域と字形データとでパターンマッチングを行なうことによって字形の一致度を求める。更に、認識処理部５１は、求めた一致度が所定以上である字形データに対応する文字を、判別した文字領域に対応する文字候補とする。

次に、認識処理部５１は、レイアウト解析結果を参照し、文字が並ぶ方向に隣り合う複数個の文字領域夫々の文字候補同士を合成することによって、適宜の文字列を得る。最後に、認識処理部５１は、辞書記憶部５３に記憶されている単語辞書データを参照し、得られた文字列が意味を成す単語になるように、各文字領域に対応する文字を特定する。
そして、認識処理部５１は、以上のような処理を、第ｋ頁の画像データに含まれる文字領域夫々に対応する文字を全て特定するまで繰り返し実行する。
ところで、特定された文字が、文書中の何行目の何番目に配されている文字であるかという情報は、特定された文字に対応する文字領域に含まれている画素の座標と、レイアウト解析結果とに基づいて求めることができる。

図１１に示すように、Ｓ１４における文字認識処理の終了後、認識処理部５１は、第ｋ頁の画像データに係る文字認識結果を描画コマンド生成部５２へ出力する（Ｓ１５）。

Ｓ１５の処理が実行されることによって、第ｋ頁の画像データに係る文字認識結果が入力された描画コマンド生成部５２は、入力された文字認識結果に基づいて、描画コマンドを生成する。生成された描画コマンドには、第ｋ頁の画像データに係る描画コマンドであることを示す情報が付与される。
描画コマンドとは、透明テキストをＰＤＦ形式の画像データに埋め込むためのものであり、透明テキストに含まれる各文字の配置が、文書画像内の文字画像の配置に対応するように生成される。Ｓ１５の処理が実行されることによって生成される描画コマンドは、フォーマット化処理部３１において第ｋ頁の本文の透明テキストを、第ｋ頁の画像データに埋め込むためのものである。

Ｓ１５の処理終了後、認識処理部５１は、枚数情報が示す枚数Ｐが１枚であるか否かを判定する（Ｓ１６）。
Ｐ＝１である場合（Ｓ１６でＹＥＳ）、認識処理部５１は、全頁に対するテキスト認識処理が終了したことを示す終了情報を、描画コマンド生成部５２へ出力し（Ｓ１７）、最後に、処理をＳ１１へ戻す。
Ｓ１６の処理が実行されることによって、終了情報が入力された描画コマンド生成部５２は、生成した描画コマンドを全てフォーマット化処理部３１へ出力する。

Ｐ＞１である場合（Ｓ１６でＮＯ）、認識処理部５１は、変数ｋが“１”であるか否かを判定する（Ｓ１８）。
ｋ＝１である場合（Ｓ１８でＹＥＳ）、Ｓ１４を実行したことによって、第１頁の画像データに対する文字認識処理が終了したため、認識処理部５１は、第１頁に係る文字認識結果に基づいて、後述するように、末尾文字を抽出する（Ｓ１９）。
Ｓ１９の処理完了後、認識処理部５１は、変数ｋに“２”をセットして（Ｓ２０）、処理をＳ１３へ戻す。

ｋ＞１である場合（Ｓ１８でＮＯ）、Ｓ１４を実行したことによって、第１頁以外の第ｋ頁の画像データに対する文字認識処理が終了したため、図１２に示すように、認識処理部５１は、第ｋ頁に係る文字認識結果に基づいて、後述するように、先頭文字を抽出する（Ｓ２１）。
更に、認識処理部５１は、変数ｋが枚数Ｐに等しいか否かを判定する（Ｓ２２）。

ｋ＜Ｐである場合（Ｓ２２でＮＯ）、Ｓ１４を実行したことによって、第Ｐ頁以外の第ｋ頁の画像データに対する文字認識処理が終了したため、認識処理部５１は、第ｋ頁に係る文字認識結果に基づいて、末尾文字を抽出し（Ｓ２３）、次いで、後述するＳ２４へ処理を移す。
ｋ＝Ｐである場合（Ｓ２２でＹＥＳ）、Ｓ１４を実行したことによって、第Ｐ頁の画像データに対する文字認識処理が終了したため、認識処理部５１は、Ｓ２３の処理を実行することなく、Ｓ２４へ処理を移す。

以上のように、本実施の形態では、第１頁に係る文字認識結果に基づいて先頭文字を抽出することはない。何故ならば、第１頁の前の頁が存在しないため、第１頁の先頭文字を抽出しても無駄になるからである。また、第Ｐ頁に係る文字認識結果に基づいて末尾文字を抽出することはない。何故ならば、第Ｐ頁の次の頁が存在しないため、第Ｐ頁の末尾文字を抽出しても無駄になるからである。この結果、無駄な処理が省かれるため、演算負荷が軽減される。

ここで、末尾文字及び先頭文字夫々の抽出について説明する。
図８（ａ）に示す文書画像Ｄ１１の画像データに対してＳ１４の文字認識処理を施した場合、最終行の文字認識結果として「げる効果があります。」という１０文字が得られ、図８（ｂ）に示す文書画像Ｄ１２の画像データに対してＳ１４の文字認識処理を施した場合、第１行の文字認識結果として「生鮮食品では、緑黄色」という１０文字が得られる。
認識処理部５１は、得られた文字認識結果に基づいて、認識した文字からなる１行分の文字列を分解する。このとき、認識処理部５１は、１行分の文字列を分解する手法として、例えば形態素解析を用いる。

形態素解析とは、文を、形態素（意味を成す最小の言語単位。これ以上分解すると、意味を成さなくなる。）に分解するためのものである。形態素解析には、一般的な慣用句からなる辞書を用いて、辞書の慣用句と、分解すべき文に含まれる文字列とを比較し、辞書の慣用句と一致した文字列を形態素として抽出する手法や、分解すべき文に含まれる漢字と助詞とを認識することによって、形態素を抽出する手法等がある。

この結果、「げる効果があります。」という１行分の文字列は、「下げる」という動詞の送り仮名である「げる」という２個の文字と、名詞である「効果」という２個の文字と、格助詞である「が」という１個の文字と、動詞及び読点である「あります。」という５個の文字とに分解される。認識処理部５１は、第１頁の最終行の末尾文字として、「あります。」を抽出する。
同様に、「生鮮食品では、緑黄色」という１行分の文字列は、「生鮮」という２個の文字と、「食品」という２個の文字と、「では、」という３個の文字と、「緑黄色」という３個の文字とに分解される。認識処理部５１は、第２頁の第１行の先頭文字として、「生鮮」を抽出する。

図９（ａ）に示す文書画像Ｄ２１の画像データに対してＳ１４の文字認識処理を施した場合、最終行の文字認識結果として「揃え、携帯電話サマ」という９文字が得られ、図９（ｂ）に示す文書画像Ｄ２２の画像データに対してＳ１４の文字認識処理を施した場合、第１行の文字認識結果として「ーキャンペーンを、」という９文字が得られる。
認識処理部５１は、得られた文字認識結果に基づいて、認識した文字からなる１行分の文字列を分解する。

この結果、「揃え、携帯電話サマ」という１行分の文字列は、「揃え、」という３個の文字と、「携帯電話」という４個の文字と、「サマ」という２個の文字とに分解される。認識処理部５１は、第１頁の最終行の末尾文字として、「サマ」を抽出する。
同様に、「ーキャンペーンを、」という１行分の文字列は、「ー」という１個の文字と、「キャンペーン」という６個の文字と、「を、」という２個の文字とに分解される。認識処理部５１は、第２頁の第１行の先頭文字として、「ー」を抽出する。

図１２に示すように、認識処理部５１は、第ｋ−１頁の末尾文字と、第ｋ頁の先頭文字とをこの順に合成する（Ｓ２４）。Ｓ２４の処理が実行されることによって、新たな文字列が生成される。
図８に示す文書画像Ｄ１１，Ｄ１２については、第１頁の末尾文字「あります。」と第２頁の先頭文字「生鮮」とがこの順に合成されることによって、新たな文字列「あります。生鮮」が生成される。
図９に示す文書画像Ｄ２１，Ｄ２２については、第１頁の末尾文字「サマ」と第２頁の先頭文字「ー」とがこの順に合成されることによって、新たな文字列「サマー」が生成される。

図１２に示すように、認識処理部５１は、Ｓ２４で生成した文字列が、意味を成す文字列であるか否かを判定する（Ｓ２５）。このために、認識処理部５１は、辞書記憶部５３に記憶されている単語辞書データを参照し、単語辞書データに含まれる文字列と、Ｓ２４で生成した文字列とを比較して、これらが一致するか否かを判定する。一致する場合、生成した文字列は意味を成す文字列であり、一致しない場合、生成した文字列は意味を成さない文字列である。

図８に示す文書画像Ｄ１１，Ｄ１２に係る新たな文字列「あります。生鮮」は、意味を成さない文字列である、と判定される。
図９に示す文書画像Ｄ２１，Ｄ２２に係る新たな文字列「サマー」は、意味を成す文字列である、と判定される。

Ｓ２４で生成した文字列が、意味を成す文字列である場合（Ｓ２５でＹＥＳ）、認識処理部５１は、描画コマンド生成部５２に第ｋ−１頁及び第ｋ頁夫々に係る描画コマンドを補正させる描画コマンド補正命令を、描画コマンド生成部５２へ出力し（Ｓ２６）、処理を後述するＳ２７へ移す。
Ｓ２６の処理が実行されることによって、描画コマンド補正命令が入力された描画コマンド生成部５２は、入力された描画コマンド補正命令に基づいて、描画コマンドを補正する。

具体的には、描画コマンド生成部５２は、第ｋ−１頁に係る描画コマンドを、第ｋ−１頁の画像データに埋め込まれる第ｋ−１頁の本文の透明テキストの後方側（即ち、第ｋ−１頁の末尾文字の透明テキストの後方側）に連続して、第ｋ頁目の先頭文字の透明テキストを埋め込むための描画コマンドに補正する。且つ、描画コマンド生成部５２は、第ｋ頁に係る描画コマンドを、第ｋ頁の画像データに埋め込まれる第ｋ頁の本文の透明テキストの前方側（即ち、第ｋ頁の先頭文字の透明テキストの前方側）に連続して、第ｋ−１頁目の末尾文字の透明テキストを埋め込むための描画コマンドに補正する。

この結果、補正された描画コマンドが描画コマンド生成部５２からフォーマット化処理部３１へ出力されるため、フォーマット化処理部３１においては、図９に示す文書画像Ｄ２１，Ｄ２２の画像データに、図１０に示す透明テキストＴ２１，Ｔ２２が埋め込まれる。

Ｓ２４で生成した文字列が、意味を成す文字列ではない場合（Ｓ２５でＮＯ）、認識処理部５１は、Ｓ２６の処理を実行せずに、後述するＳ２７へ処理を移す。
この結果、描画コマンドは補正されずに描画コマンド生成部５２からフォーマット化処理部３１へ出力されるため、フォーマット化処理部３１においては、図８に示す文書画像Ｄ１１，Ｄ１２の画像データに、透明テキストＴ１１，Ｔ１２が埋め込まれる。

Ｓ２５でＮＯの場合、又は、Ｓ２６の処理終了後、認識処理部５１は、変数ｋが枚数Ｐに等しいか否かを判定する（Ｓ２７）。
ｋ＜Ｐである場合（Ｓ２７でＮＯ）、全頁に対するテキスト認識処理がまだ終了していないため、認識処理部５１は、変数ｋを“１”インクリメントして（Ｓ２８）、処理を図１１に示すＳ１３へ戻す。
図１２に示すように、ｋ＝Ｐである場合（Ｓ２７でＹＥＳ）、全頁に対するテキスト認識処理が終了したため、認識処理部５１は、処理を図１１に示すＳ１７へ移す。

以上のようなテキスト認識処理のＳ１３の処理を実行する認識処理部５１は、本発明における画像受付手段として機能する。また、Ｓ１４の処理を実行する認識処理部５１は、本発明における文字認識手段として機能する。更に、Ｓ１９、Ｓ２１及びＳ２３夫々の処理を実行する認識処理部５１は、本発明における文字抽出手段として機能する。更にまた、Ｓ２４の処理を実行する認識処理部５１は、本発明における文字生成手段として機能し、Ｓ２５の処理を実行する認識処理部５１は、本発明における文字判定手段として機能する。
また、認識処理部５１がＳ２６の処理を実行し、描画コマンド生成部５２が描画コマンド補正処理を実行することによって、フォーマット化処理部３１は、本発明における文字埋込手段として機能する。

ところで、図８〜図１０には、横書きの文書画像を例示してあるが、縦書きの文書画像であっても、同様の手順で処理すれば良い。
また、図８〜図１０には、ヘッダ及びフッタが存在しない文書画像を例示してある。このため、以下に、ヘッダ及び／又はフッタが存在する文書画像について説明する。

図１３は、ヘッダ及びフッタを有する文書画像Ｄ３１，Ｄ３２を例示する模式図であり、図１３（ａ）は第１頁の文書画像Ｄ３１を示し、図１３（ｂ）は第２頁の文書画像Ｄ３２を示している。文書画像Ｄ３１，Ｄ３２の本文は、図９に示す文書画像Ｄ２１，Ｄ２２と同じものである。文書画像Ｄ３１，Ｄ３２夫々には、「お得意様セール」という文字画像がヘッダとして含まれている。また、文書画像Ｄ３１，Ｄ３２夫々には、頁番号の文字画像（「１」，「２」）がフッタとして含まれている。

図１３（ａ）に示す文書画像Ｄ３１の画像データに対してＳ１４の文字認識処理を施した場合、最終行の１行前の行（以下、第ｃ行という）の文字認識結果として「揃え、携帯電話サマ」という９文字が得られ、最終行の文字認識結果として「１」という１文字が得られる。同様に、図１３（ｂ）に示す文書画像Ｄ２２の画像データに対してＳ１４の文字認識処理を施した場合、第１行の文字認識結果として「お得意様セール」という７文字が得られ、第２行の文字認識結果として「ーキャンペーンを、」という９文字が得られる。
「お得意様セール」という１行分の文字列は、「お得意様」という４個の文字と、「セール」という３個の文字とに分解される。

Ｓ１９の処理を実行することによって、認識処理部５１は、第１頁の末尾部分の下から２行夫々の末尾文字と、第２頁の先頭部分の上から２行夫々の先頭文字とを夫々抽出する。具体的には、認識処理部５１は、第１頁の最終行の末尾文字として「１」を抽出し、第ｃ行の末尾文字として「サマ」を抽出する。また、Ｓ２１の処理を実行することによって、認識処理部５１は、第２頁の第１行の先頭文字として「お得意様」を抽出し、第２頁の第２行の先頭文字として「ー」を抽出する。
更に、認識処理部５１がＳ２４の処理を実行することによって、各２行分の末尾文字と先頭文字とを組み合わせてなる４種類の新たな文字列が生成される。

図１４は、図１３に示す文書画像Ｄ３１，Ｄ３２に係る末尾文字と先頭文字との合成結果を示す説明図である。
認識処理部５１は、合成結果１として、新たな文字列「１お得意様」を生成し、合成結果２として、新たな文字列「１ー」を生成する。また、認識処理部５１は、合成結果３として、新たな文字列「サマお得意様」を生成し、合成結果４として、新たな文字列「サマー」を生成する。

Ｓ２５の処理を実行することによって、認識処理部５１は、合成結果４が意味を成す文字列である、と判定し、合成結果１〜３夫々は意味を成さない文字列である、と判定する。
合成結果４が意味を成す文字列であるため、認識処理部５１は、Ｓ２６の処理を実行する。この結果、描画コマンド生成部５２にて、文書画像Ｄ３１，Ｄ３２に係る描画コマンドが補正される。
描画コマンド生成部５２は、第１頁及び第２頁の透明テキストに、文字の追加を最小限にして、新たな文字列「サマー」が含まれるように、第１頁及び第２頁夫々に係る描画コマンドを補正する。

従って、第１頁に係る補正された描画コマンドは、末尾文字「サマ」の透明テキストの後方側に連続して、先頭文字「ー」の透明テキストが第１頁の画像データに埋め込まれるようにするためのものである。
また、第２頁に係る補正された描画コマンドは、先頭文字「ー」の透明テキストの前方側に連続して、末尾文字「サマ」の透明テキストが第２頁の画像データに埋め込まれるようにするためのものである。

本実施の形態では、認識処理部５１が各２行分の末尾文字及び先頭文字を抽出する構成を例示したが、各３行分以上の末尾文字及び先頭文字を抽出する構成であってもよい。ヘッダ及びフッタ夫々が５行を越えることは滅多にないため、最大でも各５行分の末尾文字及び先頭文字を抽出することによって、ヘッダ及びフッタに邪魔されることなく、第ｋ−１頁の最終行の末尾文字及び第ｋ頁の第１行の先頭文字を抽出することができる。
仮に、認識処理部５１が各６行以上の末尾文字及び先頭文字を抽出する構成である場合、末尾文字と先頭文字とを合成してなる新たな文字列の種類数が無駄に増大する虞がある。

なお、画像形成装置１は、ユーザが操作パネル１７を用いてヘッダ及び／又はフッタの有無を指示する構成であってもよい。この場合、認識処理部５１は、フッタ（又はヘッダ）が存在すると指示されたときに、末尾部分の複数行夫々の末尾文字（又は先頭部分の複数行夫々の先頭文字）を夫々抽出する。一方、フッタ（又はヘッダ）が存在しないと指示されたとき、認識処理部５１は、末尾部分の最終行の末尾文字（又は先頭部分の第１行の先頭文字）を抽出する。
ヘッダ及び／又はフッタの有無が指示されない画像形成装置１の場合、認識処理部５１は、複数行分の文字を抽出する手順、及び、１行分の文字を抽出する手順のいずれかの一方を常に実行する構成であればよい。

以上のような画像形成装置１は、意味を成す文字列が、頁の境界の前後に分割配置されているときに、一の頁の文書の末尾文字の透明テキストと一の頁の次の頁の文書に含まれる文字列の透明テキストとを、この順に連続させて、一の頁及び次の頁夫々の文書の画像データに埋め込む。
この結果、画像データが示す文書画像においては、透明テキストに対するキーワード検索の際に、検索漏れが生じることを抑制することができる。
透明テキストは、表示画面には表示されず、また、記録シートには記録されない。従って、一の頁の文書画像に次の頁の先頭文字の文字画像が無用に含まれて見えたり、次の頁の文書画像に一の頁の末尾文字の文字画像が無用に含まれて見えたりすることはない。

なお、画像形成装置１は、画像入力装置１１で原稿を読み取る構成に限定されるものはない。例えば、画像形成装置１は、ＲＧＢのアナログ信号（又はデジタル信号）からなる画像データを画像形成装置１の外部から受信し、受信した画像データに対して、Ａ／Ｄ変換部２０（又はシェーディング補正部２１）以降で実行される処理を施してもよい。また、画像形成装置１は、画像データと透明テキストとのセットが画像形成装置１の外部から与えられる構成でもよい。この場合、認識処理部５１で文字認識を実行する必要がない。

実施の形態２．
図１５は、本発明の実施の形態２に係る画像処理装置２を含む画像形成装置１がscan to e-mail機能を実現する場合の機能構成を示すブロック図である。図１５に示すブロック図は、実施の形態１の図２に示すブロック図に対応する。
本実施の形態の画像形成装置１は、実施の形態１の画像形成装置１と略同様の構成である。以下では、実施の形態１との差異について説明し、その他、実施の形態１に対応する部分には同一符号を付してそれらの説明を省略する。

図２に示すように、実施の形態１の領域分離部３０は、原稿補正部２４の後段に設けられている。
一方、図１５に示すように、本実施の形態の領域分離部３０は、入力処理部２２の後段、且つ原稿検知部４の前段に設けられている。
このため、入力処理部２２は、画像処理後の画像データを、記憶部１２に記憶させると共に、領域分離部３０へ出力する。また、原稿補正部２４が、領域分離部３０へ画像データを出力することはない。
領域分離部３０は、領域識別信号を、空間フィルタ処理部２７、出力階調補正部２８、及び文字認識部５夫々へ出力する。

文字認識部５では、領域分離部３０から入力された領域識別信号に基づいて、テキストマップが生成される。テキストマップとは、文字領域の内、文字エッジの領域を示すものであり、認識処理部５１は、生成されたテキストマップを参照して、図６に示すような一の文字Ｈを形成する文字領域を判別する。

以上のような画像形成装置１は、実施の形態１の画像形成装置１と同様の効果を奏する。更に、文字認識部５で、画像データに基づいて文字領域と文字領域以外の領域とを区別する必要がないため、文字認識部５における演算負荷が軽減される。

実施の形態３．
図１６は、本発明の実施の形態３に係る画像処理装置２を含む画像形成装置１がscan to e-mail機能を実現する場合の機能構成を示すブロック図である。図１６に示すブロック図は、実施の形態１の図２に示すブロック図に対応する。
本実施の形態の画像形成装置１は、実施の形態１の画像形成装置１と略同様の構成である。以下では、実施の形態１との差異について説明し、その他、実施の形態１に対応する部分には同一符号を付してそれらの説明を省略する。

図１６に示すように、本実施の形態の画像処理装置２においては、入力処理部２２と原稿検知部４との間に、原稿種別自動判別部３２が設けられている。
このため、入力処理部２２は、画像処理後の画像データを、記憶部１２に記憶させると共に、原稿種別自動判別部３２へ出力する。

原稿種別自動判別部３２では、入力処理部２２から入力された画像データが、文書の画像データであるか否かを判別する。ここで、文書の画像データとは、画像入力装置１１が、文字原稿、文字印刷写真原稿、又は文字印画紙写真原稿等を読み取って生成した画像データである。
原稿種別自動判別部３２は、判別結果を原稿検知部４及び文字認識部５へ出力し、文字認識部５は、入力された判定結果をフォーマット化処理部３１へ出力する。

原稿種別自動判別部３２から入力された判別結果が、文書の画像データであることを示している場合、原稿検知部４、文字認識部５、及びフォーマット化処理部３１は、実施の形態１の原稿検知部４、文字認識部５、及びフォーマット化処理部３１と同様に作動する。

原稿種別自動判別部３２から入力された判別結果が、文書の画像データ以外の画像データであることを示している場合、原稿検知部４は、傾き検知処理及び天地判定処理だけを実行して、レイアウト解析処理を実行しない。また、文字認識部５の認識処理部５１は、実施の形態１の図１１及び図１２に示すテキスト認識処理を実行しない。従って、描画コマンド生成部５２からフォーマット化処理部３１へ描画コマンドが出力されることはない。更に、フォーマット化処理部３１は、出力階調補正部２８から入力された画像データをＰＤＦ形式の画像データに変換して、送受信装置１４へ出力する。つまり、ＰＤＦ形式の画像データに透明テキストが埋め込まれることはない。

以上のような画像形成装置１は、画像処理装置２に入力された画像データが、文書の画像データである場合には、実施の形態１の画像形成装置１と同様の効果を奏する。更に、画像処理装置２に入力された画像データが、文書の画像データではない場合には、認識処理部５１におけるテキスト認識処理及び描画コマンド生成部５２における描画コマンド生成処理等の無用な処理が実行されないため、画像処理装置２における演算負荷が軽減される。

実施の形態４．
実施の形態１〜３では、画像処理装置が画像形成装置の一部をなす形態を例示したが、本実施の形態においては、画像処理装置がスキャナ装置の一部をなす形態を例示する。ただし、実施の形態１に対応する部分には同一符号を付してそれらの説明を省略する。

図１７は、本発明の実施の形態４に係る画像処理装置６を含むスキャナ装置の内部の機能構成を示すブロック図である。図１７に示すブロック図は、実施の形態１の図２に示すブロック図に対応する。
スキャナ装置は、画像処理装置６と、制御部１０、画像入力装置１１、記憶部１２、及び操作パネル１７を備えている。画像処理装置６の出力側には、図示しない通信ケーブル又は通信ネットワークを介してＰＣ又はデジタル複合機等の図示しないホスト装置が接続されている。

画像処理装置６は、Ａ／Ｄ変換部２０、シェーディング補正部２１、入力処理部２２、原稿検知部４、文字認識部５、原稿補正部６１、色補正部６２、及びフォーマット化処理部６３を備える。
原稿補正部６１の動作は、実施の形態１においてscan to e-mail機能を実現する場合の原稿補正部２４の動作と略同様である。ただし、原稿補正部２４は、方向補正処理を施した後の画像データを、色補正部６２へ出力し、更に、記憶部１２に記憶させる。

色補正部６２は、実施の形態１においてscan to e-mail機能を実現する場合の色補正部２５と略同様にして、原稿補正部６１から入力された画像データを、Ｒ’Ｇ’Ｂ’信号からなる画像データに変換する。次いで、色補正部６２は、Ｒ’Ｇ’Ｂ’信号に変換後の画像データを、フォーマット化処理部６３へ出力する。
フォーマット化処理部６３の動作は、実施の形態１においてscan to e-mail機能を実現する場合のフォーマット化処理部３１の動作と略同様である。ただし、フォーマット化処理部６３は、色補正部６２から入力された画像データをＰＤＦ形式の画像データに変換する。更に、フォーマット化処理部６３は、生成した電子文書を前記ホスト装置へ送信する。

前記ホスト装置は、スキャナ装置から受信した電子文書の記憶、電子文書の外部への送信、又は電子文書に含まれる画像データに基づいた画像形成等の処理を実行する。
以上のようなスキャナ装置は、実施の形態１の画像形成装置１と同様の効果を奏する。

実施の形態５．
本実施の形態では、汎用のコンピュータを用いて本発明の実施の形態に係る画像処理装置を実現した形態を例示する。
図１８は、本発明の実施の形態５に係る画像処理装置７の機能構成を示すブロック図である。
本実施の形態に係る画像処理装置７は、汎用コンピュータ（例えばＰＣ）を用いてなる。

画像処理装置７は、各種演算を行なうＣＰＵ７１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ７２と、本発明の実施の形態に係る記録媒体８０から情報を読み取るドライブ部７３と、記憶部７４とを備えている。記録媒体８０は、例えば光ディスクであり、記録媒体８０には、発明の実施の形態に係るコンピュータプログラム８１が記憶されている。ドライブ部７３は、例えばＣＤ−ＲＯＭドライブである。
記憶部７４は、例えばハードディスクを用いてなる。記憶部７４の記憶領域の一部には、実施の形態１の辞書記憶部５３に記憶されている字形辞書データ及び単語辞書データと同様の字形辞書データ及び単語辞書データが予め記憶されている。このような記憶部７４は、本発明における文字記憶手段として機能する。

ＣＰＵ７１は、ドライブ部７３を用いて、記録媒体８０からコンピュータプログラム８１を読み取り、読み取ったコンピュータプログラム８１を記憶部７４に記憶させる。
また、画像処理装置７は、操作部７５と表示部７６とを備えている。
操作部７５は、ユーザが画像処理装置７を操作するためのキーボード又はポインティングデバイス等である。操作部７５を用いてユーザが入力した指示又は数値等は、ＣＰＵ７１に与えられる。
表示部７６は、例えば液晶ディスプレイを用いてなり、ＣＰＵ７１に制御されて、各種の情報を表示する。

更に、画像処理装置７は、図示しない通信ネットワークに接続可能な通信部７７と、画像処理装置７の外部の画像読取装置８２に接続されたインタフェース（Ｉ／Ｆ）７８とを備えている。
ＣＰＵ７１は、ファクシミリ又は電子メール等の通信方法によって、通信部７７を介し、画像処理装置７の外部へデータを送信する。
ＣＰＵ７１は、Ｉ／Ｆ７８を介して、後述する画像読取装置８２から送信された画像データを受信する。このようなＣＰＵ７１は、本発明における画像受付手段として機能する。

画像読取装置８２は、スキャナ装置又はデジタル複合機等であり、原稿となる原稿を光学的に読み取って、ＲＧＢ信号からなる画像データを生成し、生成した原稿の画像データと、読み取った原稿の枚数を示す枚数情報とを画像処理装置７へ送信する。

ＣＰＵ７１は、コンピュータプログラム８１をＲＡＭ７２にロードし、ロードしたコンピュータプログラム８１に従って、本発明の実施の形態に係る画像処理方法を実現する。
図１９及び図２０は、本発明の実施の形態５に係る画像処理装置７で実行される電子文書生成処理の手順を示すフローチャートである。このような電子文書生成処理は、Ｉ／Ｆ７８を介して画像データを受信した場合に自動的に実行される。なお、ＣＰＵ７１は、後述するＳ３１の処理を実行する前に、傾き検知処理及び天地判定処理等を実行し、実行結果に基づいて画像データを補正する構成でもよい。

図１９に示すように、ＣＰＵ７１は、実施の形態１の信号変換部４１と同様にして、ＲＧＢ信号からなる画像データを、輝度信号からなる画像データに変換する（Ｓ３１）。次に、ＣＰＵ７１は、実施の形態１の２値化処理部４２と同様にして、画像データを２値化する（Ｓ３２）。また、ＣＰＵ７１は、実施の形態１の解像度変換部４３と同様にして、画像データの解像度を第１の解像度及び第２の解像度夫々に低解像度化してなる画像データを生成する（Ｓ３３）。更に、ＣＰＵ７１は、実施の形態１のレイアウト解析部４５と同様にして、第２の解像度を有する画像データに基づき、文書画像のレイアウトを解析する（Ｓ３４）。

Ｓ３４の処理完了後、ＣＰＵ７１は、変数ｋを“１”にリセットする（Ｓ３５）。
次に、ＣＰＵ７１は、第１の解像度を有する第ｋ頁の画像データに基づいて、公知の文字認識処理を実行する（Ｓ３６）。Ｓ３６は、図１１に示すＳ１４に対応する。
Ｓ３６における文字認識処理の終了後、ＣＰＵ７１は、Ｓ３６における文字認識結果に基づいて、第ｋ頁の描画情報を生成する（Ｓ３７）。Ｓ３７で生成される描画情報は、第ｋ頁の本文の透明テキストを第ｋ頁の画像データに埋め込むためのものであり、実施の形態１の描画コマンド生成部５２が生成する描画コマンドに対応する。

Ｓ３７の処理終了後、ＣＰＵ７１は、枚数情報が示す枚数Ｐが１枚であるか否かを判定する（Ｓ３８）。
Ｐ＝１である場合（Ｓ３８でＹＥＳ）、ＣＰＵ７１は、実施の形態１のフォーマット化処理部３１と同様にして、画像データをＰＤＦ形式の画像データに変換する（Ｓ３９）。ＰＤＦ形式の画像データに変換すべき画像データは、Ｓ３２で低解像度化されていない画像データである。この画像データに対して、ＣＰＵ７１は、予め前処理を施してもよい。この前処理とは、例えば、実施の形態１の色補正部２５、空間フィルタ処理部２７、及び出力階調補正部２８夫々で実行される画像処理と同様の画像処理である。

最後に、ＣＰＵ７１は、実施の形態１のフォーマット化処理部３１と同様にして、Ｓ３８で生成した描画情報（又は、後述するＳ５６で補正された描画情報）に基づき、ＰＤＦ形式に変換した画像データに対して、透明テキストを埋め込む（Ｓ４０）。この結果、ＰＤＦ形式の電子文書が生成される。
ＣＰＵ７１は、生成された電子文書を記憶部７４に記憶させるか、又は、実施の形態１の送受信装置１４と同様にして、生成された電子文書をe-mailに添付した上で、通信部７７を介して画像処理装置７の外部へ送信する。
Ｓ４０の処理終了後、ＣＰＵ７１は、電子文書生成処理を終了する。

Ｐ＞１である場合（Ｓ３８でＮＯ）、ＣＰＵ７１は、変数ｋが“１”であるか否かを判定する（Ｓ４１）。
ｋ＝１である場合（Ｓ４１でＹＥＳ）、Ｓ３６を実行したことによって、第１頁の画像データに対する文字認識処理が終了したため、ＣＰＵ７１は、第１頁に係る文字認識結果に基づき、実施の形態１の認識処理部５１と同様にして、末尾文字を抽出する（Ｓ４２）。
Ｓ４２の処理完了後、ＣＰＵ７１は、変数ｋに“２”をセットして（Ｓ４３）、処理をＳ３６へ戻す。

ｋ＞１である場合（Ｓ４１でＮＯ）、Ｓ３６を実行したことによって、第１頁以外の第ｋ頁の画像データに対する文字認識処理が終了したため、図２０に示すように、ＣＰＵ７１は、第ｋ頁に係る文字認識結果に基づき、実施の形態１の認識処理部５１と同様にして、先頭文字を抽出する（Ｓ５１）。
更に、ＣＰＵ７１は、変数ｋが枚数Ｐに等しいか否かを判定する（Ｓ５２）。

ｋ＜Ｐである場合（Ｓ５２でＮＯ）、Ｓ３６を実行したことによって、第Ｐ頁以外の第ｋ頁の画像データに対する文字認識処理が終了したため、ＣＰＵ７１は、第ｋ頁に係る文字認識結果に基づいて、末尾文字を抽出し（Ｓ５３）、次いで、後述するＳ５４へ処理を移す。
ｋ＝Ｐである場合（Ｓ５２でＹＥＳ）、Ｓ３６を実行したことによって、第Ｐ頁の画像データに対する文字認識処理が終了したため、ＣＰＵ７１は、Ｓ５３の処理を実行することなく、Ｓ５４へ処理を移す。

次いで、ＣＰＵ７１は、実施の形態１の認識処理部５１と同様にして、第ｋ−１頁の末尾文字と、第ｋ頁の先頭文字とをこの順に合成する（Ｓ５４）。Ｓ５４の処理が実行されることによって、新たな文字列が生成される。
更に、ＣＰＵ７１は、実施の形態１の認識処理部５１と同様にして、Ｓ５４で生成した文字列が、意味を成す文字列であるか否かを判定する（Ｓ５５）。このために、ＣＰＵ７１は、記憶部７４に記憶されている単語辞書データを参照し、単語辞書データが示す文字列と、Ｓ５４で生成した文字列とを比較して、これらが一致するか否かを判定する。

Ｓ５４で生成した文字列が、意味を成す文字列である場合（Ｓ５５でＹＥＳ）、ＣＰＵ７１は、実施の形態１の描画コマンド生成部５２による描画コマンドの補正と同様にして、第ｋ−１頁及び第ｋ頁夫々に係る描画情報を補正し（Ｓ５６）、処理を後述するＳ５７へ移す。
Ｓ５４で生成した文字列が、意味を成す文字列ではない場合（Ｓ５５でＮＯ）、ＣＰＵ７１は、Ｓ５６の処理を実行せずに、後述するＳ５７へ処理を移す。

Ｓ５５でＮＯの場合、又は、Ｓ５６の処理終了後、ＣＰＵ７１は、変数ｋが枚数Ｐに等しいか否かを判定する（Ｓ５７）。
ｋ＜Ｐである場合（Ｓ５７でＮＯ）、全頁に対するテキスト認識処理がまだ終了していないため、ＣＰＵ７１は、変数ｋを“１”インクリメントして（Ｓ５８）、処理をＳ３６へ戻す。
ｋ＝Ｐである場合（Ｓ５７でＹＥＳ）、全頁に対するテキスト認識処理が終了したため、ＣＰＵ７１は、処理をＳ３９へ移す。

以上のようなテキスト認識処理のＳ３６の処理を実行するＣＰＵ７１は、本発明における文字認識手段として機能する。また、Ｓ４２、Ｓ５１及びＳ５３夫々の処理を実行するＣＰＵ７１は、本発明における文字抽出手段として機能する。更にまた、Ｓ５４の処理を実行するＣＰＵ７１は、本発明における文字生成手段として機能し、Ｓ５５の処理を実行するＣＰＵ７１は、本発明における文字判定手段として機能する。また、Ｓ５６の処理を実行するＣＰＵ７１は、本発明における文字埋込手段として機能する。

以上のような画像処理装置７は、実施の形態１の画像形成装置１と同様の効果を奏する。
本実施の形態においては、図１９及び図２０に示す電子文書生成処理が、Ｉ／Ｆ７８を介して画像データを受信した場合に自動的に実行される場合を例示したが、これに限定されるものではない。例えば、Ｉ／Ｆ７８を介して画像データを受信した場合には、受信した画像データが記憶部７４に一旦記憶され、ユーザが操作部７５を用いて電子文書生成命令を入力したときに、電子文書生成処理が実行される構成でもよい。或いは、ユーザが操作部７５を用いて生成した画像データ、又は通信部７７を介して受信した画像データ等に対して、電子文書生成処理が実行されてもよい。

なお、本発明のコンピュータプログラムを記録してある本発明の記録媒体は、磁気テープ、磁気ディスク、可搬型のハードディスク、ＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスク、又はＩＣカード（メモリカードを含む）／光カード等のカード型記録媒体のいずれの形態であってもよい。また、本発明の記録媒体は、画像処理装置７に内蔵され、記録媒体の記録内容をＣＰＵ７１が読み出すことが可能な半導体メモリ、即ちマスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュＲＯＭ等であってもよい。

更に、本発明のコンピュータプログラムは、画像処理装置７の外部の図示しないサーバ装置から通信ネットワークを介して画像処理装置７へダウンロードされて、記憶部７４に記憶される形態であってもよい。この形態の場合、コンピュータプログラムをダウンロードするために必要なプログラムは、予め記憶部７４に記憶されてあるか、又は所定の記録媒体からドライブ部７３を用いて読み出されて記憶部７４に記憶され、必要に応じてＲＡＭ７２にロードされる。

ところで、今回開示された実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、特許請求の範囲と均等の意味及び特許請求の範囲内での全ての変更が含まれることが意図される。
また、本発明の効果がある限りにおいて、実施の形態１〜３で開示した画像形成装置１、実施の形態４で開示したスキャナ装置、又は実施の形態５で開示した画像処理装置７に、実施の形態１〜５に開示されていない構成要素が含まれていてもよい。

１画像形成装置
１１画像入力装置（画像読取装置）
１３画像出力装置（画像形成手段）
２画像処理装置
３１フォーマット化処理部（文字埋込手段）
５１認識処理部（画像受付手段、文字抽出手段、文字生成手段、文字判定手段、文字認識手段）
５３辞書記憶部（文字記憶手段）
７画像処理装置
７１ＣＰＵ（画像受付手段、文字抽出手段、文字生成手段、文字判定手段、文字認識手段、文字埋込手段）
７４記憶部（文字記憶手段）
８０記録媒体
８１コンピュータプログラム
８２画像読取装置

Claims

文書に含まれる文字を抽出する文字抽出手段、及び、文字列データを画像データに埋め込む文字埋込手段を備える画像処理装置にて、複数頁の文書夫々に含まれる文字列を、不可視の色が指定された検索可能な文字列データとして前記文書の画像データに埋め込む画像処理方法であって、
前記文字抽出手段は、最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字、及び、前記一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を夫々抽出し、
前記文字埋込手段は、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込むか、又は、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込むことを特徴とする画像処理方法。
複数頁の文書夫々に含まれる文字列を、不可視の色が指定された検索可能な文字列データとして前記文書の画像データに埋め込む画像処理装置において、
最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字、及び、前記一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を夫々抽出する文字抽出手段と、
前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記文字抽出手段が抽出した先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込むか、又は、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記文字抽出手段が抽出した末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込む文字埋込手段と
を備えることを特徴とする画像処理装置。
意味を成す文字列を予め記憶してある文字記憶手段と、
前記文字抽出手段が抽出した末尾文字及び先頭文字をこの順に合成することによって、新たな文字列を生成する文字生成手段と、
該文字生成手段が生成した文字列を、前記文字記憶手段に記憶してある文字列と比較することによって、前記文字列が意味を成す文字列であるか否かを判定する文字判定手段と
を更に備え、
前記文字埋込手段は、前記文字判定手段が意味を成す文字列であると判定した場合に、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記文字抽出手段が抽出した先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込み、且つ、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記文字抽出手段が抽出した末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込むようにしてあることを特徴とする請求項２に記載の画像処理装置。
前記文字抽出手段は、前記末尾部分の複数行夫々の行末に位置する１又は複数個の末尾文字、及び、前記先頭部分の複数行夫々の行頭に位置する１又は複数個の先頭文字を夫々抽出するようにしてあり、
前記文字生成手段は、前記文字抽出手段が抽出した各複数行分の末尾文字及び先頭文字の組み合わせをこの順に合成することによって、新たな文字列を生成するようにしてあり、
前記文字埋込手段は、前記文字判定手段が意味を成す文字列であると判定した場合に、前記文字生成手段が生成した文字列の内、前記文字判定手段が意味を成す文字列であると判定した文字列が、前記一の頁の文書の画像データに埋め込まれる前記文字列データの末尾部分及び前記次の頁の文書の画像データに埋め込まれる前記文字列データの先頭部分夫々に含まれるようにして、前記一の頁の文書の画像データ及び前記次の頁の文書の画像データ夫々に前記文字列データを埋め込むようにしてあることを特徴とする請求項３に記載の画像処理装置。
画像読取装置が読み取った文書の画像データを受け付ける画像受付手段と、
該画像受付手段が受け付けた画像データに基づいて、文書に含まれる文字を認識する文字認識手段と
を更に備え、
前記文字認識手段が認識した文字を、前記文字列データとして前記画像受付手段が受け付けた画像データに埋め込むようにしてあることを特徴とする請求項２から４の何れかひとつに記載の画像処理装置。
請求項２から５のいずれかひとつに記載の画像処理装置と、
記録シート上に画像を形成する画像形成手段と
を備えることを特徴とする画像形成装置。
コンピュータに、複数頁の文書夫々に含まれる文字を、不可視の色が指定された検索可能な文字列データとして前記文書の画像データに埋め込ませるためのコンピュータプログラムであって、
コンピュータに、最終頁以外の一の頁の文書の末尾部分の行末に位置する１又は複数個の末尾文字、及び、前記一の頁の文書の次の頁の文書の先頭部分の行頭に位置する１又は複数個の先頭文字を夫々抽出させる文字抽出ステップと、
コンピュータに、前記一の頁の文書の画像データに埋め込まれる前記末尾文字の前記文字列データの後方側に連続して、前記文字抽出ステップで抽出された先頭文字を、前記文字列データとして前記一の頁の文書の画像データに埋め込ませるか、又は、前記次の頁の文書の画像データに埋め込まれる前記先頭文字の前記文字列データの前方側に連続して、前記文字抽出ステップで抽出された末尾文字を、前記文字列データとして前記次の頁の文書の画像データに埋め込ませる文字埋込ステップと
を実行させることを特徴とするコンピュータプログラム。
請求項７に記載のコンピュータプログラムを記録してあることを特徴とするコンピュータでの読み取りが可能な記録媒体。