JP5915628B2

JP5915628B2 - 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム

Info

Publication number: JP5915628B2
Application number: JP2013244436A
Authority: JP
Inventors: 大木　亮; 亮大木
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2016-05-11
Anticipated expiration: 2033-11-26
Also published as: CN104683629A; JP2015103113A; CN104683629B; US20150146220A1; US9442899B2

Description

この発明は、例えば多機能デジタル複合機であるＭＦＰ（Multi Function Perirheral）等の画像形成装置、該画像形成装置で実行されるテキストデータの埋め込み方法、及び画像形成装置のコンピュータに前記テキストデータの埋め込み方法を実行させるためのテキストデータの埋め込みプログラムに関する。

画像形成装置として、スキャナ部で読み取った原稿の画像をＰＤＦ（Portable Document Format）等のファイルに変換して外部装置に送信したり、自装置内に保存する機能を備えた画像形成装置が既に提供されている。

しかし、このようなファイルにはテキストデータが含まれていないため、文字列の検索を行うことができない。

そこで、スキャナ部で読み取った画像に対して文字認識処理装置により文字認識処理を行って文字画像をテキストデータ化し、このテキストデータを画像ファイルに埋め込むことが行われている（例えば特許文献１、２）。テキストデータを埋め込むときはＪＰＥＧ等の画像ファイルを手前にし、その背後にテキストデータを透明フォントで埋め込み、これによりユーザーは読み込んだ原稿画像の文字列を検索することが可能となる。

文字認識処理装置からは、１つ１つの文字の上下左右の位置を示す位置情報と、１行単位の文字座標位置の情報が送られてきており、画像ファイルへのテキストデータの埋め込む位置やサイズなどはこの結果を元に決定されている。

上記のようなテキストデータ埋め込み処理において、１つの埋め込み文字群の文字数制限は特に存在せず、１文字単位であっても複数文字であっても可能である。埋め込みで指定できるパラメータは、テキストデータの先頭の座標位置、フォントサイズ、横方向（文字列方向）の倍率等があるが、テキストデータの後端を指定することができない。このため、テキストデータの文字の位置と画像ファイルの文字画像との位置を合わせるためには、テキストデータの横方向の倍率を計算する必要がある。ちなみに、埋め込むフォントが等幅フォントの場合は横方向の長さが正確に計算できるため一致するが、通常の文書で使用されやすい文字毎に幅が相違するプロポーショナルのフォントの場合は文字列の長さの推定が一致しない場合がある。特に文字群の文字数が多くなると、倍率計算の誤差の影響で文字画像との位置がずれる可能性が高くなる。

そこで、各行に含まれる文字列を、行毎に、複数の文字グループに区切って１つの文字グループを短くすることで、原稿の文字画像との横方向の位置ずれを抑制する方法が考えられている。例えば、
（１）埋め込み文字群を１文字単位とし、１文字単位で原稿の文字画像位置と一致させる、とか
（２）欧米系言語では、カンマ、ドット、スペースを区切り目とすることで、複数個の文字グループに区切り、各文字グループ毎に原稿の文字画像位置と一致させる、
等の方法が考えられている。

特許第５１９７６９４号公報特許第４５９０４３３号公報

しかしながら、一行の文字列を複数の文字グループに区切って文字画像との位置ずれを抑制する従来の方法では次のような問題があった。

即ち、画像ファイルに埋め込む文字のフォントサイズは、文字認識処理により認識された文字の上下の座標から文字高さを算出することにより決定されるが、一行の文字列を複数の文字グループに区切った場合、従来では、文字グループに含まれている文字の高さを用いて、文字グループ毎にフォントサイズを決定していた。

例えば、「well over a million」という英文文字列をスペースを基に「well」「over」「a」「million」と４つの文字グループに区切った場合、「well」と「million」の方が「over」と「a」よりも文字の最大高さが大きいためフォントサイズが大きくなる一方、「over」と「a」は全てが小さい文字のためフォントサイズが小さくなる。

このような文字グループ毎に決定したフォントサイズのテキストデータを画像ファイルに埋め込んだ状態を図２に示す。

図２（Ａ）は原稿の文字画像１００を示し、同図（Ｂ）は実線で示す文字画像１００に、透明フォントでテキストコードが埋め込まれている状態を示し、黒塗りで示す文字が埋め込み文字２００であり、「over」と「a」の文字グループがサイズの小さいフォントとなっている。

この状態で、テキストデータが埋め込まれたファイルに対して、ユーザーがファイル中のデータ「well over a million」という文字列を検索した場合、該当する文字列が抽出されると、該文字列の文字領域は、図２（Ｃ）に示すように白黒反転して表示されるが、埋め込まれたテキストデータには、フォントサイズの大きな文字グループとフォントサイズの小さな文字グループが含まれているから、同図（Ｃ）に示すように、反転された文字のフォントサイズも文字グループ間で異なる状態となる。このため、反転表示された文字領域の高さ方向に凹凸が生じてしまい、ユーザーにとって見にくい状態となるという問題があった。

この発明は、このような技術的背景に鑑みてなされたものであり、文字認識処理により認識されたテキストデータを画像ファイルに埋め込むことが可能な画像形成装置であって、テキストデータが埋め込まれたファイルに対して文字検索が行われ、抽出された該当文字列の文字領域における文字と文字以外の部分が反転表示された場合に、反転表示部分に凹凸が発生せず見やすい表示状態となるようにテキストデータを埋め込むことができる画像形成装置、及び該画像形成装置で実行されるテキストデータの埋め込み方法を提供し、さらには前記画像形成装置のコンピュータに前記テキストデータの埋め込み方法を実行させるためのテキストデータの埋め込みプログラムを提供することを課題とする。

上記課題は、以下の手段によって解決される。
（１）画像を読み取る読み取り手段と、前記読み取り手段で読み取られた画像に対して文字認識処理を行う文字認識手段と、前記文字認識処理により認識された各行に含まれる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る文字列区切り手段と、前記各行の行単位で一定のフォントサイズを決定するフォントサイズ決定手段と、文字列方向をｘ方向としたときに、前記文字列区切り手段により区切られた前記複数の文字グループのそれぞれにおいて、前記文字認識処理により認識された先頭の文字の前記ｘ方向の座標位置を基準としてｘ方向の埋め込み位置を決定する埋め込み位置決定手段と、前記埋め込み位置決定手段により決定されたｘ方向の埋め込み位置において、前記フォントサイズ決定手段により決定されたフォントサイズにて、各文字グループのテキストデータを画像ファイルに埋め込む埋め込み手段と、を備えたことを特徴とする画像形成装置。
（２）文字列方向と直交する方向をｙ方向とし、前記文字グループに含まれる文字の最大高さで文字グループの高さを規定したとき、前記埋め込み位置決定手段は、各行において、最大高さを有する文字グループのｙ方向の座標位置、最小高さを有する文字グループのｙ方向の座標位置、各文字グループのｙ方向の座標位置の平均値、行の先頭の文字グループのｙ方向の座標位置のいずれかを基準として、各文字グループ共通のｙ方向の座標位置を決定する前項１に記載の画像形成装置。
（３）前記フォントサイズは、各行において、その行に含まれる文字の最大高さ、最小高さ及び平均高さのうちのいずれかに対応するサイズである前項１または２に記載の画像形成装置。
（４）各行において、一定以上大きいまたは小さい特殊サイズ文字が含まれている場合、前記文字列区切り手段は、前記特殊サイズ文字を１文字の文字グループとして区切り、前記フォントサイズ決定手段は、前記特殊サイズ文字を除外して行単位のフォントサイズを決定するとともに、前記特殊サイズ文字についてはその高さサイズに相当するフォントサイズを前記特殊サイズ文字のフォントサイズとして決定する前項１〜３のいずれかに記載の画像形成装置。
（６）前記文字列区切り手段は、カンマ、ドット、スペースの少なくともいずれかに基づいて、各行の文字列を複数の文字グループに区切る前項１〜５のいずれかに記載の画像形成装置。
（７）前記文字列区切り手段は、Ｎ（Ｎは１以上の整数）文字毎に、各行の文字列を複数の文字グループに区切る前項１〜５のいずれかに記載の画像形成装置。
（８）前記Ｎの値を、ファイルサイズを優先する場合の大きな値と、テキストデータの埋め込み位置の精度を優先する場合の小さい値との間で切り替える切替手段を備えている前項７に記載の画像形成装置。
（９）前記Ｎの値を、前記読み取り手段の画像読み取りに対する指定解像度が高解像度である場合の小さな値と、低解像度である場合の大きな値との間で切り替える切替手段を備えている前項７に記載の画像形成装置。
（１０）画像形成装置で実行されるテキストデータの埋め込み方法であって、画像を読み取る読み取りステップと、前記画像読み取りステップにより読み取られた画像に対して文字認識処理を行う文字認識ステップと、前記文字認識処理により認識された各行に含まれる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る文字列区切りステップと、前記各行の行単位で一定のフォントサイズを決定するフォントサイズ決定ステップと、文字列方向をｘ方向としたときに、前記文字列区切りステップにより区切られた前記複数の文字グループのそれぞれにおいて、前記文字認識処理により認識された先頭の文字の前記ｘ方向の座標位置を基準としてｘ方向の埋め込み位置を決定する埋め込み位置決定ステップと、前記埋め込み位置決定ステップにより決定されたｘ方向の埋め込み位置において、前記フォントサイズ決定ステップにより決定されたフォントサイズにて、各文字グループのテキストデータを画像ファイルに埋め込む埋め込みステップと、を備えたことを特徴とするテキストデータの埋め込み方法。
（１１）画像を読み取る読み取りステップと、前記画像読み取りステップにより読み取られた画像に対して文字認識処理を行う文字認識ステップと、前記文字認識処理により認識された各行に含まれる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る文字列区切りステップと、前記各行の行単位で一定のフォントサイズを決定するフォントサイズ決定ステップと、文字列方向をｘ方向としたときに、前記文字列区切りステップにより区切られた前記複数の文字グループのそれぞれにおいて、前記文字認識処理により認識された先頭の文字の前記ｘ方向の座標位置を基準としてｘ方向の埋め込み位置を決定する埋め込み位置決定ステップと、前記埋め込み位置決定ステップにより決定されたｘ方向の埋め込み位置において、前記フォントサイズ決定ステップにより決定されたフォントサイズにて、各文字グループのテキストデータを画像ファイルに埋め込む埋め込みステップと、を画像形成装置のコンピュータに実行させるためのテキストデータの埋め込みプログラム。

前項（１）に記載の発明によれば、読み取り手段で読み取られた画像に対して文字認識処理が行われるとともに、文字認識処理により認識された各行に含まれる文字列が、行毎に、予め設定された規則に従って複数の文字グループに区切られる。一方、各行の行単位で一定のフォントサイズが決定される。また、文字列方向をｘ方向としたときに、前記区切られた複数の文字グループのそれぞれにおいて、先頭の文字のｘ方向の座標位置を基準としてｘ方向の埋め込み位置が決定され、この決定されたｘ方向の埋め込み位置において、前記決定されたフォントサイズにて、各文字グループのテキストデータが画像ファイルに埋め込まれる。

つまり、フォントサイズは文字グループ毎ではなく行単位で決定されるから、異なる文字グループであっても文字のフォントサイズは一行の中で統一される。このため、画像ファイルに埋め込まれた文字列の検索が行われた場合に、抽出された文字列において文字部分と文字以外の部分が反転表示されても、各文字グループ間で反転表示部分に凹凸が生じることはなく、ユーザーにとって見やすい状態となる。

もちろん、各行における文字画像とテキストデータの文字とのｘ方向の位置ずれは、各文字グループにおける先頭の文字のｘ方向の座標位置を基準として、各文字グループのテキストデータが埋め込まれることにより、抑制することができる。

前項（２）に記載の発明によれば、文字列方向と直交する方向をｙ方向とし、文字グループに含まれる文字の最大高さで文字グループの高さを規定したとき、各行において、最大高さを有する文字グループのｙ方向の座標位置、最小高さを有する文字グループのｙ方向の座標位置、各文字グループのｙ方向の座標位置の平均値、行の先頭の文字グループのｙ方向の座標位置のいずれかを基準として、各文字グループ共通のｙ方向の座標位置が決定されるから、ｙ方向においても文字画像との位置ずれを少なくすることができるとともに、ｙ方向の埋め込み位置の相違に起因する反転表示時の凹凸を防止でき、より見栄えの良い反転表示状態を実現できる。

前項（３）に記載の発明によれば、フォントサイズは、各行において、その行に含まれる文字の最大高さ、最小高さ及び平均高さのうちのいずれかに対応するサイズに決定されるから、容易にフォントサイズを決定することができる。

前項（４）に記載の発明によれば、各行において、一定以上大きいまたは小さい特殊サイズ文字が含まれている場合、前記特殊サイズ文字は１文字の文字グループとして区切られ、特殊サイズ文字を除外して行単位のフォントサイズが決定されるとともに、特殊サイズ文字についてはその文字高さに対応するフォントサイズがその特殊サイズ文字のフォントサイズとして決定されるから、特殊サイズ文字がその行のフォントサイズの決定に与える影響を軽減でき、行全体で文字が巨大化するといった不都合を防止できる。

前項（５）に記載の発明によれば、各行において、一定以上大きいまたは小さい特殊サイズ文字が含まれている場合、各文字グループ毎にフォントサイズが決定されるから、例えば特殊サイズ文字が複数存在するような場合に、これらの特殊サイズ文字に影響を受けてフォントサイズが巨大化することによる大きな検索位置のずれ等の発生を防止できる。

前項（６）に記載の発明によれば、カンマ、ドット、スペースの少なくともいずれかに基づいて、各行の文字列が複数の文字グループに区切られるから、例えば英語系の言語文字に対して有効な区切りを行うことができる。

前項（７）に記載の発明によれば、Ｎ（Ｎは１以上の整数）文字毎に、各行の文字列が複数の文字グループに区切られるから、カンマ、ドット、スペースの使用頻度の少ない日本語等の言語文字に対して有効な区切りを行うことができる。

前項（８）に記載の発明によれば、前記Ｎの値を、ファイルサイズを優先する場合の大きな値と、テキストデータの埋め込み位置の精度を優先する場合の小さい値との間で切り替えることができる。

前項（９）に記載の発明によれば、前記Ｎの値を、前記読み取り手段の画像読み取りに対する指定解像度が高解像度である場合の小さな値と、低解像度である場合の大きな値との間で切り替えることができる。

前項（１０）に記載の発明によれば、画像ファイルに埋め込まれた文字列の検索が行われた場合に、抽出された文字列において文字部分と文字以外の部分が反転表示されても、各文字グループ間で反転表示部分に凹凸が生じることはなく、ユーザーにとって見やすい状態を実現できる。

前項（１１）に記載の発明によれば、画像ファイルに埋め込まれた文字列の検索が行われた場合に、抽出された文字列において文字部分と文字以外の部分が反転表示されても、各文字グループ間で反転表示部分に凹凸が生じることはなく、ユーザーにとって見やすい状態を実現できる処理を、画像形成装置のコンピュータに実行させることができる。

この発明の一実施形態に係る画像形成装置の基本構成を示すブロック図である。従来の埋め込み処理と本発明の実施形態に係る埋め込み処理の相違を説明するための図である。認識処理により認識されたテキストデータの文字列を複数の文字グループに区切った状態を示す図である。本発明の実施形態に係る処理方法で処理した文字グループの文字領域を示す図である。従来の処理結果と本発明の実施形態に係る処理結果を示す表である。この発明の他の実施形態を説明するための図である。この発明のさらに他の実施形態を説明するための図である。図１の画像形成装置の動作を示すフローチャートである。

以下、この発明の実施形態を図面に基づいて説明する。

図１は、この発明の一実施形態に係る画像形成装置１の基本構成を示すブロック図である。この実施形態では、画像形成装置として、コピー機能、プリンタ機能、スキャン機能等を備えた前述のＭＦＰが用いられている。

画像形成装置１は、ＣＰＵ１１と、ＲＯＭ１２と、ＲＡＭ１３と、スキャナ部１４と、記憶部１５と、プリンタ部１６と、操作パネル１７と、ネットワークコントローラ（Ｎ１Ｃ）１８と、文字認識処理部１９等を備えている。

前記ＣＰＵ１１は、画像形成装置１の全体を統括制御し、コピー機能、プリンタ機能、スキャン機能、ファクシミリ機能等の基本機能を使用可能に制御する。また、スキャナ部１４で読み取った原稿の画像に文字認識処理部１９による文字認識処理を施して文字画像をテキストデータ化し、このテキストデータを読み取った画像のファイルに埋め込み、ＰＤＦ等のファイルに変換してユーザーの端末装置等に送信したり、記憶部１５に保存する等の処理を行うが、詳細は後述する。

前記ＲＯＭ１２は、ＣＰＵ１１の動作プログラム等を格納するメモリである。

前記ＲＡＭ１３は、ＣＰＵ１１が動作プログラムに基づいて動作する際の作業領域を提供するメモリである。

前記スキャナ部１４は、原稿台（図示せず）に置かれた原稿の画像を読み取り、画像データに変換する読み取り手段である。

前記記憶部１５は、例えばハードディスクドライブ（ＨＤＤ）などの不揮発性の記憶デバイスにより構成されており、スキャナ部２４で読み取られた原稿の画像データや、他の画像形成装置あるいはユーザー端末等から送信されてきたデータ、各種のアプリケーション等が記憶されている。

前記プリンタ部１６は、前記スキャナ部１４で読み取られた原稿の画像データやユーザ端末からのプリントデータ等を、指示されたモードに従って印刷するものである。

前記操作パネル１７は、各種入力操作等のために使用されるものであり、メッセージや操作画面等を表示するタッチパネル式液晶等からなる表示部と、テンキー、スタートキー、ストップキー等を備えたキー入力部を備えている。

前記ネットワークコントローラ１８は、ネットワーク上の他の画像形成装置や、その他の外部機器例えばユーザー端末等との間での通信を制御することにより、データの送受信を行うものである。

前記文字認識処理部１９は、スキャナ部１４で読み取られた原稿の画像に対して文字認識処理を行い、文字画像をテキストデータに変換する処理を行う。この文字認識処理部１９は、ＣＰＵ１１の機能の一部として構成される。

次に、画像形成装置１で実行される、この発明の一実施形態に係るテキストデータの埋め込み方法について説明する。

まず、文字を含む原稿をスキャナ部１４で読み取るとともに、読み取った原稿の画像データを文字認識処理部１９で文字認識処理し、文字画像をテキストデータに変換する。

次いで、ＣＰＵ１１は各行に含まれるテキストデータからなる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る。この例では、文字が「well over a million」という英語系文字であり、スペースを区切りとして文字列を複数の文字グループに区切る場合について説明する。なお、英語系文字をスペースで区切るのではなく、カンマやドットに基づいて区切る構成であっても良く、スペース、カンマ、ドットの少なくともいずれかを用いて区切られるのが望ましい。

文字認識処理部１９からは文字認識処理の結果として、図３の破線に示すように１文字単位の外接矩形１０１を正確に切り出した座標位置と、それぞれのテキストコードが出力される。このようなテキストコードからスペースを検出し、スペースが発見さたところまでを１つの文字グループとして扱うことで、「well」「over」「a」「million」というワード単位の複数（この例では４個）の文字グループ２０１〜２０４が生成される。カンマやドットに基づいて区切る場合も同様である。

文字認識処理ではフォントサイズまでは情報として出力されないため、従来では、各文字グループ２０１〜２０４において、切り出された外接矩形２２１〜２２４の高さ、換言すれば各文字グループ２０１〜２０４の中の文字の最大高さに対応するフォントサイズを、各文字グループ２０１〜２０４のフォントサイズとして決定していた。なお、前記外接矩形２２１〜２２４は各文字グループ２０１〜２０４にそれぞれ含まれる文字の外接矩形１０１に外接するものであって各文字グループ２０１〜２０４の文字領域の範囲であり、文字列の検索抽出時にはこの文字領域が反転表示されるものである。

そして、図５（Ａ）に示すように文字列方向（文字の幅方向）をｘ方向としたときに、前記区切られた複数の文字グループ２０１〜２０４のそれぞれにおいて、文字認識処理により認識された先頭の文字のｘ方向の基準座標位置を基準として、ｘ方向の埋め込み位置を決定し、この決定された位置において、各文字グループのテキストデータを各文字グループ毎に決定されたフォントサイズにて画像ファイルに埋め込んでいた。

一例を挙げると、図３に示すように、各文字グループ２０１〜２０４における先頭の文字「ｗ」「ｏ」「ａ」「ｍ」の外接矩形１０１の左上角部を各先頭文字の基準座標位置１０１ａ〜１０４ａとし、各文字グループ２０１〜２０４の外接矩形２２１〜２２４の矩形切り出しの開始位置となる左上角部を各文字グループ２０１〜２０４の第１の基準座標位置２２１ａ〜２２４ａとすると、各文字グループ２０１〜２０４の第１の基準座標位置２２１ａ〜２２４ａのｘ座標が、各先頭文字の基準座標位置１０１ａ〜１０４ａのｘ座標にそれぞれ一致するように、テキストデータを埋め込んでいた。

また、図５（Ａ）に示すように文字列方向と垂直な方向（文字の高さ方向）をｙ方向としたとき、埋め込みを行うｙ方向の位置も各文字グループ毎に決定されていた。

しかし、各文字グループ２０１〜２０４単位でフォントサイズを決定すると、各文字グループ２０１〜２０４でフォントサイズが異なってしまい、外接矩形２２１〜２２４の高さがばらつくため、ファイルの文字検索が行われ反転表示されたときに、図２（Ｃ）に示すように、各文字グループ間で高さに凹凸が発生して見づらくなる。また、ｙ方向の埋め込み位置についても各文字グループ毎に決定されていたため、各文字グループ間でｙ方向の位置ずれも発生する恐れがあり、文字検索による反転表示時の凹凸の発生がさらに助長される恐れがあった。

そこで、この実施形態では、フォントサイズの決定については１行全体の文宇列を１つの文字グループとして捉え、１行全体で共通のフォントサイズを決定する。

フォントサイズの決定方法として、この実施形態では、１行全体の文字の中の最大高さに対応するフォントサイズを共通のフォントサイズとしているが、最小高さを採用しても良いし、各文字の平均高さを採用しても良い。このような方法でフォントサイズを決定することにより、フォントサイズの決定が容易となるが、フォントサイズの決定方法はこれらに限定されることはない。

このように、フォントサイズについては１行単位で統一されたフォントサイズを採用するため、図４に示すように、埋め込まれる各文字グループ２０１〜２０４の矩形の文字領域２３１〜２３４の高さは同じになる。その結果、図２（Ｄ）に示すように、文字検索時に該当する文字列が文字領域２３１〜２３４において白黒反転表示されても、フォントサイズの相違に起因する高さ方向の凹凸は解消され、見やすくなる。

また、決定されたフォントサイズによるテキストデータの埋め込み位置は、ｘ方向については、図４に示すように、各文字グループ２０１〜２０４の矩形の文字領域２３１〜２３４の左上角部を、各文字グループ２０１〜２０４の第２の基準座標位置２３１ａ〜２３４ａとすると、これら第２の基準座標位置２３１ａ〜２３４ａのｘ座標が、各文字グループ２０１〜２０４における先頭の文字「ｗ」「ｏ」「ａ」「ｍ」の基準座標位置１０１ａ〜１０４ａ（図３に示す）のｘ座標にそれぞれ一致するように、決定する。

このような処理により、ｘ方向において文字画像と埋め込まれるテキストデータとの位置ずれを防止しつつ、文字検索による反転表示時の各文字グループ間での凹凸をなくすことができる。

また、ｙ方向についてのテキストデータの埋め込み位置は、文字画像と重複する位置であれば良いが、この実施形態では次のようにして決定している。即ち、各文字グループ２０１〜２０４に含まれる文字の最大高さで文字グループ２０１〜２０４の高さを規定したとき、最大高さを有する文字グループのｙ方向の基準座標位置を、各文字グループ共通のｙ方向の基準座標位置として決定している。

具体的には、文字グループ２０１〜２０４における文字の最大高さが反映された図３に示す外接矩形２２１〜２２４のうち、最大高さを有する外接矩形例えば外接矩形２２４の第１の基準座標位置２２４ａのｙ座標を、各文字グループ２０１〜２０４の共通のｙ座標として決定し、埋め込まれる各文字グループ２０１〜２０４の第２の基準座標位置２３１ａ〜２３４ａのｙ座標が、前記共通のｙ座標に一致するように埋め込む。

このような処理により、ｙ方向においても文字画像と埋め込まれるテキストデータとの位置ずれを可及的に防止できる。しかも各文字グループ２０１〜２０４のｙ方向の位置が行単位で統一されるから、文字検索による反転表示時に、各文字グループ間でｙ方向の位置が異なることによる凹凸をも解消することができ、より一層見やすい状態となる。

なお、この実施形態では、各文字グループ共通のｙ方向の座標位置を、最大高さを有する文字グループ２０４のｙ方向の座標位置を基に決定したが、各文字グループ共通のｙ座標として、最小高さの文字グループ２０３の第１の基準座標位置２２３ａのｙ座標を採用しても良いし、各文字グループ２０１〜２０４の第１の基準座標位置２２１ａ〜２２３ａのｙ座標の平均値を採用しても良いし、行の先頭の文字グループ２０１の第１の基準座標位置２２１ａのｙ座標を採用しても良い。

以上の処理は各行について行われる。上記処理により決定された各文字グループのフォントサイズと基準座標位置の一例を図５（Ｂ）に示す。

図５（Ｂ）の表から理解されるように、従来処理ではフォントサイズ（文字サイズ）及びｙ方向の位置が、各文字グループ毎の算出結果により設定されているが、本実施形態では、フォントサイズ及びｙ方向の位置が行単位で統一されることになる。

ところで、文字認識処理結果により得られた１行の文字列の中で、いくつかの文字のフォントサイズが特に大きい場合がある。例えば、図６（Ａ）に示す「Ｗｅｌｌ」のように、先頭の文字「Ｗ」を大きくした書き出しは、英語の雑誌などでよく利用される。この場合、一行中の文字の最大高さを基にフォントサイズを決定すると、他の文字のサイズも徒に大きくなり、文字画像と大きく位置ずれを起こす恐れがある。逆に、いくつかの文字のフォントサイズが特に小さい場合は、一行中の最小高さを基にフォントサイズを決定すると、他の文字のサイズも徒に小さくなり、文字画像と大きく位置ずれを起こす恐れがある。

そこで、この実施形態では、一行中に、各文字に対してある一定以上大きなもしくは小さな特殊サイズ文字が存在した場合、特殊サイズ文字を１文字の文字グループとして区切るとともに、特殊サイズ文字を除外して行単位のフォントサイズを決定するものとする。また、前記特殊サイズ文字についてはその高さを基にフォントサイズを決定する。

例えば、図６（Ａ）の文字列において「Ｗ」が特殊サイズ文字であるとすると、図６（Ｂ）に示すように、「Ｗ」を１つの文字グループ３０１とし、「Ｗ」を除外して「ell」「over」「a」「million」という４個の文字グループ３０２〜３０５に区切る。

そして、特殊サイズ文字「Ｗ」を除外し、「ell」「over」「a」「million」について行単位のフォントサイズを決定し、さらに各文字グループ３０１〜３０５を埋め込む座標位置を決定する。フォントサイズ及び座標位置の決定方法については、図２〜図４で説明した特殊サイズ文字を含まない場合のフォントサイズ及び座標位置の決定方法と同様にして行えばよい。

特殊サイズ文字である「Ｗ」については、その文字の高さを基にフォントサイズを決定すればよい。

このような処理を行ったテキストデータを図６（Ｂ）に示す。この例では、特殊サイズ文字「Ｗ」の文字グループ３０１を除いて、各文字グループ３０２〜３０５のフォントサイズが統一されているから、各文字グループ３０２〜３０５の文字領域３１２〜３１５に高さ方向の凹凸がなく、従って文字検索による反転表示時にも凹凸がなく見栄えの良いものとなる。

また、特殊サイズ文字が発生しうる場所は先頭とは限らないし、１文宇だけとも限らない。特に複数発生した場合は、どの文字が同じ文字グループに属するか等を判断することは容易でなく、制御が複雑になる。

そこで、特殊サイズ文字を含む場合の他の処理例として、「Ｗ」を１つの文字グループ３０１とし、「Ｗ」を除外して「ell」「over」「a」「million」という４個の文字グループ３０２〜３０５に区切ったのち、各文字グループ３０１〜３０５毎にフォントサイズと座標位置を決定する処理を行っても良い。この場合は、図６（Ｃ）に示すように、各文字グループ３０１〜３０５の文字表示領域３２１〜３２５に高さ方向の凹凸が発生するが、文字が巨大化、または極小化することによる大きな検索位置のずれは防止される。

なお、「Ｗ」を除外することなく「Ｗell」を１つの文字グループとし、各文字グループ毎にフォントサイズと座標位置を決定する構成であっても良い。

こうして、テキストデータが埋め込まれたファイルは、ＰＤＦやその他のファイル形式に変換されて例えばユーザー端末に送信され、あるいは記憶部１５に記憶される。埋め込まれたテキストデータによりユーザーは画像ファイルに対する文字検索が可能となる。

以上の実施形態では、文字が英語系文字であり、スペース、カンマ、ドット等に基づいて複数の文字グループに区切る場合を説明した。

しかし、日本語などではスペース、カンマ、ドット等の使用頻度は少ないため、スペース、カンマ、ドット等に基づいて文字列を区切ることは実用的でない。

そこで、日本語等の場合には、文字列をＮ個の文字毎に区切って複数個の文字グループを形成しても良い。Ｎの値は１以上の整数であればよい。

Ｎ文字毎に文字列を区切る場合の一例を図７に示す。図７の例はＮ＝３の場合を示しており、「新しい価値の創造」という文字列が「新しい」「価値の」「創造」という３個の文字グループ４０１〜４０３に区切られている。

そして、３個の文字グループ４０１〜４０３に共通するフォントサイズを決定する。この実施形態では、文字認識処理の結果から得られた、１行全体の文字の中の最大高さに対応するフォントサイズを共通のフォントサイズとしている。なお、最小高さを採用しても良いし、各文字の平均高さを採用しても良い。

このように、１行単位で統一されたフォントサイズを採用するため、埋め込まれる各文字グループ４０１〜４０３の矩形の文字領域４１１〜４１３の高さは同じになる。その結果、文字検索時に該当する文字列が文字領域４１１〜４１３において白黒反転表示されても、フォントサイズの相違に起因する高さ方向の凹凸は解消され、見やすくなる。

また、３個の文字グループ４０１〜４０３のｘ方向の埋め込み位置は、各文字グループ４０１〜４０３の矩形の文字領域４１１〜４１３の左上角部を、各文字グループ４０１〜４０３の第３の基準座標位置４１１ａ〜４１３ａとすると、これら第３の基準座標位置４１１ａ〜４１３ａのｘ座標が、各文字グループ４０１〜４０３における先頭の文字「新」「価」「創」の基準座標位置１１１ａ〜１１３ａのｘ座標にそれぞれ一致するように、決定する。

このような処理により、ｘ方向において文字画像と埋め込まれるテキストデータとの位置ずれを防止しつつ、文字検索による反転表示時の凹凸をなくすことができる。

また、３個の文字グループ４０１〜４０３のｙ方向の埋め込み位置については、文字グループに含まれる文字の最大高さで文字グループの高さを規定したとき、各文字グループ４０１〜４０３のうち最大高さを有する文字グループのｙ方向の基準座標位置を、各文字グループ４０１〜４０３におけるｙ方向の共通の基準座標位置としている。つまり、各文字グループ４０１〜４０３における第３の基準座標位置４１１ａ〜４１３ａのｙ座標が、共通の基準座標位置のｙ座標に一致するように、埋め込みを行う。

このような処理により、ｙ方向において文字画像と埋め込まれるテキストデータとの位置ずれを防止でき、しかも各文字グループ４０１〜４０３のｙ方向の位置が行単位で統一されるから、文字検索による反転表示時に、各文字グループのｙ方向の位置がばらつくことによる凹凸をも解消することができ、より一層見やすい状態となる。

なお、各文字グループ共通のｙ方向の座標位置を、最大高さを有する文字グループのｙ方向の座標位置を基に決定したが、最小高さの文字グループの座標位置や、各文字グループ３０１〜３０３の平均座標位置や、行の先頭の文字グループ３０１の座標位置を基に決定しても良い。

前述したようにＮの値は１以上の整数であればよいが、Nの値を小さくして文字の区切りの単位を小さくすると、テキストデータの埋め込み時に記述するデータ量が増えるため、結果的にファイルサイズが増加してしまう。逆にＮの値が大きくなると１つの文字グループが長くなることから座標の位置ずれが発生しやすくなる。ファイルサイズを優先する場合はＮを大きい値とし、埋め込む文字の位置精度を優先する場合はＮを小さい値としても良い。Ｎを何れの値に設定するかは、ファイルサイズ優先／位置精度優先の切替スイッチを設けてユーザに選択させても良いし、ユーザーにより一般的なＰＤＦファイルの作成が指定された時には位置精度優先と判断してＮを小さい値に設定し、コンパクトＰＤＦファイルの作成が指定された場合はファイルサイズ優先と判断して、Ｎを大きい値に切り替えても良い。

また、スキャナ部１４による原稿の読み取り時に指定された解像度が高解像度（例えば４００ｄｐｉあるいは６００ｄｐｉ）の場合はＮの値を小さい値に設定し、低解像度の場合は大きい値に切り替えても良い。

これらの切り替えによって、ユーザーのニーズに応じて最適な文字区切りが得られる。

図８は、画像形成装置１によって実行されるテキストテータ埋め込み処理を示すフローチャートである。この処理は、ＣＰＵ１１がＲＯＭ１２等の記録媒体に記録された動作プログラムに従って動作することにより実行される。

ステップＳ０１では、文字認識処理部１９による文字認識処理結果に基づき、各文字の文字コードと座標位置を受け取り、ステップＳ０２で、英語系言語の文字かどうかを判断する。英語系言語の文字かどうかは、全角文字か半角文字かを調べ、半角文字であれば英語系言語の文字と判断すればよい。

英語系言語の文字であれば（ステップＳ０２でＹＥＳ）、ステップＳ０３で、スペース、カンマ、ドットの少なくともいずれかの単位で文字列を区切ったのち、ステップＳ０９に進む。英語系言語の文字でなければ（ステップＳ０２でＮＯ）、ステップＳ０４で、ファイルサイズ優先の設定かどうかを調べ、ファイルサイズ優先の設定であれば（ステップＳ０４でＹＥＳ）、ステップＳ０５で、コンパクトＰＤＦが設定されているかどうかを調べる。

コンパクトＰＤＦが設定されていれば（ステップＳ０５でＹＥＳ）、ステップＳ０６で、低解像度の設定かどうかを判断し、低解像度の設定であれば（ステップＳ０６でＹＥＳ）、ステップＳ０７で、Ｎを大きい値に設定してＮ文字単位で文字を区切ったのち、ステップＳ０９に進む。

ステップＳ０４でファイルサイズ優先の設定でない場合（ステップＳ０４でＮＯ）、ステップＳ０５でコンパクトＰＤＦが設定されていない場合（ステップＳ０５でＮＯ）、ステップＳ０６で低解像度の設定でない場合（ステップＳ０６でＮＯ）は、何れもステップＳ０８に進み、Ｎを小さい値に設定してＮ文字単位で文字を区切ったのち、ステップＳ０９に進む。

ステップＳ０９では、全ての文字列グループについて、各文字グループ毎に、１つ前の文字グループのフォントサイズ（最大フォントサイズ）に対してフォントサイズ（最大フォントサイズ）がＡ倍以下かどうかを判断する。つまり、サイズの極めて大きな特殊サイズ文字が含まれているかどうかを判断する。なお、サイズの極めて小さな特殊サイズ文字が含まれているかどうかをも判断しても良い。また、その行の先頭の文字グループについてはその行の最後の文字グループと比較すればよい。また、各文字毎に１つ前の文字とのサイズを比較しても良い。

全ての文字グループにおいてフォントサイズがＡ倍以下であれば（ステップＳ１０でＹＥＳ）、特殊サイズ文字は含まれていないから、ステップＳ１０で、１行単位で決定したフォントサイズを各文字グループの共通のフォントサイズとし、各文字グループのｘ方向の座標位置と、各グループ共通のｙ方向の座標位置を決定する。そして、決定に従いテキストデータを画像ファイルに埋め込む。

フォントサイズがＡ倍以下でなければ（ステップＳ１０でＮＯ）、特殊サイズ文字が含まれているから、ステップＳ１１で、各文字グループ単位でフォントサイズ及び座標位置を決定し、決定に従いテキストデータを画像ファイルに埋め込む。なお、フォントサイズがＡ倍以下でない場合、この特殊サイズ文字を除外して、各文字グループ共通のフォントサイズを決定しても良い。

１画像形成装置
１１ＣＰＵ
１２ＲＯＭ
１４スキャナ部
１５記憶部
１７操作パネル
１８ネットワークコントローラ
１９文字認識部
１００文字画像
１０１各文字の外接矩形
１０１ａ〜１０４ａ基準座標位置
２００埋め込み文字
２０１〜２０４文字グループ
２２１〜２２４文字グループの外接矩形
２２１ａ〜２２４ａ第１の基準座標位置
２３１〜２３４文字領域
２１３ａ〜２３４ａ第２の基準座標位置
４１１〜４１３文字領域
４１１ａ〜４１３ａ第３の基準座標位置

Claims

画像を読み取る読み取り手段と、
前記読み取り手段で読み取られた画像に対して文字認識処理を行う文字認識手段と、
前記文字認識処理により認識された各行に含まれる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る文字列区切り手段と、
前記各行の行単位で一定のフォントサイズを決定するフォントサイズ決定手段と、
文字列方向をｘ方向としたときに、前記文字列区切り手段により区切られた前記複数の文字グループのそれぞれにおいて、前記文字認識処理により認識された先頭の文字の前記ｘ方向の座標位置を基準としてｘ方向の埋め込み位置を決定する埋め込み位置決定手段と、
前記埋め込み位置決定手段により決定されたｘ方向の埋め込み位置において、前記フォントサイズ決定手段により決定されたフォントサイズにて、各文字グループのテキストデータを画像ファイルに埋め込む埋め込み手段と、
を備えたことを特徴とする画像形成装置。
文字列方向と直交する方向をｙ方向とし、前記文字グループに含まれる文字の最大高さで文字グループの高さを規定したとき、前記埋め込み位置決定手段は、各行において、最大高さを有する文字グループのｙ方向の座標位置、最小高さを有する文字グループのｙ方向の座標位置、各文字グループのｙ方向の座標位置の平均値、行の先頭の文字グループのｙ方向の座標位置のいずれかを基準として、各文字グループ共通のｙ方向の座標位置を決定する請求項１に記載の画像形成装置。
前記フォントサイズは、各行において、その行に含まれる文字の最大高さ、最小高さ及び平均高さのうちのいずれかに対応するサイズである請求項１または２に記載の画像形成装置。
各行において、一定以上大きいまたは小さい特殊サイズ文字が含まれている場合、前記文字列区切り手段は、前記特殊サイズ文字を１文字の文字グループとして区切り、前記フォントサイズ決定手段は、前記特殊サイズ文字を除外して行単位のフォントサイズを決定するとともに、前記特殊サイズ文字についてはその高さサイズに相当するフォントサイズを前記特殊サイズ文字のフォントサイズとして決定する請求項１〜３のいずれかに記載の画像形成装置。
各行において、一定以上大きいまたは小さい特殊サイズ文字が含まれている場合、前記フォントサイズ決定手段は、各文字グループ毎にフォントサイズを決定する請求項１〜３のいずれかに記載の画像形成装置。
前記文字列区切り手段は、カンマ、ドット、スペースの少なくともいずれかに基づいて、各行の文字列を複数の文字グループに区切る請求項１〜５のいずれかに記載の画像形成装置。
前記文字列区切り手段は、Ｎ（Ｎは１以上の整数）文字毎に、各行の文字列を複数の文字グループに区切る請求項１〜５のいずれかに記載の画像形成装置。
前記Ｎの値を、ファイルサイズを優先する場合の大きな値と、テキストデータの埋め込み位置の精度を優先する場合の小さい値との間で切り替える切替手段を備えている請求項７に記載の画像形成装置。
前記Ｎの値を、前記読み取り手段の画像読み取りに対する指定解像度が高解像度である場合の小さな値と、低解像度である場合の大きな値との間で切り替える切替手段を備えている請求項７に記載の画像形成装置。
画像形成装置で実行されるテキストデータの埋め込み方法であって、
画像を読み取る読み取りステップと、
前記画像読み取りステップにより読み取られた画像に対して文字認識処理を行う文字認識ステップと、
前記文字認識処理により認識された各行に含まれる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る文字列区切りステップと、
前記各行の行単位で一定のフォントサイズを決定するフォントサイズ決定ステップと、
文字列方向をｘ方向としたときに、前記文字列区切りステップにより区切られた前記複数の文字グループのそれぞれにおいて、前記文字認識処理により認識された先頭の文字の前記ｘ方向の座標位置を基準としてｘ方向の埋め込み位置を決定する埋め込み位置決定ステップと、
前記埋め込み位置決定ステップにより決定されたｘ方向の埋め込み位置において、前記フォントサイズ決定ステップにより決定されたフォントサイズにて、各文字グループのテキストデータを画像ファイルに埋め込む埋め込みステップと、
を備えたことを特徴とするテキストデータの埋め込み方法。
画像を読み取る読み取りステップと、
前記画像読み取りステップにより読み取られた画像に対して文字認識処理を行う文字認識ステップと、
前記文字認識処理により認識された各行に含まれる文字列を、行毎に、予め設定された規則に従って複数の文字グループに区切る文字列区切りステップと、
前記各行の行単位で一定のフォントサイズを決定するフォントサイズ決定ステップと、
文字列方向をｘ方向としたときに、前記文字列区切りステップにより区切られた前記複数の文字グループのそれぞれにおいて、前記文字認識処理により認識された先頭の文字の前記ｘ方向の座標位置を基準としてｘ方向の埋め込み位置を決定する埋め込み位置決定ステップと、
前記埋め込み位置決定ステップにより決定されたｘ方向の埋め込み位置において、前記フォントサイズ決定ステップにより決定されたフォントサイズにて、各文字グループのテキストデータを画像ファイルに埋め込む埋め込みステップと、
を画像形成装置のコンピュータに実行させるためのテキストデータの埋め込みプログラム。