JP6432179B2

JP6432179B2 - 文書ファイル生成装置及び文書ファイル生成方法

Info

Publication number: JP6432179B2
Application number: JP2014130606A
Authority: JP
Inventors: 元規平塚
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2018-12-05
Anticipated expiration: 2034-06-25
Also published as: JP2016009395A

Description

本発明は、文字認識によって得られる原稿の文字画像をデータ化し、たとえばＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）形式などの文書ファイルを生成する文書ファイル生成装置及び文書ファイル生成方法に関する。

電子書類の規格の一種としてＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）形式がある。ＰＤＦ形式のファイル（以下、「ＰＤＦファイル」という）には、文書内で用いられるフォント情報をそのＰＦＤファイル自体に埋め込んでおくことができる。そのため、フォントを埋め込んだＰＦＤファイルは、それを作成した環境以外でも、文書に埋め込まれたフォントを用いて作成者の意図通りに描画（表示あるいは印刷）することができる。

また、ＰＤＦでは、文書を電子化するに際してファイルサイズを抑えるために、高圧縮方式が用いられている。これは、画像に含まれる文字や図形といったオブジェクト毎に文字層や画層の画像層（画像レイヤ）で識別し、それぞれの文字層や画層の画像レイヤに含まれるオブジェクトに応じて画像処理や画像圧縮が行われるようにしたものである。これにより、高画質と高圧縮とが同時に達成されるようになっている。

ところで、ＰＤＦで描画される、たとえば文字画像を細かく綺麗に描画させる手段の一つとして、文字画像のベクトル化が挙げられる。ところが、文字画像をベクトル化すると、ベクトル化したフォントデータの描画処理をＰＤＦファイル上に記載する必要があり、テキストデータに対して大きくなってしまう。

このような不具合を解消する場合、たとえば特許文献１に示されている文書作成方法を適用することが考えられる。すなわち、特許文献１では、フォントを文書ファイルに埋め込むか否かの基準となるフォント名及びポイント数（すなわちサイズ）の閾値をテーブルとして入力し、処理対象の元データからその中で使用されているフォント名とポイント数とを獲得し、元データ内で使用されているフォント名がテーブル中に登録されていれば、その元データ中におけるポイント数とテーブル中のポイント数閾値とを比較し、閾値よりも大きいポイントの文字があれば、そのフォントを埋め込むものと決定するようにした文書作成方法を提案している。

特開２００５−０６３０５２

上述した特許文献１では、フォント情報を含むことのできる文書情報を作成する際に、フォントの名前のみならず、フォントのポイント数（すなわちサイズ）にも着目するようにしているため、作成される文書ファイルのサイズの縮小が可能となっている。

ところが、フォント毎にポイント数などを持たせるようにすると、フォント毎のパターンが必要となり、登録されるフォント数が多くなるに従い、ファイルサイズが大きくなってしまうという問題があった。

本発明は、このような状況に鑑みてなされたものであり、ファイルサイズを増大させることなく、画像を細かく綺麗に描画するための文字画像のベクトル化を容易にかつ確実に行うことができる文書ファイル生成装置及び文書ファイル生成方法を提供することを目的とする。

本発明の文書ファイル生成装置は、制御部とスキャナー部とを備えた文書ファイル生成装置であって、前記制御部は、原稿の文字が前記スキャナー部によって読み取られた文字画像のＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ（ＯＣＲ）を行う画像認識手段と、前記画像認識手段によって認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンターと、前記カウンターにより登録されたそれぞれの前記文字画像をベクトル化するベクトル化手段と、前記カウンターにより登録されたそれぞれの前記文字画像に対して、前記ベクトル化手段によりベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理手段とを有し、前記ＯＣＲで得られるＯＣＲ情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、前記ＯＣＲ情報は、認識順に登録され、前記ベクトル化手段は、前記画像認識手段によって認識され、前記カウンターにより文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するＸ座標を、前記ＯＣＲ情報から検索し、前記文字画像の前記ＯＣＲ情報の前記Ｘ座標と、前記ベクトルデータの描画開始位置のＸ座標とが一致した前記文字画像について、一致した前記文字画像の前記ＯＣＲ情報のＹ座標の上端から下端間で前記ベクトルデータの描画開始位置のＹ座標を検索し、前記ＯＣＲ情報のＸ座標及びＹ座標と前記ベクトルデータのＸ座標及びＹ座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録し、前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、前記ベクトルデータを再度検索し、前記ＯＣＲ情報の前記Ｘ座標及びＹ座標と、前記ベクトルデータの描画開始位置のＸ座標及びＹ座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録し、前記一致しない文字画像のベクトルデータは、前記ＯＣＲで認識できていない文字についてのベクトル列をまとめたものであり、前記画像処理手段は、前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成することを特徴としている。
本発明の文書ファイル生成方法は、スキャナー部を備えた文書ファイル生成装置による文書ファイル生成方法であって、原稿の文字が前記スキャナー部によって読み取られた文字画像のＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ（ＯＣＲ）を行う画像認識工程と、前記画像認識工程において認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンター工程と、前記カウンター工程において登録されたそれぞれの前記文字画像をベクトル化するベクトル化工程と、前記カウンター工程において登録されたそれぞれの前記文字画像に対して、前記ベクトル化工程においてベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理工程とを有し、前記ＯＣＲで得られるＯＣＲ情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、前記ＯＣＲ情報は、認識順に登録され、前記ベクトル化工程は、前記画像認識工程において認識され、前記カウンター工程により文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するＸ座標を、前記ＯＣＲ情報から検索する工程と、前記文字画像の前記ＯＣＲ情報の前記Ｘ座標と、前記ベクトルデータの描画開始位置のＸ座標とが一致した前記文字画像について、一致した前記文字画像の前記ＯＣＲ情報のＹ座標の上端から下端間で前記ベクトルデータの描画開始位置のＹ座標を検索する工程と、前記ＯＣＲ情報のＸ座標及びＹ座標と前記ベクトルデータのＸ座標及びＹ座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録する工程と、前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、前記ベクトルデータを再度検索し、前記ＯＣＲ情報の前記Ｘ座標及びＹ座標と、前記ベクトルデータの描画開始位置のＸ座標及びＹ座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録する工程とを有し、前記一致しない文字画像のベクトルデータは、前記ＯＣＲで認識できていない文字についてのベクトル列をまとめたものであり、前記画像処理工程は、前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成する工程を有することを特徴としている。

本発明の文書ファイル生成装置及び文書ファイル生成方法は、ファイルサイズを増大させることなく、画像を細かく綺麗に描画することができる。

本発明の文書ファイル生成装置の一実施形態を説明するための図である。図１の文書ファイル生成装置による文書ファイル生成方法の概要を説明するためのフローチャートである。図１の文書ファイル生成装置による画像処理の概要を説明するための図である。図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。図１の文書ファイル生成装置における、ベクトル化とパターンマッチングを利用したベクトル化処理について説明するための図である。図１の文書ファイル生成装置における、ベクトル化とパターンマッチングを利用したベクトル化処理について説明するための図である。

以下、本発明の文書ファイル生成装置の一実施形態を、図１〜図３を参照しながら説明する。まず、図１に示すように、文書ファイル生成装置１０は、制御部１１、操作部１２、表示部１３、スキャナー部１４を備えている。

制御部１１は、図示しないＲＯＭ内の所定のプログラムに基づき、文書ファイル生成装置１０の全体の動作を制御するものであり、操作受付部１１ａ、画像認識部１１ｂ、画像処理部１１ｃ、メモリー１１ｄ、カウンター１１ｅ、ベクトル化部１１ｆを備えている。

操作受付部１１ａは、操作部１２による画像処理に係わる操作を受け付ける。画像認識部１１ｂは、スキャナー部１４によって読み取られた文字画像のＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ：文字認識）を行う。すなわち、スキャナー部１４によって読み取られた文字画像が予め記憶されているパターンと照合されて特定され、その特定された文字画像のデータが得られる。

画像処理部１１ｃは、ベクトル化部１１ｆによってベクトル化されているデータを書き込んだ文書ファイル（以下、ベクトル化ファイルという）、又は後述の原稿２０のファイル形式に従った文書ファイルの生成などを行う。メモリー１１ｄには、スキャナー部１４によって読み取られた文字画像などが記憶される。

カウンター１１ｅは、画像認識部１１ｂによって認識された文字毎の数（例えば文字画像「ａ」、「ｂ」、「ｃ」が認識された場合、文字画像「ａ」、「ｂ」、「ｃ」毎の文字数）をカウントして登録する。ベクトル化部１１ｆは、画像認識部１１ｂによって認識された文字画像のベクトル化を行うものであるが、その詳細についても後述する。

操作部１２は、画像処理を指示する際に操作されるものであり、たとえばタッチパネルで構成されている。表示部１３は、画像処理などをガイドするメッセージや、画像処理を選択させる項目などを表示する。スキャナー部１４は、イメージセンサ（図示省略）によって読み取られる後述の原稿２０の文字画像を光学的に読み取る。

次に、図２及び図３を参照し、画像処理の概要について説明する。まず、スキャナー部１４により、たとえば図３に示すような原稿２０の読み取りによるＯＣＲ（文字認識）を実行させる（ステップＳ１）。なお、図３に示す原稿２０は、たとえばＰＤＦ形式のファイル（以下、ＰＤＦファイルという）を印字した文書であり、説明の都合上、たとえばａ〜ｄの文字画像が表示されている文字層のみを示している。

すなわち、そのＰＤＦファイルは、上述したように、文字層や画層の画像層（画像レイヤ）に含まれるオブジェクトに応じて画像処理や画像圧縮が行われる高圧縮方式による構成となっている。

また、スキャナー部１４による原稿２０の読み取りは、矢印で示すように、たとえば上段から順に１行ずつ行われるようになっているものとする。ここで、原稿２０が読み取られると、新規の文字画像がＯＣＲ（文字認識）される毎に、それぞれ認識された文字画像の登録がカウンター１１ｅにて行われる（ステップＳ２）。

すなわち、まず「ａ」の文字画像が認識されると、その認識された「ａ」の文字画像がカウンター１１ｅのａカウンター１１ｅ−１として登録される。続いて、次の「ａ」の文字画像が認識されると、ａカウンター１１ｅ−１の文字数が加算される。つまり、「ａ」の文字画像が認識される毎に、ａカウンター１１ｅ−１の文字数が加算されていく。

次に、「ｂ」の文字画像が認識されると、その認識された「ｂ」の文字画像がカウンター１１ｅのｂカウンター１１ｅ−２として登録される。続いて、次の「ｂ」の文字画像が認識されると、ｂカウンター１１ｅ−２の文字数が加算される。つまり、「ｂ」の文字画像が認識される毎に、ｂカウンター１１ｅ−２の文字数が加算されていく。

次に、「ｃ」の文字画像が認識されると、その認識された「ｃ」の文字画像がカウンター１１ｅのｃカウンター１１ｅ−３として登録される。続いて、次の「ｃ」の文字画像が認識されると、ｃカウンター１１ｅ−３の文字数が加算される。つまり、「ｃ」の文字画像が認識される毎に、ｃカウンター１１ｅ−３の文字数が加算されていく。

次に、ベクトル化部１１ｆによる文字画像のベクトル化が行われる（ステップＳ３）。すなわち、上述したカウンター１１ｅのａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算されたそれぞれの文字画像である「ａ」〜「ｃ」のベクトル化が行われる。

次に、画像処理部１１ｃにより、ａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算されたそれぞれの文字画像に対して、ＯＣＲ（文字認識）で得られる文字座標とベクトル化したデータの文字座標とを照らし合わせ、対象文字の抽出が行われる（ステップＳ４）。ちなみに、ＯＣＲ（文字認識）で得られるＯＣＲ（文字認識）情報には文字座標や文字コードなどが含まれている。また、ベクトル化したデータには、線の起終点の座標（位置）などが含まれている。よって、ＯＣＲ（文字認識）情報とベクトル化したデータの文字座標を照らし合わせることで、対象文字の抽出が可能となる。

次に、画像処理部１１ｃによりフォント置き換え処理が実行される（ステップＳ５）。すなわち、ステップＳ３で行われたベクトル化部１１ｆによるそれぞれの文字画像のベクトル化されたデータがたとえば上述したメモリー１１ｄに記憶される。

次に、ステップＳ５でメモリー１１ｄに記憶された文字画像のベクトル化されたデータに基づき、画像処理部１１ｃによりベクトル化ファイルの生成が行われる（ステップＳ６）。

以上のように、本実施形態では、ステップＳ３でのベクトル化部１１ｆによるそれぞれの文字画像のベクトル化の処理が行われ、ステップＳ６でのベクトル化部１１ｆによりベクトル化ファイルが生成される。

次に、上述した画像処理の具体例について説明する。図４〜図８は、ベクトル化とＯＣＲ（文字認識）を利用した文書ファイルの低サイズ化のためのベクトル化処理について説明するものである。なお、以下に説明するベクトル化処理は、上述したベクトル化部１１ｆが行うものとする。

まず、図４に示すように、原稿２０を上述したスキャナー部１４により読み込み、文字画像とＯＣＲ（文字認識）情報ｂとを取得する。なお、ベクトル画像情報（ベクトルデータ）ａは、上述したように、原稿２０そのもののＰＤＦファイルの情報であり、既に取得されているものとする。また、以下に説明するフォント辞書ｃは、ＰＤＦファイル内に含まれているものである。ここで、描画される文字が、ベクトル画像情報（ベクトルデータ）ａからでは特定できないため、ＯＣＲ（文字認識）情報ｂから文字コードと文字座標とを取得し、以下の手順でフォント辞書ｃへの登録を行う。

すなわち、図５及び図６に示すように、
（１）たとえば「Ｋ」の文字画像がＯＣＲ（文字認識）されたとすると、「Ｋ」の文字画像の左端から右端の間で描画開始位置が一致するＸ座標を、ＯＣＲ（文字認識）情報ｂから検索する。
（２）ＯＣＲ座標（ＯＣＲ（文字認識）情報ｂの文字座標）とベクトル画像情報ａの描画開始位置のＸ座標とが一致した場合、Ｙ座標の上端から下端間で描画開始位置が一致するＹ座標を検索する。
（３）どちらも一致した場合は、該当文字と判断しベクトル画像情報ａのｆｉｌｌまでを文字としてフォント辞書ｃに登録する。
（４）既に登録済みの文字が検索で見つかった場合はフォント辞書ｃへの登録を行わない。

なお、図６に示すように、フォント辞書ｃに登録された文字がたとえば「Ｋ」「ｙ」「ｏ」「ｃ」となっていると、それぞれの文字が描画処理の際にそのフォント辞書ｃから読み出されることになる。

次に、図７に示すように、ベクトル画像情報ａのＥＯＦ（データの終端）までの検索を終えたら、次はベクトル画像情報ａのベクトル座標からＯＣＲ（文字認識）情報ｂに対して検索をかける。ここで、ＯＣＲ（文字認識）で認識できていない文字があり得るので、以下の手順でベクトル画像情報ａから再度検索する。

（５）ベクトルデータの書き出し開始位置について、ＯＣＲ（文字認識）で認識された文字に一致しないものを検索する。
（６）一致した文字は、別認識した記号や既にフォント辞書ｃに登録済みであるため破棄する。
（７）一致しない文字は、ベクトル列をまとめて１つのフォント辞書ｃに追加登録する。
ここで、一致しない文字のブロックができるが、９割以上はフォント辞書ｃに登録されるためファイルのサイズの低減につながる。

次に、図８に示すように、
（８）文字を登録したフォント辞書ｃからフォントを取得し、サイズ、記載座標を指定して描画処理を行う。すなわち、たとえば「Ｋ」「ｙ」「ｏ」「ｃ」「ｏ」「ｏ」を描画する場合、それぞれの文字のフォントがフォント辞書ｃから取得されることになる。

次に、図９などを参照し、ベクトル化とパターンマッチングを利用した文書ファイルの低サイズ化のためのベクトル化処理について説明する。なお、以下に説明するパターンマッチングは、上述したベクトル化部１１ｆが行うものとする。

まず、図９に示すように、原稿２０を上述したスキャナー部１４により読み込み、文字画像を取得し、以下の手順でフォント辞書ｃへの登録を行う。
すなわち、図１０（ａ）に示すように、
（１）ベクトル化前の２値画像の近傍画素において同じ輝度を持つ要素を探し出しラベルを作成する。ここでは、たとえば「Ｋ」の文字のラベルが取得されることになる。
（２）ラベル取得時の基点ｄの場所の座標と、縦横のドット幅を記憶する。
（３）文字画像内の記載座標に対して検索をかける。
（４）横ドット幅（Ｘ座標）の文字画像の左端から右端間で、描画開始位置が一致するＸ座標をベクトル画像情報ａから検索する。
（５）Ｘ座標が一致した場合は、縦ドット幅（Ｙ座標）の上端から下端間で描画開始位置が一致するＹ座標をベクトル画像情報ａから検索する。
（６）どちらも一致した場合は該当文字と判断し、ベクトル画像情報ａのｆｉｌｌまでを文字として上述したフォント辞書ｃに登録する。
（７）既に登録済みの文字が検索で見つかった場合はフォント辞書ｃへの登録を行わない。

次に、図１０（ｂ）に示すように、
（８）ラベルの重心ｅを決め、その重心ｅの位置からのラベルの特徴量を算出する。
なお、特徴量は、ラベルの重心ｅから最外周輪郭線間までの距離（点線矢印で示している）である。これにより対象ラベルが拡大／縮小、回転をしても特徴の周期で一致させることが可能となる。
（９）特徴量の一致する文字をベクトル画像情報ａから検索する。
（１０）一致した文字の座標と縦横の幅を記憶する。
（１１）文字が見つからなくなるまで（９）、（１０）を繰り返す。
（１２）次のラベルを取得し、上記同様のパターンマッチングを行う。
このとき、記憶した文字と座標を次の検索対象から外す。
（１３）描画処理の際は、フォント辞書ｃからフォントを取得し、サイズ、記載座標が指定される。

このように、本実施形態では、画像処理部１１ｃにより、文字認識により得られる文字座標とベクトル化したデータに含まれる文字座標との照合により一致する文字画像のベクトル化データをフォント辞書ｃに登録できる。また、文字認識により得られる文字画像から算出される特徴量との照合（パターンマッチング）により一致する文字画像のベクトル化データをフォント辞書に登録できる。

また、フォント辞書ｃへの登録を行う場合、既に登録済みの文字についてはその登録が行われないようにしているため、登録すべき文字画像が増えてもファイルサイズが増大してしまうことを抑制することができる。

このような本発明の文書ファイル生成装置及び文書ファイル生成方法は、ファイルサイズを増大させることなく、画像を細かく綺麗に描画するための文字画像のベクトル化を容易にかつ確実に行うことができる。

以上、具体的な実施の形態により本発明を説明したが、上記実施の形態は本発明の例示であり、この実施の形態に限定されないことは言うまでもない。

本発明は、文書ファイル生成装置及び文書ファイル生成方法に好適であるが、文書ファイル生成装置及び文書ファイル生成方法に限られるものではなく、文書ファイルを生成する機能を備える装置及び文書ファイル生成一般に適用できる。

１０文書ファイル生成装置
１１制御部
１１ａ操作受付部
１１ｂ画像認識部
１１ｃ画像処理部
１１ｄメモリー
１１ｅカウンター
１１ｅ−１ａカウンター
１１ｅ−２ｂカウンター
１１ｅ−３ｃカウンター
１１ｆベクトル化部
１２操作部
１３表示部
１４スキャナー部
２０原稿
ａベクトル画像情報（ベクトルデータ）
ｂＯＣＲ（文字認識）情報
ｃフォント辞書
ｄ基点
ｅ重心

Claims

制御部とスキャナー部とを備えた文書ファイル生成装置であって、
前記制御部は、
原稿の文字が前記スキャナー部によって読み取られた文字画像のＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ（ＯＣＲ）を行う画像認識手段と、
前記画像認識手段によって認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンターと、
前記カウンターにより登録されたそれぞれの前記文字画像をベクトル化するベクトル化手段と、
前記カウンターにより登録されたそれぞれの前記文字画像に対して、前記ベクトル化手段によりベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理手段とを有し、
前記ＯＣＲで得られるＯＣＲ情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、
前記ＯＣＲ情報は、認識順に登録され、
前記ベクトル化手段は、
前記画像認識手段によって認識され、前記カウンターにより文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するＸ座標を、前記ＯＣＲ情報から検索し、
前記文字画像の前記ＯＣＲ情報の前記Ｘ座標と、前記ベクトルデータの描画開始位置のＸ座標とが一致した前記文字画像について、一致した前記文字画像の前記ＯＣＲ情報のＹ座標の上端から下端間で前記ベクトルデータの描画開始位置のＹ座標を検索し、
前記ＯＣＲ情報のＸ座標及びＹ座標と前記ベクトルデータのＸ座標及びＹ座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録し、
前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、
前記ベクトルデータを再度検索し、前記ＯＣＲ情報の前記Ｘ座標及びＹ座標と、前記ベクトルデータの描画開始位置のＸ座標及びＹ座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録し、
前記一致しない文字画像のベクトルデータは、前記ＯＣＲで認識できていない文字についてのベクトル列をまとめたものであり、
前記画像処理手段は、
前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成することを特徴とする文書ファイル生成装置。
スキャナー部を備えた文書ファイル生成装置による文書ファイル生成方法であって、
原稿の文字が前記スキャナー部によって読み取られた文字画像のＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ（ＯＣＲ）を行う画像認識工程と、
前記画像認識工程において認識された前記文字画像毎の文字数をカウントして、前記文字画像を文字毎に登録するカウンター工程と、
前記カウンター工程において登録されたそれぞれの前記文字画像をベクトル化するベクトル化工程と、
前記カウンター工程において登録されたそれぞれの前記文字画像に対して、前記ベクトル化工程においてベクトル化されたベクトルデータによりフォント置き換え処理を行い、前記ベクトルデータを書き込んだ文書ファイルであるベクトル化ファイルを生成する画像処理工程とを有し、
前記ＯＣＲで得られるＯＣＲ情報は文字座標と文字コードとを少なくとも含み、前記ベクトルデータは線の起終点の座標を少なくとも含み、
前記ＯＣＲ情報は、認識順に登録され、
前記ベクトル化工程は、
前記画像認識工程において認識され、前記カウンター工程により文字毎に登録された前記文字画像の左端から右端の間で描画開始位置が一致するＸ座標を、前記ＯＣＲ情報から検索する工程と、
前記文字画像の前記ＯＣＲ情報の前記Ｘ座標と、前記ベクトルデータの描画開始位置のＸ座標とが一致した前記文字画像について、一致した前記文字画像の前記ＯＣＲ情報のＹ座標の上端から下端間で前記ベクトルデータの描画開始位置のＹ座標を検索する工程と、
前記ＯＣＲ情報のＸ座標及びＹ座標と前記ベクトルデータのＸ座標及びＹ座標とが一致した場合、該当文字と判断し、前記文字画像のベクトルデータをフォント辞書に登録する工程と、
前記フォント辞書に既に登録済みの文字が検索で見つかった場合、前記文字画像のベクトルデータの前記フォント辞書への登録を行なわず、前記ベクトルデータを再度検索し、前記ＯＣＲ情報の前記Ｘ座標及びＹ座標と、前記ベクトルデータの描画開始位置のＸ座標及びＹ座標とが一致しない文字画像のベクトルデータを検索し、一致した文字画像のベクトルデータを破棄し、前記一致しない文字画像のベクトルデータを前記フォント辞書に追加登録する工程とを有し、
前記一致しない文字画像のベクトルデータは、前記ＯＣＲで認識できていない文字についてのベクトル列をまとめたものであり、
前記画像処理工程は、前記フォント辞書に登録された前記文字画像のベクトルデータを用いて前記ベクトル化ファイルを生成する工程を有することを特徴とする文書ファイル生成方法。