JP2015194872A

JP2015194872A - 情報処理装置、画像形成装置、情報処理方法、及び情報処理プログラム

Info

Publication number: JP2015194872A
Application number: JP2014072101A
Authority: JP
Inventors: 原　博幸; Hiroyuki Hara; 博幸原
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2015-11-05
Anticipated expiration: 2034-03-31
Also published as: JP6269256B2

Abstract

【課題】画像データを利便性の高い文書データへ変換する情報処理装置を提供する。【解決手段】画像データ取得部１００は、ＯＣＲ（光学文字認識）等を行うための画像データ２００を取得する。文字認識部１１０は、画像データ取得部１００により取得された画像データ２００から光学文字認識により文字を認識する。フォント照合部１２０は、文字認識部１１０により文字と認識された画像データ２００の領域３０１について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合する。文字属性データ設定部１３０は、フォント照合部１２０で照合されたフォント及び文字サイズを文書データ２１０に設定し、文字の描画位置を画像データ２００に対応するよう設定する。【選択図】図３

Description

本発明は、情報処理装置、画像形成装置、情報処理方法、及び情報処理プログラムに係り、特に画像データを文書データに変更可能な情報処理装置、画像形成装置、情報処理方法、及び情報処理プログラムに関する。

従来から、文書や画像を印刷可能な複合機（Multifunctional Peripheral, MFP）等の画像形成装置（情報処理装置）が存在する。
これらの画像形成装置には、スキャナー等で取得された画像データを、ＰＤＦ（Portable Document Format）等の文書データに変換する機能を備えるものが存在する。

このような装置の例として、特許文献１を参照すると、画像データから、少なくとも文字属性を含む属性データを抽出する属性分離手段と、前記属性分離手段により抽出された属性データのうち文字属性については、予め記憶された文字フォントのいずれに対応するかを判定し、当該判定されたフォントに対応するアウトラインを用いてベクトル化し、文字属性以外の属性については、線画としてアウトラインをとってベクトル化するベクトル化処理手段と、前記ベクトル化処理手段によりベクトル化されたベクトル化属性データを、前記画像データとともに他の装置に送信する送信手段とを備えることを特徴とする画像処理装置が開示されている。

特開２００９−２８４１７１号公報

しかしながら、特許文献１の技術では、文字をベクトル化するだけなので、その文字のフォントの種類や文字サイズのようなフォント情報を取得することができなかった。
つまり、画像データの元となる、ワードプロセッサーソフトウェア等で作成したときのフォント情報が分からないため、画像データを、元の原稿と同様の文書データに変換することはできなかった。

本発明は、このような状況に鑑みてなされたものであって、上述の問題点を解消する画像形成装置を提供することを課題とする。

本発明の情報処理装置は、画像データを文書データに変更可能な情報処理装置において、前記画像データから文字を認識する文字認識手段と、該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置を前記画像データに対応するよう設定する文字属性データ設定手段とを備えることを特徴とする。
本発明の情報処理装置は、前記画像データの領域に対応する前記文書データの描画位置に対して、前記フォント照合手段により複数のフォント及び複数の文字サイズのいずれかに該当すると照合されなかった場合は、文字を含まない線画又は画像の描画データを設定する文字画像切換手段を備えることを特徴とする。
本発明の画像形成装置は、画像データを文書データに変更可能な画像形成装置において、前記画像データを取得する画像データ取得手段と、該画像データ取得手段により取得された画像データから文字を認識する文字認識手段と、該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置を前記画像データに対応するよう設定する文字属性データ設定手段とを備えることを特徴とする。
本発明の情報処理方法は、画像データを文書データに変更可能な情報処理装置により実行される情報処理方法において、前記情報処理装置に、前記画像データから文字を認識させ、文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合させ、照合されたフォント及び文字サイズを前記文書データに設定させ、文字の描画位置を前記画像データに対応するよう設定させることを特徴とする。
本発明の情報処理プログラムは、画像データを文書データに変更可能な情報処理装置により実行される情報処理プログラムにおいて、前記情報処理装置に、前記画像データから文字を認識させ、文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合させ、照合されたフォント及び文字サイズを前記文書データに設定させ、文字の描画位置を前記画像データに対応するよう設定させることを特徴とする。

本発明によれば、照合されたフォント及び文字サイズを文書データに設定し、文字の描画位置を設定することで、元の原稿と同様の文書データを作成可能な情報処理装置を提供することができる。

本発明の画像形成装置の実施の形態に係る全体構成を示すブロック図である。図１に示す画像形成装置の概略図である。図１に示す画像形成装置の制御構成を示すブロック図である。本発明の実施の形態に係る画像ファイル化処理のフローチャートである。図４に示す文字認識処理の概念図である。図４に示すフォント照合処理の概念図である。図４に示す文字属性データ設定処理の概念図である。図４に示す文字属性データ設定処理に係る描画データの概念図である。

＜実施の形態＞
〔画像形成装置１の全体の構成〕
まず、図１を参照して、画像形成装置１（情報処理装置）の全体の構成について説明する。

画像形成装置１は、画像処理部１１、原稿読取部１２、原稿給送部１３、搬送部（給紙ローラー４２ｂ、搬送ローラー対４４、排出ローラー対４５）、ネットワーク送受信部１５、操作パネル部１６、画像形成部１７（画像形成手段）、及び記憶部１９等が、制御部１０に接続されている。各部は、制御部１０によって動作制御される。

制御部１０は、ＧＰＰ（General Purpose Processor）、ＣＰＵ（Central Processing Unit、中央処理装置）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Processor、特定用途向けプロセッサー）等の情報処理手段である。
制御部１０は、記憶部１９のＲＯＭやＨＤＤに記憶されている制御プログラムを読み出して、この制御プログラムをＲＡＭに展開させて実行することで、後述する機能ブロックの各手段として動作させられる。また、制御部１０は、図示しない外部の端末や操作パネル部１６から入力された所定の指示情報に応じて、装置全体の制御を行う。

画像処理部１１は、ＤＳＰ（Digital Signal Processor）やＧＰＵ（Graphics Processing Unit）等の制御演算手段である。画像処理部１１は、各種の画像のデータに対して所定の画像処理を行う手段であり、例えば、拡大縮小、濃度調整、階調調整、画像改善等の各種画像処理を行う。
画像処理部１１は、原稿読取部１２で読み取られた画像を、記憶部１９に印刷データとして記憶する。この際、画像処理部１１は、印刷データをＰＤＦやＴＩＦＦ等のフォーマットのファイル単位に変換することも可能である。

原稿読取部１２は、セットされた原稿を読み取る（スキャン）手段である。
原稿給送部１３は、原稿読取部１２で読み取られる原稿を搬送する手段である。
画像形成部１７は、ユーザーの出力指示により、記憶部１９に記憶され、原稿読取部１２で読み取られ、又は外部の端末から取得されたデータから記録紙への画像形成を行わせる手段である。
搬送部は、給紙カセット４２ａ（図２）から記録紙を搬送し、画像形成部１７で画像形成させ、その後にスタックトレイ５０へ搬送する。
なお、原稿読取部１２、原稿給送部１３、搬送部、画像形成部１７の動作については後述する。

ネットワーク送受信部１５は、ＬＡＮ、無線ＬＡＮ、ＷＡＮ、携帯電話網等の外部ネットワークに接続するためのＬＡＮボードや無線送受信機等を含むネットワーク接続手段である。
ネットワーク送受信部１５は、データ通信用の回線ではデータを送受信し、音声電話回線では音声信号を送受信する。
ネットワーク送受信部１５は、ネットワークを介して、図示しないＰＣ（Personal Computer）やスマートフォンやＰＤＡ（Personal Data Assistant）や携帯電話等の外部の端末、サーバー等に接続されていてもよい。

操作パネル部１６は、ＬＣＤ等の表示部と、テンキー、スタート、キャンセル、複写やＦＡＸ送信やスキャナー等の動作モードの切り換えのボタンと、選択された文書の印刷や送信や保存や記録等に関するジョブの実行に係る指示を行うためのボタンやタッチパネル等の入力部とを備えている。
操作パネル部１６は、画像形成装置１へユーザーの指示を取得する。このユーザーの指示により、後述する画像ファイル化処理が開始される。また、ユーザーの指示により、各ユーザーの情報を入力、変更することも可能である。
また、操作パネル部１６には、ＵＳＢメモリーやフラッシュメモリーカードや外部機器等の画像データ２００（図３）を記憶した記録媒体を接続するための接続部が備えられていてもよい。

記憶部１９は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の半導体メモリーやＨＤＤ（Hard Disk Drive）等の記録媒体を用いた記憶手段である。
記憶部１９のＲＡＭは、省電力状態であっても、セルフリフレッシュ等の機能により、記憶内容が保持される。
記憶部１９のＲＯＭやＨＤＤには画像形成装置１の動作制御を行うための制御プログラムが記憶されている。これに加えて、記憶部１９は、ユーザーのアカウント設定も記憶している。また、記憶部１９には、ユーザー毎の保存フォルダーの領域３０１が含まれていてもよい。

なお、画像形成装置１において、制御部１０及び画像処理部１１は、ＧＰＵ内蔵ＣＰＵ等やチップ・オン・モジュールパッケージのように、一体的に形成されていてもよい。
また、制御部１０及び画像処理部１１は、ＲＡＭやＲＯＭやフラッシュメモリー等を内蔵していてもよい。
また、画像形成装置１は、ファクシミリの送受信を行うＦＡＸ送受信部を備えていてもよい。

〔画像形成装置１の動作〕
次に、図２を参照して、本発明の実施の形態に係る画像形成装置１の動作について説明する。
原稿読取部１２は、本体部１４の上部に配設され、原稿給送部１３は、原稿読取部１２の上部に配設されている。スタックトレイ５０は、本体部１４に形成された記録紙の排出口４１側に配設され、また、操作パネル部１６は、画像形成装置１のフロント側に配設されている。

原稿読取部１２は、スキャナー１２ａと、プラテンガラス１２ｂと、原稿読取スリット１２ｃとを備えている。スキャナー１２ａは、露光ランプ、及びＣＣＤ(Charge Coupled Device)やＣＭＯＳ（Complementary Metal Oxide Semiconductor）撮像センサー等から構成され、原稿給送部１３による原稿の搬送方向に移動可能に構成されている。
プラテンガラス１２ｂは、ガラス等の透明部材により構成された原稿台である。原稿読取スリット１２ｃは、原稿給送部１３による原稿の搬送方向と直交方向に形成されたスリットを有する。

プラテンガラス１２ｂに載置された原稿を読み取る場合には、スキャナー１２ａは、プラテンガラス１２ｂに対向する位置に移動され、プラテンガラス１２ｂに載置された原稿を走査しながら原稿を読み取って画像データ２００を取得して、取得した画像データ２００を本体部１４に備わる制御部１０（図１）に出力する。
また、原稿給送部１３により搬送された原稿を読み取る場合には、スキャナー１２ａは、原稿読取スリット１２ｃと対向する位置に移動され、原稿読取スリット１２ｃを介し、原稿給送部１３による原稿の搬送動作と同期して原稿を読み取って画像データ２００を取得し、取得した画像データ２００を本体部１４に備わる制御部１０に出力する。

原稿給送部１３は、原稿載置部１３ａと、原稿排出部１３ｂと、原稿搬送機構１３ｃとを備えている。原稿載置部１３ａに載置された原稿は、原稿搬送機構１３ｃによって、１枚ずつ順に繰り出されて原稿読取スリット１２ｃに対向する位置へ搬送され、その後、原稿排出部１３ｂに排出される。
なお、原稿給送部１３は、可倒式に構成され、原稿給送部１３を上方に持ち上げることで、プラテンガラス１２ｂの上面を開放させることができる。

本体部１４は、画像形成部１７を備えると共に、給紙部４２と、用紙搬送路４３と、搬送ローラー対４４と、排出ローラー対４５とを備えている。給紙部４２は、それぞれサイズ又は向きが異なる記録紙を収納する複数の給紙カセット４２ａと、給紙カセット４２ａから記録紙を１枚ずつ用紙搬送路４３に繰り出す給紙ローラー４２ｂとを備えている。給紙ローラー４２ｂ、搬送ローラー対４４、及び排出ローラー対４５は、搬送部として機能する。記録紙は、この搬送部により搬送される。
給紙ローラー４２ｂによって用紙搬送路４３に繰り出された記録紙は、搬送ローラー対４４によって画像形成部１７に搬送される。そして、画像形成部１７によって記録が施された記録紙は、排出ローラー対４５によってスタックトレイ５０に排出される。

画像形成部１７は、感光体ドラム１７ａと、露光部１７ｂと、現像部１７ｃと、転写部１７ｄと、定着部１７ｅとを備えている。露光部１７ｂは、レーザー装置やミラーやレンズやＬＥＤアレイ等を備えた光学ユニットであり、図示しない帯電部により一次帯電された感光体ドラム１７ａに対して、画像データに基づいて光等を出力して露光し、感光体ドラム１７ａの表面に静電潜像を形成する。現像部１７ｃは、トナーを用いて感光体ドラム１７ａに形成された静電潜像を現像する現像ユニットであり、静電潜像に基づいたトナー像を感光体ドラム１７ａ上に形成させる。転写部１７ｄは、現像部１７ｃによって感光体ドラム１７ａ上に形成されたトナー像を記録紙に転写させる。定着部１７ｅは、転写部１７ｄによってトナー像が転写された記録紙を加熱してトナー像を記録紙に定着させる。

〔画像形成装置１の制御構成〕
ここで、図３により、画像形成装置１の制御構成について説明する。
画像形成装置１の制御部１０は、画像データ取得部１００（画像データ取得手段）、文字認識部１１０（文字認識手段）、フォント照合部１２０（フォント照合手段）、文字属性データ設定部１３０（文字属性データ設定手段）、及び文字画像切換部１４０（文字画像切換手段）を備えている。
記憶部１９は、画像データ２００、文書データ２１０、及びフォント照合データ２２０を記憶している。

画像データ取得部１００は、ＯＣＲ（Optical Character Recognition、光学文字認識）等を行うための画像データ２００を取得する。
画像データ取得部１００は、ユーザーの指示により、印刷された文字を含む原稿を原稿読取部１２でスキャンさせ、画像データ２００として取得する。
また、画像データ取得部１００は、接続された記録媒体や外部の端末やサーバー等から画像データ２００を取得してもよい。

文字認識部１１０は、画像データ取得部１００により取得された画像データ２００を光学文字認識等して文字を認識する。
文字認識部１１０は、例えば、画像データ２００から文字が描画されている領域３０１を認識し、文字の線画のベクトル等を算出し、このベクトルについて、人工ニューラルネット等により、文字コードを判別する。この上で、文字認識部１１０は、文書データ２１０に、文字属性データ２１１として判別された文字コードを設定する。
また、文字認識部１１０は、例えば、光学文字認識の際に、画像データ２００内で文字と認識された領域３０１の座標、文字の線画のベクトル等のデータについても、記憶部１９に記憶してもよい。

フォント照合部１２０は、文字認識部１１０により文字と認識された画像データ２００の領域３０１について、認識された文字が、フォント照合データ２２０に含まれる複数のフォント及び複数の文字サイズのいずれに該当するか照合する。
フォント照合部１２０は、例えば、文字認識部１１０により出力された文字コードに対応するフォント照合データ２２０の文字フォントの描画データを、文字サイズを変更させつつ画像比較し、類似度を算出することで照合を行う。フォント照合部１２０は、類似度が最も高いフォント及び文字サイズを選択する。フォント照合部１２０は、この選択されたフォント及び文字サイズが所定の閾値以上の類似度であった場合、このフォント及び文字サイズに該当し、照合されたと判断する。また、フォント照合部１２０は、所定の閾値よりも類似度が低い場合には、該当するフォント及び文字サイズがなく、照合されなかったと判断する。

文字属性データ設定部１３０は、フォント照合部１２０で照合されたフォント及び文字サイズを文書データ２１０に設定し、文字の描画位置も画像データ２００に対応するよう設定する。
文字属性データ設定部１３０は、例えば、文書データ２１０の文字属性データ２１１の各文字について、フォント照合部１２０により該当すると判断されたフォント及び文字サイズに設定する。また、文字属性データ設定部１３０は、この文字が閲覧や印刷される際に、画像データ２００と対応する描画位置になるように設定する。
これにより、文書データ２１０が閲覧されたり画像形成部１７で出力されたりした場合に、画像データとほぼ同じ位置に文字が描画される。

文字画像切換部１４０は、画像データ２００の領域３０１に対応する文書データ２１０の描画位置に対して、フォント照合部１２０により、フォント照合データ２２０に含まれる複数のフォント及び複数の文字サイズのいずれにも該当しないとして照合されなかった場合は、文字を含まない線画又は画像の描画データを文書データ２１０に設定する。
なお、文字画像切換部１４０は、フォント照合部１２０により、フォント照合データ２２０に含まれる複数のフォント及び複数の文字サイズのいずれかに該当すると照合された場合は、認識された文字の描画データが文字属性データ２１１として文書データ２１０に設定されたままにしてもよい。

画像データ２００は、光学文字認識が可能な解像度の文字の画像を含むデータである。画像データ２００は、例えば、原稿読取部１２で読み取られ画像処理部１１で画像処理されたデータであってもよい。
また、画像データ２００は、ＲＧＢカラーやＣＭＹＫカラーやモノクロやグレースケールのビットマップ画像のファイルや、ランレングスやＬＺＷ等で軽度に圧縮されたファイル等であってもよい。
また、画像データ２００は、制御部１０や画像処理部１１で既にＰＤＦやＪＰＧ（Joint Photographic Experts Group）やＰＮＧ（Portable Network Graphics）やＢＭＰ（Bitmap Image）やＴＩＦＦ（Tagged Image File Format）等の形式に変換されたファイルであってもよい。
また、画像データ２００は、記憶部１９の文書ボックス、接続された記録媒体、外部の端末やサーバー等から取得された画像を含むＪＰＧやＰＤＦ等の画像のファイルであってもよい。
また、画像データ２００がＰＤＦの場合、既に文字認識された文字属性データ２１１が含まれていてもよい。
また、画像データ２００は、ファクシミリ受信されたＪＢＩＧ等の画像のデータであってもよい。

文書データ２１０は、文字を含む文書用のデータである。
文書データ２１０は、例えば、ＰＤＦ、ＰＳ（PostScript（登録商標））、ＰＤＬ（Page Description Language）等の電子文書や印刷データに近い形式のファイルであってもよい。また、文書データ２１０は、ＨＴＭＬ（Hyper Text Markup Language）等のハイパーテキストのファイルであってもよい。また、文書データ２１０は、ワードプロセッサー、表計算ソフトウェア、描画ソフトウェア等の各種アプリケーション・ソフトウェア（以下「アプリケーション」という。）のファイルであってもよい。
この場合、文書データ２１０は、例えば、「．ｄｏｃｘ（Microsoft（登録商標）Word（登録商標））」、「．ｘｌｓｘ（Microsoft（登録商標）Excel（登録商標））」、ＳＶＧ（Scalable Vector Graphics）のファイル等であってもよい。
また、文書データ２１０は、印刷用のページファイル等であってもよい。
なお、文書データ２１０は、ＰＤＦの場合、文字属性データ２１１と画像データ２００を含んでいても、文字属性データ２１１のみを含んでいてもよい。
また、本実施形態においては、文書データ２１０がＰＤＦ又はＰＳである場合の例について説明する。

文字属性データ２１１は、文書データ２１０に含まれる文字コード及び文字の属性のデータである。
文字属性データ２１１は、文字認識部１１０により画像データ２００が文字認識されて文書データが作成された際には、文字コードと、大まかな文字の描画位置のデータのみが含まれていてもよい。
また、文字属性データ２１１は、文字属性データ設定部１３０により、各文字のフォント及び文字サイズ、文字の描画位置等のデータが設定されてもよい。
また、文字属性データ２１１は、文書データ２１０がＰＤＦの場合には、フォント辞書データのオブジェクトのデータが含まれていてもよい。

フォント照合データ２２０は、文字コードを検索キーとして、当該文字コードが描画された際の画像データ２００を照合するためのデータである。
フォント照合データ２２０は、例えば、複数のフォントについて、複数の文字サイズで描画された際の各文字のビットマップデータを文字テーブル等として含んでいてもよい。フォント照合データ２２０の各フォントとして、標準的なＰＣ、画像形成装置１の自社製の機器、印刷物用の標準フォント等が含まれていてもよい。また、フォント照合データ２２０の文字サイズとして、画像データ２００のｄｐｉ（dot per inch）等に対応して、例えば、８ポイント〜９６ポイント等のサイズのデータが含まれていてもよい。また、フォント照合データ２２０は、各フォントの各文字サイズについて、ボールド、イタリック、下線、網掛け等の文字修飾が行われた際のデータが含まれていてもよい。
なお、フォント照合データ２２０は、ビットマップデータではなく、複数のフォントのベクトル（線画）データであってもよい。

ここで、画像形成装置１の制御部１０は、記憶部１９に記憶された制御プログラムを実行することで、画像データ取得部１００、文字認識部１１０、フォント照合部１２０、文字属性データ設定部１３０、文字画像切換部１４０として機能させられる。
また、上述の画像形成装置１の各部は、本発明の画像形成方法を実行するハードウェア資源となる。

〔画像形成装置１による画像ファイル化処理〕
次に、図４〜図８により、本発明の実施の形態に係る画像形成装置１による画像ファイル化処理の説明を行う。
本実施形態の画像ファイル化処理では、まず、画像データ２００を取得して、光学文字認識を行い、文書データ２１０を作成する。そして、この光学文字認識により出力された文字コードにより、画像データ２００の文字と認識された領域３０１が、どのフォントのどのフォントサイズで出力されたものであるか照合する。照合できた文字の箇所については、文書データ２１０の文字の描画位置を補正して、画像データ２００の元になった文書と同様の文字情報を復元する。照合できなかった箇所については、文書データ２１０の文字を削除して、ベクトルの描画データに置き換える。
本実施形態の画像ファイル化処理は、主に制御部１０が、記憶部１９に記憶されたプログラムを、各部と協働し、ハードウェア資源を用いて実行する。
以下で、図４のフローチャートを参照して、画像ファイル化処理の詳細をステップ毎に説明する。

（ステップＳ１００）
まず、制御部１０が、画像データ取得部１００として、画像データ取得処理を行う。
制御部１０は、操作パネル部１６のユーザーの指示により、文字の印刷された原稿を原稿読取部１２でスキャンさせる。制御部１０は、スキャンされたデータを、画像処理部１１で画像処理し、記憶部１９に画像データ２００として記憶する。この際、制御部１０は本等の見開き原稿の場合は、端部を変形する等の処理を行ってもよい。また、制御部１０は、画像のゴミを除去したり、モアレを除去したり、画像のシャープネスを上げたり、ＤＰＩ変換する処理を行ったりしてもよい。また、制御部１０は、これらの画像処理を画像処理部１１のＧＰＵ等で高速化して行ってもよい。
また、制御部１０は、画像データ２００に対応する文書データ２１０のファイルも作成する。この時点では、文書データ２１０には、まだ文字が設定されていないものの、画像データ２００に含まれる画像がコピーされていてもよい。
なお、制御部１０は、操作パネル部１６に接続された記録媒体から画像データ２００を取得して、記憶部１９に記憶してもよい。
また、制御部１０は、ネットワーク送受信部１５を介して、外部の端末やサーバー等から画像データ２００を取得して、記憶部１９に記憶してもよい。
また、制御部１０は、図示しないＦＡＸ送受信部で受信した画像データ２００を記憶部１９に記憶してもよい。
また、制御部１０は、取得した画像データ２００を、特定の形式のデータに変換してもよい。

（ステップＳ１０１）
次に、制御部１０が、文字認識部１１０として、文字認識処理を行う。
図５によると、制御部１０は、画像データ２００内で文字が描画された箇所を検索し、この検索された箇所について一文字毎に文字認識を行う。制御部１０は、認識された文字の文字コード等の文字属性データ２１１を文書データ２１０に設定する。
図５の例では、文字３１１を文書データ２１０に設定している。この文字３１１は、文書データ２１０内で大まかに画像データ２００と同じ位置で閲覧又は印刷される位置となるような描画位置が設定されてもよい。また、この時点での文字３１１のフォントは、画像データ２００の元になった原稿とは異なるデフォルト（既定）のフォントであってもよい。また、制御部１０は、認識された文字コードと、文字と認識された画像データ２００の領域３０１の座標とを記憶部１９に一時データとして記憶してもよい。なお、制御部１０は、文字認識の際に算出された文字のベクトルデータ等も、記憶部１９に一時データとして記憶してもよい。
また、制御部１０は、文字以外の図形等を認識してもよい。また、画像データ２００に既に文字認識された文字属性データ２１１が含まれていた場合、この文字認識処理をスキップすることも可能である。

（ステップＳ１０２）
次に、制御部１０が、フォント照合部１２０として、フォント照合処理を行う。
図６によると、制御部１０は、まず、画像データ２００自体の大きさ、ｄｐｉ、解像度等の情報と、画像データ２００の文字と認識された領域３０１の大きさ等により、文字のポイント数等の文字サイズを推定する。また、制御部１０は、フォント照合データ２２０に記憶された推定された文字サイズ毎の文字テーブルを呼び出す。制御部１０は、このフォント毎の文字テーブルに含まれる、文字認識された文字コードに対応する各フォントの画像と、画像データ２００の領域３０１の画像とを比較して、一番近い画像を選択する照合を行う。制御部１０は、この比較として、例えば、上下左右８〜１９２ドット等のウィンドウを設定し、動的プログラミング等を用いて、各ピクセルの暗点の明度の類似度を算出する。この際、制御部１０は、印刷された原稿では文字の輪郭が太くなる傾向がある等の印刷条件を配慮した類似度を算出したり、白黒２値に変更してビット加算等を用いて高速に類似度を算出したりしてもよい。制御部１０は、例えば、このような類似度が最も高くなったものを一番近い画像として選択してもよい。また、制御部１０は、この際のウィンドウ上の座標を算出してもよい。
制御部１０は、選択された一番近い画像のフォント及び文字サイズ、ウィンドウ上の座標、類似度等を記憶部１９に一時的に記憶する。

（ステップＳ１０３）
次に、制御部１０が、フォント照合部１２０として、画像照合に成功したか否かを判定する。制御部１０は、例えば、上述のフォント照合処理で、類似度が所定の閾値以上であった場合に、認識された文字が、フォント照合データ２２０内のいずれかのフォント及び文字サイズに該当する、つまり照合に成功したと判断し、Ｙｅｓと判定する。制御部１０は、例えば、類似度が所定の閾値未満であった場合は、該当するフォント及び文字サイズがなかった、つまり照合に失敗したとして、Ｎｏと判定する。
Ｙｅｓの場合、制御部１０は、処理をステップＳ１０４に進める。
Ｎｏの場合、制御部１０は、処理をステップＳ１０５に進める。

（ステップＳ１０４）
照合に成功した場合、制御部１０は、文字属性データ設定部１３０として、文字属性データ設定処理行う。
制御部１０は、例えば、文書データ２１０のフォント並びに文字サイズ、及びフォントの描画位置を変更する。この際、文書データ２１０がＰＳやＰＤＦやＰＤＬ等であった場合、文字属性データ２１１として、類似度が閾値以上になったフォント及び文字サイズのフォント辞書を登録し、描画位置を書き出し位置の情報として設定する。
図７（ａ）によると、制御部１０は、文字属性データ２１１の照合に成功した文字に、フォント及び文字サイズを設定する。また、制御部１０は、当該文字の画像データ２００上の正確な描画位置を算出する。制御部１０は、例えば、上述の照合処理のウィンドウ上の座標と、画像データ２００の文字と認識された領域３０１の座標とから、この描画位置を算出してもよい。また、制御部１０は、この文字が描画された際に、画像データ２００の領域３０１の画像と実際に重なるか否かを確認してもよい。
制御部１０は、算出された画像データ２００上の正確な描画位置に対応するよう、文書データ２１０の文字属性データ２１１中の文字の描画位置の設定を行う。
図７（ｂ）は、文書データ２１０の文字属性データ２１１に、文字３１２のようなフォント、文字サイズ、描画位置を設定した例を示す。

図８は、文書データ２１０がＰＳである場合、図７（ｂ）の例のように「あ」の文字を形成するグリフ（ベクトル）情報を、フォント辞書内に登録した例を示す。
描画データ４０１は、例えば、フォントとして「ｔｙｐｅ３」を指定し、グリフ座標系とフォント境界を指定した例である。
描画データ４０２は、文字コードを文字名に変換する配列の定義の例である。この例では、コード「８０」が「Ｐ」と変換される。
描画データ４０３は、グリフ記述（ベクトル化文字）格納用の辞書の例である。
描画データ４０４は、グリフ作成手続きの指定を示すコードの例である。このコードでは、文字境界、辞書の取得等を示している。
描画データ４０５は、文字描画に必要なフォント辞書取得、フォントサイズ指定、位置指定、文字表示等を示すコードの例である。
このように、文書データ２１０のすべての文字に対応する文字描画位置の補正の書き出しが終わった後、制御部１０は、画像ファイル化処理を終了する。

（ステップＳ１０５）
照合に成功しなかった場合、制御部１０は、文字画像切換部１４０として、文字画像切換処理を行う。
制御部１０は、文字と認識された画像データ２００の領域３０１について、文書データ２１０内の文字の情報を削除して、ベクトル（線画）のデータに置き換える。この置き換えのベクトルデータは、上述の文字認識処理で算出した文字の線画のベクトルのデータ等を使用してもよい。また、制御部１０は、領域３０１の画像をそのまま文書データ２１０に出力してもよい。
以上により、本発明の実施の形態に係る画像ファイル化処理を終了する。

以上のように構成することで、以下のような効果を得ることができる。
従来の文字認識を行う装置では、画像データを文書データに変換する際に、文字のフォント及び文字サイズを正確に設定することができなかった。このため、画像データを、元の原稿と同様の文書データに変換することはできなかった。
これに対して、本発明の実施の形態に係る画像形成装置１は、画像データ２００を文書データ２１０に変更可能な情報処理装置であり、画像データ２００を取得する画像データ取得部１００と、画像データ取得部１００により取得された画像データ２００から文字を認識する文字認識部１１０と、文字認識部１１０により文字と認識された画像データ２００の領域３０１について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合部１２０と、フォント照合部１２０で照合されたフォント及び文字サイズを文書データ２１０に設定し、文字の描画位置を画像データ２００に対応するよう設定する文字属性データ設定部１３０とを備えることを特徴とする。
このように構成することで、画像データ２００の元になった原稿に印刷されている文字のフォーマットを復元することが可能となる。これにより、画像データ２００から文字認識した文書データ２１０を、各種アプリケーションのファイルと同様のファイルになるよう変換することが可能となる。つまり、元の原稿と同様の文書データ２１０に変換することが可能となる。
このように変換された文書データ２１０を対応するアプリケーションで読み込むと、文字のフォントの種類、文字サイズ、ボールド／イタリック等の文字修飾情報、文字の描画位置等を、ほぼ確実に再現することが可能となる。このため、文書データ２１０のフォント情報を再現することができ、各種アプリケーションで容易に文字の修正等を行うことができる。これにより、ユーザーの利便性が高まる。

また、特許文献１のような技術では、文書データ２１０にベクトルで描画されたデータが含まれているため、読み込んだアプリケーションで文字の修正等ができないことがあるという問題があった。画像データ２００の文字部分は、あくまでも文字情報としてファイル内になければ元の文書を復元できなかった。
これに対して、本実施形態の画像形成装置１は、文字認識部１１０で検出した文字コードで、フォント照合データ２２０に含まれる全てのフォント及び文字サイズについて設定された画像テーブルと照合を行うため、作成したフォント及び文字サイズをほぼ確実に抽出することが可能となる。
また、検出した文字の画像が画像データ２００と合っているか比較し、文字認識手段で文書データ２１０に設定された文字の描画位置を、正確な値に補正する。
このように構成することで、原稿の元となった文書をほぼ確実に再現することが可能となる。また、この変換された文書データ２１０は、この元となった文書と同様の状態になるよう印刷させることができる。この際、文書データ２１０には、文字の属性が文字属性データ２１１に設定されているため、スキャンに由来するボケやにじみ等が少なくなり、高品位な印刷を行うことができる。

また、本発明の実施の形態に係る画像形成装置１は、画像データ２００の領域３０１に対応する文書データ２１０の描画位置に対して、フォント照合部１２０により複数のフォント及び複数の文字サイズのいずれかに該当すると照合された場合は、認識された文字の描画データを設定し、照合されなかった場合は、文字を含まない線画又は画像の描画データを設定する文字画像切換部１４０を備えることを特徴とする。
このように構成することで、文字認識において誤認識された箇所を検出することが可能となる。これにより、変換後の文書データ２１０に含まれる誤認識された文字属性データ２１１を削除することで、ユーザーが文書データ２１０を編集しやすくなり、ユーザーの利便製を高めることが可能となる。また、例えば、会社のロゴ等、図案化されたデータが混じっており、文字認識が失敗した箇所等についての、文字を削除して完全な状態の文書データ２１０を作成できる。
また、フォント及び文字サイズについて照合に失敗した場合であっても、文字の箇所について、ベクトルの描画データを設定することで、高品位な印刷が可能な文書データ２１０を取得することができる。また、文章の途中で文字認識が失敗していた場合でも、その箇所を閲覧や印刷した際の違和感を少なくすることができる。

また、本実施の形態では、文書データ２１０がＰＤＦの場合、文字認識で作成されたＦｏｎｔＢＢｏｘについて、照合されたフォント及び文字サイズでフォントに関する情報を設定する。
このように構成することで、ＰＤＦに含まれる文字属性データ２１１のフォントや書き出し位置等の情報が正確となり、ＰＤＦから容易にスタイル対応した文字情報を抽出することが可能となる。また、ＰＤＦから、ワードプロセッサーや表計算ソフトウェア等のアプリケーションのファイルへの変換が容易となる。

なお、上述の実施形態のフォント照合処理の説明では、文字サイズを推定してから照合を行った。
しかしながら、制御部１０は、先に文字サイズを推定せずに、フォント照合データ２２０の文字テーブルを総当たりで検索してもよい。また、フォント照合データ２２０として、ベクトルデータのみを記憶している場合、当該文字を一次データとして描画した際に、画像データ２００の領域３０１と一致するピクセル数の割合等を算出して、照合を行ってもよい。また、制御部１０は、画像処理部１１のＧＰＵ演算機能等を用いて、照合を高速に行ってもよい。また、制御部１０は、上述の文字認識処理で作成された文字の線画のベクトル等のデータを、照合の際に利用してもよい。
このように構成することで、記憶部１９の記憶容量を削減し、又は照合を高速化することが可能となる。

また、上述の実施形態では、ＰＤＦ又はＰＳに変換する例について説明したものの、これに限られず、各種の文書フォーマットに変換可能である。
また、画像ファイルをワードプロセッサーの文書ファイルや表計算ソフトウェアのファイルやＨＴＭＬファイル等に変換した場合、制御部１０は、修正した文字の描画位置の情報をページ単位で計算して、標準フォント、行送り、文字間隔、余白、ヘッダー／フッター等の設定についても算出し、文書データ２１０に設定してもよい。これにより、原稿の元となったファイルと同様のページ設定等を復元することができ、文書ファイルを修正しやすくなり、ユーザーの利便性を高めることができる。

また、上述の本実施形態では、照合に失敗した場合は、文書データ２１０から該当する文字属性データ２１１を削除するように記載したが、残してもよい。
また、画像形成装置１は、フォント照合部１２０により複数のフォント及び複数の文字サイズのいずれかと照合されなかった文字について、周囲の照合された文字と同じフォント又は文字サイズを指定して再度文字認識を行う文字再認識部を備えていてもよい。このように構成することで、文字認識の精度を高めることが可能となる。また、下線が引かれた文字等、従来の文字認識方式では認識に失敗しやすい箇所でも、確実に文字認識させることが可能になる。
また、上述の実施の形態では、先に文字認識部１１０が文書データ２１０に文字属性データ２１１を出力するように記載したものの、これに限られない。つまり、文字認識部１１０は一時データとして文字コード等を記憶部１９に出力し、文字属性データ設定部１３０が文書データに文字コード等を設定するような構成であってもよい。このように構成することで処理を簡略化でき、文書データ２１０の修正を少なくして、処理を高速化できる。

また、本実施形態の画像ファイル化処理は、画像形成装置以外の情報処理装置にも適用できる。つまり、ネットワークスキャナー、スキャナーをＵＳＢ等で別途接続したサーバー等を用いる構成であってもよい。
また、画像ファイル化処理のうち、文字認識処理、照合処理のように演算性能が必要な処理について、外部のサーバーで実行するように構成してもよい。このように構成することで、画像形成装置１の制御部１０、画像処理部１１、及び記憶部１９のコストを削減でき、処理を短時間で完了し、消費電力を削減することができる。

また、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。

１画像形成装置
１０制御部
１１画像処理部
１２原稿読取部
１２ａスキャナー
１２ｂプラテンガラス
１２ｃ原稿読取スリット
１３原稿給送部
１３ａ原稿載置部
１３ｂ原稿排出部
１３ｃ原稿搬送機構
１４本体部
１５ネットワーク送受信部
１６操作パネル部
１７画像形成部
１７ａ感光体ドラム
１７ｂ露光部
１７ｃ現像部
１７ｄ転写部
１７ｅ定着部
１９記憶部
４１排出口
４２給紙部
４２ａ給紙カセット
４２ｂ給紙ローラー
４３用紙搬送路
４４搬送ローラー対
４５排出ローラー対
５０スタックトレイ
１００画像データ取得部
１１０文字認識部
１２０フォント照合部
１３０文字属性データ設定部
１４０文字画像切換部
２００画像データ
２１０文書データ
２１１文字属性データ
２２０フォント照合データ
３０１領域
３１１、３１２文字
４０１、４０２、４０３、４０４、４０５描画データ

Claims

画像データを文書データに変更可能な情報処理装置において、
前記画像データから文字を認識する文字認識手段と、
該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、
該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置を前記画像データに対応するよう設定する文字属性データ設定手段とを備える
ことを特徴とする情報処理装置。
前記画像データの領域に対応する前記文書データの描画位置に対して、前記フォント照合手段により複数のフォント及び複数の文字サイズのいずれかに該当すると照合されなかった場合は、文字を含まない線画又は画像の描画データを設定する文字画像切換手段を備える
ことを特徴とする請求項１に記載の情報処理装置。
画像データを文書データに変更可能な画像形成装置において、
前記画像データを取得する画像データ取得手段と、
該画像データ取得手段により取得された画像データから文字を認識する文字認識手段と、
該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、
該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置を前記画像データに対応するよう設定する文字属性データ設定手段とを備える
ことを特徴とする画像形成装置。
画像データを文書データに変更可能な情報処理装置により実行される情報処理方法において、前記情報処理装置に、
前記画像データから文字を認識させ、
文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合させ、
照合されたフォント及び文字サイズを前記文書データに設定させ、文字の描画位置を前記画像データに対応するよう設定させる
ことを特徴とする情報処理方法。
画像データを文書データに変更可能な情報処理装置により実行される情報処理プログラムにおいて、前記情報処理装置に、
前記画像データから文字を認識させ、
文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合させ、
照合されたフォント及び文字サイズを前記文書データに設定させ、文字の描画位置を前記画像データに対応するよう設定させる
ことを特徴とする情報処理プログラム。