JP4655335B2 - 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 - Google Patents
画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP4655335B2 JP4655335B2 JP2000185267A JP2000185267A JP4655335B2 JP 4655335 B2 JP4655335 B2 JP 4655335B2 JP 2000185267 A JP2000185267 A JP 2000185267A JP 2000185267 A JP2000185267 A JP 2000185267A JP 4655335 B2 JP4655335 B2 JP 4655335B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- recognition
- character image
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、画像認識技術に関し、特に、文字コードを認識する確からしさの度合いが小さい文字画像を、文字コードデータに変換することなく文字画像から切り出された文字画像データで出力する画像認識技術に関する。
【0002】
【従来の技術】
最近の画像認識装置は、読取に関する条件の良い原稿(例えば同一フォントの文字のみで構成された原稿)であれば、極めて高い精度で文字画像を文字コードとして認識可能である。しかしながら、原稿上の文字の品質が悪かったり、原稿上の文字等のレイアウトが複雑であると、文字画像を文字コードとして認識する認識精度が大きく低下し、誤認識される文字画像が増加してしまう。
【0003】
このような問題に対し、誤認識されている可能性が高い文字画像を文字コードデータに変換することなく、文字画像データ(例えばビットマップ形式の画像データ)のまま出力する画像認識装置が提案されている。この画像認識装置によれば、原稿上の文字とは異なる文字コードデータを出力してしまうことがない。
【0004】
【発明が解決しようとする課題】
しかしながら、誤認識されている可能性が高い文字画像のみを文字画像データとして出力した場合、図12に示すように文字画像データと文字コードデータとの形状に差異が生じてしまい、ユーザに違和感を与えるといった問題があった(図中矩形で示す部分は、文字画像データとして出力した部分)。
【0005】
図13(A)は、カーニングが行われている文字画像を従来の画像認識装置で出力した場合を示しており、文字画像データと文字コードデータとの差異が顕著である。
【0006】
カーニングとは、隣り合う特定文字の組合わせで印字するときに、文字間の距離を詰めて空間のバランスの取れた文字配列をすることであり、図13(A)では文字画像データである「W」の右下部分に文字コードデータの「e」を詰めて配列した例を示している。文字コードデータ「e」の左側の一部分が文字画像データ「W」によって隠れてしまっている。
【0007】
また、図13(B)は、斜体で表現されている文字画像を出力した場合を示しており、同様に差異が顕著である。
【0008】
斜体で表現された「W」の文字画像データの右下側には文字画像「e」の左側の一部分が含まれており、文字コードデータで出力された「e」との位置がずれている。また、斜体で表現された「n」の文字画像データの左上部分に文字画像「k」の右側の一部分が含まれており、文字コードデータで出力された「k」との位置がずれている。
【0009】
本発明の目的は、画像データ中の文字画像から文字コードを認識して得られた文字コードデータと文字画像から文字コードデータに変換することなく切り出された文字画像データとが混在する画像を出力する画像認識装置において、双方の混在によりユーザに与える違和感を低減することである。
【0010】
【課題を解決するための手段】
本発明の目的は、下記する手段により達成される。
【0011】
(1)画像認識装置において、画像データ中の文字画像から文字コードを認識する文字認識部と、文字コードに応じて、文字画像を文字コードデータに変換する変換部と、文字認識部における認識の確からしさである文字認識確度を検出する文字認識確度検出部と、個々の文字画像が複数集合して形成された単語単位の文字画像集合の中に含まれる、文字認識確度が所定確度より低い文字画像の個数をカウントする低確度文字画像カウント部と、前記低確度文字画像カウント部がカウントした個数を、前記文字画像集合の中に含まれる文字画像の総数で除した割合が、当該文字画像集合の中に含まれる文字画像の総数によって変化する所定割合より大きい場合、当該文字画像集合全体に対して文字コードデータへの変換を制止する制御部と、を有することを特徴とする画像認識装置。
【0015】
(2) 電子ファイルを作成するファイル作成部、をさらに有することを特徴とする上記(1)に記載の画像認識装置。
【0016】
(3) 原稿を読み取ることによって画像データを得るスキャナ部、をさらに有することを特徴とする上記(1)に記載の画像認識装置。
【0017】
(4) 画像データを受信する画像データ受信部と、データを用紙に印刷するプリント部と、をさらに有することを特徴とする上記(1)に記載の画像認識装置。
【0018】
(5) 画像認識方法において、画像データ中の文字画像から文字コードを認識する過程と、文字コードを認識する際の認識の確からしさである文字認識確度を検出する過程と、個々の文字画像が複数集合して形成された単語単位の文字画像集合の中に含まれる、文字認識確度が所定確度より低い文字画像の個数をカウントする過程と、文字認識確度が所定確度より低い前記文字画像の個数を、前記文字画像集合の中に含まれる文字画像の総数で除した割合が、当該文字画像集合の中に含まれる文字画像の総数によって変化する所定割合より大きい場合、当該文字画像集合全体に対して文字コードに応じた文字コードデータへの変換を制止する過程と、を有することを特徴とする画像認識方法。
【0020】
(6) 画像認識プログラムを記録したコンピュータ読取可能な記録媒体であって、
画像データ中の文字画像から文字コードを認識する過程と、文字コードを認識する際の認識の確からしさである文字認識確度を検出する過程と、個々の文字画像が複数集合して形成された単語単位の文字画像集合の中に含まれる、文字認識確度が所定確度より低い文字画像の個数をカウントする過程と、文字認識確度が所定確度より低い前記文字画像の個数を、前記文字画像集合の中に含まれる文字画像の総数で除した割合が、当該文字画像集合の中に含まれる文字画像の総数によって変化する所定割合より大きい場合、当該文字画像集合全体に対して文字コードに応じた文字コードデータへの変換を制止する過程と、をコンピュータに実行させるための画像認識プログラムを記録したコンピュータ読取可能な記録媒体。
【0022】
【発明の実施の形態】
以下、添付した図面を参照して、本発明の実施形態を説明する。
【0023】
図1は、本発明の第1実施形態に係る画像認識装置を含む情報機器システムの構成図である。
【0024】
情報機器システム100は、画像認識装置としての機能を有するコンピュータ10、画像入力装置であるスキャナ50、および、画像出力装置であるプリンタ60等の情報機器がネットワークN上に接続されて構成されている。
【0025】
コンピュータ10、スキャナ50、および、プリンタ60は、ネットワークNを経由して互いにデータの授受を行うことができる。
【0026】
図2は、コンピュータ10の概略構成を示すブロック図である。
【0027】
コンピュータ10は、各情報機器との間でデータの授受を行うためのインターフェース(I/F)18と、スキャナ50を制御するためのスキャナドライバ12と、プリンタ60を制御するためのプリンタドライバ14と、所定のプログラムやデータを記憶するROM15と、一時的にデータを記憶するRAM16と、各種情報の表示やユーザからの指示入力が可能な操作パネル17と、文字認識等の処理を行う画像処理部13(詳細後述)と、上記各部を制御する主制御部11とを有している。なお、スキャナドライバ12、プリンタドライバ14は、ソフトウェアであり、図示しないハードディスク等の記憶装置に記憶されている。
【0028】
図1に示す情報機器システムの動作指示は、コンピュータ10の操作パネル17から行うことができる。本実施形態において操作パネル17は、コンピュータ10のディスプレイ上に表示される架空のパネルであり、コンピュータ10を操作するためのキーボードやマウス等の機器により、動作指示を行う。
【0029】
例えば、操作パネル17上にはスキャン&ファイルボタンとスキャン&プリントボタンとが表示されており、スキャン&ファイルボタンで動作指示を行った場合には、スキャナ50は原稿読取動作を開始し、読み取りによって得られた画像データはコンピュータ10に送信され、画像処理部13にて文字認識等の画像処理がなされた後、所定の形式のファイルとしてコンピュータ10内の記憶装置に保存される。
【0030】
また、スキャン&プリントボタンで動作指示を行った場合には、スキャナ50の読み取りによって得られた画像データは、画像処理部13にて文字認識等の画像処理がなされた後、プリンタ60に送信され用紙上に印刷される。
【0031】
次に、画像処理部13について詳細に説明する。
【0032】
画像処理部13は、文字認識部31、文字色検出部32、文字出力形式判定部33、文字画像データ作成部34、文字消去部35、およびファイル作成部36を備えている。
【0033】
文字認識部31は、個々の文字画像から文字コードを認識して文字コードデータを得るほか、文字コードを認識する確からしさの度合いである文字認識確度を検出する。文字画像から文字コードを認識する方法は、例えば、各文字画像の特徴量とあらかじめ記憶されている辞書パターンとの一致の度合いに基づいて行われる。文字認識確度は、例えば10段階で与えられ、値が大きいと文字認識確度が高いことを意味する。また、文字認識部31は、文字画像の位置情報を認識する。個々の文字画像の位置情報は、例えば図3に示すように、画像データの左上を原点として、各文字画像の外接矩形の左上および右下の座標として得られる。さらに、文字認識部31は、文字画像から、フォントの種類やフォントサイズ、さらには斜体などのスタイル、等の文字属性を認識する。フォントは、所定の数種類の代表的な出力フォントに分類されて判別される。また、文字色検出部32は、文字コードが認識された個々の文字画像の色を検出する。
【0034】
文字出力形式判定部33は、画像データ中の文字画像を、文字コードデータに変換するか、あるいは文字コードデータに変換せずに、文字画像を切り出して文字画像データを作成するかの判定を行う。そして、文字画像データ作成部34は、文字画像データを作成する旨の判定が行われた文字画像を、入力された画像データから切り出して文字画像データを作成する。
【0035】
文字消去部35は、元の画像データ、すなわち入力されたカラーの画像データから、文字コードデータまたは文字画像データとされた後の元の文字画像を消去する。
【0036】
ファイル作成部36は、入力された画像データ中の文字画像から得られた文字コードデータや文字画像データを用いて、所定の形式のファイルを作成する。
【0037】
次に、画像処理部13の動作を図4および図5のフローチャートを用いて説明する。
【0038】
まず、スキャナ50で原稿を読み取ることによって得られた画像データに対し、RGB表色系からLab表色系へと色空間の変換を行う(S11)。Lab表色系は、スキャナあるいはプリンタ等の個々の情報機器に依存しないので、ネットワークN上で共通の色情報として扱うことができるものである。
【0039】
次に、文字認識部31に入力する画像データを作成するために、OCR前処理が行われる(S12)。後に文字認識部31がモノクロ2値画像データから特徴量を抽出して文字コードの認識を行うことから、OCR前処理では、まず、Lab表色系で表示されたカラー画像データに対して2値化処理を行うことにより、文字画像が黒で、その背景画像が白のモノクロ2値画像データを作成する。本実施形態では、文字画像およびその背景画像のL、a、bのレベルを検出することにより、例えば白地に書かれた色文字や、色地に書かれた黒文字等が原稿上に表されていても、原稿を読み取って得られた画像データ中の文字画像から十分に文字コードを認識することができるように2値化処理を行う。この他、OCR前処理では、入力された画像データ中の孤立点等のノイズの除去、原稿が傾いて読み取られた場合の補正処理、つぶれたりかすれたりしている文字画像の補正なども行われる。
【0040】
OCR前処理により得られたモノクロ2値画像データは、文字認識部31に入力され、文字認識処理が行われる(S13)。文字認識部31は、モノクロ2値画像データから文字画像が存在する文字領域の抽出を行った後、文字領域内の個々の文字画像から文字コードを認識する。また、文字認識部31は、文字コードを認識する確からしさの度合いである文字認識確度を検出することができ、さらに、文字画像の位置情報のほか、フォントの種類、フォントサイズ、斜体などのスタイル等の文字属性を認識する。この結果、文字認識部31からは、個々の文字画像に対して、文字コードデータの他、文字認識確度、位置情報、およびフォントの種類等の文字属性などの情報が出力される。
【0041】
次いで、文字色検出処理が行われる(S14)。すなわち、文字コードが認識された個々の文字画像の色は、文字色検出部32により検出される。ここでは、Lab表色系に色変換された画像データが使用される。文字画像の色の検出は、例えば、画像データ中の文字画像が存在する文字領域のLabの値を読み取り、文字画像を構成する全画素について、L、a、bそれぞれの平均値を求めることにより行う。文字画像とその背景画像との画素の区別は、OCR前処理(S12)で得られたモノクロ2値画像データを用いて行う。つまり、個々の文字画像の外接矩形内において、モノクロ2値画像データにおける黒画素を文字画像の画素、白画素を背景画像の画素と区別することができる。
【0042】
文字画像を文字コードデータに変換して出力する場合、文字色検出部32により検出された個々の文字画像の色情報に基づいて、色を指定して文字コードデータが出力される。これにより、例えば原稿上の文字の色を再現することができる。
【0043】
そして、画像データ中の個々の文字画像について出力形式の判定処理が行われる(S15)。すなわち、文字出力形式判定部33により、画像データ中の文字画像を、文字コードデータに変換するか、あるいは文字コードデータに変換せずに、文字画像を切り出して文字画像データを作成するかの判定が行われる。
【0044】
文字出力形式判定部33は、まず、文字認識確度が所定値以上の文字画像を、文字コードデータに変換する候補の文字画像とし、文字認識確度が所定値より小さい文字画像を、文字画像データを作成する候補の文字画像とする。そして、文字出力形式判定部33は、単語や文字画像ブロック内での後述する特別な文字出力形式の判定処理が行われない場合には、個々の文字画像ごとに、候補とされた内容通りの文字出力形式の判定を行う。すなわち、文字認識確度が所定値以上の文字コードデータ候補の文字画像は、文字コードデータで出力し、文字認識確度が所定値より小さい文字画像データ候補の文字画像は、文字画像データで出力する旨の文字出力形式の判定が行われる。
【0045】
本実施形態の文字出力形式判定部33は、個々の文字画像が複数集合して形成された文字画像集合として、単語と、パラグラフ程度に文字画像が存在する集合である文字画像ブロックとを取り上げ、それらの文字画像集合の中に、文字認識確度が所定値より小さい文字画像データ候補の文字画像がどの程度混在しているかを検出して、以下に説明するように文字コードデータと文字画像データとを違和感なく出力させるための判定を行う。
【0046】
具体的には、図5に示すように、まず、注目する単語の順番を示す変数jと、注目する文字画像ブロックの順番を示す変数kとを初期化する(S21)。
【0047】
次に、注目単語についての出力形式の判定を開始する。すなわち、注目単語内の個々の文字画像の中で、例えば10段階で表される文字認識確度Cが所定の閾値Th1より小さい文字画像データ候補の文字画像がいくつあるかをカウントし、Nb とする(S22)。なお、閾値Th1は、適宜設定することができる。
【0048】
注目単語内において、文字画像データ候補の文字画像の数Nb が所定の閾値Th2より大きい場合(S23でYES)、注目単語内の全文字画像を切り出して文字画像データを作成する旨の出力形式の判定を行う(S24)。なお、閾値Th2は、適宜設定することができ、例えば文字画像データ候補の文字画像の数が1個以上あった場合でも注目単語内の全文字画像を切り出して文字画像データを作成すると判定させることが可能である。また、閾値Th2は、例えば単語内の文字画像の総数によって変化させることも可能である。さらに、注目単語内における文字画像データ候補の文字画像の数Nb を判定に使用する代わりに、数Nb を単語内の文字画像の総数で除した割合を判定に使用することも勿論可能である。
【0049】
そして、注目する単語の順番を示す変数jを繰り上げ(S25)、画像データ内の全単語について、上記の処理を繰り返し行う(S26)。
【0050】
次に、注目文字画像ブロックについての出力形式の判定を開始する。本実施形態では、文字画像ブロック内に存在する個々の文字画像の総数Nt が所定の閾値Th3以下である場合(S27でYES)にのみ、特別な文字出力形式の判定を行うようにしている。
【0051】
まず、上記した注目単語についての文字出力形式の判定と同様に、注目文字画像ブロック内の個々の文字画像の中で、文字認識確度Cが所定の閾値Th1より小さい文字画像データ候補の文字画像がいくつあるかをカウントし、Nb とする(S28)。
【0052】
注目文字画像ブロック内において、文字画像データ候補の文字画像の数Nb を文字画像の総数Nt で除した割合Nb /Nt が所定の閾値Th4より大きい場合(S29でYES)、注目文字画像ブロック内の全文字画像を切り出して文字画像データを作成する旨の文字出力形式の判定を行う(S30)。なお、閾値Th4は、例えば60%等、適宜設定することができ、例えば文字画像ブロック内の文字画像の総数Nt によって変化させることも可能である。さらに、割合Nb /Nt の閾値Th4を判定に使用する代わりに、文字画像データ候補の文字画像の数Nb を判定に使用することも勿論可能である。
【0053】
一方、文字画像ブロック内に存在する個々の文字画像の総数Nt が所定の閾値Th3より大きい場合(S27でYES)、上記した特別な文字出力形式の判定処理は行われない。
【0054】
つまり、本実施形態では、文字画像ブロックは、前述したように、例えば図6に示される矩形領域R1 ,R2 等のような、パラグラフ程度に文字画像が存在する集合をいう。ここで、閾値Th3は、適宜設定することができ、例えば若干少なく設定し、タイトルや脚注等の1〜2行の文字画像からなる文字画像ブロックについて文字出力形式の判定処理を行うようにしてもよい。特に、タイトルには、様々なフォントが使われており、文字画像データと文字コードデータとが混在して出力されると、フォントの差異が目立つ可能性が高いので、文字画像ブロック単位で文字出力形式の判定を行う利点が大きい。なお、あまり一般的でないフォントが使われていると文字認識確度も全体的に低下するので、原稿上のフォントが文字コード認識の際に想定している一般的なフォントと異なる場合には、画像データ中の文字画像は、結果的に、文字コードデータに変換されずに文字画像データで出力されることになる。
【0055】
そして、注目する文字画像ブロックの順番を示す変数kを繰り上げ(S31)、画像データ内の全文字画像ブロックについて、上記の処理を繰り返し行う(S32)。
【0056】
このようにして、画像データ中の個々の文字画像について文字出力形式の判定処理が終了すると、図4に示すメインフローチャートに戻り、文字画像データの作成が行われる(S16)。すなわち、文字認識部31から出力される文字画像の位置情報にしたがって、画像データ中の文字画像を切り出して文字画像データを作成する。このとき、個々の文字画像ごとに外接矩形領域の画像データが切り出される。但し、単語や文字画像ブロック内の全文字画像を切り出して文字画像データを作成するような、連続した文字画像の集合を切り出す場合、例えば単語内のn番目の文字画像の位置情報、すなわち外接矩形の左上および右下の座標を(X1n,Y1n)、(X2n,Y2n)とすると、(Min(X1n),Min(Y1n))、(Max(X2n),Max(Y2n))で指定される単語内の全文字画像を含む矩形領域の画像データが切り出される。
【0057】
ここで、文字画像データとして出力する文字画像を、原稿を読み取って得られた画像データとして元の位置に残さず、例えば単語単位で切り出すのは、文字コードデータと文字画像データとが重ならないようにするためである。つまり、一般に入力フォントと出力フォントとが全く同じである場合は少ないので、例えば文字画像から変換された文字コードデータが配置される位置と、入力された画像データ中の当該文字画像の位置とは、多少ずれてしまう。したがって、文字画像を、一文字画像ずつ、あるいは一単語ずつ切り出さずに画像データとして元の位置に残した場合、そのまま文字コードデータを配置すると、文字コードデータと原稿を読み取って得られた元の画像データ中の文字画像とが重なるといった問題が生じ得る。そこで、本実施形態では、一文字画像ずつ、あるいは一単語ずつ切り出しておいて、文字画像データを作成し、例えば文字コードデータを出力フォントで配置した位置に続けて、切り出しておいた文字画像データを配置する。
【0058】
次に、文字消去処理が行われる(S17)。すなわち、文字画像から文字コードデータまたは文字画像データを得た後、文字消去部35により、原稿を読み取って得られたカラーの画像データから、文字コードデータまたは文字画像データとされた後の元の文字画像が消去される。
【0059】
図7は、文字消去処理を説明するための図である。図7に示すように、個々の文字画像の外接矩形内における画像データ(図7(A))から、文字画像に当たる部分を一旦消去し(図7(B))、周囲の画像データで補完する(図7(C))。消去する部分は、当該文字画像の外接矩形内におけるモノクロ2値画像データから黒を2〜3画素膨張させる処理を行うことによって求める。なお、原稿を読み取って得られた元の画像データから文字画像に当たる部分を除去した後の画像データには、図7(B)に示すように、文字画像以外の画像データ、すなわち、写真や線画に対応する画像、背景画像などが残っている。
【0060】
以上の処理を実施することにより、例えば図8に示すように、画像データ中の文字画像から、文字コードデータD1 と文字画像データD2 とが、また、非文字画像である図形画像をそのまま残した画像データD3 が得られる。
【0061】
そして、これらの文字コードデータ、文字画像データ、および画像データは、所定のファイル形式でページ内に配置されて保存される(S18)。なお、スキャン&プリントボタンが選択されている場合は、所定のデータがプリンタ60に送信されて用紙に印刷される。
【0062】
このように、本実施形態によれば、文字コードデータと文字画像データとの双方を、両者の位置ずれやフォントの差異を目立たなくしてユーザに与える違和感を低減しつつ、自然に配置することが可能となる。
【0063】
図9は、本発明の第2実施形態に係る画像認識装置の文字出力形式判定処理を示すサブルーチンのフローチャートである。
【0064】
この第2実施形態は、上述した第1実施形態と画像認識処理における文字出力形式判定処理(図4のS15)の内容(図5参照)が相違している。以下、第2実施形態の画像認識処理について、第1実施形態との相違点を中心に説明する。
【0065】
スキャナ50で原稿を読み取ることによって得られた画像データに対し、図4に示すように、色空間の変換(S11)、OCR前処理(S12)、文字認識処理(S13)、および文字色検出処理(S14)が、上述した第1実施形態と同様に行われた後、画像データ中の個々の文字画像について文字出力形式の判定処理が行われる(S15)。すなわち、文字出力形式判定部33により、画像データ中の文字画像を、文字コードデータに変換するか、あるいは文字コードデータに変換せずに、文字画像を切り出して文字画像データを作成するかの判定が行われる。
【0066】
本実施形態の文字出力形式判定部33は、個々の文字画像ごとに、文字認識確度が所定値より小さく、かつ、文字画像の並び方向の端縁を通る並び方向に垂直な直線が隣接する文字画像と交わるような特定文字画像が存在するか否かを検出し、以下に説明するように文字コードデータと文字画像データとを違和感なく出力させるための判定を行う。
【0067】
具体的には、図9に示すように、まず、注目する個々の文字画像の順番を示す変数nを初期化する(S41)。
【0068】
次に、注目文字画像の文字認識確度Cが所定の閾値Th より小さいか否かが判断される(S42)。文字出力形式判定部33は、あらかじめ、文字認識確度Cが所定の閾値Th 以上の文字画像を、文字コードデータに変換する候補の文字画像とし、文字認識確度Cが所定の閾値Th より小さい文字画像を、文字画像データを作成する候補の文字画像とする。そして、文字出力形式判定部33は、斜体の文字画像やカーニングが行われる文字画像に対する後述する特別な出力形式の判定処理が行われない場合には、個々の文字画像ごとに、候補とされた内容通りの文字出力形式の判定を行う。すなわち、文字認識確度Cが閾値Th 以上の文字コードデータ候補の文字画像は、文字コードデータで出力し、文字認識確度Cが閾値Th より小さい文字画像データ候補の文字画像は、文字画像データで出力する旨の出力形式の判定が行われる(S43、S44)。なお、閾値Th1は、適宜設定することができる。
【0069】
このように、文字出力形式判定部33は、基本的には、個々の文字画像ごとに、候補とされた内容通りの文字出力形式の判定を行うが、文字画像の並び方向の端縁を通る並び方向に垂直な直線が隣接する文字画像と交わるような、斜体の文字画像やカーニングが行われる文字画像について、同様の判定を行うと問題が生じる。つまり、前述したように、用紙上に印刷された文字の一部において文字コードデータで印刷された文字と文字画像データで印刷された文字とが2重書きになったり、あるいは文字コードデータで印刷された文字の一部が文字画像データで印刷された文字によって上書きされて継ぎ目でずれてしまったりする。そこで、本実施形態では、個々の文字画像について、文字コードデータ候補の文字画像か、あるいは文字画像データ候補の文字画像かを決定した後に、以下に述べるように、さらに当該文字画像が斜体の文字画像やカーニングが行われる文字画像であるか否かを調べ、適切な文字出力形式の判定を行う。
【0070】
すなわち、注目文字画像の文字認識確度Cが所定の閾値Th より小さい場合、当該文字画像が斜体を呈しているか否かが判断される(S45)。文字画像が斜体を呈しているか否かの文字属性の情報は、文字認識部31で認識され、個々の文字画像ごとに文字属性情報として記憶されている。そして、当該文字画像が斜体を呈している場合(S45でYES)、当該斜体の文字画像を含む文字画像集合としての単語内の全文字画像を切り出して文字画像データを作成する旨の出力形式の判定を行う(S46)。
【0071】
次に、注目文字画像が、1つ前の文字画像とカーニングが行われる組を形成しているか否かが判断される(S47)。カーニングが行われる文字画像の組は、あらかじめデータとして記憶されており、例えば、WA、VA、We等が挙げられる。なお、カーニングが行われる組を形成しているとの判断には、組を成す個々の文字画像がそれぞれ外接矩形の位置情報を有していて、両者の隙間が詰められる処理がなされている場合だけではなく、組を成す2つの文字画像の隙間があらかじめ詰められていて、一体となった1つの外接矩形の位置情報を有している場合も含まれる。また、注目文字画像が、1つ後の文字画像あるいは前後の文字画像とカーニングが行われる組を形成しているか否かを判断するようにしてもよい。
【0072】
当該注目文字画像が1つ前の文字画像とカーニングが行われる組を形成している場合(S47でYES)、文字画像集合としてのカーニングが行われる組を成す両文字画像を切り出して文字画像データを作成する旨の出力形式の判定を行う(S48)。なお、この場合(S47でYES)、カーニングが行われる組を含む単語内の全文字画像を切り出して文字画像データを作成する旨の出力形式の判定を行うことも可能である。
【0073】
そして、注目する文字画像の順番を示す変数nを繰り上げ(S49)、画像データ内の全文字画像について、上記の処理を繰り返し行う(S50)。
【0074】
このようにして、画像データ中の個々の文字画像について文字出力形式の判定処理が終了すると、図4に示すメインフローチャートに戻り、文字画像データの作成が行われる(S16)。すなわち、文字認識部31から出力される文字画像の位置情報にしたがって(図3参照)、画像データ中の文字画像を切り出して文字画像データを作成する。
【0075】
このとき、個々の文字画像ごとに外接矩形領域の画像データが切り出される。
但し、単語内の全文字画像や、カーニングが行われる組を成す両文字画像を切り出して文字画像データを作成するような、連続した文字画像の集合の切り出しは、以下のように行われる。
【0076】
例えば、図10に示すように、文字画像が斜体を呈している場合、斜体の文字画像を含む単語内のn番目の文字画像の位置情報、すなわち外接矩形の左上および右下の座標を(X1n,Y1n)、(X2n,Y2n)とすると、(Min(X1n),Min(Y1n))、(Max(X2n),Max(Y2n))で指定される単語内の全文字画像を含む矩形領域の画像データが切り出される。
【0077】
また、図11に示すように、文字画像がカーニングが行われる組を形成している場合、前の文字画像の位置情報、すなわち外接矩形の左上および右下の座標を(X1n,Y1n)、(X2n,Y2n)、後の文字画像の位置情報を(X1n+1,Y1n+1)、(X2n+1,Y2n+1)とすると、(X1n,Y1n)、(X2n+1,Y2n+1)で指定される矩形領域の画像データが切り出される。
【0078】
ここで、文字画像データとして出力する文字画像を、原稿を読み取って得られた画像データとして元の位置に残さず、例えば単語単位で切り出すのは、前述したように、文字コードデータと文字画像データとが重ならないようにするためである。
【0079】
次に、上記した第1実施形態と同様にして、文字消去処理(S17)、および所定の形式でのファイル作成(S18)が行われる。なお、スキャン&プリントボタンが選択されている場合は、所定のデータがプリンタ60に送信されて用紙に印刷される。
【0080】
このように、本実施形態によれば、文字コードデータと文字画像データとの双方を、両者が2重書きされたり継ぎ目でずれてしまったりすることを防止してユーザに与える違和感を低減しつつ、自然に配置することが可能となる。
【0081】
本発明は、上記した実施形態のみに限定されるものではなく、特許請求の範囲内において、種々改変することができる。
【0082】
例えば、上記実施形態では、入力された画像データの色空間を、RGB表色系からLab表色系に変換して画像処理するようにしたが、スキャナ50で読み取って得られた画像データのRGB表色系等、他の色空間を使用して画像処理を行うことも可能である。
【0083】
また、文字出力形式判定部33は、文字コードデータ変換候補の文字画像であるか否かを決定するための評価量として、文字認識確度を用いたが、この文字認識確度以外に、文字画像の位置情報や色情報から得られる文字らしさ(文字連続性)の度合いを組み合わせた評価量を用いることも可能である。
【0084】
また、注目単語あるいは文字画像ブロック内の全文字画像を切り出して文字画像データを作成する旨の判定を行う際に、例えば注目単語内における文字認識確度が所定値より小さい文字画像の数Nb を判定に使用したが、注目単語内における全文字画像の文字認識確度の平均値を判定に使用することも可能である。
【0085】
また、上記実施形態では、画像認識装置としてコンピュータを例に挙げて説明したが、本発明の画像認識装置はこれに限定されるものではなく、例えば同様の処理をスキャナで行ってコンピュータやプリンタ等に送信するシステム、スキャナから直接画像データを受信してプリンタで同様の処理を行うシステム、原稿の読み取りから用紙への印刷までの処理をカラーのデジタルコピー機ですべて行うシステム、等にも適用することが可能である。
【0086】
なお、上記した実施形態において、画像認識の制御は、上記した処理手順(図4、図5等参照)を記述した所定のプログラムを主制御部11が実行することによって行われるものであり、この所定のプログラムは、コンピュータ読取可能な記録媒体(例えば、フロッピーディスクやCD−ROM等)によって提供されることもできる。また、この所定のプログラムは、上記各処理を実行するアプリケーションソフトウェアとして提供されてもよいし、コンピュータ、デジタルコピー機、スキャナ、プリンタ等の各情報機器や管理サーバの一機能として各情報機器や管理サーバのソフトウェアに組み込んでもよい。
【0087】
【発明の効果】
以上説明したように、本発明によれば、文字画像集合の中に、文字認識確度が所定確度より低い文字画像が含まれている場合、当該文字画像集合全体に対して文字コードデータへの変換を制止することによって、文字コードデータと文字画像データとが混在することによる両者の位置ずれやフォントの差異を目立たなくすることができ、ユーザに与える違和感を低減することが可能となる。
【0088】
また、文字認識確度が所定確度より小さく、かつ、文字画像の並び方向の端縁を通る並び方向に垂直な直線が隣接する文字画像と交わる特定文字画像が存在する場合、当該特定文字画像を含み個々の文字画像が複数集合して形成された文字画像集合全体に対して文字コードデータへの変換を制止することによって、文字コードデータと文字画像データとが2重書きされたり継ぎ目でずれてしまったりすることを防止することができ、ユーザに与える違和感を低減することが可能となる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態に係る画像認識装置を含む情報機器システムの構成図である。
【図2】 図1に示されるコンピュータの概略構成を示すブロック図である。
【図3】 各文字画像の位置情報を説明するための図である。
【図4】 画像認識処理を示すフローチャートである。
【図5】 図4に示される文字出力形式判定処理を示すサブルーチンのフローチャートである。
【図6】 文字画像ブロックを説明するための図である。
【図7】 文字消去処理を説明するための図である。
【図8】 文字コードデータ、文字画像データ、および非文字画像である図形画像をそのまま残した画像データを配置した図である。
【図9】 本発明の第2実施形態に係る画像認識装置の文字出力形式判定処理を示すサブルーチンのフローチャートである。
【図10】 単語内の斜体の全文字画像を含む矩形領域の画像データが切り出された一例を示す図である。
【図11】 カーニングが行われる組の両文字画像を含む矩形領域の画像データが切り出された一例を示す図である。
【図12】 従来の画像認識装置により、文字コードデータと文字画像データとを配置した一例を示す図である。
【図13】 従来の画像認識装置により、文字コードデータと文字画像データとを配置した一例を示す図である。
【符号の説明】
10…コンピュータ(画像認識装置)、
31…文字認識部、
33…文字出力形式判定部、
36…ファイル作成部。
Claims (6)
- 画像認識装置において、
画像データ中の文字画像から文字コードを認識する文字認識部と、
文字コードに応じて、文字画像を文字コードデータに変換する変換部と、
文字認識部における認識の確からしさである文字認識確度を検出する文字認識確度検出部と、
個々の文字画像が複数集合して形成された単語単位の文字画像集合の中に含まれる、文字認識確度が所定確度より低い文字画像の個数をカウントする低確度文字画像カウント部と、
前記低確度文字画像カウント部がカウントした個数を、前記文字画像集合の中に含まれる文字画像の総数で除した割合が、当該文字画像集合の中に含まれる文字画像の総数によって変化する所定割合より大きい場合、当該文字画像集合全体に対して文字コードデータへの変換を制止する制御部と、
を有することを特徴とする画像認識装置。 - 電子ファイルを作成するファイル作成部、をさらに有することを特徴とする請求項1に記載の画像認識装置。
- 原稿を読み取ることによって画像データを得るスキャナ部、をさらに有することを特徴とする請求項1に記載の画像認識装置。
- 画像データを受信する画像データ受信部と、データを用紙に印刷するプリント部と、をさらに有することを特徴とする請求項1に記載の画像認識装置。
- 画像認識方法において、
画像データ中の文字画像から文字コードを認識する過程と、
文字コードを認識する際の認識の確からしさである文字認識確度を検出する過程と、
個々の文字画像が複数集合して形成された単語単位の文字画像集合の中に含まれる、文字認識確度が所定確度より低い文字画像の個数をカウントする過程と、
文字認識確度が所定確度より低い前記文字画像の個数を、前記文字画像集合の中に含まれる文字画像の総数で除した割合が、当該文字画像集合の中に含まれる文字画像の総数によって変化する所定割合より大きい場合、当該文字画像集合全体に対して文字コードに応じた文字コードデータへの変換を制止する過程と、
を有することを特徴とする画像認識方法。 - 画像認識プログラムを記録したコンピュータ読取可能な記録媒体であって、
画像データ中の文字画像から文字コードを認識する過程と、
文字コードを認識する際の認識の確からしさである文字認識確度を検出する過程と、
個々の文字画像が複数集合して形成された単語単位の文字画像集合の中に含まれる、文字認識確度が所定確度より低い文字画像の個数をカウントする過程と、
文字認識確度が所定確度より低い前記文字画像の個数を、前記文字画像集合の中に含まれる文字画像の総数で除した割合が、当該文字画像集合の中に含まれる文字画像の総数によって変化する所定割合より大きい場合、当該文字画像集合全体に対して文字コードに応じた文字コードデータへの変換を制止する過程と、
をコンピュータに実行させるための画像認識プログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000185267A JP4655335B2 (ja) | 2000-06-20 | 2000-06-20 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
US09/880,007 US6937762B2 (en) | 2000-06-20 | 2001-06-14 | Image processing device and program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000185267A JP4655335B2 (ja) | 2000-06-20 | 2000-06-20 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002007963A JP2002007963A (ja) | 2002-01-11 |
JP4655335B2 true JP4655335B2 (ja) | 2011-03-23 |
Family
ID=18685607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000185267A Expired - Fee Related JP4655335B2 (ja) | 2000-06-20 | 2000-06-20 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6937762B2 (ja) |
JP (1) | JP4655335B2 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4189506B2 (ja) * | 2000-06-09 | 2008-12-03 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理のための装置、方法及び記録媒体 |
JP4189654B2 (ja) * | 2003-04-18 | 2008-12-03 | セイコーエプソン株式会社 | 画像処理装置 |
US7870504B1 (en) * | 2003-10-01 | 2011-01-11 | TestPlant Inc. | Method for monitoring a graphical user interface on a second computer display from a first computer |
JP2005301664A (ja) * | 2004-04-12 | 2005-10-27 | Fuji Xerox Co Ltd | 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム |
US20060136413A1 (en) * | 2004-12-16 | 2006-06-22 | Kabushiki Kaisha Toshiba | Program |
JP4329764B2 (ja) * | 2006-01-17 | 2009-09-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および罫線抽出プログラム |
JP4424309B2 (ja) * | 2006-01-23 | 2010-03-03 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、文字判定プログラム、および文字判定方法 |
JP4089736B2 (ja) * | 2006-05-26 | 2008-05-28 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
JP4135752B2 (ja) * | 2006-06-12 | 2008-08-20 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
CA2598400A1 (en) * | 2007-08-22 | 2009-02-22 | Hazem Y. Abdelazim | System and method for onscreen text recognition for mobile devices |
JP4973536B2 (ja) * | 2008-02-19 | 2012-07-11 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP4600491B2 (ja) * | 2008-02-26 | 2010-12-15 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
TW201001303A (en) * | 2008-06-27 | 2010-01-01 | Univ Nat Taiwan Science Tech | System and method for recognizing document immediately |
JP4711093B2 (ja) * | 2008-08-28 | 2011-06-29 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP4772888B2 (ja) * | 2009-03-27 | 2011-09-14 | シャープ株式会社 | 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 |
US8571270B2 (en) | 2010-05-10 | 2013-10-29 | Microsoft Corporation | Segmentation of a word bitmap into individual characters or glyphs during an OCR process |
JP2012221095A (ja) * | 2011-04-06 | 2012-11-12 | Sony Corp | 情報処理装置および方法、プログラム、並びに撮像装置 |
JP6102156B2 (ja) * | 2012-09-28 | 2017-03-29 | オムロン株式会社 | 画像処理システムおよび画像処理方法 |
US20140198969A1 (en) * | 2013-01-16 | 2014-07-17 | Kenya McRae | Device and Method for Contribution Accounting |
JP6769045B2 (ja) * | 2016-02-29 | 2020-10-14 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプログラム |
JP6804292B2 (ja) * | 2016-12-28 | 2020-12-23 | オムロンヘルスケア株式会社 | 端末装置 |
JP7263721B2 (ja) * | 2018-09-25 | 2023-04-25 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225565A (ja) * | 1990-01-31 | 1991-10-04 | Teremateiiku Kokusai Kenkyusho:Kk | 文書処理装置 |
JPH04293185A (ja) * | 1991-03-20 | 1992-10-16 | Ricoh Co Ltd | ファイリング装置 |
JPH08190604A (ja) * | 1994-08-31 | 1996-07-23 | Adobe Syst Inc | ラスタ画像表示用ハイブリッドデータ構造生成方法及び装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0537700A (ja) * | 1991-07-26 | 1993-02-12 | Ricoh Co Ltd | フアクシミリ装置 |
JPH0620089A (ja) * | 1992-06-30 | 1994-01-28 | Canon Inc | データ入力装置及びデータ処理装置 |
JPH0991371A (ja) | 1995-09-21 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 文字表示装置 |
JPH09116720A (ja) * | 1995-10-20 | 1997-05-02 | Matsushita Graphic Commun Syst Inc | Ocrファクシミリ装置とこの通信システム |
JPH10124618A (ja) * | 1996-10-18 | 1998-05-15 | Brother Ind Ltd | 文字認識装置 |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
JPH10290349A (ja) | 1997-04-14 | 1998-10-27 | Ricoh Co Ltd | ファクシミリ装置 |
JPH10313372A (ja) | 1997-05-13 | 1998-11-24 | Sanyo Electric Co Ltd | データ通信装置 |
-
2000
- 2000-06-20 JP JP2000185267A patent/JP4655335B2/ja not_active Expired - Fee Related
-
2001
- 2001-06-14 US US09/880,007 patent/US6937762B2/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225565A (ja) * | 1990-01-31 | 1991-10-04 | Teremateiiku Kokusai Kenkyusho:Kk | 文書処理装置 |
JPH04293185A (ja) * | 1991-03-20 | 1992-10-16 | Ricoh Co Ltd | ファイリング装置 |
JPH08190604A (ja) * | 1994-08-31 | 1996-07-23 | Adobe Syst Inc | ラスタ画像表示用ハイブリッドデータ構造生成方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US6937762B2 (en) | 2005-08-30 |
JP2002007963A (ja) | 2002-01-11 |
US20010055423A1 (en) | 2001-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4655335B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
US8320019B2 (en) | Image processing apparatus, image processing method, and computer program thereof | |
US6940617B2 (en) | Printing control interface system and method with handwriting discrimination capability | |
US6173073B1 (en) | System for analyzing table images | |
US7035463B1 (en) | Document image processor, method for extracting document title, and method for imparting document tag information | |
US7805022B2 (en) | Image processing apparatus, image processing method and computer program | |
US7321688B2 (en) | Image processor for character recognition | |
US8126270B2 (en) | Image processing apparatus and image processing method for performing region segmentation processing | |
JP2001297303A (ja) | 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体 | |
JP2001351066A (ja) | 文書認識処理のための装置、方法及び記録媒体 | |
US6885768B2 (en) | Image recognition apparatus, method and program product | |
US11341733B2 (en) | Method and system for training and using a neural network for image-processing | |
US11568623B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP4613397B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
US8229214B2 (en) | Image processing apparatus and image processing method | |
US5467410A (en) | Identification of a blank page in an image processing system | |
US8181108B2 (en) | Device for editing metadata of divided object | |
JP4165435B2 (ja) | 画像形成装置およびプログラム | |
JP2021044803A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US8331736B2 (en) | Image processing device and method therefor | |
JP4281236B2 (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JP4710672B2 (ja) | 文字色判別装置、文字色判別方法、およびコンピュータプログラム | |
JP5517028B2 (ja) | 画像処理装置 | |
JP2002049890A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JPH04130979A (ja) | 文字画像切出し方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040423 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070521 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100301 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101019 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101213 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4655335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |