JP5039449B2 - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP5039449B2
JP5039449B2 JP2007167198A JP2007167198A JP5039449B2 JP 5039449 B2 JP5039449 B2 JP 5039449B2 JP 2007167198 A JP2007167198 A JP 2007167198A JP 2007167198 A JP2007167198 A JP 2007167198A JP 5039449 B2 JP5039449 B2 JP 5039449B2
Authority
JP
Japan
Prior art keywords
analysis
character
unit
fluctuation amount
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007167198A
Other languages
English (en)
Other versions
JP2009009179A (ja
Inventor
明 廣瀬
純平 小山
雅弘 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
University of Tokyo NUC
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, University of Tokyo NUC, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2007167198A priority Critical patent/JP5039449B2/ja
Publication of JP2009009179A publication Critical patent/JP2009009179A/ja
Application granted granted Critical
Publication of JP5039449B2 publication Critical patent/JP5039449B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置及び画像処理プログラムに関する。
手書きの文字と活字文字が不特定箇所に混在する画像データにおいて、手書き文字が存在する領域を特定する技術がある。例えば、文字毎のサイズや並びに着目し、これらのバラツキが比較的大きなものが手書き文字であると判断するというようなことが行われている。
これらに関連する技術として、例えば、特許文献1には、手書き文字は活字文字に比べてピッチがバラつくことに着目して、文字行を切り出し、切り出した文字行においてそのピッチのバラツキを調べる技術が開示されている。
また、例えば、特許文献2には、処理速度の低下を極力少なくすると共に手書き文字と活字との相互の誤認を救済することを課題とし、光学式文字読取装置は、帳票の紙面イメージを光学的に取り込み2値画像に変換する画像入力部と、この2値画像から文字領域の切出しを行う領域切出し部と、切出された文字領域から文字パターンを1文字ずつ切出す文字切出し部と、文字パターンの縦・横サイズ及び文字間隔に基づいて読取る文字領域が活字領域であるのか手書き文字領域であるのかを判定する字体判定部と、字体判定部での判定結果に基づき、手書き文字辞書又は活字辞書のいずれか一方の辞書を用いて照合を行う照合部と、照合結果を判定する照合結果判定部と、前記した各部の動作制御を行う制御部とから構成され、なお、照合結果判定部には、判定後の動作内容を変更したものがあることが開示されている。
また、例えば、特許文献3には、1文字の文字データの中から、活字又は手書き文字に応じて異なる簡単な特徴を抽出し、対象文字が活字であるか手書き文字であるかを高精度に判定することを課題とし、特徴抽出部は、文字データ抽出部で抽出された1文字の文字データの中から、文字が活字であるか手書き文字であるかを判定するための特徴(文字ストロークの方向性、太さ、直線性など)を抽出し、文字種類判定部は、その特徴に基づいて活字であるか手書き文字であるかを判定し、その判定結果に応じて、活字文字認識部、手書き文字認識部のいずれかを実行させることが開示されている。
また、例えば、特許文献4には、手書き文字と活字文字を高精度に短時間で識別できるようにし、文字認識処理に要する時間を短縮化することを課題とし、文書又は帳票等から読み取られた画像データから文字パターンを抽出し、手書き/活字判別部では、文字パターンから、少なくとも文字パターンの複雑さを表す特徴と、直線性を表す特徴を含むN個の特徴ベクトルを求め、この特徴ベクトルを用いて、前記文字パターンが手書き文字であるか活字文字であるかを判別し、文字認識部では、文字データが手書き文字か活字文字かに応じて、対応した文字認識処理を行い、前記文字パターンの特徴として、線幅のバラツキ、文字位置のバラツキ等を用いることもできることが開示されている。
また、例えば、特許文献5には、単独では正確な判定を可能としない特徴量を複数組み合わせて印刷活字であるか手書き文字であるかの判定を行う構成として、単独の特徴量を用いた場合より正確な判定を行うことができるようにした文字認識方法及び文字認識装置を提供することを課題とし、特徴抽出手段は、文字抽出手段で抽出された文字群毎に、印刷活字と手書き文字の判定に用いる特徴量を一種類又は複数種類抽出し、また、特徴量の値が求まらないか無意味である場合には、値として「不定」を抽出結果とすることが開示されている。
特開昭57−111679号公報 特開平10−149409号公報 特開平10−162102号公報 特開2000−181993号公報 特開2004−094734号公報
従来の技術は、前述したように、主に文字毎のサイズや並びに着目し、これらのバラツキが比較的大きなものが手書き文字であると判断する、というものが知られている。
しかしながら、これらの方式は、バラツキが少ない整った手書き文字については検出できない。すなわち、個人差を吸収できないという課題がある。また、判別対象とする言語の個々の文字形状や、文章として各文字が配置された文字列の幾何特徴に強く依存した手法となる傾向にあり、実用化の際には対象とする言語それぞれにおいて、数多くの手書き文字のサンプル画像を集めて、判定のための各種しきい値を経験的に決定する必要がある。
本発明は、前記課題を鑑み、筆記者の個人差又は言語依存性を少なくするように、画像データから手書き文字領域を特定する画像処理装置及び画像処理プログラムを提供することを目的とする。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1] 手書き文字と活字文字が混在する画像データを対象として、空間周波数又は周期性の解析を行う解析手段と、
前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数のある方向への依存性を評価する方向性評価手段と、
前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数の等方性を評価する等方性評価手段と、
前記方向性評価手段による評価結果である方向性評価結果及び前記等方性評価手段による評価結果である等方性評価結果を前記画像データのテクスチャ特徴ベクトルとし、該テクスチャ特徴ベクトルに応じて、前記画像データ内の線分の揺らぎ量特徴を算出する揺らぎ量特徴算出手段と、
前記揺らぎ量特徴算出手段によって算出された線分の揺らぎ量特徴に基づいて、手書き文字が存在する領域を特定する手書き文字領域特定手段
を具備することを特徴とする画像処理装置。
[2] 前記解析手段は、フーリエ変換又はウェーブレット変換によって解析を行う
ことを特徴とする[1]に記載の画像処理装置。
[3] 前記解析手段における解析対象範囲は、注目する領域に存在する連結画素成分の大きさに基づいて決定する
ことを特徴とする[1]に記載の画像処理装置。
[4] 前記方向性評価手段が評価する方向は、水平方向、垂直方向、又は斜め45度方向のいずれか1つ以上を含むものである
ことを特徴とする[1]に記載の画像処理装置。
[5] 前記手書き文字領域特定手段は、
前記テクスチャ特徴ベクトルから前記揺らぎ量特徴算出手段によって算出された揺らぎ量に基づいて、前記画像データを分割する画像データ領域分割手段
を備えることを特徴とする[1]に記載の画像処理装置。
[6] コンピュータを、
手書き文字と活字文字が混在する画像データを対象として、空間周波数又は周期性の解析を行う解析手段と、
前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数のある方向への依存性を評価する方向性評価手段と、
前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数の等方性を評価する等方性評価手段と、
前記方向性評価手段による評価結果である方向性評価結果及び前記等方性評価手段による評価結果である等方性評価結果を前記画像データのテクスチャ特徴ベクトルとし、該テクスチャ特徴ベクトルに応じて、前記画像データ内の線分の揺らぎ量特徴を算出する揺らぎ量特徴算出手段と、
前記揺らぎ量特徴算出手段によって算出された線分の揺らぎ量特徴に基づいて、手書き文字が存在する領域を特定する手書き文字領域特定手段
として機能させることを特徴とする画像処理プログラム。
[7] 前記解析手段は、フーリエ変換又はウェーブレット変換によって解析を行う
ことを特徴とする[6]に記載の画像処理プログラム。
[8] 前記解析手段における解析対象範囲は、注目する領域に存在する連結画素成分の大きさに基づいて決定する
ことを特徴とする[6]に記載の画像処理プログラム。
[9] 前記方向性評価手段が評価する方向は、水平方向、垂直方向、又は斜め45度方向のいずれか1つ以上を含むものである
ことを特徴とする[6]に記載の画像処理プログラム。
[10] 前記手書き文字領域特定手段は、
前記テクスチャ特徴ベクトルから前記揺らぎ量特徴算出手段によって算出された揺らぎ量に基づいて、前記画像データを分割する画像データ領域分割手段
を備えることを特徴とする[6]に記載の画像処理プログラム。
請求項1記載の画像処理装置によれば、筆記者の個人差又は言語依存性を少なくするように、画像データから手書き文字領域を特定することができる。
請求項2記載の画像処理装置によれば、より高速で、的確な空間周波数の解析を行うことができる。
請求項3記載の画像処理装置によれば、個々の文字の大きさに依存しない解析を行うことができる。
請求項4記載の画像処理装置によれば、手書き文字の揺らぎを評価することによって、より的確に画像データから手書き文字領域を特定することができる。
請求項5記載の画像処理装置によれば、完全に周期的でないものの統計的性質を用いて手書き文字領域を特定することによって、より的確に画像データから手書き文字領域を特定することができる。
請求項6記載の画像処理プログラムによれば、筆記者の個人差又は言語依存性を少なくするように、画像データから手書き文字領域を特定することができる。
請求項7記載の画像処理プログラムによれば、より高速で、的確な空間周波数の解析を行うことができる。
請求項8記載の画像処理プログラムによれば、個々の文字の大きさに依存しない解析を行うことができる。
請求項9記載の画像処理プログラムによれば、手書き文字の揺らぎを評価することによって、より的確に画像データから手書き文字領域を特定することができる。
請求項10記載の画像処理プログラムによれば、完全に周期的でないものの統計的性質を用いて手書き文字領域を特定することによって、より的確に画像データから手書き文字領域を特定することができる。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。
本実施の形態である画像処理装置は、空間周波数解析モジュール11、方向性評価モジュール12、等方性評価モジュール13、揺らぎ量特徴算出モジュール14、手書き文字領域特定モジュール15を有している。また、手書き文字領域特定モジュール15は、テクスチャ空間分割モジュール16を有している。
空間周波数解析モジュール11は、方向性評価モジュール12、等方性評価モジュール13と接続されており、画像データを対象として、空間周波数の解析を行う。なお、空間周波数解析モジュール11による空間周波数の解析法として、相関関数解析法やフーリエ変換を利用したパワースペクトル解析法等がある。以下、空間周波数の解析法として、2次元FFT(Fast Fourier Transform)による解析法を主に例示して説明する。また、空間周波数解析モジュール11における解析対象範囲は、注目する領域に存在する連結画素成分の大きさに基づいて決定するようにしてもよい。
方向性評価モジュール12は、空間周波数解析モジュール11、揺らぎ量特徴算出モジュール14と接続されており、空間周波数解析モジュール11によって解析された結果である空間周波数スペクトルのある方向への依存性を評価する。方向性評価モジュール12が評価する方向は、水平方向、垂直方向、又は斜め45度方向のいずれか1つ以上を含むようにしてもよい。
等方性評価モジュール13は、空間周波数解析モジュール11、揺らぎ量特徴算出モジュール14と接続されており、空間周波数解析モジュール11によって解析された結果である空間周波数スペクトルの等方性を評価する。
揺らぎ量特徴算出モジュール14は、方向性評価モジュール12、等方性評価モジュール13、手書き文字領域特定モジュール15と接続されており、方向性評価モジュール12による評価結果である方向性評価結果及び等方性評価モジュール13による評価結果である等方性評価結果を前記画像データのテクスチャ特徴ベクトルとし、そのテクスチャ特徴ベクトルに応じて、前記画像データ内の線分の揺らぎ量特徴を算出する。
手書き文字領域特定モジュール15は、揺らぎ量特徴算出モジュール14と接続されており、揺らぎ量特徴算出モジュール14によって算出された線分の揺らぎ量特徴に基づいて、手書き文字が存在する領域を特定する。具体的には、テクスチャ空間分割モジュール16によって処理を行う。
テクスチャ空間分割モジュール16は、揺らぎ量特徴算出モジュール14によって算出された揺らぎ量に基づいて、その揺らぎ量をテクスチャ特徴ベクトルとして位置付ける。又は、方向性評価結果及び等方性評価結果そのものをテクスチャ特徴ベクトルとして位置付ける。
本実施の形態の概要を説明する。
本実施の形態は、手書き文字に特有の“線分の揺らぎ”に着目し、この揺らぎが大きい箇所を手書き文字領域と判断する。ここでいう“揺らぎ”とは、文字を構成する線分の方向や、線分自体の直線性、曲線部の曲率変化を指す。
具体的な“揺らぎ”を示す特徴量は、所定サイズのウインドウを用いて2次元フーリエ変換を実施することで得られる空間周波数スペクトルを、特定の方向軸(水平、垂直、又は斜め45度)に対する依存性(方向性)と、特定の方向軸に対して依存性を持たない等方性の2つの観点から評価を行い、それらの評価結果に基づいて総合的に算出する。このとき、前記ウインドウのサイズを処理対象範囲にかかる連結画素成分の外接矩形サイズに基づいて設定し、スペクトルの評価値をウインドウサイズで正規化しておくことで、文字サイズに依存しない揺らぎ量特徴を抽出する。
一般的に、空間周波数スペクトルにおいて、事務処理における文書で用いられる活字文字は、手書き文字に比べて強い方向依存性を示すか(例えば「+」や「×」などの主に直線分からなる文字)、逆に等方性を示す(例えば、「○」など主に曲線分からなる文字)という特徴がある。前記手書きによる“揺らぎ”は、主に直線分からなる文字においては方向依存性が失われるように働き、逆に、主に曲線分からなる文字においては等方性が失われるように働く。
文字が複数個集まった文章領域を考えた場合には、前記のような性質を持つ文字が完全に周期的ではないもののある統計的な規則に従って(すなわち、“テクスチャ”と同様に)散りばめられていると捉えることができる。そこで、前記特徴量を文字画像又は画素毎に算出して一種のテクスチャ平面(特徴量が2次元以上である場合には空間)を形成したとき、手書き文字領域と活字文字領域は性質の異なるテクスチャ領域として捉えることができるため、このテクスチャの性質の差異により、手書き文字領域を特定する。本実施の形態によれば、手書き文字特有の線分の揺らぎに着目するため、文字サイズや並びのバラツキが少ない手書き文字列であっても検出する。また、言語依存性が少ないこととなる。
なお、テクスチャ(texture)とは、きめ(肌理)であり、画素値の統計的な指標によって定量化され、例えば完全に周期的ではないがある統計的な性質のもとで繰返し配置されてできる模様のことをいう。
次に、本実施の形態における作用・働き(動作)を説明する。
図2は、本実施の形態による処理の基本フロー例を示すフローチャートである。
ステップS21では、対象としている画像データから文字候補である外接矩形のサイズを算出し、文字候補サイズマップを作成する。
ステップS22では、ステップS21で作成した文字候補サイズマップを用いて、FFT窓のサイズを求め、FFT窓サイズマップを作成する。
ステップS23では、ステップS22で作成したFFT窓サイズマップを用いて、2次元FFT処理を施して、その2次元FFT結果から、等方性特徴及び非等方性特徴を抽出し、それらに基づいて文字の“揺らぎ”特徴を算出する。
ステップS24では、ステップS23で算出した揺らぎ量特徴を用いた揺らぎ量特徴空間において、テクスチャ解析を実施する。
ステップS25では、ステップS24でのテクスチャ解析の結果、手書き文字領域又は活字文字領域の境界を抽出する。
ステップS26では、ステップS25で抽出した境界と、実空間での画像処理結果から手書き文字領域を特定する。
図3は、本実施の形態による文字候補サイズマップの作成処理例を示すフローチャートである。つまり、図2に示したフローチャートのステップS21の処理例を、より具体的なフローチャートとして示した例である。
ステップS31では、入力された画像データにおいて、ラベリングを実施して連結画素成分を抽出する。
ステップS32では、ステップS31で抽出した連結画素成分の外接矩形を作成する。
ステップS33では、ステップS32で作成した連結画素成分の外接矩形の縦辺横辺の長さと比率から、文字候補と想定されるものを抽出する。
ステップS34では、ステップS33で抽出した各文字候補の矩形の配置状況から、一つの文字列領域と捉えることができるものをグループ化することで、個々の文字列領域を特定する。
ステップS35では、ステップS34で特定した個々の文字列領域において、文字候補の平均矩形サイズを算出する。
ステップS36では、ステップS35で算出した文字候補の平均矩形サイズを、その文字列領域に包含される画素の値とするマップを作成する。そして、図2に示したフローチャートのステップS22へ進む。
図2に示したフローチャートのステップS21(図3に示したフローチャート)の処理について、図4を用いて、具体的に説明する。図4は、文字候補サイズマップの作成処理過程の例を示す説明図である。
図4(A)は、「これは文字列」という画像に対して、連結画素成分を抽出し、その連結画素成分の外接矩形(外接矩形401〜外接矩形411)を抽出した例を示したものである(ステップS31、ステップS32)。この例では、図4(A)に示すように、11個の外接矩形が抽出される。
図4(B)は、抽出した外接矩形を用いて、文字列領域を抽出した例を示したものである。文字候補の矩形を抽出し、近接する文字候補の矩形を統合して、文字列領域を抽出している(ステップS33、ステップS34)。この例では、図4(B)に示すように、文字列領域412と文字列領域413の2つの文字列領域が抽出される。
図4(C)は、平均矩形サイズを算出した例を示したものである。外接矩形の縦辺と横辺で長い方をその外接矩形の代表サイズとする。文字列領域内に含まれる外接矩形の代表サイズの平均を算出する。この算出した平均値を文字候補サイズとする(ステップS35)。この例では、図4(C)に示すように、文字列領域412の文字候補サイズは25ピクセル(pixel)であり、文字列領域413の文字候補サイズは50ピクセルとして算出される。
図4(D)は、文字候補サイズマップの作成結果の例を示したものである。対象とする画像データと同等のサイズを有したマップであり、図4(C)に示した文字列領域412、文字列領域413にそれぞれ対応する領域である文字列領域414、文字列領域415に、文字候補サイズを埋め込む(ステップS36)。つまり、文字列領域414、文字列領域415に包含される全ての画素が、その文字列領域の文字候補サイズを値として持つマップが作成される。
図5は、本実施の形態によるFFT窓サイズマップの作成処理例を示すフローチャートである。つまり、図2に示したフローチャートのステップS22の処理例を、より具体的なフローチャートとして示した例である。
ステップS51では、ステップS21で作成した文字候補サイズマップを用いて、注目領域の文字候補サイズを取得する。
ステップS52では、8以上かつ文字候補サイズ以上で最小の2(nは3以上の整数)に相当する値を算出する。
ステップS53では、ステップS52で算出した値をFFT窓サイズとし、そのFFT窓サイズを、その文字列領域に包含される画素の値とするマップを作成する。このとき、マップとして値を持たせる画素は文字候補サイズマップと同様、文字列領域内に限ってもよいし、文字列領域を一回り拡大させた領域を別途設定してもよい。
ステップS54では、全領域に対して処理を行ったか否かを判断し、完了していなければステップS51へ戻り、完了していればステップS55(図2に示したフローチャートのステップS23)へ進む。
図2に示したフローチャートのステップS22(図5に示したフローチャート)の処理について、図6を用いて、具体的に説明する。図6は、FFT窓サイズマップの作成処理過程の例を示す説明図である。
図6(A)は、ステップS21で作成した文字候補サイズマップの例を示したものである。この例では、図6(A)に示すように、文字列領域61の文字候補サイズは25ピクセルであり、文字列領域62の文字候補サイズは50ピクセルである。
図6(B)は、ステップS22で算出した値をFFT窓サイズマップに埋め込む。つまり、図6(A)の文字列領域61と同じ位置にある文字列領域63内を32ピクセルの値で埋め込む。同様に、図6(A)の文字列領域62と同じ位置にある文字列領域64内を64ピクセルの値で埋め込む。また、文字候補サイズマップの文字列領域と同じ大きさの領域(図6(B)では、文字列領域63、文字列領域64)ではなく、それよりも大きい領域をFFT窓サイズ領域としてもよい。例えば、図6(B)の文字列領域65のようにしてもよい。
図7は、本実施の形態による揺らぎ量特徴の算出処理例を示すフローチャートである。つまり、図2に示したフローチャートのステップS23の処理例を、より具体的なフローチャートとして示した例である。
ステップS71では、注目画素は処理対象(FFT窓サイズマップで値を持つ)の画素か否かを判断する。処理対象の画素であればステップS72へ進み、処理対象の画素でなければステップS77へ進み、次の注目画素に進む。
ステップS72では、注目画素を中心にFFT窓サイズの矩形を設定する。
ステップS73では、ステップS72で設定したFFT窓サイズ内の画像に対して2次元FFT処理を実行する。
ステップS74では、ステップS73の2次元FFT処理で得られた空間周波数スペクトルで、特定方向(水平方向、垂直方向、又は斜め45度方向のいずれか1つ以上)への空間周波数スペクトルの依存性を評価する。
ステップS75では、ステップS73の2次元FFT処理で得られた空間周波数スペクトルで、等方性を評価する。
なお、ステップS74、ステップS75の処理はいずれを先に行ってもよく、並列処理であってもよい。
ステップS76では、ステップS74で得られた方向性評価値とステップS75で得られた等方性評価値から、揺らぎ量特徴を総合的に算出する。
ステップS77では、全ての画素に対して処理を行ったか否かを判断し、完了していなければステップS71へ戻り、完了していればステップS78(図2に示したフローチャートのステップS24)へ進む。
図2に示したフローチャートのステップS23(図7に示したフローチャート)の処理について、図8〜図12を用いて、具体的に説明する。図8は、2次元FFT処理の適用例を示す説明図である。
注目画素がFFT窓サイズマップ上で値を持つ場合のみ、その画素を中心としたFFT窓を設定し、2次元FFT処理を行う。つまり、図8に示すように、画像89内でFFT窓サイズマップ上で32ピクセルという値を持つ領域である文字列領域81に対してFFT窓サイズを32ピクセルとし、そのFFT窓の中心が文字列領域81内(FFT窓83〜FFT窓85)であれば、2次元FFT処理を行う。同様に、画像89内でFFT窓サイズマップ上で64ピクセルという値を持つ領域である文字列領域82に対してFFT窓サイズを64ピクセルとし、そのFFT窓の中心が文字列領域82内(FFT窓86〜FFT窓88)であれば、2次元FFT処理を行う。
次に、ステップS73の処理結果の例を図9〜図12に示す。図9と図10、図11と図12がそれぞれ対応している。
図9は、方向依存性の高い手書き文字における空間周波数スペクトルの出現例を示す説明図である。つまり、図9(A)に示す「士」という手書き文字に対して、2次元FFT処理の結果は、図9(B)に示すような例になる。
図10は、方向依存性の高い活字文字における空間周波数スペクトルの出現例を示す説明図である。つまり、図10(A)に示す「士」という活字文字に対して、2次元FFT処理の結果は、図10(B)に示すような例になる。
図9(B)、図10(B)を比べると分かるように、手書き文字の空間周波数スペクトルは、活字文字の空間周波数スペクトルと比べると、水平方向以外又は垂直方向以外に現れているものが多い。
図11は、等方性の高い手書き文字における空間周波数スペクトルの出現例を示す説明図である。つまり、図11(A)に示す「O」という手書き文字に対して、2次元FFT処理の結果は、図11(B)に示すような例になる。
図12は、等方性の高い活字文字における空間周波数スペクトルの出現例を示す説明図である。つまり、図12(A)に示す「O」という活字文字に対して、2次元FFT処理の結果は、図12(B)に示すような例になる。
図11(B)、図12(B)を比べると分かるように、手書き文字の空間周波数スペクトルは、活字文字の空間周波数スペクトルと比べると、中心からみた場合に所定方向に現れているものが多い。
次に、図13、図14を用いて、図7に示したフローチャートのステップS74の処理例を示す。
主に直線分からなる文字に対しては、手書きによる文字の“揺らぎ”は空間周波数スペクトルにおいて特定方向への依存性が失われる方向に働くことから、評価したい基軸方向からの乖離度合いが方向性評価値として有意である。
図13は、方向性評価値(水平/垂直)の算出例を示す説明図である。
方向性評価値(水平/垂直)Eの一例を数1に示す。つまり、基軸方向が水平/垂直方向の場合である。
Figure 0005039449
ここで、u、vの座標は、図13の右側に示した空間周波数スペクトルの座標系である。つまり、中心(直流成分)を(0,0)とし、縦方向にv軸、横方向にu軸とする。従って、vの最大値、uの最大値は、数2、数3となる。
Figure 0005039449
Figure 0005039449
数1の分母はTotal power131であり、これを図示すると、図13の右側に示した空間周波数スペクトルにおいて、Total power131内(空間周波数スペクトルの全て)である。また、数1の分子はFluctuation power132であり、これを図示すると、図13の右側に示した空間周波数スペクトルにおいて、4つのFluctuation power132内(水平方向、垂直方向を除いた領域)である。
図14は、方向性評価値(斜め45度)の算出例を示す説明図である。
方向性評価値(斜め45度)Eの一例を数4に示す。つまり、基軸方向が斜め45度の場合である。
Figure 0005039449
ここで、u、vの座標、vの最大値、uの最大値は、図13と同様である。
数4の分母はTotal power141であり、これを図示すると、図14の右側に示した空間周波数スペクトルにおいて、Total power141内(空間周波数スペクトルの全て)である。また、数4の分子はFluctuation power142であり、これを図示すると、図14の右側に示した空間周波数スペクトルにおいて、4つのFluctuation power142内(斜め45度を除いた領域である三角形の領域)である。
次に、図15〜図17を用いて、図7に示したフローチャートのステップS75の処理例を示す。
「○」など主に曲線分からなる等方性の強い文字を手書きした場合、手書きによる文字の“揺らぎ”は周波数スペクトルにおいて特定方向への依存性が生じる方向に働くことから、等方性からの乖離度合いが等方性評価値として有意である。
等方性評価値の算出例について詳細に説明する。
M×Mのパワースペクトル画像の領域をSとする。直流成分のスペクトルを表す画像中心を原点(0,0)と定義する。さらにその原点(0,0)を通る有限個Nの方向軸を定義する。ここでn番目の方向軸の角度を数5で表す。
Figure 0005039449
(1)Dを領域S内の直流成分を除いた領域と定義する(数6参照)。また同じく領域S内のそれぞれの方向軸を含む幅3ピクセルの領域をDと定義する(数7参照)。
Figure 0005039449
Figure 0005039449
それぞれの方向軸上の高周波パワーP(数8参照)の、同じく直流成分を除いた高周波のトータルパワーPHF(数9参照)に対する比Rを計算する(数10参照)。
Figure 0005039449
Figure 0005039449
Figure 0005039449
この関係を図示したものが図15である。つまり、図15の四角の領域がSであり、原点(0,0)が除かれる直流成分151であり、Pはn番目の方向軸上のスペクトルの和152であり、PHFはトータルパワーから直流成分を除いた値であり、RはPとPHFの比である。
(2)最小の高周波成分を持つ方向とその高周波成分の値を探索する。
図16を用いて、この探索方法について説明する。領域Sにおいて原点(0,0)を中心にして、右水平位置から反時計回りに方向軸を取り、一周を36等分し、各方向軸におけるRを計算し最小値を求める。
Figure 0005039449
Figure 0005039449
なお、最小の高周波成分を持つ方向でなくてもよく、例えば最大の値を持つものであってもよく、1つを取り出すことを行えばよい。
(3)画像の複雑度Cを文字画像におけるStroke density法で評価する。
Stroke density法とは、文字画像をx軸又はy軸方向に沿ってそれぞれ走査して、ピクセルの値が変化した回数を表す。x軸方向に走査したときピクセルの値が変化した回数をC、y軸方向に走査したときのピクセルの値が変化した回数をCとするとき、Cを例えば数13で表す。
Figure 0005039449
図17を用いて、具体例を説明する。図17に示したものは文字「o」の画像である。そして、x軸方向に走査した場合、ピクセルの値が変化した回数(白から黒に変化した回数)が2の場合(「o」の左右の線を横切っている箇所)と1の場合(「o」の下端を横切っている箇所)を示している。つまり、Cが2と1の場合を示している例である。
(4)それぞれの文字について等方性評価値Eを数14を用いて決定する。
Figure 0005039449
次に、図18を用いて、図7に示したフローチャートのステップS76の処理例を示す。
図18は、揺らぎ量特徴の算出例を示す説明図である。ここでは、自己組織能力を持つニューロコンピュータ(neuro computer)を用いる。ここでは、パーセプトロン、コネクショニスト・モデル等のモデル、層構造等は限定していない。このニューロコンピュータへの入力として、方向性をパラメタとする揺らぎ評価値である方向性評価値(図18ではE(水平/垂直方向)、E(斜め45度方向))、及び等方性評価値(図18ではE)を与え、出力として揺らぎ量特徴を得る構成とし、このニューロコンピュータを学習させておく。そして、抽出した方向性評価値及び等方性評価値の両方を前記ニューロコンピュータに入力して、その出力としての揺らぎ量特徴を算出するものである。
図19を参照して、本実施の形態の画像処理装置のハードウェア構成例について説明する。図19に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成される画像処理装置であり、スキャナ等のデータ読み取り部1917と、プリンタなどのデータ出力部1918を備えたハードウェア構成例を示している。
CPU(Central Processing Unit)1901は、上述の実施の形態において説明した各種のモジュール、すなわち、空間周波数解析モジュール11、方向性評価モジュール12、等方性評価モジュール13等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
ROM(Read Only Memory)1902は、CPU1901が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1903は、CPU1901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1904により相互に接続されている。
ホストバス1904は、ブリッジ1905を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1906に接続されている。
キーボード1908、マウス等のポインティングデバイス1909は、操作者により操作される入力デバイスである。ディスプレイ1910は、液晶表示装置又はCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)1911は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1901によって実行するプログラムや情報を記録又は再生させる。ハードディスクは、対象となる画像データや空間周波数解析モジュール11による処理結果データなどが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ1912は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1913に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1907、外部バス1906、ブリッジ1905、及びホストバス1904を介して接続されているRAM1903に供給する。リムーバブル記録媒体1913も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート1914は、外部接続機器1915を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1914は、インタフェース1907、及び外部バス1906、ブリッジ1905、ホストバス1904等を介してCPU1901等に接続されている。通信部1916は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1917は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1918は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図19に示す画像処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図19に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図19に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理可能な装置)などに組み込まれていてもよい。
前記実施の形態においては、空間周波数解析モジュール11は、空間周波数の解析を行うが、解析モジュールであってもよい。つまり、空間周波数の解析に代えて周期性の解析を行うようにしてもよく、その両方を行うようにしてもよい。
前記実施の形態においては、フーリエ変換を用いたが、フーリエ変換に代えてウェーブレット変換を用いてもよく、その両方を用いてもよい。また、空間周波数スペクトルに代えて相関関数を用いてもよく、その両方を用いてもよい。
前記実施の形態においては、揺らぎ量特徴の算出を行うのにニューロコンピュータを示したが、方向性評価値及び等方性評価値の両方を用いたものであれば他のアルゴリズムで揺らぎ量特徴を算出するようにしてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理の基本フロー例を示すフローチャートである。 本実施の形態による文字候補サイズマップの作成処理例を示すフローチャートである。 文字候補サイズマップの作成処理過程の例を示す説明図である。 本実施の形態によるFFT窓サイズマップの作成処理例を示すフローチャートである。 FFT窓サイズマップの作成処理過程の例を示す説明図である。 本実施の形態による揺らぎ量特徴の算出処理例を示すフローチャートである。 2次元FFT処理の適用例を示す説明図である。 方向依存性の高い手書き文字における空間周波数スペクトルの出現例を示す説明図である。 方向依存性の高い活字文字における空間周波数スペクトルの出現例を示す説明図である。 等方性の高い手書き文字における空間周波数スペクトルの出現例を示す説明図である。 等方性の高い活字文字における空間周波数スペクトルの出現例を示す説明図である。 方向性評価値(水平/垂直)の算出例を示す説明図である。 方向性評価値(斜め45度)の算出例を示す説明図である。 方向軸上の空間周波数スペクトルの和の例を示す説明図である。 最小の高周波成分の例を示す説明図である。 画像の複雑度を算出する処理例を示す説明図である。 揺らぎ量特徴の算出例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
符号の説明
11…空間周波数解析モジュール
12…方向性評価モジュール
13…等方性評価モジュール
14…揺らぎ量特徴算出モジュール
15…手書き文字領域特定モジュール
16…テクスチャ空間分割モジュール

Claims (10)

  1. 手書き文字と活字文字が混在する画像データを対象として、空間周波数又は周期性の解析を行う解析手段と、
    前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数のある方向への依存性を評価する方向性評価手段と、
    前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数の等方性を評価する等方性評価手段と、
    前記方向性評価手段による評価結果である方向性評価結果及び前記等方性評価手段による評価結果である等方性評価結果を前記画像データのテクスチャ特徴ベクトルとし、該テクスチャ特徴ベクトルに応じて、前記画像データ内の線分の揺らぎ量特徴を算出する揺らぎ量特徴算出手段と、
    前記揺らぎ量特徴算出手段によって算出された線分の揺らぎ量特徴に基づいて、手書き文字が存在する領域を特定する手書き文字領域特定手段
    を具備することを特徴とする画像処理装置。
  2. 前記解析手段は、フーリエ変換又はウェーブレット変換によって解析を行う
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記解析手段における解析対象範囲は、注目する領域に存在する連結画素成分の大きさに基づいて決定する
    ことを特徴とする請求項1に記載の画像処理装置。
  4. 前記方向性評価手段が評価する方向は、水平方向、垂直方向、又は斜め45度方向のいずれか1つ以上を含むものである
    ことを特徴とする請求項1に記載の画像処理装置。
  5. 前記手書き文字領域特定手段は、
    前記テクスチャ特徴ベクトルから前記揺らぎ量特徴算出手段によって算出された揺らぎ量に基づいて、前記画像データを分割する画像データ領域分割手段
    を備えることを特徴とする請求項1に記載の画像処理装置。
  6. コンピュータを、
    手書き文字と活字文字が混在する画像データを対象として、空間周波数又は周期性の解析を行う解析手段と、
    前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数のある方向への依存性を評価する方向性評価手段と、
    前記解析手段によって解析された結果である空間周波数スペクトル又は相関関数の等方性を評価する等方性評価手段と、
    前記方向性評価手段による評価結果である方向性評価結果及び前記等方性評価手段による評価結果である等方性評価結果を前記画像データのテクスチャ特徴ベクトルとし、該テクスチャ特徴ベクトルに応じて、前記画像データ内の線分の揺らぎ量特徴を算出する揺らぎ量特徴算出手段と、
    前記揺らぎ量特徴算出手段によって算出された線分の揺らぎ量特徴に基づいて、手書き文字が存在する領域を特定する手書き文字領域特定手段
    として機能させることを特徴とする画像処理プログラム。
  7. 前記解析手段は、フーリエ変換又はウェーブレット変換によって解析を行う
    ことを特徴とする請求項6に記載の画像処理プログラム。
  8. 前記解析手段における解析対象範囲は、注目する領域に存在する連結画素成分の大きさに基づいて決定する
    ことを特徴とする請求項6に記載の画像処理プログラム。
  9. 前記方向性評価手段が評価する方向は、水平方向、垂直方向、又は斜め45度方向のいずれか1つ以上を含むものである
    ことを特徴とする請求項6に記載の画像処理プログラム。
  10. 前記手書き文字領域特定手段は、
    前記テクスチャ特徴ベクトルから前記揺らぎ量特徴算出手段によって算出された揺らぎ量に基づいて、前記画像データを分割する画像データ領域分割手段
    を備えることを特徴とする請求項6に記載の画像処理プログラム。
JP2007167198A 2007-06-26 2007-06-26 画像処理装置及び画像処理プログラム Expired - Fee Related JP5039449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007167198A JP5039449B2 (ja) 2007-06-26 2007-06-26 画像処理装置及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007167198A JP5039449B2 (ja) 2007-06-26 2007-06-26 画像処理装置及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2009009179A JP2009009179A (ja) 2009-01-15
JP5039449B2 true JP5039449B2 (ja) 2012-10-03

Family

ID=40324230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007167198A Expired - Fee Related JP5039449B2 (ja) 2007-06-26 2007-06-26 画像処理装置及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP5039449B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069788B (zh) * 2015-08-05 2017-11-21 中北大学 一种古建墙壁题记受污毛笔文字图像聚类分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793466A (ja) * 1993-09-22 1995-04-07 Toshiba Corp 文字種判別装置およびその判別方法
JPH10254993A (ja) * 1997-03-12 1998-09-25 Canon Inc 文字抽出装置及び文字抽出方法
JP4229521B2 (ja) * 1999-05-21 2009-02-25 富士通株式会社 文字認識方法および装置
JP2005078233A (ja) * 2003-08-29 2005-03-24 Toudai Tlo Ltd 領域抽出法および領域抽出装置

Also Published As

Publication number Publication date
JP2009009179A (ja) 2009-01-15

Similar Documents

Publication Publication Date Title
US8594431B2 (en) Adaptive partial character recognition
JP5068963B2 (ja) 論理的文書構造を決定するための方法及び装置
US8351691B2 (en) Object extraction in colour compound documents
EP2241999A2 (en) Underline removal apparatus
JP6937508B2 (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
JP2019102061A (ja) テキスト線の区分化方法
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
JPH10171922A (ja) 罫線消去装置及び記録媒体
JP5039449B2 (ja) 画像処理装置及び画像処理プログラム
KR101336901B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
JP5489894B2 (ja) 画像処理装置及び画像処理プログラム
JP4995507B2 (ja) 画像処理システム、文字認識システムおよび画像処理プログラム
US20100158381A1 (en) Image processing device, image processing method, and computer readable medium
JP5821648B2 (ja) 情報処理装置及び情報処理プログラム
JP6003375B2 (ja) 画像処理装置及び画像処理プログラム
JP5200993B2 (ja) 画像処理装置及び画像処理プログラム
JP5845724B2 (ja) 画像処理装置及び画像処理プログラム
JP2016053797A (ja) 画像処理装置及び画像処理プログラム
JP4872780B2 (ja) 画像処理システム及び画像処理プログラム
JP2009193170A (ja) 文字認識装置及び文字認識方法
JP6281309B2 (ja) 画像処理装置及び画像処理プログラム
JP2009060498A (ja) 画像処理装置及び画像処理プログラム
JP5991076B2 (ja) 画像処理装置及び画像処理プログラム
JP6229254B2 (ja) 情報処理装置及び情報処理プログラム
JP2015099536A (ja) 図表領域検出装置および図表領域検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5039449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees