JP7006059B2 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP7006059B2
JP7006059B2 JP2017174875A JP2017174875A JP7006059B2 JP 7006059 B2 JP7006059 B2 JP 7006059B2 JP 2017174875 A JP2017174875 A JP 2017174875A JP 2017174875 A JP2017174875 A JP 2017174875A JP 7006059 B2 JP7006059 B2 JP 7006059B2
Authority
JP
Japan
Prior art keywords
image
character
character string
small area
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017174875A
Other languages
English (en)
Other versions
JP2019049943A (ja
Inventor
千秋 瀧野
崇 岡田
修二 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Inc filed Critical Toppan Inc
Priority to JP2017174875A priority Critical patent/JP7006059B2/ja
Publication of JP2019049943A publication Critical patent/JP2019049943A/ja
Application granted granted Critical
Publication of JP7006059B2 publication Critical patent/JP7006059B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
文字が含まれる画像から文字情報を抽出する光学文字認識(OCR、Optical Character Recognition)がある。光学文字認識においては、スキャナ等によって読み込まれた画像情報を解析することにより白色の背景に書かれた黒色の文字の画像について、行や文字を抽出する。そして、抽出した文字に対する特徴量の抽出、及び機械学習に基づく識別器による文字認識によりテキストデータへの変換が行われる。
一方、スーパーマーケットや家電量販店等において、広告媒体としてチラシが利用されている。チラシにはウェブ上でチラシを閲覧できる電子チラシや新聞等に折り込まれた折り込みチラシ等がある。電子チラシはユーザ端末装置の表示画面に表示されることにより、折り込みチラシは紙媒体に印刷されて配布されることにより、消費者に閲覧される。
このようなチラシから文字情報を抽出することによって、チラシにどのような商品が掲載され、いくらで売られているのかといった動向を把握することが行われている(例えば、特許文献1)。
特開2015-49820号公報
しかしながら、このようなチラシにおいては、商品名や価格等を示す文字列の画像(以下、文字列画像という)が、商品等の画像に重なるように描画される場合が多いため、文字列画像の背景の色が白色とは限らず、高品質の画像における様々な色が混在したものとなる。また、チラシにおいては、文字列画像の色が黒色とは限らず様々な色で描かれ、色やサイズも同一とは限らない。このため、チラシから上述した光学文字認識により文字情報を抽出しようとしても、白色の背景に書かれた黒色の同一サイズの文字列画像から文字情報を抽出する場合と比較して、文字認識の精度が低下してしまう問題があった。
本発明は、このような状況に鑑みてなされたもので、その目的は、画像に含まれる背景の色、及び文字の色に関わらず、画像から精度よく情報を抽出することができる画像処理装置、画像処理方法、及びプログラムを提供することにある。
上述した課題を解決するために、本発明の一態様は、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、画像の明度に基づいて文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する文字列領域抽出部と、前記文字列画像における各々の前記文字候補画像の文字を認識する文字認識部と、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する小領域抽出部とを備え、前記小領域抽出部は、前記画像における所定の方向にRGB値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出することを特徴とする画像処理装置である。
また、本発明の一態様は、前記文字認識部は、予め記憶された特殊フォントの形状を示す画像と、前記文字列画像の領域に含まれる文字の画像とを比較することにより、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、一般的な字体である場合にはOCRエンジンを用いて文字列画像に描画された文字を識別することを特徴とする画像処理装置である。
また、本発明の一態様は、前記文字認識部は、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、特殊な字体である場合には、学習モデルを用いて文字列画像に描画された文字を識別し、前記学習モデルは、特殊フォントの形状に当該特殊フォントの文字を対応付けた情報を学習データとして機械学習を実行させることにより作成されたモデルであり、前記文字認識部は、前記学習モデルによる文字認識を行う前処理として、前記文字列画像から抽出した個々の文字候補画像のアスペクト比及び大きさを揃える処理を行うことを特徴とする画像処理装置である。
また、本発明の一態様は、前記小領域抽出部は、前記境界線で囲まれた領域における大きさ及び要素比のうち少なくともいずれかに基づいて、前記小領域の画像を抽出することを特徴とする請求項3に記載の画像処理装置である。
また、本発明の一態様は、前記文字列領域抽出部は、横書きに描画された前記文字列画像を抽出することを特徴とする画像処理装置である。
また、本発明の一態様は、前記文字認識部により認識された文字に基づいて、前記画像に示される情報の属性を示すメタ情報を取得するメタ情報取得部を更に備えることを特徴とする画像処理装置である。
また、本発明の一態様は、前記文字列領域抽出部により抽出された前記物体画像に基づいて、前記物体の名称を認識する物体認識部を更に備え、前記メタ情報取得部は、前記文字認識部により認識された文字に、前記物体認識部により認識された前記物体の名称を対応づけたメタ情報を取得することを特徴とする画像処理装置である。
また、本発明の一態様は、文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と、小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程とを有し、前記小領域抽出部は、前記画像における所定の方向にRGB値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出することを特徴とする画像処理方法である。
また、本発明の一態様は、コンピュータに、文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と、小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程とを実行させ、前記小領域抽出部は、前記画像における所定の方向にRGB値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出するプログラムである。
本発明によれば、画像に含まれる背景の色、及び文字の色に関わらず、画像から精度よく情報を抽出することができる。
実施形態の画像処理装置1の構成例を示すブロック図である。 実施形態の小領域抽出部11が行う処理を説明するための図である。 実施形態の文字・対象物領域抽出部12が行う処理を説明するための第1図である。 実施形態の文字・対象物領域抽出部12が行う処理を説明するための第2図である。 実施形態の文字認識部13が行う処理を説明するための図である。 実施形態のメタ情報記憶部164に記憶されたメタ情報テーブルの例を示す図である。 実施形態の画像処理装置1の動作例を示すフローチャートである。
以下、実施形態の画像処理装置、画像処理方法、及びプログラムを、図面を参照して説明する。
<実施形態>
まず、実施形態について説明する。
[実施形態の画像処理装置1の全体構成の説明]
図1は、実施形態の画像処理装置1の構成例を示すブロック図である。画像処理装置1は、画像入力部10と、小領域抽出部11と、文字・対象物領域抽出部12と、文字認識部13と、物体認識部14と、メタ情報取得部15と、記憶部16とを備える。記憶部16は、画像情報記憶部160と、小領域情報記憶部161と、文字・対象物領域記憶部162と、文字情報記憶部163と、物体名称記憶部164と、メタ情報記憶部165と、文字認識情報記憶部166とを備える。ここで、文字・対象物領域抽出部12は、「文字列領域抽出部」の一例である。
画像処理装置1は、画像から情報を抽出する。以下の説明においては、画像処理装置1が情報を抽出する画像が、電子チラシや折り込みチラシ等のチラシ画像である場合を例に説明する。しかしながら、画像は、物体の画像と、文字列画像が含まれた画像であればよく、例えば、図を用いた解説がされたカタログやパンフレット等であってもよい。
画像入力部10には、チラシ画像T-1(図2(a)参照)の画像情報が入力される。画像入力部10は、入力された画像情報を、画像情報記憶部160に記憶させる。
小領域抽出部11は、画像情報記憶部160に記憶された画像情報に基づいて、画像全体から小領域(コマ、ともいう)の画像を抽出する。ここで、小領域の画像とは、画像の中にある境界線で囲まれた領域であって、対象物としての物体の画像(以下、対象物画像という)、及び文字列画像がそれぞれ描画された画像である。ここで、対象物画像は、「物体画像」の一例である。
例えば、小領域抽出部11は、チラシ画像T-1に掲載された商品の画像(対象物画像)とその商品の名称や価格を示す文字列画像とが含まれる小領域の画像T-3(図2(d)参照)を抽出する。小領域抽出部11は、抽出した小領域の画像に関する情報を小領域情報記憶部161に記憶させる。
文字・対象物領域抽出部12は、小領域抽出部11により抽出された小領域の画像から文字列が描画された画像を抽出する。例えば、文字・対象物領域抽出部12は、小領域の画像T-3(図3(a)参照)からその商品の名称や価格を示す文字列画像T-8(図5(c)参照)を抽出する。
また、文字・対象物領域抽出部12は、小領域抽出部11により抽出された小領域から対象物画像を抽出する。文字・対象物領域抽出部12は、例えば、小領域の画像T-3における文字列画像の領域以外の領域として、対象物画像T-7(図3(e)参照)を抽出する。文字・対象物領域抽出部12は、抽出した文字列画像および対象物画像の各々の情報を文字・対象物領域記憶部162に記憶させる。
文字認識部13は、文字・対象物領域抽出部12により抽出された文字列画像の領域に含まれる文字列を構成する文字の各々の画像に基づいて、それぞれの画像から文字を認識する。文字認識部13は、例えば、文字列画像T-8から「1」、「5」、「8」、及び「円」等の文字を認識する。
また、文字認識部13は、予め定めた所定の画像と、文字列画像の領域に含まれる文字の画像とを比較することにより文字を認識するようにしてもよい。文字認識部13は、例えば、文字列画像T-8を、予め定めた所定の画像(例えば、チラシで用いられることが多い特殊なフォントの「1」、「5」、「8」や「円」の画像)と比較し、特徴が一致した場合、「1」、「5」、「8」や「円」の文字を認識する。文字認識部13は、認識した文字の文字コードなどの情報を文字情報記憶部163に記憶させる。
物体認識部14は、小領域抽出部11により抽出された小領域の画像に含まれる対象物画像に基づいて、物体を認識する。ここで、「物体を認識する」とは、対象物画像に含まれる対象物の名称を判別することである。例えば、物体認識部14は、対象物画像T-7に基づいて物体を認識し、対象物画像T-7に描画された対象物が「生しいたけ」であると判別する。物体認識部14は、認識した対象物の名称を物体名称記憶部164に記憶させる。
メタ情報取得部15は、小領域情報記憶部161と、文字・対象物領域記憶部162と、文字情報記憶部163と、物体名称記憶部164とに記憶された情報に基づいて、メタ情報を取得する。ここで、メタ情報とは、画像に示される情報の属性を示す情報であり、例えば、チラシ画像T-1に掲載された商品の属性情報としての商品の量や値段等の情報である。メタ情報取得部15は、例えば、チラシ画像T-1に示される小領域の画像T-3における商品名「生しいたけ」や価格「158円」等の属性を示す情報を取得する。メタ情報取得部15は、取得したメタ情報に基づいてメタ情報テーブル(図6参照)を生成する。メタ情報取得部15は、生成したメタ情報テーブルをメタ情報記憶部165に記憶させる。
画像情報記憶部160は、画像情報を記憶する。小領域情報記憶部161は、小領域ごとに、その小領域の画像の画像情報、及び小領域の画像のチラシ画像に対する位置を示す情報を記憶する。文字・対象物領域記憶部162は、小領域ごとに、その小領域から抽出された文字列画像、および対象物画像それぞれの画像情報を記憶する。
文字情報記憶部163は、小領域ごとに、その小領域の文字列画像から認識された文字の情報を記憶する。物体名称記憶部164は、小領域ごとに、その小領域の対象物画像から認識された対象物の名称を記憶する。メタ情報記憶部165は、小領域ごとに、その小領域のチラシ画像に対する位置、小領域の高さや幅、小領域の文字列画像から認識された文字、小領域の対象物画像から認識された対象物の名称、商品名、価格等の属性情報を記憶する。
文字認識情報記憶部166は、文字認識部13による文字の認識に用いられる、予め定めた所定の画像(例えば、チラシで用いられることが多い特殊なフォントの「1」、「8」、「5」や「円」の画像)が記憶される。
[実施形態の小領域抽出部11の説明]
ここでは、小領域抽出部11が小領域の画像を抽出する方法について説明する。
図2は、実施形態の小領域抽出部11が行う処理を説明するための図である。図2(a)は、チラシ画像T-1を示す。図2(b)は、チラシ画像T-1の一部の領域E-1を拡大した図を示す。図2(c)は、図2(a)におけるチラシ画像T-1を境界線L-1およびL-2で分割した画像T-2を示す。図2(d)は、小領域の画像T-3を示す。なお、図2(a)~(d)のそれぞれの画像はカラーの画像である。
本実施形態においては、一般的なチラシが背景や境界線によって小領域に区切られていることを利用して小領域の画像を抽出する。
小領域抽出部11は、画像全体に描画された境界線の有無を判定する。小領域抽出部11は、画像における所定の位置から所定の方向に対して、各々のピクセルの色を示す情報(以下、色情報という)を取得する。色情報とは例えばRGB値である。以下の説明においては、色情報がRGB値である場合を例に説明するが、これに限定されることはなく、例えば色情報は、CMYK値であってもよい。
まず、小領域抽出部11は、画像のx軸方向に描画された境界線の有無を判定する。
図2(a)の例で、小領域抽出部11は、チラシ画像T-1の位置Pからx軸方向に対して、ピクセル単位でRGB値を取得する。小領域抽出部11は、所定の位置におけるピクセルのRGB値と、そのピクセルに対してx軸方向に隣接するピクセルのRGB値とのそれぞれの色成分ごとの差分を算出する。
小領域抽出部11は、算出したRGB値の色成分ごとの差分のそれぞれが所定の閾値(例えば、15)以下である場合、当該ピクセルと当該ピクセルに隣接するピクセルとを色が連続しているピクセル群(色連続ピクセル群)であると判定する。小領域抽出部11は、位置Pからx軸方向にチラシ画像T-1の位置Pから位置Rまでの間に配置されるピクセル各々について色連続ピクセル群を抽出し、抽出した色連続ピクセル群の連続するピクセルの個数、および当該色連続ピクセル群の各々におけるRGB値の平均値(以下、平均RGB値という)を算出する。
小領域抽出部11は、位置Pからx軸方向において抽出された色連続ピクセル群のうち、最もピクセルの個数が多いものを代表色連続ピクセル群として選択し、選択した代表色連続ピクセル群の平均RGB値を代表平均RGB値とする。そして、小領域抽出部11は、位置Pからx軸方向において抽出された色連続ピクセル群のうち、代表色連続ピクセル群を除いた色連続ピクセル群の中で代表平均RGB値と平均RGB値との差分が所定の閾値以下である領域(つまり、同じ色または似た色の領域)を選択し、代表色連続ピクセル群と、その選択した色連続ピクセル群との、それぞれにおけるピクセルの個数を合計した合計数を算出する。
小領域抽出部11は、算出した合計数と、チラシ画像T-1の位置Pから位置Rまでに配置されたピクセルの総数との差分が所定の閾値以下である場合、つまり、位置Pから位置Rまでの間に配置されたピクセルの各々のうち、所定の割合以上が代表色連続ピクセル群及び代表平均RGB値に近い色の色連続ピクセル群である場合、位置Pから位置Rまでが境界線であると判定する。
また、小領域抽出部11は、位置Pとは異なる他の位置からx軸方向に境界線があるか否かを判定する。
小領域抽出部11は、位置Pから位置Qまでy軸方向にピクセル単位で位置を順に移動させ、移動させた位置P#からx軸方向に配置されるピクセル各々について色連続ピクセル群を抽出し、抽出した色連続ピクセル群の各々のうち、代表色連続ピクセル群および代表色連続ピクセル群に色が近い色連続ピクセル群とのそれぞれのピクセルの個数の合計数と、位置P#からx軸方向に画像の端まで配置されたピクセルの総数との差分が所定の閾値以下である場合、位置P#から画像の端までx軸方向に境界線があると判定する。
図2(b)の例で、小領域抽出部11は、領域E-1の上部におけるx軸方向の領域E-2において、連続する領域として領域E-3~E-5を判定する。小領域抽出部11は、例えば、領域E-4を代表領域に選択した場合、領域E-4と領域E-3、E-5が同じ色または似た色であれば、領域E-3~E-5を連続する領域と判定し、異なる色であれば領域E-3~E-5がそれぞれ独立した(連続していない)領域であると判定する。
また、図2(b)の例で、小領域抽出部11は、領域E-6において、連続する領域として領域E-7~E-9を判定する。小領域抽出部11は、例えば、領域E-8を代表領域に選択した場合、領域E-8と領域E-7、E-9が同じ色または似た色であれば、領域E-7~E-9を連続する領域と判定し、異なる色であれば領域E-7~E-9がそれぞれ独立した(連続していない)領域であると判定する。
一般的なチラシでは、日ごと、または商品ごとの区切りに領域E-3~E-5に示されるような連続する領域を同じような色で描画される場合が多く、領域E-7~E-9に示されるような商品の画像は、それぞれ異なる色で描画される場合が多い。本実施形態では、一般的なチラシにおけるこのような性質を利用して境界線を判定する。
次に、小領域抽出部11は、画像のy軸方向に描画された境界線の有無を判定する。
小領域抽出部11は、位置Pから位置Qまでの間に配置されたピクセルの各々についてもy軸方向に色が連続しているピクセル群としての色連続ピクセル群を抽出し、抽出した色連続ピクセル群の各々における連続するピクセルの個数、および平均RGB値を算出する。そして、小領域抽出部11は、抽出した色連続ピクセル群のうち、代表色連続ピクセル群、及び代表色連続ピクセル群に似た色を持つ色連続ピクセル群のそれぞれのピクセルの個数の合計数と、位置Pから位置Qまでの間に配置されたピクセルの総数との差分が所定の閾値以下である場合、位置Pから位置Qまでが境界線であると判定する。
また、小領域抽出部11は、位置Pとは異なる他の位置からy軸方向に境界線があるか否かを判定する。
小領域抽出部11は、位置Pから位置Rまでx軸方向にピクセル単位で位置を順に移動させ、移動させた位置P##からy軸方向に配置されるピクセル各々について色連続ピクセル群を抽出し、抽出した色連続ピクセル群の各々のうち、代表色連続ピクセル群および代表色連続ピクセル群に色が近い色連続ピクセル群とのそれぞれのピクセルの個数の合計数と、位置P##からy軸方向に画像の端まで配置されたピクセルの総数との差分が所定の閾値以下である場合、位置P##から画像の端までy軸方向に境界線があると判定する。
なお、小領域抽出部11は、線分検出アルゴリズムを用いて線分を検出し、検出した線分の長さに基づいて境界線の有無を判定するようにしてもよい。線分検出アルゴリズムには、例えばLSD(Line Segment Detector)を用いることができる。
次に、小領域抽出部11は、検出した境界線でチラシ画像T-1を分割する。そして、小領域抽出部11は、分割した領域に対して境界線を検出した場合、当該分割した画像(以下、分割画像)を検出した境界線でさらに分割する。小領域抽出部11は、画像に対して境界線が検出されなくなるまで、画像の分割を再帰的に繰り返す。
図2(c)の例で、小領域抽出部11は、検出した境界線L-1、L-2でチラシ画像T-1を分割した画像T-2に対して、例えば、境界線L-3、L-4を検出する。小領域抽出部11は、画像T-2を境界線L-3、L-4で分割する。
小領域抽出部11は、分割した画像に対して境界線を検出しない場合、当該画像を小領域の画像とする。
図2(d)の例で、小領域抽出部11は、画像T-3に対して境界線を検出しない場合、画像T-3を小領域の画像とする。
あるいは、小領域抽出部11は、一般的なチラシにおける小領域の性質を利用して、分割画像が小領域の画像か否かを判断するようにしてもよい。例えば、一般的なチラシでは、視認され易いようなアスペクト比を有する矩形や、視認され易いサイズで、小領域が区切られている場合が多い。
例えば、小領域抽出部11は、一般的なチラシによく見られる所定のアスペクト比や、サイズを、予め記憶部16に記憶させておく。そして、小領域抽出部11は、分割画像のアスペクト比が、記憶部16に記憶させた所定のアスペクト比が所定の上限閾値以上である場合、又は所定の]下限閾値以下である場合、分割画像を小領域の画像でないと判定する。また、小領域抽出部11は、分割画像のサイズが、記憶部16に記憶させた所定のサイズに対して所定の上限閾値以上である場合、又は所定の下限閾値以下である場合、分割画像を小領域の画像でないと判定する。
また、小領域抽出部11は、小領域の画像に対象物画像および文字列画像が描画されている性質を利用して、分割画像が小領域の画像か否かを判断するようにしてもよい。一般的なチラシでは、例えば、画像が明るすぎても暗すぎても視認し難くなることから、所定の明るさで対象物画像および文字列画像が生成されることが考えられる。この場合、画像における各ピクセルのグレースケールにおいて、所定の閾値以上を白、所定の閾値未満を黒として二値化した場合、白と黒とのそれぞれの比率が、対象物画像および文字列画像のそれぞれにおいて所定の比率になることが考えられる。ここで、二値化した白と黒の比率は「要素比」の一例である。以下の説明においては、上述したように二値化した白と黒の比率を要素比と称する。
例えば、小領域抽出部11は、一般的なチラシの小領域に描画される画像の要素比、及び要素比の算出に用いた所定の閾値を、予め記憶部16に記憶させておく。そして、小領域抽出部11は、分割画像を記憶部16に記憶された所定の閾値で二値化し、分割画像における要素比を算出する。
小領域抽出部11は、分割画像における要素比と、これに対応する記憶部16に記憶された要素比との、それぞれの差分を算出し、算出した差分値が所定の上限閾値以上である場合、又は所定の下限閾値以下である場合、その分割画像には文字列画像と対象物画像とが描画されていない、つまり小領域の画像ではないと判定する。
例えば、小領域抽出部11は、分割画像を二値化した場合に、要素比に極端な偏りがあり白の比率が高い場合、その分割画像には単なる余白であって対象物と文字列とが描画された画像ではない、つまり小領域の画像ではないと判定する。小領域抽出部11は、分割画像を二値化した場合に、要素比に極端な偏りがあり黒の比率が高い場合、その分割画像は、例えばチラシ画像の上端部分の店舗の名称などを記載した部分であって対象物と文字列とが描画された画像ではない、つまり小領域の画像ではないと判定する。
また、小領域抽出部11は、分割画像を二値化した場合の連結要素数を取得する。ここで、連結要素数は、画像における各ピクセルのうち、所定の方向に連続した白又は黒の集合体の総数である。小領域抽出部11は、取得した連結要素数が所定の閾値以下の場合、当該分割画像が小領域の画像ではないと判定する。本実施形態において、小領域の画像には対象物画像および文字列画像が描画されていることを前提とする。また、文字列画像を二値化した場合、文字の部分と背景の部分とで二値化のいずれか一方と他方とに分かれるのが通常である。このことから、小領域抽出部11は、分割画像の連結要素数が所定の閾値未満の場合、例えば、文字列画像のみ、又は文字列画像の一部のみが描画された画像である可能性が高いと判定し、当該分割画像が小領域の画像ではないと判定する。
[実施形態の文字・対象物領域抽出部12の説明]
ここで、文字・対象物領域抽出部12が、文字列画像を抽出する方法について説明する。
図3は、実施形態の文字・対象物領域抽出部12が行う処理を説明するための第1図である。図3(a)は、図2(d)における小領域の画像T-3をグレースケールに変換した画像を示す。図3(b)は、文字候補画像として抽出された画像群の一例を示す。図3(c)は、文字候補画像として抽出された画像群の他の例を示す。図3(d)は、文字列画像として抽出された画像群の例を示す。図3(e)は、対象物画像T-7を示す。
図4は、実施形態の文字・対象物領域抽出部12が行う処理を説明するための第2図である。図4(a)は、図3(b)における文字候補画像T-40を拡大させた画像示す。図4(b)は、図3(b)における文字候補画像T-41を拡大させた画像を示す。
本実施形態においては、一般的なチラシにおいて、文字列画像にはほぼ一定の色が用いられること(いわゆるベタ塗り)、また文字列画像では文字が横書きで描画される場合が多いこと、を利用して文字列画像を抽出する。
まず、文字・対象物領域抽出部12は、領域検出手法を用いて、文字列画像における文字部分の候補となる画像(文字候補画像)を小領域の画像から抽出する。
文字・対象物領域抽出部12は、例えば、文字として描画される画像と、その他の画像との明度の差(コントラスト)に基づいて、小領域の画像から文字候補画像を抽出する。
一般的に、文字として描画される画像は、文字として認識されやすいように、暗い背景に白抜きの文字を配置される、又は明るい背景に黒い文字が配置される等、文字の部分に対してコントラストが大きい背景が配置される。あるいは、コントラストが大きい画像で文字の形状に沿って縁取りがなされる場合が多い。また、文字として描画される画像は、その他の画像と比較すると、文字の部分の明度がほぼ一定である。
文字・対象物領域抽出部12は、上述のような特徴に基づいて、例えば、MSER(Maximally Stable External Regions)を用いることにより、小領域の画像から文字候補画像を抽出する。MSERでは、グレースケールに変換された画像に対して、背景や縁取りとして描画された画像の明度に対して、暗い画像、または明るい画像を、それぞれ検出する。
文字・対象物領域抽出部12は、例えば、小領域の画像T-3を、図3(a)に示すようなグレースケールの画像に変換する。グレースケールに変換された画像T-3において、生しいたけが描画された部分には様々な明るさを示すピクセルが混在しているのに対し、文字が描画された部分では、文字の部分がほぼ一定の明るさで描画されている。
文字・対象物領域抽出部12は、例えば、変換したグレースケールの画像T-3に対し、MSERを用いて文字候補画像を検出する。図3(b)に示す画像T-4、及び図3(c)に示す画像T-5において、白で示される領域が検出された文字候補画像(画像T40~T-48、および画像T50~T-53)の領域である。
また、文字・対象物領域抽出部12は、検出した文字候補画像それぞれについて、一連の文字列を示す文字列画像であるか否かを判定する。一連の文字列とは、一つの情報を示す複数の文字の集合体である。例えば、図3(a)の画像T-3における「国内産」、「生しいたけ」、「1袋」、「158円」のそれぞれの画像が文字列画像である。
文字・対象物領域抽出部12は、例えば、文字候補画像である画像T40~T46のそれぞれについて、一連の文字列画像であると判定する。また、文字・対象物領域抽出部12は、文字候補画像である画像T50~T53について(画像T40~T46とは異なる)一連の文字列画像であると判定する。また、文字・対象物領域抽出部12は、文字候補画像である画像T47、およびT-48について、一連の文字列画像でないと判定する。
文字・対象物領域抽出部12は、小領域に複数の文字の画像が並んで描画されていることを利用して文字候補画像の各々が文字列画像であるか否かを判定する。
例えば、文字・対象物領域抽出部12は、文字候補画像におけるx軸方向を占めるピクセルの個数と、小領域におけるx軸方向のピクセルの個数との差分が、所定の閾値以下である場合、文字候補画像のx軸方向のサイズが小領域の画像のx軸方向のサイズに対して大き過ぎ、複数の文字が横書きされるスペースがなくなるため、その文字候補画像は一連の文字列画像を構成する画像ではないと判定する。
また、文字・対象物領域抽出部12は、文字候補画像におけるx軸方向を占めるピクセルの個数が、所定の閾値以下である場合、実際に文字であったとしても、文字認識部13により文字が認識できない可能性が高いため、その文字候補画像を文字候補画像でないと判定する。
文字・対象物領域抽出部12は、例えば、文字候補画像それぞれについて、所定の方向に並んで描画されている場合に、当該所定の方向に並んだ複数の文字候補画像を一連の文字列画像と判定する。以下の説明においては、当該所定の方向がx軸方向(横方向)である場合を例に説明する。しかしながら、当該所定の方向は、人が文字列を認識することができる方向であればよく、例えばy軸(縦方向)であってもよい。
具体的には、文字・対象物領域抽出部12は、文字候補画像それぞれについて、その文字候補画像が占める領域におけるxy座標値をそれぞれ取得する。
そして、文字・対象物領域抽出部12は、二以上の文字候補画像について、以下の(条件1)を満たし、且つ(条件2)又は(条件3)のいずれか一方を満たす場合、当該二つ以上の文字候補画像を一連の文字列画像と判定する。
なお、以下の(条件1)から(条件3)において、当該二つ以上の文字候補画像のうちx軸方向(横方向)にみて左側の文字候補画像を基準とする文字候補画像とし、基準文字候補画像に対して右側に描画された文字候補画像を判定対象の文字候補画像という。
また、文字列は左から右に進む方向に横並びに描画される、または左から右に進む方向に右上がりに描画されることを前提としている。これは、一般的なチラシにおいて、横並び又は右上がりに文字が描画されることが多いためである。
(条件1)基準とする文字候補画像と判定対象の文字候補画像とのそれぞれのx座標の中心値の差分が所定の閾値以下である。
(条件2)基準とする文字候補画像と判定対象の文字候補画像とのそれぞれのy座標の最大値(文字候補画像の領域における下端のy座標)、又はy座標の中心値、の差分が所定の閾値以下である。
(条件3)基準とする文字候補画像のy座標の最小値(文字候補画像の領域における上端のy座標)と、判定対象の文字候補画像のy座標の中心値との差分が所定の閾値以下である。
図4の例で、文字・対象物領域抽出部12は、図4(a)の例に示すように、画像T-40について、画像T-40が占める領域におけるx座標の最小値(x1)、最大値(x2)、中心値(xm1=(x1+x2)/2)、y座標の最小値(y1)、最大値(y2)、および中心値(ym1=(y1+y2)/2)をそれぞれ取得する。
また、文字・対象物領域抽出部12は、図4(b)の例に示すように、画像T-41について、画像T-41が占める領域におけるx座標の最小値(x3)、最大値(x4)、中心値(xm2=(x3+x4)/2)、y座標の最小値(y3)、最大値(y4)、および中心値(ym2=(y3+y4)/2)をそれぞれ取得する。
そして、文字・対象物領域抽出部12は、(条件1)として、画像T-40、T-41それぞれのx座標の中心値の差分(xm1‐xm2)が所定の閾値(例えば、(x2-x1)+α1(ただし、α1は所定のマージン))以下であるか否かを判定する。(xm1‐xm2)が所定の閾値以下である場合、二つの画像T-40、T-41はx軸方向(横方向)に一文字分の幅にマージンを考慮した幅以上に離れていない。つまり、横方向に順に配置された一連の文字列として可読し得る状態で描画されており、一連の文字列画像となり得る。また、文字・対象物領域抽出部12は、(条件2)として、画像T-40、T-41それぞれの下端であるy座標の最大値の差分(y2-y4)又は、y座標の中心値の差分(ym1‐ym2)が所定の閾値(例えば、α2(ただし、α2は所定のマージン))以下であるか否かを判定する。(y2-y4)又は(ym1‐ym2)が所定の閾値以下である場合、二つの画像T-40の上端と、T-41の中心はy軸方向(縦方向)にマージンを考慮した高さ以上に離れていない。つまり、右上がり(または右下がり)に並んだ同じ行の文字列として可読し得る状態で描画されており、一連の文字列画像となり得る。
文字・対象物領域抽出部12は、画像T-40、T-41が(条件1)を満たし、かつ(条件2)又は(条件3)のいずれか一方を満たす場合、画像T-40、T-41を一連の文字列画像と判定する。
なお、文字・対象物領域抽出部12は、画像T-40、T-41を一連の文字列画像と判定し、かつ、画像T-41、T-42を一連の文字列画像と判定する場合、画像T-40~T-42を、一連の文字列画像と判定する。すなわち、文字・対象物領域抽出部12は、左側の文字列候補画像を起点に、右方向にある文字列候補画像を順に一連の文字列画像か否かを認識する。
なお、文字・対象物領域抽出部12は、文字候補画像の色(例えば、RGB値)を用いて、二つの文字候補画像が文字列画像であるか否かを判定するようにしてもよい。例えば、文字・対象物領域抽出部12は、それぞれの文字候補画像のRGB値における成分毎の差分が所定の閾値以下である場合、二つの文字候補画像が一連の文字列画像であると判定する。これは、一般的なチラシにおいて、文字列は同じ色で描画される場合が多いためである。
図3に戻り、文字・対象物領域抽出部12は、文字候補画像のうち一連の文字列画像と判定した文字候補画像をそれぞれ抽出することにより、例えば、図3(d)に示すような文字列画像として抽出された画像群である画像T-6を抽出する。なお、文字・対象物領域抽出部12は、文字認識部13にて文字が認識されやすいように、文字候補画像の部分を黒、背景の部分を白にして画像T-6を抽出する。
また、文字・対象物領域抽出部12は、小領域の画像T-3から文字候補画像(画像T-4、および画像T-5)を除去することにより、例えば、図3(e)に示すような対象物画像T-7を抽出する。
[実施形態の文字認識部13の説明]
ここでは、文字認識部13が文字を認識する方法について説明する。
図5は、実施形態の文字認識部13が行う処理を説明するための図である。5(a)は特殊フォントの形状の例を示す図である。5(b)は特殊フォントの一部が欠けた形状の例を示す図である。図5(c)は特殊フォントで描画された文字列画像T-8を示す。図5(d)は図5(c)における文字列画像T-8から個々の文字候補画像を抽出した図を示す。図5(e)は図5(c)における個々の文字列画像の縦横の比率を調整した図を示す。図5(f)は図5(e)における個々の文字列画像の大きさを調整した図を示す。
文字認識部13は、文字列画像の形状に基づいて、文字列画像に描画された文字が一般的な字体(以下、一般フォントという)であるか、特殊な字体(以下、特殊フォント)であるかを判定する。文字認識部13は、例えば、文字列画像に描画された線の太さにより、一般フォントか特殊フォントかを判定する。
文字認識部13は、文字列画像に描画された文字が一般フォントであると判定した場合、既存の技術であるOCRエンジンを用いて文字列画像に描画された文字を識別する。
文字認識部13は、文字列画像に描画された文字が特殊フォントであると判定した場合、文字候補画像の形状を、例えば図5(a)に示すような特殊フォントの形状と比較する。そして、文字認識部13は、文字候補画像の形状が特殊フォントの形状が有する特徴を備えている場合、当該文字候補画像に描画された文字を、当該特殊フォントの文字と認識する。
また、文字認識部13は、文字情報記憶部163に、文字の一部が欠けた特殊フォントの形状を記憶させるようにしてもよい。一般的なチラシ画像において、特殊フォントを用いて描画される文字は、価格を示す数字を示す文字である場合が多く、価格を示す文字同士の一部は、重なり合う状態で描画される場合が多い。このため、文字認識部13は、例えば、図5(b)の例に示すような、文字の一部が欠けた特殊フォントの形状を予め文字情報記憶部163に記憶させる。そして、文字認識部13は、文字候補画像の形状が特殊フォントの形状、または一部が欠けた特殊フォントの形状が有する特徴を備えている場合、当該文字候補画像に描画された文字を、当該特殊フォントの文字と認識する。なお、図5(b)の例は、特殊フォントにおける0(ゼロ)の形状、及び0(ゼロ)の一部が欠けた形状について複数の態様を示している。
ここで、文字認識部13は、特殊フォントの形状に当該特殊フォントの文字を対応付けた情報を学習データとして機械学習を実行させることにより作成した学習モデルを用いて、特殊フォントで描画された文字候補画像の文字を認識するようにしてもよい。
また、文字認識部13は、特殊フォントで描画された文字列画像の文字を認識する前処理として、下記(処理1)から(処理3)を行うようにしてもよい。
(処理1)文字列画像から個々の文字候補画像を抽出する。
(処理2)個々の文字候補画像のアスペクト比を調整する。
(処理3)個々の文字候補画像の大きさを調整する。
例えば、図5(c)~(f)の例で、文字認識部13は、(処理1)において文字列画像T-8から、図5(d)に示すような個々の文字候補画像(画像T-50~T-53)を抽出する。また(処理2)において、文字認識部13は、図5(e)に示すように個々の文字候補画像(画像T-50~T-53)のアスペクト比における縦横の比が等しくなるように調整する。ただし、アスペクト比の縦横が同じ比率に調整することに限定されることはなく、文字認識部13は、例えば、文字情報記憶部163に記憶された特殊フォントのアスペクト比と同等のアスペクト比となるように個々の文字候補画像を調整するようにしてよい。また、文字認識部13は、(処理3)において、図5(f)に示すように個々の文字候補画像(画像T-50~T-53)の大きさが等しくなるように調整する。
[実施形態のメタ情報取得部15の説明]
ここで、メタ情報取得部15がメタ情報テーブルを生成する方法について説明する。
図6は、実施形態のメタ情報記憶部165に記憶されたメタ情報テーブルの例を示す図である。メタ情報テーブルには、ポジション横、ポジション縦、幅、高さ、文字認識結果、物体認識結果、商品名、および価格のそれぞれの項目を有する。ポジション横には小領域の画像における、チラシ画像全体に対する位置座標のうちx座標が記憶される。ポジション縦には小領域の画像における、チラシ画像全体に対する位置座標のうちy座標が記憶される。幅には小領域の画像が占める、x軸方向の長さ(幅)が記憶される。幅には小領域の画像が占める、y軸方向の長さ(高さ)が記憶される。文字認識結果には、小領域の画像のうち文字列画像から認識された文字が記憶される。物体認識結果には、小領域の画像のうち対象物画像から認識された対象物の名称が記憶される。価格には、小領域の画像のうち文字列画像から認識された文字から選択された価格の文字が示す値が記憶される。
メタ情報取得部15は、例えば、小領域情報記憶部161から小領域の画像における、チラシ画像全体に対する位置座標を取得し、メタ情報テーブルのポジション横、ポジション縦、幅、高さのそれぞれの項目に対応する値を記憶させる。また、メタ情報取得部15は、例えば、文字情報記憶部163からその小領域における文字列画像から認識された文字を取得し、メタ情報テーブルの文字認識結果に対応する文字列を記憶させる。また、メタ情報取得部15は、例えば、物体名称記憶部164からその小領域における対象物画像から認識された対象物の名称を取得し、メタ情報テーブルの物体認識結果に対応する名称を記憶させる。また、メタ情報取得部15は、例えば、文字情報記憶部163からその小領域における文字列画像から認識された価格を取得し、メタ情報テーブルの価格に対応する値を記憶させる。
なお、メタ情報取得部15は、小領域の画像、または小領域でないと判定した画像から認識された情報(例えば、チラシを発行した店舗の名称、チラシの有効期間等)をメタ情報テーブルに記憶させるようにしてもよい。
[実施形態の画像処理装置1の動作の説明]
ここでは、画像処理装置1の動作について説明する。
図7は、実施形態の画像処理装置1の動作例を示すフローチャートである。
まず、画像処理装置1は、画像入力部10にチラシ画像の画像情報を入力する(ステップS1)。
次に、画像処理装置1は、小領域抽出部11によりチラシ画像から小領域の画像を抽出させる(ステップS2)。
次に、画像処理装置1は、文字・対象物領域抽出部12により、小領域の画像から文字列画像及び対象物画像をそれぞれ抽出させる(ステップS3)。
次に、画像処理装置1は、文字・対象物領域抽出部12により抽出させた画像が文字列画像であるか否かを判定する(ステップS4)。
画像処理装置1は、文字・対象物領域抽出部12により抽出させた画像が文字列画像である場合、文字認識部13により、文字列画像から文字を認識させる(ステップS5)。
一方、画像処理装置1は、文字・対象物領域抽出部12により抽出させた画像が文字列画像でない場合、物体認識部14により、対象物画像から対象物の名称を認識させる(ステップS6)。
そして、画像処理装置1は、メタ情報取得部15により、メタ情報テーブルを作成させる(ステップS7)。
以上説明したように、実施形態の画像処理装置1は、対象物画像、及び文字列画像の各々が混在した画像(例えば、チラシ画像T-1)から、画像の明度に基づいて文字候補画像(例えば、画像T-40)を抽出し、抽出した文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像(例えば、画像T-8)として抽出する文字・対象物領域抽出部12と、文字列画像における各々の文字候補画像の文字を認識する文字認識部13とを備える。
これにより、実施形態の画像処理装置1は、チラシ画像に含まれる背景の色、及び文字の色に関わらず、画像から精度よく情報を抽出することができる。文字・対象物領域抽出部12が、チラシ画像T-1から抽出した文字候補画像が並んで描画された文字列画像を抽出することができるため、文字認識部13は、文字列画像に含まれる個々の文字候補画像について文字を認識することができる。文字候補画像は、画像の明度に基づいて抽出され、明度に差がある背景部分が除かれる。このため、背景の色に関わらず精度よく情報を抽出することができる。また、文字候補画像は、背景部分が除かれて抽出されるため、文字が認識され易い配色(例えば、文字の部分の色が黒、背景の部分が白)にすることができ、元々の画像に描画されていた背景の色や文字の色に関わらず精度よく情報を抽出することができる。
また、実施形態の画像処理装置1では、画像から、所定のルールに従って物体画像、及び文字列画像を含む小領域の画像を抽出する小領域抽出部11を更に備え、文字・対象物領域抽出部12は、小領域の画像(例えば、画像T-3)から文字列画像を抽出する。
これにより、実施形態の画像処理装置1では、小領域抽出部11が小領域の画像を抽出することができ、文字・対象物領域抽出部12が小領域から文字列画像を抽出することができ、画像に含まれる文字列を小領域ごとに認識させることができ、画像に含まれる情報が小領域ごとに区別されているチラシ画像等の場合、より精度よく情報を抽出することができる。
また、実施形態の画像処理装置1では、小領域抽出部11は、画像において所定の方向に同一色の画像が連続する境界線があるか否かを判定し、境界線がある場合、境界線により画像を分割して小領域の画像を抽出する。
これにより、実施形態の画像処理装置1では、小領域が境界線や同色の背景等により区分けされているチラシ画像等の場合、より精度よく、小領域を抽出することができる。
また、実施形態の画像処理装置1では、小領域抽出部11は、境界線で囲まれた領域における大きさ及び要素比のうち少なくともいずれかに基づいて、小領域の画像を抽出する。
これにより、実施形態の画像処理装置1では、小領域が同じようなサイズで描画されているチラシ画像等、あるいは小領域における対象物画像と文字列画像とが同じような明度で配置されているチラシ画像等の場合、より精度よく、小領域を抽出することができる。
また、実施形態の画像処理装置1では、文字・対象物領域抽出部12は、横書きに描画された文字列画像を抽出する。
これにより、実施形態の画像処理装置1では、横書きの文字列で商品名や値段を示す画像が描画されているチラシ画像等の場合、より精度よく、文字列画像を抽出することができる。
また、実施形態の画像処理装置1では、文字認識部13は、文字・対象物領域抽出部12により抽出された文字列画像に含まれる文字候補画像それぞれの大きさを揃えることにより文字を認識する。
これにより、実施形態の画像処理装置1では、文字認識部13が文字候補画像それぞれの大きさを揃えることで文字を認識し易くすることができ、より精度よく、文字を認識することができる。
また、実施形態の画像処理装置1では、文字認識部13は、予め定めた所定の画像と、文字列画像の領域に含まれる文字の画像とを比較することにより文字を認識する。
これにより、実施形態の画像処理装置1は、一般的なフォントとは異なる特殊なフォントで描画された文字の画像であっても、より精度よく文字を認識させることができる。
また、実施形態の画像処理装置1では、文字認識部13により認識された文字に基づいて、画像に示される情報の属性を示すメタ情報を取得するメタ情報取得部を更に備える。
これにより、実施形態の画像処理装置1では、画像に含まれる文字情報を集約させ、チラシ画像T-1に掲載された商品について、その商品名、産地、数量、価格等の属性情報を取得することができる。
また、実施形態の画像処理装置1では、文字・対象物領域抽出部12により抽出された対象物画像に基づいて、物体の名称を認識する物体認識部14を更に備え、メタ情報取得部15は、文字認識部13により認識された文字に、物体認識部に14より認識された物体の名称を対応づけたメタ情報を取得する。
これにより、実施形態の画像処理装置1では、画像に含まれる文字情報と対象物の名称とを照合させることができ、チラシ画像T-1に掲載された商品について、その商品の画像から認識された商品名を取得することで、文字認識により抽出した情報を検証することができ、より精度よく情報を抽出することができる。
なお、本発明における画像処理装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することにより処理を行なってもよい。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…画像処理装置
10…画像入力部
11…小領域抽出部
12…文字・対象物領域抽出部
13…文字認識部
14…物体認識部
15…メタ情報取得部
16…記憶部
160…画像情報記憶部
161…小領域情報記憶部
162…文字・対象物領域記憶部
163…文字情報記憶部
164…物体名称記憶部
165…メタ情報記憶部
166…文字認識情報記憶部

Claims (9)

  1. 物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、画像の明度に基づいて文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する文字列領域抽出部と、
    前記文字列画像における各々の前記文字候補画像の文字を認識する文字認識部と
    前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する小領域抽出部と
    を備え
    前記小領域抽出部は、前記画像における所定の方向にRGB値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、
    前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出する
    ことを特徴とする画像処理装置。
  2. 前記文字認識部は、予め記憶された特殊フォントの形状を示す画像と、前記文字列画像の領域に含まれる文字の画像とを比較することにより、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、一般的な字体である場合にはOCRエンジンを用いて文字列画像に描画された文字を識別する
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記文字認識部は、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、特殊な字体である場合には、学習モデルを用いて文字列画像に描画された文字を識別し、
    前記学習モデルは、特殊フォントの形状に当該特殊フォントの文字を対応付けた情報を学習データとして機械学習を実行させることにより作成されたモデルであり、
    前記文字認識部は、前記学習モデルによる文字認識を行う前処理として、前記文字列画像から抽出した個々の文字候補画像のアスペクト比及び大きさを揃える処理を行う
    ことを特徴とする請求項1又は請求項2に記載の画像処理装置。
  4. 前記小領域抽出部は、前記境界線で囲まれた領域における大きさ及び要素比のうち少なくともいずれかに基づいて、前記小領域の画像を抽出する
    ことを特徴とする請求項3に記載の画像処理装置。
  5. 前記文字列領域抽出部は、横書きに描画された前記文字列画像を抽出する
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の画像処理装置。
  6. 前記文字認識部により認識された文字に基づいて、前記画像に示される情報の属性を示すメタ情報を取得するメタ情報取得部を更に備える
    ことを特徴とする請求項1から請求項のいずれか一項に記載の画像処理装置。
  7. 前記文字列領域抽出部により抽出された前記物体画像に基づいて、前記物体の名称を認識する物体認識部を更に備え、
    前記メタ情報取得部は、前記文字認識部により認識された文字に、前記物体認識部により認識された前記物体の名称を対応づけたメタ情報を取得する
    ことを特徴とする請求項に記載の画像処理装置。
  8. 文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、
    文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と
    小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程と
    を有し、
    前記小領域抽出部は、前記画像における所定の方向にRGB値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、
    前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出する
    ことを特徴とする画像処理方法。
  9. コンピュータに、
    文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、
    文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と
    小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程と
    を実行させ
    前記小領域抽出部は、前記画像における所定の方向にRGB値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、
    前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出する
    プログラム。
JP2017174875A 2017-09-12 2017-09-12 画像処理装置、画像処理方法、及びプログラム Active JP7006059B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017174875A JP7006059B2 (ja) 2017-09-12 2017-09-12 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017174875A JP7006059B2 (ja) 2017-09-12 2017-09-12 画像処理装置、画像処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019049943A JP2019049943A (ja) 2019-03-28
JP7006059B2 true JP7006059B2 (ja) 2022-01-24

Family

ID=65905695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017174875A Active JP7006059B2 (ja) 2017-09-12 2017-09-12 画像処理装置、画像処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7006059B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7461616B2 (ja) 2019-09-10 2024-04-04 株式会社プロフィールド 学習装置、カタログ生産装置、学習方法、カタログの生産方法、およびプログラム
JP2021092999A (ja) * 2019-12-11 2021-06-17 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理装置の制御方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030696A (ja) 1997-12-19 2004-01-29 Fujitsu Ltd 文字列抽出装置及びパターン抽出装置
JP2004334461A (ja) 2003-05-07 2004-11-25 Mitsubishi Electric Corp 文字認識装置及び文字認識プログラム
JP2008242682A (ja) 2007-03-27 2008-10-09 Nec Corp メタ情報自動付与システム、メタ情報自動付与方法、及びメタ情報自動付与プログラム
JP2009278198A (ja) 2008-05-12 2009-11-26 Konica Minolta Business Technologies Inc 画像処理装置
WO2011126134A1 (ja) 2010-04-09 2011-10-13 サイバーアイ・エンタテインメント株式会社 リアルタイム動画像収集・認識・分類・処理・配信サーバシステム
WO2012176317A1 (ja) 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
JP2015197685A (ja) 2014-03-31 2015-11-09 凸版印刷株式会社 電子チラシ情報処理システム及び電子チラシ情報処理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316799A (ja) * 1989-04-28 1999-11-16 Hitachi Ltd 文字認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030696A (ja) 1997-12-19 2004-01-29 Fujitsu Ltd 文字列抽出装置及びパターン抽出装置
JP2004334461A (ja) 2003-05-07 2004-11-25 Mitsubishi Electric Corp 文字認識装置及び文字認識プログラム
JP2008242682A (ja) 2007-03-27 2008-10-09 Nec Corp メタ情報自動付与システム、メタ情報自動付与方法、及びメタ情報自動付与プログラム
JP2009278198A (ja) 2008-05-12 2009-11-26 Konica Minolta Business Technologies Inc 画像処理装置
WO2011126134A1 (ja) 2010-04-09 2011-10-13 サイバーアイ・エンタテインメント株式会社 リアルタイム動画像収集・認識・分類・処理・配信サーバシステム
WO2012176317A1 (ja) 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
JP2015197685A (ja) 2014-03-31 2015-11-09 凸版印刷株式会社 電子チラシ情報処理システム及び電子チラシ情報処理方法

Also Published As

Publication number Publication date
JP2019049943A (ja) 2019-03-28

Similar Documents

Publication Publication Date Title
JP5972468B2 (ja) 画像からのラベルの検出
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US8649600B2 (en) System and method for segmenting text lines in documents
JP6366024B2 (ja) 画像化された文書からテキストを抽出する方法及び装置
JP4771804B2 (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
US8782516B1 (en) Content style detection
US9965871B1 (en) Multi-binarization image processing
US20090016605A1 (en) System and method for creating an editable template from a document image
JP2015210651A (ja) 商品識別システム
US20160275368A1 (en) Management system, list production device, method, computer readable recording medium, data structure, and printed label
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
JP6529686B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2008257670A (ja) 画像文書の検索装置、画像文書の検索方法、プログラム、及び記録媒体
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
US20150169972A1 (en) Character data generation based on transformed imaged data to identify nutrition-related data or other types of data
JP7006059B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN107133615A (zh) 信息处理设备和信息处理方法
US20150371103A1 (en) System and method for identification of printed matter in an image
JP2014026660A (ja) データ生成装置およびデータ生成方法
CN107958261B (zh) 一种盲文点检测方法及系统
CN105913104A (zh) 书法码生成方法及系统、解析方法及系统以及书法码标签
US20230334277A1 (en) Information processing system
US11657511B2 (en) Heuristics-based detection of image space suitable for overlaying media content
US8165404B2 (en) Method and apparatus for creating document data, and computer program product
JP7365835B2 (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7006059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150