JP7006059B2

JP7006059B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP7006059B2
Application number: JP2017174875A
Authority: JP
Inventors: 千秋瀧野; 崇岡田; 修二酒井
Original assignee: Toppan Inc
Current assignee: Toppan Inc
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2022-01-24
Anticipated expiration: 2037-09-12
Also published as: JP2019049943A

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

文字が含まれる画像から文字情報を抽出する光学文字認識（ＯＣＲ、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）がある。光学文字認識においては、スキャナ等によって読み込まれた画像情報を解析することにより白色の背景に書かれた黒色の文字の画像について、行や文字を抽出する。そして、抽出した文字に対する特徴量の抽出、及び機械学習に基づく識別器による文字認識によりテキストデータへの変換が行われる。
一方、スーパーマーケットや家電量販店等において、広告媒体としてチラシが利用されている。チラシにはウェブ上でチラシを閲覧できる電子チラシや新聞等に折り込まれた折り込みチラシ等がある。電子チラシはユーザ端末装置の表示画面に表示されることにより、折り込みチラシは紙媒体に印刷されて配布されることにより、消費者に閲覧される。
このようなチラシから文字情報を抽出することによって、チラシにどのような商品が掲載され、いくらで売られているのかといった動向を把握することが行われている（例えば、特許文献１）。

特開２０１５－４９８２０号公報

しかしながら、このようなチラシにおいては、商品名や価格等を示す文字列の画像（以下、文字列画像という）が、商品等の画像に重なるように描画される場合が多いため、文字列画像の背景の色が白色とは限らず、高品質の画像における様々な色が混在したものとなる。また、チラシにおいては、文字列画像の色が黒色とは限らず様々な色で描かれ、色やサイズも同一とは限らない。このため、チラシから上述した光学文字認識により文字情報を抽出しようとしても、白色の背景に書かれた黒色の同一サイズの文字列画像から文字情報を抽出する場合と比較して、文字認識の精度が低下してしまう問題があった。

本発明は、このような状況に鑑みてなされたもので、その目的は、画像に含まれる背景の色、及び文字の色に関わらず、画像から精度よく情報を抽出することができる画像処理装置、画像処理方法、及びプログラムを提供することにある。

上述した課題を解決するために、本発明の一態様は、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、画像の明度に基づいて文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する文字列領域抽出部と、前記文字列画像における各々の前記文字候補画像の文字を認識する文字認識部と、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する小領域抽出部とを備え、前記小領域抽出部は、前記画像における所定の方向にＲＧＢ値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出することを特徴とする画像処理装置である。

また、本発明の一態様は、前記文字認識部は、予め記憶された特殊フォントの形状を示す画像と、前記文字列画像の領域に含まれる文字の画像とを比較することにより、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、一般的な字体である場合にはＯＣＲエンジンを用いて文字列画像に描画された文字を識別することを特徴とする画像処理装置である。

また、本発明の一態様は、前記文字認識部は、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、特殊な字体である場合には、学習モデルを用いて文字列画像に描画された文字を識別し、前記学習モデルは、特殊フォントの形状に当該特殊フォントの文字を対応付けた情報を学習データとして機械学習を実行させることにより作成されたモデルであり、前記文字認識部は、前記学習モデルによる文字認識を行う前処理として、前記文字列画像から抽出した個々の文字候補画像のアスペクト比及び大きさを揃える処理を行うことを特徴とする画像処理装置である。

また、本発明の一態様は、前記小領域抽出部は、前記境界線で囲まれた領域における大きさ及び要素比のうち少なくともいずれかに基づいて、前記小領域の画像を抽出することを特徴とする請求項３に記載の画像処理装置である。

また、本発明の一態様は、前記文字列領域抽出部は、横書きに描画された前記文字列画像を抽出することを特徴とする画像処理装置である。

また、本発明の一態様は、前記文字認識部により認識された文字に基づいて、前記画像に示される情報の属性を示すメタ情報を取得するメタ情報取得部を更に備えることを特徴とする画像処理装置である。

また、本発明の一態様は、前記文字列領域抽出部により抽出された前記物体画像に基づいて、前記物体の名称を認識する物体認識部を更に備え、前記メタ情報取得部は、前記文字認識部により認識された文字に、前記物体認識部により認識された前記物体の名称を対応づけたメタ情報を取得することを特徴とする画像処理装置である。

また、本発明の一態様は、文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と、小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程とを有し、前記小領域抽出部は、前記画像における所定の方向にＲＧＢ値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出することを特徴とする画像処理方法である。

また、本発明の一態様は、コンピュータに、文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と、小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程とを実行させ、前記小領域抽出部は、前記画像における所定の方向にＲＧＢ値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出するプログラムである。

本発明によれば、画像に含まれる背景の色、及び文字の色に関わらず、画像から精度よく情報を抽出することができる。

実施形態の画像処理装置１の構成例を示すブロック図である。実施形態の小領域抽出部１１が行う処理を説明するための図である。実施形態の文字・対象物領域抽出部１２が行う処理を説明するための第１図である。実施形態の文字・対象物領域抽出部１２が行う処理を説明するための第２図である。実施形態の文字認識部１３が行う処理を説明するための図である。実施形態のメタ情報記憶部１６４に記憶されたメタ情報テーブルの例を示す図である。実施形態の画像処理装置１の動作例を示すフローチャートである。

以下、実施形態の画像処理装置、画像処理方法、及びプログラムを、図面を参照して説明する。

＜実施形態＞
まず、実施形態について説明する。

［実施形態の画像処理装置１の全体構成の説明］
図１は、実施形態の画像処理装置１の構成例を示すブロック図である。画像処理装置１は、画像入力部１０と、小領域抽出部１１と、文字・対象物領域抽出部１２と、文字認識部１３と、物体認識部１４と、メタ情報取得部１５と、記憶部１６とを備える。記憶部１６は、画像情報記憶部１６０と、小領域情報記憶部１６１と、文字・対象物領域記憶部１６２と、文字情報記憶部１６３と、物体名称記憶部１６４と、メタ情報記憶部１６５と、文字認識情報記憶部１６６とを備える。ここで、文字・対象物領域抽出部１２は、「文字列領域抽出部」の一例である。

画像処理装置１は、画像から情報を抽出する。以下の説明においては、画像処理装置１が情報を抽出する画像が、電子チラシや折り込みチラシ等のチラシ画像である場合を例に説明する。しかしながら、画像は、物体の画像と、文字列画像が含まれた画像であればよく、例えば、図を用いた解説がされたカタログやパンフレット等であってもよい。

画像入力部１０には、チラシ画像Ｔ－１（図２（ａ）参照）の画像情報が入力される。画像入力部１０は、入力された画像情報を、画像情報記憶部１６０に記憶させる。

小領域抽出部１１は、画像情報記憶部１６０に記憶された画像情報に基づいて、画像全体から小領域（コマ、ともいう）の画像を抽出する。ここで、小領域の画像とは、画像の中にある境界線で囲まれた領域であって、対象物としての物体の画像（以下、対象物画像という）、及び文字列画像がそれぞれ描画された画像である。ここで、対象物画像は、「物体画像」の一例である。

例えば、小領域抽出部１１は、チラシ画像Ｔ－１に掲載された商品の画像（対象物画像）とその商品の名称や価格を示す文字列画像とが含まれる小領域の画像Ｔ－３（図２（ｄ）参照）を抽出する。小領域抽出部１１は、抽出した小領域の画像に関する情報を小領域情報記憶部１６１に記憶させる。

文字・対象物領域抽出部１２は、小領域抽出部１１により抽出された小領域の画像から文字列が描画された画像を抽出する。例えば、文字・対象物領域抽出部１２は、小領域の画像Ｔ－３（図３（ａ）参照）からその商品の名称や価格を示す文字列画像Ｔ－８（図５（ｃ）参照）を抽出する。
また、文字・対象物領域抽出部１２は、小領域抽出部１１により抽出された小領域から対象物画像を抽出する。文字・対象物領域抽出部１２は、例えば、小領域の画像Ｔ－３における文字列画像の領域以外の領域として、対象物画像Ｔ－７（図３（ｅ）参照）を抽出する。文字・対象物領域抽出部１２は、抽出した文字列画像および対象物画像の各々の情報を文字・対象物領域記憶部１６２に記憶させる。

文字認識部１３は、文字・対象物領域抽出部１２により抽出された文字列画像の領域に含まれる文字列を構成する文字の各々の画像に基づいて、それぞれの画像から文字を認識する。文字認識部１３は、例えば、文字列画像Ｔ－８から「１」、「５」、「８」、及び「円」等の文字を認識する。
また、文字認識部１３は、予め定めた所定の画像と、文字列画像の領域に含まれる文字の画像とを比較することにより文字を認識するようにしてもよい。文字認識部１３は、例えば、文字列画像Ｔ－８を、予め定めた所定の画像（例えば、チラシで用いられることが多い特殊なフォントの「１」、「５」、「８」や「円」の画像）と比較し、特徴が一致した場合、「１」、「５」、「８」や「円」の文字を認識する。文字認識部１３は、認識した文字の文字コードなどの情報を文字情報記憶部１６３に記憶させる。

物体認識部１４は、小領域抽出部１１により抽出された小領域の画像に含まれる対象物画像に基づいて、物体を認識する。ここで、「物体を認識する」とは、対象物画像に含まれる対象物の名称を判別することである。例えば、物体認識部１４は、対象物画像Ｔ－７に基づいて物体を認識し、対象物画像Ｔ－７に描画された対象物が「生しいたけ」であると判別する。物体認識部１４は、認識した対象物の名称を物体名称記憶部１６４に記憶させる。

メタ情報取得部１５は、小領域情報記憶部１６１と、文字・対象物領域記憶部１６２と、文字情報記憶部１６３と、物体名称記憶部１６４とに記憶された情報に基づいて、メタ情報を取得する。ここで、メタ情報とは、画像に示される情報の属性を示す情報であり、例えば、チラシ画像Ｔ－１に掲載された商品の属性情報としての商品の量や値段等の情報である。メタ情報取得部１５は、例えば、チラシ画像Ｔ－１に示される小領域の画像Ｔ－３における商品名「生しいたけ」や価格「１５８円」等の属性を示す情報を取得する。メタ情報取得部１５は、取得したメタ情報に基づいてメタ情報テーブル（図６参照）を生成する。メタ情報取得部１５は、生成したメタ情報テーブルをメタ情報記憶部１６５に記憶させる。

画像情報記憶部１６０は、画像情報を記憶する。小領域情報記憶部１６１は、小領域ごとに、その小領域の画像の画像情報、及び小領域の画像のチラシ画像に対する位置を示す情報を記憶する。文字・対象物領域記憶部１６２は、小領域ごとに、その小領域から抽出された文字列画像、および対象物画像それぞれの画像情報を記憶する。
文字情報記憶部１６３は、小領域ごとに、その小領域の文字列画像から認識された文字の情報を記憶する。物体名称記憶部１６４は、小領域ごとに、その小領域の対象物画像から認識された対象物の名称を記憶する。メタ情報記憶部１６５は、小領域ごとに、その小領域のチラシ画像に対する位置、小領域の高さや幅、小領域の文字列画像から認識された文字、小領域の対象物画像から認識された対象物の名称、商品名、価格等の属性情報を記憶する。
文字認識情報記憶部１６６は、文字認識部１３による文字の認識に用いられる、予め定めた所定の画像（例えば、チラシで用いられることが多い特殊なフォントの「１」、「８」、「５」や「円」の画像）が記憶される。

［実施形態の小領域抽出部１１の説明］
ここでは、小領域抽出部１１が小領域の画像を抽出する方法について説明する。
図２は、実施形態の小領域抽出部１１が行う処理を説明するための図である。図２（ａ）は、チラシ画像Ｔ－１を示す。図２（ｂ）は、チラシ画像Ｔ－１の一部の領域Ｅ－１を拡大した図を示す。図２（ｃ）は、図２（ａ）におけるチラシ画像Ｔ－１を境界線Ｌ－１およびＬ－２で分割した画像Ｔ－２を示す。図２（ｄ）は、小領域の画像Ｔ－３を示す。なお、図２（ａ）～（ｄ）のそれぞれの画像はカラーの画像である。

本実施形態においては、一般的なチラシが背景や境界線によって小領域に区切られていることを利用して小領域の画像を抽出する。
小領域抽出部１１は、画像全体に描画された境界線の有無を判定する。小領域抽出部１１は、画像における所定の位置から所定の方向に対して、各々のピクセルの色を示す情報（以下、色情報という）を取得する。色情報とは例えばＲＧＢ値である。以下の説明においては、色情報がＲＧＢ値である場合を例に説明するが、これに限定されることはなく、例えば色情報は、ＣＭＹＫ値であってもよい。

まず、小領域抽出部１１は、画像のｘ軸方向に描画された境界線の有無を判定する。
図２（ａ）の例で、小領域抽出部１１は、チラシ画像Ｔ－１の位置Ｐからｘ軸方向に対して、ピクセル単位でＲＧＢ値を取得する。小領域抽出部１１は、所定の位置におけるピクセルのＲＧＢ値と、そのピクセルに対してｘ軸方向に隣接するピクセルのＲＧＢ値とのそれぞれの色成分ごとの差分を算出する。
小領域抽出部１１は、算出したＲＧＢ値の色成分ごとの差分のそれぞれが所定の閾値（例えば、１５）以下である場合、当該ピクセルと当該ピクセルに隣接するピクセルとを色が連続しているピクセル群（色連続ピクセル群）であると判定する。小領域抽出部１１は、位置Ｐからｘ軸方向にチラシ画像Ｔ－１の位置Ｐから位置Ｒまでの間に配置されるピクセル各々について色連続ピクセル群を抽出し、抽出した色連続ピクセル群の連続するピクセルの個数、および当該色連続ピクセル群の各々におけるＲＧＢ値の平均値（以下、平均ＲＧＢ値という）を算出する。

小領域抽出部１１は、位置Ｐからｘ軸方向において抽出された色連続ピクセル群のうち、最もピクセルの個数が多いものを代表色連続ピクセル群として選択し、選択した代表色連続ピクセル群の平均ＲＧＢ値を代表平均ＲＧＢ値とする。そして、小領域抽出部１１は、位置Ｐからｘ軸方向において抽出された色連続ピクセル群のうち、代表色連続ピクセル群を除いた色連続ピクセル群の中で代表平均ＲＧＢ値と平均ＲＧＢ値との差分が所定の閾値以下である領域（つまり、同じ色または似た色の領域）を選択し、代表色連続ピクセル群と、その選択した色連続ピクセル群との、それぞれにおけるピクセルの個数を合計した合計数を算出する。

小領域抽出部１１は、算出した合計数と、チラシ画像Ｔ－１の位置Ｐから位置Ｒまでに配置されたピクセルの総数との差分が所定の閾値以下である場合、つまり、位置Ｐから位置Ｒまでの間に配置されたピクセルの各々のうち、所定の割合以上が代表色連続ピクセル群及び代表平均ＲＧＢ値に近い色の色連続ピクセル群である場合、位置Ｐから位置Ｒまでが境界線であると判定する。

また、小領域抽出部１１は、位置Ｐとは異なる他の位置からｘ軸方向に境界線があるか否かを判定する。
小領域抽出部１１は、位置Ｐから位置Ｑまでｙ軸方向にピクセル単位で位置を順に移動させ、移動させた位置Ｐ＃からｘ軸方向に配置されるピクセル各々について色連続ピクセル群を抽出し、抽出した色連続ピクセル群の各々のうち、代表色連続ピクセル群および代表色連続ピクセル群に色が近い色連続ピクセル群とのそれぞれのピクセルの個数の合計数と、位置Ｐ＃からｘ軸方向に画像の端まで配置されたピクセルの総数との差分が所定の閾値以下である場合、位置Ｐ＃から画像の端までｘ軸方向に境界線があると判定する。

図２（ｂ）の例で、小領域抽出部１１は、領域Ｅ－１の上部におけるｘ軸方向の領域Ｅ－２において、連続する領域として領域Ｅ－３～Ｅ－５を判定する。小領域抽出部１１は、例えば、領域Ｅ－４を代表領域に選択した場合、領域Ｅ－４と領域Ｅ－３、Ｅ－５が同じ色または似た色であれば、領域Ｅ－３～Ｅ－５を連続する領域と判定し、異なる色であれば領域Ｅ－３～Ｅ－５がそれぞれ独立した（連続していない）領域であると判定する。
また、図２（ｂ）の例で、小領域抽出部１１は、領域Ｅ－６において、連続する領域として領域Ｅ－７～Ｅ－９を判定する。小領域抽出部１１は、例えば、領域Ｅ－８を代表領域に選択した場合、領域Ｅ－８と領域Ｅ－７、Ｅ－９が同じ色または似た色であれば、領域Ｅ－７～Ｅ－９を連続する領域と判定し、異なる色であれば領域Ｅ－７～Ｅ－９がそれぞれ独立した（連続していない）領域であると判定する。
一般的なチラシでは、日ごと、または商品ごとの区切りに領域Ｅ－３～Ｅ－５に示されるような連続する領域を同じような色で描画される場合が多く、領域Ｅ－７～Ｅ－９に示されるような商品の画像は、それぞれ異なる色で描画される場合が多い。本実施形態では、一般的なチラシにおけるこのような性質を利用して境界線を判定する。

次に、小領域抽出部１１は、画像のｙ軸方向に描画された境界線の有無を判定する。
小領域抽出部１１は、位置Ｐから位置Ｑまでの間に配置されたピクセルの各々についてもｙ軸方向に色が連続しているピクセル群としての色連続ピクセル群を抽出し、抽出した色連続ピクセル群の各々における連続するピクセルの個数、および平均ＲＧＢ値を算出する。そして、小領域抽出部１１は、抽出した色連続ピクセル群のうち、代表色連続ピクセル群、及び代表色連続ピクセル群に似た色を持つ色連続ピクセル群のそれぞれのピクセルの個数の合計数と、位置Ｐから位置Ｑまでの間に配置されたピクセルの総数との差分が所定の閾値以下である場合、位置Ｐから位置Ｑまでが境界線であると判定する。

また、小領域抽出部１１は、位置Ｐとは異なる他の位置からｙ軸方向に境界線があるか否かを判定する。
小領域抽出部１１は、位置Ｐから位置Ｒまでｘ軸方向にピクセル単位で位置を順に移動させ、移動させた位置Ｐ＃＃からｙ軸方向に配置されるピクセル各々について色連続ピクセル群を抽出し、抽出した色連続ピクセル群の各々のうち、代表色連続ピクセル群および代表色連続ピクセル群に色が近い色連続ピクセル群とのそれぞれのピクセルの個数の合計数と、位置Ｐ＃＃からｙ軸方向に画像の端まで配置されたピクセルの総数との差分が所定の閾値以下である場合、位置Ｐ＃＃から画像の端までｙ軸方向に境界線があると判定する。

なお、小領域抽出部１１は、線分検出アルゴリズムを用いて線分を検出し、検出した線分の長さに基づいて境界線の有無を判定するようにしてもよい。線分検出アルゴリズムには、例えばＬＳＤ（ＬｉｎｅＳｅｇｍｅｎｔＤｅｔｅｃｔｏｒ）を用いることができる。

次に、小領域抽出部１１は、検出した境界線でチラシ画像Ｔ－１を分割する。そして、小領域抽出部１１は、分割した領域に対して境界線を検出した場合、当該分割した画像（以下、分割画像）を検出した境界線でさらに分割する。小領域抽出部１１は、画像に対して境界線が検出されなくなるまで、画像の分割を再帰的に繰り返す。
図２（ｃ）の例で、小領域抽出部１１は、検出した境界線Ｌ－１、Ｌ－２でチラシ画像Ｔ－１を分割した画像Ｔ－２に対して、例えば、境界線Ｌ－３、Ｌ－４を検出する。小領域抽出部１１は、画像Ｔ－２を境界線Ｌ－３、Ｌ－４で分割する。

小領域抽出部１１は、分割した画像に対して境界線を検出しない場合、当該画像を小領域の画像とする。
図２（ｄ）の例で、小領域抽出部１１は、画像Ｔ－３に対して境界線を検出しない場合、画像Ｔ－３を小領域の画像とする。

あるいは、小領域抽出部１１は、一般的なチラシにおける小領域の性質を利用して、分割画像が小領域の画像か否かを判断するようにしてもよい。例えば、一般的なチラシでは、視認され易いようなアスペクト比を有する矩形や、視認され易いサイズで、小領域が区切られている場合が多い。
例えば、小領域抽出部１１は、一般的なチラシによく見られる所定のアスペクト比や、サイズを、予め記憶部１６に記憶させておく。そして、小領域抽出部１１は、分割画像のアスペクト比が、記憶部１６に記憶させた所定のアスペクト比が所定の上限閾値以上である場合、又は所定の]下限閾値以下である場合、分割画像を小領域の画像でないと判定する。また、小領域抽出部１１は、分割画像のサイズが、記憶部１６に記憶させた所定のサイズに対して所定の上限閾値以上である場合、又は所定の下限閾値以下である場合、分割画像を小領域の画像でないと判定する。

また、小領域抽出部１１は、小領域の画像に対象物画像および文字列画像が描画されている性質を利用して、分割画像が小領域の画像か否かを判断するようにしてもよい。一般的なチラシでは、例えば、画像が明るすぎても暗すぎても視認し難くなることから、所定の明るさで対象物画像および文字列画像が生成されることが考えられる。この場合、画像における各ピクセルのグレースケールにおいて、所定の閾値以上を白、所定の閾値未満を黒として二値化した場合、白と黒とのそれぞれの比率が、対象物画像および文字列画像のそれぞれにおいて所定の比率になることが考えられる。ここで、二値化した白と黒の比率は「要素比」の一例である。以下の説明においては、上述したように二値化した白と黒の比率を要素比と称する。

例えば、小領域抽出部１１は、一般的なチラシの小領域に描画される画像の要素比、及び要素比の算出に用いた所定の閾値を、予め記憶部１６に記憶させておく。そして、小領域抽出部１１は、分割画像を記憶部１６に記憶された所定の閾値で二値化し、分割画像における要素比を算出する。
小領域抽出部１１は、分割画像における要素比と、これに対応する記憶部１６に記憶された要素比との、それぞれの差分を算出し、算出した差分値が所定の上限閾値以上である場合、又は所定の下限閾値以下である場合、その分割画像には文字列画像と対象物画像とが描画されていない、つまり小領域の画像ではないと判定する。

例えば、小領域抽出部１１は、分割画像を二値化した場合に、要素比に極端な偏りがあり白の比率が高い場合、その分割画像には単なる余白であって対象物と文字列とが描画された画像ではない、つまり小領域の画像ではないと判定する。小領域抽出部１１は、分割画像を二値化した場合に、要素比に極端な偏りがあり黒の比率が高い場合、その分割画像は、例えばチラシ画像の上端部分の店舗の名称などを記載した部分であって対象物と文字列とが描画された画像ではない、つまり小領域の画像ではないと判定する。

また、小領域抽出部１１は、分割画像を二値化した場合の連結要素数を取得する。ここで、連結要素数は、画像における各ピクセルのうち、所定の方向に連続した白又は黒の集合体の総数である。小領域抽出部１１は、取得した連結要素数が所定の閾値以下の場合、当該分割画像が小領域の画像ではないと判定する。本実施形態において、小領域の画像には対象物画像および文字列画像が描画されていることを前提とする。また、文字列画像を二値化した場合、文字の部分と背景の部分とで二値化のいずれか一方と他方とに分かれるのが通常である。このことから、小領域抽出部１１は、分割画像の連結要素数が所定の閾値未満の場合、例えば、文字列画像のみ、又は文字列画像の一部のみが描画された画像である可能性が高いと判定し、当該分割画像が小領域の画像ではないと判定する。

［実施形態の文字・対象物領域抽出部１２の説明］
ここで、文字・対象物領域抽出部１２が、文字列画像を抽出する方法について説明する。
図３は、実施形態の文字・対象物領域抽出部１２が行う処理を説明するための第１図である。図３（ａ）は、図２（ｄ）における小領域の画像Ｔ－３をグレースケールに変換した画像を示す。図３（ｂ）は、文字候補画像として抽出された画像群の一例を示す。図３（ｃ）は、文字候補画像として抽出された画像群の他の例を示す。図３（ｄ）は、文字列画像として抽出された画像群の例を示す。図３（ｅ）は、対象物画像Ｔ－７を示す。
図４は、実施形態の文字・対象物領域抽出部１２が行う処理を説明するための第２図である。図４（ａ）は、図３（ｂ）における文字候補画像Ｔ－４０を拡大させた画像示す。図４（ｂ）は、図３（ｂ）における文字候補画像Ｔ－４１を拡大させた画像を示す。

本実施形態においては、一般的なチラシにおいて、文字列画像にはほぼ一定の色が用いられること（いわゆるベタ塗り）、また文字列画像では文字が横書きで描画される場合が多いこと、を利用して文字列画像を抽出する。
まず、文字・対象物領域抽出部１２は、領域検出手法を用いて、文字列画像における文字部分の候補となる画像（文字候補画像）を小領域の画像から抽出する。
文字・対象物領域抽出部１２は、例えば、文字として描画される画像と、その他の画像との明度の差（コントラスト）に基づいて、小領域の画像から文字候補画像を抽出する。

一般的に、文字として描画される画像は、文字として認識されやすいように、暗い背景に白抜きの文字を配置される、又は明るい背景に黒い文字が配置される等、文字の部分に対してコントラストが大きい背景が配置される。あるいは、コントラストが大きい画像で文字の形状に沿って縁取りがなされる場合が多い。また、文字として描画される画像は、その他の画像と比較すると、文字の部分の明度がほぼ一定である。

文字・対象物領域抽出部１２は、上述のような特徴に基づいて、例えば、ＭＳＥＲ（ＭａｘｉｍａｌｌｙＳｔａｂｌｅＥｘｔｅｒｎａｌＲｅｇｉｏｎｓ）を用いることにより、小領域の画像から文字候補画像を抽出する。ＭＳＥＲでは、グレースケールに変換された画像に対して、背景や縁取りとして描画された画像の明度に対して、暗い画像、または明るい画像を、それぞれ検出する。

文字・対象物領域抽出部１２は、例えば、小領域の画像Ｔ－３を、図３（ａ）に示すようなグレースケールの画像に変換する。グレースケールに変換された画像Ｔ－３において、生しいたけが描画された部分には様々な明るさを示すピクセルが混在しているのに対し、文字が描画された部分では、文字の部分がほぼ一定の明るさで描画されている。

文字・対象物領域抽出部１２は、例えば、変換したグレースケールの画像Ｔ－３に対し、ＭＳＥＲを用いて文字候補画像を検出する。図３（ｂ）に示す画像Ｔ－４、及び図３（ｃ）に示す画像Ｔ－５において、白で示される領域が検出された文字候補画像（画像Ｔ４０～Ｔ－４８、および画像Ｔ５０～Ｔ－５３）の領域である。
また、文字・対象物領域抽出部１２は、検出した文字候補画像それぞれについて、一連の文字列を示す文字列画像であるか否かを判定する。一連の文字列とは、一つの情報を示す複数の文字の集合体である。例えば、図３（ａ）の画像Ｔ－３における「国内産」、「生しいたけ」、「１袋」、「１５８円」のそれぞれの画像が文字列画像である。
文字・対象物領域抽出部１２は、例えば、文字候補画像である画像Ｔ４０～Ｔ４６のそれぞれについて、一連の文字列画像であると判定する。また、文字・対象物領域抽出部１２は、文字候補画像である画像Ｔ５０～Ｔ５３について（画像Ｔ４０～Ｔ４６とは異なる）一連の文字列画像であると判定する。また、文字・対象物領域抽出部１２は、文字候補画像である画像Ｔ４７、およびＴ－４８について、一連の文字列画像でないと判定する。

文字・対象物領域抽出部１２は、小領域に複数の文字の画像が並んで描画されていることを利用して文字候補画像の各々が文字列画像であるか否かを判定する。
例えば、文字・対象物領域抽出部１２は、文字候補画像におけるｘ軸方向を占めるピクセルの個数と、小領域におけるｘ軸方向のピクセルの個数との差分が、所定の閾値以下である場合、文字候補画像のｘ軸方向のサイズが小領域の画像のｘ軸方向のサイズに対して大き過ぎ、複数の文字が横書きされるスペースがなくなるため、その文字候補画像は一連の文字列画像を構成する画像ではないと判定する。
また、文字・対象物領域抽出部１２は、文字候補画像におけるｘ軸方向を占めるピクセルの個数が、所定の閾値以下である場合、実際に文字であったとしても、文字認識部１３により文字が認識できない可能性が高いため、その文字候補画像を文字候補画像でないと判定する。

文字・対象物領域抽出部１２は、例えば、文字候補画像それぞれについて、所定の方向に並んで描画されている場合に、当該所定の方向に並んだ複数の文字候補画像を一連の文字列画像と判定する。以下の説明においては、当該所定の方向がｘ軸方向（横方向）である場合を例に説明する。しかしながら、当該所定の方向は、人が文字列を認識することができる方向であればよく、例えばｙ軸（縦方向）であってもよい。

具体的には、文字・対象物領域抽出部１２は、文字候補画像それぞれについて、その文字候補画像が占める領域におけるｘｙ座標値をそれぞれ取得する。
そして、文字・対象物領域抽出部１２は、二以上の文字候補画像について、以下の（条件１）を満たし、且つ（条件２）又は（条件３）のいずれか一方を満たす場合、当該二つ以上の文字候補画像を一連の文字列画像と判定する。
なお、以下の（条件１）から（条件３）において、当該二つ以上の文字候補画像のうちｘ軸方向（横方向）にみて左側の文字候補画像を基準とする文字候補画像とし、基準文字候補画像に対して右側に描画された文字候補画像を判定対象の文字候補画像という。
また、文字列は左から右に進む方向に横並びに描画される、または左から右に進む方向に右上がりに描画されることを前提としている。これは、一般的なチラシにおいて、横並び又は右上がりに文字が描画されることが多いためである。

（条件１）基準とする文字候補画像と判定対象の文字候補画像とのそれぞれのx座標の中心値の差分が所定の閾値以下である。
（条件２）基準とする文字候補画像と判定対象の文字候補画像とのそれぞれのｙ座標の最大値（文字候補画像の領域における下端のｙ座標）、又はｙ座標の中心値、の差分が所定の閾値以下である。
（条件３）基準とする文字候補画像のｙ座標の最小値（文字候補画像の領域における上端のｙ座標）と、判定対象の文字候補画像のｙ座標の中心値との差分が所定の閾値以下である。

図４の例で、文字・対象物領域抽出部１２は、図４（ａ）の例に示すように、画像Ｔ－４０について、画像Ｔ－４０が占める領域におけるｘ座標の最小値（ｘ１）、最大値（ｘ２）、中心値（ｘｍ１＝（ｘ１＋ｘ２）／２）、ｙ座標の最小値（ｙ１）、最大値（ｙ２）、および中心値（ｙｍ１＝（ｙ１＋ｙ２）／２）をそれぞれ取得する。
また、文字・対象物領域抽出部１２は、図４（ｂ）の例に示すように、画像Ｔ－４１について、画像Ｔ－４１が占める領域におけるｘ座標の最小値（ｘ３）、最大値（ｘ４）、中心値（ｘｍ２＝（ｘ３＋ｘ４）／２）、ｙ座標の最小値（ｙ３）、最大値（ｙ４）、および中心値（ｙｍ２＝（ｙ３＋ｙ４）／２）をそれぞれ取得する。

そして、文字・対象物領域抽出部１２は、（条件１）として、画像Ｔ－４０、Ｔ－４１それぞれのｘ座標の中心値の差分（ｘｍ１‐ｘｍ２）が所定の閾値（例えば、（ｘ２－ｘ１）＋α１（ただし、α１は所定のマージン））以下であるか否かを判定する。（ｘｍ１‐ｘｍ２）が所定の閾値以下である場合、二つの画像Ｔ－４０、Ｔ－４１はｘ軸方向（横方向）に一文字分の幅にマージンを考慮した幅以上に離れていない。つまり、横方向に順に配置された一連の文字列として可読し得る状態で描画されており、一連の文字列画像となり得る。また、文字・対象物領域抽出部１２は、（条件２）として、画像Ｔ－４０、Ｔ－４１それぞれの下端であるｙ座標の最大値の差分（ｙ２－ｙ４）又は、ｙ座標の中心値の差分（ｙｍ１‐ｙｍ２）が所定の閾値（例えば、α２（ただし、α２は所定のマージン））以下であるか否かを判定する。（ｙ２－ｙ４）又は（ｙｍ１‐ｙｍ２）が所定の閾値以下である場合、二つの画像Ｔ－４０の上端と、Ｔ－４１の中心はｙ軸方向（縦方向）にマージンを考慮した高さ以上に離れていない。つまり、右上がり（または右下がり）に並んだ同じ行の文字列として可読し得る状態で描画されており、一連の文字列画像となり得る。

文字・対象物領域抽出部１２は、画像Ｔ－４０、Ｔ－４１が（条件１）を満たし、かつ（条件２）又は（条件３）のいずれか一方を満たす場合、画像Ｔ－４０、Ｔ－４１を一連の文字列画像と判定する。
なお、文字・対象物領域抽出部１２は、画像Ｔ－４０、Ｔ－４１を一連の文字列画像と判定し、かつ、画像Ｔ－４１、Ｔ－４２を一連の文字列画像と判定する場合、画像Ｔ－４０～Ｔ－４２を、一連の文字列画像と判定する。すなわち、文字・対象物領域抽出部１２は、左側の文字列候補画像を起点に、右方向にある文字列候補画像を順に一連の文字列画像か否かを認識する。

なお、文字・対象物領域抽出部１２は、文字候補画像の色（例えば、ＲＧＢ値）を用いて、二つの文字候補画像が文字列画像であるか否かを判定するようにしてもよい。例えば、文字・対象物領域抽出部１２は、それぞれの文字候補画像のＲＧＢ値における成分毎の差分が所定の閾値以下である場合、二つの文字候補画像が一連の文字列画像であると判定する。これは、一般的なチラシにおいて、文字列は同じ色で描画される場合が多いためである。

図３に戻り、文字・対象物領域抽出部１２は、文字候補画像のうち一連の文字列画像と判定した文字候補画像をそれぞれ抽出することにより、例えば、図３（ｄ）に示すような文字列画像として抽出された画像群である画像Ｔ－６を抽出する。なお、文字・対象物領域抽出部１２は、文字認識部１３にて文字が認識されやすいように、文字候補画像の部分を黒、背景の部分を白にして画像Ｔ－６を抽出する。
また、文字・対象物領域抽出部１２は、小領域の画像Ｔ－３から文字候補画像（画像Ｔ－４、および画像Ｔ－５）を除去することにより、例えば、図３（ｅ）に示すような対象物画像Ｔ－７を抽出する。

［実施形態の文字認識部１３の説明］
ここでは、文字認識部１３が文字を認識する方法について説明する。
図５は、実施形態の文字認識部１３が行う処理を説明するための図である。５（ａ）は特殊フォントの形状の例を示す図である。５（ｂ）は特殊フォントの一部が欠けた形状の例を示す図である。図５（ｃ）は特殊フォントで描画された文字列画像Ｔ－８を示す。図５（ｄ）は図５（ｃ）における文字列画像Ｔ－８から個々の文字候補画像を抽出した図を示す。図５（ｅ）は図５（ｃ）における個々の文字列画像の縦横の比率を調整した図を示す。図５（ｆ）は図５（ｅ）における個々の文字列画像の大きさを調整した図を示す。

文字認識部１３は、文字列画像の形状に基づいて、文字列画像に描画された文字が一般的な字体（以下、一般フォントという）であるか、特殊な字体（以下、特殊フォント）であるかを判定する。文字認識部１３は、例えば、文字列画像に描画された線の太さにより、一般フォントか特殊フォントかを判定する。

文字認識部１３は、文字列画像に描画された文字が一般フォントであると判定した場合、既存の技術であるＯＣＲエンジンを用いて文字列画像に描画された文字を識別する。
文字認識部１３は、文字列画像に描画された文字が特殊フォントであると判定した場合、文字候補画像の形状を、例えば図５（ａ）に示すような特殊フォントの形状と比較する。そして、文字認識部１３は、文字候補画像の形状が特殊フォントの形状が有する特徴を備えている場合、当該文字候補画像に描画された文字を、当該特殊フォントの文字と認識する。

また、文字認識部１３は、文字情報記憶部１６３に、文字の一部が欠けた特殊フォントの形状を記憶させるようにしてもよい。一般的なチラシ画像において、特殊フォントを用いて描画される文字は、価格を示す数字を示す文字である場合が多く、価格を示す文字同士の一部は、重なり合う状態で描画される場合が多い。このため、文字認識部１３は、例えば、図５（ｂ）の例に示すような、文字の一部が欠けた特殊フォントの形状を予め文字情報記憶部１６３に記憶させる。そして、文字認識部１３は、文字候補画像の形状が特殊フォントの形状、または一部が欠けた特殊フォントの形状が有する特徴を備えている場合、当該文字候補画像に描画された文字を、当該特殊フォントの文字と認識する。なお、図５（ｂ）の例は、特殊フォントにおける０（ゼロ）の形状、及び０（ゼロ）の一部が欠けた形状について複数の態様を示している。

ここで、文字認識部１３は、特殊フォントの形状に当該特殊フォントの文字を対応付けた情報を学習データとして機械学習を実行させることにより作成した学習モデルを用いて、特殊フォントで描画された文字候補画像の文字を認識するようにしてもよい。

また、文字認識部１３は、特殊フォントで描画された文字列画像の文字を認識する前処理として、下記（処理１）から(処理３)を行うようにしてもよい。
（処理１）文字列画像から個々の文字候補画像を抽出する。
（処理２）個々の文字候補画像のアスペクト比を調整する。
（処理３）個々の文字候補画像の大きさを調整する。

例えば、図５（ｃ）～（ｆ）の例で、文字認識部１３は、（処理１）において文字列画像Ｔ－８から、図５（ｄ）に示すような個々の文字候補画像（画像Ｔ－５０～Ｔ－５３）を抽出する。また(処理２)において、文字認識部１３は、図５（ｅ）に示すように個々の文字候補画像（画像Ｔ－５０～Ｔ－５３）のアスペクト比における縦横の比が等しくなるように調整する。ただし、アスペクト比の縦横が同じ比率に調整することに限定されることはなく、文字認識部１３は、例えば、文字情報記憶部１６３に記憶された特殊フォントのアスペクト比と同等のアスペクト比となるように個々の文字候補画像を調整するようにしてよい。また、文字認識部１３は、(処理３)において、図５（ｆ）に示すように個々の文字候補画像（画像Ｔ－５０～Ｔ－５３）の大きさが等しくなるように調整する。

［実施形態のメタ情報取得部１５の説明］
ここで、メタ情報取得部１５がメタ情報テーブルを生成する方法について説明する。
図６は、実施形態のメタ情報記憶部１６５に記憶されたメタ情報テーブルの例を示す図である。メタ情報テーブルには、ポジション横、ポジション縦、幅、高さ、文字認識結果、物体認識結果、商品名、および価格のそれぞれの項目を有する。ポジション横には小領域の画像における、チラシ画像全体に対する位置座標のうちｘ座標が記憶される。ポジション縦には小領域の画像における、チラシ画像全体に対する位置座標のうちｙ座標が記憶される。幅には小領域の画像が占める、ｘ軸方向の長さ（幅）が記憶される。幅には小領域の画像が占める、ｙ軸方向の長さ（高さ）が記憶される。文字認識結果には、小領域の画像のうち文字列画像から認識された文字が記憶される。物体認識結果には、小領域の画像のうち対象物画像から認識された対象物の名称が記憶される。価格には、小領域の画像のうち文字列画像から認識された文字から選択された価格の文字が示す値が記憶される。

メタ情報取得部１５は、例えば、小領域情報記憶部１６１から小領域の画像における、チラシ画像全体に対する位置座標を取得し、メタ情報テーブルのポジション横、ポジション縦、幅、高さのそれぞれの項目に対応する値を記憶させる。また、メタ情報取得部１５は、例えば、文字情報記憶部１６３からその小領域における文字列画像から認識された文字を取得し、メタ情報テーブルの文字認識結果に対応する文字列を記憶させる。また、メタ情報取得部１５は、例えば、物体名称記憶部１６４からその小領域における対象物画像から認識された対象物の名称を取得し、メタ情報テーブルの物体認識結果に対応する名称を記憶させる。また、メタ情報取得部１５は、例えば、文字情報記憶部１６３からその小領域における文字列画像から認識された価格を取得し、メタ情報テーブルの価格に対応する値を記憶させる。

なお、メタ情報取得部１５は、小領域の画像、または小領域でないと判定した画像から認識された情報（例えば、チラシを発行した店舗の名称、チラシの有効期間等）をメタ情報テーブルに記憶させるようにしてもよい。

［実施形態の画像処理装置１の動作の説明］
ここでは、画像処理装置１の動作について説明する。
図７は、実施形態の画像処理装置１の動作例を示すフローチャートである。

まず、画像処理装置１は、画像入力部１０にチラシ画像の画像情報を入力する（ステップＳ１）。
次に、画像処理装置１は、小領域抽出部１１によりチラシ画像から小領域の画像を抽出させる（ステップＳ２）。
次に、画像処理装置１は、文字・対象物領域抽出部１２により、小領域の画像から文字列画像及び対象物画像をそれぞれ抽出させる（ステップＳ３）。
次に、画像処理装置１は、文字・対象物領域抽出部１２により抽出させた画像が文字列画像であるか否かを判定する（ステップＳ４）。
画像処理装置１は、文字・対象物領域抽出部１２により抽出させた画像が文字列画像である場合、文字認識部１３により、文字列画像から文字を認識させる（ステップＳ５）。
一方、画像処理装置１は、文字・対象物領域抽出部１２により抽出させた画像が文字列画像でない場合、物体認識部１４により、対象物画像から対象物の名称を認識させる（ステップＳ６）。
そして、画像処理装置１は、メタ情報取得部１５により、メタ情報テーブルを作成させる（ステップＳ７）。

以上説明したように、実施形態の画像処理装置１は、対象物画像、及び文字列画像の各々が混在した画像（例えば、チラシ画像Ｔ－１）から、画像の明度に基づいて文字候補画像（例えば、画像Ｔ－４０）を抽出し、抽出した文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像（例えば、画像Ｔ－８）として抽出する文字・対象物領域抽出部１２と、文字列画像における各々の文字候補画像の文字を認識する文字認識部１３とを備える。
これにより、実施形態の画像処理装置１は、チラシ画像に含まれる背景の色、及び文字の色に関わらず、画像から精度よく情報を抽出することができる。文字・対象物領域抽出部１２が、チラシ画像Ｔ－１から抽出した文字候補画像が並んで描画された文字列画像を抽出することができるため、文字認識部１３は、文字列画像に含まれる個々の文字候補画像について文字を認識することができる。文字候補画像は、画像の明度に基づいて抽出され、明度に差がある背景部分が除かれる。このため、背景の色に関わらず精度よく情報を抽出することができる。また、文字候補画像は、背景部分が除かれて抽出されるため、文字が認識され易い配色（例えば、文字の部分の色が黒、背景の部分が白）にすることができ、元々の画像に描画されていた背景の色や文字の色に関わらず精度よく情報を抽出することができる。

また、実施形態の画像処理装置１では、画像から、所定のルールに従って物体画像、及び文字列画像を含む小領域の画像を抽出する小領域抽出部１１を更に備え、文字・対象物領域抽出部１２は、小領域の画像（例えば、画像Ｔ－３）から文字列画像を抽出する。
これにより、実施形態の画像処理装置１では、小領域抽出部１１が小領域の画像を抽出することができ、文字・対象物領域抽出部１２が小領域から文字列画像を抽出することができ、画像に含まれる文字列を小領域ごとに認識させることができ、画像に含まれる情報が小領域ごとに区別されているチラシ画像等の場合、より精度よく情報を抽出することができる。
また、実施形態の画像処理装置１では、小領域抽出部１１は、画像において所定の方向に同一色の画像が連続する境界線があるか否かを判定し、境界線がある場合、境界線により画像を分割して小領域の画像を抽出する。
これにより、実施形態の画像処理装置１では、小領域が境界線や同色の背景等により区分けされているチラシ画像等の場合、より精度よく、小領域を抽出することができる。
また、実施形態の画像処理装置１では、小領域抽出部１１は、境界線で囲まれた領域における大きさ及び要素比のうち少なくともいずれかに基づいて、小領域の画像を抽出する。
これにより、実施形態の画像処理装置１では、小領域が同じようなサイズで描画されているチラシ画像等、あるいは小領域における対象物画像と文字列画像とが同じような明度で配置されているチラシ画像等の場合、より精度よく、小領域を抽出することができる。

また、実施形態の画像処理装置１では、文字・対象物領域抽出部１２は、横書きに描画された文字列画像を抽出する。
これにより、実施形態の画像処理装置１では、横書きの文字列で商品名や値段を示す画像が描画されているチラシ画像等の場合、より精度よく、文字列画像を抽出することができる。

また、実施形態の画像処理装置１では、文字認識部１３は、文字・対象物領域抽出部１２により抽出された文字列画像に含まれる文字候補画像それぞれの大きさを揃えることにより文字を認識する。
これにより、実施形態の画像処理装置１では、文字認識部１３が文字候補画像それぞれの大きさを揃えることで文字を認識し易くすることができ、より精度よく、文字を認識することができる。
また、実施形態の画像処理装置１では、文字認識部１３は、予め定めた所定の画像と、文字列画像の領域に含まれる文字の画像とを比較することにより文字を認識する。
これにより、実施形態の画像処理装置１は、一般的なフォントとは異なる特殊なフォントで描画された文字の画像であっても、より精度よく文字を認識させることができる。

また、実施形態の画像処理装置１では、文字認識部１３により認識された文字に基づいて、画像に示される情報の属性を示すメタ情報を取得するメタ情報取得部を更に備える。
これにより、実施形態の画像処理装置１では、画像に含まれる文字情報を集約させ、チラシ画像Ｔ－１に掲載された商品について、その商品名、産地、数量、価格等の属性情報を取得することができる。

また、実施形態の画像処理装置１では、文字・対象物領域抽出部１２により抽出された対象物画像に基づいて、物体の名称を認識する物体認識部１４を更に備え、メタ情報取得部１５は、文字認識部１３により認識された文字に、物体認識部に１４より認識された物体の名称を対応づけたメタ情報を取得する。
これにより、実施形態の画像処理装置１では、画像に含まれる文字情報と対象物の名称とを照合させることができ、チラシ画像Ｔ－１に掲載された商品について、その商品の画像から認識された商品名を取得することで、文字認識により抽出した情報を検証することができ、より精度よく情報を抽出することができる。

なお、本発明における画像処理装置１の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することにより処理を行なってもよい。
なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…画像処理装置
１０…画像入力部
１１…小領域抽出部
１２…文字・対象物領域抽出部
１３…文字認識部
１４…物体認識部
１５…メタ情報取得部
１６…記憶部
１６０…画像情報記憶部
１６１…小領域情報記憶部
１６２…文字・対象物領域記憶部
１６３…文字情報記憶部
１６４…物体名称記憶部
１６５…メタ情報記憶部
１６６…文字認識情報記憶部

Claims

物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、画像の明度に基づいて文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する文字列領域抽出部と、
前記文字列画像における各々の前記文字候補画像の文字を認識する文字認識部と、
前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する小領域抽出部と
を備え、
前記小領域抽出部は、前記画像における所定の方向にＲＧＢ値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、
前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出する
ことを特徴とする画像処理装置。
前記文字認識部は、予め記憶された特殊フォントの形状を示す画像と、前記文字列画像の領域に含まれる文字の画像とを比較することにより、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、一般的な字体である場合にはＯＣＲエンジンを用いて文字列画像に描画された文字を識別する
ことを特徴とする請求項１に記載の画像処理装置。
前記文字認識部は、前記文字列画像に描画された文字が一般的な字体であるか、特殊な字体であるかを判定し、特殊な字体である場合には、学習モデルを用いて文字列画像に描画された文字を識別し、
前記学習モデルは、特殊フォントの形状に当該特殊フォントの文字を対応付けた情報を学習データとして機械学習を実行させることにより作成されたモデルであり、
前記文字認識部は、前記学習モデルによる文字認識を行う前処理として、前記文字列画像から抽出した個々の文字候補画像のアスペクト比及び大きさを揃える処理を行う
ことを特徴とする請求項１又は請求項２に記載の画像処理装置。
前記小領域抽出部は、前記境界線で囲まれた領域における大きさ及び要素比のうち少なくともいずれかに基づいて、前記小領域の画像を抽出する
ことを特徴とする請求項３に記載の画像処理装置。
前記文字列領域抽出部は、横書きに描画された前記文字列画像を抽出する
ことを特徴とする請求項１から請求項４のいずれか一項に記載の画像処理装置。
前記文字認識部により認識された文字に基づいて、前記画像に示される情報の属性を示すメタ情報を取得するメタ情報取得部を更に備える
ことを特徴とする請求項１から請求項５のいずれか一項に記載の画像処理装置。
前記文字列領域抽出部により抽出された前記物体画像に基づいて、前記物体の名称を認識する物体認識部を更に備え、
前記メタ情報取得部は、前記文字認識部により認識された文字に、前記物体認識部により認識された前記物体の名称を対応づけたメタ情報を取得する
ことを特徴とする請求項６に記載の画像処理装置。
文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、
文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と、
小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程と
を有し、
前記小領域抽出部は、前記画像における所定の方向にＲＧＢ値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、
前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出する
ことを特徴とする画像処理方法。
コンピュータに、
文字列領域抽出部が、物体が描画された物体画像、及び文字列が描画された文字列画像の各々が混在した画像から、文字の特徴を有する文字候補画像を抽出し、抽出した前記文字候補画像の各々が所定の方向に並んで描画されている箇所を前記文字列画像として抽出する工程と、
文字認識部が、前記文字列画像における各々の前記文字候補画像の文字を認識する工程と、
小領域抽出部が、前記画像から、前記物体画像、及び前記文字列画像を含む小領域の画像を抽出する工程と
を実行させ、
前記小領域抽出部は、前記画像における所定の方向にＲＧＢ値の差分が閾値未満となるピクセルが連続している場合に、当該連続するピクセルの集合体を色連続ピクセル群として抽出し、抽出した色連続ピクセル群に含まれるピクセルの個数に基づいて、前記所定の方向に配置されたピクセルの総数と、前記抽出した色連続ピクセル群のピクセルの個数の差分が所定の閾値以下である場合、前記抽出した色連続ピクセル群が境界線であると判定し、前記境界線がある場合、前記境界線により前記画像を分割することによって前記小領域の画像を抽出し、
前記文字列領域抽出部は、前記小領域の画像から前記文字列画像を抽出する
プログラム。