JP5368141B2 - データ生成装置およびデータ生成方法 - Google Patents

データ生成装置およびデータ生成方法 Download PDF

Info

Publication number
JP5368141B2
JP5368141B2 JP2009074648A JP2009074648A JP5368141B2 JP 5368141 B2 JP5368141 B2 JP 5368141B2 JP 2009074648 A JP2009074648 A JP 2009074648A JP 2009074648 A JP2009074648 A JP 2009074648A JP 5368141 B2 JP5368141 B2 JP 5368141B2
Authority
JP
Japan
Prior art keywords
character
image data
unit
color
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009074648A
Other languages
English (en)
Other versions
JP2010225112A (ja
Inventor
祥晃 山岸
稔 桝谷
芳幸 三ツ森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Inc filed Critical Toppan Inc
Priority to JP2009074648A priority Critical patent/JP5368141B2/ja
Publication of JP2010225112A publication Critical patent/JP2010225112A/ja
Application granted granted Critical
Publication of JP5368141B2 publication Critical patent/JP5368141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本発明は、複数色で印刷された印刷物から文字情報を抽出し、データを生成するデータ生成装置に関する。
文字や画像が印刷された印刷物に光を照射し、その反射光に基づいて生成される画像データを解析して、文字情報を抽出する技術を用いる装置として、例えば、OCR(Optical Character Reader)等の光学文字読取装置がある。
このような光学文字読取装置は、読み取り対象が白黒印刷された印刷物であり、2値認識が主流である。カラーで印刷された印刷物から文字認識を行う場合には、カラーの印刷物を白黒でコピーを行って2値化し、この2値化された後の画像を対象として文字認識を行っている。このような文字認識を行う技術として、以下の特許文献1のものがある。
一方、新聞等で折り込みチラシが利用されている。折り込みチラシは、スーパーマーケットや家電製品の量販店等に広告媒体として利用されており、紙媒体に印刷される。このような折り込みチラシを電子化し、電子チラシとしてネットワークを介して配信するサービスが行われつつある。配信された電子チラシは、受信した端末装置の表示画面に表示されることによって、消費者に閲覧されている。
このような折り込みチラシは、大半がカラー印刷されている。この折り込みチラシを上記の光学文字読み取り装置によって読み取り、文字認識を行うことによって、折り込みチラシにどのような商品が掲載され、折り込みチラシの印刷面のどの位置に配置されているのかを得ることが求められている。
特開平9−269971号公報
しかしながら、折り込みチラシは、カラー印刷されているため、一度白黒でコピーを行って2値化し、文字認識を行うと、文字認識の精度が低く、折り込みチラシに掲載された商品等の文字情報を正確に得ることができないという問題がある。すなわち、カラー印刷から白黒にコピーを行う際に、文字として認識したい対象の部分の画像が背景と一緒に白として認識されてしまうと、その文字を認識することができない。また、折り込みチラシは、写真やイラスト、背景等の上に文字がレイアウトされることが多々あるため、文字の色と、その写真やイラスト、背景の色とが、異なる値になるように2値化されるとは限らない。そうすると、文字認識の精度が低下してしまう。
このように、文字と写真等の画像が重なっている場合、特に、折り込みチラシのように複数の色で印刷された文字や画像が複雑にレイアウトされていると、文字と画像を判別して文字認識することが難しく、文字情報のみを精度良く抽出することは困難であった。
本発明は、このような事情を考慮し、上記の問題を解決すべくなされたものであって、その目的は、文字を表す画像を含んだ画像データから精度よく文字認識を行うことができるデータ生成装置およびデータ生成方法を提供することにある。
上記問題を解決するために、本発明に係るデータ生成装置は、複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシのカラーの画像データを生成する読取部と、前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出する色設定部と、前記読取部が生成した前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第1色画像データを生成する色画像データ生成部と、画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第1色画像データとを比較し、前記第1色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第1色画像データから削除して文字情報と認識しない画像データが除去された第2色画像データを、前記抽出色ごとに生成する画像処理部と、前記画像処理部によって生成された複数の前記第2色画像データの各々から文字として認識される文字領域を検出する文字領域検出部と、前記文字領域検出部が検出した前記第2色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出する解析部と、前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出する位置情報検出部と、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する解析文字情報出力部と、を備える。
また、本発明は、上述のデータ生成装置において、前記解析部は、前記文字領域から複数の文字を検出した場合に、前記文字領域における各々の文字の配置状態に基づいて、縦書きであるか横書きであるかを検出し、検出した書字方向に連続する文字列を文字情報として検出することを特徴とする。
また、本発明は、上述のデータ生成装置において、検索対象である文字を表す検索文字が入力される入力部と、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを対応付けて記憶する解析文字情報記憶部と、前記入力部に入力された検索文字を前記解析文字情報記憶部から検索する検索部と、前記検索部によって検索された位置情報を出力する検索文字情報出力部と、を有することを特徴とする。
また、本発明は、上述のデータ生成装置において、互いに類似する類似文字を含む類似文字群を記憶する類似文字記憶部をさらに備え、前記検索部は、前記類似文字記憶部に記憶された類似文字の中に前記入力部に入力された前記検索文字に対応する類似文字があるか否かを検出し、類似文字がある場合、前記検索文字のうち類似文字に該当する文字を前記検出された類似文字が含まれる類似文字群のうち他の前記類似文字に置き換えた類似検索文字を生成し、生成した類似検索文字と前記検索文字に基づき、前記解析文字情報記憶部から検索することを特徴とする。
また、上記問題を解決するために、本発明に係るデータ生成方法は、読取部が、複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシの画像データを生成し、色設定部が、前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出し、色画像データ生成部が、前記読取部によって生成された前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第1色画像データを生成し、画像処理部が、画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第1色画像データとを比較し、前記第1色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第1色画像データから削除して文字情報と認識しない画像データが除去された第2色画像データを、前記抽出色ごとに生成し、文字領域検出部が、前記色画像データ生成部が生成した前記第2色画像データの各々から文字として認識される文字領域を検出し、解析部が、前記文字領域検出部が検出した前記第2色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出し、位置情報検出部が、前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出し、解析文字情報出力部が、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する。
本発明によれば、印刷物を読み取って得られた画像データを色ごとに分離し、その分離された画像データから文字認識を行い、その認識された文字情報と、その文字が印刷物に配置された座標を示す位置情報を得るようにした。これにより、文字とその文字の周囲の画像とを分離して文字認識を行うことができるので、複数の色で印刷された印刷物であっても、精度よく文字認識を行い、その文字の位置を把握することができる。
本実施の形態に係るデータ生成装置の構成の一例を説明するためのブロック図である。 本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置による写真領域の除去の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置による解析領域の検出の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置による位置情報の抽出の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置による類似文字の検索の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するためのフローチャートである。 本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するためのフローチャートである。 本実施の形態に係るデータ生成装置による縦書きあるいは横書きの判別の一例を説明するための概略図である。 本実施の形態に係るデータ生成装置による傾いた文字列の判別の一例を説明するための概略図である。
図1は、本実施形態に係るデータ生成装置100の構成を示すブロック図である。データ生成装置100は、読取部101と、色設定部102と、色画像データ生成部103と、画像処理部104と、文字領域検出部105と、解析部106と、位置情報検出部107と、解析文字情報記憶部108と、解析文字情報出力部113と、検索部109と、入力部110と、検索文字情報出力部111と、類似文字記憶部112とを備える。
読取部101は、例えば複数色で印刷されている印刷物を複数色で読み取るカラースキャナ等の画像読取装置であって、読み取り対象である印刷物に対して光を照射しその反射光を受光し、光電変換素子等を利用して印刷物からの反射光を電気信号に変換して、印刷物の印刷面に印刷された画像を表す画像データを生成する。この読み取り対象である印刷物は、文字や画像が複数の色で印刷された印刷物であって、文字を表す画像を含んでいる。この実施形態における印刷物とは、新聞などの折り込みチラシである。例えば、この折り込みチラシに、商品の名称や原料、特長、価格、商品が撮像された写真、イラストなど、商品に関する情報である商品情報のうち、名称や原料、特長、価格などを表す文字が画像として印刷されており、また、商品情報のうち、商品が撮像された写真、イラストなどを表す商品画像が写真等で印刷され、広告や宣伝のために消費者に配布される。この配布は、折り込みチラシそのものが配布される場合もあるが、この実施形態においては、電子チラシとして配信される場合について説明する。電子チラシとは、この折り込みチラシを画像読取装置で読み取ってえられる画像データである。この電子チラシは、広告主である店舗が取扱っている商品または提供している役務に関する画像情報、文字情報、および音声情報等を含む電子化された広告宣伝情報を意味するものである。また店舗毎に開催されるフェアや、キャンペーン情報等、特定の商品や役務に限られない販売促進情報が含まれていてもよい。また、この電子チラシは、ユーザの端末装置からの要求に応じて配信される。
色設定部102は、読取部101によって読み取られたチラシを表す画像データ200の色ヒストグラムから予め定められる上位の色を抽出色として検出する。この上位とは、色ごとに得られるヒストグラムのうち、予め決められた順位まで、上位から抽出する。例えば、チラシに印刷されている抽出色の印刷面積の割合が大きい抽出色を検出する。
また、色設定部102は、生成された色のヒストグラムに基づき、チラシの全画面において使用されている色とその色の印刷面積の割合を検出し、チラシ全画面内で使用されている面積の割合が多い抽出色を検出する。本実施の形態において、色設定部102は、例えば、上位の5位までを抽出することを予め指定することにより、画像データ200内で使用されている割合が多い上位5色(例えば、黒色、青色、赤色、白色、黄色)を抽出色として検出する。
また、色設定部102は、抽出された複数の抽出色を、色画像データ生成部103によって利用される抽出対象として、色画像データ生成部103に出力する。
色画像データ生成部103は、読取部101によって生成された画像データ200から、抽出対象である抽出色として、例えば、予め定められた色、あるいは、色設定部102によって検出された抽出色で印刷されている画像情報を抽出色毎に分離し、複数の色ごとの画像データである色画像データを生成する。例えば、図2に示す通り、色画像データ生成部103は、画像データ200から、色設定部102によって検出された複数の抽出色(黒色、青色、赤色、白色、黄色)で印刷されている画像データのみを抽出色毎に分離し、複数の色画像データ(色黒画像データ201、青画像データ202、赤画像データ203、白画像データ204、および黄画像データ205)を生成する。なお、これら分離された色画像データは、それぞれ抽出色に応じて2値化された画像データであって、黒画像データ201、青画像データ202、赤画像データ203および黄画像データ205は、それぞれの抽出色で表されている画像領域を黒色とする2値化データである。一方、白画像データ204は、画像データ200から白色で表されている画像領域を黒色とする2値化データである。
画像処理部104は、色画像データ生成部103によって抽出された複数の色画像データに対して、文字情報と認識しない画像データを除去する画像処理をし、画像処理された複数の色画像データを文字領域検出部105に出力する。例えば、画像処理部104は、複数の色画像データに対して、写真領域を除去するための処理や、ノイズ部分をフィルタ等を用いて除去するための処理等を行う。
ここで、写真領域を除去するための処理について、図3を用いて説明する。図3(a)は、チラシの画像データ200の一部分を示している。図3(a)に示す画像データは、黒色の商品名、黄色の商品金額、黒色の矩形内に白抜きで記載された「税込」部分が示されており、背景は黒っぽい色のしょうゆの商品画像と、商品画像の周辺が赤色と青色で示されている。
また、図3(b)は、色画像データ生成部103によって生成された黒画像データ201の一部分を示している。図3(b)に示す通り、黒色に対応する部分として、商品名と、しょうゆの商品画像の一部と、税込の記載が示されている。
画像処理部104は、画像データ200に対して、画像データの濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を行い、図3(c)に示すようなエッジ画像データ211を生成する。
また、画像処理部104は、黒画像データ201とエッジ画像データ211を比較し、黒画像データ201に対してエッジ画像データ211に含まれるエッジ部分を表すエッジ情報がT(Tは、100よりも小さい数)%未満しか含まれない領域を黒画像データ201から削除し、写真領域除去処理後の処理画像データ221を生成する。なお、パラメータTは予め設定することや領域の大きさなどによって動的に変更が可能である。
文字領域検出部105は、色画像データ生成部103によって分離された複数の色画像データ毎に、文字として認識される対象である解析領域(文字領域)を検出する。例えば、文字領域検出部105は、黒画像データ201に基づき画像処理部104によって写真画像に対応する部分が概ね除去された処理画像データ221に対して、文字を検出するレイアウト解析を行い、文字列画像と判別できる画像領域を検出する。また、文字領域検出部105は、検出された文字列画像と判別できる画像領域に基づき、1文字に対応する文字領域を検出し、これら全ての文字領域を解析領域300(図4参照)として解析部106に出力する。なお、文字領域検出部105は、色画像データ毎に解析領域300を検出する。
解析部106は、文字領域検出部105によって検出された解析領域300の画像データを解析して、解析領域300の各文字領域に対応する文字情報を検出する。例えば、図4に示す通り、文字領域検出部105によって文字領域301〜307が検出された場合、解析部106は、この文字領域301〜307の画像データを解析することで、「北」「海」「道」「産」「ト」「マ」「ト」の文字情報401〜407を検出する。
また、解析部106は、文字領域検出部105によって検出されている文字領域毎の間隔等に応じて、後述する縦書き文字列、横書き文字列あるいは傾き文字列を判別する処理を行って、文字列の連続方向を判断する。
なお解析部106は、文字列の連続方向に基づき、各文字情報401〜407の組み合わせによって構成される文字列の塊を検出し、例えば、文字情報401〜404からなる単語情報601と、文字情報405〜407からなる単語情報602を検出する。また、解析部106は、文字領域検出部105によって解析領域300が検出された色画像データ毎に、単語情報や文字情報を抽出する。
位置情報検出部107は、解析対象とした文字領域の画像データにおける座標を示す位置情報を検出する。すなわち、位置情報検出部107は、解析部106によって解析された文字情報401〜407がチラシに印刷されている位置を表す位置情報を、文字情報401〜407が抽出された色画像データから検出する。例えば、位置情報検出部107は、図5に示す通り、解析部106によって解析された文字情報405の「ト」に基づき、文字情報405の解析領域300の左上の座標(X1,Y1)と右下の座標(X1,Y1)を位置情報505として検出する。同様にして、位置情報検出部107は、文字情報406の「マ」に基づき、文字情報406の解析領域300の左上の座標(X2,Y2)と右下の座標(X2,Y2)を位置情報506として検出し、文字情報407の「ト」に基づき、文字情報407の解析領域300の左上の座標(X3,Y3)と右下の座標(X3,Y3)を位置情報507として検出する。
なお、本実施の形態において、位置情報検出部107は、解析領域300の対角線上の2点の座標を検出する例について説明したが、本発明はこれに限られず、解析領域300の4点であってもよく、解析領域300の中央の一点であってもよい。
解析文字情報出力部113は、解析部106によって検出された文字情報と、位置情報検出部107によって検出された位置情報とを関連付けて出力する。
解析文字情報記憶部108は、解析文字情報出力部113から出力された情報に基づき、解析部106によって抽出された文字情報と、位置情報検出部107によって検出された位置情報とを対応付けて記憶する。例えば、解析文字情報記憶部108は、図6に示す通り、解析部106によって抽出された文字情報からなる単語情報602“トマト”と、単語情報602を構成する文字情報405〜407の位置情報505〜507“X1,Y1,X1,Y1,X2,Y2,X2,Y2,X3,Y3,X3,Y3”とを対応付けて記憶する。
入力部110は、検索対象である文字を表す検索キーワード(検索文字)の入力を受け付ける。この受け付けは、例えば、電子チラシを参照するユーザの端末装置からネットワークを介して送信される検索キーワードを受信することによって行う。
検索部109は、入力部110から入力される検索キーワードを、解析文字情報記憶部108から検索する。例えば、検索部109は、入力部110を介して検索キーワード「トマト」が入力された場合、解析文字情報記憶部108に記憶されている情報のうち単語情報(文字情報)として「トマト」があるか否かを検索する。検索部109は、解析文字情報記憶部108に記憶されている単語情報(文字情報)として「トマト」を検索すると、検索された「トマト」に対応付けられた情報として位置情報505〜507を検出する。
検索文字情報出力部111は、検索部109によって検索された単語情報(文字情報)と、当該単語情報(文字情報)と対応付けられている位置情報とを出力する。例えば、検索文字情報出力部111は、検索部109によって単語情報(文字情報)「トマト」が検索された場合、「トマト」と対応付けて解析文字情報記憶部108に記憶されている位置情報505〜507を、単語情報(文字情報)「トマト」の位置情報として出力する。
類似文字記憶部112は、互いに類似する類似文字を含む類似文字群を、少なくとも1つ記憶する。例えば、類似文字記憶部112は、図7に示す通り、類似文字群701として、カタカナの「ん」である「ン」と、カタカナの「そ」である「ソ」と、カタカナの「の」である「ノ」を記憶し、類似文字群702として、音を伸ばすことを意味する長音符「ー」、ダッシュ記号「―」、漢数字の「いち」である「一」、マイナス記号「−」を記憶する。
検索部109は、入力部110を介して入力された検索キーワード(検索文字)が類似文字を含んでいるか否かを判断し、含んでいる場合、検索キーワードに含まれる類似文字と、類似文字記憶部112に記憶されている類似文字群に含まれる他の類似文字とを置き換えた類似検索キーワード(類似検索文字)を生成する。また、検索部109は、生成した類似検索キーワードと検索キーワードに基づき、類似検索キーワードと対応付けられている文字情報、および検索キーワードと対応付けられている文字情報を、解析文字情報記憶部108から検索する。
例えば、検索部109は、入力部110を介して検索キーワード「ラーメン」が入力された場合、「ラーメン」は類似文字「ー」と「ン」を含んでいることを検出する。検索部109は、検索キーワード「ラーメン」に含まれる類似文字「ー」と「ン」に基づき、類似文字記憶部112に記憶されている類似文字群701,702を検出し、この類似文字群701,702に含まれる他の類似文字と検索キーワード「ラーメン」に含まれる類似文字とをそれぞれ置き換えた類似検索キーワードを生成する。例えば、検索部109は、「ラーメン」「ラーメソ」「ラ−メン」「ラ−メソ」等の類似検索キーワードを生成し、生成した複数の類似検索キーワードと検索キーワード「ラーメン」と対応付けられている文字情報を、解析文字情報記憶部108から検索する。
次に、図8を用いて、本発明に係るデータ生成装置のデータ生成方法の一例について説明する。
図8に示す通り、読取部101は、例えば、複数の色で印刷された文字(商品名等)および画像(商品画像等)を含むチラシを読み取り、画像データ200を生成する(ステップST1)。次いで、例えば、色設定部102が、画像データ200に基づき、上位5色(黒色、青色、赤色、白色、黄色)の複数の抽出色を、色画像データ生成部103によって利用される抽出対象として、色画像データ生成部103に出力する(ステップST2)。ここで、ステップST2では、色設定部102によらず、予め定められた色を抽出対象として、操作部(図示せず)を介して画像データ生成部103に入力してもよく、あるいは他の外部装置から色画像データ生成部103に予め定められた色を抽出色として出力しても良い。
そして、色画像データ生成部103は、例えば色設定部102から入力されている抽出色に基づき、抽出色毎に画像データを抽出し、複数の色画像データを生成する(ステップST3)。すなわち、色画像データ生成部103は、各抽出色(黒色、青色、赤色、白色、黄色)で印刷されている画像データを抽出色毎に分離し、黒画像データ201、青画像データ202、赤画像データ203、白画像データ204、および黄画像データ205を生成する。これによって、抽出色毎の2値化された画像データが生成される。
次いで、画像処理部104は、色画像データ生成部103によって抽出された黒画像データ201、青画像データ202、赤画像データ203、白画像データ204、および黄画像データ205に対して、例えば、写真領域を除去するための処理を行う(ステップST4)。そして、文字領域検出部105は、黒画像データ201、青画像データ202、赤画像データ203、白画像データ204、および黄画像データ205から、それぞれ、文字として解析される対象である解析領域300(文字領域)を検出する(ステップST5)。
解析部106は、ステップST5において検出された解析領域300の画像データを解析して、文字情報を抽出する(ステップST6)。例えば、図4に示す通り、解析部106は、解析領域300の画像データを解析することで、「ト」「マ」「ト」の文字情報405〜407を抽出し、1つの文字列である単語情報602とする。なお、解析部106は、黒画像データ201、青画像データ202、赤画像データ203、白画像データ204、および黄画像データ205のそれぞれに対して、検出された解析領域300の解析を行う。
位置情報検出部107は、解析部106によって解析された文字情報(単語情報)が印刷されているチラシ内での位置を検出し、検出した位置を表す位置情報を検出する(ステップST7)。なお、位置情報検出部107は、複数の色画像データ、例えば、黒画像データ201、青画像データ202、赤画像データ203、白画像データ204、および黄画像データ205のそれぞれから、文字情報の位置を表す位置情報を検出する。例えば、位置情報検出部107は、文字情報「ト」「マ」「ト」に基づき、各文字情報405〜407の位置情報505〜507“X1,Y1,X1,Y1,X2,Y2,X2,Y2,X3,Y3,X3,Y3”を検出する。
そして、解析部106および位置情報検出部107は、解析部106によって抽出された文字情報と、位置情報検出部107によって検出された位置情報とを対応付けて、解析文字情報記憶部108に記憶させる(ステップST8)。なお、解析文字情報記憶部108は、一枚のチラシの画像データ200から生成されている、黒画像データ201、青画像データ202、赤画像データ203、白画像データ204および黄画像データ205から抽出された文字情報および位置情報は、1つの画像データ200に基づくものとして、それぞれ対応付けて記憶する。
次に、図9を参照して、本実施の形態に係るデータ生成装置のデータ検索方法の一例について説明する。
図9に示す通り、入力部110から検索キーワードが入力されると(ステップST10)、検索部109は、類似文字記憶部112を検索して、検索キーワードに含まれる類似文字が記憶されているか否かを検出する(ステップST11)。ステップST11において、検索キーワードに類似文字が含まれていることが検出された場合(ステップST11―YES)、類似文字記憶部112から検出された類似文字を含む類似文字群を読み出す(ステップST12)。例えば、検索キーワードが「ラーメン」の場合、検索部109は、類似文字記憶部112において類似文字「ー」と「ン」を検出し、「ー」を含む類似文字群と「ン」を含む類似文字群を類似文字記憶部112から読み出す。
そして、検索部109は、例えば、読み出した類似文字群701に含まれる他の類似文字、カタカナの「ソ」、カタカナの「ノ」と、検索キーワードに含まれる対応する類似語「ン」と置き換えた類似検索キーワードを生成する(ステップST13)。例えば、検索部109は、「ラーメン」「ラーメソ」「ラーメノ」「ラ−メン」「ラ−メソ」「ラ−メノ」等の類似検索キーワードを生成する。
次いで、検索部109は、ステップST10において入力された検索キーワードと、ステップST13において生成した類似検索キーワードに基づき、それぞれと対応づけられている文字情報を、解析文字情報記憶部108から検索する(ステップST14)。
そして、検索文字情報出力部111は、検索部109によって検索された文字情報と、当該文字情報と対応付けられている位置情報とを出力する(ステップST15)。
一方、ステップST11において、検索キーワードに類似文字が含まれていないと判断された場合(ステップST11―NO)、検索部18は、解析文字情報記憶部108から、検索キーワードに相当する文字情報を検索し(ステップST16)、相当する文字情報が検索された場合、当該文字情報と、当該文字情報と対応づけられている位置情報とを出力する。
以上説明した実施形態において、検索キーワードによって電子チラシに含まれる商品等を検索し、その位置情報を得ることができる。これにより、電子チラシ上のどこに所望の商品が掲載されているかを、検索キーワードを入力することによって、商品情報がレイアウトされた位置を把握することができる。電子チラシは、A1サイズやA2サイズの折り込みチラシの印刷面を読み取ったものもあるので、表裏ともに合わせると、多数の商品が掲載されている。したがって、上述のように、検索キーワードを入力することによって簡単に商品を見つけることができる。
次に、図10、11を用いて、解析部106において検出された文字情報の文字列が連続している方向(書字方向)を検出する一例について説明する。図10は、文字列の縦方向あるいは横方向を判定する方法の一例を説明する説明図であって、図11は、傾いた文字列を認識する方法の一例を説明する説明図である。
まず、図10を用いて、文字列の縦方向あるいは横方向を判定する方法の一例を説明する。
解析部106は、解析領域300から複数の文字領域を検出した場合に、文字領域における各々の文字の配置状態に基づいて、縦書きであるか横書きであるかを検出し、検出した書字方向に連続する文字列を文字情報として検出する。例えば、解析部106は、図10に示すように、解析領域300に含まれた文字領域301〜307に基づき、各文字領域301〜307間の横方向(X方向)の間隔Gxおよび縦方向の間隔Gyと、各文字領域301〜307の縦横比Rxy(横サイズRxと縦サイズRyとの比)を検出し、検出された結果に基づき、各文字領域301〜307が縦書きの文字列であるか、あるいは横書きの文字列であるかを判定する。
また、解析部106は、文字領域301〜307の各文字領域間の横方向の間隔Gxおよび縦方向の間隔Gyを検出し、各文字領域301〜307における横方向の間隔Gxおよび縦方向の間隔Gyの比率を算出する。解析部106は、文字領域において、横方向の間隔Gxの方が縦方向の間隔GyよりもM(Mは、正の整数)%以上大きい場合、当該文字領域を縦書きと判断し、縦方向の間隔Gyの方が横方向の間隔GxよりもN(Nは、正の整数)%以上大きい場合、当該文字領域を横書きと判断する。
また、解析部106は、文字領域301〜307のそれぞれの横サイズRxと縦サイズRyに基づき縦横比Rxyを算出する。全ての文字領域が縦方向(Y方向)に長い長方形であれば、英文あるいは縦長の書体と判断してM%やN%に相当するパラメータを変更する。
なお、M%やN%に相当するパラメータは、チラシ内の文字の平均的なサイズや文字情報のチラシ内の出現位置の傾向等に応じて変更可能である。
よって、図10に示すような文字画像データでは、解析部106が、文字領域301〜307を検出し、例えば、文字領域301と隣の文字領域302と横方向の間隔Gx1、文字領域301と隣の文字領域305と縦方向の間隔Gy1、文字領域305と隣の文字領域305と横方向の間隔Gx2を検出する。
解析部106は、横方向の間隔Gx1と縦方向の間隔Gy1とを比較し、縦方向の間隔Gy1が横方向の間隔Gx1に比べてN%以上大きいことを検出し、文字領域301は、文字領域302と共に横書きの文字列を構成すると判断する。
また、解析部106は、縦方向の間隔Gy1と横方向の間隔Gx1とを比較し、縦方向の間隔Gy1が横方向の間隔Gx1に比べてN%以上大きいことを検出し、文字領域301が横書きと判断できるため、文字領域301は、文字領域305とは異なる文字列であると判断する。
次に、図11を用いて、傾いた文字列を認識する方法の一例を説明する。
図11に示す通り、解析部106は、解析領域300に含まれる文字領域311〜317に基づき、各文字領域311〜317間の横方向の間隔Gxおよび縦方向の間隔Gyと、各文字領域311〜317の横サイズRxと縦サイズRyを検出し、検出された結果に基づき、各文字領域311〜317が傾いた文字列であるか否かを判断する。
例えば、解析部106は、各文字領域311〜317の横方向の間隔Gxと縦方向の間隔Gyが一定値以下となるものを近接する文字領域として検出し、近接する文字領域の縦サイズRyの重なりを算出して当該重なりが一定の割合以上である場合、当該近接する文字領域が傾いた文字列であると判断する。
図11に示す例を用いて説明すると、解析部106は、横方向の間隔Gxおよび縦方向の間隔Gyに基づき、文字領域311と文字領域312、および、文字領域311と文字領域315とがそれぞれ近接している文字領域であると判断する。解析部106は、近接する2つの文字領域311の縦サイズRy1と文字領域312の縦サイズRy2とが縦方向に重なりあっている重複サイズW1を算出し、文字領域311の縦サイズRy1に対して重複サイズW1がL(Lは、100よりも小さい数)%以上であるか否かを判断する。ここで、重複サイズW1がL%以上であるため、解析部106は、文字領域画像311と312とが横方向に連続する傾いた文字列であると判断する。
一方、解析部106は、近接する2つの文字領域311の縦サイズRy1と文字領域315の縦サイズRy3とが縦方向に重なりあっている重複サイズを算出するが、図11に示す通り、文字領域311と315とは重なりあっている領域がないため、異なる文字列であると判断する。
このようにして、解析部106は、傾いた文字列として「北海道産」という文字列と、「トマト」という文字列を検出することができる。
なお、本実施の形態に係る解析部106は、一般的な文字認識の技術、例えば、OCR(Optical Character Reader)に利用されている技術が利用可能である。また、本実施の形態に係る生成装置100の文字抽出の精度を確認したところ、従来の白黒の画像データに基づき黒色に対する2値認識を行った場合の文字抽出の精度は、正答率が約40%であったが、本実施の形態に係るデータ生成装置100による文字抽出の精度は、従来の方法に比べて倍増した。
上述の通り、本実施の形態に係るデータ生成装置100は、チラシのように複数色で印刷された文字や画像を含む印刷物から、抽出色毎に分離して複数の色画像データを生成し、色画像データ毎に文字認識を行うことにより、複数色を利用した写真等と混じって文字が印刷されている印刷物からの文字抽出の精度を高めることができる。例えば、写真の上に黒の文字が表示されている印刷物にあっては、カラーで表示されている状態ではこれらを区別して認識することができるが、共に濃い色合である場合、あるいは、背景の写真が複雑な画像である場合、この印刷物を2値化することで文字と写真の境界部分の認識が困難となる。本発明は上記構成を備えることによって、上述のような問題を解決し、複数色で文字と写真が重なって印刷されている印刷物であっても、文字部分を抽出し、文字認識を行うことができる。
また、本実施の形態に係るデータ生成装置100は、抽出された文字情報と印刷物における位置情報とを対応付けて解析文字情報記憶部108に記憶することで、読取部101によって読み取られた印刷物の画像データと抽出された文字情報とを対応付けて利用することが可能となり、抽出された文字情報を様々な方法で有効に活用することができる。例えば、抽出された文字情報と印刷物における位置情報とが対応付けられた解析文字情報記憶部108の情報を利用して、検索部109によって入力された検索キーワードに対応する印刷物を表示することができる。また、検索キーワードが記載されている印刷物内の位置を特定して表示部に表示することができる。
さらに、抽出された文字情報と当該文字情報の印刷物における位置情報とを対応付けて解析文字情報記憶部108に記憶させておくことにより、抽出されない写真等の画像と抽出された文字とを対応付けて管理することができる。
また、本実施の形態に係るデータ生成装置100は、画像処理部104によって、複数の色画像データに対して、文字情報と認識しない画像データを除去する画像処理を行うことにより、文字認識の精度を高めることができる。
さらに、本実施の形態に係るデータ生成装置100は、文字列が縦書きであるかあるいは横書きであるかを検出し、検出された方向に連続する文字列を文字情報として検出することができる。さらに、直交する印刷物の縦横方向と異なる方向に文字が連続している「傾いた文字列」についても、傾いた文字列であることを検出することができる。これにより、縦書きの文字列、横書きの文字列および傾いた文字列が混じっているチラシのような印刷物であっても、文字を特定の単語や意味のある文字列として抽出することができる。
また、本実施の形態に係るデータ生成装置100は、互いに類似する類似文字を含む類似郡を少なくとも1つ記憶する類似文字記憶部112をさらに備えることにより、文字列とて抽出された文字情報が、部分的に誤った文字認識を行った場合であっても、類似する文字情報を検索することができる。
なお、データ生成装置100は、色設定部102を備えず、予め選択された任意の抽出色が、記憶部(図示せず)に記憶されており、色画像データ生成部103が、当該抽出色を読み出すものであってもよい。
100・・・データ生成装置、101・・・読取部、102・・・色設定部、103・・・色画像データ生成部、104・・・画像処理部、105・・・文字領域検出部、106・・・解析部、107・・・位置情報検出部、108・・・解析文字情報記憶部、109・・・検索部、110・・・入力部、111・・・検索文字情報出力部、112・・・類似文字記憶部、113・・・解析文字情報出力部

Claims (5)

  1. 複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシのカラーの画像データを生成する読取部と、
    前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出する色設定部と、
    前記読取部が生成した前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第1色画像データを生成する色画像データ生成部と、
    画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第1色画像データとを比較し、前記第1色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第1色画像データから削除して文字情報と認識しない画像データが除去された第2色画像データを、前記抽出色ごとに生成する画像処理部と、
    前記画像処理部によって生成された複数の前記第2色画像データの各々から文字として認識される文字領域を検出する文字領域検出部と、
    前記文字領域検出部が検出した前記第2色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出する解析部と、
    前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出する位置情報検出部と、
    前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する解析文字情報出力部と、
    を備えることを特徴とするデータ生成装置。
  2. 前記解析部は、
    前記文字領域から複数の文字を検出した場合に、前記文字領域における各々の文字の配置状態に基づいて、縦書きであるか横書きであるかを検出し、検出した書字方向に連続する文字列を文字情報として検出する
    ことを特徴とする請求項1に記載のデータ生成装置。
  3. 検索対象である文字を表す検索文字が入力される入力部と、
    前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを対応付けて記憶する解析文字情報記憶部と、
    前記入力部に入力された検索文字に対応する位置情報を前記解析文字情報記憶部から検索する検索部と、
    前記検索部によって検索された位置情報を出力する検索文字情報出力部と、を有する
    ことを特徴とする請求項1又は2に記載のデータ生成装置。
  4. 互いに類似する類似文字を含む類似文字群を記憶する類似文字記憶部をさらに備え、
    前記検索部は、
    前記類似文字記憶部に記憶された類似文字の中に前記入力部に入力された前記検索文字に対応する類似文字があるか否かを検出し、類似文字がある場合、前記検索文字のうち類似文字に該当する文字を前記検出された類似文字が含まれる類似文字群のうち他の前記類似文字に置き換えた類似検索文字を生成し、生成した類似検索文字と前記検索文字に基づき、前記解析文字情報記憶部から検索する
    ことを特徴とする請求項に記載のデータ生成装置。
  5. 読取部が、複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシの画像データを生成し、
    色設定部が、前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出し、
    色画像データ生成部が、前記読取部によって生成された前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第1色画像データを生成し、
    画像処理部が、画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第1色画像データとを比較し、前記第1色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第1色画像データから削除して文字情報と認識しない画像データが除去された第2色画像データを、前記抽出色ごとに生成し、
    文字領域検出部が、前記色画像データ生成部が生成した前記第2色画像データの各々から文字として認識される文字領域を検出し、
    解析部が、前記文字領域検出部が検出した前記第2色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出し、
    位置情報検出部が、前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出し、
    解析文字情報出力部が、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する
    ことを特徴とするデータ生成方法。
JP2009074648A 2009-03-25 2009-03-25 データ生成装置およびデータ生成方法 Active JP5368141B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009074648A JP5368141B2 (ja) 2009-03-25 2009-03-25 データ生成装置およびデータ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009074648A JP5368141B2 (ja) 2009-03-25 2009-03-25 データ生成装置およびデータ生成方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013189774A Division JP2014026660A (ja) 2013-09-12 2013-09-12 データ生成装置およびデータ生成方法

Publications (2)

Publication Number Publication Date
JP2010225112A JP2010225112A (ja) 2010-10-07
JP5368141B2 true JP5368141B2 (ja) 2013-12-18

Family

ID=43042198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009074648A Active JP5368141B2 (ja) 2009-03-25 2009-03-25 データ生成装置およびデータ生成方法

Country Status (1)

Country Link
JP (1) JP5368141B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5679229B2 (ja) 2012-08-24 2015-03-04 楽天株式会社 画像処理装置、画像処理方法、及びプログラム
CN111783756B (zh) * 2019-04-03 2024-04-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3100383B2 (ja) * 1989-09-06 2000-10-16 株式会社リコー 文字領域分離方法および装置
JPH06183175A (ja) * 1992-02-27 1994-07-05 Ricoh Co Ltd 綴じ位置整合対応の綴じ方法および綴じ装置
JPH06111057A (ja) * 1992-09-25 1994-04-22 Toshiba Corp 光学的文字読取装置
JPH0916769A (ja) * 1995-06-27 1997-01-17 Canon Inc 画像処理装置および方法
JPH11167642A (ja) * 1997-12-03 1999-06-22 Omron Corp 画像の特徴抽出方法、画像の特徴抽出装置、画像検索方法および画像検索装置
JP2004021765A (ja) * 2002-06-19 2004-01-22 Pfu Ltd 画像認識方法
JP2005259017A (ja) * 2004-03-15 2005-09-22 Ricoh Co Ltd 画像処理装置、画像処理用プログラム及び記憶媒体
JP4574313B2 (ja) * 2004-10-04 2010-11-04 キヤノン株式会社 画像処理装置および方法
JP2008071316A (ja) * 2006-09-15 2008-03-27 Ricoh Co Ltd 印刷情報監視装置、印刷情報監視方法及びプログラム
JP4891013B2 (ja) * 2006-09-22 2012-03-07 パナソニック株式会社 タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム

Also Published As

Publication number Publication date
JP2010225112A (ja) 2010-10-07

Similar Documents

Publication Publication Date Title
US9552516B2 (en) Document information extraction using geometric models
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US9916499B2 (en) Method and system for linking printed objects with electronic content
CN102611815A (zh) 图像处理装置、图像处理系统以及图像处理方法
JP2014026660A (ja) データ生成装置およびデータ生成方法
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP2010157107A (ja) 業務文書処理装置
JP2015126486A (ja) 画像処理装置
US8593697B2 (en) Document processing
CN115171143A (zh) 一种电子发票全票面信息提取方法及系统
US20150169510A1 (en) Method and system of extracting structured data from a document
JP6578858B2 (ja) 情報処理装置及びプログラム
JP5368141B2 (ja) データ生成装置およびデータ生成方法
TWI222035B (en) Verifying results of automatic image recognition
US20100134851A1 (en) Image processing apparatus, method for performing image processing and computer readable medium
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
JP7351159B2 (ja) 情報処理装置及びプログラム
JP6058042B2 (ja) 画像処理装置
RU2431192C1 (ru) Способ внедрения скрытого цифрового сообщения в печатаемые документы и извлечения сообщения
US20130272610A1 (en) Image Processing Apparatus that Groups Objects Within Image
JP7135785B2 (ja) データ生成装置、データ生成方法及びプログラム
JP5277750B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
TWI612480B (zh) 文字影像辨識系統及操作文字影像辨識系統的方法
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130912

R150 Certificate of patent or registration of utility model

Ref document number: 5368141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350