JP5368141B2

JP5368141B2 - データ生成装置およびデータ生成方法

Info

Publication number: JP5368141B2
Application number: JP2009074648A
Authority: JP
Inventors: 祥晃山岸; 稔桝谷; 芳幸三ツ森
Original assignee: Toppan Inc
Current assignee: Toppan Inc
Priority date: 2009-03-25
Filing date: 2009-03-25
Publication date: 2013-12-18
Anticipated expiration: 2029-03-25
Also published as: JP2010225112A

Description

本発明は、複数色で印刷された印刷物から文字情報を抽出し、データを生成するデータ生成装置に関する。

文字や画像が印刷された印刷物に光を照射し、その反射光に基づいて生成される画像データを解析して、文字情報を抽出する技術を用いる装置として、例えば、ＯＣＲ（Optical Character Reader）等の光学文字読取装置がある。
このような光学文字読取装置は、読み取り対象が白黒印刷された印刷物であり、２値認識が主流である。カラーで印刷された印刷物から文字認識を行う場合には、カラーの印刷物を白黒でコピーを行って２値化し、この２値化された後の画像を対象として文字認識を行っている。このような文字認識を行う技術として、以下の特許文献１のものがある。
一方、新聞等で折り込みチラシが利用されている。折り込みチラシは、スーパーマーケットや家電製品の量販店等に広告媒体として利用されており、紙媒体に印刷される。このような折り込みチラシを電子化し、電子チラシとしてネットワークを介して配信するサービスが行われつつある。配信された電子チラシは、受信した端末装置の表示画面に表示されることによって、消費者に閲覧されている。
このような折り込みチラシは、大半がカラー印刷されている。この折り込みチラシを上記の光学文字読み取り装置によって読み取り、文字認識を行うことによって、折り込みチラシにどのような商品が掲載され、折り込みチラシの印刷面のどの位置に配置されているのかを得ることが求められている。

特開平９−２６９９７１号公報

しかしながら、折り込みチラシは、カラー印刷されているため、一度白黒でコピーを行って２値化し、文字認識を行うと、文字認識の精度が低く、折り込みチラシに掲載された商品等の文字情報を正確に得ることができないという問題がある。すなわち、カラー印刷から白黒にコピーを行う際に、文字として認識したい対象の部分の画像が背景と一緒に白として認識されてしまうと、その文字を認識することができない。また、折り込みチラシは、写真やイラスト、背景等の上に文字がレイアウトされることが多々あるため、文字の色と、その写真やイラスト、背景の色とが、異なる値になるように２値化されるとは限らない。そうすると、文字認識の精度が低下してしまう。
このように、文字と写真等の画像が重なっている場合、特に、折り込みチラシのように複数の色で印刷された文字や画像が複雑にレイアウトされていると、文字と画像を判別して文字認識することが難しく、文字情報のみを精度良く抽出することは困難であった。

本発明は、このような事情を考慮し、上記の問題を解決すべくなされたものであって、その目的は、文字を表す画像を含んだ画像データから精度よく文字認識を行うことができるデータ生成装置およびデータ生成方法を提供することにある。

上記問題を解決するために、本発明に係るデータ生成装置は、複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシのカラーの画像データを生成する読取部と、前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出する色設定部と、前記読取部が生成した前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第１色画像データを生成する色画像データ生成部と、画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第１色画像データとを比較し、前記第１色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第１色画像データから削除して文字情報と認識しない画像データが除去された第２色画像データを、前記抽出色ごとに生成する画像処理部と、前記画像処理部によって生成された複数の前記第２色画像データの各々から文字として認識される文字領域を検出する文字領域検出部と、前記文字領域検出部が検出した前記第２色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出する解析部と、前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出する位置情報検出部と、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する解析文字情報出力部と、を備える。

また、本発明は、上述のデータ生成装置において、前記解析部は、前記文字領域から複数の文字を検出した場合に、前記文字領域における各々の文字の配置状態に基づいて、縦書きであるか横書きであるかを検出し、検出した書字方向に連続する文字列を文字情報として検出することを特徴とする。

また、本発明は、上述のデータ生成装置において、検索対象である文字を表す検索文字が入力される入力部と、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを対応付けて記憶する解析文字情報記憶部と、前記入力部に入力された検索文字を前記解析文字情報記憶部から検索する検索部と、前記検索部によって検索された位置情報を出力する検索文字情報出力部と、を有することを特徴とする。

また、本発明は、上述のデータ生成装置において、互いに類似する類似文字を含む類似文字群を記憶する類似文字記憶部をさらに備え、前記検索部は、前記類似文字記憶部に記憶された類似文字の中に前記入力部に入力された前記検索文字に対応する類似文字があるか否かを検出し、類似文字がある場合、前記検索文字のうち類似文字に該当する文字を前記検出された類似文字が含まれる類似文字群のうち他の前記類似文字に置き換えた類似検索文字を生成し、生成した類似検索文字と前記検索文字に基づき、前記解析文字情報記憶部から検索することを特徴とする。

また、上記問題を解決するために、本発明に係るデータ生成方法は、読取部が、複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシの画像データを生成し、色設定部が、前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出し、色画像データ生成部が、前記読取部によって生成された前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第１色画像データを生成し、画像処理部が、画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第１色画像データとを比較し、前記第１色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第１色画像データから削除して文字情報と認識しない画像データが除去された第２色画像データを、前記抽出色ごとに生成し、文字領域検出部が、前記色画像データ生成部が生成した前記第２色画像データの各々から文字として認識される文字領域を検出し、解析部が、前記文字領域検出部が検出した前記第２色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出し、位置情報検出部が、前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出し、解析文字情報出力部が、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する。

本発明によれば、印刷物を読み取って得られた画像データを色ごとに分離し、その分離された画像データから文字認識を行い、その認識された文字情報と、その文字が印刷物に配置された座標を示す位置情報を得るようにした。これにより、文字とその文字の周囲の画像とを分離して文字認識を行うことができるので、複数の色で印刷された印刷物であっても、精度よく文字認識を行い、その文字の位置を把握することができる。

本実施の形態に係るデータ生成装置の構成の一例を説明するためのブロック図である。本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するための概略図である。本実施の形態に係るデータ生成装置による写真領域の除去の一例を説明するための概略図である。本実施の形態に係るデータ生成装置による解析領域の検出の一例を説明するための概略図である。本実施の形態に係るデータ生成装置による位置情報の抽出の一例を説明するための概略図である。本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するための概略図である。本実施の形態に係るデータ生成装置による類似文字の検索の一例を説明するための概略図である。本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するためのフローチャートである。本実施の形態に係るデータ生成装置によるデータ生成方法の一例を説明するためのフローチャートである。本実施の形態に係るデータ生成装置による縦書きあるいは横書きの判別の一例を説明するための概略図である。本実施の形態に係るデータ生成装置による傾いた文字列の判別の一例を説明するための概略図である。

図１は、本実施形態に係るデータ生成装置１００の構成を示すブロック図である。データ生成装置１００は、読取部１０１と、色設定部１０２と、色画像データ生成部１０３と、画像処理部１０４と、文字領域検出部１０５と、解析部１０６と、位置情報検出部１０７と、解析文字情報記憶部１０８と、解析文字情報出力部１１３と、検索部１０９と、入力部１１０と、検索文字情報出力部１１１と、類似文字記憶部１１２とを備える。

読取部１０１は、例えば複数色で印刷されている印刷物を複数色で読み取るカラースキャナ等の画像読取装置であって、読み取り対象である印刷物に対して光を照射しその反射光を受光し、光電変換素子等を利用して印刷物からの反射光を電気信号に変換して、印刷物の印刷面に印刷された画像を表す画像データを生成する。この読み取り対象である印刷物は、文字や画像が複数の色で印刷された印刷物であって、文字を表す画像を含んでいる。この実施形態における印刷物とは、新聞などの折り込みチラシである。例えば、この折り込みチラシに、商品の名称や原料、特長、価格、商品が撮像された写真、イラストなど、商品に関する情報である商品情報のうち、名称や原料、特長、価格などを表す文字が画像として印刷されており、また、商品情報のうち、商品が撮像された写真、イラストなどを表す商品画像が写真等で印刷され、広告や宣伝のために消費者に配布される。この配布は、折り込みチラシそのものが配布される場合もあるが、この実施形態においては、電子チラシとして配信される場合について説明する。電子チラシとは、この折り込みチラシを画像読取装置で読み取ってえられる画像データである。この電子チラシは、広告主である店舗が取扱っている商品または提供している役務に関する画像情報、文字情報、および音声情報等を含む電子化された広告宣伝情報を意味するものである。また店舗毎に開催されるフェアや、キャンペーン情報等、特定の商品や役務に限られない販売促進情報が含まれていてもよい。また、この電子チラシは、ユーザの端末装置からの要求に応じて配信される。

色設定部１０２は、読取部１０１によって読み取られたチラシを表す画像データ２００の色ヒストグラムから予め定められる上位の色を抽出色として検出する。この上位とは、色ごとに得られるヒストグラムのうち、予め決められた順位まで、上位から抽出する。例えば、チラシに印刷されている抽出色の印刷面積の割合が大きい抽出色を検出する。
また、色設定部１０２は、生成された色のヒストグラムに基づき、チラシの全画面において使用されている色とその色の印刷面積の割合を検出し、チラシ全画面内で使用されている面積の割合が多い抽出色を検出する。本実施の形態において、色設定部１０２は、例えば、上位の５位までを抽出することを予め指定することにより、画像データ２００内で使用されている割合が多い上位５色（例えば、黒色、青色、赤色、白色、黄色）を抽出色として検出する。
また、色設定部１０２は、抽出された複数の抽出色を、色画像データ生成部１０３によって利用される抽出対象として、色画像データ生成部１０３に出力する。

色画像データ生成部１０３は、読取部１０１によって生成された画像データ２００から、抽出対象である抽出色として、例えば、予め定められた色、あるいは、色設定部１０２によって検出された抽出色で印刷されている画像情報を抽出色毎に分離し、複数の色ごとの画像データである色画像データを生成する。例えば、図２に示す通り、色画像データ生成部１０３は、画像データ２００から、色設定部１０２によって検出された複数の抽出色（黒色、青色、赤色、白色、黄色）で印刷されている画像データのみを抽出色毎に分離し、複数の色画像データ（色黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４、および黄画像データ２０５）を生成する。なお、これら分離された色画像データは、それぞれ抽出色に応じて２値化された画像データであって、黒画像データ２０１、青画像データ２０２、赤画像データ２０３および黄画像データ２０５は、それぞれの抽出色で表されている画像領域を黒色とする２値化データである。一方、白画像データ２０４は、画像データ２００から白色で表されている画像領域を黒色とする２値化データである。

画像処理部１０４は、色画像データ生成部１０３によって抽出された複数の色画像データに対して、文字情報と認識しない画像データを除去する画像処理をし、画像処理された複数の色画像データを文字領域検出部１０５に出力する。例えば、画像処理部１０４は、複数の色画像データに対して、写真領域を除去するための処理や、ノイズ部分をフィルタ等を用いて除去するための処理等を行う。
ここで、写真領域を除去するための処理について、図３を用いて説明する。図３（ａ）は、チラシの画像データ２００の一部分を示している。図３（ａ）に示す画像データは、黒色の商品名、黄色の商品金額、黒色の矩形内に白抜きで記載された「税込」部分が示されており、背景は黒っぽい色のしょうゆの商品画像と、商品画像の周辺が赤色と青色で示されている。
また、図３（ｂ）は、色画像データ生成部１０３によって生成された黒画像データ２０１の一部分を示している。図３（ｂ）に示す通り、黒色に対応する部分として、商品名と、しょうゆの商品画像の一部と、税込の記載が示されている。
画像処理部１０４は、画像データ２００に対して、画像データの濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を行い、図３（ｃ）に示すようなエッジ画像データ２１１を生成する。
また、画像処理部１０４は、黒画像データ２０１とエッジ画像データ２１１を比較し、黒画像データ２０１に対してエッジ画像データ２１１に含まれるエッジ部分を表すエッジ情報がＴ（Ｔは、１００よりも小さい数）％未満しか含まれない領域を黒画像データ２０１から削除し、写真領域除去処理後の処理画像データ２２１を生成する。なお、パラメータＴは予め設定することや領域の大きさなどによって動的に変更が可能である。

文字領域検出部１０５は、色画像データ生成部１０３によって分離された複数の色画像データ毎に、文字として認識される対象である解析領域（文字領域）を検出する。例えば、文字領域検出部１０５は、黒画像データ２０１に基づき画像処理部１０４によって写真画像に対応する部分が概ね除去された処理画像データ２２１に対して、文字を検出するレイアウト解析を行い、文字列画像と判別できる画像領域を検出する。また、文字領域検出部１０５は、検出された文字列画像と判別できる画像領域に基づき、１文字に対応する文字領域を検出し、これら全ての文字領域を解析領域３００（図４参照）として解析部１０６に出力する。なお、文字領域検出部１０５は、色画像データ毎に解析領域３００を検出する。

解析部１０６は、文字領域検出部１０５によって検出された解析領域３００の画像データを解析して、解析領域３００の各文字領域に対応する文字情報を検出する。例えば、図４に示す通り、文字領域検出部１０５によって文字領域３０１〜３０７が検出された場合、解析部１０６は、この文字領域３０１〜３０７の画像データを解析することで、「北」「海」「道」「産」「ト」「マ」「ト」の文字情報４０１〜４０７を検出する。
また、解析部１０６は、文字領域検出部１０５によって検出されている文字領域毎の間隔等に応じて、後述する縦書き文字列、横書き文字列あるいは傾き文字列を判別する処理を行って、文字列の連続方向を判断する。
なお解析部１０６は、文字列の連続方向に基づき、各文字情報４０１〜４０７の組み合わせによって構成される文字列の塊を検出し、例えば、文字情報４０１〜４０４からなる単語情報６０１と、文字情報４０５〜４０７からなる単語情報６０２を検出する。また、解析部１０６は、文字領域検出部１０５によって解析領域３００が検出された色画像データ毎に、単語情報や文字情報を抽出する。

位置情報検出部１０７は、解析対象とした文字領域の画像データにおける座標を示す位置情報を検出する。すなわち、位置情報検出部１０７は、解析部１０６によって解析された文字情報４０１〜４０７がチラシに印刷されている位置を表す位置情報を、文字情報４０１〜４０７が抽出された色画像データから検出する。例えば、位置情報検出部１０７は、図５に示す通り、解析部１０６によって解析された文字情報４０５の「ト」に基づき、文字情報４０５の解析領域３００の左上の座標（Ｘ１_Ｌ，Ｙ１_Ｌ）と右下の座標（Ｘ１_Ｒ，Ｙ１_Ｒ）を位置情報５０５として検出する。同様にして、位置情報検出部１０７は、文字情報４０６の「マ」に基づき、文字情報４０６の解析領域３００の左上の座標（Ｘ２_Ｌ，Ｙ２_Ｌ）と右下の座標（Ｘ２_Ｒ，Ｙ２_Ｒ）を位置情報５０６として検出し、文字情報４０７の「ト」に基づき、文字情報４０７の解析領域３００の左上の座標（Ｘ３_Ｌ，Ｙ３_Ｌ）と右下の座標（Ｘ３_Ｒ，Ｙ３_Ｒ）を位置情報５０７として検出する。
なお、本実施の形態において、位置情報検出部１０７は、解析領域３００の対角線上の２点の座標を検出する例について説明したが、本発明はこれに限られず、解析領域３００の４点であってもよく、解析領域３００の中央の一点であってもよい。

解析文字情報出力部１１３は、解析部１０６によって検出された文字情報と、位置情報検出部１０７によって検出された位置情報とを関連付けて出力する。

解析文字情報記憶部１０８は、解析文字情報出力部１１３から出力された情報に基づき、解析部１０６によって抽出された文字情報と、位置情報検出部１０７によって検出された位置情報とを対応付けて記憶する。例えば、解析文字情報記憶部１０８は、図６に示す通り、解析部１０６によって抽出された文字情報からなる単語情報６０２“トマト”と、単語情報６０２を構成する文字情報４０５〜４０７の位置情報５０５〜５０７“Ｘ１_Ｌ，Ｙ１_Ｌ，Ｘ１_Ｒ，Ｙ１_Ｒ，Ｘ２_Ｌ，Ｙ２_Ｌ，Ｘ２_Ｒ，Ｙ２_Ｒ，Ｘ３_Ｌ，Ｙ３_Ｌ，Ｘ３_Ｒ，Ｙ３_Ｒ”とを対応付けて記憶する。

入力部１１０は、検索対象である文字を表す検索キーワード（検索文字）の入力を受け付ける。この受け付けは、例えば、電子チラシを参照するユーザの端末装置からネットワークを介して送信される検索キーワードを受信することによって行う。
検索部１０９は、入力部１１０から入力される検索キーワードを、解析文字情報記憶部１０８から検索する。例えば、検索部１０９は、入力部１１０を介して検索キーワード「トマト」が入力された場合、解析文字情報記憶部１０８に記憶されている情報のうち単語情報（文字情報）として「トマト」があるか否かを検索する。検索部１０９は、解析文字情報記憶部１０８に記憶されている単語情報（文字情報）として「トマト」を検索すると、検索された「トマト」に対応付けられた情報として位置情報５０５〜５０７を検出する。
検索文字情報出力部１１１は、検索部１０９によって検索された単語情報（文字情報）と、当該単語情報（文字情報）と対応付けられている位置情報とを出力する。例えば、検索文字情報出力部１１１は、検索部１０９によって単語情報（文字情報）「トマト」が検索された場合、「トマト」と対応付けて解析文字情報記憶部１０８に記憶されている位置情報５０５〜５０７を、単語情報（文字情報）「トマト」の位置情報として出力する。

類似文字記憶部１１２は、互いに類似する類似文字を含む類似文字群を、少なくとも１つ記憶する。例えば、類似文字記憶部１１２は、図７に示す通り、類似文字群７０１として、カタカナの「ん」である「ン」と、カタカナの「そ」である「ソ」と、カタカナの「の」である「ノ」を記憶し、類似文字群７０２として、音を伸ばすことを意味する長音符「ー」、ダッシュ記号「―」、漢数字の「いち」である「一」、マイナス記号「−」を記憶する。

検索部１０９は、入力部１１０を介して入力された検索キーワード（検索文字）が類似文字を含んでいるか否かを判断し、含んでいる場合、検索キーワードに含まれる類似文字と、類似文字記憶部１１２に記憶されている類似文字群に含まれる他の類似文字とを置き換えた類似検索キーワード（類似検索文字）を生成する。また、検索部１０９は、生成した類似検索キーワードと検索キーワードに基づき、類似検索キーワードと対応付けられている文字情報、および検索キーワードと対応付けられている文字情報を、解析文字情報記憶部１０８から検索する。
例えば、検索部１０９は、入力部１１０を介して検索キーワード「ラーメン」が入力された場合、「ラーメン」は類似文字「ー」と「ン」を含んでいることを検出する。検索部１０９は、検索キーワード「ラーメン」に含まれる類似文字「ー」と「ン」に基づき、類似文字記憶部１１２に記憶されている類似文字群７０１，７０２を検出し、この類似文字群７０１，７０２に含まれる他の類似文字と検索キーワード「ラーメン」に含まれる類似文字とをそれぞれ置き換えた類似検索キーワードを生成する。例えば、検索部１０９は、「ラーメン」「ラーメソ」「ラ−メン」「ラ−メソ」等の類似検索キーワードを生成し、生成した複数の類似検索キーワードと検索キーワード「ラーメン」と対応付けられている文字情報を、解析文字情報記憶部１０８から検索する。

次に、図８を用いて、本発明に係るデータ生成装置のデータ生成方法の一例について説明する。
図８に示す通り、読取部１０１は、例えば、複数の色で印刷された文字（商品名等）および画像（商品画像等）を含むチラシを読み取り、画像データ２００を生成する（ステップＳＴ１）。次いで、例えば、色設定部１０２が、画像データ２００に基づき、上位５色（黒色、青色、赤色、白色、黄色）の複数の抽出色を、色画像データ生成部１０３によって利用される抽出対象として、色画像データ生成部１０３に出力する（ステップＳＴ２）。ここで、ステップＳＴ２では、色設定部１０２によらず、予め定められた色を抽出対象として、操作部（図示せず）を介して画像データ生成部１０３に入力してもよく、あるいは他の外部装置から色画像データ生成部１０３に予め定められた色を抽出色として出力しても良い。

そして、色画像データ生成部１０３は、例えば色設定部１０２から入力されている抽出色に基づき、抽出色毎に画像データを抽出し、複数の色画像データを生成する（ステップＳＴ３）。すなわち、色画像データ生成部１０３は、各抽出色（黒色、青色、赤色、白色、黄色）で印刷されている画像データを抽出色毎に分離し、黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４、および黄画像データ２０５を生成する。これによって、抽出色毎の２値化された画像データが生成される。

次いで、画像処理部１０４は、色画像データ生成部１０３によって抽出された黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４、および黄画像データ２０５に対して、例えば、写真領域を除去するための処理を行う（ステップＳＴ４）。そして、文字領域検出部１０５は、黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４、および黄画像データ２０５から、それぞれ、文字として解析される対象である解析領域３００（文字領域）を検出する（ステップＳＴ５）。
解析部１０６は、ステップＳＴ５において検出された解析領域３００の画像データを解析して、文字情報を抽出する（ステップＳＴ６）。例えば、図４に示す通り、解析部１０６は、解析領域３００の画像データを解析することで、「ト」「マ」「ト」の文字情報４０５〜４０７を抽出し、１つの文字列である単語情報６０２とする。なお、解析部１０６は、黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４、および黄画像データ２０５のそれぞれに対して、検出された解析領域３００の解析を行う。

位置情報検出部１０７は、解析部１０６によって解析された文字情報（単語情報）が印刷されているチラシ内での位置を検出し、検出した位置を表す位置情報を検出する（ステップＳＴ７）。なお、位置情報検出部１０７は、複数の色画像データ、例えば、黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４、および黄画像データ２０５のそれぞれから、文字情報の位置を表す位置情報を検出する。例えば、位置情報検出部１０７は、文字情報「ト」「マ」「ト」に基づき、各文字情報４０５〜４０７の位置情報５０５〜５０７“Ｘ１_Ｌ，Ｙ１_Ｌ，Ｘ１_Ｒ，Ｙ１_Ｒ，Ｘ２_Ｌ，Ｙ２_Ｌ，Ｘ２_Ｒ，Ｙ２_Ｒ，Ｘ３_Ｌ，Ｙ３_Ｌ，Ｘ３_Ｒ，Ｙ３_Ｒ”を検出する。
そして、解析部１０６および位置情報検出部１０７は、解析部１０６によって抽出された文字情報と、位置情報検出部１０７によって検出された位置情報とを対応付けて、解析文字情報記憶部１０８に記憶させる（ステップＳＴ８）。なお、解析文字情報記憶部１０８は、一枚のチラシの画像データ２００から生成されている、黒画像データ２０１、青画像データ２０２、赤画像データ２０３、白画像データ２０４および黄画像データ２０５から抽出された文字情報および位置情報は、１つの画像データ２００に基づくものとして、それぞれ対応付けて記憶する。

次に、図９を参照して、本実施の形態に係るデータ生成装置のデータ検索方法の一例について説明する。
図９に示す通り、入力部１１０から検索キーワードが入力されると（ステップＳＴ１０）、検索部１０９は、類似文字記憶部１１２を検索して、検索キーワードに含まれる類似文字が記憶されているか否かを検出する（ステップＳＴ１１）。ステップＳＴ１１において、検索キーワードに類似文字が含まれていることが検出された場合（ステップＳＴ１１―ＹＥＳ）、類似文字記憶部１１２から検出された類似文字を含む類似文字群を読み出す（ステップＳＴ１２）。例えば、検索キーワードが「ラーメン」の場合、検索部１０９は、類似文字記憶部１１２において類似文字「ー」と「ン」を検出し、「ー」を含む類似文字群と「ン」を含む類似文字群を類似文字記憶部１１２から読み出す。

そして、検索部１０９は、例えば、読み出した類似文字群７０１に含まれる他の類似文字、カタカナの「ソ」、カタカナの「ノ」と、検索キーワードに含まれる対応する類似語「ン」と置き換えた類似検索キーワードを生成する（ステップＳＴ１３）。例えば、検索部１０９は、「ラーメン」「ラーメソ」「ラーメノ」「ラ−メン」「ラ−メソ」「ラ−メノ」等の類似検索キーワードを生成する。
次いで、検索部１０９は、ステップＳＴ１０において入力された検索キーワードと、ステップＳＴ１３において生成した類似検索キーワードに基づき、それぞれと対応づけられている文字情報を、解析文字情報記憶部１０８から検索する（ステップＳＴ１４）。
そして、検索文字情報出力部１１１は、検索部１０９によって検索された文字情報と、当該文字情報と対応付けられている位置情報とを出力する（ステップＳＴ１５）。

一方、ステップＳＴ１１において、検索キーワードに類似文字が含まれていないと判断された場合（ステップＳＴ１１―ＮＯ）、検索部１８は、解析文字情報記憶部１０８から、検索キーワードに相当する文字情報を検索し（ステップＳＴ１６）、相当する文字情報が検索された場合、当該文字情報と、当該文字情報と対応づけられている位置情報とを出力する。

以上説明した実施形態において、検索キーワードによって電子チラシに含まれる商品等を検索し、その位置情報を得ることができる。これにより、電子チラシ上のどこに所望の商品が掲載されているかを、検索キーワードを入力することによって、商品情報がレイアウトされた位置を把握することができる。電子チラシは、Ａ１サイズやＡ２サイズの折り込みチラシの印刷面を読み取ったものもあるので、表裏ともに合わせると、多数の商品が掲載されている。したがって、上述のように、検索キーワードを入力することによって簡単に商品を見つけることができる。

次に、図１０、１１を用いて、解析部１０６において検出された文字情報の文字列が連続している方向（書字方向）を検出する一例について説明する。図１０は、文字列の縦方向あるいは横方向を判定する方法の一例を説明する説明図であって、図１１は、傾いた文字列を認識する方法の一例を説明する説明図である。

まず、図１０を用いて、文字列の縦方向あるいは横方向を判定する方法の一例を説明する。
解析部１０６は、解析領域３００から複数の文字領域を検出した場合に、文字領域における各々の文字の配置状態に基づいて、縦書きであるか横書きであるかを検出し、検出した書字方向に連続する文字列を文字情報として検出する。例えば、解析部１０６は、図１０に示すように、解析領域３００に含まれた文字領域３０１〜３０７に基づき、各文字領域３０１〜３０７間の横方向（Ｘ方向）の間隔Ｇｘおよび縦方向の間隔Ｇｙと、各文字領域３０１〜３０７の縦横比Ｒｘｙ（横サイズＲｘと縦サイズＲｙとの比）を検出し、検出された結果に基づき、各文字領域３０１〜３０７が縦書きの文字列であるか、あるいは横書きの文字列であるかを判定する。
また、解析部１０６は、文字領域３０１〜３０７の各文字領域間の横方向の間隔Ｇｘおよび縦方向の間隔Ｇｙを検出し、各文字領域３０１〜３０７における横方向の間隔Ｇｘおよび縦方向の間隔Ｇｙの比率を算出する。解析部１０６は、文字領域において、横方向の間隔Ｇｘの方が縦方向の間隔ＧｙよりもＭ（Ｍは、正の整数）％以上大きい場合、当該文字領域を縦書きと判断し、縦方向の間隔Ｇｙの方が横方向の間隔ＧｘよりもＮ（Ｎは、正の整数）％以上大きい場合、当該文字領域を横書きと判断する。
また、解析部１０６は、文字領域３０１〜３０７のそれぞれの横サイズＲｘと縦サイズＲｙに基づき縦横比Ｒｘｙを算出する。全ての文字領域が縦方向（Ｙ方向）に長い長方形であれば、英文あるいは縦長の書体と判断してＭ％やＮ％に相当するパラメータを変更する。
なお、Ｍ％やＮ％に相当するパラメータは、チラシ内の文字の平均的なサイズや文字情報のチラシ内の出現位置の傾向等に応じて変更可能である。

よって、図１０に示すような文字画像データでは、解析部１０６が、文字領域３０１〜３０７を検出し、例えば、文字領域３０１と隣の文字領域３０２と横方向の間隔Ｇｘ１、文字領域３０１と隣の文字領域３０５と縦方向の間隔Ｇｙ１、文字領域３０５と隣の文字領域３０５と横方向の間隔Ｇｘ２を検出する。
解析部１０６は、横方向の間隔Ｇｘ１と縦方向の間隔Ｇｙ１とを比較し、縦方向の間隔Ｇｙ１が横方向の間隔Ｇｘ１に比べてＮ％以上大きいことを検出し、文字領域３０１は、文字領域３０２と共に横書きの文字列を構成すると判断する。
また、解析部１０６は、縦方向の間隔Ｇｙ１と横方向の間隔Ｇｘ１とを比較し、縦方向の間隔Ｇｙ１が横方向の間隔Ｇｘ１に比べてＮ％以上大きいことを検出し、文字領域３０１が横書きと判断できるため、文字領域３０１は、文字領域３０５とは異なる文字列であると判断する。

次に、図１１を用いて、傾いた文字列を認識する方法の一例を説明する。
図１１に示す通り、解析部１０６は、解析領域３００に含まれる文字領域３１１〜３１７に基づき、各文字領域３１１〜３１７間の横方向の間隔Ｇｘおよび縦方向の間隔Ｇｙと、各文字領域３１１〜３１７の横サイズＲｘと縦サイズＲｙを検出し、検出された結果に基づき、各文字領域３１１〜３１７が傾いた文字列であるか否かを判断する。
例えば、解析部１０６は、各文字領域３１１〜３１７の横方向の間隔Ｇｘと縦方向の間隔Ｇｙが一定値以下となるものを近接する文字領域として検出し、近接する文字領域の縦サイズＲｙの重なりを算出して当該重なりが一定の割合以上である場合、当該近接する文字領域が傾いた文字列であると判断する。

図１１に示す例を用いて説明すると、解析部１０６は、横方向の間隔Ｇｘおよび縦方向の間隔Ｇｙに基づき、文字領域３１１と文字領域３１２、および、文字領域３１１と文字領域３１５とがそれぞれ近接している文字領域であると判断する。解析部１０６は、近接する２つの文字領域３１１の縦サイズＲｙ１と文字領域３１２の縦サイズＲｙ２とが縦方向に重なりあっている重複サイズＷ１を算出し、文字領域３１１の縦サイズＲｙ１に対して重複サイズＷ１がＬ（Ｌは、１００よりも小さい数）％以上であるか否かを判断する。ここで、重複サイズＷ１がＬ％以上であるため、解析部１０６は、文字領域画像３１１と３１２とが横方向に連続する傾いた文字列であると判断する。
一方、解析部１０６は、近接する２つの文字領域３１１の縦サイズＲｙ１と文字領域３１５の縦サイズＲｙ３とが縦方向に重なりあっている重複サイズを算出するが、図１１に示す通り、文字領域３１１と３１５とは重なりあっている領域がないため、異なる文字列であると判断する。
このようにして、解析部１０６は、傾いた文字列として「北海道産」という文字列と、「トマト」という文字列を検出することができる。

なお、本実施の形態に係る解析部１０６は、一般的な文字認識の技術、例えば、ＯＣＲ（Optical Character Reader）に利用されている技術が利用可能である。また、本実施の形態に係る生成装置１００の文字抽出の精度を確認したところ、従来の白黒の画像データに基づき黒色に対する２値認識を行った場合の文字抽出の精度は、正答率が約４０％であったが、本実施の形態に係るデータ生成装置１００による文字抽出の精度は、従来の方法に比べて倍増した。

上述の通り、本実施の形態に係るデータ生成装置１００は、チラシのように複数色で印刷された文字や画像を含む印刷物から、抽出色毎に分離して複数の色画像データを生成し、色画像データ毎に文字認識を行うことにより、複数色を利用した写真等と混じって文字が印刷されている印刷物からの文字抽出の精度を高めることができる。例えば、写真の上に黒の文字が表示されている印刷物にあっては、カラーで表示されている状態ではこれらを区別して認識することができるが、共に濃い色合である場合、あるいは、背景の写真が複雑な画像である場合、この印刷物を２値化することで文字と写真の境界部分の認識が困難となる。本発明は上記構成を備えることによって、上述のような問題を解決し、複数色で文字と写真が重なって印刷されている印刷物であっても、文字部分を抽出し、文字認識を行うことができる。

また、本実施の形態に係るデータ生成装置１００は、抽出された文字情報と印刷物における位置情報とを対応付けて解析文字情報記憶部１０８に記憶することで、読取部１０１によって読み取られた印刷物の画像データと抽出された文字情報とを対応付けて利用することが可能となり、抽出された文字情報を様々な方法で有効に活用することができる。例えば、抽出された文字情報と印刷物における位置情報とが対応付けられた解析文字情報記憶部１０８の情報を利用して、検索部１０９によって入力された検索キーワードに対応する印刷物を表示することができる。また、検索キーワードが記載されている印刷物内の位置を特定して表示部に表示することができる。
さらに、抽出された文字情報と当該文字情報の印刷物における位置情報とを対応付けて解析文字情報記憶部１０８に記憶させておくことにより、抽出されない写真等の画像と抽出された文字とを対応付けて管理することができる。

また、本実施の形態に係るデータ生成装置１００は、画像処理部１０４によって、複数の色画像データに対して、文字情報と認識しない画像データを除去する画像処理を行うことにより、文字認識の精度を高めることができる。
さらに、本実施の形態に係るデータ生成装置１００は、文字列が縦書きであるかあるいは横書きであるかを検出し、検出された方向に連続する文字列を文字情報として検出することができる。さらに、直交する印刷物の縦横方向と異なる方向に文字が連続している「傾いた文字列」についても、傾いた文字列であることを検出することができる。これにより、縦書きの文字列、横書きの文字列および傾いた文字列が混じっているチラシのような印刷物であっても、文字を特定の単語や意味のある文字列として抽出することができる。
また、本実施の形態に係るデータ生成装置１００は、互いに類似する類似文字を含む類似郡を少なくとも１つ記憶する類似文字記憶部１１２をさらに備えることにより、文字列とて抽出された文字情報が、部分的に誤った文字認識を行った場合であっても、類似する文字情報を検索することができる。

なお、データ生成装置１００は、色設定部１０２を備えず、予め選択された任意の抽出色が、記憶部（図示せず）に記憶されており、色画像データ生成部１０３が、当該抽出色を読み出すものであってもよい。

１００・・・データ生成装置、１０１・・・読取部、１０２・・・色設定部、１０３・・・色画像データ生成部、１０４・・・画像処理部、１０５・・・文字領域検出部、１０６・・・解析部、１０７・・・位置情報検出部、１０８・・・解析文字情報記憶部、１０９・・・検索部、１１０・・・入力部、１１１・・・検索文字情報出力部、１１２・・・類似文字記憶部、１１３・・・解析文字情報出力部

Claims

複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシのカラーの画像データを生成する読取部と、
前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出する色設定部と、
前記読取部が生成した前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第１色画像データを生成する色画像データ生成部と、
画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第１色画像データとを比較し、前記第１色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第１色画像データから削除して文字情報と認識しない画像データが除去された第２色画像データを、前記抽出色ごとに生成する画像処理部と、
前記画像処理部によって生成された複数の前記第２色画像データの各々から文字として認識される文字領域を検出する文字領域検出部と、
前記文字領域検出部が検出した前記第２色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出する解析部と、
前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出する位置情報検出部と、
前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する解析文字情報出力部と、
を備えることを特徴とするデータ生成装置。
前記解析部は、
前記文字領域から複数の文字を検出した場合に、前記文字領域における各々の文字の配置状態に基づいて、縦書きであるか横書きであるかを検出し、検出した書字方向に連続する文字列を文字情報として検出する
ことを特徴とする請求項１に記載のデータ生成装置。
検索対象である文字を表す検索文字が入力される入力部と、
前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを対応付けて記憶する解析文字情報記憶部と、
前記入力部に入力された検索文字に対応する位置情報を前記解析文字情報記憶部から検索する検索部と、
前記検索部によって検索された位置情報を出力する検索文字情報出力部と、を有する
ことを特徴とする請求項１又は２に記載のデータ生成装置。
互いに類似する類似文字を含む類似文字群を記憶する類似文字記憶部をさらに備え、
前記検索部は、
前記類似文字記憶部に記憶された類似文字の中に前記入力部に入力された前記検索文字に対応する類似文字があるか否かを検出し、類似文字がある場合、前記検索文字のうち類似文字に該当する文字を前記検出された類似文字が含まれる類似文字群のうち他の前記類似文字に置き換えた類似検索文字を生成し、生成した類似検索文字と前記検索文字に基づき、前記解析文字情報記憶部から検索する
ことを特徴とする請求項３に記載のデータ生成装置。
読取部が、複数色で印刷された文字及び画像を含むチラシをカラーで読み取り、前記チラシの画像データを生成し、
色設定部が、前記読取部によって前記チラシから読み取られた色のうち、前記チラシの全画面における印刷面積の割合が多い順で上位から予め決められた数の色を抽出色として検出し、
色画像データ生成部が、前記読取部によって生成された前記カラーの画像データを、前記色設定部によって検出された前記抽出色ごとに分離し、前記抽出色ごとの画像データである第１色画像データを生成し、
画像処理部が、画像の濃淡からエッジ部分を特徴量として検出するエッジ検出による画像処理を前記チラシのカラーの画像データに対して行いエッジ画像データを生成し、生成した前記エッジ画像データと前記色画像データ生成部が生成した前記第１色画像データとを比較し、前記第１色画像データに対して前記エッジ画像データに含まれるエッジ部分を表すエッジ情報が閾値未満しか含まれない領域を前記第１色画像データから削除して文字情報と認識しない画像データが除去された第２色画像データを、前記抽出色ごとに生成し、
文字領域検出部が、前記色画像データ生成部が生成した前記第２色画像データの各々から文字として認識される文字領域を検出し、
解析部が、前記文字領域検出部が検出した前記第２色画像データにおける文字領域を解析し、当該文字領域に含まれる文字情報を検出し、
位置情報検出部が、前記解析部が文字情報を検出した場合、解析対象とした文字領域の前記画像データにおける座標を示す位置情報を検出し、
解析文字情報出力部が、前記解析部が検出した文字情報と、前記位置情報検出部が検出した位置情報とを関連付けて出力する
ことを特徴とするデータ生成方法。