JP4713107B2

JP4713107B2 - 景観中文字列認識方式および装置

Info

Publication number: JP4713107B2
Application number: JP2004240244A
Authority: JP
Inventors: 昌史古賀
Original assignee: Hitachi Omron Terminal Solutions Corp
Current assignee: Hitachi Omron Terminal Solutions Corp
Priority date: 2004-08-20
Filing date: 2004-08-20
Publication date: 2011-06-29
Anticipated expiration: 2024-08-20
Also published as: JP2006059124A; US20060039605A1; US7403656B2

Description

本発明は，景観画像中から文字を認識する技術に関するものであり、画像処理、パタン認識、言語処理などの技術分野に属する。また、本発明は、カメラを有する携帯型の端末における入力手段に用いて好適な技術分野に属する。

従来より、スキャナを用いて文書を電子的な画像データに変換し、文字を認識する技術は多数知られている。従来の技術では、文字は黒、背景は白である場合が多い。また、スキャナを用いるため、照明は明るくてむらがなく、高画質の画像が得られる。このため、文字に対応する画素は暗く、背景に対応する画素は明るくなり、二値化処理により文字と背景を分離することができた。

最近は、看板、標識などを含む景観をカメラで撮像し、得られた画像中から文字を認識する技術が現れてきている。しかし、この場合、照明条件が未知である上、文字や背景の色も様々である。したがって、文字と背景を分離するための画素値の閾値は、予め設定できないのみならず、場所によっても変わる。このため、文字と背景の分離は困難であった。

例えば、「P. Clark, M. Mirmehdi, "Locate and recover regions of text in greylevel images of indoor scenes," Proc. SPIE 2000, pp. 267-277」では、文字が書かれている紙、看板(Text Plane)などが長方形であると仮定し、自動的にText Planeを検出し、文字を検出する。この際、Text Plane上での照明は均一であることを仮定している。実際には、条件は仮定通りではなく、Text Plane上の照明むらによりこの方式では対応できないことも多い。

「P. Clark, M. Mirmehdi, "Locate and recover regions of text in greylevel images of indoor scenes," Proc. SPIE 2000, pp. 267-277」

本発明が解決しようとする課題は，未知の照明条件の下で撮像された景観画像中から、高い精度で文字を検出して認識することである。

上記の課題を解決するため、本発明では、複数の異なる二値化手段をもって、文字パタンの仮説の集合を得る。ここで、文字パタンとは、１文字分に対応する画素の集合である。さらに文字認識結果を利用し、文字列として妥当な文字パタンの仮説を選択する。すなわち、文字列としての整合性を判定する。文字列の整合性としては、言語情報や、文字の配置（同じくらいの大きさでまっすぐ並んでいるなど）を利用する。
特に、本発明は、異なる二値化手段で得られた文字パタンの仮説の集合を、一つのネットワークで表現することに新規性がある。これにより、従来困難であった、個々の文字パタンの妥当性を文字列として検証することが可能となった。

図１に本発明の一実施形態における処理手順を示す。ここで、入力画像は多値画像、もしくはカラー画像とするが、白黒でもよい。まず、入力画像から、複数の異なる二値化手段１０１、１０２、１０３により複数の二値画像を得る。多値画像もしくはカラー画像から二値画像を得る方式には様々なものがあり、一般に得られる結果も方式により異なる。また、同じ方式でも、パラメータにより異なる結果が得られる物が多い。本実施例でも、異なる結果が得られるような複数の二値化手段を用いるものとする。

次に、得られた各々の二値画像から、プレセグメンテーション１０４、１０５、１０６から文字パタンの候補を検出する。プレセグメンテーションには、例えば「M. Koga, T. Kagehiro, H. Sako, and H. Fujisawa, ``Segmentation of Japanese Handwritten Characters Using Peripheral Feature Analysis,'' Proc. of the 14th Intl. Conf. on Pattern Recognition, pp. 1137-1141, Brisbane, Australia, Aug. 1998.」にあるような方式を用いることができる。
図６は、プレセグメンテーションの結果得られた文字パタンの候補をネットワークの形式で表現したものである。ここでは、文字パタンの候補が頂点（四角で囲まれたイメージ）、文字パタンの候補同士の隣接関係が辺（線）で表されている。このようなネットワークを切出し仮説ネットワークと呼ぶ。

次に、１０４、１０５、１０６で得られた３つの切出し仮説ネットワークを、仮説ネットワーク統合１０８にて一つのネットワークに統合する。ここでは、個々の文字パタンの候補同士の位置関係を解析し、隣接しているものを辺で繋ぐことで、切出し仮説ネットワークを統合する。次に、得られた切出し仮説ネットワークに基づき、１０９で文字列を認識する。ここでは、個々の文字パタン候補を文字として認識し、文字として尤もらしいものを選択し、さらにそれらをネットワーク上で繋げて文字列として取り出す。この段階で、文字列として尤もらしい文字パタンの候補の組合せが複数見つかることがある。そこで、テキスト面検出処理１０７で得られたテキスト面の縁の情報を利用し、文字列として配置が妥当なものをテキスト面エッジ利用候補文字列選択１１０で選びだし、認識結果文字列とする。他の例としては、文字列認識１０９で複数得られた候補の認識結果を照合し、例えば多数決によって決定してもよい。

図２に、本発明の実施例におけるハードウエア２０１の構成をに示す。画像は，レンズ,絞りなどからなる光学装置２０２によって撮像された後，例えばCCD素子などの光電変換素子２０３で電気信号に変換される。さらに得られた電気信号はアナログ・デジタル変換器２０４にてデジタル信号に変換し，さらに例えばDSPなどの信号処理素子２０５により，色空間変換，フィルタ処理などの処理を施す。この結果は，ＲＡＭ２０９へと転送する。演算装置２０７は，ＲＯＭ２０８に格納されている処理手順と文字列認識に必要な辞書などのデータを参照し，ＲＡＭ２０９に格納されている画像を入力として文字列認識処理を実行する。また，入力装置２１２は，装置の操作の際に用いる。また，表示装置２０６は，撮影時の画像の確認，認識結果の表示に用いる。

図３に本発明の実施例における装置の外観を示す。筐体３０１の前面には，光学装置２０２のレンズ部３０２を配置する。上部には，入力装置２１２の一部であって画象入力を指示するためのシャッター３０３と，電源スイッチ３０４を配置する。背面には，入力装置２１２の一部である，カーソルキー３０６を配置する。さらに背面には，表示装置２０６の表示面３０９を配置する。カーソルキー４０６は，上下左右の端を押すと方向を指示する信号を入力装置２１２に送り，中央を押すと別の信号を入力装置３１２へ送る。図２、図３は基本的な構成図であり、これを携帯電話等と合体させた構成も可能である。なお、図１の処理は、図２の演算装置２０７で動作するソフトウェアにおいて実行可能であるが、専用のハードウェアで構成することも可能である。

図４に図１の実施例の入力画像の例を模式的に示す。この画像には、長方形の看板上に書かれた「ＡＢＣＤＥ」の５文字が、やや左下がりに撮られている。ここでは、左側ほど照明が暗くなっている。また、看板の右端の文字「Ｅ」の下は黒くよごれているものとする。
図１の実施例では、二値化手段１０１、１０２、１０３として、閾値処理を用いるとする。閾値処理とは、各画素の明るさが閾値以上なら、新たな画素値を1に、さもなければ０と変換する処理であ。画素の明るさとしては、入力が多値画像ならば画素値を、カラーなら例えばY値を用いるものとする。このようにした場合、閾値によって様々な二値化結果が得られる。二値化手段１０１、１０２、１０３では、異なる閾値を用いることとする。

図５(A)(B)(C)は、図４の画像をそれぞれ異なる閾値を有する二値化手段１０１，１０２，１０３で二値化した結果を模式的に示す。この例では、照明が不均一であるため、いずれの画像でも、全ての文字が適切に二値化されることがない。

図６に二値化手段１０１から得られる図５（A）をもとに、プレセグメンテーション１０４で得られる文字切出しネットワークを示す。この切出しネットワークでは、様々な文字の切出し方の仮説に基づいて文字パタンの候補が検出された結果が表されている。しかし、二値化が適切でなかったため、「Ｅ」は正しく切出されていない。

図７は、切出し仮説ネットワーク統合１０８の結果得られた新たな切出し仮説ネットワークである。これは、プレセグメンテーション１０４，１０５，１０６の結果を統合して、新たな仮説ネットワークとしたものである。ここでは、プレセグメンテーション１０４、１０５、１０６で得られた個々の切出し仮説ネットワーク中の文字パタンの候補の位置を解析し、近接しているもの同士を新たな辺で結んでいる。例えば、横方向にｘ軸を設定し、文字パタン候補のｘ座標が隣接しているもの同士を辺で結ぶ。論理的には二値化手段の数を十分大きくすれば、この切出し仮説ネットワークには全ての文字の正しい切出し方が含まれる。このため、このネットワーク上から適切な経路を見い出せば、それが文字列に対応する。

文字列認識１０９では、「M. Koga, T. Kagehiro, H. Sako, and H. Fujisawa, ``Segmentation of Japanese Handwritten Characters Using Peripheral Feature Analysis,'' Proc. of the 14th Intl. Conf. on Pattern Recognition, pp. 1137-1141, Brisbane, Australia, Aug. 1998.」にあるような方式で文字列を認識する。すなわち、個々の文字パタンの候補を文字として認識し、文字として尤もらしい候補パタンの連なりを候補文字ネットワーク上で経路として探索する。

図８は文字列認識１０９で、文字としてもっと尤もらしい候補パタンの連なりを検出したものである。例えば、準備した文字辞書とパターンマッチングを行って、尤もらしい候補パタンを抽出できる。図８に示すように、文字列認識１０９で、文字列として尤もらしい文字パタンの連なりが複数検出されることがある。そこで、Text Planeのエッジを参照し、文字の配置を利用して文字列として尤もらしいものをテキスト面エッジ利用候補文字列選択１１０にて選択する。

図９は、テキスト面検出処理１０７で得られたText Planeを模式的に示す。テキスト面検出処理１０７には、例えば、「P. Clark, M. Mirmehdi, "Locate and recover regions of text in greylevel images of indoor scenes," Proc. SPIE 2000, pp. 267-277」のような方式を用いる。

図１０と図１１には、図８に示す二つの文字列の候補を、図９に重ねたものを示す。本実施例では、文字配置を利用した文字列候補の選択方式の一例として、例えば、各文字の重心を最小自乗法で得られる直線の傾きと、テキスト面のエッジの差がある値を越えた場合には、その文字列の候補を棄却するようにする。これにより、図１１のような候補を棄却し、正しく文字列「ＡＢＣＤＥ」を認識できる。

処理の流れを示すフロー図。装置の構成ブロック図。装置の外観斜視図。入力画像の模式図。二値化結果の模式図。切出し仮説ネットワークの例の概念図。統合後の切出し仮説ネットワークの概念図。文字列認識結果の候補の概念図。 Text Planeの検出結果の模式図。文字列認識結果とText Planeの検出結果の関係（１）の概念図。文字列認識結果とText Planeの検出結果の関係（２）の概念図。

符号の説明

１０１・・・二値化手段(1)、１０２・・・二値化手段(2)、１０３・・・二値化手段(3)、１０４、１０５、１０６・・・プレセグメンテーション、１０７・・・テキスト面検出、１０８・・・切出し仮説ネットワーク統合、１０９・・・文字列認識、１１０・・・テキスト面エッジ利用候補文字列選択、２０２・・・光学装置，２０３・・・光電変換素子，２０４・・・アナログデジタル変換器，３０５・・・信号処理素子，２０６・・・表示装置，２０７・・・演算装置，２０８・・・ＲＯＭ，２０９・・・ＲＡＭ，２１２・・・入力装置、３０１・・・筐体，３０２・・・レンズ，３０３・・・シャッター，３０４・・・電源スイッチ，３０６・・・カーソルキー，３０９・・・表示面。

Claims

入力画像から互いに異なる複数の二値画像を得る複数の二値化手段と、
上記得られた各々の二値画像から、文字と仮定される画素の集合（文字パタン候補）を検出し、文字パタンの候補同士の隣接関係が関連づけられた切り出し仮説ネットワークを各二値化手段毎に検出するプレセグメンテーション手段と、
上記プレセグメンテーション手段で得られた個々の文字パタンの候補同士の位置関係を解析し、隣接する文字パタン候補同士をさらに関連づけて前記切り出し仮説ネットワークを１つの切り出し仮説ネットワークに統合するネットワーク統合手段と、
上記１つの切り出し仮説ネットワークの個々の文字パタン候補と、保持した文字辞書とのパターンマッチングを行って文字として尤もらしいものを選択し、前記選択した文字を仮説ネットワーク上で繋げて文字列として取り出す文字列認識手段とを有する景観中文字列認識方式。
上記文字列として複数が取り出された場合、入力の多値もしくはカラー画像から文字の書かれている平面の縁の情報を用いて前記取り出された複数の文字列から所定の文字列を抽出する手段と、を有することを特徴とする請求項１の景観中文字列認識方式。
入力の多値もしくはカラー画像から複数の異なる手段で複数の二値画像を得る手段と、
上記得られた各々の二値画像から、文字と仮定される画素の集合（文字パタン候補）を検出し、文字パタンの候補同士の隣接関係が関連づけられた切り出し仮説ネットワークを各二値化手段毎に検出するプレセグメンテーション手段と、
上記プレセグメンテーション手段で得られた個々の文字パタンの候補同士の位置関係を解析し、隣接する文字パタン候補同士をさらに関連づけて前記切り出し仮説ネットワークを１つの切り出し仮説ネットワークに統合するネットワーク統合手段と、
上記１つの切り出し仮説ネットワークの個々の文字パタン候補と、文字辞書とのパターンマッチングを行って文字として尤もらしいものを選択し、前記選択した文字を仮説ネットワーク上で繋げて文字列として取り出す文字列認識手段と、を計算機に実行させるための景観中文字列認識プログラム。
入力画像から複数の異なる手段で複数の異なる二値画像を得る複数の二値化手段と、
上記得られた各々の二値画像から、文字と仮定される画素の集合（文字パタン候補）を検出し、文字パタンの候補同士の隣接関係が関連づけられた切り出し仮説ネットワークを各二値化手段毎に検出するプレセグメンテーション手段と、
上記プレセグメンテーション手段で得られた個々の文字パタンの候補同士の位置関係を解析し、隣接する文字パタン候補同士をさらに関連づけて前記切り出し仮説ネットワークを１つの切り出し仮説ネットワークに統合するネットワーク統合手段と、
上記１つの切り出し仮説ネットワークの個々の文字パタン候補と、保持した文字辞書とのパターンマッチングを行って文字として尤もらしいものを選択し、前記選択した文字を仮説ネットワーク上で繋げて文字列として取り出す文字列認識手段と、を有する文字列認識装置。
上記文字列として複数が取り出された場合、前記文字が書かれている平面の縁の情報を用いて前記取り出された複数の文字列から所定の文字列を抽出する候補文字列選択手段を有する請求項４記載の文字列認識装置。