JP5913763B1

JP5913763B1 - 基準線設定装置、基準線設定方法及び基準線設定プログラム

Info

Publication number: JP5913763B1
Application number: JP2016504816A
Authority: JP
Inventors: 遼太日並; 千葉　直樹; 直樹千葉
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2015-07-17
Filing date: 2015-07-17
Publication date: 2016-04-27
Anticipated expiration: 2035-07-17
Also published as: WO2017013720A1; JPWO2017013720A1; US10311318B2; US20180046873A1

Abstract

基準線設定装置は、文字領域を含む画像を取得する画像取得手段と、画像の文字領域から所定の認識手法により文字を認識する認識手段と、文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識手段により認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段と、線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定手段と、を備える。

Description

本発明は、基準線設定装置、基準線設定方法及び基準線設定プログラムに関する。

カメラ等により撮像された画像から、文字認識をする技術の需要が高まっている。画像に含まれる文字を正しく認識するために、配列される文字が沿うべき基準線を設定することが求められる場合がある。例えば、各文字が表された領域の輪郭を特徴ベクトルで表現し、その特徴ベクトルに基づいて画像中の文字に基準線を設定する技術が知られている（例えば、特許文献１参照）。

米国特許公報第８５８８５２９号

しかしながら、上記従来技術では、画像中の文字の輪郭が不鮮明な場合、及び文字の領域とその背景とのコントラストが十分に大きくない場合等に文字の領域が正しく認識されず、基準線を正確に設定できない場合がある。その結果、画像からの文字認識の精度が低下する。

そこで本発明は、画像中に含まれる文字に対して、配列される文字が沿うべき基準線を高精度に設定することを目的とする。

上記課題を解決するために、本発明の一形態に係る基準線設定装置は、文字領域を含む画像を取得する画像取得手段と、画像の文字領域から所定の認識手法により文字を認識する認識手段と、文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識手段により認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段と、線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定手段と、を備える。

本発明の一形態に係る基準線設定方法は、基準線設定装置における基準線設定方法であって、画像の文字領域から所定の認識手法により文字を認識する認識ステップと、文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識ステップにおいて認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得ステップと、線位置情報取得ステップにおいて取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定ステップと、を有する。

本発明の一形態に係る基準線設定プログラムは、基準線設定装置としてコンピュータを機能させる基準線設定プログラムであって、コンピュータを、画像の文字領域から所定の認識手法により文字を認識する認識手段、文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識手段により認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段、及び線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定手段、として機能させる。

上記の形態によれば、画像から認識することができた文字の線位置情報に基づいて、当該文字を含む画像に対して基準線が設定される。線位置情報が、文字ごとに線位置情報を予め記憶している記憶手段から取得され、取得された線位置情報に基づいて基準線が設定されるので、高精度に基準線を設定できる。また、認識することができた文字の線位置情報に基づいて基準線が設定されるので、認識することができなかった文字も含む、画像に表された文字列の全体に対して高精度に基準線を設定することができる。

別の形態に係る基準線設定装置では、線位置情報取得手段は、１本の第１の基準線が通る位置を示す線位置情報を取得し、設定手段は、複数の文字の、第１の基準線の線位置情報に基づいて、最小二乗法により当該第１の基準線を設定することとしてもよい。

上記形態によれば、文字の配列の基準となる１本の基準線が、当該基準線の線位置情報に基づいて最小二乗法により設定されるので、画像に表された文字列に対して、当該基準線を高精度に設定することができる。第１の基準線は、例えば、アルファベットにおけるベースラインである。また、第１の基準線は、例えば、ひらがな及びカタカナ並びに漢字等における、文字の下端部を沿わせる基準線である。

さらに別の形態に係る基準線設定装置では、線位置情報は、文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、設定手段は、認識手段により認識された複数の文字の、基準線のうちの第１の基準線以外の一の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、第１の基準線と同じ傾きを有する線を、当該一の基準線として設定することとしてもよい。

上記形態において、文字の配列の基準となる第１の基準線と同じ傾きで、平均と分散とからなる線位置情報を積算して得られた確率が最も高い位置を通るように、第１の基準線以外の基準線が設定されるので、それらの基準線を適切に設定することが可能となる。

さらに別の形態に係る基準線設定装置では、線位置情報は、文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、設定手段は、認識手段により認識された複数の文字の、基準線のうちの第１の基準線以外の二以上の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、第１の基準線と一点で交わる二以上の基準線を設定することとしてもよい。

上記形態において、第１の基準線と異なる傾きを有し、第１の基準線と一点で交わるような複数の基準線を適切に設定することが可能となる。

別の形態に係る基準線設定装置では、文字はアルファベットであり、基準線は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを含み、線位置情報取得手段は、文字ごとのアセンダーライン、ミーンライン、ベースライン及びディセンダーラインの線位置情報を取得し、設定手段は、複数の文字の、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインのそれぞれの線位置情報に基づいて、各基準線を設定することとしてもよい。

上記形態によれば、文字がアルファベットである場合に、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインに関する線位置情報が取得されるので、これら４本の基準線を高精度に設定できる。

さらに別の形態に係る基準線設定装置では、基準線が設定された複数の文字が表された複数の画像に基づいて、文字ごとの線位置情報を算出し、算出した線位置情報を文字ごとに記憶手段に記憶させる学習手段を更に備えることとしてもよい。

上記形態によれば、文字が表された複数の画像に基づいて、文字ごとの各基準線の位置を算出して、算出した基準線の位置が文字ごとに線位置情報として記憶手段に記憶される。これにより、基準線の設定処理に用いる精度が高い線位置情報を予め備えることが可能となる。

さらに別の形態に係る基準線設定装置では、学習手段は、複数の画像に表された複数の文字に基づいて、文字の縦方向における各基準線が通る位置の平均及び分散を線位置情報として算出することとしてもよい。

上記形態によれば、複数の画像に表された文字に基づいて、線位置情報が平均及び分散として算出されるので、文字が表された多くの画像の集計結果としての基準線の位置の情報を予め備えることができる。従って、これらの情報に基づいて、精度良く基準線を設定できる。

さらに別の形態に係る基準線設定装置では、文字はアルファベットであり、線位置情報取得手段は、大文字と小文字の形状が相似ではない文字の線位置情報を取得することとしてもよい。

認識された文字が、大文字と小文字の形状が相似である文字である場合には、当該文字が大文字及び小文字のいずれであるかの判定を誤っている可能性が高い。大文字と小文字の形状が相似である文字は、例えば、アルファベットの「Ｓ」と「ｓ」、「Ｏ」と「ｏ」等がある。上記形態によれば、認識結果が、大文字と小文字の形状が相似である文字であると認識された文字の線位置情報を基準線の設定に用いないので、設定される基準線の位置の精度を向上することができる。

さらに別の形態に係る基準線設定装置では、認識手段は、画像からの文字の認識結果の確からしさを示す信頼性スコアを算出し、線位置情報取得手段は、信頼性スコアが所定値以上の文字の線位置情報を取得することとしてもよい。

認識結果における信頼性が低い文字の線位置情報に基づいて設定される基準線の位置は、当該文字を含む文字列に対する基準線の位置として妥当ではない可能性が高い。上記形態によれば、認識結果における信頼性スコアが所定値未満の文字の線位置情報を基準線の設定に用いないので、設定される基準線の位置の精度を向上することができる。

本発明の一側面によれば、画像中に含まれる文字に対して、配列される文字が沿うべき基準線を高精度に設定することが可能となる。

基準線設定装置の機能構成を示すブロック図である。基準線設定装置のハードウェア構成を示す図である。基準線位置記憶部に記憶させる線位置情報算出の例を示す図である。基準線位置記憶部に記憶されている線位置情報の例を示す図である。ベースラインの設定処理の例を示す図である。アセンダーライン、ミーンライン及びディセンダーラインの設定処理の例を示す図である。基準線設定装置において実施される基準線設定方法の処理内容を示すフローチャートである。図７における基準線設定処理の内容を示すフローチャートである。基準線設定プログラムの構成を示す図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。

図１は、本実施形態に係る基準線設定装置１の機能的構成を示すブロック図である。基準線設定装置１は、画像に含まれる文字列に対して、複数の基準線を設定する装置である。基準線は、文字の配列方向に引かれる仮想的な線であって、文字列に含まれる各文字の所定部分を沿わせて配列させるための線である。文字がアルファベットである場合には、基準線は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの４本である。

画像は、例えばカメラ等により撮像された画像である。文字が含まれる画像から、文字認識をする技術の需要が高まっており、正確な文字認識を可能とするために、画像中の文字列に対して適切に基準線を設定する必要がある。カメラ等により撮影された情景画像には、例えば道路の標識や看板などの種々の文字情報が含まれている。情景画像中の文字は、紙に印刷された文字と比較すると、独自のフォントやスタイルを有している、解像度が低い等の、認識を困難にするような多くの問題を有している。画像中の文字列に設定された基準線は、画像中における文字が表された領域を限定することができるので、適切な基準線の設定は、画像からの正確な文字認識に資することとなる。

図１に示すように、基準線設定装置１は、機能的には、学習部１１（学習手段）、画像取得部１２（画像取得手段）、認識部１３（認識手段）、線位置情報取得部１４（線位置情報取得手段）及び設定部１５（設定手段）を備える。

また基準線設定装置１は、基準線位置記憶部２１といった記憶手段にアクセス可能である。基準線位置記憶部２１は、基準線設定装置１に備えられることとしてもよいし、基準線設定装置１からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。

図２は、基準線設定装置１のハードウェア構成図である。基準線設定装置１は、物理的には、図２に示すように、ＣＰＵ１０１、ＲＡＭ及びＲＯＭといったメモリにより構成される主記憶装置１０２、ハードディスク等で構成される補助記憶装置１０３、通信制御装置１０４などを含むコンピュータシステムとして構成されている。基準線設定装置１は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置１０５及びディスプレイ等の出力装置１０６をさらに含むこととしてもよい。

図１に示した各機能は、図２に示すＣＰＵ１０１、主記憶装置１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信制御装置１０４等を動作させるとともに、主記憶装置１０２や補助記憶装置１０３におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置１０２や補助記憶装置１０３内に格納される。

続いて、基準線設定装置１の各機能部を説明する。学習部１１は、複数の画像に表された複数の文字に基づいて、文字の縦方向における各基準線が通る位置に関する線位置情報を算出する部分である。学習部１１は、算出した線位置情報を基準線位置記憶部２１に記憶させる。線位置情報は、文字ごとに、基準線の位置を示す情報である。

図３を参照して、学習部１１による線位置情報の算出について説明する。図３は、線位置情報算出の例を示す図である。

学習部１１は、文字が表された画像であって、各文字のバウンディングボックスとその文字種が与えられている画像を学習データとして取得する。学習部１１は、大量の学習データに基づいて、以下に説明する方法により、アルファベット２６個の大文字及び小文字並びに０〜９の数字の計６２個の文字の、各基準線が通る位置の情報を取得し、線位置情報を文字ごとに算出して、算出した線位置情報取得を基準線位置記憶部２１に記憶させる。

学習部１１は、まず、学習用のデータの一例として、文字列Ｗ３１を含む画像を取得する。文字列Ｗ３１は、文字Ｃ３１〜Ｃ３４を含む。各文字には、文字種及びバウンディングボックスが予め与えられている。バウンディングボックスは、文字領域に外接する矩形の枠である。即ち、文字Ｃ３１の文字種は、大文字の「Ｓ」である。また、文字Ｃ３１には、バウンディングボックスＢ１が与えられている。

同様に、文字Ｃ３２〜Ｃ３４の文字種はそれぞれ、小文字の「ｐ」、小文字の「ｏ」、小文字の「ｔ」である。また、文字Ｃ３２〜Ｃ３４にはそれぞれ、バウンディングボックスＢ２〜Ｂ４が与えられている。

学習部１１は、各文字のバウンディングボックスの上辺の中心及び下辺の中心をそれぞれ、上接点及び下接点として抽出する。即ち、学習部１１は、バウンディングボックスＢ１から、上接点ＢＵ１及び下接点ＢＬ１を抽出する。同様に、学習部１１は、バウンディングボックスＢ２〜Ｂ４のそれぞれから、上接点ＢＵ２〜ＢＵ４及び下接点ＢＬ２〜ＢＬ４を抽出する。

アルファベットの大文字及び数字の上接点及び下接点はそれぞれ、アセンダーライン及びベースラインの位置に相当する。また、アルファベットの小文字のうち、ｂ、ｄ、ｆ、ｈ、ｉ、ｋ、ｌ、ｔの上接点及び下接点はそれぞれ、アセンダーライン及びベースラインの位置に相当する。また、アルファベットの小文字のうち、ｇ、ｊ、ｐ、ｑ、ｙの上接点及び下接点はそれぞれ、ミーンライン及びディセンダーラインの位置に相当する。それら以外のアルファベットの小文字の上接点及び下接点はそれぞれ、ミーンライン及びベースラインの位置に相当する。

学習部１１は、抽出した上接点及び下接点のうち、各基準線の位置に相当する複数の点を用いて、基準線を画像の文字列に設定する。図３に示す例では、学習部１１は、文字列Ｗ３２に示されるように、各基準線を設定する。具体的には、学習部１１は、上接点ＢＵ１及びＢＵ４の２点を用いて、最小二乗法によりアセンダーラインＬＡ３を文字列Ｗ３２に設定する。

同様に、学習部１１は、上接点ＢＵ２及びＢＵ３の２点を用いて、最小二乗法によりミーンラインＬＭ３を文字列Ｗ３２に設定する。また、学習部１１は、下接点ＢＬ１、ＢＬ３及びＢＬ４の３点を用いて、最小二乗法によりベースラインＬＢ３を文字列Ｗ３２に設定する。

なお、最小二乗法により線を設定するためには、２点以上の情報が必要である。従って、図３の例では、ディセンダーラインの位置に相当する点は、下接点ＢＬ２の１点のみであるため、破線により図示したディセンダーラインＬＤ３は設定されない。学習部１１は、大量の学習データに基づいて線位置情報を算出するので、ディセンダーラインの位置に相当する下接点を有する文字を複数含む画像を学習データとして取得することにより、ディセンダーラインの線位置情報を算出できる。

学習部１１は、設定された各基準線が、各文字のバウンディングボックスの中心を通る縦方向の線ＶＬ１〜ＶＬ４と交わる位置を、各文字における各基準線の線位置として取得する。図３に示す例では、学習部１１は、大文字の「Ｓ」である文字Ｃ３１の、アセンダーライン、ミーンライン及びベースラインの位置として、上接点ＢＵ１、点ＭＰ３１及び下接点ＢＬ１の位置を取得する。なお、仮にディセンダーラインＬＤ３が設定されていれば、学習部１１は、大文字の「Ｓ」である文字Ｃ３１のディセンダーラインの位置として、点ＤＰ３１の位置を取得する。なお、学習部１１は、各文字における各基準線の位置を、各文字領域（バウンディングボックス）の高さによって正規化された値に変換して取得する。

同様に、学習部１１は、小文字の「ｐ」である文字Ｃ３２の、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの位置として、点ＡＰ３２、上接点ＢＵ２、点ＢＰ３２及び下接点ＢＬ２の位置を取得する。

また、学習部１１は、小文字の「ｏ」である文字Ｃ３３の、アセンダーライン、ミーンライン及びベースラインの位置として、点ＡＰ３３、上接点ＢＵ３及び下接点ＢＬ３の位置を取得する。なお、仮にディセンダーラインＬＤ３が設定されていれば、学習部１１は、大文字の「ｏ」である文字Ｃ３３のディセンダーラインの位置として、点ＤＰ３３の位置を取得する。

また、学習部１１は、小文字の「ｔ」である文字Ｃ３４の、アセンダーライン、ミーンライン及びベースラインの位置として、上接点ＢＵ４、点ＭＰ３４及び下接点ＢＬ４の位置を取得する。なお、仮にディセンダーラインＬＤ３が設定されていれば、学習部１１は、大文字の「ｔ」である文字Ｃ３４のディセンダーラインの位置として、点ＤＰ３４の位置を取得する。

学習部１１は、以上説明したような、文字ごとの各基準線の位置を取得する処理を、文字種と文字ごとのバウンディングボックスが与えられた様々な撮像画像、種々のフォントについて行い、文字ごとの多くの基準線の位置の情報を蓄積及び学習する。そして、学習部１１は、蓄積及び学習した情報に基づいて、線位置情報を算出する。

学習部１１は、例えば、文字種ごとの各基準線の位置の平均を線位置情報として算出し、算出した線位置情報を基準線位置記憶部２１に記憶させる。また、学習部１１は、文字ごとの多くの基準線の位置の情報を統計的に処理して算出したガウス分布を線位置情報として算出してもよい。この場合には、学習部１１は、文字種ごとの各基準線の位置の平均及び分散の値を線位置情報として基準線位置記憶部２１に記憶させる。

図４は、基準線位置記憶部２１の構成及び記憶されているデータの例を模式的に示す図である。図４に示すように、基準線位置記憶部２１は、アルファベットの大文字及び小文字並びに数字ごとに、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの線位置情報を記憶している。本実施形態では、線位置情報は、基準線の位置の平均及び分散を含む。

再び図２を参照して、画像取得部１２は、文字領域を含む画像を取得する部分である。画像取得部１２は、例えば、カメラにより撮影された画像を、基準線を設定する対象として取得する。

認識部１３は、画像に含まれる文字領域から、所定の認識手法により文字を認識する部分である。認識部１３は、例えば、画像中における同一色が連続している連結領域を抽出して、抽出した連結領域を文字領域として取得してもよい。認識部１３は、連結領域の抽出のために、画像に対して二値化処理を行ってもよい。

例えば、認識部１３は、文字領域に対して、いわゆる文字分類器を用いて文字認識を実施してもよい。文字分類器を用いた手法は、例えば、ＨＯＧ（ＨｉｓｔｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ）−ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）という既知の手法である。ＨＯＧ−ＳＶＭは、特徴量としてＨＯＧ特徴量を用い、分類器として周知のＳＶＭを用いる手法である。文字分類器による文字認識のために参照する情報は予め記憶手段に記憶されており、記憶手段は、ＨＯＧ−ＳＶＭによる文字分類器を用いた文字認識のために参照するデータであって、例えば、アルファベットの大文字Ａ〜Ｚ、小文字ａ〜ｚ、数字０〜９について学習したデータを記憶している。

ＨＯＧ特徴量は、画像中の局所領域（セル）の輝度の勾配方向をヒストグラム化した特徴量である。所定数の画素からなるセルを認識対象の画像に敷き詰めるように設定し、セルごとに多次元のＨＯＧ特徴量の特徴ベクトルが取得され、さらに画像全体から、全てのセルを連結した多次元の特徴ベクトルが取得される。なお、ＨＯＧ−ＳＶＭによる文字分類では、アスペクト比を更に用いることが好ましい。

認識部１３は、文字領域から、ＨＯＧ特徴量ベクトル及びアスペクト比のベクトルを取得する。そして、記憶手段に予め記憶された学習データを参照して、ＳＶＭ分類器による分類を行う。その結果として、認識部１３は、分類結果としての文字（アルファベット、数字）及び分類器から出力される信頼性スコアを取得できる。

なお、認識部１３により実施される認識処理は、ＨＯＧ−ＳＶＭに例示される文字分類器による手法に限定されない。認識部１３による文字認識は、文字を正確に認識した結果を出力することを目的とするものではないので、画像中からの文字認識が可能な手法であれば、種々の既知の手法を適用できる。なお、後述するように、所定の認識手法は、文字ごとの認識結果の信頼性に関する情報を取得できる手法であることが好ましい。

図５に示される文字列Ｗ５１は、認識部１３により認識された文字Ｃ５１〜Ｃ５４からなる文字列である。即ち、図５に示す例では、認識部１３は、大文字の「Ｌ」である文字Ｃ５１、小文字の「ｉ」である文字Ｃ５２、小文字の「ｎ」である文字Ｃ５３及び小文字の「ｎ」である文字Ｃ５４を画像からの文字の認識結果として出力する。

線位置情報取得部１４は、認識部１３により認識された文字のうちの複数の文字の線位置情報を取得する。具体的には、線位置情報取得部１４は、基準線位置記憶部２１から線位置情報を取得する。

設定部１５は、線位置情報取得部１４により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する。

図５及び図６を参照して、本実施形態における基準線の設定処理について具体的に説明する。まず、設定部１５は、第１の基準線を設定する。第１の基準線は、文字の配列の基準となる基準線であって、例えば、アルファベットにおけるベースラインである。また、第１の基準線は、例えば、ひらがな及びカタカナ並びに漢字等における、文字の下端部を沿わせる基準線である。設定部１５は、最小二乗法により第１の基準線を設定してもよい。図５は、ベースラインの設定処理の例を示す図である。図６は、ベースライン以外の基準線であるアセンダーライン、ミーンライン及びディセンダーラインの設定処理の例を示す図である。

線位置情報取得部１４は、図５の文字列Ｗ５１における文字Ｃ５１〜Ｃ５４のベースラインの線位置情報ＢＰ５１〜ＢＰ５４を取得する。本実施形態では、線位置情報取得部１４は、ベースラインの線位置情報における平均の値を取得する。

続いて、設定部１５は、認識された複数の文字のベースラインの線位置情報に基づいて、最小二乗法によりベースラインを設定する。本実施形態では、設定部１５は、文字Ｃ５１〜Ｃ５４のベースラインの線位置情報ＢＰ５１〜ＢＰ５４に基づいて、最小二乗法により求めたベースラインＬＢ５を、文字列Ｗ５１を含む画像に対して設定する。

次に、線位置情報取得部１４は、アセンダーライン、ミーンライン及びディセンダーラインの設定のために、文字Ｃ５１〜Ｃ５４のそれぞれについての、アセンダーライン、ミーンライン及びディセンダーラインの線位置情報を取得する。

図６の文字列Ｗ５１において示されるように、線位置情報取得部１４は、文字Ｃ５１のアセンダーライン、ミーンライン及びディセンダーラインのそれぞれの線位置情報ＡＰ６１，ＭＰ６１，ＤＰ６１を取得する。ここで取得される線位置情報ＡＰ６１，ＭＰ６１，ＤＰ６１は、文字における基準線の位置の分布として表現されており、平均及び分散を含む。同様に、文字Ｃ５２〜Ｃ５４のアセンダーライン、ミーンライン及びディセンダーラインのそれぞれの線位置情報ＡＰ６２，ＭＰ６２，ＤＰ６２、線位置情報ＡＰ６３，ＭＰ６３，ＤＰ６３、線位置情報ＡＰ６４，ＭＰ６４，ＤＰ６４を取得する。

続いて、設定部１５は、認識された複数の文字の、ベースライン以外の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、ベースラインと同じ傾きを有する線を、当該基準線として設定する。

ベースライン以外の３本の基準線の設定を具体的に説明する。文字領域を含む画像に任意に二次元座標系を設定し、ベースライン以外の３本の基準線のうちの一の基準線ｌを、傾きｋ、切片ｂ_ｌとして、ｙ＝ｋｘ＋ｂ_ｌという式で表す。傾きｋは、設定済みのベースラインの傾きと同じである。

また、当該基準線ｌについて、傾きｋが決定した時に尤度を最大化するような値を切片とすることができる。取得した画像において、Ｎ文字の文字領域が与えられているとして、ｃ_１，ｃ_２，・・・，ｃ_Ｎを、各文字の文字クラスとし、ｘ_１，ｘ_２，・・・，ｘ_Ｎを各文字の文字領域の横方向における中央位置の座標系Ｘ方向における位置とする。ここで、ｐ（ｙ_ｉｌ｜ｃ_ｉ）を、ｉ番目の文字クラスがｃ_ｉであるときの、基準線ｌのｘ_ｉにおける切片がｙ_ｉである確率とすると、基準線ｌの切片ｂ_ｌは以下の式（１）で計算される。

ここで、μ_ｌｃｉ，σ_ｌｃｉは、線位置情報として得られる各文字クラスｃ_ｉに対する基準線ｌの位置の平均及び分散である。

図６において、矢印により示されるように、設定部１５は、文字Ｃ５１〜Ｃ５４のアセンダーラインの線位置情報ＡＰ６１〜ＡＰ６４に基づいて、アセンダーラインＬＡ６を設定する。即ち、アセンダーラインＬＡ６は、線位置情報ＡＰ６１〜ＡＰ６４の平均及び分散の積算により算出された分布において、最も確率が高い位置に設定される。

同様に、設定部１５は、文字Ｃ５１〜Ｃ５４のアセンダーラインの線位置情報ＭＰ６１〜ＭＰ６４に基づいて、ミーンラインＬＭ６を設定する。また、設定部１５は、文字Ｃ５１〜Ｃ５４のディセンダーラインの線位置情報ＤＰ６１〜ＤＰ６４に基づいて、ディセンダーラインＬＤ６を設定する。

認識部１３が、画像からの文字の認識結果の確からしさを示す信頼性スコアを算出及び出力する場合に、線位置情報取得部１４は、認識部１３により算出された信頼性スコアが所定値以上の文字の線位置情報を取得することとしてもよい。例えば、図５及び図６の例において、文字Ｃ５１，Ｃ５４の認識結果における信頼性スコアが所定値以上であって、文字Ｃ５２，Ｃ５３の信頼性スコアが所定値未満であった場合に、線位置情報取得部１４は、文字Ｃ５１，Ｃ５４の線位置情報を取得する。従って、設定部１５は、文字Ｃ５１，Ｃ５４の線位置情報のみを基準線の設定に用いることとなり、文字Ｃ５２，Ｃ５３の線位置情報は、基準線の設定に用いられない。

認識結果における信頼性が低い文字の線位置情報に基づいて設定される基準線の位置は、当該文字を含む文字列に対する基準線の位置として妥当ではない可能性が高いので、このように、認識結果における信頼性スコアが所定値未満の文字の線位置情報を基準線の設定に用いないことにより、設定される基準線の位置の精度を向上させることができる。また、認識結果における信頼性が低くなるような文字に対しても、適切な位置に基準線を設定することが可能となる。

また、認識及び基準線の設定の対象の文字がアルファベットである場合に、線位置情報取得部１４は、大文字と小文字の形状が相似ではない文字の線位置情報を取得することとしてもよい。この場合には、設定部１５は、大文字と小文字の形状が相似である文字のうちの大文字または小文字として認識された文字の線位置情報を、基準線の設定に用いない。即ち、認識部１３において認識された文字が、大文字と小文字の形状が相似である文字の大文字又は小文字である場合には、当該文字が大文字及び小文字のいずれであるかの判定を誤っている可能性が高い。このような可能性に鑑みて、認識結果において、大文字と小文字の形状が相似である文字であると認識された文字の線位置情報を基準線の設定に用いないことにより、設定される基準線の位置の精度を向上させることが可能となる。

なお、本実施形態では、ベースライン以外の基準線の傾きが、ベースラインの傾きと同様である場合の例を示しているが、ベースライン以外の基準線の傾きがベースラインの傾きと異なっていてもよい。例えば、４本の基準線が１点で収束するような傾きをそれぞれの基準線が有していることとしてもよい。

即ち、設定部１５は、認識部１３により認識された複数の文字の、ベースライン以外の二以上の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、ベースラインと一点で交わる二以上の基準線を設定することとしてもよい。

また、本実施形態では、ベースラインが直線である場合の例を示しているが、ベースラインは、例えば、２次曲線、ベジェ曲線、スプライン曲線であってもよい。ベースラインが、これらの曲線である場合であっても、ベースラインの位置を示す線位置情報に基づいて、最小二乗法やその他の既知の手法により、ベースラインを算出できる。ベースラインが、これらの曲線である場合には、アセンダーライン、ミーンライン及びディセンダーラインも。ベースラインと同様のカーブを有するラインとして算出されることとしてもよい。

次に、図７及び図８を参照して、本実施形態の基準線設定装置１の動作について説明する。図７は、基準線設定装置１において実施される基準線設定方法の処理内容を示すフローチャートである。

まず、画像取得部１２は、文字領域を含む画像を取得する（Ｓ１）。次に、認識部１３は、画像に含まれる文字領域から、所定の認識手法により文字を認識する（Ｓ２）。

続いて、線位置情報取得部１４は、ステップＳ２において認識部１３により認識された文字のうちの複数の文字の線位置情報を取得する（Ｓ３）。具体的には、線位置情報取得部１４は、基準線位置記憶部２１から線位置情報を取得する。基準線位置記憶部２１に記憶されている線位置情報は、学習部１１により種々の画像に表された複数の文字に基づいて算出されたものである。

次に、設定部１５は、ステップＳ３において取得された線位置情報に基づいて基準線を設定する基準線設定処理を実施する（Ｓ４）。図８を参照して、ステップＳ４における基準線設定処理を説明する。

まず、線位置情報取得部１４は、認識された各文字のベースラインの線位置情報を取得する（Ｓ４１）。続いて、設定部１５は、ステップＳ４１において取得された、ベースラインの線位置情報に基づいて、最小二乗法によりベースラインを設定する（Ｓ４２）。

次に、線位置情報取得部１４は、認識された各文字についての、アセンダーライン、ミーンライン及びディセンダーラインの線位置情報を取得する（Ｓ４３）。続いて、設定部１５は、ベースライン以外の各基準線ごとに、認識された複数の文字の線位置情報の分布を積算する（Ｓ４４）。即ち、設定部１５は、アセンダーライン、ミーンライン及びディセンダーラインのそれぞれについて、線位置情報に表される基準線の位置の分布を積算する。

そして、設定部１５は、線位置情報の分布の積算により得られた確率が最も高い位置を通り、ベースラインと同じ傾きを有する線を、当該基準線として設定する（Ｓ４５）。

次に、図９を参照して、コンピュータを基準線設定装置１として機能させるための基準線設定プログラムを説明する。基準線設定プログラムｐ１は、メインモジュールｍ１０、学習モジュールｍ１１、画像取得モジュールｍ１２、認識モジュールｍ１３、線位置情報取得モジュールｍ１４及び設定モジュールｍ１５を備える。

メインモジュールｍ１０は、基準線設定処理を統括的に制御する部分である。学習モジュールｍ１１、画像取得モジュールｍ１２、認識モジュールｍ１３、線位置情報取得モジュールｍ１４及び設定モジュールｍ１５を実行することにより実現される機能はそれぞれ、図１に示される基準線設定装置１の学習部１１、画像取得部１２、認識部１３、線位置情報取得部１４及び設定部１５の機能と同様である。

基準線設定プログラムｐ１は、例えば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭまたは半導体メモリ等の記憶媒体ｄ１によって提供される。また、基準線設定プログラムｐ１は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。

以上説明した本実施形態の基準線設定装置１、基準線設定方法及び基準線設定プログラムｐ１によれば、画像から認識することができた文字の線位置情報に基づいて、当該文字を含む画像に対して基準線が設定される。線位置情報が、文字ごとに線位置情報を予め記憶している記憶手段から取得され、取得された線位置情報に基づいて基準線が設定されるので、高精度に基準線を設定できる。また、認識することができた文字の線位置情報に基づいて基準線が設定されるので、認識することができなかった文字も含む、画像に表された文字列の全体に対して高精度に基準線を設定することができる。

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

例えば、本実施形態では、画像に含まれるアルファベットの文字列に対して基準線を設定する例で説明したが、この例には限定されない。本発明は、例えば、その他の種類の文字にも適用可能であり、日本語を表す文字列に適用してもよい。その場合には、設定する基準線の数を、アルファベットの場合における４本ではなく、例えば２本または３本であることとしてもよい。例えば、文字列がひらがな及びカタカナ並びに漢字で構成される場合には、文字の下端及び上端に２本の基準線が設定されることとしてもよい。また、文字の上端及び下端の２本の基準線の中心位置に３本目の基準線が設定されることとしてもよい。

１…基準線設定装置、１１…学習部、１２…画像取得部、１３…認識部、１４…線位置情報取得部、１５…設定部、２１…基準線位置記憶部、ｄ１…記憶媒体、ｐ１…基準線設定プログラム、ｍ１０…メインモジュール、ｍ１１…学習モジュール、ｍ１２…画像取得モジュール、ｍ１３…認識モジュール、ｍ１４…線位置情報取得モジュール、ｍ１５…設定モジュール。

Claims

文字領域を含む画像を取得する画像取得手段と、
文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、前記画像の前記文字領域から所定の認識手法により認識された文字のうちの複数の文字の線位置情報を取得し、前記基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段と、
前記線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、前記画像に各基準線を設定する設定手段と、
を備える基準線設定装置。
前記線位置情報取得手段は、１本の第１の基準線が通る位置を示す線位置情報を取得し、
前記設定手段は、複数の文字の、前記第１の基準線の線位置情報に基づいて、最小二乗法により当該第１の基準線を設定する、
請求項１に記載の基準線設定装置。
前記線位置情報は、前記文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、
前記設定手段は、前記画像の前記文字領域から認識された複数の文字の、前記基準線のうちの前記第１の基準線以外の一の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、前記第１の基準線と同じ傾きを有する線を、当該一の基準線として設定する、
請求項２に記載の基準線設定装置。
前記線位置情報は、前記文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、
前記設定手段は、前記画像の前記文字領域から認識された複数の文字の、前記基準線のうちの前記第１の基準線以外の二以上の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、前記第１の基準線と一点で交わる前記二以上の基準線を設定する、
請求項２に記載の基準線設定装置。
前記文字はアルファベットであり、
前記基準線は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを含み、
前記線位置情報取得手段は、文字ごとのアセンダーライン、ミーンライン、ベースライン及びディセンダーラインの線位置情報を取得し、
前記設定手段は、複数の文字の、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインのそれぞれの線位置情報に基づいて、各基準線を設定する、
請求項１〜４のいずれか一項に記載の基準線設定装置。
前記基準線が設定された複数の文字が表された複数の画像に基づいて、文字ごとの線位置情報を算出し、算出した線位置情報を文字ごとに前記記憶手段に記憶させる学習手段を更に備える、
請求項１〜５のいずれか一項に記載の基準線設定装置。
前記学習手段は、複数の画像に表された複数の文字に基づいて、文字の縦方向における各基準線が通る位置の平均及び分散を前記線位置情報として算出する、
請求項６に記載の基準線設定装置。
前記文字はアルファベットであり、
前記線位置情報取得手段は、大文字と小文字の形状が相似ではない文字の線位置情報を取得する、
請求項１〜７のいずれか一項に記載の基準線設定装置。
前記線位置情報取得手段は、前記画像からの文字の認識結果の確からしさを示す信頼性スコアが所定値以上の文字の線位置情報を取得する、
請求項１〜８のいずれか一項に記載の基準線設定装置。
基準線設定装置における基準線設定方法であって、
文字領域を含む画像を取得する画像取得ステップと、
文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、前記画像の前記文字領域から所定の認識手法により認識された文字のうちの複数の文字の線位置情報を取得し、前記基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得ステップと、
前記線位置情報取得ステップにおいて取得された基準線ごとの複数の線位置情報に基づいて、前記画像に各基準線を設定する設定ステップと、
を有する基準線設定方法。
基準線設定装置としてコンピュータを機能させる基準線設定プログラムであって、
前記コンピュータを、
文字領域を含む画像を取得する画像取得手段、
文字の縦方向における少なくとも２本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、前記画像の前記文字領域から所定の認識手法により認識された文字のうちの複数の文字の線位置情報を取得し、前記基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段、及び
前記線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、前記画像に各基準線を設定する設定手段、
として機能させる基準線設定プログラム。