JP6310155B2

JP6310155B2 - 文字認識装置、文字認識方法及び文字認識プログラム

Info

Publication number: JP6310155B2
Application number: JP2017529190A
Authority: JP
Inventors: 遼太日並; 千葉　直樹; 直樹千葉; 新豪劉; 佐藤　真一; 真一佐藤
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2015-07-17
Filing date: 2015-07-17
Publication date: 2018-04-11
Anticipated expiration: 2035-07-17
Also published as: WO2017013719A1; JPWO2017013719A1; US20180211127A1; US10657404B2

Description

本発明は、文字認識装置、文字認識方法及び文字認識プログラムに関する。

カメラ等により撮像された画像から、文字認識をすることの需要が高まっている。画像に含まれる文字を認識するための手法としては、例えば、ＳｌｉｄｉｎｇＷｉｎｄｏｗという認識精度が高い技術が知られている（例えば、非特許文献１参照）。この技術は、文字認識のためのあるサイズのウィンドウを設定し、設定したウィンドウ内において文字認識処理を行うものであって、検出対象の画像の全面に亘るウィンドウの走査を、ウィンドウの大きさを徐々に変更しながら繰り返し行う技術である。

End-to-End Text Recognition with Convolutional Neural Networks、[online]、［２０１５年７月１０日検索］、インターネット<http://ai.stanford.edu/~ang/papers/ICPR12-TextRecognitionConvNeuralNets.pdf>

上記した従来の技術では、文字認識のためのウィンドウの大きさを変更しながら、抽出対象の領域の全面に亘る走査により文字認識を行うため、処理負荷が大きい。

そこで本発明は、画像からの文字認識において、認識の精度を維持しつつ、処理負荷を低減することを目的とする。

上記課題を解決するために、本発明の一形態に係る文字認識装置は、文字領域を含む画像を取得する取得手段と、画像の文字領域から、第１の認識手法により、文字を認識する第１認識手段と、第１認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも１本の基準線を設定する設定手段と、第２の認識手法により文字を認識する第２認識手段であって、第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法であり、文字領域のうちの、設定手段により設定された基準線のうちの少なくとも１本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定する、第２認識手段と、第２認識手段により認識された文字からなる語を認識結果として出力する出力手段と、を備える。

本発明の一形態に係る文字認識方法は、文字認識装置における文字認識方法であって、文字領域を含む画像を取得する取得ステップと、画像の文字領域から、第１の認識手法により、文字を認識する第１認識ステップと、第１認識ステップにおいて認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも１本の基準線を設定する設定ステップと、第２の認識手法により文字を認識する第２認識ステップであって、第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法であり、文字領域のうちの、設定ステップにおいて設定された基準線のうちの少なくとも１本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定する、第２認識ステップと、第２認識ステップにおいて認識された文字からなる語を認識結果として出力する出力ステップと、を有する。

本発明の一形態に係る文字認識プログラムは、文字認識装置としてコンピュータを機能させる文字認識プログラムであって、コンピュータを、文字領域を含む画像を取得する取得手段、画像の文字領域から、第１の認識手法により、文字を認識する第１認識手段、第１認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも１本の基準線を設定する設定手段、第２の認識手法により文字を認識する第２認識手段であって、第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法であり、文字領域のうちの、設定手段により設定された基準線のうちの少なくとも１本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定する、第２認識手段、及び第２認識手段により認識された文字からなる語を認識結果として出力する出力手段、として機能させる。

上記の形態によれば、第１の認識手法により文字領域から認識された文字に対して基準線が設定される。そして、第２の認識手法における認識ウィンドウの縦方向の位置または高さが、設定された基準線に基づいて設定されることにより認識範囲が限定されるので、認識処理に係る負荷が軽減される。また、文字領域における文字が表されている蓋然性が高い限定された領域に対して文字認識処理を行うこととなるので、認識精度が維持される。

別の形態に係る文字認識装置では、設定手段は、少なくとも２本の基準線を設定し、第２認識手段は、文字領域のうちの、設定手段により設定された複数の基準線のうちの所定の２本の基準線により特定される走査領域の位置及び高さに、認識ウィンドウの縦方向における位置及び高さを設定することとしてもよい。

上記の形態によれば、第１の認識手法により文字領域から認識された文字に対して少なくとも２本の基準線が設定される。そして、第２の認識手法における認識ウィンドウの縦方向の位置及び高さが、設定された基準線により特定された走査領域の位置及び高さに設定されるので、認識処理に係る負荷が軽減される。

別の形態に係る文字認識装置では、設定手段は、文字ごとの各基準線の位置に関する情報を記憶している記憶手段を参照して、複数の文字に対して基準線を設定する。

上記形態によれば、基準線の位置に関する情報が予め記憶されているので、認識された文字に対して適切な基準線を設定できる。文字ごとの各基準線の位置に関する情報は、例えば、種々のフォントにおける文字ごとの基準線の位置に基づいて生成及び記憶されている。

さらに別の形態に係る文字認識装置では、第１認識手段は、認識結果の確からしさを示す第１信頼性スコアを、認識した文字ごとに算出し、設定手段は、第１信頼性スコアが所定値以上である文字に対して、基準線を設定することとしてもよい。

上記形態によれば、第１の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対して基準線が設定されるので、適切な位置に基準線を設定することが可能となる。

さらに別の形態に係る文字認識装置では、第２認識手段は、第１信頼性スコアが所定値未満である文字が表された領域に対して、文字の認識を実施し、出力手段は、第１認識手段及び第２認識手段により認識された文字からなる語を認識結果として出力することとしてもよい。

上記形態によれば、第１の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対しては第２の認識手法による再度の認識処理を実施しないので、処理量を抑制できる。

さらに別の形態に係る文字認識装置では、第２認識手段は、認識結果の確からしさを示す第２信頼性スコアを、認識した文字ごとに算出し、出力手段は、各文字の第２信頼性スコアに基づいて構成された文字列からなる語を認識結果として出力することとしてもよい。

上記形態によれば、認識結果における信頼性が高い文字からなる文字列が、認識結果として出力されるので、出力された語の精度向上が可能となる。

さらに別の形態に係る文字認識装置では、出力手段は、第２認識手段により認識された複数の文字により構成される語としての尤もらしさを示す評価スコアを算出し、算出された評価スコアに基づいて認識結果としての語を出力することとしてもよい。

上記形態によれば、複数の文字により構成される語としての尤もらしさに基づいて語が認識結果として出力されるので、語としての認識精度が向上する。

さらに別の形態に係る文字認識装置では、文字はアルファベットであり、設定手段は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを基準線として設定することとしてもよい。

上記形態によれば、認識対象であるアルファベットの文字列に対して、適切な基準線が設定される。

上記形態において、文字認識装置では、第２認識手段は、アセンダーラインとベースラインとの間、ミーンラインとベースラインとの間、及び、ミーンラインとディセンダーラインとの間を走査領域として特定することとしてもよい。

上記形態によれば、アルファベットの種々の文字が表される領域が走査領域として特定されるので、アルファベットの認識精度が向上する。

本発明の一側面によれば、画像からの文字認識において、認識の精度を維持しつつ、処理負荷を低減することが可能となる。

文字認識装置の機能構成を示すブロック図である。文字認識装置のハードウェア構成を示す図である。文字認識を行う画像及び文字領域の設定の例を示す図である。第１の認識手法による文字認識の例を示す図である。第１の認識手法において算出された第１信頼性スコアの例を示す図である。文字における基準線の通る位置を示す図である。認識された文字に対して設定された基準線の例を示す図である。走査領域の例を示す図である。第２の認識手法による文字認識の例を示す図である。認識された文字からなる語の例を示す図である。文字認識装置において実施される文字認識方法の処理内容を示すフローチャートである。文字認識プログラムの構成を示す図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。

図１は、本実施形態に係る文字認識装置１の機能的構成を示すブロック図である。文字認識装置１は、画像から文字を認識し、認識した文字からなる語を出力する装置である。画像は、例えば、カメラにより撮影された画像である。カメラ等により撮影された情景画像には、例えば道路の標識や看板などの種々の文字情報が含まれている。情景画像中の文字は、紙に印刷された文字と比較すると、独自のフォントやスタイルを有している、解像度が低い等の、認識を困難にするような多くの問題を有している。

本実施形態の文字認識装置１は、画像から文字を一次的に認識し、認識された文字に対して、配列される文字が沿うべき基準線を設定し、基準線により特定される領域を走査して文字を再度認識する。そして、文字認識装置１は、認識された文字からなる語を認識結果として出力する。

基準線は、配列される文字が沿うべき仮想的な線であって、文字がアルファベットである場合には、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの４本である。

図１に示すように、文字認識装置１は、機能的には、取得部１１（取得手段）、第１認識部１２（第１認識手段）、設定部１３（設定手段）、第２認識部１４（第２認識手段）及び出力部１５（出力手段）を備える。

また文字認識装置１は、認識処理用情報記憶部２１及び基準線位置記憶部２２といった記憶手段にアクセス可能である。認識処理用情報記憶部２１及び基準線位置記憶部２２は、文字認識装置１に備えられることとしてもよいし、文字認識装置１からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。

図２は、文字認識装置１のハードウェア構成図である。文字認識装置１は、物理的には、図２に示すように、ＣＰＵ１０１、ＲＡＭ及びＲＯＭといったメモリにより構成される主記憶装置１０２、ハードディスク等で構成される補助記憶装置１０３、通信制御装置１０４などを含むコンピュータシステムとして構成されている。文字認識装置１は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置１０５及びディスプレイ等の出力装置１０６をさらに含むこととしてもよい。

図１に示した各機能は、図２に示すＣＰＵ１０１、主記憶装置１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信制御装置１０４等を動作させるとともに、主記憶装置１０２や補助記憶装置１０３におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置１０２や補助記憶装置１０３内に格納される。

続いて、文字認識装置１の各機能部を説明する。取得部１１は、画像に含まれる文字領域の画像を取得する部分である。取得部１１は、例えば、カメラにより撮影された画像の中の、文字を含む文字領域を取得する。図３に示すように、取得部１１は、文字領域ＣＲ１〜ＣＲ３を含む矩形領域ＷＲを取得する。取得部１１は、矩形領域ＷＲが予め与えられた画像を取得することとしてもよい。例えば、取得された画像に対して二値化処理を行い、同じ値を有する画素が連続している連結領域が、文字領域ＣＲ１〜ＣＲ３として検出される。矩形領域ＷＲは、互いの距離が所定距離以内である複数の連結領域を含む領域として設定される。

第１認識部１２は、画像に含まれる文字領域から、第１の認識手法により文字を認識する部分である。第１認識部１２は、例えば、図３に示すように、画像の矩形領域ＷＲから文字領域ＣＲ１〜ＣＲ３を検出する。各文字領域ＣＲ１〜ＣＲ３はそれぞれ、連結領域からなる。なお、文字領域は、第１認識部１２が連結領域の検出により抽出することとしてもよい。

例えば、第１認識部１２は、文字領域に対して、いわゆる文字分類器を用いて文字認識を実施する。文字分類器を用いた手法は、例えば、ＨＯＧ（ＨｉｓｔｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ）−ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）という既知の手法である。ＨＯＧ−ＳＶＭは、特徴量としてＨＯＧ特徴量を用い、分類器として周知のＳＶＭを用いる手法である。

文字分類器による文字認識のために参照する情報は予め記憶手段に記憶されている。認識処理用情報記憶部２１は、例えば、ＨＯＧ−ＳＶＭによる文字分類器を用いた文字認識のために参照する種々の情報を記憶している記憶手段である。認識処理用情報記憶部２１は、例えば、アルファベットの大文字Ａ〜Ｚ、小文字ａ〜ｚ、数字０〜９について学習したデータを記憶している。

ＨＯＧ特徴量は、画像中の局所領域（セル）の輝度の勾配方向をヒストグラム化した特徴量である。所定数の画素からなるセルを認識対象の画像に敷き詰めるように設定し、セルごとに多次元のＨＯＧ特徴量の特徴ベクトルが取得され、さらに画像全体から、全てのセルを連結した多次元の特徴ベクトルが取得される。なお、ＨＯＧ−ＳＶＭによる文字分類では、アスペクト比を更に用いることが好ましい。

第１認識部１２は、文字領域から、ＨＯＧ特徴量ベクトル及びアスペクト比のベクトルを取得する。そして、第１認識部１２は、取得したベクトルに基づいて、認識処理用情報記憶部２１に記憶された学習データを参照して、ＳＶＭ分類器による分類を行う。その結果として、第１認識部１２は、分類結果としての文字（アルファベット、数字）及び分類器から出力される信頼性スコアを取得できる。

なお、本実施形態では、第１認識部１２は、ＨＯＧ−ＳＶＭに例示される文字分類器により、文字認識を実施することとしているが、第１の認識手法は、文字分類器を用いた手法に限定されない。第１認識部１２による文字認識は、本実施形態における最終的な文字認識に先立って一次的に文字認識をするものであるので、画像中からの文字認識が可能な手法であれば、種々の既知の手法を適用できる。第１の認識手法は、後に説明する第２の認識手法に比べて処理負荷が軽く、処理時間が短ければいずれの手法であっても良い。なお、後述するように、第１の認識手法は、文字ごとの認識結果の信頼性に関する情報を取得できる手法であることが好ましい。

図４は、第１認識部１２による文字認識の結果の例を示す図である。この例では、第１認識部１２は、文字領域ＣＲ１〜ＣＲ３から文字Ｃ４１〜Ｃ４３を認識する。具体的には、第１認識部１２は、文字領域ＣＲ１〜ＣＲ３のそれぞれから、大文字の「Ｓ」、小文字の「ｘ」、小文字の「ｔ」を認識する。このように、第１認識部１２による認識結果には、誤検出が含まれる場合がある。

例えば、文字領域ＣＲ２では、文字「ｐ」が表された領域と文字「ｏ」が表された領域とが繋がっており１文字として認識されたことに起因して、「ｘ」として認識されるような誤認識が発生する。また、認識対象の画像を二値化することにより分類された２領域のうちのいずれの領域により文字が構成されるかが不明であることに起因して、誤認識が発生する場合がある。第１認識部１２による認識処理では、その他、種々の理由により誤認識が発生しうる。

第１認識部１２は、認識結果の確からしさを示す第１信頼性スコアを、認識した文字ごとに算出する。第１認識部１２は、第１の認識手法として採用した手法に伴い、既知の手法により信頼性スコアを算出できる。本実施形態におけるＨＯＧ−ＳＶＭにおいても、文字認識に伴い信頼性スコアが算出される。即ち、第１の認識手法としてＨＯＧ−ＳＶＭによる手法が採用される場合には、第１認識部１２は、ＨＯＧ−ＳＶＭによる分類の結果として、認識結果とともに各文字に対する第１信頼性スコアを算出できる。

図５は、算出された信頼性スコアの例を示す図である。図５に示すように、第１認識部１２は、文字領域ＣＲ１における文字Ｃ４１の認識結果「Ｓ」に対して、信頼性スコア「８５」を算出する。同様に、第１認識部１２は、文字領域ＣＲ２における文字Ｃ４２の認識結果「ｘ」に対して、信頼性スコア「３０」を算出し、文字領域ＣＲ３における文字Ｃ４３の認識結果「ｔ」に対して、信頼性スコア「７５」を算出する。

設定部１３は、第１認識部１２により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも１本の基準線を設定する部分である。具体的には、設定部１３は、基準線位置記憶部２２を参照して、第１認識部１２により認識された文字に対して基準線を設定する。

基準線位置記憶部２２は、文字ごとの各基準線の位置に関する情報を記憶している記憶手段である。具体的には、基準線位置記憶部２２は、各文字における基準線が通る縦方向の位置に関する線位置情報を、文字ごとに予め記憶している。

本実施形態では、基準線位置記憶部２２は、少なくとも、アルファベットの文字が配列されるべきアセンダーライン、ミーンライン、ベースライン及びディセンダーラインの４本の基準線が通る線位置情報を、文字ごとに記憶している。

線位置情報は、例えば、多くの学習データに基づき生成されることとしてもよい。学習データは、種々のフォントで表された語の画像、及び、その語に設定された正解とされる基準線の位置を含む。文字認識装置１は、そのような学習データに基づいて、文字ごとの基準線の位置を複数取得し、取得した位置を統計的に処理して線位置情報を生成し、予め記憶しておくこととしてもよい。なお、線位置情報は、点として表されることとしてもよいし、ガウス分布により表されることとしてもよい。

図６は、基準線位置記憶部２２に記憶されている線位置情報に基づいて設定された、文字の線位置の例を示す図である。図６に示されるように、設定部１３は、大文字の「Ｓ」である文字Ｃ６１に対して、線位置ＬＰ１１〜ＬＰ１４を設定する。線位置ＬＰ１１〜ＬＰ１４はそれぞれ、大文字の「Ｓ」におけるアセンダーライン、ミーンライン、ベースライン及びディセンダーラインが通る位置を示す。また、設定部１３は、小文字の「ｔ」である文字Ｃ６３に対して、線位置ＬＰ３１〜ＬＰ３４を設定する。線位置ＬＰ３１〜ＬＰ３４はそれぞれ、小文字の「ｔ」におけるアセンダーライン、ミーンライン、ベースライン及びディセンダーラインが通る位置を示す。

設定部１３は、線位置情報に基づいて、矩形領域ＷＲに含まれる文字に対して基準線を設定する。本実施形態では、設定部１３は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインからなる４本の基準線を設定する。なお、本実施形態では、設定部１３は、４本の基準線を設定することとしているが、例えば、１〜３本の基準線を設定してもよいし、５本以上の基準線を設定してもよい。例えば、設定部１３は、文字の下端が沿う基準線を１本設定することとしてもよい。また、文字がひらがな及びカタカナ若しくは漢字等の日本語である場合には、文字の上端及び下端のそれぞれが沿う２本の基準線が設定されることとしてもよい。

図７は、矩形領域ＷＲに含まれる文字に対して、４本の基準線が設定された例を示す図である。図７に示すように、設定部１３は、第１認識部１２により認識された文字の線位置情報に基づいて、矩形領域ＷＲに含まれる文字に対して、基準線Ｌ１〜Ｌ４（アセンダーライン、ミーンライン、ベースライン及びディセンダーライン）を設定する。

具体的には、設定部１３は、例えば、矩形領域ＷＲにおいて認識された各文字の、各基準線の線位置情報を取得し、基準線ごとの複数の線位置情報に示される線位置の平均の位置に基準線を設定することとしてもよい。また、各文字の線位置情報がガウス分布で表されている場合には、設定部１３は、各文字の線位置の分布を基準線ごとに積算し、積算値の平均が示す位置に基準線を設定することとしてもよい。

また、設定部１３は、第１認識部１２により算出された第１信頼性スコアが所定値以上である文字に対して基準線を設定することとしてもよい。例えば、第１信頼性スコアに関する所定値を「７０」とすると、設定部１３は、第１認識部１２により認識された文字のうち、信頼性スコアが「８５」である「Ｓ」（文字領域ＣＲ１）、及び信頼性スコアが「７５」である「ｔ」（文字領域ＣＲ３）を用いて基準線の設定を実施し、文字領域ＣＲ２を基準線の設定に用いない。このように、第１の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対して基準線が設定されることにより、適切な位置に基準線を設定できる可能性が高くなる。

なお、本実施形態では、各基準線が直線である場合の例を示しているが、各基準線が、例えば、２次曲線、ベジェ曲線、スプライン曲線等であってもよい。また、本実施形態では、同じ傾きを有する４本の基準線が設定されることとしているが、各基準線の傾きがそれぞれ異なっていても良い。例えば、４本の基準線が１点で収束するような傾きをそれぞれの基準線が有していることとしてもよい。

第２認識部１４は、第２の認識手法により文字を認識する部分である。第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法である。第２認識部１４は、文字領域のうちの、設定手段により設定された基準線のうちの少なくとも１本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定して、第２の認識手法により文字を認識する。

本実施形態では、第２認識部１４は、設定部１３により設定された４本の基準線Ｌ１〜Ｌ４のうちの２本の基準線により走査領域を特定し、認識ウィンドウの縦方向における位置及び高さを、特定した走査領域の位置及び高さに設定して、文字認識を実施する。

図８は、走査領域の特定の例を示す図である。具体的には、図８に示すように、第２認識部１４は、文字領域を含む矩形領域ＷＲのうちの、アセンダーラインを構成する基準線Ｌ１とベースラインを構成する基準線Ｌ３との間を走査領域ＳＲ１として特定する。また、第２認識部１４は、ミーンラインを構成する基準線Ｌ２とベースラインを構成する基準線Ｌ３との間を走査領域ＳＲ２として特定し、ミーンラインを構成する基準線Ｌ２とディセンダーラインを構成する基準線Ｌ４との間を走査領域ＳＲ３として特定する。全てのアルファベットは、走査領域ＳＲ１〜ＳＲ３のいずれかの領域に必ず含まれることとなる。

即ち、走査領域ＳＲ１には、例えば、アルファベットの大文字、アルファベットの小文字の一部（ｂ、ｄ、ｆ、ｈ、ｉ、ｋ、ｌ、ｔ）、及び数字が含まれるはずであり、走査領域ＳＲ１に限定した文字認識処理により、それらの文字が高精度且つ効率的に認識できる。

また、走査領域ＳＲ２には、例えば、アルファベットの小文字の多くが含まれるはずであり、走査領域ＳＲ２に限定した文字認識処理により、それらの文字が高精度且つ効率的に認識できる。

また、走査領域ＳＲ３には、例えば、アルファベットの小文字の一部（ｇ、ｊ、ｐ、ｑ）が含まれるはずであり、走査領域ＳＲ３に限定した文字認識処理により、それらの文字が高精度且つ効率的に認識できる。

第２認識部１４により実施される第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法である。このような手法により、文字領域の全ての領域に対して認識処理を実施した場合、ある大きさに設定した認識ウィンドウにより文字領域の全面を走査する必要があり、且つ、認識ウィンドウの大きさ徐々に変更しながら、それぞれの大きさの認識ウィンドウによる文字領域の全面に亘る走査を繰り返す必要があるので、認識処理のための処理負荷が大きくなってしまう。本実施形態では、認識ウィンドウの縦方向の位置及び高さを、基準線により特定される走査領域の位置及び高さに設定して認識処理を実施するので、文字認識の精度を維持しつつ、処理負荷の軽減を図ることができる。

第２認識部１４は、図８に示すように、走査領域ＳＲ１の位置及び高さに、認識ウィンドウＲＷ１の縦方向の位置及び高さを設定する。そして、第２認識部１４は、認識ウィンドウＲＷ１の横方向の位置及び幅を徐々に変更しながら、認識ウィンドウＲＷ１内の画像から文字を認識する。

また、第２認識部１４は、走査領域ＳＲ２の位置及び高さに、認識ウィンドウＲＷ２の縦方向の位置及び高さを設定する。そして、第２認識部１４は、認識ウィンドウＲＷ２の横方向の位置及び幅を徐々に変更しながら、認識ウィンドウＲＷ２内の画像から文字を認識する。

また、第２認識部１４は、走査領域ＳＲ３の位置及び高さに、認識ウィンドウＲＷ３の縦方向の位置及び高さを設定する。そして、第２認識部１４は、認識ウィンドウＲＷ３の横方向の位置及び幅を徐々に変更しながら、認識ウィンドウＲＷ３内の画像から文字を認識する。

第２の認識手法は、例えば、ＳｌｉｄｉｎｇＷｉｎｄｏｗという技術である。この技術は、文字認識のためのあるサイズのウィンドウを設定し、設定したウィンドウ内において文字認識処理を行うものであって、検出対象の画像の全面に亘るウィンドウの走査を、ウィンドウの大きさを徐々に変更しながら繰り返し行う技術である。設定したウィンドウ内の画像に対して、いわゆる文字分類器による文字認識が実施される。この文字認識は、例えば、ＨＯＧ−ＳＶＭであってもよい。ＳｌｉｄｉｎｇＷｉｎｄｏｗでは、所与の範囲の全面において文字認識のためのウィンドウを走査させて文字認識処理を行うため、ウィンドウの縦方向の位置及び高さが基準線により限定された走査領域により限定されることにより、認識精度の向上及び処理負荷の軽減を図ることができる。なお、設定部１３により１本の基準線が設定される場合には、設定された基準線と、取得された画像の上端または下端との間の領域を走査領域として特定することとしてもよい。この場合には、認識ウィンドウの縦方向の位置及び高さのうちの一方が、基準線の位置により特定されることとなる。

本実施形態の文字分類器では、ＨＯＧ特徴量に基づいて、設定されたウィンドウ（候補領域）に対して、各文字のスコアを求める。即ち、候補領域を文字種の数に相当する６２クラス（全てのアルファベットの大文字及び小文字並びに０〜９の数字）に分類することにより文字認識が行われる。また、ＨＯＧ特徴に加えて、候補領域のアスペクト比を特徴量として更に用いることとしてもよい。

図９は、第２認識部１４による認識結果の例を示す図である。図９に示すように、第２認識部１４は、大文字の「Ｓ」として認識した文字ＣＲ９１、小文字の「ｘ」として認識した文字ＣＲ９２（小文字の「ｐｏ」が誤認識されたもの）、小文字の「ｔ」として認識した文字ＣＲ９３、小文字の「ｐ」として認識した文字ＣＲ９４、及び、小文字の「ｏ」として認識した文字ＣＲ９５を、第２の認識手法により認識する。

第２認識部１４は、認識結果の確からしさを示す第２信頼性スコアを、認識した文字ごとに算出することとしてもよい。第２信頼性スコアは、出力部１５における語の出力処理に用いられる。

なお、第２認識部１４は、第１認識部１２による認識処理において第１信頼性スコアが所定値未満であった文字が表された領域に対してのみ、認識処理を実施することとしてもよい。これにより、第１の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対しては第２の認識手法による再度の認識処理を実施しないので、処理量を抑制することが可能となる。

なお、本実施形態では、設定部１３により設定された複数の基準線のうちの２本の基準線により走査領域を特定し、認識ウィンドウの縦方向における位置及び高さを、特定した走査領域の位置及び高さに設定することしているが、この態様に限定されない。
例えば、認識ウィンドウの上端または下端を、走査領域の上端または下端（基準線の位置）に完全に一致させて設定するのではなく、基準線の位置の近傍に設定することとしてもよい。

出力部１５は、第２認識部１４により認識された文字からなる語を認識結果として出力する部分である。具体的には、出力部１５は、第２認識部１４により認識された各文字の第２信頼性スコアに基づいて構成された文字列からなる語を認識結果として出力する。

図１０は、出力部１５による語の出力の例を示す図である。出力部１５は、第２信頼性スコアが所定値以上の文字により構成される文字列を、認識結果の語として出力してもよい。具体的には、図９を参照して説明したように、第２認識部１４により、文字Ｃ１「Ｓ」、文字Ｃ２「ｘ」、文字Ｃ３「ｔ」、文字Ｃ４「ｐ」及び文字Ｃ５「ｏ」が認識された場合において、文字Ｃ１，Ｃ４，Ｃ５，Ｃ３の第２信頼性スコアが所定値以上であり、文字Ｃ２の第２信頼性スコアが所定値未満であった場合に、出力部１５は、文字Ｃ１，Ｃ４，Ｃ５，Ｃ３からなる文字列「Ｓｐｏｔ」を認識結果の語として出力する。このように、認識結果における信頼性が高い文字からなる文字列が認識結果の語として出力されるので、出力された語の精度が向上する。

また、出力部１５は、第２認識部１４により認識された複数の文字により構成される語としての尤もらしさを示す評価スコアを算出し、算出された評価スコアに基づいて認識結果としての語を出力してもよい。

この評価スコアは、いわゆるｎ−ｇｒａｍといわれる既知の技術により算出してもよい。本実施形態にｎ−ｇｒａｍの技術を適用する場合には、例えば、アルファベットからなる英単語の辞書データを学習データとして、隣り合ったｎ個の文字列の組み合わせにおける共起頻度を組み合わせごとに集計したモデルを準備しておき、第２認識部１４により認識された文字からなる語にそのモデルを適用することにより、語としての尤もらしさを示す評価スコアが算出される。即ち、この評価スコアは、共起頻度がより高い文字配列により構成される語ほど高くなる。

出力部１５は、文字Ｃ１，Ｃ２，Ｃ３からなる語「Ｓｘｔ」及び文字Ｃ１，Ｃ４，Ｃ５，Ｃ３からなる語「Ｓｐｏｔ」のそれぞれに対して、ｎ−ｇｒａｍのモデルに基づく評価スコアを算出することができ、語「Ｓｘｔ」よりも語「Ｓｐｏｔ」の方が、より高い評価スコアが算出された場合に、出力部１５は、文字Ｃ１，Ｃ４，Ｃ５，Ｃ３からなる文字列「Ｓｐｏｔ」を認識結果の語として出力することとしてもよい。また、出力部１５は、文字ごとの第２信頼性スコア及び語としての尤もらしさを示す評価スコアの両方に基づいて、認識結果として出力する語を判定してもよい。

なお、第２認識部１４が、第１信頼性スコアが所定値未満であった文字が表された領域に対してのみ、認識処理を実施する場合には、出力部１５は、第１認識部１２及び第２認識部１４により認識された文字からなる語を認識結果として出力する。このように、複数の文字により構成される語としての尤もらしさに基づいて認識結果の語が出力されるので、語としての認識精度が向上する。

次に、図１１を参照して、本実施形態の文字認識装置１の動作について説明する。図１０は、文字認識装置１において実施される文字認識方法の処理内容を示すフローチャートである。

まず、取得部１１は、文字領域を含む画像を取得する（Ｓ１）。次に、第１認識部１２は、画像に含まれる文字領域から、第１の認識手法により文字を認識する（Ｓ２）。

続いて、設定部１３は、ステップＳ２において第１認識部１２により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも２本の基準線を設定する（Ｓ３）。例えば、設定部１３は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインからなる４本の基準線を設定する。

次に、第２認識部１４は、文字領域のうちの、複数の基準線のうちの所定の２本の基準線により特定される走査領域において、第２の認識手法により文字を認識する（Ｓ４）。そして、出力部１５は、第２認識部１４により認識された文字からなる語を認識結果として出力する（Ｓ５）。

次に、図１２を参照して、コンピュータを文字認識装置１として機能させるための文字認識プログラムを説明する。文字認識プログラムｐ１は、メインモジュールｍ１０、取得モジュールｍ１１、第１認識モジュールｍ１２、設定モジュールｍ１３、第２認識モジュールｍ１４及び出力モジュールｍ１５を備える。

メインモジュールｍ１０は、文字認識処理を統括的に制御する部分である。取得モジュールｍ１１、第１認識モジュールｍ１２、設定モジュールｍ１３、第２認識モジュールｍ１４及び出力モジュールｍ１５を実行することにより実現される機能はそれぞれ、図１に示される文字認識装置１の取得部１１、第１認識部１２、設定部１３、第２認識部１４及び出力部１５の機能と同様である。

文字認識プログラムｐ１は、例えば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭまたは半導体メモリ等の記憶媒体ｄ１によって提供される。また、文字認識プログラムｐ１は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。

以上説明した本実施形態の文字認識装置１、文字認識方法及び文字認識プログラムｐ１によれば、第１の認識手法により文字領域から認識された文字に対して基準線が設定される。そして、第２の認識手法により文字認識を行う範囲が、設定された基準線により特定された走査領域に限定されるので、認識処理に係る負荷が軽減される。また、文字領域における文字が表されている蓋然性が高い限定された領域に対して文字認識処理を行うので、認識精度の維持が可能となる。

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

１…文字認識装置、１１…取得部、１２…第１認識部、１３…設定部、１４…第２認識部、１５…出力部、２１…認識処理用情報記憶部、２２…基準線位置記憶部、ｄ１…記憶媒体、ｍ１０…メインモジュール、ｍ１１…取得モジュール、ｍ１２…第１認識モジュール、ｍ１３…設定モジュール、ｍ１４…第２認識モジュール、ｍ１５…出力モジュール、ｐ１…文字認識プログラム。

Claims

文字領域を含む画像を取得する取得手段と、
前記画像の前記文字領域から、第１の認識手法により、文字を認識する第１認識手段と、
前記第１認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、前記複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも２本の基準線を設定する設定手段と、
第２の認識手法により文字を認識する第２認識手段であって、前記第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、前記認識ウィンドウ内の画像から文字を認識する手法であり、前記文字領域のうちの、前記設定手段により設定された複数の前記基準線のうちの所定の２本の基準線により限定される走査領域に基づいて、前記認識ウィンドウの位置及び前記基準線に交わる方向の幅を設定する、第２認識手段と、
前記第２認識手段により認識された文字からなる語を認識結果として出力する出力手段と、
を備える文字認識装置。
前記第２認識手段は、前記走査領域の位置及び高さに基づいて、前記認識ウィンドウの縦方向における位置及び高さを設定する、請求項１に記載の文字認識装置。
前記設定手段は、文字ごとの各基準線の位置に関する情報を記憶している記憶手段を参照して、前記複数の文字に対して前記基準線を設定する、
請求項１または２に記載の文字認識装置。
前記第１認識手段は、認識結果の確からしさを示す第１信頼性スコアを、認識した文字ごとに算出し、
前記設定手段は、前記第１信頼性スコアが所定値以上である文字に対して、前記基準線を設定する、
請求項１〜３のいずれか一項に記載の文字認識装置。
前記第２認識手段は、前記第１信頼性スコアが所定値未満である文字が表された領域に対して、文字の認識を実施し、
前記出力手段は、前記第１認識手段及び前記第２認識手段により認識された文字からなる語を認識結果として出力すると、
請求項４に記載の文字認識装置。
前記第２認識手段は、認識結果の確からしさを示す第２信頼性スコアを、認識した文字ごとに算出し、
前記出力手段は、各文字の前記第２信頼性スコアに基づいて構成された文字列からなる語を認識結果として出力する、
請求項１〜５のいずれか一項に記載の文字認識装置。
前記出力手段は、第２認識手段により認識された複数の文字により構成される語としての尤もらしさを示す評価スコアを算出し、算出された評価スコアに基づいて認識結果としての語を出力する、
請求項１〜６のいずれか一項に記載の文字認識装置。
前記文字はアルファベットであり、
前記設定手段は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを前記基準線として設定する、
請求項１〜７のいずれか一項に記載の文字認識装置。
前記第２認識手段は、前記アセンダーラインと前記ベースラインとの間、前記ミーンラインと前記ベースラインとの間、及び、前記ミーンラインと前記ディセンダーラインとの間を走査領域として特定する、
請求項８に記載の文字認識装置。
文字認識装置における文字認識方法であって、
文字領域を含む画像を取得する取得ステップと、
前記画像の前記文字領域から、第１の認識手法により、文字を認識する第１認識ステップと、
前記第１認識ステップにおいて認識された複数の文字のうちの少なくとも一部の文字に対して、前記複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも２本の基準線を設定する設定ステップと、
第２の認識手法により文字を認識する第２認識ステップであって、前記第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、前記認識ウィンドウ内の画像から文字を認識する手法であり、前記文字領域のうちの、前記設定ステップにおいて設定された複数の前記基準線のうちの所定の２本の基準線により限定される走査領域に基づいて、前記認識ウィンドウの位置及び前記基準線に交わる方向の幅を設定する、第２認識ステップと、
前記第２認識ステップにおいて認識された文字からなる語を認識結果として出力する出力ステップと、
を有する文字認識方法。
文字認識装置としてコンピュータを機能させる文字認識プログラムであって、
前記コンピュータを、
文字領域を含む画像を取得する取得手段、
前記画像の前記文字領域から、第１の認識手法により、文字を認識する第１認識手段、
前記第１認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、前記複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも２本の基準線を設定する設定手段、
第２の認識手法により文字を認識する第２認識手段であって、前記第２の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、前記認識ウィンドウ内の画像から文字を認識する手法であり、前記文字領域のうちの、前記設定手段により設定された複数の前記基準線のうちの所定の２本の基準線により限定される走査領域に基づいて、前記認識ウィンドウの位置及び前記基準線に交わる方向の幅を設定する、第２認識手段、及び、
前記第２認識手段により認識された文字からなる語を認識結果として出力する出力手段、
として機能させる文字認識プログラム。