JP6310155B2 - 文字認識装置、文字認識方法及び文字認識プログラム - Google Patents

文字認識装置、文字認識方法及び文字認識プログラム Download PDF

Info

Publication number
JP6310155B2
JP6310155B2 JP2017529190A JP2017529190A JP6310155B2 JP 6310155 B2 JP6310155 B2 JP 6310155B2 JP 2017529190 A JP2017529190 A JP 2017529190A JP 2017529190 A JP2017529190 A JP 2017529190A JP 6310155 B2 JP6310155 B2 JP 6310155B2
Authority
JP
Japan
Prior art keywords
recognition
character
recognizing
characters
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017529190A
Other languages
English (en)
Other versions
JPWO2017013719A1 (ja
Inventor
遼太 日並
遼太 日並
千葉 直樹
直樹 千葉
新豪 劉
新豪 劉
佐藤 真一
真一 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of JPWO2017013719A1 publication Critical patent/JPWO2017013719A1/ja
Application granted granted Critical
Publication of JP6310155B2 publication Critical patent/JP6310155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、文字認識装置、文字認識方法及び文字認識プログラムに関する。
カメラ等により撮像された画像から、文字認識をすることの需要が高まっている。画像に含まれる文字を認識するための手法としては、例えば、Sliding Windowという認識精度が高い技術が知られている(例えば、非特許文献1参照)。この技術は、文字認識のためのあるサイズのウィンドウを設定し、設定したウィンドウ内において文字認識処理を行うものであって、検出対象の画像の全面に亘るウィンドウの走査を、ウィンドウの大きさを徐々に変更しながら繰り返し行う技術である。
End-to-End Text Recognition with Convolutional Neural Networks、[online]、[2015年7月10日検索]、インターネット<http://ai.stanford.edu/~ang/papers/ICPR12-TextRecognitionConvNeuralNets.pdf>
上記した従来の技術では、文字認識のためのウィンドウの大きさを変更しながら、抽出対象の領域の全面に亘る走査により文字認識を行うため、処理負荷が大きい。
そこで本発明は、画像からの文字認識において、認識の精度を維持しつつ、処理負荷を低減することを目的とする。
上記課題を解決するために、本発明の一形態に係る文字認識装置は、文字領域を含む画像を取得する取得手段と、画像の文字領域から、第1の認識手法により、文字を認識する第1認識手段と、第1認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも1本の基準線を設定する設定手段と、第2の認識手法により文字を認識する第2認識手段であって、第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法であり、文字領域のうちの、設定手段により設定された基準線のうちの少なくとも1本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定する、第2認識手段と、第2認識手段により認識された文字からなる語を認識結果として出力する出力手段と、を備える。
本発明の一形態に係る文字認識方法は、文字認識装置における文字認識方法であって、文字領域を含む画像を取得する取得ステップと、画像の文字領域から、第1の認識手法により、文字を認識する第1認識ステップと、第1認識ステップにおいて認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも1本の基準線を設定する設定ステップと、第2の認識手法により文字を認識する第2認識ステップであって、第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法であり、文字領域のうちの、設定ステップにおいて設定された基準線のうちの少なくとも1本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定する、第2認識ステップと、第2認識ステップにおいて認識された文字からなる語を認識結果として出力する出力ステップと、を有する。
本発明の一形態に係る文字認識プログラムは、文字認識装置としてコンピュータを機能させる文字認識プログラムであって、コンピュータを、文字領域を含む画像を取得する取得手段、画像の文字領域から、第1の認識手法により、文字を認識する第1認識手段、第1認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも1本の基準線を設定する設定手段、第2の認識手法により文字を認識する第2認識手段であって、第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法であり、文字領域のうちの、設定手段により設定された基準線のうちの少なくとも1本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定する、第2認識手段、及び第2認識手段により認識された文字からなる語を認識結果として出力する出力手段、として機能させる。
上記の形態によれば、第1の認識手法により文字領域から認識された文字に対して基準線が設定される。そして、第2の認識手法における認識ウィンドウの縦方向の位置または高さが、設定された基準線に基づいて設定されることにより認識範囲が限定されるので、認識処理に係る負荷が軽減される。また、文字領域における文字が表されている蓋然性が高い限定された領域に対して文字認識処理を行うこととなるので、認識精度が維持される。
別の形態に係る文字認識装置では、設定手段は、少なくとも2本の基準線を設定し、第2認識手段は、文字領域のうちの、設定手段により設定された複数の基準線のうちの所定の2本の基準線により特定される走査領域の位置及び高さに、認識ウィンドウの縦方向における位置及び高さを設定することとしてもよい。
上記の形態によれば、第1の認識手法により文字領域から認識された文字に対して少なくとも2本の基準線が設定される。そして、第2の認識手法における認識ウィンドウの縦方向の位置及び高さが、設定された基準線により特定された走査領域の位置及び高さに設定されるので、認識処理に係る負荷が軽減される。
別の形態に係る文字認識装置では、設定手段は、文字ごとの各基準線の位置に関する情報を記憶している記憶手段を参照して、複数の文字に対して基準線を設定する。
上記形態によれば、基準線の位置に関する情報が予め記憶されているので、認識された文字に対して適切な基準線を設定できる。文字ごとの各基準線の位置に関する情報は、例えば、種々のフォントにおける文字ごとの基準線の位置に基づいて生成及び記憶されている。
さらに別の形態に係る文字認識装置では、第1認識手段は、認識結果の確からしさを示す第1信頼性スコアを、認識した文字ごとに算出し、設定手段は、第1信頼性スコアが所定値以上である文字に対して、基準線を設定することとしてもよい。
上記形態によれば、第1の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対して基準線が設定されるので、適切な位置に基準線を設定することが可能となる。
さらに別の形態に係る文字認識装置では、第2認識手段は、第1信頼性スコアが所定値未満である文字が表された領域に対して、文字の認識を実施し、出力手段は、第1認識手段及び第2認識手段により認識された文字からなる語を認識結果として出力することとしてもよい。
上記形態によれば、第1の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対しては第2の認識手法による再度の認識処理を実施しないので、処理量を抑制できる。
さらに別の形態に係る文字認識装置では、第2認識手段は、認識結果の確からしさを示す第2信頼性スコアを、認識した文字ごとに算出し、出力手段は、各文字の第2信頼性スコアに基づいて構成された文字列からなる語を認識結果として出力することとしてもよい。
上記形態によれば、認識結果における信頼性が高い文字からなる文字列が、認識結果として出力されるので、出力された語の精度向上が可能となる。
さらに別の形態に係る文字認識装置では、出力手段は、第2認識手段により認識された複数の文字により構成される語としての尤もらしさを示す評価スコアを算出し、算出された評価スコアに基づいて認識結果としての語を出力することとしてもよい。
上記形態によれば、複数の文字により構成される語としての尤もらしさに基づいて語が認識結果として出力されるので、語としての認識精度が向上する。
さらに別の形態に係る文字認識装置では、文字はアルファベットであり、設定手段は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを基準線として設定することとしてもよい。
上記形態によれば、認識対象であるアルファベットの文字列に対して、適切な基準線が設定される。
上記形態において、文字認識装置では、第2認識手段は、アセンダーラインとベースラインとの間、ミーンラインとベースラインとの間、及び、ミーンラインとディセンダーラインとの間を走査領域として特定することとしてもよい。
上記形態によれば、アルファベットの種々の文字が表される領域が走査領域として特定されるので、アルファベットの認識精度が向上する。
本発明の一側面によれば、画像からの文字認識において、認識の精度を維持しつつ、処理負荷を低減することが可能となる。
文字認識装置の機能構成を示すブロック図である。 文字認識装置のハードウェア構成を示す図である。 文字認識を行う画像及び文字領域の設定の例を示す図である。 第1の認識手法による文字認識の例を示す図である。 第1の認識手法において算出された第1信頼性スコアの例を示す図である。 文字における基準線の通る位置を示す図である。 認識された文字に対して設定された基準線の例を示す図である。 走査領域の例を示す図である。 第2の認識手法による文字認識の例を示す図である。 認識された文字からなる語の例を示す図である。 文字認識装置において実施される文字認識方法の処理内容を示すフローチャートである。 文字認識プログラムの構成を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
図1は、本実施形態に係る文字認識装置1の機能的構成を示すブロック図である。文字認識装置1は、画像から文字を認識し、認識した文字からなる語を出力する装置である。画像は、例えば、カメラにより撮影された画像である。カメラ等により撮影された情景画像には、例えば道路の標識や看板などの種々の文字情報が含まれている。情景画像中の文字は、紙に印刷された文字と比較すると、独自のフォントやスタイルを有している、解像度が低い等の、認識を困難にするような多くの問題を有している。
本実施形態の文字認識装置1は、画像から文字を一次的に認識し、認識された文字に対して、配列される文字が沿うべき基準線を設定し、基準線により特定される領域を走査して文字を再度認識する。そして、文字認識装置1は、認識された文字からなる語を認識結果として出力する。
基準線は、配列される文字が沿うべき仮想的な線であって、文字がアルファベットである場合には、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの4本である。
図1に示すように、文字認識装置1は、機能的には、取得部11(取得手段)、第1認識部12(第1認識手段)、設定部13(設定手段)、第2認識部14(第2認識手段)及び出力部15(出力手段)を備える。
また文字認識装置1は、認識処理用情報記憶部21及び基準線位置記憶部22といった記憶手段にアクセス可能である。認識処理用情報記憶部21及び基準線位置記憶部22は、文字認識装置1に備えられることとしてもよいし、文字認識装置1からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。
図2は、文字認識装置1のハードウェア構成図である。文字認識装置1は、物理的には、図2に示すように、CPU101、RAM及びROMといったメモリにより構成される主記憶装置102、ハードディスク等で構成される補助記憶装置103、通信制御装置104などを含むコンピュータシステムとして構成されている。文字認識装置1は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置105及びディスプレイ等の出力装置106をさらに含むこととしてもよい。
図1に示した各機能は、図2に示すCPU101、主記憶装置102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信制御装置104等を動作させるとともに、主記憶装置102や補助記憶装置103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置102や補助記憶装置103内に格納される。
続いて、文字認識装置1の各機能部を説明する。取得部11は、画像に含まれる文字領域の画像を取得する部分である。取得部11は、例えば、カメラにより撮影された画像の中の、文字を含む文字領域を取得する。図3に示すように、取得部11は、文字領域CR1〜CR3を含む矩形領域WRを取得する。取得部11は、矩形領域WRが予め与えられた画像を取得することとしてもよい。例えば、取得された画像に対して二値化処理を行い、同じ値を有する画素が連続している連結領域が、文字領域CR1〜CR3として検出される。矩形領域WRは、互いの距離が所定距離以内である複数の連結領域を含む領域として設定される。
第1認識部12は、画像に含まれる文字領域から、第1の認識手法により文字を認識する部分である。第1認識部12は、例えば、図3に示すように、画像の矩形領域WRから文字領域CR1〜CR3を検出する。各文字領域CR1〜CR3はそれぞれ、連結領域からなる。なお、文字領域は、第1認識部12が連結領域の検出により抽出することとしてもよい。
例えば、第1認識部12は、文字領域に対して、いわゆる文字分類器を用いて文字認識を実施する。文字分類器を用いた手法は、例えば、HOG(Histgram of Oriented Gradient)−SVM(Support Vector Machine)という既知の手法である。HOG−SVMは、特徴量としてHOG特徴量を用い、分類器として周知のSVMを用いる手法である。
文字分類器による文字認識のために参照する情報は予め記憶手段に記憶されている。認識処理用情報記憶部21は、例えば、HOG−SVMによる文字分類器を用いた文字認識のために参照する種々の情報を記憶している記憶手段である。認識処理用情報記憶部21は、例えば、アルファベットの大文字A〜Z、小文字a〜z、数字0〜9について学習したデータを記憶している。
HOG特徴量は、画像中の局所領域(セル)の輝度の勾配方向をヒストグラム化した特徴量である。所定数の画素からなるセルを認識対象の画像に敷き詰めるように設定し、セルごとに多次元のHOG特徴量の特徴ベクトルが取得され、さらに画像全体から、全てのセルを連結した多次元の特徴ベクトルが取得される。なお、HOG−SVMによる文字分類では、アスペクト比を更に用いることが好ましい。
第1認識部12は、文字領域から、HOG特徴量ベクトル及びアスペクト比のベクトルを取得する。そして、第1認識部12は、取得したベクトルに基づいて、認識処理用情報記憶部21に記憶された学習データを参照して、SVM分類器による分類を行う。その結果として、第1認識部12は、分類結果としての文字(アルファベット、数字)及び分類器から出力される信頼性スコアを取得できる。
なお、本実施形態では、第1認識部12は、HOG−SVMに例示される文字分類器により、文字認識を実施することとしているが、第1の認識手法は、文字分類器を用いた手法に限定されない。第1認識部12による文字認識は、本実施形態における最終的な文字認識に先立って一次的に文字認識をするものであるので、画像中からの文字認識が可能な手法であれば、種々の既知の手法を適用できる。第1の認識手法は、後に説明する第2の認識手法に比べて処理負荷が軽く、処理時間が短ければいずれの手法であっても良い。なお、後述するように、第1の認識手法は、文字ごとの認識結果の信頼性に関する情報を取得できる手法であることが好ましい。
図4は、第1認識部12による文字認識の結果の例を示す図である。この例では、第1認識部12は、文字領域CR1〜CR3から文字C41〜C43を認識する。具体的には、第1認識部12は、文字領域CR1〜CR3のそれぞれから、大文字の「S」、小文字の「x」、小文字の「t」を認識する。このように、第1認識部12による認識結果には、誤検出が含まれる場合がある。
例えば、文字領域CR2では、文字「p」が表された領域と文字「o」が表された領域とが繋がっており1文字として認識されたことに起因して、「x」として認識されるような誤認識が発生する。また、認識対象の画像を二値化することにより分類された2領域のうちのいずれの領域により文字が構成されるかが不明であることに起因して、誤認識が発生する場合がある。第1認識部12による認識処理では、その他、種々の理由により誤認識が発生しうる。
第1認識部12は、認識結果の確からしさを示す第1信頼性スコアを、認識した文字ごとに算出する。第1認識部12は、第1の認識手法として採用した手法に伴い、既知の手法により信頼性スコアを算出できる。本実施形態におけるHOG−SVMにおいても、文字認識に伴い信頼性スコアが算出される。即ち、第1の認識手法としてHOG−SVMによる手法が採用される場合には、第1認識部12は、HOG−SVMによる分類の結果として、認識結果とともに各文字に対する第1信頼性スコアを算出できる。
図5は、算出された信頼性スコアの例を示す図である。図5に示すように、第1認識部12は、文字領域CR1における文字C41の認識結果「S」に対して、信頼性スコア「85」を算出する。同様に、第1認識部12は、文字領域CR2における文字C42の認識結果「x」に対して、信頼性スコア「30」を算出し、文字領域CR3における文字C43の認識結果「t」に対して、信頼性スコア「75」を算出する。
設定部13は、第1認識部12により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも1本の基準線を設定する部分である。具体的には、設定部13は、基準線位置記憶部22を参照して、第1認識部12により認識された文字に対して基準線を設定する。
基準線位置記憶部22は、文字ごとの各基準線の位置に関する情報を記憶している記憶手段である。具体的には、基準線位置記憶部22は、各文字における基準線が通る縦方向の位置に関する線位置情報を、文字ごとに予め記憶している。
本実施形態では、基準線位置記憶部22は、少なくとも、アルファベットの文字が配列されるべきアセンダーライン、ミーンライン、ベースライン及びディセンダーラインの4本の基準線が通る線位置情報を、文字ごとに記憶している。
線位置情報は、例えば、多くの学習データに基づき生成されることとしてもよい。学習データは、種々のフォントで表された語の画像、及び、その語に設定された正解とされる基準線の位置を含む。文字認識装置1は、そのような学習データに基づいて、文字ごとの基準線の位置を複数取得し、取得した位置を統計的に処理して線位置情報を生成し、予め記憶しておくこととしてもよい。なお、線位置情報は、点として表されることとしてもよいし、ガウス分布により表されることとしてもよい。
図6は、基準線位置記憶部22に記憶されている線位置情報に基づいて設定された、文字の線位置の例を示す図である。図6に示されるように、設定部13は、大文字の「S」である文字C61に対して、線位置LP11〜LP14を設定する。線位置LP11〜LP14はそれぞれ、大文字の「S」におけるアセンダーライン、ミーンライン、ベースライン及びディセンダーラインが通る位置を示す。また、設定部13は、小文字の「t」である文字C63に対して、線位置LP31〜LP34を設定する。線位置LP31〜LP34はそれぞれ、小文字の「t」におけるアセンダーライン、ミーンライン、ベースライン及びディセンダーラインが通る位置を示す。
設定部13は、線位置情報に基づいて、矩形領域WRに含まれる文字に対して基準線を設定する。本実施形態では、設定部13は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインからなる4本の基準線を設定する。なお、本実施形態では、設定部13は、4本の基準線を設定することとしているが、例えば、1〜3本の基準線を設定してもよいし、5本以上の基準線を設定してもよい。例えば、設定部13は、文字の下端が沿う基準線を1本設定することとしてもよい。また、文字がひらがな及びカタカナ若しくは漢字等の日本語である場合には、文字の上端及び下端のそれぞれが沿う2本の基準線が設定されることとしてもよい。
図7は、矩形領域WRに含まれる文字に対して、4本の基準線が設定された例を示す図である。図7に示すように、設定部13は、第1認識部12により認識された文字の線位置情報に基づいて、矩形領域WRに含まれる文字に対して、基準線L1〜L4(アセンダーライン、ミーンライン、ベースライン及びディセンダーライン)を設定する。
具体的には、設定部13は、例えば、矩形領域WRにおいて認識された各文字の、各基準線の線位置情報を取得し、基準線ごとの複数の線位置情報に示される線位置の平均の位置に基準線を設定することとしてもよい。また、各文字の線位置情報がガウス分布で表されている場合には、設定部13は、各文字の線位置の分布を基準線ごとに積算し、積算値の平均が示す位置に基準線を設定することとしてもよい。
また、設定部13は、第1認識部12により算出された第1信頼性スコアが所定値以上である文字に対して基準線を設定することとしてもよい。例えば、第1信頼性スコアに関する所定値を「70」とすると、設定部13は、第1認識部12により認識された文字のうち、信頼性スコアが「85」である「S」(文字領域CR1)、及び信頼性スコアが「75」である「t」(文字領域CR3)を用いて基準線の設定を実施し、文字領域CR2を基準線の設定に用いない。このように、第1の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対して基準線が設定されることにより、適切な位置に基準線を設定できる可能性が高くなる。
なお、本実施形態では、各基準線が直線である場合の例を示しているが、各基準線が、例えば、2次曲線、ベジェ曲線、スプライン曲線等であってもよい。また、本実施形態では、同じ傾きを有する4本の基準線が設定されることとしているが、各基準線の傾きがそれぞれ異なっていても良い。例えば、4本の基準線が1点で収束するような傾きをそれぞれの基準線が有していることとしてもよい。
第2認識部14は、第2の認識手法により文字を認識する部分である。第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法である。第2認識部14は、文字領域のうちの、設定手段により設定された基準線のうちの少なくとも1本の基準線に基づき、認識ウィンドウの縦方向における位置または高さを設定して、第2の認識手法により文字を認識する。
本実施形態では、第2認識部14は、設定部13により設定された4本の基準線L1〜L4のうちの2本の基準線により走査領域を特定し、認識ウィンドウの縦方向における位置及び高さを、特定した走査領域の位置及び高さに設定して、文字認識を実施する。
図8は、走査領域の特定の例を示す図である。具体的には、図8に示すように、第2認識部14は、文字領域を含む矩形領域WRのうちの、アセンダーラインを構成する基準線L1とベースラインを構成する基準線L3との間を走査領域SR1として特定する。また、第2認識部14は、ミーンラインを構成する基準線L2とベースラインを構成する基準線L3との間を走査領域SR2として特定し、ミーンラインを構成する基準線L2とディセンダーラインを構成する基準線L4との間を走査領域SR3として特定する。全てのアルファベットは、走査領域SR1〜SR3のいずれかの領域に必ず含まれることとなる。
即ち、走査領域SR1には、例えば、アルファベットの大文字、アルファベットの小文字の一部(b、d、f、h、i、k、l、t)、及び数字が含まれるはずであり、走査領域SR1に限定した文字認識処理により、それらの文字が高精度且つ効率的に認識できる。
また、走査領域SR2には、例えば、アルファベットの小文字の多くが含まれるはずであり、走査領域SR2に限定した文字認識処理により、それらの文字が高精度且つ効率的に認識できる。
また、走査領域SR3には、例えば、アルファベットの小文字の一部(g、j、p、q)が含まれるはずであり、走査領域SR3に限定した文字認識処理により、それらの文字が高精度且つ効率的に認識できる。
第2認識部14により実施される第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、認識ウィンドウ内の画像から文字を認識する手法である。このような手法により、文字領域の全ての領域に対して認識処理を実施した場合、ある大きさに設定した認識ウィンドウにより文字領域の全面を走査する必要があり、且つ、認識ウィンドウの大きさ徐々に変更しながら、それぞれの大きさの認識ウィンドウによる文字領域の全面に亘る走査を繰り返す必要があるので、認識処理のための処理負荷が大きくなってしまう。本実施形態では、認識ウィンドウの縦方向の位置及び高さを、基準線により特定される走査領域の位置及び高さに設定して認識処理を実施するので、文字認識の精度を維持しつつ、処理負荷の軽減を図ることができる。
第2認識部14は、図8に示すように、走査領域SR1の位置及び高さに、認識ウィンドウRW1の縦方向の位置及び高さを設定する。そして、第2認識部14は、認識ウィンドウRW1の横方向の位置及び幅を徐々に変更しながら、認識ウィンドウRW1内の画像から文字を認識する。
また、第2認識部14は、走査領域SR2の位置及び高さに、認識ウィンドウRW2の縦方向の位置及び高さを設定する。そして、第2認識部14は、認識ウィンドウRW2の横方向の位置及び幅を徐々に変更しながら、認識ウィンドウRW2内の画像から文字を認識する。
また、第2認識部14は、走査領域SR3の位置及び高さに、認識ウィンドウRW3の縦方向の位置及び高さを設定する。そして、第2認識部14は、認識ウィンドウRW3の横方向の位置及び幅を徐々に変更しながら、認識ウィンドウRW3内の画像から文字を認識する。
第2の認識手法は、例えば、Sliding Windowという技術である。この技術は、文字認識のためのあるサイズのウィンドウを設定し、設定したウィンドウ内において文字認識処理を行うものであって、検出対象の画像の全面に亘るウィンドウの走査を、ウィンドウの大きさを徐々に変更しながら繰り返し行う技術である。設定したウィンドウ内の画像に対して、いわゆる文字分類器による文字認識が実施される。この文字認識は、例えば、HOG−SVMであってもよい。Sliding Windowでは、所与の範囲の全面において文字認識のためのウィンドウを走査させて文字認識処理を行うため、ウィンドウの縦方向の位置及び高さが基準線により限定された走査領域により限定されることにより、認識精度の向上及び処理負荷の軽減を図ることができる。なお、設定部13により1本の基準線が設定される場合には、設定された基準線と、取得された画像の上端または下端との間の領域を走査領域として特定することとしてもよい。この場合には、認識ウィンドウの縦方向の位置及び高さのうちの一方が、基準線の位置により特定されることとなる。
本実施形態の文字分類器では、HOG特徴量に基づいて、設定されたウィンドウ(候補領域)に対して、各文字のスコアを求める。即ち、候補領域を文字種の数に相当する62クラス(全てのアルファベットの大文字及び小文字並びに0〜9の数字)に分類することにより文字認識が行われる。また、HOG特徴に加えて、候補領域のアスペクト比を特徴量として更に用いることとしてもよい。
図9は、第2認識部14による認識結果の例を示す図である。図9に示すように、第2認識部14は、大文字の「S」として認識した文字CR91、小文字の「x」として認識した文字CR92(小文字の「po」が誤認識されたもの)、小文字の「t」として認識した文字CR93、小文字の「p」として認識した文字CR94、及び、小文字の「o」として認識した文字CR95を、第2の認識手法により認識する。
第2認識部14は、認識結果の確からしさを示す第2信頼性スコアを、認識した文字ごとに算出することとしてもよい。第2信頼性スコアは、出力部15における語の出力処理に用いられる。
なお、第2認識部14は、第1認識部12による認識処理において第1信頼性スコアが所定値未満であった文字が表された領域に対してのみ、認識処理を実施することとしてもよい。これにより、第1の認識手法により認識された文字のうち、認識結果の信頼性が高い文字に対しては第2の認識手法による再度の認識処理を実施しないので、処理量を抑制することが可能となる。
なお、本実施形態では、設定部13により設定された複数の基準線のうちの2本の基準線により走査領域を特定し、認識ウィンドウの縦方向における位置及び高さを、特定した走査領域の位置及び高さに設定することしているが、この態様に限定されない。
例えば、認識ウィンドウの上端または下端を、走査領域の上端または下端(基準線の位置)に完全に一致させて設定するのではなく、基準線の位置の近傍に設定することとしてもよい。
出力部15は、第2認識部14により認識された文字からなる語を認識結果として出力する部分である。具体的には、出力部15は、第2認識部14により認識された各文字の第2信頼性スコアに基づいて構成された文字列からなる語を認識結果として出力する。
図10は、出力部15による語の出力の例を示す図である。出力部15は、第2信頼性スコアが所定値以上の文字により構成される文字列を、認識結果の語として出力してもよい。具体的には、図9を参照して説明したように、第2認識部14により、文字C1「S」、文字C2「x」、文字C3「t」、文字C4「p」及び文字C5「o」が認識された場合において、文字C1,C4,C5,C3の第2信頼性スコアが所定値以上であり、文字C2の第2信頼性スコアが所定値未満であった場合に、出力部15は、文字C1,C4,C5,C3からなる文字列「Spot」を認識結果の語として出力する。このように、認識結果における信頼性が高い文字からなる文字列が認識結果の語として出力されるので、出力された語の精度が向上する。
また、出力部15は、第2認識部14により認識された複数の文字により構成される語としての尤もらしさを示す評価スコアを算出し、算出された評価スコアに基づいて認識結果としての語を出力してもよい。
この評価スコアは、いわゆるn−gramといわれる既知の技術により算出してもよい。本実施形態にn−gramの技術を適用する場合には、例えば、アルファベットからなる英単語の辞書データを学習データとして、隣り合ったn個の文字列の組み合わせにおける共起頻度を組み合わせごとに集計したモデルを準備しておき、第2認識部14により認識された文字からなる語にそのモデルを適用することにより、語としての尤もらしさを示す評価スコアが算出される。即ち、この評価スコアは、共起頻度がより高い文字配列により構成される語ほど高くなる。
出力部15は、文字C1,C2,C3からなる語「Sxt」及び文字C1,C4,C5,C3からなる語「Spot」のそれぞれに対して、n−gramのモデルに基づく評価スコアを算出することができ、語「Sxt」よりも語「Spot」の方が、より高い評価スコアが算出された場合に、出力部15は、文字C1,C4,C5,C3からなる文字列「Spot」を認識結果の語として出力することとしてもよい。また、出力部15は、文字ごとの第2信頼性スコア及び語としての尤もらしさを示す評価スコアの両方に基づいて、認識結果として出力する語を判定してもよい。
なお、第2認識部14が、第1信頼性スコアが所定値未満であった文字が表された領域に対してのみ、認識処理を実施する場合には、出力部15は、第1認識部12及び第2認識部14により認識された文字からなる語を認識結果として出力する。このように、複数の文字により構成される語としての尤もらしさに基づいて認識結果の語が出力されるので、語としての認識精度が向上する。
次に、図11を参照して、本実施形態の文字認識装置1の動作について説明する。図10は、文字認識装置1において実施される文字認識方法の処理内容を示すフローチャートである。
まず、取得部11は、文字領域を含む画像を取得する(S1)。次に、第1認識部12は、画像に含まれる文字領域から、第1の認識手法により文字を認識する(S2)。
続いて、設定部13は、ステップS2において第1認識部12により認識された複数の文字のうちの少なくとも一部の文字に対して、複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも2本の基準線を設定する(S3)。例えば、設定部13は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインからなる4本の基準線を設定する。
次に、第2認識部14は、文字領域のうちの、複数の基準線のうちの所定の2本の基準線により特定される走査領域において、第2の認識手法により文字を認識する(S4)。そして、出力部15は、第2認識部14により認識された文字からなる語を認識結果として出力する(S5)。
次に、図12を参照して、コンピュータを文字認識装置1として機能させるための文字認識プログラムを説明する。文字認識プログラムp1は、メインモジュールm10、取得モジュールm11、第1認識モジュールm12、設定モジュールm13、第2認識モジュールm14及び出力モジュールm15を備える。
メインモジュールm10は、文字認識処理を統括的に制御する部分である。取得モジュールm11、第1認識モジュールm12、設定モジュールm13、第2認識モジュールm14及び出力モジュールm15を実行することにより実現される機能はそれぞれ、図1に示される文字認識装置1の取得部11、第1認識部12、設定部13、第2認識部14及び出力部15の機能と同様である。
文字認識プログラムp1は、例えば、CD−ROMやDVD−ROMまたは半導体メモリ等の記憶媒体d1によって提供される。また、文字認識プログラムp1は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。
以上説明した本実施形態の文字認識装置1、文字認識方法及び文字認識プログラムp1によれば、第1の認識手法により文字領域から認識された文字に対して基準線が設定される。そして、第2の認識手法により文字認識を行う範囲が、設定された基準線により特定された走査領域に限定されるので、認識処理に係る負荷が軽減される。また、文字領域における文字が表されている蓋然性が高い限定された領域に対して文字認識処理を行うので、認識精度の維持が可能となる。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
1…文字認識装置、11…取得部、12…第1認識部、13…設定部、14…第2認識部、15…出力部、21…認識処理用情報記憶部、22…基準線位置記憶部、d1…記憶媒体、m10…メインモジュール、m11…取得モジュール、m12…第1認識モジュール、m13…設定モジュール、m14…第2認識モジュール、m15…出力モジュール、p1…文字認識プログラム。

Claims (11)

  1. 文字領域を含む画像を取得する取得手段と、
    前記画像の前記文字領域から、第1の認識手法により、文字を認識する第1認識手段と、
    前記第1認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、前記複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも2本の基準線を設定する設定手段と、
    第2の認識手法により文字を認識する第2認識手段であって、前記第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、前記認識ウィンドウ内の画像から文字を認識する手法であり、前記文字領域のうちの、前記設定手段により設定された複数の前記基準線のうちの所定の2本の基準線により限定される走査領域に基づいて、前記認識ウィンドウの位置及び前記基準線に交わる方向の幅を設定する、第2認識手段と、
    前記第2認識手段により認識された文字からなる語を認識結果として出力する出力手段と、
    を備える文字認識装置。
  2. 前記第2認識手段は、前記走査領域の位置及び高さに基づいて、前記認識ウィンドウの縦方向における位置及び高さを設定する、請求項1に記載の文字認識装置。
  3. 前記設定手段は、文字ごとの各基準線の位置に関する情報を記憶している記憶手段を参照して、前記複数の文字に対して前記基準線を設定する、
    請求項1または2に記載の文字認識装置。
  4. 前記第1認識手段は、認識結果の確からしさを示す第1信頼性スコアを、認識した文字ごとに算出し、
    前記設定手段は、前記第1信頼性スコアが所定値以上である文字に対して、前記基準線を設定する、
    請求項1〜3のいずれか一項に記載の文字認識装置。
  5. 前記第2認識手段は、前記第1信頼性スコアが所定値未満である文字が表された領域に対して、文字の認識を実施し、
    前記出力手段は、前記第1認識手段及び前記第2認識手段により認識された文字からなる語を認識結果として出力すると、
    請求項4に記載の文字認識装置。
  6. 前記第2認識手段は、認識結果の確からしさを示す第2信頼性スコアを、認識した文字ごとに算出し、
    前記出力手段は、各文字の前記第2信頼性スコアに基づいて構成された文字列からなる語を認識結果として出力する、
    請求項1〜5のいずれか一項に記載の文字認識装置。
  7. 前記出力手段は、第2認識手段により認識された複数の文字により構成される語としての尤もらしさを示す評価スコアを算出し、算出された評価スコアに基づいて認識結果としての語を出力する、
    請求項1〜6のいずれか一項に記載の文字認識装置。
  8. 前記文字はアルファベットであり、
    前記設定手段は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを前記基準線として設定する、
    請求項1〜7のいずれか一項に記載の文字認識装置。
  9. 前記第2認識手段は、前記アセンダーラインと前記ベースラインとの間、前記ミーンラインと前記ベースラインとの間、及び、前記ミーンラインと前記ディセンダーラインとの間を走査領域として特定する、
    請求項8に記載の文字認識装置。
  10. 文字認識装置における文字認識方法であって、
    文字領域を含む画像を取得する取得ステップと、
    前記画像の前記文字領域から、第1の認識手法により、文字を認識する第1認識ステップと、
    前記第1認識ステップにおいて認識された複数の文字のうちの少なくとも一部の文字に対して、前記複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも2本の基準線を設定する設定ステップと、
    第2の認識手法により文字を認識する第2認識ステップであって、前記第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、前記認識ウィンドウ内の画像から文字を認識する手法であり、前記文字領域のうちの、前記設定ステップにおいて設定された複数の前記基準線のうちの所定の2本の基準線により限定される走査領域に基づいて、前記認識ウィンドウの位置及び前記基準線に交わる方向の幅を設定する、第2認識ステップと、
    前記第2認識ステップにおいて認識された文字からなる語を認識結果として出力する出力ステップと、
    を有する文字認識方法。
  11. 文字認識装置としてコンピュータを機能させる文字認識プログラムであって、
    前記コンピュータを、
    文字領域を含む画像を取得する取得手段、
    前記画像の前記文字領域から、第1の認識手法により、文字を認識する第1認識手段、
    前記第1認識手段により認識された複数の文字のうちの少なくとも一部の文字に対して、前記複数の文字の配列方向に沿い各文字における所定位置を通る少なくとも2本の基準線を設定する設定手段、
    第2の認識手法により文字を認識する第2認識手段であって、前記第2の認識手法は、認識ウィンドウの大きさを変更しながら、画像における認識対象の領域内を走査させて、前記認識ウィンドウ内の画像から文字を認識する手法であり、前記文字領域のうちの、前記設定手段により設定された複数の前記基準線のうちの所定の2本の基準線により限定される走査領域に基づいて、前記認識ウィンドウの位置及び前記基準線に交わる方向の幅を設定する、第2認識手段、及び、
    前記第2認識手段により認識された文字からなる語を認識結果として出力する出力手段、
    として機能させる文字認識プログラム。
JP2017529190A 2015-07-17 2015-07-17 文字認識装置、文字認識方法及び文字認識プログラム Active JP6310155B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/070597 WO2017013719A1 (ja) 2015-07-17 2015-07-17 文字認識装置、文字認識方法及び文字認識プログラム

Publications (2)

Publication Number Publication Date
JPWO2017013719A1 JPWO2017013719A1 (ja) 2018-03-08
JP6310155B2 true JP6310155B2 (ja) 2018-04-11

Family

ID=57834918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017529190A Active JP6310155B2 (ja) 2015-07-17 2015-07-17 文字認識装置、文字認識方法及び文字認識プログラム

Country Status (3)

Country Link
US (1) US10657404B2 (ja)
JP (1) JP6310155B2 (ja)
WO (1) WO2017013719A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934386B (zh) * 2017-03-30 2019-06-25 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN111259888A (zh) * 2020-01-15 2020-06-09 平安国际智慧城市科技股份有限公司 基于图像的信息比对方法、装置及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2788506B2 (ja) * 1989-10-11 1998-08-20 沖電気工業株式会社 文字認識装置
US6473517B1 (en) * 1999-09-15 2002-10-29 Siemens Corporate Research, Inc. Character segmentation method for vehicle license plate recognition
JP2004310251A (ja) * 2003-04-03 2004-11-04 Konica Minolta Medical & Graphic Inc 文字認識方法、文字認識装置および文字認識プログラム
TW200538969A (en) 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction
KR101207127B1 (ko) * 2010-03-19 2012-11-30 전남대학교산학협력단 문자 인식 전처리 방법 및 장치
US8768061B2 (en) * 2012-05-02 2014-07-01 Xerox Corporation Post optical character recognition determination of font size

Also Published As

Publication number Publication date
WO2017013719A1 (ja) 2017-01-26
JPWO2017013719A1 (ja) 2018-03-08
US20180211127A1 (en) 2018-07-26
US10657404B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
KR101114135B1 (ko) 카메라 입력된 문서들을 위한 저해상 ocr
CN102870399A (zh) 在ocr过程中将词语位图分割为单个字符或字形
Tavoli et al. Statistical geometric components of straight lines (SGCSL) feature extraction method for offline Arabic/Persian handwritten words recognition
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
JP2730665B2 (ja) 文字認識装置および方法
US9330311B1 (en) Optical character recognition
JP2000315247A (ja) 文字認識装置
Shanjana et al. Offline recognition of malayalam handwritten text
JP6310155B2 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
Daniels et al. Discriminating features for writer identification
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
Thungamani A survey of methods and strategies in handwritten kannada character segmentation
Ladwani et al. Novel approach to segmentation of handwritten Devnagari word
Madushanka et al. Sinhala handwritten character recognition by using enhanced thinning and curvature histogram based method
Bushofa et al. Segmentation of Arabic characters using their contour information
Naz et al. Arabic script based character segmentation: a review
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
Hakro et al. A Study of Sindhi Related and Arabic Script Adapted languages Recognition
Srinivas et al. An overview of OCR research in Indian scripts
US9405997B1 (en) Optical character recognition
KR20160053544A (ko) 후보 문자의 추출 방법
Chowdhury et al. Bengali handwriting recognition and conversion to editable text
Naz et al. Challenges in baseline detection of cursive script languages
Razak et al. A real-time line segmentation algorithm for an offline overlapped handwritten Jawi character recognition chip
JP5913763B1 (ja) 基準線設定装置、基準線設定方法及び基準線設定プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171205

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20171205

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171205

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20171205

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180315

R150 Certificate of patent or registration of utility model

Ref document number: 6310155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250