JP5913763B1 - 基準線設定装置、基準線設定方法及び基準線設定プログラム - Google Patents

基準線設定装置、基準線設定方法及び基準線設定プログラム Download PDF

Info

Publication number
JP5913763B1
JP5913763B1 JP2016504816A JP2016504816A JP5913763B1 JP 5913763 B1 JP5913763 B1 JP 5913763B1 JP 2016504816 A JP2016504816 A JP 2016504816A JP 2016504816 A JP2016504816 A JP 2016504816A JP 5913763 B1 JP5913763 B1 JP 5913763B1
Authority
JP
Japan
Prior art keywords
line
position information
character
reference line
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016504816A
Other languages
English (en)
Other versions
JPWO2017013720A1 (ja
Inventor
遼太 日並
遼太 日並
千葉 直樹
直樹 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP5913763B1 publication Critical patent/JP5913763B1/ja
Publication of JPWO2017013720A1 publication Critical patent/JPWO2017013720A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

基準線設定装置は、文字領域を含む画像を取得する画像取得手段と、画像の文字領域から所定の認識手法により文字を認識する認識手段と、文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識手段により認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段と、線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定手段と、を備える。

Description

本発明は、基準線設定装置、基準線設定方法及び基準線設定プログラムに関する。
カメラ等により撮像された画像から、文字認識をする技術の需要が高まっている。画像に含まれる文字を正しく認識するために、配列される文字が沿うべき基準線を設定することが求められる場合がある。例えば、各文字が表された領域の輪郭を特徴ベクトルで表現し、その特徴ベクトルに基づいて画像中の文字に基準線を設定する技術が知られている(例えば、特許文献1参照)。
米国特許公報第8588529号
しかしながら、上記従来技術では、画像中の文字の輪郭が不鮮明な場合、及び文字の領域とその背景とのコントラストが十分に大きくない場合等に文字の領域が正しく認識されず、基準線を正確に設定できない場合がある。その結果、画像からの文字認識の精度が低下する。
そこで本発明は、画像中に含まれる文字に対して、配列される文字が沿うべき基準線を高精度に設定することを目的とする。
上記課題を解決するために、本発明の一形態に係る基準線設定装置は、文字領域を含む画像を取得する画像取得手段と、画像の文字領域から所定の認識手法により文字を認識する認識手段と、文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識手段により認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段と、線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定手段と、を備える。
本発明の一形態に係る基準線設定方法は、基準線設定装置における基準線設定方法であって、画像の文字領域から所定の認識手法により文字を認識する認識ステップと、文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識ステップにおいて認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得ステップと、線位置情報取得ステップにおいて取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定ステップと、を有する。
本発明の一形態に係る基準線設定プログラムは、基準線設定装置としてコンピュータを機能させる基準線設定プログラムであって、コンピュータを、画像の文字領域から所定の認識手法により文字を認識する認識手段、文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、認識手段により認識された文字のうちの複数の文字の線位置情報を取得し、基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段、及び線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する設定手段、として機能させる。
上記の形態によれば、画像から認識することができた文字の線位置情報に基づいて、当該文字を含む画像に対して基準線が設定される。線位置情報が、文字ごとに線位置情報を予め記憶している記憶手段から取得され、取得された線位置情報に基づいて基準線が設定されるので、高精度に基準線を設定できる。また、認識することができた文字の線位置情報に基づいて基準線が設定されるので、認識することができなかった文字も含む、画像に表された文字列の全体に対して高精度に基準線を設定することができる。
別の形態に係る基準線設定装置では、線位置情報取得手段は、1本の第1の基準線が通る位置を示す線位置情報を取得し、設定手段は、複数の文字の、第1の基準線の線位置情報に基づいて、最小二乗法により当該第1の基準線を設定することとしてもよい。
上記形態によれば、文字の配列の基準となる1本の基準線が、当該基準線の線位置情報に基づいて最小二乗法により設定されるので、画像に表された文字列に対して、当該基準線を高精度に設定することができる。第1の基準線は、例えば、アルファベットにおけるベースラインである。また、第1の基準線は、例えば、ひらがな及びカタカナ並びに漢字等における、文字の下端部を沿わせる基準線である。
さらに別の形態に係る基準線設定装置では、線位置情報は、文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、設定手段は、認識手段により認識された複数の文字の、基準線のうちの第1の基準線以外の一の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、第1の基準線と同じ傾きを有する線を、当該一の基準線として設定することとしてもよい。
上記形態において、文字の配列の基準となる第1の基準線と同じ傾きで、平均と分散とからなる線位置情報を積算して得られた確率が最も高い位置を通るように、第1の基準線以外の基準線が設定されるので、それらの基準線を適切に設定することが可能となる。
さらに別の形態に係る基準線設定装置では、線位置情報は、文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、設定手段は、認識手段により認識された複数の文字の、基準線のうちの第1の基準線以外の二以上の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、第1の基準線と一点で交わる二以上の基準線を設定することとしてもよい。
上記形態において、第1の基準線と異なる傾きを有し、第1の基準線と一点で交わるような複数の基準線を適切に設定することが可能となる。
別の形態に係る基準線設定装置では、文字はアルファベットであり、基準線は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを含み、線位置情報取得手段は、文字ごとのアセンダーライン、ミーンライン、ベースライン及びディセンダーラインの線位置情報を取得し、設定手段は、複数の文字の、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインのそれぞれの線位置情報に基づいて、各基準線を設定することとしてもよい。
上記形態によれば、文字がアルファベットである場合に、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインに関する線位置情報が取得されるので、これら4本の基準線を高精度に設定できる。
さらに別の形態に係る基準線設定装置では、基準線が設定された複数の文字が表された複数の画像に基づいて、文字ごとの線位置情報を算出し、算出した線位置情報を文字ごとに記憶手段に記憶させる学習手段を更に備えることとしてもよい。
上記形態によれば、文字が表された複数の画像に基づいて、文字ごとの各基準線の位置を算出して、算出した基準線の位置が文字ごとに線位置情報として記憶手段に記憶される。これにより、基準線の設定処理に用いる精度が高い線位置情報を予め備えることが可能となる。
さらに別の形態に係る基準線設定装置では、学習手段は、複数の画像に表された複数の文字に基づいて、文字の縦方向における各基準線が通る位置の平均及び分散を線位置情報として算出することとしてもよい。
上記形態によれば、複数の画像に表された文字に基づいて、線位置情報が平均及び分散として算出されるので、文字が表された多くの画像の集計結果としての基準線の位置の情報を予め備えることができる。従って、これらの情報に基づいて、精度良く基準線を設定できる。
さらに別の形態に係る基準線設定装置では、文字はアルファベットであり、線位置情報取得手段は、大文字と小文字の形状が相似ではない文字の線位置情報を取得することとしてもよい。
認識された文字が、大文字と小文字の形状が相似である文字である場合には、当該文字が大文字及び小文字のいずれであるかの判定を誤っている可能性が高い。大文字と小文字の形状が相似である文字は、例えば、アルファベットの「S」と「s」、「O」と「o」等がある。上記形態によれば、認識結果が、大文字と小文字の形状が相似である文字であると認識された文字の線位置情報を基準線の設定に用いないので、設定される基準線の位置の精度を向上することができる。
さらに別の形態に係る基準線設定装置では、認識手段は、画像からの文字の認識結果の確からしさを示す信頼性スコアを算出し、線位置情報取得手段は、信頼性スコアが所定値以上の文字の線位置情報を取得することとしてもよい。
認識結果における信頼性が低い文字の線位置情報に基づいて設定される基準線の位置は、当該文字を含む文字列に対する基準線の位置として妥当ではない可能性が高い。上記形態によれば、認識結果における信頼性スコアが所定値未満の文字の線位置情報を基準線の設定に用いないので、設定される基準線の位置の精度を向上することができる。
本発明の一側面によれば、画像中に含まれる文字に対して、配列される文字が沿うべき基準線を高精度に設定することが可能となる。
基準線設定装置の機能構成を示すブロック図である。 基準線設定装置のハードウェア構成を示す図である。 基準線位置記憶部に記憶させる線位置情報算出の例を示す図である。 基準線位置記憶部に記憶されている線位置情報の例を示す図である。 ベースラインの設定処理の例を示す図である。 アセンダーライン、ミーンライン及びディセンダーラインの設定処理の例を示す図である。 基準線設定装置において実施される基準線設定方法の処理内容を示すフローチャートである。 図7における基準線設定処理の内容を示すフローチャートである。 基準線設定プログラムの構成を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
図1は、本実施形態に係る基準線設定装置1の機能的構成を示すブロック図である。基準線設定装置1は、画像に含まれる文字列に対して、複数の基準線を設定する装置である。基準線は、文字の配列方向に引かれる仮想的な線であって、文字列に含まれる各文字の所定部分を沿わせて配列させるための線である。文字がアルファベットである場合には、基準線は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの4本である。
画像は、例えばカメラ等により撮像された画像である。文字が含まれる画像から、文字認識をする技術の需要が高まっており、正確な文字認識を可能とするために、画像中の文字列に対して適切に基準線を設定する必要がある。カメラ等により撮影された情景画像には、例えば道路の標識や看板などの種々の文字情報が含まれている。情景画像中の文字は、紙に印刷された文字と比較すると、独自のフォントやスタイルを有している、解像度が低い等の、認識を困難にするような多くの問題を有している。画像中の文字列に設定された基準線は、画像中における文字が表された領域を限定することができるので、適切な基準線の設定は、画像からの正確な文字認識に資することとなる。
図1に示すように、基準線設定装置1は、機能的には、学習部11(学習手段)、画像取得部12(画像取得手段)、認識部13(認識手段)、線位置情報取得部14(線位置情報取得手段)及び設定部15(設定手段)を備える。
また基準線設定装置1は、基準線位置記憶部21といった記憶手段にアクセス可能である。基準線位置記憶部21は、基準線設定装置1に備えられることとしてもよいし、基準線設定装置1からのアクセスが可能に設けられた外部の記憶手段として構成されてもよい。
図2は、基準線設定装置1のハードウェア構成図である。基準線設定装置1は、物理的には、図2に示すように、CPU101、RAM及びROMといったメモリにより構成される主記憶装置102、ハードディスク等で構成される補助記憶装置103、通信制御装置104などを含むコンピュータシステムとして構成されている。基準線設定装置1は、入力デバイスであるキーボード、タッチパネル、マウス等の入力装置105及びディスプレイ等の出力装置106をさらに含むこととしてもよい。
図1に示した各機能は、図2に示すCPU101、主記憶装置102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信制御装置104等を動作させるとともに、主記憶装置102や補助記憶装置103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置102や補助記憶装置103内に格納される。
続いて、基準線設定装置1の各機能部を説明する。学習部11は、複数の画像に表された複数の文字に基づいて、文字の縦方向における各基準線が通る位置に関する線位置情報を算出する部分である。学習部11は、算出した線位置情報を基準線位置記憶部21に記憶させる。線位置情報は、文字ごとに、基準線の位置を示す情報である。
図3を参照して、学習部11による線位置情報の算出について説明する。図3は、線位置情報算出の例を示す図である。
学習部11は、文字が表された画像であって、各文字のバウンディングボックスとその文字種が与えられている画像を学習データとして取得する。学習部11は、大量の学習データに基づいて、以下に説明する方法により、アルファベット26個の大文字及び小文字並びに0〜9の数字の計62個の文字の、各基準線が通る位置の情報を取得し、線位置情報を文字ごとに算出して、算出した線位置情報取得を基準線位置記憶部21に記憶させる。
学習部11は、まず、学習用のデータの一例として、文字列W31を含む画像を取得する。文字列W31は、文字C31〜C34を含む。各文字には、文字種及びバウンディングボックスが予め与えられている。バウンディングボックスは、文字領域に外接する矩形の枠である。即ち、文字C31の文字種は、大文字の「S」である。また、文字C31には、バウンディングボックスB1が与えられている。
同様に、文字C32〜C34の文字種はそれぞれ、小文字の「p」、小文字の「o」、小文字の「t」である。また、文字C32〜C34にはそれぞれ、バウンディングボックスB2〜B4が与えられている。
学習部11は、各文字のバウンディングボックスの上辺の中心及び下辺の中心をそれぞれ、上接点及び下接点として抽出する。即ち、学習部11は、バウンディングボックスB1から、上接点BU1及び下接点BL1を抽出する。同様に、学習部11は、バウンディングボックスB2〜B4のそれぞれから、上接点BU2〜BU4及び下接点BL2〜BL4を抽出する。
アルファベットの大文字及び数字の上接点及び下接点はそれぞれ、アセンダーライン及びベースラインの位置に相当する。また、アルファベットの小文字のうち、b、d、f、h、i、k、l、tの上接点及び下接点はそれぞれ、アセンダーライン及びベースラインの位置に相当する。また、アルファベットの小文字のうち、g、j、p、q、yの上接点及び下接点はそれぞれ、ミーンライン及びディセンダーラインの位置に相当する。それら以外のアルファベットの小文字の上接点及び下接点はそれぞれ、ミーンライン及びベースラインの位置に相当する。
学習部11は、抽出した上接点及び下接点のうち、各基準線の位置に相当する複数の点を用いて、基準線を画像の文字列に設定する。図3に示す例では、学習部11は、文字列W32に示されるように、各基準線を設定する。具体的には、学習部11は、上接点BU1及びBU4の2点を用いて、最小二乗法によりアセンダーラインLA3を文字列W32に設定する。
同様に、学習部11は、上接点BU2及びBU3の2点を用いて、最小二乗法によりミーンラインLM3を文字列W32に設定する。また、学習部11は、下接点BL1、BL3及びBL4の3点を用いて、最小二乗法によりベースラインLB3を文字列W32に設定する。
なお、最小二乗法により線を設定するためには、2点以上の情報が必要である。従って、図3の例では、ディセンダーラインの位置に相当する点は、下接点BL2の1点のみであるため、破線により図示したディセンダーラインLD3は設定されない。学習部11は、大量の学習データに基づいて線位置情報を算出するので、ディセンダーラインの位置に相当する下接点を有する文字を複数含む画像を学習データとして取得することにより、ディセンダーラインの線位置情報を算出できる。
学習部11は、設定された各基準線が、各文字のバウンディングボックスの中心を通る縦方向の線VL1〜VL4と交わる位置を、各文字における各基準線の線位置として取得する。図3に示す例では、学習部11は、大文字の「S」である文字C31の、アセンダーライン、ミーンライン及びベースラインの位置として、上接点BU1、点MP31及び下接点BL1の位置を取得する。なお、仮にディセンダーラインLD3が設定されていれば、学習部11は、大文字の「S」である文字C31のディセンダーラインの位置として、点DP31の位置を取得する。なお、学習部11は、各文字における各基準線の位置を、各文字領域(バウンディングボックス)の高さによって正規化された値に変換して取得する。
同様に、学習部11は、小文字の「p」である文字C32の、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの位置として、点AP32、上接点BU2、点BP32及び下接点BL2の位置を取得する。
また、学習部11は、小文字の「o」である文字C33の、アセンダーライン、ミーンライン及びベースラインの位置として、点AP33、上接点BU3及び下接点BL3の位置を取得する。なお、仮にディセンダーラインLD3が設定されていれば、学習部11は、大文字の「o」である文字C33のディセンダーラインの位置として、点DP33の位置を取得する。
また、学習部11は、小文字の「t」である文字C34の、アセンダーライン、ミーンライン及びベースラインの位置として、上接点BU4、点MP34及び下接点BL4の位置を取得する。なお、仮にディセンダーラインLD3が設定されていれば、学習部11は、大文字の「t」である文字C34のディセンダーラインの位置として、点DP34の位置を取得する。
学習部11は、以上説明したような、文字ごとの各基準線の位置を取得する処理を、文字種と文字ごとのバウンディングボックスが与えられた様々な撮像画像、種々のフォントについて行い、文字ごとの多くの基準線の位置の情報を蓄積及び学習する。そして、学習部11は、蓄積及び学習した情報に基づいて、線位置情報を算出する。
学習部11は、例えば、文字種ごとの各基準線の位置の平均を線位置情報として算出し、算出した線位置情報を基準線位置記憶部21に記憶させる。また、学習部11は、文字ごとの多くの基準線の位置の情報を統計的に処理して算出したガウス分布を線位置情報として算出してもよい。この場合には、学習部11は、文字種ごとの各基準線の位置の平均及び分散の値を線位置情報として基準線位置記憶部21に記憶させる。
図4は、基準線位置記憶部21の構成及び記憶されているデータの例を模式的に示す図である。図4に示すように、基準線位置記憶部21は、アルファベットの大文字及び小文字並びに数字ごとに、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインの線位置情報を記憶している。本実施形態では、線位置情報は、基準線の位置の平均及び分散を含む。
再び図2を参照して、画像取得部12は、文字領域を含む画像を取得する部分である。画像取得部12は、例えば、カメラにより撮影された画像を、基準線を設定する対象として取得する。
認識部13は、画像に含まれる文字領域から、所定の認識手法により文字を認識する部分である。認識部13は、例えば、画像中における同一色が連続している連結領域を抽出して、抽出した連結領域を文字領域として取得してもよい。認識部13は、連結領域の抽出のために、画像に対して二値化処理を行ってもよい。
例えば、認識部13は、文字領域に対して、いわゆる文字分類器を用いて文字認識を実施してもよい。文字分類器を用いた手法は、例えば、HOG(Histgram of Oriented Gradient)−SVM(Support Vector Machine)という既知の手法である。HOG−SVMは、特徴量としてHOG特徴量を用い、分類器として周知のSVMを用いる手法である。文字分類器による文字認識のために参照する情報は予め記憶手段に記憶されており、記憶手段は、HOG−SVMによる文字分類器を用いた文字認識のために参照するデータであって、例えば、アルファベットの大文字A〜Z、小文字a〜z、数字0〜9について学習したデータを記憶している。
HOG特徴量は、画像中の局所領域(セル)の輝度の勾配方向をヒストグラム化した特徴量である。所定数の画素からなるセルを認識対象の画像に敷き詰めるように設定し、セルごとに多次元のHOG特徴量の特徴ベクトルが取得され、さらに画像全体から、全てのセルを連結した多次元の特徴ベクトルが取得される。なお、HOG−SVMによる文字分類では、アスペクト比を更に用いることが好ましい。
認識部13は、文字領域から、HOG特徴量ベクトル及びアスペクト比のベクトルを取得する。そして、記憶手段に予め記憶された学習データを参照して、SVM分類器による分類を行う。その結果として、認識部13は、分類結果としての文字(アルファベット、数字)及び分類器から出力される信頼性スコアを取得できる。
なお、認識部13により実施される認識処理は、HOG−SVMに例示される文字分類器による手法に限定されない。認識部13による文字認識は、文字を正確に認識した結果を出力することを目的とするものではないので、画像中からの文字認識が可能な手法であれば、種々の既知の手法を適用できる。なお、後述するように、所定の認識手法は、文字ごとの認識結果の信頼性に関する情報を取得できる手法であることが好ましい。
図5に示される文字列W51は、認識部13により認識された文字C51〜C54からなる文字列である。即ち、図5に示す例では、認識部13は、大文字の「L」である文字C51、小文字の「i」である文字C52、小文字の「n」である文字C53及び小文字の「n」である文字C54を画像からの文字の認識結果として出力する。
線位置情報取得部14は、認識部13により認識された文字のうちの複数の文字の線位置情報を取得する。具体的には、線位置情報取得部14は、基準線位置記憶部21から線位置情報を取得する。
設定部15は、線位置情報取得部14により取得された基準線ごとの複数の線位置情報に基づいて、画像に各基準線を設定する。
図5及び図6を参照して、本実施形態における基準線の設定処理について具体的に説明する。まず、設定部15は、第1の基準線を設定する。第1の基準線は、文字の配列の基準となる基準線であって、例えば、アルファベットにおけるベースラインである。また、第1の基準線は、例えば、ひらがな及びカタカナ並びに漢字等における、文字の下端部を沿わせる基準線である。設定部15は、最小二乗法により第1の基準線を設定してもよい。図5は、ベースラインの設定処理の例を示す図である。図6は、ベースライン以外の基準線であるアセンダーライン、ミーンライン及びディセンダーラインの設定処理の例を示す図である。
線位置情報取得部14は、図5の文字列W51における文字C51〜C54のベースラインの線位置情報BP51〜BP54を取得する。本実施形態では、線位置情報取得部14は、ベースラインの線位置情報における平均の値を取得する。
続いて、設定部15は、認識された複数の文字のベースラインの線位置情報に基づいて、最小二乗法によりベースラインを設定する。本実施形態では、設定部15は、文字C51〜C54のベースラインの線位置情報BP51〜BP54に基づいて、最小二乗法により求めたベースラインLB5を、文字列W51を含む画像に対して設定する。
次に、線位置情報取得部14は、アセンダーライン、ミーンライン及びディセンダーラインの設定のために、文字C51〜C54のそれぞれについての、アセンダーライン、ミーンライン及びディセンダーラインの線位置情報を取得する。
図6の文字列W51において示されるように、線位置情報取得部14は、文字C51のアセンダーライン、ミーンライン及びディセンダーラインのそれぞれの線位置情報AP61,MP61,DP61を取得する。ここで取得される線位置情報AP61,MP61,DP61は、文字における基準線の位置の分布として表現されており、平均及び分散を含む。同様に、文字C52〜C54のアセンダーライン、ミーンライン及びディセンダーラインのそれぞれの線位置情報AP62,MP62,DP62、線位置情報AP63,MP63,DP63、線位置情報AP64,MP64,DP64を取得する。
続いて、設定部15は、認識された複数の文字の、ベースライン以外の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、ベースラインと同じ傾きを有する線を、当該基準線として設定する。
ベースライン以外の3本の基準線の設定を具体的に説明する。文字領域を含む画像に任意に二次元座標系を設定し、ベースライン以外の3本の基準線のうちの一の基準線lを、傾きk、切片bとして、y=kx+bという式で表す。傾きkは、設定済みのベースラインの傾きと同じである。
また、当該基準線lについて、傾きkが決定した時に尤度を最大化するような値を切片とすることができる。取得した画像において、N文字の文字領域が与えられているとして、c,c,・・・,cを、各文字の文字クラスとし、x,x,・・・,xを各文字の文字領域の横方向における中央位置の座標系X方向における位置とする。ここで、p(yil|c)を、i番目の文字クラスがcであるときの、基準線lのxにおける切片がyである確率とすると、基準線lの切片bは以下の式(1)で計算される。
Figure 0005913763
ここで、μlci,σlciは、線位置情報として得られる各文字クラスcに対する基準線lの位置の平均及び分散である。
図6において、矢印により示されるように、設定部15は、文字C51〜C54のアセンダーラインの線位置情報AP61〜AP64に基づいて、アセンダーラインLA6を設定する。即ち、アセンダーラインLA6は、線位置情報AP61〜AP64の平均及び分散の積算により算出された分布において、最も確率が高い位置に設定される。
同様に、設定部15は、文字C51〜C54のアセンダーラインの線位置情報MP61〜MP64に基づいて、ミーンラインLM6を設定する。また、設定部15は、文字C51〜C54のディセンダーラインの線位置情報DP61〜DP64に基づいて、ディセンダーラインLD6を設定する。
認識部13が、画像からの文字の認識結果の確からしさを示す信頼性スコアを算出及び出力する場合に、線位置情報取得部14は、認識部13により算出された信頼性スコアが所定値以上の文字の線位置情報を取得することとしてもよい。例えば、図5及び図6の例において、文字C51,C54の認識結果における信頼性スコアが所定値以上であって、文字C52,C53の信頼性スコアが所定値未満であった場合に、線位置情報取得部14は、文字C51,C54の線位置情報を取得する。従って、設定部15は、文字C51,C54の線位置情報のみを基準線の設定に用いることとなり、文字C52,C53の線位置情報は、基準線の設定に用いられない。
認識結果における信頼性が低い文字の線位置情報に基づいて設定される基準線の位置は、当該文字を含む文字列に対する基準線の位置として妥当ではない可能性が高いので、このように、認識結果における信頼性スコアが所定値未満の文字の線位置情報を基準線の設定に用いないことにより、設定される基準線の位置の精度を向上させることができる。また、認識結果における信頼性が低くなるような文字に対しても、適切な位置に基準線を設定することが可能となる。
また、認識及び基準線の設定の対象の文字がアルファベットである場合に、線位置情報取得部14は、大文字と小文字の形状が相似ではない文字の線位置情報を取得することとしてもよい。この場合には、設定部15は、大文字と小文字の形状が相似である文字のうちの大文字または小文字として認識された文字の線位置情報を、基準線の設定に用いない。即ち、認識部13において認識された文字が、大文字と小文字の形状が相似である文字の大文字又は小文字である場合には、当該文字が大文字及び小文字のいずれであるかの判定を誤っている可能性が高い。このような可能性に鑑みて、認識結果において、大文字と小文字の形状が相似である文字であると認識された文字の線位置情報を基準線の設定に用いないことにより、設定される基準線の位置の精度を向上させることが可能となる。
なお、本実施形態では、ベースライン以外の基準線の傾きが、ベースラインの傾きと同様である場合の例を示しているが、ベースライン以外の基準線の傾きがベースラインの傾きと異なっていてもよい。例えば、4本の基準線が1点で収束するような傾きをそれぞれの基準線が有していることとしてもよい。
即ち、設定部15は、認識部13により認識された複数の文字の、ベースライン以外の二以上の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、ベースラインと一点で交わる二以上の基準線を設定することとしてもよい。
また、本実施形態では、ベースラインが直線である場合の例を示しているが、ベースラインは、例えば、2次曲線、ベジェ曲線、スプライン曲線であってもよい。ベースラインが、これらの曲線である場合であっても、ベースラインの位置を示す線位置情報に基づいて、最小二乗法やその他の既知の手法により、ベースラインを算出できる。ベースラインが、これらの曲線である場合には、アセンダーライン、ミーンライン及びディセンダーラインも。ベースラインと同様のカーブを有するラインとして算出されることとしてもよい。
次に、図7及び図8を参照して、本実施形態の基準線設定装置1の動作について説明する。図7は、基準線設定装置1において実施される基準線設定方法の処理内容を示すフローチャートである。
まず、画像取得部12は、文字領域を含む画像を取得する(S1)。次に、認識部13は、画像に含まれる文字領域から、所定の認識手法により文字を認識する(S2)。
続いて、線位置情報取得部14は、ステップS2において認識部13により認識された文字のうちの複数の文字の線位置情報を取得する(S3)。具体的には、線位置情報取得部14は、基準線位置記憶部21から線位置情報を取得する。基準線位置記憶部21に記憶されている線位置情報は、学習部11により種々の画像に表された複数の文字に基づいて算出されたものである。
次に、設定部15は、ステップS3において取得された線位置情報に基づいて基準線を設定する基準線設定処理を実施する(S4)。図8を参照して、ステップS4における基準線設定処理を説明する。
まず、線位置情報取得部14は、認識された各文字のベースラインの線位置情報を取得する(S41)。続いて、設定部15は、ステップS41において取得された、ベースラインの線位置情報に基づいて、最小二乗法によりベースラインを設定する(S42)。
次に、線位置情報取得部14は、認識された各文字についての、アセンダーライン、ミーンライン及びディセンダーラインの線位置情報を取得する(S43)。続いて、設定部15は、ベースライン以外の各基準線ごとに、認識された複数の文字の線位置情報の分布を積算する(S44)。即ち、設定部15は、アセンダーライン、ミーンライン及びディセンダーラインのそれぞれについて、線位置情報に表される基準線の位置の分布を積算する。
そして、設定部15は、線位置情報の分布の積算により得られた確率が最も高い位置を通り、ベースラインと同じ傾きを有する線を、当該基準線として設定する(S45)。
次に、図9を参照して、コンピュータを基準線設定装置1として機能させるための基準線設定プログラムを説明する。基準線設定プログラムp1は、メインモジュールm10、学習モジュールm11、画像取得モジュールm12、認識モジュールm13、線位置情報取得モジュールm14及び設定モジュールm15を備える。
メインモジュールm10は、基準線設定処理を統括的に制御する部分である。学習モジュールm11、画像取得モジュールm12、認識モジュールm13、線位置情報取得モジュールm14及び設定モジュールm15を実行することにより実現される機能はそれぞれ、図1に示される基準線設定装置1の学習部11、画像取得部12、認識部13、線位置情報取得部14及び設定部15の機能と同様である。
基準線設定プログラムp1は、例えば、CD−ROMやDVD−ROMまたは半導体メモリ等の記憶媒体d1によって提供される。また、基準線設定プログラムp1は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。
以上説明した本実施形態の基準線設定装置1、基準線設定方法及び基準線設定プログラムp1によれば、画像から認識することができた文字の線位置情報に基づいて、当該文字を含む画像に対して基準線が設定される。線位置情報が、文字ごとに線位置情報を予め記憶している記憶手段から取得され、取得された線位置情報に基づいて基準線が設定されるので、高精度に基準線を設定できる。また、認識することができた文字の線位置情報に基づいて基準線が設定されるので、認識することができなかった文字も含む、画像に表された文字列の全体に対して高精度に基準線を設定することができる。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
例えば、本実施形態では、画像に含まれるアルファベットの文字列に対して基準線を設定する例で説明したが、この例には限定されない。本発明は、例えば、その他の種類の文字にも適用可能であり、日本語を表す文字列に適用してもよい。その場合には、設定する基準線の数を、アルファベットの場合における4本ではなく、例えば2本または3本であることとしてもよい。例えば、文字列がひらがな及びカタカナ並びに漢字で構成される場合には、文字の下端及び上端に2本の基準線が設定されることとしてもよい。また、文字の上端及び下端の2本の基準線の中心位置に3本目の基準線が設定されることとしてもよい。
1…基準線設定装置、11…学習部、12…画像取得部、13…認識部、14…線位置情報取得部、15…設定部、21…基準線位置記憶部、d1…記憶媒体、p1…基準線設定プログラム、m10…メインモジュール、m11…学習モジュール、m12…画像取得モジュール、m13…認識モジュール、m14…線位置情報取得モジュール、m15…設定モジュール。

Claims (11)

  1. 文字領域を含む画像を取得する画像取得手段と、
    文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、前記画像の前記文字領域から所定の認識手法により認識された文字のうちの複数の文字の線位置情報を取得し、前記基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段と、
    前記線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、前記画像に各基準線を設定する設定手段と、
    を備える基準線設定装置。
  2. 前記線位置情報取得手段は、1本の第1の基準線が通る位置を示す線位置情報を取得し、
    前記設定手段は、複数の文字の、前記第1の基準線の線位置情報に基づいて、最小二乗法により当該第1の基準線を設定する、
    請求項1に記載の基準線設定装置。
  3. 前記線位置情報は、前記文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、
    前記設定手段は、前記画像の前記文字領域から認識された複数の文字の、前記基準線のうちの前記第1の基準線以外の一の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、前記第1の基準線と同じ傾きを有する線を、当該一の基準線として設定する、
    請求項2に記載の基準線設定装置。
  4. 前記線位置情報は、前記文字の縦方向における基準線が通る位置の分布の平均と分散とからなり、
    前記設定手段は、前記画像の前記文字領域から認識された複数の文字の、前記基準線のうちの前記第1の基準線以外の二以上の基準線の線位置情報の分布を積算し、線位置情報の分布の積算により得られた確率が最も高い位置を通り、前記第1の基準線と一点で交わる前記二以上の基準線を設定する、
    請求項2に記載の基準線設定装置。
  5. 前記文字はアルファベットであり、
    前記基準線は、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインを含み、
    前記線位置情報取得手段は、文字ごとのアセンダーライン、ミーンライン、ベースライン及びディセンダーラインの線位置情報を取得し、
    前記設定手段は、複数の文字の、アセンダーライン、ミーンライン、ベースライン及びディセンダーラインのそれぞれの線位置情報に基づいて、各基準線を設定する、
    請求項1〜4のいずれか一項に記載の基準線設定装置。
  6. 前記基準線が設定された複数の文字が表された複数の画像に基づいて、文字ごとの線位置情報を算出し、算出した線位置情報を文字ごとに前記記憶手段に記憶させる学習手段を更に備える、
    請求項1〜5のいずれか一項に記載の基準線設定装置。
  7. 前記学習手段は、複数の画像に表された複数の文字に基づいて、文字の縦方向における各基準線が通る位置の平均及び分散を前記線位置情報として算出する、
    請求項6に記載の基準線設定装置。
  8. 前記文字はアルファベットであり、
    前記線位置情報取得手段は、大文字と小文字の形状が相似ではない文字の線位置情報を取得する、
    請求項1〜7のいずれか一項に記載の基準線設定装置。
  9. 前記線位置情報取得手段は、前記画像からの文字の認識結果の確からしさを示す信頼性スコアが所定値以上の文字の線位置情報を取得する、
    請求項1〜8のいずれか一項に記載の基準線設定装置。
  10. 基準線設定装置における基準線設定方法であって、
    文字領域を含む画像を取得する画像取得ステップと、
    文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、前記画像の前記文字領域から所定の認識手法により認識された文字のうちの複数の文字の線位置情報を取得し、前記基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得ステップと、
    前記線位置情報取得ステップにおいて取得された基準線ごとの複数の線位置情報に基づいて、前記画像に各基準線を設定する設定ステップと、
    を有する基準線設定方法。
  11. 基準線設定装置としてコンピュータを機能させる基準線設定プログラムであって、
    前記コンピュータを、
    文字領域を含む画像を取得する画像取得手段、
    文字の縦方向における少なくとも2本の基準線が通る位置に関する線位置情報を文字ごとに記憶している記憶手段を参照して、前記画像の前記文字領域から所定の認識手法により認識された文字のうちの複数の文字の線位置情報を取得し、前記基準線は文字の配列方向に引かれ各文字の所定部分を沿わせて配列させるための線である、線位置情報取得手段、及び
    前記線位置情報取得手段により取得された基準線ごとの複数の線位置情報に基づいて、前記画像に各基準線を設定する設定手段、
    として機能させる基準線設定プログラム。
JP2016504816A 2015-07-17 2015-07-17 基準線設定装置、基準線設定方法及び基準線設定プログラム Active JP5913763B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/070600 WO2017013720A1 (ja) 2015-07-17 2015-07-17 基準線設定装置、基準線設定方法及び基準線設定プログラム

Publications (2)

Publication Number Publication Date
JP5913763B1 true JP5913763B1 (ja) 2016-04-27
JPWO2017013720A1 JPWO2017013720A1 (ja) 2017-07-20

Family

ID=55808320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016504816A Active JP5913763B1 (ja) 2015-07-17 2015-07-17 基準線設定装置、基準線設定方法及び基準線設定プログラム

Country Status (3)

Country Link
US (1) US10311318B2 (ja)
JP (1) JP5913763B1 (ja)
WO (1) WO2017013720A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311318B2 (en) * 2015-07-17 2019-06-04 Rakuten, Inc. Reference line setting device, reference line setting method and reference line setting program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03126188A (ja) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd 文字認識装置
JPH04127288A (ja) * 1990-05-21 1992-04-28 Fuji Facom Corp ベースラインによる文字判別方法
JPH05282493A (ja) * 1992-03-31 1993-10-29 Matsushita Electric Ind Co Ltd 英文字認識装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2805523B2 (ja) * 1990-05-01 1998-09-30 光洋電子工業株式会社 距離センサの不安定動作検出装置
JP4170441B2 (ja) * 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
JP2001101435A (ja) * 1999-09-27 2001-04-13 Toshiba Corp 文書画像処理装置文書画像処理方法
JP4508553B2 (ja) * 2003-06-02 2010-07-21 カシオ計算機株式会社 撮影画像投影装置、及び撮影画像の補正方法
JP4667381B2 (ja) * 2004-07-20 2011-04-13 パナソニック株式会社 映像処理装置およびその方法
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP5582674B2 (ja) * 2007-07-20 2014-09-03 アルパイン株式会社 文字データの生成装置および生成方法、文字データの表示制御装置および表示方法、ナビゲーション装置
US8423916B2 (en) * 2008-11-20 2013-04-16 Canon Kabushiki Kaisha Information processing apparatus, processing method thereof, and computer-readable storage medium
US8588529B2 (en) 2011-08-15 2013-11-19 Vistaprint Schweiz Gmbh Method and system for detecting text in raster images
US10607381B2 (en) * 2014-07-07 2020-03-31 Canon Kabushiki Kaisha Information processing apparatus
US10311318B2 (en) * 2015-07-17 2019-06-04 Rakuten, Inc. Reference line setting device, reference line setting method and reference line setting program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03126188A (ja) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd 文字認識装置
JPH04127288A (ja) * 1990-05-21 1992-04-28 Fuji Facom Corp ベースラインによる文字判別方法
JPH05282493A (ja) * 1992-03-31 1993-10-29 Matsushita Electric Ind Co Ltd 英文字認識装置

Also Published As

Publication number Publication date
US20180046873A1 (en) 2018-02-15
JPWO2017013720A1 (ja) 2017-07-20
WO2017013720A1 (ja) 2017-01-26
US10311318B2 (en) 2019-06-04

Similar Documents

Publication Publication Date Title
KR100658119B1 (ko) 문자 인식 장치 및 방법
CN105981051A (zh) 用于图像解析的分层互连多尺度卷积网络
Torki et al. Window-based descriptors for Arabic handwritten alphabet recognition: a comparative study on a novel dataset
Yadav et al. A robust approach for offline English character recognition
Okamoto et al. Performance evaluation of a robust method for mathematical expression recognition
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
Naz et al. Challenges in baseline detection of Arabic script based languages
JP5913763B1 (ja) 基準線設定装置、基準線設定方法及び基準線設定プログラム
JP5857634B2 (ja) 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
JP6310155B2 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
Khorsheed Recognizing Cursive Typewritten Text Using Segmentation‐Free System
JP2020173669A (ja) 画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム
Naz et al. Challenges in baseline detection of cursive script languages
US11210564B2 (en) Information processing apparatus for character recognition and non-transitory computer readable medium
Suwanwiwat et al. Off-line handwritten Thai name recognition for student identification in an automated assessment system
Sajedi et al. Persian handwritten number recognition using adapted framing feature and support vector machines
Patil et al. Real time handwritten Marathi numerals recognition using neural network
Pattanayak Recognizing ODIA handwritten scripts
Mirza Printed arabic characters recognition based on minimum distance classifier technique
JP2000331122A (ja) 文字認識方法および装置
Zaw et al. Segmentation Method for Myanmar Character Recognition Using Block based Pixel Count and Aspect Ratio
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JP7065065B2 (ja) 文字認識装置
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP5277750B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160201

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160201

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160401

R150 Certificate of patent or registration of utility model

Ref document number: 5913763

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250