JP2016004553A - 文字検出装置、方法およびプログラム - Google Patents

文字検出装置、方法およびプログラム Download PDF

Info

Publication number
JP2016004553A
JP2016004553A JP2014126576A JP2014126576A JP2016004553A JP 2016004553 A JP2016004553 A JP 2016004553A JP 2014126576 A JP2014126576 A JP 2014126576A JP 2014126576 A JP2014126576 A JP 2014126576A JP 2016004553 A JP2016004553 A JP 2016004553A
Authority
JP
Japan
Prior art keywords
character
candidate
character line
detection
line candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014126576A
Other languages
English (en)
Other versions
JP6352695B2 (ja
Inventor
洋次郎 登内
Yojiro Touchi
洋次郎 登内
鈴木 薫
Kaoru Suzuki
薫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014126576A priority Critical patent/JP6352695B2/ja
Priority to US14/742,131 priority patent/US10339657B2/en
Priority to CN201510341213.5A priority patent/CN105303156B/zh
Publication of JP2016004553A publication Critical patent/JP2016004553A/ja
Application granted granted Critical
Publication of JP6352695B2 publication Critical patent/JP6352695B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字列の検出精度および再現性を高めることができる。【解決手段】本実施形態に係る文字検出装置は、特徴抽出部、決定部および統合部を含む。抽出部は、1以上の文字列を含む画像の特徴量を抽出する。決定部は、異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する。統合部は、前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第1閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する。【選択図】図1

Description

本発明の実施形態は、文字検出装置、方法およびプログラムに関する。
スマートフォン、ウェアラブル機器の普及により、看板、標識及びレストランのメニューなど実空間に存在する文字列をカメラで撮影し、撮影した画像から文字列を検出したいという要求がある。カメラで撮影した画像は、文字部分へ照射される照明の条件および影の影響により、文字列の見え方が様々に変化する。このような画像から文字列を検出する手法としては、例えば画像中の画素を連結した連結成分を用いる手法や、機械学習ベースの検出器を用いる手法がある。
特開2005−309771号公報 特開2006−268825号公報 特許第4901676号明細書
J.Lee, P.Lee, S.Lee, A.Yuille, and C.Koch. Adaboost for text detection. In Proceedings of International Conference on Document Analysis and Recognition, pp. 429-434, 2011.
しかし、連結成分を用いる手法は、連結成分が正確に検出できないと文字列を検出できない。よって、例えば、文字と背景の一部とが同系色の場合や、映り込みまたは影で文字色が大きく変化する場合は、連結成分が正確に検出できずに文字列を検出できないことがある。また、機械学習ベースの検出器を用いる場合、文字列を検出できるかどうかは学習データに依存するため、特殊なロゴ、筆記体、飾り文字などが学習時のデータと大きく異なる場合は、これらの文字列を検出できない。
本開示は、上述の課題を解決するためになされたものであり、文字列の検出精度および再現性を高めることができる文字検出装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る文字検出装置は、特徴抽出部、決定部および統合部を含む。抽出部は、1以上の文字列を含む画像の特徴量を抽出する。決定部は、異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する。統合部は、前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第1閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する。
本実施形態に係る文字検出装置を示すブロック図。 文字候補領域検出部の検出処理を示す図。 文字候補領域検出部の検出処理による検出結果を示す図。 第2文字行生成部の文字行生成処理を示す図。 優先度決定部における一致度の算出方法を説明する図。 文字検出方式と特徴量との対応付けの一例を示す図。 文字行の長さと幅との概念を説明する図。 統合部における統合処理を示すフローチャート。 統合部の統合処理結果の一例を示す図。 統合部の統合処理結果の別例を示す図。 文字検出装置の検出精度の評価結果を示すグラフ。
以下、図面を参照しながら本実施形態に係る文字検出装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係る文字検出装置について図1のブロック図を参照して説明する。
本実施形態に係る文字検出装置100は、画像取得部101、第1文字行検出部102(第1検出部)、第2文字行検出部103(第2検出部)、特徴抽出部104、優先度決定部105および統合部106を含む。第1文字行検出部102は、連結成分抽出部107および第1文字行生成部108を含み、第2文字行検出部103は、文字候補領域検出部109および第2文字行生成部110を含む。
画像取得部101は、1以上の文字列を含む画像を取得する。画像は、ここでは、看板、標識およびレストランのメニューなど実空間に存在する文字列をカメラで撮影した画像を想定するが、少なくとも1つの文字列を含む画像であればよい。
第1文字行検出部102は、画像取得部101から画像を受け取り、文字列を検出するための方式である第1文字検出方式を用いて1以上の文字行候補(第1文字行候補ともいう)を検出する。文字行候補は、本実施形態では文字列を含む領域の候補であり、例えば矩形、台形その他四角形、あるいは閉多角形で表される領域である。矩形、台形その他四角形で表される文字行候補は、領域を表すような座標値、始点及び終点の座標値、文字列の中央線と幅などにより表せる。なお、本実施形態では、文字列は横書きの場合を想定するが、縦書きでもよく、文字行も文字列の方向に合わせて縦方向に長い領域となればよい。
第2文字行検出部103は、画像取得部101から画像を受け取り、第1文字検出方式とは異なる方式である第2文字検出方式を用いて、1以上の文字行候補(第2文字行候補ともいう)を検出する。なお、同一の画像に対して第1文字行候補および第2文字行候補を検出しているため、座標系は同一であり、同一の文字列を対象として、第1文字行候補および第2文字行候補が検出されることになる。
特徴抽出部104は、第1文字行検出部102から第1文字行候補を、第2文字行検出部103から第2文字行候補をそれぞれ受け取り、画像の特徴量を抽出する。画像の特徴量としては、例えば輝度値および文字行の長さを抽出すればよい。
優先度決定部105は、特徴抽出部104から画像の特徴量を受け取り、特徴量に対応する特徴を有する画像中の領域(画像領域ともいう)に対する文字検出精度に応じて、第1文字検出方式および第2文字検出方式のどちらを優先するかを示す優先度を決定する。優先度の決定方法については図5を参照して後述する。
統合部106は、第1文字行検出部102から第1文字行候補を、第2文字行検出部103から第2文字行候補を、優先度決定部105から優先度をそれぞれ受け取る。統合部106は、第1文字行候補および第2文字行候補が重畳する領域の割合を示す重畳度、画像の特徴量および優先度に応じて、第1文字行候補および第2文字行候補を選択して統合し、文字行を生成する。統合部106の具体的な処理については、図8を参照して後述する。
次に、第1文字行検出部102について具体的に説明する。
連結成分抽出部107は、画像取得部101から画像を受け取り、画像中の画素のうちの隣接する画素間で、画素の色情報など特徴が類似する画素同士を連結して、1以上の連結成分を生成する。ここでは、画像中の画素を白および黒で二値化し、二値化された画素のうち黒である画素が隣接して2以上連続する場合、連続する画素の集合を連結成分として生成する。
第1文字行生成部108は、連結成分抽出部107から連結成分を受け取り、連結成分間の位置関係と連結成分の類似度とに応じて、ほぼ同一直線上に並んでいる連結成分を組み合わせ、第1文字行候補を生成する。具体的には、連結成分ごとに特徴ベクトルを生成し、2つの連結成分間の位置関係と特徴の類似度とを特徴ベクトルの距離で定義する。特徴ベクトルの距離が閾値未満であれば、2つの連結成分は類似しており同一直線上に並ぶと考えられるので、2つの連結成分を接続する。特徴ベクトルの各要素としては、例えば、連結成分の中心点を表すx座標およびy座標、各連結成分の平均色、連結成分のサイズ(高さ、幅、周囲の長さなど)が挙げられる。なお、中心点とは、例えば、連結成分に対して外接する四角形の中央点であればよい。また、Neumann L., Matas J.: Text Localization in Real-world Images using Efficiently Pruned Exhaustive Search, ICDAR 2011 (Beijing, China) “C. Exhaustive search”に開示される手法を用いて文字行候補を生成してもよい。以上の第1文字行生成部108の処理を、連結成分を用いた行検出(CC行検)とも呼ぶ。
次に、第2文字行検出部103について具体的に説明する。
文字候補領域検出部109は、画像取得部101から画像を受け取り、予め文字の画像データを学習しておき、特定の形状を有する画像領域を検出して、文字候補領域を生成する。画像データの学習については、一般的な学習処理を行えばよいのでここでの説明は省略する。
第2文字行生成部110は、文字候補領域検出部109から文字候補領域を受け取り、同一サイズの文字候補領域がほぼ同一直線上に並ぶ連結成分を組み合わせ、第2文字行候補を生成する。ここでは、第2文字行生成部110における処理は、文字候補領域を用いた行検出を想定する。
次に、文字候補領域検出部109の検出処理について図2および図3を参照して説明する。
文字候補領域抽出処理の一例として、図2に示すように、画像201全体に対し様々なサイズのウィンドウ202を用いてスキャンを行い、画像201中で文字であると推定される文字候補領域を抽出する。ウィンドウ202のサイズを変更することにより、様々な大きさの文字についても文字候補領域として検出することができる。すなわち、あるサイズのウィンドウ202では領域からはみ出るような文字についても、ウィンドウ202のサイズを大きくすることでウィンドウ202の領域内に収まり、文字候補領域として検出することができる。
図2に示す方法で文字候補領域を抽出した結果を図3に示す。図3に示すように、画像201中の文字に対して文字候補領域301を抽出することができる。
次に、第2文字行生成部110の文字行生成処理について図4を参照して説明する。
図4は、ハフ(Hough)変換を用いた行検出(ハフ行検)の概念を示す。画像を示す画像平面401として、縦軸がx、横軸がyである座標平面を想定する。画像平面401中の文字候補領域402を、投票空間403に投票する。投票空間403は、縦軸がρ、横軸がθであり、文字候補領域402のサイズに関するsを有する3次元のパラメータを表す空間である。図4に示すように、文字候補領域402のサイズが小さい場合は、文字候補領域402はsが小さい投票空間に投票され、文字候補領域402のサイズが大きい場合は、文字候補領域402はsが大きい投票空間に投票される。各投票空間において最大の投票数となった座標値を直線パラメータとする第2文字行候補として生成する。
次に、優先度決定部105の優先度決定処理について図5を参照して説明する。
予め文字行の位置が把握できている学習用の画像(以下、学習用画像という)を用意し、学習用画像に対して、第1文字行検出部102が第1文字検出方式により第1文字行候補を生成し、第2文字行検出部103が第2文字検出方式により第2文字行候補を生成する。なお、同じ文字検出方式であれば、第1文字行検出部102および第2文字行検出部103が処理を行わずに、予め第1文字検出方式および第2文字検出方式で処理された第1文字行候補および第2文字行候補を用いてもよい。
優先度決定部105は、第1文字行候補と予め文字列の位置が把握できている文字行(以下、基準文字行という)との一致度を算出する。同様に、優先度決定部105は、第2文字行候補と基準文字行との一致度を算出する。第1文字行候補に対して算出される一致度と第2文字行候補に対して算出される一致度とを比較して、一致度が高い方を文字検出精度が高い方式であるとして優先度を他の方式よりも高く設定する。
一致度は、文字行候補と基準文字行とが重畳する領域の面積を、文字行候補と基準文字行との全体の面積で割った値を用いればよく、例えば以下の式(1)により算出することができる。
一致度=S(s1∩s2)/S(s1∪s2)・・・(1)
ここで、S()は面積、s1は基準文字行、s2は第1文字行候補または第2文字行候補、∩は積集合、∪は和集合である。
図5の例で、例えば基準文字行501と第1文字行候補502とを比較する場合を想定すると、破線で囲まれる基準文字行501および第1文字行候補502全体の面積を示す領域503に対して、斜線で示される領域504が大きいほど一致度が高くなる。
また、例えば特徴抽出部104において、優先度決定のための学習用画像における基準文字行の領域の特徴量を算出しておき、優先度決定部105が特徴量と優先度とを対応付ける。これにより、処理対象となる画像の特徴量に応じて、基準文字行の領域の特徴量と一致または類似する特徴量に対応する優先度を参照すれば、第1文字検出方式および第2文字検出方式のどちらを優先すればよいかが把握することができる。
文字検出方式と特徴量との対応付けの一例について図6を参照して説明する。
図6は、条件601に対する、第1文字検出方式602および第2文字検出方式603のそれぞれの検出結果を示す。条件601は、特徴量に関する条件であり、ここでは輝度差を想定する。
例えば、条件601「輝度変化が小さい場合」は、例えば背景と文字列とが同色となる場合であり、第1文字検出方式602の方が、第2文字検出方式603よりも検出精度が高くなる傾向がある。一方、条件601「輝度変化が大きい場合」は、文字列が例えば白抜き文字である場合であり、第2文字検出方式603の方が、第1文字検出方式602よりも検出精度が高くなる傾向がある。
よって、処理対象となる画像に対して文字検出方式の優先度を決定する場合は、特徴量として、第1文字検出方式602により生成される第1文字行候補および第2文字検出方式603により生成される第2文字行候補のそれぞれの領域の輝度分布を算出する。輝度分布の分散が閾値以上である場合は、条件601「輝度変化が大きい場合」に該当するとして、第2文字検出方式603の優先度を高く設定する。一方、輝度分布の分散が閾値未満である場合は、条件601「輝度変化が小さい場合」に該当するとして、第1文字検出方式602の優先度を高く設定すればよい。なお、第1文字行候補および第2文字行候補それぞれの領域の輝度を算出するのに代えて、画像全体の輝度を算出し、画像全体の輝度を参照するようにしてもよい。この場合は、特徴抽出部104が画像取得部101から画像を受け取り、画像全体の輝度を算出し、優先度を決定する際に用いればよい。
さらに、特徴量に関する条件として、文字行候補の長さ、幅および面積を用いてもよい。
文字行候補の長さと幅との概念を図7に示す。文字列の長さ701が長くなるほど、第2文字検出方式の方が第1文字検出方式よりも検出精度が高くなる。よって、例えば、特徴量として、第1文字検出方式により生成される第1文字行候補と、第2文字検出方式により生成される第2文字行候補との平均の長さを算出する。平均の長さが閾値以上である場合は、第2文字検出方式の優先度を高く設定し、平均の長さが閾値未満である場合は、第1文字検出方式の優先度を高く設定すればよい。
次に、統合部106における統合処理について図8のフローチャートを参照して説明する。
ステップS801では、第1文字行候補と第2文字行候補との重畳度が閾値以上であるかどうかを判定する。重畳度は、優先度決定部105における第1文字行候補と基準文字行との一致度または第2文字行候補と基準文字行との一致度の算出方法と同様に算出すればよく、第1文字行候補と第2文字行候補とが重畳する領域の面積を、第1文字行候補および第2文字行候補の全体の面積で割った値を用いればよい。重畳度が閾値以上である場合はステップS802に進み、重畳度が閾値未満である場合はステップS803に進む。
ステップS802では、優先度が高い文字検出方式により生成された文字行候補を文字行として選択する。
ステップS803では、内包される領域が存在するかどうか、つまり内包関係が存在するかどうかを判定する。内包関係の判定は、ここでは、第1文字行候補に第2文字行候補が内包されるか、または第2文字行候補に第1文字行候補が内包されるかを判定する。第1文字行候補および第2文字行候補のうちの小さい領域を有する文字行候補(最小文字行候補ともいう)全体の大きさに占める重畳する領域の大きさが閾値以上であれば内包関係が存在すると判定すればよい。内包される領域が存在する場合はステップS804に進み、内包される領域が存在しない場合はステップS805に進む。
ステップS804では、内包関係にある文字行候補のうちの大きい領域を有する文字行候補(最大文字行候補)を文字行として選択する。例えば、第2文字行候補が第1文字行候補に内包されていれば、第1文字行候補を文字行として選択する。
ステップS805では、第1文字行候補および第2文字行候補が互いに重畳していないか、重畳部分が内包関係となる面積よりも小さい場合であるので、第1文字行候補および第2文字行候補の両方を文字行として選択する。以上で統合処理を終了する。
次に、統合部106の統合処理結果の一例について図9を参照して説明する。
図9(a)は、統合前の状態において、処理対象となる画像に対して、第1文字行候補と、第2文字行候補との両方を生成して1つの画像に表示する場合である。破線が第1文字行候補901を示し、一点鎖線が第2文字行候補902である。
図9(a)に示すように、中間部にある領域903は、重畳度が閾値以上であり、最下部にある領域904は、第1文字行候補901が第2文字行候補902に内包される内包関係にある。また、第1文字検出方式の優先度が高い場合を想定する。
図9(b)に示すように統合後は、領域903では、重畳度が閾値以上であるので優先度が高い第1文字行候補901が文字行として選択され、領域904では、内包関係が存在するので領域が大きい方の第2文字行候補902が文字行として選択される。
次に、統合処理結果の別例について図10を参照して説明する。
図10(a)は、第2文字行候補であり、図10(b)は、第1文字行候補であり、図10(c)は、統合結果である。
図9の場合と同様に、例えば文字列「Tiredness」の文字行候補の重畳度が閾値以上であれば、優先度が高い図10(b)に示す第1文字行候補が文字行として選択される。また、文字列「your life」は、第1文字行候補が第2文字行候補に内包されているため、大きい方の第2文字行候補が文字行として選択される。
次に、検出精度の評価結果について図11を参照して説明する。
図11に示すグラフは、文字行を検出する手法の違いによる検出精度を評価したグラフであり、縦軸が適語率であり、横軸が再現率である。点1101は第1文字検出方式のみの場合であり、点1102は第2文字検出方式のみの場合であり、点1103は本実施形態に係る文字検出装置による処理の場合である。
図11に示すように、点1101の第1文字検出方式では、再現率が約62%、適語率が約82%であり、点1102の第2文字検出方式では、再現率が約59%、適語率が約85%である。一方、点1103の本実施形態に係る文字検出装置によれば、再現率が約68%、適語率が約87%と再現率および適語率がともに向上していることが分かる。
なお、本実施形態では、第1文字検出方式と第2文字検出方式との2つの方式を用いて文字を検出する場合を想定するが、これに限らず、3以上の文字検出方式を用いてもよい。
例えば、優先度決定部105では、3以上の文字検出方式を用いる場合は、複数の文字検出方式のそれぞれに対して、基準文字行との一致度を算出し、一致度が最も高い文字検出方式の優先度を最も高く決定すればよい。
また、統合部106においても、図8に示すフローチャートと同様に処理することができる。例えば、図8に示すステップS801において、3つ以上の文字検出方式のそれぞれにおいて検出される文字行候補間において重畳する領域があり、かつ重畳度が閾値以上である場合は、ステップS802において、優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択すればよい。
また、ステップS803において、複数の文字検出方式により検出された文字行候補のうちの最も小さい領域を有する文字行候補を最小文字行候補として、最小文字行候補全体の大きさに対して、重畳する領域の大きさが閾値以上であれば内包関係が存在すると判定すればよい。ステップS804においては、複数の文字検出方式により検出された文字行候補のうちの最も大きい領域を有する文字行候補を最大文字行候補として、最大文字行候補を文字行として選択すればよい。
ステップS805においては、複数の文字検出方式により検出された文字行候補をそれぞれ文字行として選択すればよい。
以上に示した本実施形態によれば、画像の特徴量に応じて、文字検出方式の優先度を決定し、画像から複数の文字検出方式を用いて文字行候補を検出し、画像の特徴量に応じた優先度に応じて、文字行候補を選択して文字行として統合することで、どのような画像に対しても文字列の検出精度および再現性を向上させることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した文字検出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の文字検出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・文字検出装置、101・・・画像取得部、102・・・第1文字行検出部、103・・・第2文字行検出部、104・・・特徴抽出部、105・・・優先度決定部、106・・・統合部、107・・・連結成分抽出部、108・・・第1文字行生成部、109・・・文字候補領域検出部、110・・・第2文字行生成部、201・・・画像、202・・・ウィンドウ、301,402・・・文字候補領域、401・・・画像平面、403・・・投票空間、501・・・基準文字行、502,901・・・第1文字行候補、503,504,903,904・・・領域、601・・・条件、701・・・長さ、902・・・第2文字行候補、1101,1102,1103・・・点。

Claims (8)

  1. 1以上の文字列を含む画像の特徴量を抽出する特徴抽出部と、
    異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する決定部と、
    前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第1閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する統合部と、を具備することを特徴とする文字検出装置。
  2. 前記統合部は、前記重畳度が前記第1閾値未満でありかつ重畳する文字行候補のうちの最も小さい領域を有する最小文字行候補に占める前記重畳する領域の割合が第2閾値以上である場合、前記重畳する文字行候補のうちの最も大きい領域を有する最大文字行候補を前記文字行として選択し、該最小文字行候補に占める該重畳する領域の割合が該第2閾値未満である場合、該重畳する文字行候補のそれぞれを該文字行として選択することを特徴とする請求項1に記載の文字検出装置。
  3. 第1文字検出方式を用いて前記文字列を検出し、該文字列を含む領域の候補となる第1文字行候補を得る第1検出部と、
    第2文字検出方式を用いて前記文字列を検出し、該文字列を含む領域の候補となる第2文字行候補を得る第2検出部と、をさらに具備し、
    前記決定部は、前記第1文字検出方式および前記第2文字検出方式のそれぞれに対して前記優先度を決定し、
    前記統合部は、前記第1文字行候補および前記第2文字行候補を統合し、該第1文字行候補と該第2文字行候補とが重畳する領域の割合を示す重畳度が前記第1閾値以上である場合、前記優先度が高い文字検出方式により検出された文字行候補を文字行として選択することを特徴とする請求項1または請求項2に記載の文字検出装置。
  4. 前記第1検出部は、
    前記画像中の隣接する画素のうちの特徴が類似する画素同士を連結し、複数の連結成分を得る連結成分抽出部と、
    前記連結成分間の位置関係と該連結成分の類似度とに応じて該連結成分を組み合わせ、前記第1文字行候補を生成する第1生成部と、を具備し、
    前記第2検出部は、
    前記画像から文字候補となる1以上の文字候補領域を選択する文字候補領域検出部と、
    前記1以上の文字候補領域を組み合わせ、前記第2文字行候補を生成する第2生成部と、を具備することを特徴とする請求項3に記載の文字検出装置。
  5. 第1生成部は、連結成分を用いた行検出により前記第1文字行候補を生成し、第2生成部は、文字候補領域を用いた行検出により前記第2文字行候補を生成することを特徴とする請求項4に記載の文字検出装置。
  6. 前記特徴量は、輝度値または文字行候補の長さであることを特徴とする請求項1から請求項5のいずれか1項に記載の文字検出装置。
  7. 1以上の文字列を含む画像の特徴量を抽出し、
    異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定し、
    前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第1閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択することを特徴とする文字検出方法。
  8. コンピュータを、
    1以上の文字列を含む画像の特徴量を抽出する特徴抽出手段と、
    異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する決定手段と、
    前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第1閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する統合手段として機能させるための文字検出プログラム。
JP2014126576A 2014-06-19 2014-06-19 文字検出装置、方法およびプログラム Active JP6352695B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014126576A JP6352695B2 (ja) 2014-06-19 2014-06-19 文字検出装置、方法およびプログラム
US14/742,131 US10339657B2 (en) 2014-06-19 2015-06-17 Character detection apparatus and method
CN201510341213.5A CN105303156B (zh) 2014-06-19 2015-06-18 字符检测装置、方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014126576A JP6352695B2 (ja) 2014-06-19 2014-06-19 文字検出装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016004553A true JP2016004553A (ja) 2016-01-12
JP6352695B2 JP6352695B2 (ja) 2018-07-04

Family

ID=54870116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014126576A Active JP6352695B2 (ja) 2014-06-19 2014-06-19 文字検出装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US10339657B2 (ja)
JP (1) JP6352695B2 (ja)
CN (1) CN105303156B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6259962B1 (ja) * 2017-03-30 2018-01-10 株式会社オプティム 遠隔作業支援システム、遠隔作業支援方法およびプログラム
EP3358502A1 (en) 2017-02-03 2018-08-08 Kabushiki Kaisha Toshiba Image processing device, image processing method and computer-readable medium
US10235776B2 (en) 2015-09-07 2019-03-19 Kabushiki Kaisha Toshiba Information processing device, information processing method, and information processing program
US11170507B2 (en) 2018-09-12 2021-11-09 Kabushiki Kaisha Toshiba Image processing apparatus, method and program

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9621761B1 (en) * 2015-10-08 2017-04-11 International Business Machines Corporation Automatic correction of skewing of digital images
CN108961532B (zh) * 2017-05-26 2020-11-17 深圳怡化电脑股份有限公司 冠字号图像处理方法、装置、设备及存储介质
JP6907774B2 (ja) * 2017-07-14 2021-07-21 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム
JP6922690B2 (ja) * 2017-11-22 2021-08-18 富士通株式会社 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法
CN109784330B (zh) * 2019-01-03 2021-03-23 北京百度网讯科技有限公司 招牌内容识别方法、装置及设备
CN110991437B (zh) * 2019-11-28 2023-11-14 嘉楠明芯(北京)科技有限公司 字符识别方法及其装置、字符识别模型的训练方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161421A (ja) * 1994-12-08 1996-06-21 Toshiba Corp 文字列領域抽出装置および方法
JP2005071088A (ja) * 2003-08-25 2005-03-17 Canon Inc 画像処理装置、画像処理方法ならびにプログラム、記憶媒体
JP2007183742A (ja) * 2006-01-05 2007-07-19 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP2010066981A (ja) * 2008-09-10 2010-03-25 Ricoh Co Ltd 画像処理装置、画像処理方法、制御プログラム及び記録媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS491676A (ja) 1972-04-18 1974-01-09
JP2003256772A (ja) 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
JP4774200B2 (ja) 2004-04-21 2011-09-14 オムロン株式会社 文字列領域抽出装置
JP4587698B2 (ja) 2004-04-21 2010-11-24 オムロン株式会社 文字成分抽出装置
JP2006268825A (ja) 2005-02-28 2006-10-05 Toshiba Corp オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム
JP4443443B2 (ja) * 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP4901676B2 (ja) 2007-09-28 2012-03-21 株式会社東芝 ナンバープレート情報処理装置及びナンバープレート情報処理方法
JP2010186246A (ja) 2009-02-10 2010-08-26 Nec Corp 画像処理装置、方法、及び、プログラム
JP5367833B2 (ja) * 2009-09-29 2013-12-11 株式会社東芝 関心領域抽出装置及びプログラム
JP5538812B2 (ja) * 2009-10-23 2014-07-02 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5699570B2 (ja) * 2010-11-30 2015-04-15 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
GB201203858D0 (en) * 2012-03-05 2012-04-18 Porta Holding Ltd Automated processing of documents
CN103425973B (zh) 2012-05-25 2019-05-31 夏普株式会社 对含有文本的图像进行增强处理的方法、装置和视频显示设备
JP5787843B2 (ja) * 2012-08-10 2015-09-30 株式会社東芝 手書き描画装置、方法及びプログラム
JP5774558B2 (ja) * 2012-08-10 2015-09-09 株式会社東芝 手書き文書処理装置、方法及びプログラム
JP5936698B2 (ja) * 2012-08-27 2016-06-22 株式会社日立製作所 単語意味関係抽出装置
JP2014102669A (ja) * 2012-11-20 2014-06-05 Toshiba Corp 情報処理装置、情報処理方法およびプログラム
JP2014186691A (ja) * 2013-03-25 2014-10-02 Toshiba Corp 情報表示装置
US8947745B2 (en) * 2013-07-03 2015-02-03 Symbol Technologies, Inc. Apparatus and method for scanning and decoding information in an identified location in a document
JP2015099566A (ja) * 2013-11-20 2015-05-28 株式会社東芝 特徴算出装置、方法及びプログラム
CN103699895B (zh) * 2013-12-12 2018-02-09 天津大学 一种视频中文字的检测与提取方法
US9183636B1 (en) * 2014-04-16 2015-11-10 I.R.I.S. Line segmentation method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161421A (ja) * 1994-12-08 1996-06-21 Toshiba Corp 文字列領域抽出装置および方法
JP2005071088A (ja) * 2003-08-25 2005-03-17 Canon Inc 画像処理装置、画像処理方法ならびにプログラム、記憶媒体
JP2007183742A (ja) * 2006-01-05 2007-07-19 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP2010066981A (ja) * 2008-09-10 2010-03-25 Ricoh Co Ltd 画像処理装置、画像処理方法、制御プログラム及び記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235776B2 (en) 2015-09-07 2019-03-19 Kabushiki Kaisha Toshiba Information processing device, information processing method, and information processing program
EP3358502A1 (en) 2017-02-03 2018-08-08 Kabushiki Kaisha Toshiba Image processing device, image processing method and computer-readable medium
US10296802B2 (en) 2017-02-03 2019-05-21 Kabushiki Kaisha Toshiba Image processing device, image processing method, and computer program product
JP6259962B1 (ja) * 2017-03-30 2018-01-10 株式会社オプティム 遠隔作業支援システム、遠隔作業支援方法およびプログラム
WO2018179223A1 (ja) * 2017-03-30 2018-10-04 株式会社オプティム 遠隔作業支援システム、遠隔作業支援方法およびプログラム
US10819699B2 (en) 2017-03-30 2020-10-27 Optim Corporation System, method, and program for remotely supporting work
US11170507B2 (en) 2018-09-12 2021-11-09 Kabushiki Kaisha Toshiba Image processing apparatus, method and program

Also Published As

Publication number Publication date
CN105303156B (zh) 2020-04-21
JP6352695B2 (ja) 2018-07-04
US10339657B2 (en) 2019-07-02
CN105303156A (zh) 2016-02-03
US20150371399A1 (en) 2015-12-24

Similar Documents

Publication Publication Date Title
JP6352695B2 (ja) 文字検出装置、方法およびプログラム
US9430704B2 (en) Image processing system with layout analysis and method of operation thereof
JP5837205B2 (ja) 画像領域を使用するテキスト検出
CN111435438A (zh) 适于增强现实、虚拟现实和机器人的图形基准标记识别
CN106326895B (zh) 图像处理装置和图像处理方法
JP2013101616A (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JP5847062B2 (ja) 画像処理装置
JP2015103188A (ja) 画像解析装置、画像解析方法及び画像解析プログラム
JP2014186520A (ja) 画像処理装置、画像処理方法およびプログラム
JP6542406B1 (ja) 読取システム、読取方法、プログラム、及び記憶媒体
JP2016130979A (ja) 検知装置、検知処理プログラム及び検知システム
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
US10915772B2 (en) Apparatus and method for registering face pose for face recognition
JP6591257B2 (ja) 画像処理装置、画像処理方法及びプログラム
US9111142B2 (en) Method and apparatus for providing sign information
US20220189182A1 (en) Reading system, reading device, and storage medium
JP2015176252A (ja) 画像処理装置および画像処理方法
Chang et al. Multi-level smile intensity measuring based on mouth-corner features for happiness detection
JP2019145182A (ja) 読取システム、読取方法、プログラム、及び記憶媒体
JP6468880B2 (ja) 文字領域抽出装置及びプログラム
JP6684947B2 (ja) 読取システム、読取装置、プログラム、及び記憶媒体
JP5993100B2 (ja) 画像処理装置および特定図形検出方法
US20170069137A1 (en) Information processing device, information processing method, and information processing program
CN109977746B (zh) 用于登记面部姿态以用于面部识别的设备和方法
JP2007299057A (ja) 帳票処理装置、帳票処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180607

R151 Written notification of patent or utility model registration

Ref document number: 6352695

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350