JP2014228953A - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
JP2014228953A
JP2014228953A JP2013106439A JP2013106439A JP2014228953A JP 2014228953 A JP2014228953 A JP 2014228953A JP 2013106439 A JP2013106439 A JP 2013106439A JP 2013106439 A JP2013106439 A JP 2013106439A JP 2014228953 A JP2014228953 A JP 2014228953A
Authority
JP
Japan
Prior art keywords
character
line
area
character area
starting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013106439A
Other languages
English (en)
Other versions
JP6286866B2 (ja
Inventor
洋貴 和田
Hirotaka Wada
洋貴 和田
相澤 知禎
Chitei Aizawa
知禎 相澤
徳和 殿谷
Norikazu Tonoya
徳和 殿谷
匡史 日向
Tadashi Hyuga
匡史 日向
善久 湊
Yoshihisa Minato
善久 湊
正道 大江
Masamichi Oe
正道 大江
小林 幸司
Koji Kobayashi
幸司 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2013106439A priority Critical patent/JP6286866B2/ja
Priority to EP14801272.7A priority patent/EP3001352B1/en
Priority to CN201480027116.2A priority patent/CN105229669B/zh
Priority to KR1020157032525A priority patent/KR101747588B1/ko
Priority to PCT/JP2014/054968 priority patent/WO2014188753A1/ja
Priority to US14/892,368 priority patent/US9607237B2/en
Publication of JP2014228953A publication Critical patent/JP2014228953A/ja
Application granted granted Critical
Publication of JP6286866B2 publication Critical patent/JP6286866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字切り出し処理における行認識の精度を向上するための技術を提供する。
【解決手段】行認識手段は、第1の文字領域を起点として行抽出処理を行う場合と、第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、第1の文字領域を起点とする行に第3の文字領域を加入した場合と、第2の文字領域を起点とする行に第3の文字領域を加入した場合とを比較することにより、第3の文字領域をいずれの行に加入すべきか決定する。
【選択図】図11

Description

本発明は、文字認識技術に関する。
画像処理の一つである文字認識は、例えば、ファックスやスキャナにおける文字書き起こし自動化(OCR:Optical Character Recognition)、生産ラインにおける印字文字
の検査など、様々な場面において幅広く普及している。FA業界では、近年、トレーサビリティ強化の潮流があり、工業製品などに印字された文字を高速かつ正確に読み取る技術のニーズがさらに増している。
文字認識は、大きく分けて、文字切り出し処理と文字認識処理の二段階の手順で実施される。最初に、文字切り出し処理によって、画像中の文字領域の検出、位置の特定、行やレイアウトの特定などが行われ、後段の文字認識処理において、各々の文字領域内の画素がどの文字を表しているかを同定するのである(文字を同定することを「文字を読む」ともいう)。
文字認識の正確性を向上するには、同定アルゴリズムの改良は当然重要であるが、前段の文字切り出し処理において、文字の行やレイアウトを正確に特定することも極めて重要である。例えば、食品パッケージでは、製造年月日と消費期限とが2段組み(2行)で印字されていることが多いが、文字切り出し処理において各々の文字(数字)がどちらの行に属しているかを特定し、1行目の文字群と2行目の文字群とを予め正しく分離しておかなければ、製造年月日や消費期限の読み取りに失敗してしまう。
行の認識(文字がどの行に属するかの判断)を誤る要因の一つに、文字列の湾曲(同じ行の文字列が曲線的に配置された状態)が挙げられる。文字列の湾曲が発生する代表的な理由には以下のものが挙げられる。
・平面でない物体表面上に文字が印字された場合
・文字が印字された物体自体が湾曲する場合(例えばシート状の物体や表面が伸縮する物体に印字したとき)
・文字列が曲線的に配置されたレイアウトデザインの場合
・プリンタの不具合などにより印字が曲がってしまった場合
また、画像処理の問題として、画像上に多数の文字が存在する場合や、ノイズ(汚れなど)を文字と誤認識した場合にも、行の認識を誤ることがある。
湾曲した文字列の行認識にかかわる先行技術として、特許文献1には、横書きの文書をスキャナで読み取り文字認識する際に、隣接する二つの文字が同一行であるかどうかを、隣接する二つの文字の外接矩形同士の縦方向の重なり度から判定し、それを繰り返すことにより同一行の文字群を抽出するという方法が開示されている。この方法は、文書原稿のように、行と行の間の空白が比較的大きく(つまり、行の分離性が高く)、且つ、各行の文字が整然と並んでいる画像に対しては、有効な方法かもしれない。しかしながら、行間が狭い場合や文字列の湾曲が大きい場合などには、行の誤認識が発生するおそれがある。例えば、図15に示すような文字列(1行目:「123」、2行目:「ABCD」)を含む画像を想定する。特許文献1の方法では、「1」を起点に「1」→「2」→「3」と順にサーチしたところで、「3」と「C」が同一行にあると誤判定してしまうと、「3」→「C」→「D」のように別の行へとサーチが進行し、結果として「123CD」を一つの行として切り出してしまう。そして、次の行では、「A」を起点に「A」→「B」とサーチした時点で処理が終了するので、1行目の誤認識が原因で2行目の誤認識も招く結果と
なる。
また、特許文献2には、縦書きの行と横書きの行が混在する文書が与えられた場合に、行内の文字数、文字の近接性、文字のサイズや間隔の同質性などに基づき、縦書きの行か横書きの行かを判定する方法が開示されている。しかしながら、この方法は湾曲した文字列の行認識を目的としたものではないし、たとえこの方法を適用したとしても、図15に示すような文字列の行を正確に認識することは困難である。
特開平8−44819号公報 特開2008−217833号公報
本発明は、上記実情に鑑みてなされたものであり、文字切り出し処理における行認識の精度を向上するための技術を提供することを目的とする。
上記目的を達成するために、本発明では、以下の構成を採用する。
本発明に係る画像処理装置は、複数行の文字列を含む画像から各行の領域を特定する画像処理装置であって、画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定手段と、ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数の行に分ける行認識手段と、を有する画像処理装置である。前記行認識手段は、第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合と、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合とを比較することにより、前記第3の文字領域をいずれの行に加入すべきか決定する。
この構成によれば、第3の文字領域が第1の文字領域と同じ行に属する可能性と、第3の文字領域が第2の文字領域と同じ行に属する可能性の両者を考慮・比較して、第3の文字領域をいずれの行に加入するのが妥当かを決定する。したがって、従来よりも誤判定の少ない、高精度な行認識が可能となる。
「前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合と、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合とを比較する」方法としては、第3の文字領域自体の局所的な連結性(いずれの行との連結性がよいか)を評価する方法や、第3の文字領域の連結先を変えたバリエーション(行の分け方の候補)を作成し、各候補の妥当性を総合的に評価する方法など、様々な方法を採り得る。
例えば、「局所的な連結性を評価する方法」としては、前記行認識手段が、前記第1の文字領域を起点とする行の隣接文字領域に対する前記第3の文字領域の連結の強さと、前記第2の文字領域を起点とする行の隣接文字領域に対する前記第3の文字領域の連結の強さを比較し、連結が強い方の行に前記第3の文字領域を加入する、という方法がある。
この方法によれば、隣接文字領域に対する第3の文字領域の局所的な連結性を評価するだけでよいので、高速かつ簡易な処理を実現できる。また、各行の行抽出処理を繰り返し実行する中で、誤った連結箇所を逐次修正することも可能となる。
「連結の強さ」を評価するための指標としては、例えば、「行の方向に対し直交する方向に関する、隣接文字領域と第3の文字領域の重なりの度合い」、「隣接文字領域と第3の文字領域の大きさ(高さ、幅、面積など)の類似度合い」、「隣接文字領域内の画像と第3の文字領域内の画像の色又は輝度の特徴の類似度合い」などの指標を好ましく用いることができる。また、「隣接文字領域と第3の文字領域の近さ(間隔の小ささ)」、「隣接文字領域に含まれる文字と第3の文字領域に含まれる文字との接続関係の強さ」などを「連結の強さ」を評価するための指標として用いることもできる。これらの指標のうち二つ以上の指標を組み合わせて用いてもよいし、これらの指標以外の指標を用いてもよい。
また、「複数の候補の妥当性を総合的に評価する方法」としては、各行の文字列の形式を定義するフォーマット文字列を利用する方法がある。具体的には、行認識手段が、前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合に生成される複数の行を第1の候補、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合に生成される複数の行を第2の候補とし、前記第1の候補の各行から認識される文字列の形式と前記フォーマット文字列で定義された各行の文字列の形式との類似度と、前記第2の候補の各行から認識される文字列の形式と前記フォーマット文字列で定義された各行の文字列の形式との類似度とを比較し、類似度が高い方の候補を採用するとよい。
この方法によれば、可能性のある複数の候補の中から、フォーマット文字列で定義された文字列の形式に最も適合するものが選ばれるので、より誤判定の少ない高精度な行認識が可能となる。この方法は、例えば、賞味期限、ロット番号、自動車のナンバープレート、カード番号などのように、行数や各行の形式が既知の場合に好ましく適用することができる。
フォーマット文字列は、文字列を構成する文字の数と、一部又は全部の文字の文字種とを少なくとも定義する情報であるとよい。文字数と文字種が予め分かっているだけでも、行候補の妥当性判断に非常に有用である。
「行」とは、複数の文字の並びを意味し、本明細書では、横方向、縦方向、斜め方向など、いずれの方向の文字の並びも「行」と呼ぶ。「文字」には、英字、数字、記号、特殊文字、漢字、ひらがな、カタカナ、絵文字などいかなる種類の文字も含み得る。「文字要素」とは、文字を構成する画素群(複数の画素の塊)である。単一の文字を構成する画素群を文字要素として抽出することが望ましいが、文字の一部分に該当する画素群、又は、同じ行の複数文字を構成する画素群を文字要素として抽出してもよい。「文字領域」とは、一つの文字要素を内包するように設定される領域であり、例えば、文字要素の外接矩形などを用いることができる。
なお、本発明は、上記構成ないし機能の少なくとも一部を有する画像処理装置や、この画像処理装置を有する行認識装置、文字認識装置、検査装置、ロボットビジョンなどとして捉えることができる。また、本発明は、上記処理の少なくとも一部を有する画像処理方法、行認識方法、文字認識方法、検査方法や、これらの方法の各ステップをコンピュータに実行させるためのプログラムや、そのプログラムを記憶したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
本発明によれば、文字切り出し処理における行認識の精度を向上することができる。
視覚センサシステムの全体構成を示す図。 画像処理装置の概略構成図。 第1実施形態に係る文字認識処理の機能構成図。 第1実施形態に係る文字認識処理の全体フロー。 第1実施形態に係る行切り出し処理を説明する図。 第1実施形態に係る文字領域設定処理を説明する図。 第1実施形態に係る強制分割処理を説明する図。 第1実施形態に係る左優先ソートを説明する図。 第1実施形態に係る行認識処理を説明する図。 第1実施形態に係る行認識処理の結果を示す図。 第1実施形態に係る行認識処理における誤判定の修正手順を説明する図。 第2実施形態に係る文字認識処理の機能構成図。 第2実施形態に係る行候補切り出し処理を説明する図。 第2実施形態に係るフォーマット照合処理を説明する図。 行の誤判定の例を説明する図。
以下、図面を参照して本発明の好適な実施の形態について説明する。以下の実施形態では、本発明に係る画像処理装置を、製造物に印字された文字列の読み取りや検査を行う視覚センサシステムに適用した例を挙げる。製造物に印字された文字列は、行が湾曲していたり行間が狭い等の理由により行や文字の切り出しが難しいケースが多いので、本発明に係る文字切り出し処理を特に好ましく適用できる例の一つである。ただし、視覚センサシステムは本発明の適用例の一つにすぎず、行認識装置、文字認識装置、検査装置、ロボットビジョンなど、文字認識を利用するものであればいかなるシステムにも本発明を適用することができる。
<第1実施形態>
(視覚センサシステム)
図1を参照して、画像処理装置100を含む視覚センサシステム1の全体構成について説明する。
視覚センサシステム1は、生産ラインなどに組み込まれ、製造物(ワーク2)を撮像することで得られる入力画像に対して文字認識を実行することで、ワーク2に印字された文字列の読み取りや検査を行うシステムである。ワーク2はベルトコンベヤなどの搬送機構6によって搬送され、カメラ8によって所定タイミングで撮像される。カメラ8で撮像した画像は、画像処理装置100へ伝送される。画像処理装置100は、入力画像に対して行及び文字の切り出し、文字の認識等の処理を実行し、その結果をディスプレイ102で表示したり、その結果を外部装置へ出力したりする。
ワーク2がカメラ8の視野内に到達したことは、搬送機構6に設置された光電センサ4によって検出される。具体的には、光電センサ4は、投光部4bから放射される光がワーク2で遮蔽されることを受光部4aで検出することによって、ワーク2の到達を検出する。この光電センサ4のトリガー信号は、PLC(Programmable Logic Controller)5へ
出力される。PLC5は、トリガー信号を受信するとともに、搬送機構6の制御を司る。
(画像処理装置のハードウェア構成)
図2は、画像処理装置100の概略構成図である。画像処理装置100は、CPU(Ce
ntral Processing Unit)110と、記憶部としてのメインメモリ112およびハードデ
ィスク114と、カメラインターフェイス116と、入力インターフェイス118と、表示コントローラ120と、PLCインターフェイス122と、通信インターフェイス124と、データリーダ/ライタ126とを含む。これらの各部は、バス128を介して、互いにデータ通信可能に接続される。カメラインターフェイス116は、CPU110とカメラ8との間のデータ伝送を仲介する部分であり、カメラ8からの画像データを一時的に蓄積するための画像バッファ116aを有している。入力インターフェイス118は、CPU110とマウス104、キーボード、タッチパネルなどの入力部との間のデータ伝送を仲介する。表示コントローラ120は、ディスプレイ102に接続され、当該ディスプレイ102での表示を制御する。PLCインターフェイス122は、CPU110とPLC5との間のデータ伝送を仲介する。通信インターフェイス124は、CPU110とコンソール(あるいは、パーソナルコンピュータやサーバ装置)などとの間のデータ伝送を仲介する。データリーダ/ライタ126は、CPU110と記憶媒体であるメモリカード106との間のデータ伝送を仲介する。
画像処理装置100は、典型的には、汎用的なアーキテクチャを有しているコンピュータであり、CPU110が、ハードディスク114又はメモリカード106に格納されたプログラム(命令コード)を実行することで、各種機能を提供する。このようなプログラムは、典型的には、メモリカード106や光ディスクなどのコンピュータ読取可能な記録媒体に格納された状態で流通する。
汎用的なコンピュータを画像処理装置100として利用する場合には、本実施の形態に係る機能を提供するためのアプリケーションプログラムに加えて、コンピュータの基本的な機能を提供するためのOS(Operating System)がインストールされていてもよい。この場合には、本実施の形態に係るプログラムは、OSの一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。すなわち、本実施の形態に係るプログラム自体は、上記のようなモジュールを含んでおらず、OSと協働して処理が実行されてもよい。本実施の形態に係るプログラムとしては、このような一部のモジュールを含まない形態であってもよい。
さらに、本実施の形態に係るプログラムは、他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には、上記のような組合せられる他のプログラムに含まれるモジュールを含んでおらず、当該他のプログラムと協働して処理が実行される。すなわち、本実施の形態に係るプログラムとしては、このような他のプログラムに組込まれた形態であってもよい。なお、プログラムの実行により提供される機能の一部もしくは全部を専用のハードウェア回路として実装してもよい。
(画像処理装置の機能構成)
図3に、第1実施形態に係る文字認識処理を実現するための機能構成を示す。画像処理装置100は、文字認識処理に関わる機能として、画像入力部130、前処理部131、行切り出し部132、文字切り出し部133、文字認識部134、後処理部135、出力部136を含んでいる。これらの機能ブロックは、画像処理装置100のCPU110がコンピュータプログラムを実行することにより実現される。本実施形態においては、行切り出し部132が本発明の文字領域設定手段及び行認識手段に対応する。
(文字認識処理の全体フロー)
図4を参照して、図3に示した各機能ブロックの動作、及び、文字認識処理の全体フローについて説明する。
PLC5からのトリガー信号が入力されると、画像入力部130がカメラ8からワーク2の画像を取り込む(ステップS100)。入力画像の形式(解像度、カラー/モノクロ、階調、データフォーマットなど)は任意であり、ワーク2の種類やセンシングの目的に合わせて適宜選択すればよい。図4のP100は、入力画像の一例であり、ワーク2の上面(曲面)に印字された文字列が写っている。
次に、前処理部131が、入力画像に対して2値化などの前処理を施し、文字部分と背景部分を分離する(ステップS101)。2値化の方法としては、例えば、大津法、動的2値化法、Niblack法などいかなる方法を用いてもよい。また、ノイズ除去などの目的で、2値化の前に平滑化処理を施してもよい。平滑化には例えばガウスフィルタ、メディアンフィルタなどを用いることができる。さらに必要に応じて、画像の拡大、縮小、回転、トリミングなどを行い、文字認識に適した画像を得てもよい。図4のP101は、前処理後の2値化画像の一例であり、文字の部分が黒画素、その他の部分が白画素となっている。
次に、行切り出し部132が、2値化画像から個々の文字領域を検出し、検出した複数の文字領域を複数の行に分けることで、各行の領域を特定する(ステップS102)。この処理を行の切り出し又は行認識と呼ぶ。この処理の詳細は後述する。図4のP102は、行認識の結果であり、1行目に属する文字領域が破線、2行目に属する文字領域が実線で示されている。
次に、文字切り出し部133が、各行に属する文字を1文字ずつ切り出す(ステップS103)。具体的には、文字切り出し部133は、各行の文字領域を順に調べ、一つの文字領域に複数の文字が含まれていたらそれらを分離し、逆に文字領域内に文字の一部しか含まれていない場合には周辺の文字領域を統合する。これにより各行に含まれている黒画素を文字単位に切り出す。図4のP103は、文字切り出しの結果である。
次に、文字認識部134は、ステップS103で特定した1文字ごとに、文字認識(どの文字であるかの同定)を実行する(ステップS104)。文字認識には多くの方法が存在し、そのどれを使ってもよい。例えば、輝度ベースマッチング、エッジ特徴マッチングなどが考えられる。
次に、後処理部135が、必要に応じて、文字の並びなどを考慮し、ステップS104の認識結果の修正を行う(ステップS105)。最後に、出力部136が、認識結果である文字列をディスプレイ102もしくは外部装置に出力し(ステップS106)、処理を終了する。
(行切り出し処理)
図5を参照して、図4のステップS102の行切り出し処理の詳細について説明する。行切り出し処理は、(1)文字領域設定、(2)強制分割、(3)左優先ソート、(4)行認識という手順で行われる。ただし、(2)強制分割と(3)左優先ソートは省略可能な処理である。以下、(1)〜(4)の各々の処理について説明する。
(1)文字領域設定
行切り出し部132は、前処理によって生成された2値化画像と設定パラメータを受け取り、文字領域設定処理を実行する。設定パラメータとしては、文字幅と文字高さの情報が与えられる。文字幅と文字高さは、例えば「20画素」や「7.5mm」のように単一の値で与えてもよいし、画像中に異なるサイズの文字が含まれ得る場合は、「10画素〜20画素」や「6.0mm〜10mm」のように値域(最小値と最大値)で与えてもよい。
図6(A)は、文字領域設定処理の流れを図示したものである。まず、行切り出し部132は、2値化画像に対してラベリングを行う。具体的には、行切り出し部132は、2値化画像から連結成分(ひとまとまりに繋がっている画素群)を検出し、検出された連結成分ごとに異なるラベル(数字)を割り当てる。同一ラベルが付された連結成分(画素群)を文字要素と呼ぶ。次に、行切り出し部132は、各文字要素を内包するように複数の文字領域を設定する。本例では、文字要素の外接矩形を計算し、これを文字領域として扱う。最後に、行切り出し部132は、文字領域の幅、高さが、設定パラメータとして与えられた「文字幅」、「文字高さ」と比較して一定値以下(例えば30%以下)であれば、当該文字領域に含まれる文字要素はノイズとみなし削除する。なお、検出された複数の文字領域の中で、有意に小さい領域(例えば、検出された文字領域の平均的な幅、高さに対し、一定値以下(例えば30%以下)のもの)をノイズとみなして削除することもできる。
図6(A)に示す例では、6個の文字領域が得られていることがわかる。文字領域設定処理の結果として、ラベル画像と文字領域座標データが生成される。ラベル画像とは、画素毎にラベル番号が記述された画像である。文字領域座標データは、図6(B)に示すように、各文字領域の座標(例えば、左上と右下の2点の座標)がラベル番号順に記述されたデータである。
(2)強制分割
行切り出し部132は、文字領域座標データに基づき各文字領域の高さを調べ、高さが所定の閾値を超える文字領域について、強制分割を実施する。閾値は、設定パラメータで与えられた文字高さを基準にして定めるとよい(例えば、文字高さの130%など)。図7に、強制分割の一例を示す。図7の例のように、文字が他の模様(この例ではバーコードのバー)とつながっていると、ラベリング処理においてそれらが一つの要素として認識されるため、文字領域の高さが閾値を超える。行切り出し部132は、ラベル画像から高さが閾値を超える文字領域の部分を抽出し、横方向に黒画素をカウントした横投影ヒストグラムを作成する。そして、縦方向にヒストグラムの谷をサーチし、谷が検出されたらその高さで文字領域を分割する。強制分割を実施した場合には、分割した文字領域に新たなラベル番号を付与し、文字領域座標データを更新する。なお、図7に示した方法以外にも、強制分割の方法には様々な方法があり、そのいずれを用いてもよい。
(3)左優先ソート
行切り出し部132は、文字領域座標データに基づき各文字領域に対し、左優先ソートをかける。具体的には、左上点のX座標(横方向座標)が小さい文字領域から順に、ラベル番号の振り直しを行う。ここでは、ラベル画像自体を修正する必要はなく、文字領域座標データにおけるラベル番号及び記述順を更新するだけでよい。図8は、ソート後のラベル番号を示している。符号Rxは、ラベル番号:xが付された文字領域を表す。
(4)行認識
行切り出し部132は、ソート後の文字領域座標データを用いて、行認識(行切り出し)を実施する。本実施形態では、ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理(行サーチとも呼ぶ)を、起点とする文字領域を変えて繰り返し実行することで、文字領域座標データに含まれる複数の文字領域を複数の行に切り分ける、という操作を行う。
図9(A)は、図8に示す文字領域群に対し、行認識を実施した場合の例を模式的に示している。
まず、行切り出し部132は、最もラベル番号が小さい文字領域R1を起点とし、1行目の行抽出処理を行う。具体的には、行切り出し部132が、起点となる文字領域R1に対し行番号:1を付与した後、文字領域R1を注目文字領域に設定する。そして、注目文字領域R1の次にラベル番号が小さい文字領域R2から順に、注目文字領域R1との隣接関係を評価し、所定の隣接条件を満たす文字領域を検出する。
本実施形態では、図9(B)に示すように、注目文字領域の高さTLに対する二つの文字領域の高さ方向の重なり幅SLの比を「重なり率R(=SL/TL)」と定義し、重なり率Rが所定の閾値(例えば1/3)よりも大きい場合に、二つの文字領域が隣接していると判断する。なお、閾値の値は適宜変更することができる。また、重なり率の定義式も上記の例に限らない。例えば、注目文字領域でない方の文字領域の高さTL´に対する重なり幅SLの比を考慮してもよい。
これより、図9(A)に示すように、注目文字領域R1に対して隣接条件を満たす文字領域(隣接文字領域と呼ぶ)としてR3が検出される。行切り出し部132は、検出された隣接文字領域R3に現在の行番号:1を付与し(この処理を、文字領域R3を文字領域R1に連結する、又は、文字領域R3を文字領域R1を起点とする行に加入する、とも表現する。)、この文字領域R3を新たな注目文字領域に設定して、さらなる隣接文字領域を探索する。この探索を、隣接文字領域が見つからなくなるまで行う。その結果、図9(A)に示すように、1行目を構成する文字領域の組として「R1→R3→R5→R7」が抽出される。
1行目の探索が終了したら、行切り出し部132は、行番号が付与されていない文字領域の中から最もラベル番号の小さい文字領域を、次の(2行目の)起点に設定する。図9(A)の例では、文字領域R2が起点として選ばれ、行番号:2が付与される。これ以降の処理は、1行目の処理と同様である。なお、本実施形態では、既に行番号が付与されている文字領域も、隣接文字領域の探索対象に含める。つまり、注目文字領域がR2の場合は、R3、R4、R5・・・の順に探索が進むのである。このような方法を採る理由は、誤判定の修正(連結の繋ぎ換え)を可能とするためである(詳しくは図11を参照して後述する)。
図9(A)の例では、2行目の探索において、「R2→R4→R6→R8」の文字領域の組が抽出される。これですべての文字領域に行番号が付与されたので、行認識は完了する。行認識の結果は、図10のように、文字領域座標データに行番号を付したものが生成される。
(誤判定の修正)
図11を参照して、(4)行認識の処理における誤判定の修正手順について説明する。図11の画像には、「123」と「ABCD」の2行の文字列が含まれているが、各文字列の湾曲が大きいため、前述した隣接条件に基づく連結処理では、行の判定を誤る可能性が高い。
図11の画像に対し、文字領域R1(文字「1」)を起点として1行目の探索を行うと、「R1→R3→R5」と連結された後、文字領域R6がR5に対し隣接条件を満たすと判定され(誤判定)、「R1→R3→R5→R6→R7」の組(文字列「123CD」)が一つの行として抽出される。つまり、1行目の探索終了後は、文字領域R1、R3、R5、R6、R7に行番号:1が付与された状態となる。
続いて、行切り出し部132が、文字領域R2(文字「A」)を起点として2行目の探
索を行う。このとき、「R2→R4」と連結された後、文字領域R6がR4に対し隣接条件を満たすと判定される(正しい判定)。すなわち、文字領域R1(第1の文字領域)を起点として行抽出処理を行う場合と、文字領域R2(第2の文字領域)を起点として行抽出処理を行う場合とで、同じ文字領域R6(第3の文字領域)が重複して選ばれる、という状況が発生する。これは、隣接条件を満たすと判定された文字領域R6に既に行番号が付されているかどうかで判断することができる。
このような状況が発生した場合、行切り出し部132は、1行目に文字領域R6を加入した場合と2行目に文字領域R6を加入した場合のどちらが妥当かを比較し、文字領域R6を加入すべき行を決定する。具体的には、行切り出し部132は、1行目における文字領域R5とR6の重なり率と、2行目における文字領域R4とR6の重なり率とを比較して、重なり率の大きい方が連結が強いとみなし、連結が強い方の行に文字領域R6を加入する。図11の場合、2行目の文字領域R4に対する連結の方が強いので、行切り出し部132は、文字領域R6の行番号を「1」から「2」に付け替える(この操作は、文字領域R6を1行目から2行目に繋ぎ換える操作に相当する)。その後、探索を進めることで、文字領域R7とR8の行番号も「2」に修正され、最終結果として、修正された1行目「R1→R3→R5」と、2行目「R2→R4→R6→R7」が得られる。このように、1行目の探索において誤判定が発生した場合であっても、それが修正され、正解の行認識結果を得ることができる。
なお、ここでは、高さ方向の重なり率(重なり度合い)を連結の強さを評価するための指標として用いたが、これに限らず他の指標を用いてもよい。例えば、行の方向が縦方向の場合には、文字の幅方向の重なり度合いを評価すべきである。つまり、行の方向に対し直交する方向の重なり度合いをみるのである。また、他の指標としては、二つの文字領域の大きさの類似度合いを用いてもよい。つまり、同じ行に含まれる文字は同じサイズであることが多いので、二つの文字領域の高さ、幅、面積などが類似しているほど連結が強いと評価する。また、他の指標としては、二つの文字領域の画像の色又は輝度の特徴の類似度合いを用いてもよい。つまり、同じ行に含まれる文字は同じ色や輝度であることが多いので、両画像(文字の画像)の色や輝度が似ているほど連結が強いと評価するのである。さらには、二つの文字領域の近さ(間隔の小ささ)や、二つの文字領域に含まれる文字同士の接続関係の強さなどを評価してもよい。例えば、この二つの文字から(又はその周囲の文字を加えて)形成される文字列が単語辞書に登録されている語句である場合とか、二つの文字の文字種が同じである場合には、接続関係が強いと評価することができる。もちろん、これらの指標のうち二つ以上の指標を組み合わせて連結の強さを評価してもよい。
(第1実施形態の利点)
以上述べた第1実施形態の構成によれば、例えば図11のようなケースにおいて、文字領域R6が1行目に属する可能性と2行目に属する可能性の両者を考慮・比較して、文字領域R6をいずれの行に加入するのが妥当か決定される。したがって、従来よりも誤判定の少ない、高精度な行認識が可能となる。しかも、文字領域R6の局所的な連結性を評価するだけでよいので、高速かつ簡易な処理を実現できる。また、各行の行抽出処理を繰り返し実行する中で、誤った連結箇所を逐次修正することが可能である。
<第2実施形態>
次に本発明の第2実施形態について説明する。例えば、賞味期限、ロット番号、自動車のナンバープレート、カード番号などのように、行数や各行の形式(文字数や文字種など)が既知の場合は、その情報を事前に知識として与えることで、より誤判定の少ない行認識が可能になると期待できる。そこで第2実施形態では、各行の文字列の形式を定義する「フォーマット文字列」を行認識に利用する。なお、行認識の処理以外の構成は第1実施形態のものと同じであるため、詳しい説明を省略する。
(画像処理装置の機能構成)
図12に、第2実施形態に係る文字認識処理を実現するための機能構成を示す。画像処理装置100は、文字認識処理に関わる機能として、画像入力部130、前処理部131、行候補切り出し部137、文字切り出し部133、文字認識部134、フォーマット文字列取得部138、フォーマット照合部139、出力部136を含んでいる。これらの機能ブロックは、画像処理装置100のCPU110がコンピュータプログラムを実行することにより実現される。本実施形態においては、行候補切り出し部137が本発明の文字領域設定手段に対応し、行候補切り出し部137及びフォーマット照合部139が本発明の行認識手段に対応し、フォーマット文字列取得部138が本発明のフォーマット文字列取得手段に対応する。
(行候補切り出し処理)
図13を参照して、行候補切り出し部137による行候補切り出し処理について説明する。行候補切り出し処理は、第1実施形態の行切り出し処理と殆ど同じであるが、複数の行に対して連結する可能性がある文字領域が検出された場合に、連結の強さに基づく繋ぎ換えを行うのではなく、考えうる行候補をすべて抽出する点が異なる。
図13に示すように、1行目の探索では、「R1→R3→R5→R6→R7」の文字領域の組が抽出される。続く2行目の探索において、「R2→R4」と連結された後、1行目で選択済みの文字領域R6がR4に対して隣接条件を満たすと判定される。このような状況が発生した場合、行候補切り出し部137は、文字領域R6をR4に連結した場合の行候補も作成する。その結果、図13に示すように、「R1→R3→R5→R6→R7」と「R2→R4→R6→R7」の2種類の行候補が得られることとなる。
次に、行候補切り出し部137は、行候補「R1→R3→R5→R6→R7」、「R2→R4→R6→R7」のそれぞれから、互いに重複する文字領域を除外したものを作成し、それらも行候補に加える。この例では、「R6→R7」が重複しているので、これを除いた「R1→R3→R5」と「R2→R4」が作成される。そして、これらの行候補を矛盾の無いように(つまり同じ文字領域が複数の行に所属しないように)組み合わせることで、可能性のある行候補の組み合わせを作成する。その結果、図13に示すように、「R1→R3→R5→R6→R7」と「R2→R4」からなる組み合わせと、「R1→R3→R5」と「R2→R4→R6→R7」からなる組み合わせの二つの候補が得られる。これらの候補は、文字領域R6の連結先を変えた場合の行の分け方のバリエーションを表している。
行候補切り出し部137は、抽出されたすべての候補を文字切り出し部133に引き渡す。そして、文字切り出し部133が、各候補に対して文字の切り出しを行い、文字認識部134が、各候補の文字切り出し結果に対し文字認識を実施する。図14に、それぞれの候補に対する文字認識結果の例を示す。これらの文字認識結果は、フォーマット照合部139に引き渡され、フォーマット文字列と比較される。
(フォーマット文字列)
本実施形態で用いるフォーマット文字列は、認識対象の文字別に文字種又は文字を指定するものである。言い換えれば、フォーマット文字列は、認識対象の文字列について、文字数と、文字種又は文字の組み合わせを指定するものである。
具体的には、フォーマット文字列は、認識対象の文字別に文字種の指定(英数字、英字、数字、記号、特殊文字、漢字、ひらがな、カタカナなど)、文字そのものの指定(アルファベットの各文字「A」,「B」,…、記号の各文字「’」,「−」,…、ひらがなの
各文字「あ」,「い」,…、カタカナの各文字「ア」,「イ」,…)、フォント種の指定、文字サイズ(フォントサイズ)の指定などを含む。さらに、フォーマット文字列を用いて、文字に加えて、シンボルを指定するようにしてもよい。
本実施形態では、フォーマット文字列として、「?」、「#」、「$」、「@」の記号を用いる。各記号の意味は、以下のとおりである。
?:任意の文字(文字種を問わない)
#:数字(0〜9)
$:英字(A〜Z、a〜z)
@:記号(「’」、「−」、「:」、「¥」など)
ただし、これはあくまで一例であり、フォーマット文字列の書式(表現形式)は任意に取り決めることができる。
上記書式に従うと、図13に含まれている文字列の形式は以下のように定義できる。
文字列「123」 ⇔ フォーマット文字列「###」
文字列「ABCD」 ⇔ フォーマット文字列「$$$$」
ユーザは、認識対象とする文字列に応じてフォーマット文字列を作成し、画像処理装置100に登録することができる。
(フォーマット照合)
図14を参照して、フォーマット照合部139の動作を説明する。
図14に示すように、複数の候補についての文字認識結果が得られたら、フォーマット文字列取得部138により、対応するフォーマット文字列の取得を行う。そして、フォーマット照合部139が、各候補の文字認識結果における文字列の形式(例えば文字数、文字種)と、フォーマット文字列で定義されている文字列の形式との類似度を計算する。類似度としては、例えば、文字種が一致している文字の数や、各行の文字数の一致度合いなどを利用することができる。フォーマット照合部139は、各候補の類似度を比較し、類似度が最も高い候補を採用する。
図14の例では、一つ目の候補の文字認識結果は「123CD」及び「AB」であり、フォーマット文字列「###(数字+数字+数字)」及び「$$$$(英字+英字+英字+英字」との類似度は「5」である。一方、二つ目の候補の文字認識結果は「123」及び「ABCD」であり、その類似度は「12」と高い値が得られている。したがって、フォーマット照合部139は、二つ目の候補を最終的な行認識結果として採用する。
以上述べた第2実施形態の構成によれば、可能性のある複数の候補の中から、フォーマット文字列で定義された形式に最も適合するものが選ばれるので、第1実施形態よりもさらに誤判定の少ない高精度な行認識及び文字認識が可能となる。
1:視覚センサシステム
2:ワーク
4:光電センサ
8:カメラ
100:画像処理装置
130:画像入力部
131:前処理部
132:行切り出し部
133:文字切り出し部
134:文字認識部
135:後処理部
136:出力部
137:行候補切り出し部
138:フォーマット文字列取得部
138:フォーマット照合部
139:フォーマット照合部

Claims (11)

  1. 複数行の文字列を含む画像から各行の領域を特定する画像処理装置であって、
    画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定手段と、
    ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数の行に分ける行認識手段と、
    を有しており、
    前記行認識手段は、
    第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、
    前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合と、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合とを比較することにより、前記第3の文字領域をいずれの行に加入すべきか決定する
    ことを特徴とする画像処理装置。
  2. 複数行の文字列を含む画像から各行の領域を特定する画像処理装置であって、
    画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定手段と、
    ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数の行に分ける行認識手段と、
    を有しており、
    前記行認識手段は、
    第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、
    前記第1の文字領域を起点とする行の隣接文字領域に対する前記第3の文字領域の連結の強さと、前記第2の文字領域を起点とする行の隣接文字領域に対する前記第3の文字領域の連結の強さを比較し、連結が強い方の行に前記第3の文字領域を加入する
    ことを特徴とする画像処理装置。
  3. 前記行認識手段は、行の方向に対し直交する方向に関する、前記隣接文字領域と前記第3の文字領域の重なりの度合いが大きいほど、前記隣接文字領域とに対する前記第3の文字領域の連結が強いと評価する
    ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記行認識手段は、前記隣接文字領域と前記第3の文字領域の大きさが類似しているほど、前記隣接文字領域に対する前記第3の文字領域の連結が強いと評価する
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  5. 前記行認識手段は、前記隣接文字領域内の画像と前記第3の文字領域内の画像の色又は輝度の特徴が類似しているほど、前記隣接文字領域に対する前記第3の文字領域の連結が強いと評価する
    ことを特徴とする請求項2、3又は4に記載の画像処理装置。
  6. 複数行の文字列を含む画像から各行の領域を特定する画像処理装置であって、
    各行の文字列の形式を定義するフォーマット文字列を取得するフォーマット文字列取得手段と、
    画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定手段と、
    ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数の行に分ける行認識手段と、
    を有しており、
    前記行認識手段は、
    第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、
    前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合に生成される複数の行を第1の候補、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合に生成される複数の行を第2の候補とし、
    前記第1の候補の各行から認識される文字列の形式と前記フォーマット文字列で定義された各行の文字列の形式との類似度と、前記第2の候補の各行から認識される文字列の形式と前記フォーマット文字列で定義された各行の文字列の形式との類似度とを比較し、類似度が高い方の候補を採用する
    ことを特徴とする画像処理装置。
  7. 前記フォーマット文字列は、文字列を構成する文字の数と、一部又は全部の文字の文字種とを少なくとも定義する情報である
    ことを特徴とする請求項6に記載の画像処理装置。
  8. 複数行の文字列を含む画像から各行の領域を特定する画像処理方法であって、
    コンピュータが、画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定ステップと、
    コンピュータが、ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数の行に分ける行認識ステップと、
    を有しており、
    前記行認識ステップにおいて、
    第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、
    前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合と、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合とを比較することにより、前記第3の文字領域をいずれの行に加入すべきか決定する
    ことを特徴とする画像処理方法。
  9. 複数行の文字列を含む画像から各行の領域を特定する画像処理方法であって、
    コンピュータが、画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定ステップと、
    コンピュータが、ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数
    の行に分ける行認識ステップと、
    を有しており、
    前記行認識ステップにおいて、
    第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、
    前記第1の文字領域を起点とする行の隣接文字領域に対する前記第3の文字領域の連結の強さと、前記第2の文字領域を起点とする行の隣接文字領域に対する前記第3の文字領域の連結の強さを比較し、連結が強い方の行に前記第3の文字領域を加入する
    ことを特徴とする画像処理方法。
  10. 複数行の文字列を含む画像から各行の領域を特定する画像処理方法であって、
    コンピュータが、各行の文字列の形式を定義するフォーマット文字列を取得するフォーマット文字列取得ステップと、
    コンピュータが、画像から文字を構成する画素群である文字要素を抽出し、各々が文字要素を内包するように複数の文字領域を設定する文字領域設定ステップと、
    コンピュータが、ある文字領域を起点として、所定の隣接条件を満たす文字領域を順に連結していくことで、同じ行に属すると推定される文字領域の組を抽出する行抽出処理を、起点とする文字領域を変えて繰り返し実行することにより、前記複数の文字領域を複数の行に分ける行認識ステップと、
    を有しており、
    前記行認識ステップにおいて、
    第1の文字領域を起点として行抽出処理を行う場合と、前記第1の文字領域とは異なる行にある第2の文字領域を起点として行抽出処理を行う場合とで、同じ第3の文字領域が重複して選ばれ得る場合には、
    前記第1の文字領域を起点とする行に前記第3の文字領域を加入した場合に生成される複数の行を第1の候補、前記第2の文字領域を起点とする行に前記第3の文字領域を加入した場合に生成される複数の行を第2の候補とし、
    前記第1の候補の各行から認識される文字列の形式と前記フォーマット文字列で定義された各行の文字列の形式との類似度と、前記第2の候補の各行から認識される文字列の形式と前記フォーマット文字列で定義された各行の文字列の形式との類似度とを比較し、類似度が高い方の候補を採用する
    ことを特徴とする画像処理方法。
  11. 請求項8、9又は10に記載の画像処理方法の各ステップをコンピュータに実行させることを特徴とするプログラム。
JP2013106439A 2013-05-20 2013-05-20 画像処理装置および画像処理方法 Active JP6286866B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2013106439A JP6286866B2 (ja) 2013-05-20 2013-05-20 画像処理装置および画像処理方法
EP14801272.7A EP3001352B1 (en) 2013-05-20 2014-02-27 Image processing apparatus and image processing method
CN201480027116.2A CN105229669B (zh) 2013-05-20 2014-02-27 图像处理装置及图像处理方法
KR1020157032525A KR101747588B1 (ko) 2013-05-20 2014-02-27 화상 처리 장치 및 화상 처리 방법
PCT/JP2014/054968 WO2014188753A1 (ja) 2013-05-20 2014-02-27 画像処理装置および画像処理方法
US14/892,368 US9607237B2 (en) 2013-05-20 2014-02-27 Image processing apparatus and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013106439A JP6286866B2 (ja) 2013-05-20 2013-05-20 画像処理装置および画像処理方法

Publications (2)

Publication Number Publication Date
JP2014228953A true JP2014228953A (ja) 2014-12-08
JP6286866B2 JP6286866B2 (ja) 2018-03-07

Family

ID=51933319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013106439A Active JP6286866B2 (ja) 2013-05-20 2013-05-20 画像処理装置および画像処理方法

Country Status (6)

Country Link
US (1) US9607237B2 (ja)
EP (1) EP3001352B1 (ja)
JP (1) JP6286866B2 (ja)
KR (1) KR101747588B1 (ja)
CN (1) CN105229669B (ja)
WO (1) WO2014188753A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017138989A (ja) * 2016-02-03 2017-08-10 株式会社ストラッドビジョン 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
JP2018159972A (ja) * 2017-03-22 2018-10-11 株式会社東芝 情報処理装置、方法及びプログラム
JP6474504B1 (ja) * 2018-01-23 2019-02-27 株式会社野村総合研究所 手書文字認識システム
JP2019046484A (ja) * 2018-10-16 2019-03-22 株式会社マーケットヴィジョン 画像認識システム
JP2020030857A (ja) * 2015-04-08 2020-02-27 東芝テック株式会社 画像処理装置及び画像処理方法
WO2020080644A1 (ko) * 2018-10-14 2020-04-23 김봉근 문자 입력 장치 및 방법
CN112686264A (zh) * 2020-12-31 2021-04-20 中广核研究院有限公司 数字式仪表读数方法、装置、计算机设备和存储介质
JP2021125213A (ja) * 2020-01-31 2021-08-30 株式会社Osk 情報処理装置,情報処理方法及び情報処理プログラム
US11908215B2 (en) 2020-12-11 2024-02-20 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965677B2 (en) * 2014-12-09 2018-05-08 Conduent Business Services, Llc Method and system for OCR-free vehicle identification number localization
JP6487255B2 (ja) * 2015-03-31 2019-03-20 日本電産サンキョー株式会社 文字切り出し装置、文字認識装置、および文字切り出し方法
US10102617B2 (en) * 2015-06-25 2018-10-16 Gregory J. Gozdowiak Method and system for automated meter reading
CN115047997A (zh) * 2016-02-08 2022-09-13 三菱电机株式会社 输入显示控制装置、输入显示控制方法和输入显示系统
KR102375094B1 (ko) * 2017-04-13 2022-03-15 엘지전자 주식회사 확장 객체를 감지하여 주행하는 방법 및 이를 구현하는 로봇
US10356318B1 (en) * 2017-04-27 2019-07-16 Intuit, Inc. Long document capture on mobile devices
WO2019017961A1 (en) * 2017-07-21 2019-01-24 Hewlett-Packard Development Company, L.P. OPTICAL RECOGNITION OF CHARACTERS BY CONSENSUS OF DATA SETS
JP7170051B2 (ja) * 2018-09-20 2022-11-11 富士フイルム株式会社 画像処理装置、画像処理方法及びプログラム、並びに携帯端末装置
KR102149099B1 (ko) * 2019-04-09 2020-08-27 김봉근 문자 입력 장치 및 방법
GB201820569D0 (en) * 2018-12-18 2019-01-30 Continental Automotive Gmbh Printed character recognition
CN109977343B (zh) * 2019-03-28 2023-03-31 武汉轻工大学 椭球面方程绘制方法、装置、设备及存储介质
EP4091097A4 (en) * 2020-01-17 2023-07-26 Microsoft Technology Licensing, LLC TEXT LINES DETECTION
JP2022019446A (ja) * 2020-07-17 2022-01-27 キヤノン株式会社 画像処理システム、装置、方法、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296393A (ja) * 1988-05-25 1989-11-29 Toshiba Corp カテゴリ判定装置
JP2004038530A (ja) * 2002-07-03 2004-02-05 Ricoh Co Ltd 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置
JP2006277151A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文字列画像切出装置、文字列画像切出方法およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
EP0981243B1 (en) * 1993-07-16 2010-03-17 Sharp Kabushiki Kaisha Image processor
JP3108979B2 (ja) 1994-07-28 2000-11-13 セイコーエプソン株式会社 画像処理方法および画像処理装置
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
JP4170441B2 (ja) 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
JP4395188B2 (ja) 1997-11-28 2010-01-06 富士通株式会社 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP4450888B2 (ja) * 1999-05-28 2010-04-14 富士通株式会社 帳票認識方法
JP4047090B2 (ja) * 2002-07-31 2008-02-13 キヤノン株式会社 画像処理方法及び画像処理装置
JP5538812B2 (ja) * 2009-10-23 2014-07-02 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5724454B2 (ja) * 2011-02-25 2015-05-27 村田機械株式会社 画像処理装置及び画像処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296393A (ja) * 1988-05-25 1989-11-29 Toshiba Corp カテゴリ判定装置
JP2004038530A (ja) * 2002-07-03 2004-02-05 Ricoh Co Ltd 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置
JP2006277151A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文字列画像切出装置、文字列画像切出方法およびプログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030857A (ja) * 2015-04-08 2020-02-27 東芝テック株式会社 画像処理装置及び画像処理方法
JP2017138989A (ja) * 2016-02-03 2017-08-10 株式会社ストラッドビジョン 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
JP2018159972A (ja) * 2017-03-22 2018-10-11 株式会社東芝 情報処理装置、方法及びプログラム
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device
JP6474504B1 (ja) * 2018-01-23 2019-02-27 株式会社野村総合研究所 手書文字認識システム
JP2019128690A (ja) * 2018-01-23 2019-08-01 株式会社野村総合研究所 手書文字認識システム
US11132497B2 (en) 2018-10-14 2021-09-28 Bonggeun Kim Device and method for inputting characters
WO2020080644A1 (ko) * 2018-10-14 2020-04-23 김봉근 문자 입력 장치 및 방법
JP2019046484A (ja) * 2018-10-16 2019-03-22 株式会社マーケットヴィジョン 画像認識システム
JP2021125213A (ja) * 2020-01-31 2021-08-30 株式会社Osk 情報処理装置,情報処理方法及び情報処理プログラム
US11908215B2 (en) 2020-12-11 2024-02-20 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
CN112686264A (zh) * 2020-12-31 2021-04-20 中广核研究院有限公司 数字式仪表读数方法、装置、计算机设备和存储介质
CN112686264B (zh) * 2020-12-31 2023-10-20 中广核研究院有限公司 数字式仪表读数方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2014188753A1 (ja) 2014-11-27
EP3001352A1 (en) 2016-03-30
CN105229669B (zh) 2020-07-14
US20160092745A1 (en) 2016-03-31
US9607237B2 (en) 2017-03-28
JP6286866B2 (ja) 2018-03-07
KR101747588B1 (ko) 2017-06-14
EP3001352A4 (en) 2017-02-15
EP3001352B1 (en) 2022-01-26
KR20150143711A (ko) 2015-12-23
CN105229669A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
JP6286866B2 (ja) 画像処理装置および画像処理方法
US9189694B2 (en) Image processing device and image processing method
EP2553626B1 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US20180089835A1 (en) Image processing apparatus for identifying region within image, information processing method, and storage medium
Kennard et al. Separating lines of text in free-form handwritten historical documents
JP6116531B2 (ja) 画像処理装置
US11593591B2 (en) Optical character recognition systems and methods
Fateh et al. Enhancing optical character recognition: Efficient techniques for document layout analysis and text line detection
Song et al. Recognition of merged characters based on forepart prediction, necessity-sufficiency matching, and character-adaptive masking
JP5041775B2 (ja) 文字切出方法及び文字認識装置
Singh et al. Document layout analysis for Indian newspapers using contour based symbiotic approach
Naz et al. Arabic script based character segmentation: a review
JP6118646B2 (ja) 帳票処理装置、帳票処理方法、帳票処理プログラム
Chitrakala et al. An efficient character segmentation based on VNP algorithm
JP2005250786A (ja) 画像認識方法
JP5039659B2 (ja) 文字認識方法及び文字認識装置
Ghaleb et al. Segmentation of overlapped handwritten Arabic sub-words
JP5630098B2 (ja) 情報処理装置およびプログラム
CN117475453B (zh) 一种基于ocr的文书检测方法、装置及电子设备
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images
Hyuga et al. Deformed and Touched Characters Recognition
JP2000207491A (ja) 文字列読取方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6286866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150