JP7027043B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7027043B2
JP7027043B2 JP2017080561A JP2017080561A JP7027043B2 JP 7027043 B2 JP7027043 B2 JP 7027043B2 JP 2017080561 A JP2017080561 A JP 2017080561A JP 2017080561 A JP2017080561 A JP 2017080561A JP 7027043 B2 JP7027043 B2 JP 7027043B2
Authority
JP
Japan
Prior art keywords
line segment
segment pair
reliability
pair
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017080561A
Other languages
English (en)
Other versions
JP2018180986A (ja
Inventor
洋介 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017080561A priority Critical patent/JP7027043B2/ja
Publication of JP2018180986A publication Critical patent/JP2018180986A/ja
Application granted granted Critical
Publication of JP7027043B2 publication Critical patent/JP7027043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、スマートフォンやデジタルカメラ等の普及により、文字情報を含む画像情報が手軽に取得できるようになってきた。これによって、多種多様な観測環境から文字を取り込む市場が開けつつある。例えば、文字が印字された矩形の文字プレートを、スマートフォンやデジタルカメラ等で撮影し、文字認識処理を行うユースケースがある。この場合、カメラの位置及び向きによって文字に回転や歪みが生じるため、紙の文字を認識する場合とは前提条件が大きく異なる。
一方、認識処理を行う前に文字プレートを四角形として切り出すことができれば、文字の回転や歪みを補正することができ、文字認識処理の適用が容易になる。特許文献1では、撮影画像中から複数の線分を抽出し、線分を組み合わせることで四角形を切り出し、歪みを補正する方法が開示されている。
特許第4712487号公報
しかしながら、文字プレートを含む被写体に線状の傷や汚れがある場合、文字プレート境界以外の線分が多数検出される。そのため、線分の組み合わせの候補が膨大となり、計算量の増加と精度低下とが生じる。
本発明は、計算量の増加を抑え、精度よく文字部分に係る線分のペアを選択することを目的とする。
本発明の情報処理装置は、画像から線分群を検出する検出手段と、前記検出手段により検出された線分群から線分を2本ずつ組み合わせて、複数の線分ペア候補を生成する生成手段と、前記生成手段により生成された前記複数の線分ペア候補の各々について、線分ペア候補を成す2本の線分の間の領域を複数の小領域に分割して、当該分割した小領域ごとに文字らしさに基づく小領域信頼度を求め、当該求めた小領域信頼度に基づき線分ペアに関する信頼度を決定し、当該決定した前記線分ペアに関する信頼度に基づいて前記複数の線分ペア候補の中から線分ペアを選択する選択手段と、前記選択手段で選択された線分ペアの間の領域を分割して求めた前記複数の小領域の前記小領域信頼度の分布に基づいて、前記線分ペアに交わる方向の2本の交線分ペアを決定し、前記選択された線分ペアと前記交線分ペアとに基づいて四角形を生成する四角形生成手段と、を有することを特徴とする
本発明によれば、計算量の増加を抑え、精度よく文字部分に係る線分のペアを選択することができる。
モバイル端末の外観の一例を示す図である。 モバイル端末のハードウェア構成の一例を示す図である。 モバイル端末のソフトウェア構成の一例を示す図である。 モバイルアプリのUIを提供する画面の一例を示す図である。 文字領域検出部の情報処理の一例を示すフローチャートである。 エッジ検出部による処理結果を表す模式図である。 線分検出部の情報処理の一例を示すフローチャートである。 エッジ画像を入力として線分検出部が処理を実行した処理結果を表す模式図である。 線分ペア候補生成部による処理結果を表す模式図である。 線分ペア選択部の情報処理の一例を示すフローチャートである。 線分ペア候補から線分ペア信頼度を算出する処理を説明する図である。 四角形生成部の情報処理の一例を示すフローチャートである。 四角形生成部による処理を説明する図である。 四角形生成部の変更例を説明する図である。
以下、本発明の実施形態について図面に基づいて説明する。
<第1の実施形態>
[外観]
本実施形態に係る情報処理装置の一例として、モバイル端末を例に説明する。モバイル端末は、無線通信機能等の装備によって自由な場所で利用できる端末である。
図1は、モバイル端末の外観の一例を示す図である。モバイル端末100は、各種のユニット(101~104)を含んで構成される。モバイル端末100の表側がモバイル端末前面部101である。タッチパネル102は、出力(表示)と入力との2つの機能を備える。更に、モバイル端末100の裏側がモバイル端末背面部103である。モバイル端末背面部103は、画像を取り込むためのカメラ104を含む。本実施形態では、モバイル端末100のユーザは、被写体105を後述のモバイルアプリで撮影することで処理を開始することができる。本実施形態における被写体105はタイヤである。各タイヤの側面には、シリアルナンバーの刻印される領域(文字プレート領域)が一体成形(もしくは接合)されている。拡大被写体106は、拡大された被写体105の一部である。文字プレート107は、刻印された文字列(シリアルナンバー)を含む領域である。文字プレート107の内部には、例えばタイヤを一意に識別するためのシリアルナンバー108が刻印される。なお、被写体105はタイヤに限らず、例えば金属部品、紙文書、写真、ホワイトボード等の他の種類の被写体であってもよい。また文字プレート107や文字の作成方法は、刻印、印刷等、画像から識別可能な方法であれば何れの方法でもよい。後述のモバイルアプリは、被写体105の画像を取り込み、タッチパネル102に画像を出力することができる。
[ハードウェア構成]
図2は、モバイル端末100のハードウェア構成の一例を示す図である。モバイル端末100は、各種のユニット(201~207)を含んで構成される。CPU(Central Processing Unit)201は、各種のプログラムを実行し、様々な機能を実現するユニットである。RAM(Random Access Memory)202は、各種の情報を記憶するユニットである。また、RAM202は、CPU201の一時的な作業記憶領域としても利用されるユニットである。ROM(Read Only Memory)203は、各種のプログラム等を記憶するユニットである。例えば、CPU201は、ROM203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。
加えて、CPU201がフラッシュメモリ、HDD(Hard Disk Drive)、又はSSD(Solid State Disk)といった外部記憶装置に記憶されているプログラムに基づき処理を実行する。これにより、図3に示されるようなモバイル端末100を構成するソフトウェア構成及び後述するシーケンスの各ステップの処理が実現される。
モバイル端末100の機能及び後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。
I/O(Input/Output)インターフェイス204は、タッチパネル102とデータを送受信する。
NIC(Network Interface Card)205は、モバイル端末100をネットワークに接続するためのユニットである。
カメラユニット206は、カメラ104と接続し被写体105の画像をモバイル端末100に取り込む。上述したユニットは、バス207を介してデータの送受信を行うことが可能な構成となっている。カメラユニット206は、撮影部の一例である。
[ソフトウェア構成]
次に、モバイル端末100におけるソフトウェア構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す図である。モバイル端末100のOSは、データ管理部301を有する。
データ管理部301は、画像やアプリケーションデータを管理する。OSは、データ管理部301を利用するための制御API(Application Programming Interface)を利用することでデータ管理部301が管理する画像やアプリケーションデータの取得、保存を行う。
モバイルアプリ(モバイルアプリケーション)302は、OSのインストール機能によってインストールされる実行可能なアプリケーションである。モバイルアプリ302は、カメラユニット206を介して取りこんだ被写体105の画像に対して処理を行う。
メイン制御部303は、モバイル端末100用のモバイルアプリ302を制御し、後述する各モジュール(305~313)に対する指示、管理を行う。
情報表示部304は、メイン制御部303からの指示に従い、モバイルアプリ302のUI(User Interface)をユーザに提供する。モバイルアプリ302のUIは図4を用いて後述する。
操作情報取得部305は、情報表示部304により表示されるUIへのユーザ操作情報を取得し、ユーザ操作情報をメイン制御部303に通知する。例えば、表示・操作領域401をユーザが手で触れると、操作情報取得部305は、触れられた画面上の位置を感知し、位置の情報をメイン制御部303に送信する。
画像処理部306は、カメラユニット206を介して取り込んだ被写体105の画像に対して、グレイスケール変換、切り出し、拡大・縮小等種々の画像処理を行う。
文字領域検出部307は、被写体105の画像からシリアルナンバー108を包含する領域を文字領域として取得する。文字領域検出部307は、更に各モジュール(309~313)を有し、これらによって処理が実行される。文字領域検出部307の処理の詳細は、図5を用いて後述する。
文字認識部308は、文字領域検出部307により得られる文字領域に対して文字認識を適用し、シリアルナンバー108の文字コードを取得する。文字認識部308は、文字認識の方法として、例えばテンプレートマッチング等の方法を用いる。ここで、認識対象とする文字コードをシリアルナンバー108に出現する可能性のある文字コードに限定することで、認識精度を向上できる。またシリアルナンバー108が従う所定のフォーマット(例えば先頭文字はA、B、Cの何れかである、2文字目は0~9の数字である、等)が既知であれば、更に文字コードを限定してもよい。
エッジ検出部309は、被写体105の画像に対して、Cannyのエッジ検出等のエッジ検出処理を行い、輝度勾配の強度が大きい画素をエッジ画素として取得する。各エッジ画素は、(x,y)座標、勾配強度、及び勾配方向を有する。
線分検出部310は、エッジ検出部309で得たエッジ画素群から、線分群を取得する。線分検出部310の処理の詳細は、図7を用いて後述する。
線分ペア候補生成部311は、前記線分群から線分を2本ずつ選択し、その組み合わせを線分ペア候補として生成する。線分ペア候補生成部311は、線分ペア候補を、線分間距離、線分間角度に対する閾値処理によって生成する。例えば、線分ペア候補生成部311は、画像サイズを縦横何れも480ピクセルとした場合、線分間距離が50ピクセル以上200ピクセル未満、線分間角度が±30度以内となる2本の線分の組み合わせを線分ペア候補として保持する。各閾値は、撮影画像から文字プレート107の領域を表現する線分ペア候補を生成し、かつ、文字プレート107以外の領域を表現する線分ペア候補をなるべく生成しない値が設定される。被写体105、及び文字プレート107の大きさ、形状、カメラユニット206の位置、画角等が既知であれば、撮影画像中の文字プレート107の形状が制限できるため、それらに基づき閾値が設定される。より具体的に説明すると、CPU201は、NIC205を介して、又はI/Oインターフェイス204を介して、ユーザによって設定された閾値を取得し、RAM202等に保持する。
線分ペア選択部312は、線分ペア候補生成部311により得た線分ペア候補から、シリアルナンバー108を囲う線分ペアを選択する。線分ペア選択部312の処理の詳細は、図10を用いて後述する。
四角形生成部313は、線分ペア選択部312により得た線分ペアを2辺とする四角形を生成し、保持する。四角形生成部313の処理の詳細は、図12を用いて後述する。
[モバイルアプリUI]
図4は、モバイルアプリ302のUIを提供する画面の一例を示す図である。モバイル端末画面400は、モバイル端末100のタッチパネル102に表示される。また、モバイル端末画面400では、表示・操作領域401にカメラ104を介して取りこんだ画像が表示され、画像等に対するユーザ操作を表示されたUIを介して受け付ける。シャッターボタン402は、カメラ104を介して取り込みモバイル端末画面400に表示した画像を、RAM202やデータ管理部301で保存するためのボタンである。以下、シャッターボタン402へのユーザ操作によって保存された画像を撮影画像と称する。ズームボタン403は、モバイル端末画面400に表示する画像を拡大・縮小するためのボタンである。文字検出枠404は、撮影画像に対して、四角形生成部313が処理を実行することで生成される、シリアルナンバー108を囲う四角形領域を表す。認識結果表示領域405には、文字検出枠404に囲われる領域内の画像に対して、文字認識部308が文字認識処理した結果が表示される。
[情報処理]
次に、文字領域検出部307の情報処理について、図5を用いて説明する。まず、S501において、エッジ検出部309は、撮影画像からエッジ画素群を取得する。次に、S502において、線分検出部310は、エッジ画素群から線分群を生成する。次に、S503において、線分ペア候補生成部311は、線分群から2本ずつの線分を組み合わせて、線分ペア候補群を生成する。次に、S504において、線分ペア選択部312は、線分ペア候補群から文字プレート107を好適に表現する線分ペアを選択する。最後に、S505において、四角形生成部313は、線分ペアに基づき四角形を生成し、出力する。
[エッジ検出]
図6は、エッジ検出部309による処理結果を表す模式図である。入力画像601に対してエッジ検出部309が処理を実行すると、エッジ画像602が得られる。図6では、エッジ画素を黒画素(画素値0)、非エッジ画素を白画素(画素値255)として図示している。各エッジ画素は、座標、入力画像601の座標における輝度勾配強度、及び輝度勾配方向を有し、各エッジ画素の輝度勾配強度は所定の閾値より大きい。
エッジ画像602で示すように、文字プレート107の左右辺は、画像サイズに対して小さく、更に傷や汚れによって、エッジ画素が不連続となる。そのため、画像全体を入力として左右辺を表す線分を検出することは困難である。
[線分検出]
次に、S502における線分検出部310の情報処理について、図7を用いて説明する。
まず、S701において、線分検出部310は、S501によって得たエッジ画素群から、輝度勾配方向が所定の範囲に入るエッジ画素を取得し、これを新たなエッジ画素群とする。ここで設定する範囲は、文字プレート107の4辺のうち、安定して検出可能な2辺を表すエッジ画素を検出可能な方向とする。本実施形態において、文字プレート107は横長(上下辺が左右辺より長い)である。そのため、文字プレート107の上下辺は、左右辺と比べて、被写体105の傷や汚れ等のノイズに強い。そこで、線分検出部310上下辺を検出するために、輝度勾配方向が+90度±45度、又は-90度±45度の何れかの範囲に含まれるエッジ画素を取得する。
次に、S702において、線分検出部310は、エッジ画素群に対してノイズ除去を行う。まず、線分検出部310は、輝度勾配強度が閾値(例えば20)以下のエッジ画素は、文字プレート107の境界である可能性が低いため、ノイズとして削除する。次に、線分検出部310は、エッジ画素の連結成分(隣接する画素の集合)を取得し、連結成分のサイズ(外接矩形の幅又は高さの大きい方)が閾値(例えば30ピクセル)以下となる連結成分に属するエッジ画素を削除する。これにより、被写体105の微小な傷や、主に曲線で構成される文字の境界等を削除できる。
次に、S703において、線分検出部310は、エッジ画素群に対して線分候補群を取得する。線分候補群の取得は次の手順で行う。まず、線分検出部310は、エッジ画素群に対してハフ変換を適用して直線群を取得する。ハフ変換で取得される各直線は両端の座標を持たない。そこで、線分検出部310は、各直線の投票に用いられたエッジ画素群の外接矩形と当該取得された直線との交点を取得し、これを線分の両端座標とする。線分検出部310は、これを全ての直線について適用し、直線数と同数の線分候補群を取得する。
次に、全ての線分候補について、S704において、線分検出部310は、線分信頼度を算出する。線分検出部310は、線分信頼度を、[線分長]/[平均誤差]によって定める。[線分長]は、対象の線分の長さである。[平均誤差]は、対象の線分と線分を構成するエッジ画素との距離の平均である。線分を構成するエッジ画素とは、線分の元となった直線の投票に用いられたエッジ画素である。これにより、線分が長く、線分を構成するエッジ画素が同一直線上に並ぶ程に線分信頼度は高くなる。線分信頼度の定義は上記に限らず、例えば輝度分離度により定義してもよい。輝度分離度は、線分の両面の輝度がどれだけ分離しているかを表す指標である。分離度は、以下の数式によって定義される。
Figure 0007027043000001
数式において領域1は、線分を一辺とする幅wの領域とし、領域2は、線分を一辺とする領域1と重ならない幅wの領域とする。例えばw=10とする。
最後に、S705において、線分検出部310は、線分候補群から線分を選択し、出力する。線分検出部310は、S704で得た線分信頼度が高い方から所定の本数(例えば5本)を選択する。
図8は、エッジ画像602を入力として線分検出部310が処理を実行した処理結果を表す模式図である。エッジ画像602に対して、S701~S702の処理が実行されると、垂直エッジ画像801が得られる。垂直エッジ画像801は、文字プレート107の上下境界を表すエッジ画素を含むエッジ画像となる。垂直エッジ画像801に対してS703の処理が実行され、得られた線分候補群を表したものが線分候補画像802である。図8の例では、線分候補803a~803iの9本の線分候補が取得されている。S704~S705の処理が実行され、得られた線分候補群の情報を表したものが線分候補情報804である。線分候補情報804において、線分IDa~iは線分候補803a~803iに対応する。S704の処理により、各線分候補の情報として線分長、平均誤差、線分信頼度(線分長/平均誤差)が得られる。表記をわかりやすくするために、線分長を画像幅で除算した値を示している。更にS705の処理により、線分信頼度が高い上位5本が選択され、残りが削除される。最終的に残った線分を示したものが線分画像805である。ここに描画される線分候補803b、c、e、f、gが、線分検出部310の出力となる。
[線分ペア候補生成]
図9は、線分ペア候補生成部311による処理結果を表す模式図である。線分重畳画像901は、線分ペア候補生成部311の入力となる線分群を入力画像601に重畳した画像である。ここでは、5本の線分を入力として、線分ペア候補生成部311によって5組の線分ペア候補902a~eが生成される。図9では可視化のため、各線分ペア候補の線分と画像の左右端との交点が成す四角形を描画した。これは、後述するS1001により得られる線分ペア領域に相当する。
線分ペア候補902aは、線分候補803b、eが成すペアである。線分ペア候補902bは、線分候補803b、fが成すペアである。線分ペア候補902cは、線分候補803c、fが成すペアである。線分ペア候補902dは、線分候補803e、gが成すペアである。線分ペア候補902eは、線分候補803f、gが成すペアである。
[線分ペア選択]
次に、S504における線分ペア選択部312の情報処理について、図10を用いて説明する。
まず、線分ペア選択部312は、S503により得られる線分ペア候補群の各々に対して、S1001~S1004の処理を適用し、線分ペア信頼度を得る。
S1001において、線分ペア選択部312は、線分ペア候補の各線分と、入力画像の左右端との4交点を求め、交点を頂点とする四角形を線分ペア領域として取得する。
S1002において、線分ペア選択部312は、線分ペア領域を小領域に分割する。ここでは、線分ペア領域を横方向に10分割する。分割方法は問わず、例えば、線分ペア選択部312は、縦を2分割、横を10分割し計20個の小領域を得てもよい。
更にこれらの小領域に対して、S1003において、線分ペア選択部312は、小領域信頼度を算出する。小領域信頼度は、小領域の文字らしさを表現する値となるように定義する。本実施形態では、線分ペア選択部312は、小領域信頼度を[特徴点数]/[面積]として得る。[特徴点数]は、小領域内から得るコーナー特徴点数であり、[面積]は小領域の面積である。コーナー特徴点は、Harrisオペレータ等を用いる。小領域信頼度の定義は、文字らしさが表現されていれば他の方法で定義してもよい。例えば、線分ペア選択部312は、事前に大量の文字画像と非文字画像を学習した学習器を用いて、統計的に小領域の文字らしさを算出してもよい。又は、線分ペア選択部312は、被写体上の文字以外の領域が平坦であり、文字と被写体とのコントラストが高い場合には、輝度勾配強度が文字らしさを表す。そこで、線分ペア選択部312は、各小領域内の輝度勾配強度平均を小領域信頼度として定義してもよい。
続いて、S1004において、線分ペア選択部312は、線分ペア信頼度を算出する。線分ペア選択部312は、線分ペア信頼度を、[線分信頼度の平均]×[小領域信頼度の合計]として得る。[線分信頼度の平均]は、線分ペア候補を成す2本の線分の線分信頼度の平均である。線分ペア領域の分割数が固定値ではない(例えば入力画像サイズが変動し、小領域サイズが固定等)場合、線分ペア選択部312は、小領域信頼度の平均値を線分ペア信頼度として定義してもよい。
最後に、S1005において、線分ペア選択部312は、線分ペア信頼度に基づき、線分ペア候補群から線分ペアを選択する。より具体的には、線分ペア選択部312は、線分ペア信頼度が最大の線分ペアを選択する。又は、線分ペア選択部312は、線分ペア信頼度が高い上位N個(例えばN=5)を選択してもよい。
図11は、線分ペア候補902d、902eから線分ペア信頼度を算出する処理を説明する図である。
まず、線分ペア候補902dの線分ペア信頼度算出について説明する。線分ペア選択部312は、線分ペア候補902dから線分ペア領域を取得する。線分ペア選択部312が線分ペア領域を更に小領域に分割した結果が小領域群1101である。小領域群1101は、幅が均等で高さが異なる10個の小領域から成る。線分ペア選択部312が小領域群1101から取得したコーナー特徴点をコーナー特徴点群1102として示している。コーナー特徴点は文字の近傍から多量に取得できるため、コーナー特徴点の密度を文字らしさとして定義できる。線分ペア候補902dを成す線分の情報を線分情報1103に示している。線分ペア候補902dを構成する線分e、gの線分信頼度は、それぞれ0.10、0.13である。更に、小領域情報1104に、小領域群1101の各小領域を左から順にa~jとして、面積、内包する特徴点数、及び、小領域信頼度([特徴点数]/[面積])を示している。各小領域の合計小領域信頼度は5.1となり、線分ペア信頼度は(0.10+0.13)/2×5.1=0.59となる。
次に、線分ペア候補902eの線分ペア信頼度算出について説明する。先と同様に、図11には、線分ペア候補902eから得る小領域群1105、線分ペア候補902eを成す線分の線分情報1106、小領域群1105の小領域情報1107が示されている。線分ペア候補902eを構成する線分f、gの線分信頼度は、それぞれ0.23、0.14である。小領域群1105の合計小領域信頼度は5.8である。これより、線分ペア信頼度は、(0.23+0.14)/2×5.8=1.06となる。
線分ペア候補902d、902eの線分ペア信頼度は、それぞれ0.59、1.06となり、線分ペア信頼度が大きい線分ペア候補902eの方が選択される。線分ペア選択部312が同様の処理を全ての線分ペア候補に行うことで、文字プレート107の上下境界を表す線分ペアを取得できる。
[四角形生成]
S505における四角形生成部313の情報処理について、図12を用いて説明する。図12における入力は、S1005で選択された線分ペアである。
まず、S1201において、四角形生成部313は、線分ペアから得る小領域群の各小領域信頼に対して、閾値処理を行う。例えば、四角形生成部313は、小領域信頼度が閾値0.5以上の場合はTrueとし、閾値未満の場合はFalseとして保持する。
次に、S1202において、四角形生成部313は、Falseと判定された小領域が隣接して存在する領域の連続数を計測する。四角形生成部313は、小領域の分割方向が一方向ではない場合には、隣接する領域の面積を計測してもよい。
次に、S1203において、四角形生成部313は、連続数が閾値(例えば1)以下、かつ、画像端に接しないFalse領域の判定結果を、Trueに更新する。
次に、S1204において、四角形生成部313は、更新後の判定結果がTrueである小領域の連続数を計測する。
最後に、S1205において、四角形生成部313は、S1204で計測した連続数が最大となる小領域の範囲を取得し、範囲の左右座標を四角形の左右辺となる四角形を出力する。四角形生成部313は、ここで出力する四角形を、連続数が最大となる小領域の範囲から所定の割合だけ拡張して出力してもよい。例えば、四角形生成部313は、小領域1個分だけ左右に拡張する。これにより、四角形内に十分に文字が含まれずに両端の文字を認識できなくなる可能性を低減できる。
図13は、四角形生成部313による処理を説明する図である。ここでは、入力を小領域群1105とする。
小領域群1105に対して四角形生成部313が処理を実行した結果得られる各小領域の処理結果を小領域判定結果1306に示している。各小領域を左からa~jとして、線分ペア選択処理のS1003で得る小領域信頼度を示している。
まず、四角形生成部313は、小領域信頼度が閾値0.5より高い小領域をTrue,そうでない小領域をFalseとして保持する。Falseと判定されたのは、小領域a、b、h、jである。
次に、四角形生成部313は、Falseが連続する小領域の数を計測する。小領域a、bが連続数2、小領域hが連続数1、小領域jが連続数1、となる。
次に、四角形生成部313は、連続数が閾値1以下、かつ、画像端に接しない領域の判定結果をTrueに更新する。ここでは、小領域hが、連続数1以下、かつ、画像端に接しないため、小領域hの判定結果はTrueに更新される。
次に、四角形生成部313は、更新結果がTrueである小領域の連続数を測る。ここでは、小領域c~iの連続数が7であり、これ以外にはTrueが連続する領域は存在しない。そこで、四角形生成部313は、小領域c~iを保持する。
最後に、四角形生成部313は、保持された小領域c~iを包含する領域を四角形1307として取得し、出力する。即ち、四角形生成部313は、小領域信頼度の分布に基づき、小領域cの左端、小領域iの右端のペアを直交線分ペアとして決定し、小領域c~iを包含する領域を四角形1307として出力する。直交線分ペアは、交線分ペアの一例である。
四角形生成部313の他の変更例として、線分ペアと所定の直線(例えば画像端)との交点が成す四角形を出力してもよい。
四角形生成部313の他の変更例として、線分ペアに挟まれる領域から、線分ペアに直交する線分を新たに線分検出部310により求め、線分に基づき四角形を決定してもよい。
図14は、四角形生成部313の変更例を説明する図である。
まず、線分ペア候補902eに対して、上下辺を成す線分ペアに直交する方向、即ち、左右辺の候補となる線分を線分検出部310により求める。ここではこれを直交線分群1401とする。上下辺を成す線分ペアに直交する方向は、上下辺を成す線分ペアに交わる方向の一例である。
次に、四角形生成部313は、直交線分群1401から、所定の条件を満たす2線分を直交線分ペア候補として保持する。所定の条件とは、例えば、距離が200ピクセル以上、直交線分の上端と上辺との距離、及び直交線分の下端と下辺との距離が何れも10ピクセル以下、2線分間の角度が15度以内、アスペクト比(長辺長/短辺長とする)が4.0以上6.0以下、等である。これらは文字プレート107の形状、被写体105とカメラとの相対位置等が既知であれば、より精度よく決定できる。ここでは、直交線分1401a、bの2本が直交線分ペア候補となり、その他に直交線分ペア候補が保持される。
続いて、四角形生成部313は、複数の直交線分ペア候補から一つの直交線分ペアを選択し、これを左右辺とする四角形1402を出力する。四角形生成部313は、直交線分ペアを、四角形の面積が最大となるペアを選択する。又は、四角形生成部313は、直交線分の長さの平均が最も長いペア、直交線分間距離が最大のペア、直交線分の線分信頼度が最大のペア、等を基準に選択してもよい。又は、四角形生成部313は、これらに基づき新たに直交線分ペア信頼度を定め、これが最大となるペアを選択してもよい。
以上、上述した実施形態によれば、被写体の傷や汚れ、また文字プレートの形状等により文字を内包する四角形の4辺全てを検出することが困難であっても、検出が容易な2辺とその内部の文字らしさを考慮することで、精度よく文字プレートが検出できる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
以上、上述した各実施形態によれば、計算量の増加を抑え、精度よく文字部分に係る線分のペアを選択することができる。
100 モバイル端末
201 CPU

Claims (6)

  1. 画像から線分群を検出する検出手段と、
    前記検出手段により検出された線分群から線分を2本ずつ組み合わせて、複数の線分ペア候補を生成する生成手段と、
    前記生成手段により生成された前記複数の線分ペア候補の各々について、線分ペア候補を成す2本の線分の間の領域を複数の小領域に分割して、当該分割した小領域ごとに文字らしさに基づく小領域信頼度を求め、当該求めた小領域信頼度に基づき線分ペアに関する信頼度を決定し、当該決定した前記線分ペアに関する信頼度に基づいて前記複数の線分ペア候補の中から線分ペアを選択する選択手段と、
    前記選択手段で選択された線分ペアの間の領域を分割して求めた前記複数の小領域の前記小領域信頼度の分布に基づいて、前記線分ペアに交わる方向の2本の交線分ペアを決定し、前記選択された線分ペアと前記交線分ペアとに基づいて四角形を生成する四角形生成手段と、
    を有することを特徴とする情報処理装置。
  2. 前記線分ペアに関する信頼度は、前記小領域信頼度と、当該線分ペア候補を成す2本の線分の線分信頼度とに基づいて決定される、ことを特徴とする請求項1記載の情報処理装置。
  3. 前記四角形生成手段により生成された前記四角形に内包される領域を文字領域として文字認識を行う文字認識手段を更に有する、ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記情報処理装置は、撮影部を有するモバイル端末であって、
    前記検出手段は、前記撮影部で撮影された画像から線分群を検出する、ことを特徴とする請求項1乃至3の何れか1項記載の情報処理装置。
  5. 情報処理装置が実行する情報処理方法であって、
    画像から線分群を検出する検出工程と、
    前記検出工程により検出された線分群から線分を2本ずつ組み合わせて、複数の線分ペア候補を生成する生成工程と、
    前記生成工程により生成された前記複数の線分ペア候補の各々について、線分ペア候補を成す2本の線分の間の領域を複数の小領域に分割して、当該分割した小領域ごとに文字らしさに基づく小領域信頼度を求め、当該求めた小領域信頼度に基づき線分ペアに関する信頼度を決定し、当該決定した前記線分ペアに関する信頼度に基づいて前記複数の線分ペア候補の中から線分ペアを選択する選択工程と、
    前記選択工程で選択された線分ペアの間の領域を分割して求めた前記複数の小領域の前記小領域信頼度の分布に基づいて、前記線分ペアに交わる方向の2本の交線分ペアを決定し、前記選択された線分ペアと前記交線分ペアとに基づいて四角形を生成する四角形生成工程と、を含むことを特徴とする情報処理方法。
  6. コンピュータを、請求項1乃至4の何れか1項記載の情報処理装置の各手段として機能させるためのプログラム。
JP2017080561A 2017-04-14 2017-04-14 情報処理装置、情報処理方法及びプログラム Active JP7027043B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017080561A JP7027043B2 (ja) 2017-04-14 2017-04-14 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017080561A JP7027043B2 (ja) 2017-04-14 2017-04-14 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018180986A JP2018180986A (ja) 2018-11-15
JP7027043B2 true JP7027043B2 (ja) 2022-03-01

Family

ID=64275598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017080561A Active JP7027043B2 (ja) 2017-04-14 2017-04-14 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7027043B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161247B (zh) * 2019-12-30 2023-10-20 凌云光技术股份有限公司 用于可变码识读字符质量验证的检测方法
CN111782839B (zh) 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221118A (ja) 2011-04-06 2012-11-12 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2910130B2 (ja) * 1990-03-15 1999-06-23 住友電気工業株式会社 車番自動読取装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221118A (ja) 2011-04-06 2012-11-12 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP2018180986A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
CN108961303B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
US8787695B2 (en) Image rectification using text line tracks
JP6176598B2 (ja) 寸法測定プログラム、寸法測定装置、及び、寸法測定方法
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
JP7102103B2 (ja) 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
JP6971789B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN111307039A (zh) 一种物体长度识别方法、装置、终端设备和存储介质
KR20130066819A (ko) 촬영 이미지 기반의 문자 인식 장치 및 방법
WO2023098045A1 (zh) 图像对齐方法、装置、计算机设备和存储介质
CN108965646B (zh) 图像处理装置、图像处理方法
JP2019012361A (ja) 情報処理装置、プログラム及び情報処理方法
US10643095B2 (en) Information processing apparatus, program, and information processing method
KR20120066567A (ko) 화상 처리 장치 및 프로그램
JP2009093638A (ja) 画像検出装置および画像検出方法
US10586099B2 (en) Information processing apparatus for tracking processing
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
JP7027043B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2018088116A (ja) 情報処理装置、プログラム、情報処理方法
JP2018046337A (ja) 情報処理装置、プログラム及び制御方法
JP2017120503A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10115031B1 (en) Detecting rectangular page and content boundaries from smartphone video stream
JP6677412B2 (ja) 画像抽出装置、画像抽出装置の制御方法及びプログラム
US20210281742A1 (en) Document detections from video images
JP2017162148A (ja) 情報処理装置、プログラム、情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220216

R151 Written notification of patent or utility model registration

Ref document number: 7027043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151