JP7198922B2 - タイヤ・サイドウォール撮像方法 - Google Patents

タイヤ・サイドウォール撮像方法 Download PDF

Info

Publication number
JP7198922B2
JP7198922B2 JP2021523062A JP2021523062A JP7198922B2 JP 7198922 B2 JP7198922 B2 JP 7198922B2 JP 2021523062 A JP2021523062 A JP 2021523062A JP 2021523062 A JP2021523062 A JP 2021523062A JP 7198922 B2 JP7198922 B2 JP 7198922B2
Authority
JP
Japan
Prior art keywords
region
interest
tire
histogram
hog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021523062A
Other languages
English (en)
Other versions
JP2022517471A (ja
Inventor
サイド、ワジャハト、アリ、シャー、カズミ
イアン、トーマス、ナブニー
ジョージ、ボジアツィス
アレクサンダー、ポール、コッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wheelright Ltd
Original Assignee
Wheelright Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wheelright Ltd filed Critical Wheelright Ltd
Publication of JP2022517471A publication Critical patent/JP2022517471A/ja
Application granted granted Critical
Publication of JP7198922B2 publication Critical patent/JP7198922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M17/00Testing of vehicles
    • G01M17/007Wheeled or endless-tracked vehicles
    • G01M17/02Tyres
    • G01M17/027Tyres using light, e.g. infrared, ultraviolet or holographic techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • G01B11/2433Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures for measuring outlines by shadow casting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本発明は、タイヤのサイドウォール上の型押しおよび/または彫刻マーキング(embossed and/or engraved marking)を読み取る方法に関し、より詳細には、関心領域を生成するためのコンピュータ実装方法に関する。
タイヤ・サイドウォールと呼ばれる、車両タイヤの外向き面は、テキストベースのコードを保持する。コードは、例えば、タイヤブランド、製造プラント、年代、タイヤタイプ、所期の荷重、速度定格およびサイズ、製造バッチ情報、製造業者詳細、ならびに他の製品情報についての情報を保持する。コードは、例えば、1つまたは複数の英字、数字、ロゴ、記号、ピクトグラム、ならびに/あるいは任意の他の情報の視覚的表現の混合を含み得る。車両ユーザ、特にフリートオペレータにとって、この情報は、全車両にわたってタイヤの使用量および状態を追跡するための一貫した信頼性の高い方式を提供し、それによってフリートオペレータがフリートのタイヤの在庫に関するデータ解析を実施し、タイヤに欠陥が生じ、かつ/または劣化し始めているときを検出する能力が著しく高まるので、この情報は不可欠である。
タイヤ・サイドウォールを読み取るプロセスを自動化することが試みられてきたが、そのようなシステムは、屋内の制御された検査作業で使用するための3Dスキャナベースのシステム(MicroEpsilon、Cognex、およびNumetrixから入手可能)、または屋内と屋外の両方の用途向けの手持形レーザデバイスのどちらかである。そのようなシステムは、構造化レーザ光構成要素を仮定すると製造するのに費用がかかり、較正が困難であり、破壊されやすく、かつ/または人間のオペレータの援助を依然として必要とし、したがって本当に自動化され、費用対効果の高いものとは言えない。
構造光なしに撮影されたイメージに対して光学的文字認識(OCR)を適用することは、ハードウェア・コストを著しく削減することになる。しかしながら、屋外でのタイヤの使用により、(例えば、材料侵食、塵、乾燥、および/または湿気のために)サイドウォール・テキストが摩耗するので、かつテキストが非常に低いコントラストを有し(黒地に黒色)、それは人間の観察者でさえ判読することが時には困難であり、自動システムにとっては当然困難であるので、カラーまたはグレイスケール・イメージOCRに基づく以前の試みは成功しなかった。
そのようなシステムを製造する際の困難は、車両タイヤがシステムを通過するときの移動中の車両タイヤと、システムの視野がタイヤの上を移動しているときの静止したタイヤの両方の上のテキストを読み取るのに十分なだけ、そのようなシステムが高速であることが望ましいことである。そのようなシステムはまた、変化する条件(例えば、屋外の様々な気象条件、および/または屋内のフリート車庫のほこりっぽい/汚れた条件)を補償することができ、人間のオペレータの援助なしに正確で再現可能な結果を生成できることが望ましい。
コントラストイメージの向上を実現する撮像システムが、WO2017060739A1で提案されている。具体的には、タイヤ・サイドウォール・コードなどの型押しまたは彫刻されたテキストを読み取るためには、影付けによってテキストのコントラスト、すなわち可読性が改善され得るので、照明が重要である。WO2017060739A1はイメージ解析ソフトウェアを使用して、そのようなイメージに対してOCRを実施し、型押しマーキングを読み取ることを提案しているが、WO2017060739A1に記載されているような従来のOCR技法は非常に低速であり、かつ/または理想的ではない非実験室設定では低い精度を有するので、十分に機能しない。
ディープラーニングベースのイメージ分類およびテキスト認識における最近の発展は、ディープ畳込みニューラルネットワーク(CNN)をベンチマークデータセットのテキスト認識についての性能テーブルの最上位に押し上げ、したがって現在ではイメージ処理におけるほぼすべての最上位の結果が、手作りの特徴ではなくディープラーニングを使用している。しかしながら、性能テーブル内で上位に順位付けられるディープ畳込みニューラルネットワークは、タイヤイメージデータを含まないベンチマークデータセットに対して首尾よく動作するように調整されている。実際に、そのようなネットワークが現場のカメラから取得されたタイヤイメージなどのデータに対して使用されるとき、そのようなネットワークが成功するということにはならない。そのようなディープネットワークは、自然環境(すなわち、高雑音環境)でテキストを検出し、読み取るために使用されたが、これらのケースでは、使用されたデータは、読み取られるテキストと、イメージの背景との間で妥当な程度のコントラストと色差の両方を示した。したがって、タイヤのサイドウォール上のテキストを認識する改良型のシステムおよび方法が求められている。
一般的には、本発明は、タイヤ・サイドウォールのイメージなどの、低コントラストおよび低色差を有するイメージ上の関心領域をより正確かつ効率的に識別する方法に関する。方法は、勾配方向ヒストグラム(Histogram of Oriented Gradient)(HOG)技法を畳込みニューラルネットワーク層と組み合わせ、低コントラストおよび低色差に関わらず周知の技法と比較して効率および精度を改善する。
低コントラスト、低色差イメージ上の関心領域をより正確かつ効率的に識別することにより、普通なら見落とされていたはずのタイヤの型押しおよび/または彫刻マーキング付近の裂傷などの欠陥が、より容易に識別され、特定のタイヤに関連付けられ、追跡され得、それによってタイヤ安全性を改善する効果を実現する。さらに、タイヤ識別情報ならびに関連するタイヤ欠陥および/または安全性情報の中央データベースが更新され得る。次いで、中央データベースは、タイヤを修理または交換する必要があるときを判定するために使用され得る。
より具体的には、本発明は、タイヤ・サイドウォール上のユーザ指定の文字シーケンスに関連する関心領域を生成する方法に関し、入力イメージのHOGが生成されて、HOG特徴のマップが取得され、HOG特徴のマップが、畳込みニューラルネットワークに対する入力として使用され、畳込みニューラルネットワークは、ユーザ指定の文字シーケンスが存在するか否かを判定するようにHOG特徴から分類する。一実施形態では、HOG特徴は、例えばVLFeatオープンソースライブラリ(DalalTriggsおよびUoCTTI)によって提供される2つの方法の一方を使用して、畳込みニューラルネットワークの外部で別々に生成され得る。別の実施形態では、HOG特徴は、MahendranおよびVedaldi(2015)、Understanding Deep Image Representations by Inverting Them、IEEE Conference on Computer Vision and Pattern Recognition、IEEE Compt. Soc.で説明されているようなCNNで実装されるHOGの近似を使用して生成され得る。この論文は、CNNを使用するHOG特徴生成が、有利なことに後続のどんな処理操作の複雑さも低減するHOG特徴派生物の計算も可能にすることを除いて、VLFeatオープンソースライブラリによって提供されるHOG特徴生成手法とは数値的に区別できないことを示している。HOG特徴およびHOGという用語は、本明細書では、VLFeatオープンソースライブラリによって提供されるような手法、ならびに/あるいはMahendranおよびVedaldi(2015)とその中で参照されている他の論文で説明されているCNN手法を使用して生成されるものを意味するように用いられる。
さらに、本明細書で使用される以下の用語には、以下の定義が与えられる。
「合成的に生成された/合成データ」-例えば、他の情報源から限られたデータだけが利用可能である場合に、アルゴリズムを使用して生成され、トレーニングのために利用可能な全データ量を増大させるために使用されるデータ、
「タイヤ検出」-タイヤのイメージ内のどのピクセルがタイヤに対応するか、およびどのピクセルが、車両のハブキャップや車体などの背景に対応するかを識別すること、
「アンワーピング(unwarping)」-湾曲したタイヤ・サイドウォールのイメージを、曲線が除去され、またはまっすぐにされたイメージにマッピングすること、
「畳込みフィルタのスタック」-畳込みニューラルネットワークまたはその一部を共に形成する、畳込みフィルタを含むイメージ処理操作のカスケード、
「全結合畳込み層(fully connected convolutional layer)」-そのマスクサイズの高さ、幅、およびチャネル数が前の層の特徴マップのサイズと同一である畳込みフィルタ。全結合畳込み層は、全結合層が生成するのと同一の出力サイズの特徴マップを生成する。
一実施形態による5ステージ方法を示す図である。 タイヤの内半径および外半径がその上に示されているアンワーピング方式を示す図である。 一実施形態による提案/関心領域ジェネレータ方法のフローチャートである。 一実施形態による、HOG-CNNアーキテクチャで勾配方向ヒストグラムおよび対応する特徴マップを生成する方法のフローチャートである。 一実施形態による、HOG-MLPアーキテクチャで勾配方向ヒストグラムおよび対応する特徴マップを生成する方法のフローチャートである。 一実施形態によるCNNアーキテクチャのブロック図である。 一実施形態によるCNNアーキテクチャのブロック図である。 一実施形態によるCNNアーキテクチャのブロック図である。 一実施形態による関心領域を検証する方法のフローチャートである。 一実施形態によるネットワーク・アーキテクチャのブロック図である。 一実施形態によるネットワーク・アーキテクチャのブロック図である。 一実施形態による、タイヤ・サイドウォール・コードの位置を特定する/検証する方法のフローチャートである。 一実施形態によるネットワーク・アーキテクチャのブロック図である。 一実施形態によるネットワーク・アーキテクチャのブロック図である。
物体照射および高フレームレートイメージ取得101、タイヤ検出102、タイヤ・アンワーピング103、テキスト検出104(「D」、「0」、「T」などのユーザ指定文字シーケンスを見つけることによってタイヤ・サイドウォール上のテキストの位置が特定される)、およびコード読取り105(タイヤに関する製品情報を含むタイヤ・サイドウォール・コードが検出および認識される)を含む、本発明の一実施形態である5ステージ方法が図1で提案される。
各ステージは、単一のシステムとして共に使用され、または個々に使用され、かつ/あるいはスマートフォン、タブレット、または他の類似のデバイスのカメラおよびフラッシュを使用するWO2017060739A1に記載の撮像システムなどの本明細書で説明されないシステムと組み合わされ得る。昼光が十分な照明を与える別の例では、フラッシュが完全に省略され得る。
具体的には、テキスト検出104ステージでは、ユーザ指定文字シーケンスを含み得る関心領域を識別する提案(すなわち関心領域)ジェネレータ方法104aが提供される。以下でより詳細に説明されるように、第1のステップでは、提案ジェネレータ方法104aは、VLFEATオープンソースライブラリによって提供されるような方法を使用して、またはCNNを使用して、タイヤのサイドウォールの入力イメージから、各特徴が勾配方向ヒストグラム(HOG)であるHOG特徴のマップを生成する。第2のステップでは、HOG特徴がCNN分類器アーキテクチャに入力される。まずHOG特徴を生成して、これをCNN分類器アーキテクチャへの入力として使用することにより、提案ジェネレータは、別々の分類器を用いる手作りの特徴だけに基づく方法よりも精度の点で優れており、ディープCNNのみに基づく方法よりも効率の点で優れていることが判明した。
さらに、HOG特徴を事前に生成し、CNNアーキテクチャ内に挿入することにより、学習タスクは、その特徴、すなわちピクセル値を決定し、その中のパターンを学習することが困難である低コントラストの黒地に黒色のイメージを分類するのではなく、HOG入力を1つまたは複数のクラスに分類して関心領域を生成することに軽減される。これは、全体としてのシステムが、自然環境に見られるような未知のデータセットに対してはるかに一般化できることを意味する。対照的に、(HOG入力のない)純粋なCNNアーキテクチャに低コントラストの黒地に黒色のイメージが与えられる場合、CNNがイメージ特徴を学習することができるためには、アーキテクチャはずっと複雑になる(例えば、層がより多くなり、かつ/または層間の接続がより複雑になる)。複雑さが増大する結果、計算資源オーバヘッドが増大し、メモリリソースオーバヘッドが増大し、効率が低下する。したがって、純粋なディープCNNアーキテクチャは依然として、純粋に精度で測定したとき、現在提案されている組合せHOG/CNNアーキテクチャよりも優れていることがあるが、タイヤ・サイドウォールの現実世界の問題に適用するとき、リアルタイムアプリケーションおよび低メモリシステムについての効率の点では十分ではない。さらに、リソース使用量に関して、提案生成のためにディープCNNを使用することは、システムのリソースオーバヘッドを著しく増大させ、したがって本明細書で説明される、提案されるHOG-CNNアーキテクチャが計算効率の1桁の改善およびメモリフットプリントの1桁の削減と共に同等に適切な提案を生成し得、それによってディープCNNアーキテクチャのために必要とされる、費用のかかるGPU、メモリ、および他のハードウェアの必要を克服するときには特に、低リソースシステムでの効率的なリソースの使用法ではない。
したがって、本明細書で説明される提案ジェネレータ方法104aは、型押しおよび/または彫刻マーキングに基づいてタイヤ・サイドウォール上の関心領域を生成する任意のシステムの性能を改善し得ることが想定される。独立した発明としての使用、および/または任意の周知のOCR技法と一緒の使用を本発明者らは想定する。
他のステージ、すなわち物体照射および高フレームレートイメージ取得101、タイヤ検出102、タイヤ・アンワーピング103、提案ジェネレータによって提案される関心領域の検証104b、およびテキスト読取り105の詳細は、提案ジェネレータ方法104aによって実現される利点を可能にすることにとって不可欠ではない。これらのステージの詳細は、提案ジェネレータ方法の例示的実装がより詳細に明らかにされる前に以下で説明される。
イメージ取得101
前述のように、WO2017060739A1で提案されているような撮像システムが、型押しおよび/または彫刻テキストまたはマーキングがその上に存在するタイヤのサイドウォールのデジタルイメージを取得するために使用され得る。このシステムは、所与のイメージ内のタイヤ・サイドウォールの一部のみを取り込み、したがってタイヤが通過するときに通常は一連のイメージが撮影され、タイヤ・サイドウォールの外周全体が取り込まれること、したがって型押しおよび/または彫刻マーキングを有するサイドウォールの任意の部分も取り込まれることが保証される。
タイヤ検出102およびアンワーピング103
イメージが取得されると、円形ハフ変換(Circular Hough Transform)(CHT)または他の適切な技法を使用してタイヤの円形セグメントが検出され得る(すなわち、内半径および外半径の位置が特定される)。CHTを実施する前に、照射を正規化するだけでなく、エッジも向上させるDifference of Gaussian(DoG)フィルタを使用して、イメージが前処理され得る。前処理の一部として、任意選択で、イメージが元のサイズの1/4~1/8の間までダウンサンプリングされ得、ダウンサンプリングは、タイヤ検出の効率と精度のどちらも改善する。次いで、タイヤの中心が、カメラによって取り込まれたイメージフレームの外部にあり得るので、ダウンサンプリング後のイメージが黒色ピクセルで埋められる(すなわち、CHTがタイヤ中心を識別し得る適切なサイズの座標系を与えるために、ブラック・ピクセルが追加される)。前処理が行われた後に、次いでハブキャップの円形接合を検出するためにCHTが使用され、したがってCHTは、図2aに示されるように、ある程度の安全なオフセットを有するタイヤの内半径204と、外半径203とを検出し、これらは、図2(b)に示されるように、実際のタイヤの内半径201および外半径202に対応する。しかしながら、より高いコントラストの結果として時にはより支配的となり得るイメージ内の別の支配的な円さ(circularity)(図2(b)に示されるようなホイールアーチやハブキャップの円さなど)の存在のために、時には別の誤った円が検出される。この状況を回避するために、特定のタイヤ(車軸)に関連する、取り込まれたイメージのすべてが、n個の半径範囲について(並列スレッドで)処理される。次いで、検出された円が半径範囲ヒストグラムを生成するために使用される。その中で検出された円の最高数を有する半径範囲ビンに対応する半径が、最良の検出されたタイヤ内半径201として選択される。この手法は単純であり(すなわち、リソース効率が良く)、所与のイメージの視野の結果としてタイヤの円さが支配的となる移動中のタイヤから生じるコンセンサスのために、どんな異常値も効果的に、首尾よく除去することができる。
ハブキャップとタイヤの接合(すなわち、タイヤ内半径201)が検出されると、タイヤ200の外半径202に対応する第2の円が、第1の半径から固定のオフセットで選ばれる。これは、タイヤ・サイドウォール・テキストが一般にはタイヤ200の外半径202の近くのトレッド付近ではなく、内半径の近く、または中央にあるので、タイヤ・サイドウォール・テキスト(例えば、DOTコードのテキスト)が現れると予想されるエリアをカバーするのに十分である。内半径に近接しているために、検出された内半径はまた、図2aに示されるように固定のピクセルだけ縮小され、境界線のケースが適切に処理されることが保証される。
タイヤ検出の後、内半径201と外半径202との間の半径方向イメージパッチが、Polar-to-Cartesianマッピングを使用して長方形格子にアンワーピングされる。これは円さをアンワーピングするだけでなく、イメージの必要な部分だけを切り取ることも行い、それは次のステージの効率を向上させる。
パイプラインの最初の3つのステージ、すなわち物体照射およびイメージ取得101、タイヤ検出102、およびアンワーピング103は、すべてのアルゴリズムを一から実装することによって、または好ましくはOpenCVを使用することによって、任意の適切なコンピュータ言語で実装され得る。しかし、他のコンピュータビジョンライブラリおよびビジョン処理技法も使用され得る。
テキスト検出:DOT検出104
テキスト検出104ステージでは、テキスト検出および位置特定のための機械学習ベースの手法が利用される。タイヤ・アンワーピング・ステージ103からのアンワーピング済みイメージが使用される。業界の規定により、ほとんどの市販のタイヤ・サイドウォール・コードの先頭には、米国運輸省を表す文字シーケンス「D」、「O」、および「T」が付けられている。この例では、DOT文字シーケンスは、タイヤ・サイドウォール・コードに関するテキストの位置を特定するためのアンカとして使用される。しかしながら、他の文字シーケンス、英字、数字、ロゴ、記号、ピクトグラム、および/または任意の他の情報の視覚的表現も、タイヤ・サイドウォール・コードのテキストの位置が特定され得るアンカとして使用され得ることが想定される。例えば、フリートオペレータが1つのブランドのタイヤのみを使用する場合、関連するブランド・ロゴまたは商標が、タイヤ・サイドウォール上のテキストの位置を特定するために使用され得る。
アンカはタイヤ・サイドウォール・コードの残りの部分のテキストに先行するので、アンカの目的は探索スペースを絞り込むことである。テキスト検出104ステージは、提案(すなわち関心領域)生成104aと、その後に続く検証またはテキスト位置特定104bという、後続のイメージ処理操作の2つのカスケード、すなわちセットを有する。前述のように、本明細書で説明される提案ジェネレータ方法104aが独立した方法として使用され得ることが想定され、その出力が、タイヤ・サイドウォール上のテキストを検出および/または認識するために提案(すなわち関心領域)生成に依拠する既知のイメージ処理技法を使用して、別々に(例えば、第3者によって所有される機器を使用して)処理される。
提案生成104a
テキストは非常に低いコントラストであるので、提案生成のために、低レベル特徴ベースの手法(「ZitnickおよびDollar、Edge Boxes: Locating object Proposals from Edges、ECCV、European Conference on Computer Vision、2014」によって提案されるエッジ・ボックスなど)は本発明者らによって不適切であることが判明した。タイヤの他のセグメントからの強いエッジが支配的となり(そのほとんどはテキストを含まない)、その結果、どんなテキストも含まない多数の提案が生じるからである。これらの提案のうちのどれがテキストを含むか否かを判定することは、リソースオーバヘッドを著しく増大させる。
さらに、(例えば、「Wang他、End-to-end Scene Text Recognition、Proceedings of the 2011 International Conference on Computer Vision、IEEE Computer Society、Washington、ICCV ’11 pp 1457~1464 DOI 10.1109/ICCV.2011.6126402」、「Mishra他、Top-down and bottom-up cues for scene text recognition、2012 IEEE Conference on Computer Vision and Pattern Recognition、pp 2687~2694、DOI 10.1109/CVPR.2012.6247990」、および「Mishra他、Image Retrieval Using Textual Cues、2013 IEEE International Conference on Computer Vision and Pattern Recognition、pp 3040~3047」などに記載されているように)手作りの特徴はテキスト検出のために首尾よく使用されているが、そのような技法は、自然環境でタイヤ・サイドウォール・テキストを妥当な時間で認識する産業上の適用のためには低速過ぎる。
具体的には、本発明者らがHOGをサポートベクトルマシン(SVM)分類器と組み合わせてスライディングウィンドウ式に使用することを試みたとき、テキスト検出(すなわち、文字シーケンス「D」、「O」、「T」を検出すること)について妥当に正確な結果を生成したが、イメージのサイズ(500×2000から4000ピクセル)は依然として、各イメージを走査するのに数分かかることを意味し、それによって、あらゆるタイヤはそれに関連付けられるいくつかのイメージを有する。この時間スケールは長過ぎ、産業上の適用のためには受け入れられず、システムが、人間のオペレータがタイヤ・サイドウォール・コードを手動で読み取って記録するシステムより優れているべきである場合、各タイヤについて長く続く走査時間を車両フリートオペレータが待機すると妥当に予想することができない。理想的には、実用的なシステムは1分未満のエンドツーエンド結果を必要とする。さらに、そのようなシステムは、(GPUのコストが、本願については法外に高くなり得るので)CPUベースの処理のみで動作することができるべきである。より低解像度のカメラや、より高解像度のイメージのダウンサンプリングなどによる、より低解像度のイメージは、そのような小さく、かつ低コントラストのテキスト認識には適していない。
領域提案ネットワークを使用してイメージを走査し、位置特定分岐についての提案を生成する、Faster-RCNNなどのディープCNNベースの分岐アーキテクチャ(例えば、「Ren他、Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks、Advances in Neural Information Processing Systems 28、Curran Associates, Inc.、pp 91~99、2015」で説明されている)が代替手法である。Faster-RCNNは、正確であると共に、GPUに関する効率を維持することが示されている。しかし、タイヤ・サイドウォール撮像で使用されるサイズのイメージに関する特徴マップおよび提案生成のためにFaster-RCNNによって一般に必要とされるようなディープネットワークバックボーン(VGG16やResNet50など)を使用することは、CPUに対して費用がかかり過ぎ、したがって大型メモリGPU(11GB以上)を必要とし、そのことは、車両フリートオペレータにとってタイヤ・サイドウォール・コードを手動で読み取って記録するために人間のオペレータを雇用する方が費用対効果が高くなる所まで、合計システムコストを上昇させる。さらに、GPUは余分の冷却構成を必要とし、冷却構成は、潜在的には暑い天候の屋外の状況での使用を制限する。
前述のように、本発明は、提案を効率的に生成するためにHOG特徴の生成をCNNベースの分類器と組み合わせることによって、この問題に対する解決策を提供する。あるアーキテクチャでは、HOG特徴が、VLFeatオープンソースライブラリによって提供されるような既知の方法を使用して生成され、次いでCNNベースの分類器に入力される。別のアーキテクチャでは、HOG特徴がCNNによって生成され、CNNベースの分類器に入力される。本明細書では第1のアーキテクチャはHOG-MLP(多層パーセプトロン)として説明され、第2のアーキテクチャはHOG-CNNとして説明される。
トレーニング実行
本明細書で論じられるすべてのCNNトレーニング実行は、確率的勾配降下法を、A VedadiおよびLenc (2015) MatConvNet- Convolutional Neural Networks for Matlab、Proceedings of the ACM、Int. Conf. on Multimediaで説明されているようにA.VedaldiおよびLenc(2015)によるMatConvNetライブラリを使用するMatlab内の逆伝播を伴うオプティマイザとして使用する。しかしながら、TensorFlow、Caffe、Torchなどの任意の適切な代替トレーニングおよび最適化技法およびライブラリも使用され得ることが想定される。さらに、一例として、テキストクラストレーニングデータが合成的に生成され得るのに対して、背景クラストレーニングデータが現実のタイヤイメージから抽出され得る。しかしながら、例えば現実のタイヤイメージから十分なデータが利用可能である場合、合成データ生成が全く不要であり得ることが想定される。さらに、過学習を防止するためにドロップアウト層が使用され得る。さらに、本明細書で説明されるネットワークは、過学習(over-fitting)を防止するためにトレーニング中に1つまたは複数の50%ドロップアウト層を使用したが、その代わりに、交差検証、より多くのデータを用いたトレーニング、特徴の除去、早期打切り(early-stopping)、正則化(regularisation)などの、過学習を防止するために使用される他の技法も使用され得ることが想定される。照明正規化およびエッジ強調のために、Difference of Gaussian(DoG)フィルタリングが入力データに適用された。ヒストグラム等化(histogram equalization)や適応ヒストグラム等化などの、コントラスト正規化の他の技法も使用され得る。
合成データ生成
前述のように、十分な現実のイメージデータが利用可能ではない場合、任意選択で、合成データ生成が使用され得る。自然環境内に配置された自動タイヤ・サイドウォール・テキスト・リーダは様々な光、天候、摩耗の条件でサイドウォール・テキストを読み取らなければならないので、良好な一般化を達成するためにかなりの量のトレーニングデータが必要とされ得る。自然環境で大量のデータセットを収集することは非常に費用がかかり、時間がかかるプロセスである。その代わりに、いくつかの異なるフォントおよびテキストレンダリングエンジンを使用して、トレーニングデータが合成的に生成され得る。最初に、ランダムなサイズの様々なフォントを使用して白黒テキストマスクが作成される。次いで、マスクが漸進的に不鮮明にされ得る(複数のコピーを追加する、または狭い近傍(dx,dyピクセル)内でレンダリング位置をシフトする)。これが様々な方向(回転する影を表すため)および長さ(様々な影の長さを表すため)で行われる。次いで、イメージ・マスクがタイヤ背景と融合され、現実のタイヤ・サイドウォール・イメージ上に現れるはずの、現実的な型押し/彫刻テキスト・イメージが再現される。勾配方向ヒストグラム特徴がCNN分類器への入力に使用されるとすると、いくつかの実施形態では、トレーニングデータは、タイヤ・サイドウォールの複数のデジタルイメージから生成された複数の勾配方向ヒストグラム特徴マップを含み得る。
提案ジェネレータ方法104aの実装
図3は、図1の提案生成ステップ104aに対応する、本発明の一実施形態である提案ジェネレータ方法304のステップを示すフローチャートである。例えば前述のように取得された、アンワーピング済みタイヤ・サイドウォールの一部のデジタルイメージ300が入力として使用される。タイヤ・サイドウォールは、その上にタイヤ・サイドウォール・コードなどの1つまたは複数の型押しおよび/または彫刻マーキングを有する。デジタルイメージの勾配方向ヒストグラムおよびそれに関連する特徴マップが生成される(301)。生成された勾配方向ヒストグラムがトレーニング済みニューラルネットワーク302に入力される。トレーニング済みニューラルネットワークは、入力された勾配方向ヒストグラムおよびそれに関連する特徴マップに基づいて、デジタルイメージのピクセルの領域が型押しおよび/または彫刻マーキングを含む第1の確率を出力する(303)ように構成される。第1の確率が第1の所定のしきい値以上である場合(305a)、ピクセルの領域が関心領域として受け入れられ、出力される(306)。そうでない場合、ピクセルの領域は棄却される(305b)。このようにして、提案ジェネレータ方法104aは1つまたは複数の型押しおよび/または彫刻マーキングに関連付けられるデジタルイメージ上の関心領域を生成し得る。
前述のように、HOG特徴を生成するための2つの代替方式が提供される。第1の方式では、トレーニング済みCNN分類器の外部で、トレーニング済みCNN分類器とは別々に(例えば、VLFeatオープンソースライブラリによって提供される方法を使用して)HOG特徴が生成される。これが本明細書ではHOG-MLPとして説明される。第2の方式では、HOG特徴がCNNによって生成される。これが本明細書ではHOG-CNNとして説明される。
図4は、前述のHOG-CNNアーキテクチャによるCNNで勾配方向ヒストグラム401およびその特徴マップを生成する方法のフローチャートである。具体的には、タイヤ・サイドウォールの一部のデジタルイメージの入力400を受け取った後、畳込みフィルタのスタック402が使用されて、勾配方向ヒストグラムおよび対応するHOG特徴マップが生成され、HOG特徴マップが出力される(403)。
図5は、前述のHOG-MLPアーキテクチャによる別々の外部HOGジェネレータ502で勾配方向ヒストグラム501および対応するHOG特徴マップを生成する方法のフローチャートである。具体的には、タイヤ・サイドウォールの一部のデジタルイメージの入力500を受け取った後、HOGジェネレータが使用されて、勾配方向ヒストグラムおよび対応するHOG特徴マップが生成され、HOG特徴マップが出力される(503)。
HOG特徴をCNN分類器と組み合わせることによって実現される効果は、HOG+SVM(すなわち、空間的スライディングウィンドウ方式(spatially sliding window manner)のサポートベクトルマシン分類器)などの純粋に手作りの技法よりも、生成される提案/関心領域の総数が著しく少なく、偽陽性が少ないことである。別の利点は、HOG特徴の生成がディープ畳込みネットワークだけで提案/関心領域を生成することを試みるよりも浅く、かつ/または計算するのに効率的であるために、全スキャン/計算時間がずっと短いことである。前述のように、これについての1つの理由は、CNN分類器が生イメージデータからイメージ副構造(または特徴マップ)を学習することを必要とせずに、HOG生成がイメージ副構造をCNN分類器に提供することにあると本発明者らは考えている。それによって、ディープCNNアーキテクチャの必要を効率的にスキップする。ディープアーキテクチャは、トレーニングデータのみからイメージ副構造を学習する必要があり、そのことは、イメージが前景と背景との間で低コントラストを有する場合、1桁多いデータおよびトレーニング時間を必要とすることになるので、特に難しい。一方、HOG-CNNをトレーニングすることは、相対的にずっと小さいデータセットで実施され、CPUで非常に効率的に実施され得る。
HOG-CNN
図6aは、一実施形態によるHOG-CNNアーキテクチャのブロック図である。全結合畳込みネットワークが、畳込みフィルタのスタック、すなわちHOG特徴生成層を構成するHOG分解層で終了するイメージ処理操作のカスケードの終わりにプラグインされる。それと共に、これは、所与の入力イメージが型押しおよび/または彫刻マーキングを含む確率を出力するクロスエントロピー損失層(トレーニング用)またはソフトマックス層(テスト用または適用用または動作用)で終了する完全なCNNアーキテクチャを提供する。そのようなネットワークは、ディープ特徴を生成するためにCNN層が使用されるようなディープネットワークよりも少ない畳込み層およびチャネルを有する浅いものである。したがって、ネットワークの深さが浅いことは、著しい速度の改善を実現し、自然環境でのタイヤ・サイドウォール・テキスト読取りにずっと適したものとなる。
「MahendranおよびVedaldi(2015)、Understanding Deep Image Representations by Inverting Them、IEEE Conference on Computer Vision and Pattern Recognition、IEEE Compt. Soc」で説明されているようなHOGについてのCNN層が使用されるが、その代わりに任意の適切なCNNベースのHOG層実装が使用され得ることが想定される。さらに、「DalaiおよびTriggs(2005)、Histograms of Oriented Gradients for Human Detection、Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’o5)- Volume 1 - pp886~893、DOI 10.1109/CVPR.2005.177」および「Felzenszwalb他(2010)、UoCTTI、Object Detection with Discriminatively Trained Part-Based Models、IEEE Transactions on Pattern Analysis and Machine Intelligence 32(9):1627-1645、DOI 10.1109/TPAMI.2009.167」で説明されているHOG方法のいずれかも使用され得る。
図6に示される例示的アーキテクチャは、先に論じたようにdifference of Gaussian技法を使用して前処理された60×130ピクセルのDOTテキスト入力601イメージを有する。「MahendranおよびVedaldi(2015)、Understanding Deep Image Representations by Inverting Them、IEEE Conference on Computer Vision and Pattern Recognition、IEEE Compt. Soc」で説明されているように、HOG特徴は畳込みフィルタのスタックを使用して抽出され、方向フィルタが、方向の数(O)のK=2倍だけ適用され、Kは添字K=1,...kである。K番目の方向フィルタは以下によって与えられる。
Figure 0007198922000001
Figure 0007198922000002
方向フィルタは、方向ベクトルuに沿った入力の投射をguとして投影する(ただしgは定数である)。方向フィルタリングの後、HOGビニング602が以下の活性化関数によって実施され得る。
Figure 0007198922000003
畳込みフィルタのスタックが、Conv(3×3×1×2O)アーキテクチャ601で始まるものとして図6aに示されているが、他のフィルタ・アーキテクチャも使用され得ることを理解されよう。(例えば、Conv(5×5×1×2O)またはConv(7×7×1×2O))。フィルタの他の例は、上記で引用したHOG実装で見出され得る。
HOG特徴抽出では、ビニングされた勾配がセル内にプールされ、次いでセルが2×2ブロックで組み合わされる。これは、線形フィルタ603のスタックを通じて行われる。正規化604(L2ノルム)の後、ブロックが再びセル構造に分解され、値が0.2にクランピングされる(すなわちmax{x,0.2})(605)。本明細書で説明される例示的実装では、有向勾配(directed gradient)が、無向勾配(undirected gradient)(huo)の1つのセットと共に、範囲[0,2π)内の方向の数(hdo)の2倍だけビニングされる。したがって、合計で3×OチャネルがHOG分解層606で使用される。
上記の例を使用して、60(H)×130(W)ピクセルを有する入力イメージについて、CNNベースのHOGは、8×8セルサイズおよび9方向について7×16×27の特徴マップを生成した。他のセルサイズおよび方向数も使用され得る。
次いで、このHOG出力が分類器(例えば、多層パーセプトロンまたはMLP)607a、607bに入力される。この例では、分類器607a、607bは、マスクサイズ7×16×27CH(CHは現在の層内のチャネル数を表す)のランダムに初期化された全結合(FC)層607aを含む。この後に、図6aに示されるように50%ドロップアウトおよび別のFC層607bが続いた。ドロップアウトは、単にいくつかのニューロンをスキップすることにより過学習を防止する正則化技法である。過学習を防止するための他の技法も適用され得ることが想定され、交差検証、より多くのデータを用いたトレーニング、特徴の除去、早期打切り、正則化など、他の技法の例が上記で説明された。HOG特徴生成と後続の分類は共に、1つの統合CNNアーキテクチャとして互いに接続されたFCと共に実施されるので、HOG-CNNという用語が用いられる。
逆伝播を通じてCNN分類器をトレーニングし、「DOT」テキスト609を識別するために、最終のクロスエントロピー損失608も設けられる。OverFeat(Sermanet,P.、Eigen,D.、Zhang,X.、Mathieu,M.、Fergus,FI.、およびLecun,Y.(2014).Overfeat:Integrated recognition, localization and detection using convolutional networks. In International Conference on Learning Representations(ICLR2014))と同様に、図6aのアーキテクチャは畳込み層をFC層として使用し、HOG-CNNネットワークは、必要とされる最低限のサイズ、すなわち60×130ピクセルよりも大きい場合、イメージ全体を走査し得る。
そのようなネットワークをトレーニングすることは、いくつかの層が事前定義されると共に、最終の分類器がランダムに初期化されるので難しい。このケースでは、合成的に生成されたDOTクラスと共に、合計で(サイズ60×130ピクセルの)600K未満のイメージを含むデータセットに関してネットワークがトレーニングされた。トレーニングセットは合成的に生成されたDOTクラスと、非DOTテキスト、エッジ、テクスチャ、およびプレーン背景の混合からなる背景クラスとを含んでいた。飽和点に達したとき、合計で80~90回のトレーニングエポックで十分であると見なされた。トレーニングをさらに続けることは、モデルを過学習する傾向にある。しかしながら、ネットワークは浅く、スパースフィルタを使用するので、CPU上であっても効率的に(約5時間未満のトレーニング時間で)トレーニングされ得る。
上記の例示的アーキテクチャは例示のためのものに過ぎないことを理解されよう。
したがって、前述のように、自然環境でタイヤ・サイドウォール・テキストを認識するための、高い計算オーバヘッドと、(空間的スライディングウィンドウ方式の)HOG+SVMやディープCNN技法などの技法のコストという問題が、HOG実装の出力をシャローCNNに入力するという概念を使用することによって解決され得る。
HOG-MLP
HOG-MLPでは、統合CNNアーキテクチャを使用するのではなく、VLFeatライブラリ(VedaldiおよびFulkerson 2008、An Open and Portable Library of Computer Vision Algorithms、ver(0.9.16)、p、http://www.vlfeat.org)などの独立型HOG実装610を使用して、HOGが入力601から抽出され、次いで図6bに示されるようにマルチクラスMLP(HOG-MLP)ネットワークに供給され得る。この例で使用されるVLFEAT HOG実装610では、勾配が3O+4テクスチャ成分についてビニングされる。したがって、60(H)×130(W)の入力601イメージ・サイズ、8×8のHOGセルサイズ、および12の方向では(合計で40成分)、ネットワーク内の第1の層611は8×16×40CHであった。セルサイズおよび方向数は、交差検証データセットに対して可能な最良の検出精度を達成するように系統的探索を通じて選ばれた。他のセルサイズおよび方向数も使用され得る。交差検証データセットに対する精度。他のセルサイズおよび方向数も使用され得る。プレーン背景、非DOTテキスト、およびエッジ/テクスチャの間で分割された4つの背景クラスと共に、丸/四角/細字および太字のフォント、はっきりした外観と拡散した外観、長い影と短い影、文字間のシングルスペーシングとダブルスペーシング、および他の変形について7つの合成されたDOTクラスを含む百万個超のイメージの11クラス(nC=11)のデータセットに関してネットワークがトレーニングされた。第2の層612もクロスエントロピー損失層613と共に設けられた。クロスエントロピー損失層の出力クラスのうちのどれがDOTコードに対応し、どれが対応しないかを事前決定することによって、出力614がバイナリクラス確率すなわちDOT/非DOTにマッピングされた。この多クラス表現は、前の知識をトレーニングに組み込むことを可能にし、それによって、例えばネットワークの一般化を向上させ、その結果、設置、較正、および/またはハードウェア製品開発の間のイメージ取得の照明構成の変化に対処し得る。
イメージ取得および照明に対する変更が不要である場合、取得されたイメージ内の光/影の方向がより一貫したものとなる。そのようなシナリオでは、セルサイズ=8×8、O=16(合計52成分を構成する)を有するが、4つだけの出力クラスnC=4(すなわちDOT、プレーン背景、エッジ/テクスチャ、非DOTテキスト)を有する、HOG-MLP提案ジェネレータの代替の例示的実施例が、図6cに示されるように設けられる。出力615は、やはりバイナリ分類(DOT/非DOT)にマッピングされる。この例では、ネットワークが、前述のように合成的に生成されたDOTクラスを有する百万イメージを少し超えるデータセットに対してトレーニングされた。どちらの例示的HOG-MLPネットワークについても、30~50エポックについてトレーニングした後、満足の行く結果が得られた。HOG-CNNと同様に、これらのスパースネットワークは、CPU上でも効率的にトレーニングされ得、そのうちのあるものは、ディープCNN実装では効率的にトレーニングすることが不可能である。
HOG-CNNの場合と同じく、HOG-MLPアーキテクチャの上記の例は例示のためのものに過ぎないことを理解されよう。自然環境でタイヤ・サイドウォール・テキストを認識するための、高い計算オーバヘッドと、例えばHOG+SVM(空間的スライディングウィンドウ方式のサポートベクトルマシン分類器)またはディープCNN技法のコストという問題が、HOG実装の出力をシャローCNNに入力するという概念を使用することによって解決され得る。
比較
HOG-CNNとHOG MLPという2つの提案生成方法を比較すると、イメージ500×3000ピクセルについての走査時間は、Intel Corei7 3.6GHz CPU上でそれぞれ約550および250msであった。HOG-CNNとHOG-MLPのどちらについても、これは、スライディングウィンドウ方式の手作りのHOG+SVM実装、またはディープCNNベースの実装の数分程度よりも著しく高速である。
HOG-MLPでは、アーキテクチャのHOG部分はCNNアーキテクチャの一部ではないので、特徴抽出ステージを通じて逆伝播することは不可能である。一方、HOG-CNNでは、ネットワーク全体を通じた逆伝播が可能であり、それによって、HOG-CNN実装がデータの変動に適応する能力が向上する。
同一のセルサイズおよび方向数を使用するHOG-CNNアーキテクチャとHOG-MLPアーキテクチャの両方の精度は同程度であるが、HOG-CNNはHOG-MLPよりも少ない提案を生成し、したがって(例えば、逆伝播のために)より良好に一般化することに本発明者らは気付いた。
テキスト位置特定:DOT位置特定104b
フィルタリング後の提案からタイヤ・サイドウォール・テキスト(すなわち、タイヤ・サイドウォールDOTコード)の位置を最終的に特定し、検証するために、生成された関心領域に分類器が適用され、関心領域のうちの1つまたは複数が偽陽性として受け入れられ、または棄却され得る。
図7は、図1のステップ104bに対応する一実施形態による方法704を示すフローチャートである。提案ジェネレータ方法104aから出力された関心領域700が分類器701に入力される。分類器701は、関心領域内のテキストの位置を特定し、それによって真の関心領域ならびに偽陽性を検証する。言い換えれば、各関心領域について、分類器701はどれが偽陽性であり、どれが偽陽性ではないかを判定する。偽陽性が廃棄されるのに対して、真の関心領域が選択される。分類器701は、所与の関心領域が実際に型押し/彫刻マーキング(前述の「D」、「O」、「T」文字シーケンスなど)を含む確率702を出力するディープ・ニューラルネットワークであり得る。確率が所定のしきい値未満である場合、所与の関心領域は偽陽性であると判定され、棄却される(703b)。そうでない場合、所与の関心領域は真の関心領域として受け入れられ(703a)、出力される(704)。
分類器701として使用され得るディープネットワーク801の例示的実施例が図8aに示されている。「Jaderberg他(2016)、Reading Text in the Wild with Convolutional Neural networks、International Journal of Computer Vision 116(1):1-20 DOI 10.1007/s11263-015-0823-z」で説明されているような他の類似のアーキテクチャが使用され得ることが想定される。実際に、偽陽性が棄却される方法は、ステップ104aによって実現される利点とは無関係であり、それを可能にするのに不可欠なものではない。検出確率を事前定義されたしきい値と比較するために、CNN分類器の端部のソフトマックス層が使用され得る。
この例示的ネットワーク801のためのトレーニングセットは、複数のDOTおよび背景クラス(10クラスの160万イメージ:7つのDOTクラス、プレーン背景についての3つの背景クラス、エッジ/テクスチャ、および非DOTテキスト)を含んでいた。図14(a)に示される例では、32×100ピクセルの入力DOTテキスト・イメージ800が使用され、すなわちHOG-CNNまたはHOG-MLPの検出結果は60×130ピクセルであり、それが32×100ピクセルにダウンサンプリングされる。次いで、分類結果802がバイナリ出力(DOT/非DOT)にマッピングされる。HOG-MLPと同様に、撮像および照射構成が、例えば設置、較正、および/またはハードウェア製品開発中にもはや変更を必要とせず、データセットがより一貫したものにされるとき、テキスト位置特定ネットワーク1001は、図8bに示されるように、4通り分類器(4 way-classifier)803(DOT、プレーン背景、非DOTテキスト、およびエッジ/テクスチャ)に削減され得る。その結果、提案ジェネレータによって生成される多数の偽陽性が棄却され得、いくつかの強い候補のみが保持される。このステージを通過する偽陽性は、必要な場合、コード読取りステージ105でのテキスト認識によって対処され得る。
コード読取り105
コード読取り105は、図1に示されるように、テキストまたは文字検出/位置特定105a(コードの文字の位置が特定される)と、テキストまたは文字認識105b(文字が認識され、出力される)という2つのステージから構成され得る。ステップ105aおよび105bは、単一のステップで同一の分類器によって実施され、または別々の分類器によって実施され得る。イメージのコードパッチ(すなわち、DOTコードおよび「DOT」アンカ位置に続く文字を含むイメージの部分)がまず前処理され、低レベル・エッジ・フィルタリングを使用してテキスト高さまで切り取られる。次いで、パッチ高さがコード検出ネットワークのストライド(入力イメージ上の2つの連続する検出ウィンドウ間でスキップされるピクセル数)に従って40~50ピクセルにサイズ変更される。
図9は、図1のステップ105aと105bの両方に対応する単一の分類器を使用して、タイヤ・サイドウォール・コードの位置を特定し、かつ/または分類する(すなわち、タイヤ・サイドウォールの型押しおよび/または彫刻マーキングを読み取る)ために使用される方法901のフローチャートである。検証された関心領域に隣接するエリアが選択され、単一の分類器901に入力される。次いで、分類器901は、選択されたエリア内のコードの文字/シンボルの位置を特定し、所与の文字/シンボルが例えば英字や数字などの文字として認識される確率を出力し得(903)、確率から型押しおよび/または彫刻マーキング(すなわち、タイヤ・サイドウォール・コード)の出力された読取りが提供され得る。
代替として、図10および11は、ステップ105aおよび105bを別々に実施し得る別々のネットワークを示す。多数のOCR技法が存在し、提案/関心領域がステップ104aで説明されるように生成された後に任意のそのような技法が使用され得ることが想定されることを理解されよう。
図10を参照すると、テキストは背景に対して非常に低いコントラストを有するので、図10に示されるアーキテクチャ1001によって提供されるような稠密予測機構(dense prediction mechanism)が必要とされる。CNNでは、maxプーリング層がイメージをダウンサンプリングし、そのことはネットワーク・ストライドを増大させる。maxプーリング層を除去することは、稠密(ピクセル毎)予測を可能にするが、パラメータスペースを非常に増大させ、そのことによって効率と精度の両方に関してコストがかかる。MaxOut活動化と組み合わせたドロップアウトなどの正則化技法は、精度を改善するのに役立つ。したがって、図10に示されるように、MaxOutがこのアーキテクチャで使用された。ReLUがMaxOut層に先行する場合、ネットワークはトレーニング中に最小値に迅速に収束することに本発明者らは気付いた。図10の入力1000は、32×32ピクセルサイズを有するDoGイメージとして示される。Goodfellow他(2013)、Maxout Networks、Proceedings of the 30th International Conference on Machine Learning - Volume 28、JMLR.org、ICML’13、pp III-1319-III-1327」および「Jaderberg他(2014)、Deep Features for Text Spotting、European Conference on Computer Vision」で説明されているような他のネットワーク・アーキテクチャも想定される。最後に、HOG-CNNおよびHOG-MLPと同様に、畳込み層から構成される全結合(FC)層は、ネットワークがコードパッチ全体の上をスライドすることを可能にし、途中でテキストを検出して位置を特定し、空間スライディングウィンドウ機構のためのどんな必要も回避する。
この例では、前述のように合成的に生成されたテキストクラスと共に、700Kイメージデータセットに関してトレーニングが行われた。背景クラスは実際のタイヤパッチから抽出された。背景クラスは、単一のエッジ、リッジパターン、キャストまたはダイ形状、およびプレーン背景を含んでいた。出力がバイナリクラス確率、すなわちテキスト/非テキストにマッピングされた。文字検出器が、先に論じられたようにコードパッチ全体を畳込み式に走査することによってバウンディングボックスを生成した。そのように検出されたボックスは、テキストの最高の確率が存在する領域が中心に置かれる。検出されたボックスに非最大値抑制が適用され、提案が取り除かれる。任意選択で、文字分類器は文字検出のためにも使用され得る。しかしながら、コード・テキスト認識用の文字分類器とは別々のコード文字検出用の専用分類器がより良好に動作することを本発明者らは発見した。
前述のように、図11に示されるような別々の文字認識ネットワーク1101がこの例示的実施例で使用され、ステップ105bが実施される。ステップ105aで位置特定が、例えば図10に示されるアーキテクチャを使用して実施された後、検出されたコード文字位置が使用されて文字が抽出され、文字が文字分類器ネットワーク1101に供給される。「Jaderberg他(2016)、Reading Text in the Wild with Convolutional Neural networks、International Journal of Computer Vision 116(1):1-20 DOI 10.1007/s11263-015-0823-z」で説明されているような他の文字分類器も使用され得る。このネットワークは、数字0から9、大文字アルファベットAからZ(タイヤDOTコードでは使用されないI、Q、S、およびOを除く)についてのクラス、および7つの背景クラスを有し、33クラス(32文字および1背景クラス)にマッピングされる39通り分類器を作成する。モデルが、約700,000イメージの本発明者らの合成文字データセットに関してトレーニングされた。分類器はまた、必要とされる場合、タイヤ・サイドウォール・コード内に見出される特定のブランド、ロゴ、またはシンボルを認識するようにトレーニングされ得る。
利点
提案されるシステムは産業システムであるので、精度と効率がどちらも等しく重要である。具体的には、ステップ104aでの前述の提案/関心領域ジェネレータは、精度の顕著な低下を受けることなく、タイヤ・サイドウォール読取りシステムの効率の著しい向上を実現する。したがって、その方法が提案/関心領域の生成を必要とする、タイヤ・サイドウォール読取りに適用される任意の周知のコンピュータビジョンおよびOCR技法と共に提案/関心領域ジェネレータが使用され得ることを本発明者らは想定する。
精度
精度は、最終的には解析中のデータサンプルに依存する。本明細書で説明されるアーキテクチャのトレーニング誤差は5%未満であった。合成トレーニングデータが現実のイメージデータと混合され、かつ/またはアフィン変形などのトレーニング時間データ増強が追加される場合、ネットワークによる過学習はさらに低減され得る。したがって、HOG-CNNおよびHOG-MLPは、タイヤ・サイドウォール・テキストに関する関心領域生成について5%未満の偽陽性率を実現する。これは、タイヤ高、半径、およびホイールアーチに対する位置が多種多様であっても実現される。
効率
産業システムでは、エンド・ユーザが結果を待っているので、効率が非常に重要である。ディープラーニングベースのシステムではGPU(グラフィカル処理装置)が広く使用されているが、GPUを配置することは、各撮像場所にGPUが配置されるので全システムコストが増大することを意味する。需要が増大し、場所ごとに2つのユニット(車両の右側および左側について1つずつ)が必要となることにより、全コストを低く保つことは主要な属性となる。したがって、前述のように、理想的にはCPUベースのシステムが求められている。
アンワーピング済みイメージ全体(平均サイズ500×3000ピクセル)をディープネットワークで走査することは、Core i7 3.6GHz CPU(パラメータメモリ496MBを必要とする)上で20秒超かかる。実際に、物体/テキスト検出用の最高性能のアルゴリズム(すなわち、ベンチマークデータセットに関して高ランキングを有するもの)のうちのいくつかが撮像タイヤ・サイドウォール・テキストに適用されるとき、それらは急速に計算上のボトルネックとなる。一方、提案されるシャローネットワーク(HOG-CNNまたはHOG-MLPのどちらか)が必要とするパラメータメモリは1から3MBだけである。次いでその後に、そのように生成された提案のみのディープスキャンが続くとき、全走査時間は約3秒まで削減される。これは、効率に関して1桁の改善(ほぼ95%の高速化)、ならびに全システムコストおよび複雑さの著しい削減(CPUベースの動作のみを有するため)であり、HOG-CNNまたはHOG-MLPの想起はほぼ100%であるので、精度が明らかに損なわれることはない。これと共に、タイヤ検出およびアンワーピングのためにイメージを処理し、得られた500×3000ピクセル・アンワーピング済みイメージを3つの異なるスケールで走査し、その後でコードを検出して読み取ることについてのエンドツーエンド結果が、前述のCPU上で、平均で3から5秒かかる。
本発明が前述の好ましい実施形態に関して説明されたが、これらの実施形態は例示的なものに過ぎず、特許請求の範囲はそれらの実施形態に限定されないことを理解されたい。添付の特許請求の範囲内に包含されると企図される、本開示に鑑みた変更形態および代替実施形態を当業者は作成することができる。本明細書で開示または図示される各特徴は、単独であっても、本明細書で開示または図示される任意の他の特徴との任意の適切な組合せであっても、本発明に組み込まれ得る。
例えば、図6aは2つの全結合畳込み層607a、607bを想定するが、これは、精度を犠牲にして計算オーバヘッドをさらに低減するために1つの層に削減され得る。言い換えれば、畳込みニューラルネットワークは1つまたは2つの全結合畳込み層を含み得る。代替として、精度を向上させるために、全結合層の数が、計算複雑さを犠牲にして3つ以上の層に増加され得る。しかしながら、3つ以上の層を使用することは、フリートオペレータにとって計算時間が受け入れられないレベルまで増大するような範囲まで計算複雑さを増大させ、かつ/またはGPUを必要とし、それによって、HOG-CNNまたはHOG-MLPを使用することによって得られる利点が低減され、または完全になくなることが想定される。これは理想的な実験室設定にとっては問題ではないことがあるが、コストおよび効率が重要であり、したがってシャローネットワークがより高い利点をもたらす産業システムにとっては問題である。

Claims (15)

  1. タイヤのサイドウォールのデジタルイメージ上の関心領域を生成するためのコンピュータ実装方法であって、前記サイドウォールが1つまたは複数の型押しおよび/または彫刻マーキングを有し、
    タイヤの円さに関連する複数のn個の半径範囲を検出し、半径範囲ヒストグラムを生成し、前記半径範囲ヒストグラムからタイヤ内半径および外半径を特定することによって、前記デジタルイメージをアンワーピングすることと、
    アンワーピングされた前記デジタルイメージの勾配方向ヒストグラム特徴マップを生成することと、
    前記勾配方向ヒストグラム特徴マップをトレーニング済みニューラルネットワークに入力することであって、前記トレーニング済みニューラルネットワークが、入力された前記勾配方向ヒストグラム特徴マップに基づいて、アンワーピングされた前記デジタルイメージのピクセルの領域が前記型押しおよび/または彫刻マーキングを含む第1の確率を出力するように構成される、入力することと、
    前記第1の確率が第1の所定のしきい値以上である場合、ピクセルの前記領域を前記関心領域として受け入れることと
    を含むコンピュータ実装方法。
  2. 勾配方向ヒストグラム特徴マップを前記生成することが、トレーニング済み畳込みニューラルネットワーク内の畳込みフィルタのスタックによって実施される、請求項1に記載のコンピュータ実装方法。
  3. 勾配方向ヒストグラム特徴マップを前記生成することが、前記トレーニング済みニューラルネットワークとは別々の勾配方向ヒストグラムジェネレータによって実施される、請求項1に記載のコンピュータ実装方法。
  4. 前記トレーニング済みニューラルネットワークが1つまたは2つの全結合層を含む、請求項1から3のいずれかに記載のコンピュータ実装方法。
  5. 前記トレーニング済み畳込みニューラルネットワークが、タイヤ・サイドウォールの複数のアンワーピングされたデジタルイメージから生成された複数の勾配方向ヒストグラム特徴マップを含むトレーニングデータに関してトレーニングされる、請求項2、または請求項2に従属する請求項4に記載のコンピュータ実装方法。
  6. 前記トレーニングデータが合成データをさらに含む、請求項5に記載のコンピュータ実装方法。
  7. 前記第1の確率が前記第1の所定のしきい値未満である場合、ピクセルの前記領域を関心領域として棄却することをさらに含む、請求項1から6のいずれかに記載のコンピュータ実装方法。
  8. 前記関心領域に分類器を適用することであって、
    前記分類器が、前記関心領域が前記型押しおよび/または彫刻マーキングを含む第2の確率を出力するように構成される、適用することと、
    前記第2の確率が第2の所定のしきい値未満である場合、前記関心領域が偽陽性であると判定することと
    をさらに含む、請求項1から7のいずれかに記載のコンピュータ実装方法。
  9. タイヤのサイドウォール上の型押しおよび/または彫刻マーキングを読み取る方法であって、
    前記タイヤの前記サイドウォールのデジタルイメージを提供することと、
    タイヤの円さに関連する複数のn個の半径範囲を検出し、半径範囲ヒストグラムを生成し、前記半径範囲ヒストグラムからタイヤ内半径および外半径を特定することによって、前記デジタルイメージをアンワーピングすることと、
    アンワーピングされた前記デジタルイメージ上の関心領域を生成することと、
    前記関心領域が偽陽性であるかどうかを判定するように分類器を適用し、前記関心領域が偽陽性である場合、前記関心領域を廃棄すること、または前記関心領域が偽陽性ではない場合、前記関心領域を選択することと、
    選択した前記関心領域に隣接するアンワーピングされた前記デジタルイメージのエリアを選択することと、
    前記関心領域に隣接する前記デジタルイメージの前記エリアに分類器を適用し、前記型押しおよび/または彫刻マーキングを読み取ることと、
    を含み、
    関心領域を前記生成することが、
    アンワーピングされた前記デジタルイメージの勾配方向ヒストグラム特徴マップを生成することと、
    前記勾配方向ヒストグラム特徴マップをトレーニング済みニューラルネットワークに入力することであって、前記トレーニング済みニューラルネットワークが、入力された前記勾配方向ヒストグラム特徴マップに基づいて、アンワーピングされた前記デジタルイメージのピクセルの領域が前記型押しおよび/または彫刻マーキングを含む確率を出力するように構成される、入力することと、
    前記確率が所定のしきい値以上である場合、ピクセルの前記領域を前記関心領域として受け入れることと、
    を含む方法。
  10. 勾配方向ヒストグラム特徴マップを前記生成することが、トレーニング済み畳込みニューラルネットワーク内の畳込みフィルタのスタックによって実施される、請求項9に記載の方法。
  11. 勾配方向ヒストグラム特徴マップを前記生成することが、前記トレーニング済みニューラルネットワークとは別々の勾配方向ヒストグラムジェネレータによって実施される、請求項9に記載の方法。
  12. 請求項1から11のいずれかに記載の方法のステップを実施するための手段を備えるデータ処理装置。
  13. 前記ステップが中央プロセッサ処理装置(CPU)によって実施される、請求項12に記載のデータ処理装置。
  14. 命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがコンピュータによって実行されるとき、請求項1から11のいずれかに記載の方法のステップを前記コンピュータに実施させる、コンピュータプログラム。
  15. 請求項14に記載のコンピュータプログラムを記憶したコンピュータ可読記憶媒体。
JP2021523062A 2019-01-23 2020-01-20 タイヤ・サイドウォール撮像方法 Active JP7198922B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1900915.8 2019-01-23
GB1900915.8A GB2580675A (en) 2019-01-23 2019-01-23 Tyre sidewall imaging method
PCT/GB2020/050105 WO2020152440A1 (en) 2019-01-23 2020-01-20 Tyre sidewall imaging method

Publications (2)

Publication Number Publication Date
JP2022517471A JP2022517471A (ja) 2022-03-09
JP7198922B2 true JP7198922B2 (ja) 2023-01-04

Family

ID=65656022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021523062A Active JP7198922B2 (ja) 2019-01-23 2020-01-20 タイヤ・サイドウォール撮像方法

Country Status (13)

Country Link
US (1) US11922683B2 (ja)
EP (1) EP3915042B1 (ja)
JP (1) JP7198922B2 (ja)
KR (1) KR20210114383A (ja)
CN (1) CN112740223A (ja)
AU (1) AU2020211766B2 (ja)
BR (1) BR112021014182A2 (ja)
CA (1) CA3110975A1 (ja)
ES (1) ES2947935T3 (ja)
GB (1) GB2580675A (ja)
PL (1) PL3915042T3 (ja)
WO (1) WO2020152440A1 (ja)
ZA (1) ZA202104551B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11763546B1 (en) 2017-07-26 2023-09-19 Vizit Labs, Inc. Systems and methods for managing computer memory for scoring images or videos using selective web crawling
US11417085B2 (en) 2017-07-26 2022-08-16 Vizit Labs, Inc. Systems and methods for automating benchmark generation using neural networks for image or video selection
US12118769B1 (en) 2017-07-26 2024-10-15 Vizit Labs, Inc. Machine learning architecture for peer-based image scoring
US20230145252A1 (en) * 2020-01-24 2023-05-11 Oswego Innovations Two Inc. Portable tire scanners and related methods and systems
CN112883957B (zh) * 2020-09-23 2022-04-22 浙江浩腾电子科技股份有限公司 一种车胎文本检测和识别方法
WO2022152821A1 (en) 2021-01-13 2022-07-21 Monte Rosa Therapeutics Ag Isoindolinone compounds
US20220301297A1 (en) * 2021-03-16 2022-09-22 9419-6979 Québec inc. System, method and apparatus for obtaining sensitive and specific predictions from deep neural networks
US20220379332A1 (en) * 2021-05-19 2022-12-01 Paolozzi Investments, Inc. Systems and methods for universal tire dressing application
CN114660321B (zh) * 2022-03-22 2022-09-20 江阴市精奇数控有限公司 电机轴承转速测量系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162761A1 (en) 2014-12-09 2016-06-09 Xerox Corporation Method and system for ocr-free vehicle identification number localization
US20180181826A1 (en) 2016-12-27 2018-06-28 Datalogic Usa, Inc. Robust String Text Detection for Industrial Optical Character Recognition
JP2018173818A (ja) 2017-03-31 2018-11-08 キヤノン株式会社 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400936B2 (en) 2014-12-11 2016-07-26 Xerox Corporation Methods and systems for vehicle tag number recognition
KR101714185B1 (ko) * 2015-08-05 2017-03-22 엘지전자 주식회사 차량 운전 보조장치 및 이를 포함하는 차량
GB201517926D0 (en) 2015-10-09 2015-11-25 Wheelright Ltd Tyre condition analysis
US11423651B2 (en) * 2016-02-09 2022-08-23 Hrl Laboratories, Llc System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification
JP2017162148A (ja) * 2016-03-09 2017-09-14 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
CN105976392B (zh) * 2016-05-30 2018-12-14 北京智芯原动科技有限公司 基于最大输出概率的车辆轮胎检测方法及装置
GB2554435B (en) * 2016-09-27 2019-10-23 Univ Leicester Image processing
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
US10078892B1 (en) * 2017-03-16 2018-09-18 GM Global Technology Operations LLC Methods and systems for vehicle tire analysis using vehicle mounted cameras
CN107122776A (zh) * 2017-04-14 2017-09-01 重庆邮电大学 一种基于卷积神经网络的交通标志检测与识别方法
CN108052865A (zh) * 2017-07-06 2018-05-18 同济大学 一种基于卷积神经网络和支持向量机的火焰检测方法
WO2019084385A1 (en) * 2017-10-26 2019-05-02 Tire Profiles, Llc TIRE CODE READER
CN108171232B (zh) * 2017-11-15 2021-12-28 中山大学 基于深度学习算法的细菌性与病毒性儿童肺炎的分类方法
CN108287914A (zh) * 2018-02-09 2018-07-17 辽宁工程技术大学 一种基于卷积神经网络的果树病害识别与防治方法
CN109255344B (zh) * 2018-08-15 2022-02-18 华中科技大学 一种基于机器视觉的数显式仪表定位与读数识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162761A1 (en) 2014-12-09 2016-06-09 Xerox Corporation Method and system for ocr-free vehicle identification number localization
US20180181826A1 (en) 2016-12-27 2018-06-28 Datalogic Usa, Inc. Robust String Text Detection for Industrial Optical Character Recognition
JP2018173818A (ja) 2017-03-31 2018-11-08 キヤノン株式会社 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム

Also Published As

Publication number Publication date
GB201900915D0 (en) 2019-03-13
CN112740223A (zh) 2021-04-30
PL3915042T3 (pl) 2023-12-04
AU2020211766B2 (en) 2022-02-10
US20220058417A1 (en) 2022-02-24
CA3110975A1 (en) 2020-07-30
AU2020211766A1 (en) 2021-05-27
ZA202104551B (en) 2024-04-24
BR112021014182A2 (pt) 2021-09-21
KR20210114383A (ko) 2021-09-23
US11922683B2 (en) 2024-03-05
GB2580675A (en) 2020-07-29
EP3915042B1 (en) 2023-06-07
EP3915042C0 (en) 2023-06-07
ES2947935T3 (es) 2023-08-24
EP3915042A1 (en) 2021-12-01
WO2020152440A1 (en) 2020-07-30
JP2022517471A (ja) 2022-03-09

Similar Documents

Publication Publication Date Title
JP7198922B2 (ja) タイヤ・サイドウォール撮像方法
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
Mohammad et al. Optical character recognition implementation using pattern matching
US8447114B2 (en) Method and apparatus for calculating pixel features of image data
US9294665B2 (en) Feature extraction apparatus, feature extraction program, and image processing apparatus
US20080205764A1 (en) Information processing apparatus, method, and program
US20070058856A1 (en) Character recoginition in video data
US20060018521A1 (en) Object classification using image segmentation
Kazmi et al. An efficient industrial system for vehicle tyre (tire) detection and text recognition using deep learning
Ap et al. Automatic number plate detection in vehicles using faster R-CNN
US20150016679A1 (en) Feature extraction device, feature extraction method, and feature extraction program
JP2008251029A (ja) 文字認識装置、ナンバープレート認識システム
CN114219402A (zh) 物流托盘码放识别方法、装置、设备及存储介质
Kazmi et al. Vehicle tire (tyre) detection and text recognition using deep learning
Al-Shemarry et al. Identifying License Plates in Distorted Vehicle Images: Detecting Distorted Vehicle Licence Plates Using a Novel Preprocessing Methods With Hybrid Feature Descriptors
Arafat et al. A vehicular license plate recognition framework for skewed images
JP2005149395A (ja) 文字認識装置、ナンバープレート認識システム
Hernández Structural analysis of textures based on LAW´ s filters
Al-Shemarry et al. Detecting Distorted Vehicle Licence Plates Using Novel Preprocessing Methods With Hybrid Feature Descriptors
Olmí et al. Numeric character recognition system for chilean license plates in semicontrolled scenarios
Jipeng et al. Chinese numeral recognition using gabor and svm
CN107194328B (zh) 一种圆形图像的特征提取方法
Sharma et al. Maximum entropy-based semi-supervised learning for automatic detection and recognition of objects using deep ConvNets
Kasaraneni Autonomous Vehicle Number Plate Recognition Using a YOLO and ESRGAN Framework
Koponen et al. Recent advancements in machine vision methods for product code recognition: A systematic review [version 1; peer review

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7198922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150