JP2022517471A

JP2022517471A - タイヤ・サイドウォール撮像方法

Info

Publication number: JP2022517471A
Application number: JP2021523062A
Authority: JP
Inventors: サイド、ワジャハト、アリ、シャー、カズミ; イアン、トーマス、ナブニー; ジョージ、ボジアツィス; アレクサンダー、ポール、コッド
Original assignee: Wheelright Ltd
Current assignee: Wheelright Ltd
Priority date: 2019-01-23
Filing date: 2020-01-20
Publication date: 2022-03-09
Anticipated expiration: 2040-01-20
Also published as: AU2020211766A1; PL3915042T3; CN112740223A; GB201900915D0; EP3915042B1; US20220058417A1; AU2020211766B2; ZA202104551B; JP7198922B2; GB2580675A; EP3915042C0; EP3915042A1; ES2947935T3; KR20210114383A; US11922683B2; WO2020152440A1; CA3110975A1; BR112021014182A2

Abstract

タイヤのサイドウォールのデジタルイメージ上の関心領域を生成するためのコンピュータ実装方法であって、サイドウォールが１つまたは複数の型押しおよび／または彫刻マーキングを有する、コンピュータ実装方法が提供される。方法は、デジタルイメージの勾配方向ヒストグラム特徴マップを生成することと、勾配方向ヒストグラム特徴マップをトレーニング済み畳込みニューラルネットワークに入力することであって、前記トレーニング済み畳込みニューラルネットワークが、入力された勾配方向ヒストグラム特徴マップに基づいて、デジタルイメージのピクセルの領域が型押しおよび／または彫刻マーキングを含む第１の確率を出力するように構成される、入力することと、第１の確率が第１の所定のしきい値以上である場合、ピクセルの前記領域を前記関心領域として受け入れることとを含む。

Description

本発明は、タイヤのサイドウォール上の型押しおよび／または彫刻マーキング（ｅｍｂｏｓｓｅｄａｎｄ／ｏｒｅｎｇｒａｖｅｄｍａｒｋｉｎｇ）を読み取る方法に関し、より詳細には、関心領域を生成するためのコンピュータ実装方法に関する。

タイヤ・サイドウォールと呼ばれる、車両タイヤの外向き面は、テキストベースのコードを保持する。コードは、例えば、タイヤブランド、製造プラント、年代、タイヤタイプ、所期の荷重、速度定格およびサイズ、製造バッチ情報、製造業者詳細、ならびに他の製品情報についての情報を保持する。コードは、例えば、１つまたは複数の英字、数字、ロゴ、記号、ピクトグラム、ならびに／あるいは任意の他の情報の視覚的表現の混合を含み得る。車両ユーザ、特にフリートオペレータにとって、この情報は、全車両にわたってタイヤの使用量および状態を追跡するための一貫した信頼性の高い方式を提供し、それによってフリートオペレータがフリートのタイヤの在庫に関するデータ解析を実施し、タイヤに欠陥が生じ、かつ／または劣化し始めているときを検出する能力が著しく高まるので、この情報は不可欠である。

タイヤ・サイドウォールを読み取るプロセスを自動化することが試みられてきたが、そのようなシステムは、屋内の制御された検査作業で使用するための３Ｄスキャナベースのシステム（ＭｉｃｒｏＥｐｓｉｌｏｎ、Ｃｏｇｎｅｘ、およびＮｕｍｅｔｒｉｘから入手可能）、または屋内と屋外の両方の用途向けの手持形レーザデバイスのどちらかである。そのようなシステムは、構造化レーザ光構成要素を仮定すると製造するのに費用がかかり、較正が困難であり、破壊されやすく、かつ／または人間のオペレータの援助を依然として必要とし、したがって本当に自動化され、費用対効果の高いものとは言えない。

構造光なしに撮影されたイメージに対して光学的文字認識（ＯＣＲ）を適用することは、ハードウェア・コストを著しく削減することになる。しかしながら、屋外でのタイヤの使用により、（例えば、材料侵食、塵、乾燥、および／または湿気のために）サイドウォール・テキストが摩耗するので、かつテキストが非常に低いコントラストを有し（黒地に黒色）、それは人間の観察者でさえ判読することが時には困難であり、自動システムにとっては当然困難であるので、カラーまたはグレイスケール・イメージＯＣＲに基づく以前の試みは成功しなかった。

そのようなシステムを製造する際の困難は、車両タイヤがシステムを通過するときの移動中の車両タイヤと、システムの視野がタイヤの上を移動しているときの静止したタイヤの両方の上のテキストを読み取るのに十分なだけ、そのようなシステムが高速であることが望ましいことである。そのようなシステムはまた、変化する条件（例えば、屋外の様々な気象条件、および／または屋内のフリート車庫のほこりっぽい／汚れた条件）を補償することができ、人間のオペレータの援助なしに正確で再現可能な結果を生成できることが望ましい。

コントラストイメージの向上を実現する撮像システムが、ＷＯ２０１７０６０７３９Ａ１で提案されている。具体的には、タイヤ・サイドウォール・コードなどの型押しまたは彫刻されたテキストを読み取るためには、影付けによってテキストのコントラスト、すなわち可読性が改善され得るので、照明が重要である。ＷＯ２０１７０６０７３９Ａ１はイメージ解析ソフトウェアを使用して、そのようなイメージに対してＯＣＲを実施し、型押しマーキングを読み取ることを提案しているが、ＷＯ２０１７０６０７３９Ａ１に記載されているような従来のＯＣＲ技法は非常に低速であり、かつ／または理想的ではない非実験室設定では低い精度を有するので、十分に機能しない。

ディープラーニングベースのイメージ分類およびテキスト認識における最近の発展は、ディープ畳込みニューラルネットワーク（ＣＮＮ）をベンチマークデータセットのテキスト認識についての性能テーブルの最上位に押し上げ、したがって現在ではイメージ処理におけるほぼすべての最上位の結果が、手作りの特徴ではなくディープラーニングを使用している。しかしながら、性能テーブル内で上位に順位付けられるディープ畳込みニューラルネットワークは、タイヤイメージデータを含まないベンチマークデータセットに対して首尾よく動作するように調整されている。実際に、そのようなネットワークが現場のカメラから取得されたタイヤイメージなどのデータに対して使用されるとき、そのようなネットワークが成功するということにはならない。そのようなディープネットワークは、自然環境（すなわち、高雑音環境）でテキストを検出し、読み取るために使用されたが、これらのケースでは、使用されたデータは、読み取られるテキストと、イメージの背景との間で妥当な程度のコントラストと色差の両方を示した。したがって、タイヤのサイドウォール上のテキストを認識する改良型のシステムおよび方法が求められている。

一般的には、本発明は、タイヤ・サイドウォールのイメージなどの、低コントラストおよび低色差を有するイメージ上の関心領域をより正確かつ効率的に識別する方法に関する。方法は、勾配方向ヒストグラム（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ）（ＨＯＧ）技法を畳込みニューラルネットワーク層と組み合わせ、低コントラストおよび低色差に関わらず周知の技法と比較して効率および精度を改善する。
低コントラスト、低色差イメージ上の関心領域をより正確かつ効率的に識別することにより、普通なら見落とされていたはずのタイヤの型押しおよび／または彫刻マーキング付近の裂傷などの欠陥が、より容易に識別され、特定のタイヤに関連付けられ、追跡され得、それによってタイヤ安全性を改善する効果を実現する。さらに、タイヤ識別情報ならびに関連するタイヤ欠陥および／または安全性情報の中央データベースが更新され得る。次いで、中央データベースは、タイヤを修理または交換する必要があるときを判定するために使用され得る。

より具体的には、本発明は、タイヤ・サイドウォール上のユーザ指定の文字シーケンスに関連する関心領域を生成する方法に関し、入力イメージのＨＯＧが生成されて、ＨＯＧ特徴のマップが取得され、ＨＯＧ特徴のマップが、畳込みニューラルネットワークに対する入力として使用され、畳込みニューラルネットワークは、ユーザ指定の文字シーケンスが存在するか否かを判定するようにＨＯＧ特徴から分類する。一実施形態では、ＨＯＧ特徴は、例えばＶＬＦｅａｔオープンソースライブラリ（ＤａｌａｌＴｒｉｇｇｓおよびＵｏＣＴＴＩ）によって提供される２つの方法の一方を使用して、畳込みニューラルネットワークの外部で別々に生成され得る。別の実施形態では、ＨＯＧ特徴は、ＭａｈｅｎｄｒａｎおよびＶｅｄａｌｄｉ（２０１５）、ＵｎｄｅｒｓｔａｎｄｉｎｇＤｅｅｐＩｍａｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＩｎｖｅｒｔｉｎｇＴｈｅｍ、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、ＩＥＥＥＣｏｍｐｔ．Ｓｏｃ．で説明されているようなＣＮＮで実装されるＨＯＧの近似を使用して生成され得る。この論文は、ＣＮＮを使用するＨＯＧ特徴生成が、有利なことに後続のどんな処理操作の複雑さも低減するＨＯＧ特徴派生物の計算も可能にすることを除いて、ＶＬＦｅａｔオープンソースライブラリによって提供されるＨＯＧ特徴生成手法とは数値的に区別できないことを示している。ＨＯＧ特徴およびＨＯＧという用語は、本明細書では、ＶＬＦｅａｔオープンソースライブラリによって提供されるような手法、ならびに／あるいはＭａｈｅｎｄｒａｎおよびＶｅｄａｌｄｉ（２０１５）とその中で参照されている他の論文で説明されているＣＮＮ手法を使用して生成されるものを意味するように用いられる。

さらに、本明細書で使用される以下の用語には、以下の定義が与えられる。

「合成的に生成された／合成データ」－例えば、他の情報源から限られたデータだけが利用可能である場合に、アルゴリズムを使用して生成され、トレーニングのために利用可能な全データ量を増大させるために使用されるデータ、
「タイヤ検出」－タイヤのイメージ内のどのピクセルがタイヤに対応するか、およびどのピクセルが、車両のハブキャップや車体などの背景に対応するかを識別すること、
「アンワーピング（ｕｎｗａｒｐｉｎｇ）」－湾曲したタイヤ・サイドウォールのイメージを、曲線が除去され、またはまっすぐにされたイメージにマッピングすること、
「畳込みフィルタのスタック」－畳込みニューラルネットワークまたはその一部を共に形成する、畳込みフィルタを含むイメージ処理操作のカスケード、
「全結合畳込み層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）」－そのマスクサイズの高さ、幅、およびチャネル数が前の層の特徴マップのサイズと同一である畳込みフィルタ。全結合畳込み層は、全結合層が生成するのと同一の出力サイズの特徴マップを生成する。

一実施形態による５ステージ方法を示す図である。タイヤの内半径および外半径がその上に示されているアンワーピング方式を示す図である。一実施形態による提案／関心領域ジェネレータ方法のフローチャートである。一実施形態による、ＨＯＧ－ＣＮＮアーキテクチャで勾配方向ヒストグラムおよび対応する特徴マップを生成する方法のフローチャートである。一実施形態による、ＨＯＧ－ＭＬＰアーキテクチャで勾配方向ヒストグラムおよび対応する特徴マップを生成する方法のフローチャートである。一実施形態によるＣＮＮアーキテクチャのブロック図である。一実施形態によるＣＮＮアーキテクチャのブロック図である。一実施形態によるＣＮＮアーキテクチャのブロック図である。一実施形態による関心領域を検証する方法のフローチャートである。一実施形態によるネットワーク・アーキテクチャのブロック図である。一実施形態によるネットワーク・アーキテクチャのブロック図である。一実施形態による、タイヤ・サイドウォール・コードの位置を特定する／検証する方法のフローチャートである。一実施形態によるネットワーク・アーキテクチャのブロック図である。一実施形態によるネットワーク・アーキテクチャのブロック図である。

物体照射および高フレームレートイメージ取得１０１、タイヤ検出１０２、タイヤ・アンワーピング１０３、テキスト検出１０４（「Ｄ」、「０」、「Ｔ」などのユーザ指定文字シーケンスを見つけることによってタイヤ・サイドウォール上のテキストの位置が特定される）、およびコード読取り１０５（タイヤに関する製品情報を含むタイヤ・サイドウォール・コードが検出および認識される）を含む、本発明の一実施形態である５ステージ方法が図１で提案される。

各ステージは、単一のシステムとして共に使用され、または個々に使用され、かつ／あるいはスマートフォン、タブレット、または他の類似のデバイスのカメラおよびフラッシュを使用するＷＯ２０１７０６０７３９Ａ１に記載の撮像システムなどの本明細書で説明されないシステムと組み合わされ得る。昼光が十分な照明を与える別の例では、フラッシュが完全に省略され得る。

具体的には、テキスト検出１０４ステージでは、ユーザ指定文字シーケンスを含み得る関心領域を識別する提案（すなわち関心領域）ジェネレータ方法１０４ａが提供される。以下でより詳細に説明されるように、第１のステップでは、提案ジェネレータ方法１０４ａは、ＶＬＦＥＡＴオープンソースライブラリによって提供されるような方法を使用して、またはＣＮＮを使用して、タイヤのサイドウォールの入力イメージから、各特徴が勾配方向ヒストグラム（ＨＯＧ）であるＨＯＧ特徴のマップを生成する。第２のステップでは、ＨＯＧ特徴がＣＮＮ分類器アーキテクチャに入力される。まずＨＯＧ特徴を生成して、これをＣＮＮ分類器アーキテクチャへの入力として使用することにより、提案ジェネレータは、別々の分類器を用いる手作りの特徴だけに基づく方法よりも精度の点で優れており、ディープＣＮＮのみに基づく方法よりも効率の点で優れていることが判明した。

さらに、ＨＯＧ特徴を事前に生成し、ＣＮＮアーキテクチャ内に挿入することにより、学習タスクは、その特徴、すなわちピクセル値を決定し、その中のパターンを学習することが困難である低コントラストの黒地に黒色のイメージを分類するのではなく、ＨＯＧ入力を１つまたは複数のクラスに分類して関心領域を生成することに軽減される。これは、全体としてのシステムが、自然環境に見られるような未知のデータセットに対してはるかに一般化できることを意味する。対照的に、（ＨＯＧ入力のない）純粋なＣＮＮアーキテクチャに低コントラストの黒地に黒色のイメージが与えられる場合、ＣＮＮがイメージ特徴を学習することができるためには、アーキテクチャはずっと複雑になる（例えば、層がより多くなり、かつ／または層間の接続がより複雑になる）。複雑さが増大する結果、計算資源オーバヘッドが増大し、メモリリソースオーバヘッドが増大し、効率が低下する。したがって、純粋なディープＣＮＮアーキテクチャは依然として、純粋に精度で測定したとき、現在提案されている組合せＨＯＧ／ＣＮＮアーキテクチャよりも優れていることがあるが、タイヤ・サイドウォールの現実世界の問題に適用するとき、リアルタイムアプリケーションおよび低メモリシステムについての効率の点では十分ではない。さらに、リソース使用量に関して、提案生成のためにディープＣＮＮを使用することは、システムのリソースオーバヘッドを著しく増大させ、したがって本明細書で説明される、提案されるＨＯＧ－ＣＮＮアーキテクチャが計算効率の１桁の改善およびメモリフットプリントの１桁の削減と共に同等に適切な提案を生成し得、それによってディープＣＮＮアーキテクチャのために必要とされる、費用のかかるＧＰＵ、メモリ、および他のハードウェアの必要を克服するときには特に、低リソースシステムでの効率的なリソースの使用法ではない。

したがって、本明細書で説明される提案ジェネレータ方法１０４ａは、型押しおよび／または彫刻マーキングに基づいてタイヤ・サイドウォール上の関心領域を生成する任意のシステムの性能を改善し得ることが想定される。独立した発明としての使用、および／または任意の周知のＯＣＲ技法と一緒の使用を本発明者らは想定する。

他のステージ、すなわち物体照射および高フレームレートイメージ取得１０１、タイヤ検出１０２、タイヤ・アンワーピング１０３、提案ジェネレータによって提案される関心領域の検証１０４ｂ、およびテキスト読取り１０５の詳細は、提案ジェネレータ方法１０４ａによって実現される利点を可能にすることにとって不可欠ではない。これらのステージの詳細は、提案ジェネレータ方法の例示的実装がより詳細に明らかにされる前に以下で説明される。

イメージ取得１０１
前述のように、ＷＯ２０１７０６０７３９Ａ１で提案されているような撮像システムが、型押しおよび／または彫刻テキストまたはマーキングがその上に存在するタイヤのサイドウォールのデジタルイメージを取得するために使用され得る。このシステムは、所与のイメージ内のタイヤ・サイドウォールの一部のみを取り込み、したがってタイヤが通過するときに通常は一連のイメージが撮影され、タイヤ・サイドウォールの外周全体が取り込まれること、したがって型押しおよび／または彫刻マーキングを有するサイドウォールの任意の部分も取り込まれることが保証される。

タイヤ検出１０２およびアンワーピング１０３
イメージが取得されると、円形ハフ変換（ＣｉｒｃｕｌａｒＨｏｕｇｈＴｒａｎｓｆｏｒｍ）（ＣＨＴ）または他の適切な技法を使用してタイヤの円形セグメントが検出され得る（すなわち、内半径および外半径の位置が特定される）。ＣＨＴを実施する前に、照射を正規化するだけでなく、エッジも向上させるＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ（ＤｏＧ）フィルタを使用して、イメージが前処理され得る。前処理の一部として、任意選択で、イメージが元のサイズの１／４～１／８の間までダウンサンプリングされ得、ダウンサンプリングは、タイヤ検出の効率と精度のどちらも改善する。次いで、タイヤの中心が、カメラによって取り込まれたイメージフレームの外部にあり得るので、ダウンサンプリング後のイメージが黒色ピクセルで埋められる（すなわち、ＣＨＴがタイヤ中心を識別し得る適切なサイズの座標系を与えるために、ブラック・ピクセルが追加される）。前処理が行われた後に、次いでハブキャップの円形接合を検出するためにＣＨＴが使用され、したがってＣＨＴは、図２ａに示されるように、ある程度の安全なオフセットを有するタイヤの内半径２０４と、外半径２０３とを検出し、これらは、図２（ｂ）に示されるように、実際のタイヤの内半径２０１および外半径２０２に対応する。しかしながら、より高いコントラストの結果として時にはより支配的となり得るイメージ内の別の支配的な円さ（ｃｉｒｃｕｌａｒｉｔｙ）（図２（ｂ）に示されるようなホイールアーチやハブキャップの円さなど）の存在のために、時には別の誤った円が検出される。この状況を回避するために、特定のタイヤ（車軸）に関連する、取り込まれたイメージのすべてが、ｎ個の半径範囲について（並列スレッドで）処理される。次いで、検出された円が半径範囲ヒストグラムを生成するために使用される。その中で検出された円の最高数を有する半径範囲ビンに対応する半径が、最良の検出されたタイヤ内半径２０１として選択される。この手法は単純であり（すなわち、リソース効率が良く）、所与のイメージの視野の結果としてタイヤの円さが支配的となる移動中のタイヤから生じるコンセンサスのために、どんな異常値も効果的に、首尾よく除去することができる。

ハブキャップとタイヤの接合（すなわち、タイヤ内半径２０１）が検出されると、タイヤ２００の外半径２０２に対応する第２の円が、第１の半径から固定のオフセットで選ばれる。これは、タイヤ・サイドウォール・テキストが一般にはタイヤ２００の外半径２０２の近くのトレッド付近ではなく、内半径の近く、または中央にあるので、タイヤ・サイドウォール・テキスト（例えば、ＤＯＴコードのテキスト）が現れると予想されるエリアをカバーするのに十分である。内半径に近接しているために、検出された内半径はまた、図２ａに示されるように固定のピクセルだけ縮小され、境界線のケースが適切に処理されることが保証される。

タイヤ検出の後、内半径２０１と外半径２０２との間の半径方向イメージパッチが、Ｐｏｌａｒ－ｔｏ－Ｃａｒｔｅｓｉａｎマッピングを使用して長方形格子にアンワーピングされる。これは円さをアンワーピングするだけでなく、イメージの必要な部分だけを切り取ることも行い、それは次のステージの効率を向上させる。

パイプラインの最初の３つのステージ、すなわち物体照射およびイメージ取得１０１、タイヤ検出１０２、およびアンワーピング１０３は、すべてのアルゴリズムを一から実装することによって、または好ましくはＯｐｅｎＣＶを使用することによって、任意の適切なコンピュータ言語で実装され得る。しかし、他のコンピュータビジョンライブラリおよびビジョン処理技法も使用され得る。

テキスト検出：ＤＯＴ検出１０４
テキスト検出１０４ステージでは、テキスト検出および位置特定のための機械学習ベースの手法が利用される。タイヤ・アンワーピング・ステージ１０３からのアンワーピング済みイメージが使用される。業界の規定により、ほとんどの市販のタイヤ・サイドウォール・コードの先頭には、米国運輸省を表す文字シーケンス「Ｄ」、「Ｏ」、および「Ｔ」が付けられている。この例では、ＤＯＴ文字シーケンスは、タイヤ・サイドウォール・コードに関するテキストの位置を特定するためのアンカとして使用される。しかしながら、他の文字シーケンス、英字、数字、ロゴ、記号、ピクトグラム、および／または任意の他の情報の視覚的表現も、タイヤ・サイドウォール・コードのテキストの位置が特定され得るアンカとして使用され得ることが想定される。例えば、フリートオペレータが１つのブランドのタイヤのみを使用する場合、関連するブランド・ロゴまたは商標が、タイヤ・サイドウォール上のテキストの位置を特定するために使用され得る。

アンカはタイヤ・サイドウォール・コードの残りの部分のテキストに先行するので、アンカの目的は探索スペースを絞り込むことである。テキスト検出１０４ステージは、提案（すなわち関心領域）生成１０４ａと、その後に続く検証またはテキスト位置特定１０４ｂという、後続のイメージ処理操作の２つのカスケード、すなわちセットを有する。前述のように、本明細書で説明される提案ジェネレータ方法１０４ａが独立した方法として使用され得ることが想定され、その出力が、タイヤ・サイドウォール上のテキストを検出および／または認識するために提案（すなわち関心領域）生成に依拠する既知のイメージ処理技法を使用して、別々に（例えば、第３者によって所有される機器を使用して）処理される。

提案生成１０４ａ
テキストは非常に低いコントラストであるので、提案生成のために、低レベル特徴ベースの手法（「ＺｉｔｎｉｃｋおよびＤｏｌｌａｒ、ＥｄｇｅＢｏｘｅｓ：ＬｏｃａｔｉｎｇｏｂｊｅｃｔＰｒｏｐｏｓａｌｓｆｒｏｍＥｄｇｅｓ、ＥＣＣＶ、ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、２０１４」によって提案されるエッジ・ボックスなど）は本発明者らによって不適切であることが判明した。タイヤの他のセグメントからの強いエッジが支配的となり（そのほとんどはテキストを含まない）、その結果、どんなテキストも含まない多数の提案が生じるからである。これらの提案のうちのどれがテキストを含むか否かを判定することは、リソースオーバヘッドを著しく増大させる。

さらに、（例えば、「Ｗａｎｇ他、Ｅｎｄ－ｔｏ－ｅｎｄＳｃｅｎｅＴｅｘｔＲｅｃｏｇｎｉｔｉｏｎ、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１１ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ、Ｗａｓｈｉｎｇｔｏｎ、ＩＣＣＶ ’１１ｐｐ１４５７～１４６４ＤＯＩ１０．１１０９／ＩＣＣＶ．２０１１．６１２６４０２」、「Ｍｉｓｈｒａ他、Ｔｏｐ－ｄｏｗｎａｎｄｂｏｔｔｏｍ－ｕｐｃｕｅｓｆｏｒｓｃｅｎｅｔｅｘｔｒｅｃｏｇｎｉｔｉｏｎ、２０１２ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、ｐｐ２６８７～２６９４、ＤＯＩ１０．１１０９／ＣＶＰＲ．２０１２．６２４７９９０」、および「Ｍｉｓｈｒａ他、ＩｍａｇｅＲｅｔｒｉｅｖａｌＵｓｉｎｇＴｅｘｔｕａｌＣｕｅｓ、２０１３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、ｐｐ３０４０～３０４７」などに記載されているように）手作りの特徴はテキスト検出のために首尾よく使用されているが、そのような技法は、自然環境でタイヤ・サイドウォール・テキストを妥当な時間で認識する産業上の適用のためには低速過ぎる。

具体的には、本発明者らがＨＯＧをサポートベクトルマシン（ＳＶＭ）分類器と組み合わせてスライディングウィンドウ式に使用することを試みたとき、テキスト検出（すなわち、文字シーケンス「Ｄ」、「Ｏ」、「Ｔ」を検出すること）について妥当に正確な結果を生成したが、イメージのサイズ（５００×２０００から４０００ピクセル）は依然として、各イメージを走査するのに数分かかることを意味し、それによって、あらゆるタイヤはそれに関連付けられるいくつかのイメージを有する。この時間スケールは長過ぎ、産業上の適用のためには受け入れられず、システムが、人間のオペレータがタイヤ・サイドウォール・コードを手動で読み取って記録するシステムより優れているべきである場合、各タイヤについて長く続く走査時間を車両フリートオペレータが待機すると妥当に予想することができない。理想的には、実用的なシステムは１分未満のエンドツーエンド結果を必要とする。さらに、そのようなシステムは、（ＧＰＵのコストが、本願については法外に高くなり得るので）ＣＰＵベースの処理のみで動作することができるべきである。より低解像度のカメラや、より高解像度のイメージのダウンサンプリングなどによる、より低解像度のイメージは、そのような小さく、かつ低コントラストのテキスト認識には適していない。

領域提案ネットワークを使用してイメージを走査し、位置特定分岐についての提案を生成する、Ｆａｓｔｅｒ－ＲＣＮＮなどのディープＣＮＮベースの分岐アーキテクチャ（例えば、「Ｒｅｎ他、ＦａｓｔｅｒＲ－ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ、ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２８、ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．、ｐｐ９１～９９、２０１５」で説明されている）が代替手法である。Ｆａｓｔｅｒ－ＲＣＮＮは、正確であると共に、ＧＰＵに関する効率を維持することが示されている。しかし、タイヤ・サイドウォール撮像で使用されるサイズのイメージに関する特徴マップおよび提案生成のためにＦａｓｔｅｒ－ＲＣＮＮによって一般に必要とされるようなディープネットワークバックボーン（ＶＧＧ１６やＲｅｓＮｅｔ５０など）を使用することは、ＣＰＵに対して費用がかかり過ぎ、したがって大型メモリＧＰＵ（１１ＧＢ以上）を必要とし、そのことは、車両フリートオペレータにとってタイヤ・サイドウォール・コードを手動で読み取って記録するために人間のオペレータを雇用する方が費用対効果が高くなる所まで、合計システムコストを上昇させる。さらに、ＧＰＵは余分の冷却構成を必要とし、冷却構成は、潜在的には暑い天候の屋外の状況での使用を制限する。

前述のように、本発明は、提案を効率的に生成するためにＨＯＧ特徴の生成をＣＮＮベースの分類器と組み合わせることによって、この問題に対する解決策を提供する。あるアーキテクチャでは、ＨＯＧ特徴が、ＶＬＦｅａｔオープンソースライブラリによって提供されるような既知の方法を使用して生成され、次いでＣＮＮベースの分類器に入力される。別のアーキテクチャでは、ＨＯＧ特徴がＣＮＮによって生成され、ＣＮＮベースの分類器に入力される。本明細書では第１のアーキテクチャはＨＯＧ－ＭＬＰ（多層パーセプトロン）として説明され、第２のアーキテクチャはＨＯＧ－ＣＮＮとして説明される。

トレーニング実行
本明細書で論じられるすべてのＣＮＮトレーニング実行は、確率的勾配降下法を、ＡＶｅｄａｄｉおよびＬｅｎｃ（２０１５）ＭａｔＣｏｎｖＮｅｔ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＭａｔｌａｂ、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭ、Ｉｎｔ．Ｃｏｎｆ．ｏｎＭｕｌｔｉｍｅｄｉａで説明されているようにＡ．ＶｅｄａｌｄｉおよびＬｅｎｃ（２０１５）によるＭａｔＣｏｎｖＮｅｔライブラリを使用するＭａｔｌａｂ内の逆伝播を伴うオプティマイザとして使用する。しかしながら、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅ、Ｔｏｒｃｈなどの任意の適切な代替トレーニングおよび最適化技法およびライブラリも使用され得ることが想定される。さらに、一例として、テキストクラストレーニングデータが合成的に生成され得るのに対して、背景クラストレーニングデータが現実のタイヤイメージから抽出され得る。しかしながら、例えば現実のタイヤイメージから十分なデータが利用可能である場合、合成データ生成が全く不要であり得ることが想定される。さらに、過学習を防止するためにドロップアウト層が使用され得る。さらに、本明細書で説明されるネットワークは、過学習（ｏｖｅｒ－ｆｉｔｔｉｎｇ）を防止するためにトレーニング中に１つまたは複数の５０％ドロップアウト層を使用したが、その代わりに、交差検証、より多くのデータを用いたトレーニング、特徴の除去、早期打切り（ｅａｒｌｙ－ｓｔｏｐｐｉｎｇ）、正則化（ｒｅｇｕｌａｒｉｓａｔｉｏｎ）などの、過学習を防止するために使用される他の技法も使用され得ることが想定される。照明正規化およびエッジ強調のために、ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ（ＤｏＧ）フィルタリングが入力データに適用された。ヒストグラム等化（ｈｉｓｔｏｇｒａｍｅｑｕａｌｉｚａｔｉｏｎ）や適応ヒストグラム等化などの、コントラスト正規化の他の技法も使用され得る。

合成データ生成
前述のように、十分な現実のイメージデータが利用可能ではない場合、任意選択で、合成データ生成が使用され得る。自然環境内に配置された自動タイヤ・サイドウォール・テキスト・リーダは様々な光、天候、摩耗の条件でサイドウォール・テキストを読み取らなければならないので、良好な一般化を達成するためにかなりの量のトレーニングデータが必要とされ得る。自然環境で大量のデータセットを収集することは非常に費用がかかり、時間がかかるプロセスである。その代わりに、いくつかの異なるフォントおよびテキストレンダリングエンジンを使用して、トレーニングデータが合成的に生成され得る。最初に、ランダムなサイズの様々なフォントを使用して白黒テキストマスクが作成される。次いで、マスクが漸進的に不鮮明にされ得る（複数のコピーを追加する、または狭い近傍（ｄｘ，ｄｙピクセル）内でレンダリング位置をシフトする）。これが様々な方向（回転する影を表すため）および長さ（様々な影の長さを表すため）で行われる。次いで、イメージ・マスクがタイヤ背景と融合され、現実のタイヤ・サイドウォール・イメージ上に現れるはずの、現実的な型押し／彫刻テキスト・イメージが再現される。勾配方向ヒストグラム特徴がＣＮＮ分類器への入力に使用されるとすると、いくつかの実施形態では、トレーニングデータは、タイヤ・サイドウォールの複数のデジタルイメージから生成された複数の勾配方向ヒストグラム特徴マップを含み得る。

提案ジェネレータ方法１０４ａの実装
図３は、図１の提案生成ステップ１０４ａに対応する、本発明の一実施形態である提案ジェネレータ方法３０４のステップを示すフローチャートである。例えば前述のように取得された、アンワーピング済みタイヤ・サイドウォールの一部のデジタルイメージ３００が入力として使用される。タイヤ・サイドウォールは、その上にタイヤ・サイドウォール・コードなどの１つまたは複数の型押しおよび／または彫刻マーキングを有する。デジタルイメージの勾配方向ヒストグラムおよびそれに関連する特徴マップが生成される（３０１）。生成された勾配方向ヒストグラムがトレーニング済み畳込みニューラルネットワーク３０２に入力される。トレーニング済み畳込みニューラルネットワークは、入力された勾配方向ヒストグラムおよびそれに関連する特徴マップに基づいて、デジタルイメージのピクセルの領域が型押しおよび／または彫刻マーキングを含む第１の確率を出力する（３０３）ように構成される。第１の確率が第１の所定のしきい値以上である場合（３０５ａ）、ピクセルの領域が関心領域として受け入れられ、出力される（３０６）。そうでない場合、ピクセルの領域は棄却される（３０５ｂ）。このようにして、提案ジェネレータ方法１０４ａは１つまたは複数の型押しおよび／または彫刻マーキングに関連付けられるデジタルイメージ上の関心領域を生成し得る。

前述のように、ＨＯＧ特徴を生成するための２つの代替方式が提供される。第１の方式では、トレーニング済みＣＮＮ分類器の外部で、トレーニング済みＣＮＮ分類器とは別々に（例えば、ＶＬＦｅａｔオープンソースライブラリによって提供される方法を使用して）ＨＯＧ特徴が生成される。これが本明細書ではＨＯＧ－ＭＬＰとして説明される。第２の方式では、ＨＯＧ特徴がＣＮＮによって生成される。これが本明細書ではＨＯＧ－ＣＮＮとして説明される。

図４は、前述のＨＯＧ－ＣＮＮアーキテクチャによるＣＮＮで勾配方向ヒストグラム４０１およびその特徴マップを生成する方法のフローチャートである。具体的には、タイヤ・サイドウォールの一部のデジタルイメージの入力４００を受け取った後、畳込みフィルタのスタック４０２が使用されて、勾配方向ヒストグラムおよび対応するＨＯＧ特徴マップが生成され、ＨＯＧ特徴マップが出力される（４０３）。

図５は、前述のＨＯＧ－ＭＬＰアーキテクチャによる別々の外部ＨＯＧジェネレータ５０２で勾配方向ヒストグラム５０１および対応するＨＯＧ特徴マップを生成する方法のフローチャートである。具体的には、タイヤ・サイドウォールの一部のデジタルイメージの入力５００を受け取った後、ＨＯＧジェネレータが使用されて、勾配方向ヒストグラムおよび対応するＨＯＧ特徴マップが生成され、ＨＯＧ特徴マップが出力される（５０３）。

ＨＯＧ特徴をＣＮＮ分類器と組み合わせることによって実現される効果は、ＨＯＧ＋ＳＶＭ（すなわち、空間的スライディングウィンドウ方式（ｓｐａｔｉａｌｌｙｓｌｉｄｉｎｇｗｉｎｄｏｗｍａｎｎｅｒ）のサポートベクトルマシン分類器）などの純粋に手作りの技法よりも、生成される提案／関心領域の総数が著しく少なく、偽陽性が少ないことである。別の利点は、ＨＯＧ特徴の生成がディープ畳込みネットワークだけで提案／関心領域を生成することを試みるよりも浅く、かつ／または計算するのに効率的であるために、全スキャン／計算時間がずっと短いことである。前述のように、これについての１つの理由は、ＣＮＮ分類器が生イメージデータからイメージ副構造（または特徴マップ）を学習することを必要とせずに、ＨＯＧ生成がイメージ副構造をＣＮＮ分類器に提供することにあると本発明者らは考えている。それによって、ディープＣＮＮアーキテクチャの必要を効率的にスキップする。ディープアーキテクチャは、トレーニングデータのみからイメージ副構造を学習する必要があり、そのことは、イメージが前景と背景との間で低コントラストを有する場合、１桁多いデータおよびトレーニング時間を必要とすることになるので、特に難しい。一方、ＨＯＧ－ＣＮＮをトレーニングすることは、相対的にずっと小さいデータセットで実施され、ＣＰＵで非常に効率的に実施され得る。

ＨＯＧ－ＣＮＮ
図６ａは、一実施形態によるＨＯＧ－ＣＮＮアーキテクチャのブロック図である。全結合畳込みネットワークが、畳込みフィルタのスタック、すなわちＨＯＧ特徴生成層を構成するＨＯＧ分解層で終了するイメージ処理操作のカスケードの終わりにプラグインされる。それと共に、これは、所与の入力イメージが型押しおよび／または彫刻マーキングを含む確率を出力するクロスエントロピー損失層（トレーニング用）またはソフトマックス層（テスト用または適用用または動作用）で終了する完全なＣＮＮアーキテクチャを提供する。そのようなネットワークは、ディープ特徴を生成するためにＣＮＮ層が使用されるようなディープネットワークよりも少ない畳込み層およびチャネルを有する浅いものである。したがって、ネットワークの深さが浅いことは、著しい速度の改善を実現し、自然環境でのタイヤ・サイドウォール・テキスト読取りにずっと適したものとなる。

「ＭａｈｅｎｄｒａｎおよびＶｅｄａｌｄｉ（２０１５）、ＵｎｄｅｒｓｔａｎｄｉｎｇＤｅｅｐＩｍａｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＩｎｖｅｒｔｉｎｇＴｈｅｍ、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、ＩＥＥＥＣｏｍｐｔ．Ｓｏｃ」で説明されているようなＨＯＧについてのＣＮＮ層が使用されるが、その代わりに任意の適切なＣＮＮベースのＨＯＧ層実装が使用され得ることが想定される。さらに、「ＤａｌａｉおよびＴｒｉｇｇｓ（２００５）、ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００５ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ’ｏ５）－Ｖｏｌｕｍｅ１－ｐｐ８８６～８９３、ＤＯＩ１０．１１０９／ＣＶＰＲ．２００５．１７７」および「Ｆｅｌｚｅｎｓｚｗａｌｂ他（２０１０）、ＵｏＣＴＴＩ、ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＤｉｓｃｒｉｍｉｎａｔｉｖｅｌｙＴｒａｉｎｅｄＰａｒｔ－ＢａｓｅｄＭｏｄｅｌｓ、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ３２（９）：１６２７－１６４５、ＤＯＩ１０．１１０９／ＴＰＡＭＩ．２００９．１６７」で説明されているＨＯＧ方法のいずれかも使用され得る。

図６に示される例示的アーキテクチャは、先に論じたようにｄｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ技法を使用して前処理された６０×１３０ピクセルのＤＯＴテキスト入力６０１イメージを有する。「ＭａｈｅｎｄｒａｎおよびＶｅｄａｌｄｉ（２０１５）、ＵｎｄｅｒｓｔａｎｄｉｎｇＤｅｅｐＩｍａｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＩｎｖｅｒｔｉｎｇＴｈｅｍ、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、ＩＥＥＥＣｏｍｐｔ．Ｓｏｃ」で説明されているように、ＨＯＧ特徴は畳込みフィルタのスタックを使用して抽出され、方向フィルタが、方向の数（Ｏ）のＫ＝２倍だけ適用され、Ｋは添字Ｋ＝１，．．．ｋである。Ｋ番目の方向フィルタは以下によって与えられる。

方向フィルタは、方向ベクトルｕ_ｋに沿った入力の投射をｇｕ_ｋとして投影する（ただしｇは定数である）。方向フィルタリングの後、ＨＯＧビニング６０２が以下の活性化関数によって実施され得る。

畳込みフィルタのスタックが、Ｃｏｎｖ（３×３×１×２^＊Ｏ）アーキテクチャ６０１で始まるものとして図６ａに示されているが、他のフィルタ・アーキテクチャも使用され得ることを理解されよう。（例えば、Ｃｏｎｖ（５×５×１×２^＊Ｏ）またはＣｏｎｖ（７×７×１×２^＊Ｏ））。フィルタの他の例は、上記で引用したＨＯＧ実装で見出され得る。

ＨＯＧ特徴抽出では、ビニングされた勾配がセル内にプールされ、次いでセルが２×２ブロックで組み合わされる。これは、線形フィルタ６０３のスタックを通じて行われる。正規化６０４（Ｌ２ノルム）の後、ブロックが再びセル構造に分解され、値が０．２にクランピングされる（すなわちｍａｘ｛ｘ，０．２｝）（６０５）。本明細書で説明される例示的実装では、有向勾配（ｄｉｒｅｃｔｅｄｇｒａｄｉｅｎｔ）が、無向勾配（ｕｎｄｉｒｅｃｔｅｄｇｒａｄｉｅｎｔ）（ｈ_ｕｏ）の１つのセットと共に、範囲［０，２π）内の方向の数（ｈ_ｄｏ）の２倍だけビニングされる。したがって、合計で３×ＯチャネルがＨＯＧ分解層６０６で使用される。

上記の例を使用して、６０（Ｈ）×１３０（Ｗ）ピクセルを有する入力イメージについて、ＣＮＮベースのＨＯＧは、８×８セルサイズおよび９方向について７×１６×２７の特徴マップを生成した。他のセルサイズおよび方向数も使用され得る。

次いで、このＨＯＧ出力がＣＮＮベースの分類器（例えば、多層パーセプトロンまたはＭＬＰ）６０７ａ、６０７ｂに入力される。この例では、ＣＮＮ分類器６０７ａ、６０７ｂは、マスクサイズ７×１６×２７ＣＨ（ＣＨは現在の層内のチャネル数を表す）のランダムに初期化された全結合（ＦＣ）畳込み層６０７ａを含む。この後に、図６ａに示されるように５０％ドロップアウトおよび別のＦＣ層６０７ｂが続いた。ドロップアウトは、単にいくつかのニューロンをスキップすることにより過学習を防止する正則化技法である。過学習を防止するための他の技法も適用され得ることが想定され、交差検証、より多くのデータを用いたトレーニング、特徴の除去、早期打切り、正則化など、他の技法の例が上記で説明された。ＨＯＧ特徴生成と後続の分類は共に、１つの統合ＣＮＮアーキテクチャとして互いに接続されたＣＮＮと共に実施されるので、ＨＯＧ－ＣＮＮという用語が用いられる。

逆伝播を通じてＣＮＮ分類器をトレーニングし、「ＤＯＴ」テキスト６０９を識別するために、最終のクロスエントロピー損失６０８も設けられる。ＯｖｅｒＦｅａｔ（Ｓｅｒｍａｎｅｔ，Ｐ．、Ｅｉｇｅｎ，Ｄ．、Ｚｈａｎｇ，Ｘ．、Ｍａｔｈｉｅｕ，Ｍ．、Ｆｅｒｇｕｓ，ＦＩ．、およびＬｅｃｕｎ，Ｙ．（２０１４）．Ｏｖｅｒｆｅａｔ：Ｉｎｔｅｇｒａｔｅｄｒｅｃｏｇｎｉｔｉｏｎ，ｌｏｃａｌｉｚａｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｕｓｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ２０１４））と同様に、図６ａのアーキテクチャは畳込み層をＦＣ層として使用し、ＨＯＧ－ＣＮＮネットワークは、必要とされる最低限のサイズ、すなわち６０×１３０ピクセルよりも大きい場合、イメージ全体を走査し得る。

そのようなネットワークをトレーニングすることは、いくつかの層が事前定義されると共に、最終の分類器がランダムに初期化されるので難しい。このケースでは、合成的に生成されたＤＯＴクラスと共に、合計で（サイズ６０×１３０ピクセルの）６００Ｋ未満のイメージを含むデータセットに関してネットワークがトレーニングされた。トレーニングセットは合成的に生成されたＤＯＴクラスと、非ＤＯＴテキスト、エッジ、テクスチャ、およびプレーン背景の混合からなる背景クラスとを含んでいた。飽和点に達したとき、合計で８０～９０回のトレーニングエポックで十分であると見なされた。トレーニングをさらに続けることは、モデルを過学習する傾向にある。しかしながら、ネットワークは浅く、スパースフィルタを使用するので、ＣＰＵ上であっても効率的に（約５時間未満のトレーニング時間で）トレーニングされ得る。

上記の例示的アーキテクチャは例示のためのものに過ぎないことを理解されよう。

したがって、前述のように、自然環境でタイヤ・サイドウォール・テキストを認識するための、高い計算オーバヘッドと、（空間的スライディングウィンドウ方式の）ＨＯＧ＋ＳＶＭやディープＣＮＮ技法などの技法のコストという問題が、ＨＯＧ実装の出力をシャローＣＮＮに入力するという概念を使用することによって解決され得る。

ＨＯＧ－ＭＬＰ
ＨＯＧ－ＭＬＰでは、統合ＣＮＮアーキテクチャを使用するのではなく、ＶＬＦｅａｔライブラリ（ＶｅｄａｌｄｉおよびＦｕｌｋｅｒｓｏｎ２００８、ＡｎＯｐｅｎａｎｄＰｏｒｔａｂｌｅＬｉｂｒａｒｙｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎＡｌｇｏｒｉｔｈｍｓ、ｖｅｒ（０．９．１６）、ｐ、ｈｔｔｐ：／／ｗｗｗ．ｖｌｆｅａｔ．ｏｒｇ）などの独立型ＨＯＧ実装６１０を使用して、ＨＯＧが入力６０１から抽出され、次いで図６ｂに示されるようにＣＮＮベースのマルチクラスＭＬＰ（ＨＯＧ－ＭＬＰ）ネットワークに供給され得る。この例で使用されるＶＬＦＥＡＴＨＯＧ実装６１０では、勾配が３^＊Ｏ＋４テクスチャ成分についてビニングされる。したがって、６０（Ｈ）×１３０（Ｗ）の入力６０１イメージ・サイズ、８×８のＨＯＧセルサイズ、および１２の方向では（合計で４０成分）、ＣＮＮネットワーク内の第１の層６１１は８×１６×４０ＣＨであった。セルサイズおよび方向数は、交差検証データセットに対して可能な最良の検出精度を達成するように系統的探索を通じて選ばれた。他のセルサイズおよび方向数も使用され得る。交差検証データセットに対する精度。他のセルサイズおよび方向数も使用され得る。プレーン背景、非ＤＯＴテキスト、およびエッジ／テクスチャの間で分割された４つの背景クラスと共に、丸／四角／細字および太字のフォント、はっきりした外観と拡散した外観、長い影と短い影、文字間のシングルスペーシングとダブルスペーシング、および他の変形について７つの合成されたＤＯＴクラスを含む百万個超のイメージの１１クラス（ｎＣ＝１１）のデータセットに関してネットワークがトレーニングされた。第２の層６１２もクロスエントロピー損失層６１３と共に設けられた。クロスエントロピー損失層の出力クラスのうちのどれがＤＯＴコードに対応し、どれが対応しないかを事前決定することによって、出力６１４がバイナリクラス確率すなわちＤＯＴ／非ＤＯＴにマッピングされた。このマルチクラス表現は、前の知識をトレーニングに組み込むことを可能にし、それによって、例えばネットワークの一般化を向上させ、その結果、設置、較正、および／またはハードウェア製品開発の間のイメージ取得の照明構成の変化に対処し得る。

イメージ取得および照明に対する変更が不要である場合、取得されたイメージ内の光／影の方向がより一貫したものとなる。そのようなシナリオでは、セルサイズ＝８×８、Ｏ＝１６（合計５２成分を構成する）を有するが、４つだけの出力クラスｎＣ＝４（すなわちＤＯＴ、プレーン背景、エッジ／テクスチャ、非ＤＯＴテキスト）を有する、ＨＯＧ－ＭＬＰ提案ジェネレータの代替の例示的実施例が、図６ｃに示されるように設けられる。出力６１５は、やはりバイナリ分類（ＤＯＴ／非ＤＯＴ）にマッピングされる。この例では、ネットワークが、前述のように合成的に生成されたＤＯＴクラスを有する百万イメージを少し超えるデータセットに対してトレーニングされた。どちらの例示的ＨＯＧ－ＭＬＰネットワークについても、３０～５０エポックについてトレーニングした後、満足の行く結果が得られた。ＨＯＧ－ＣＮＮと同様に、これらのスパースネットワークは、ＣＰＵ上でも効率的にトレーニングされ得、そのうちのあるものは、ディープＣＮＮ実装では効率的にトレーニングすることが不可能である。

ＨＯＧ－ＣＮＮの場合と同じく、ＨＯＧ－ＭＬＰアーキテクチャの上記の例は例示のためのものに過ぎないことを理解されよう。自然環境でタイヤ・サイドウォール・テキストを認識するための、高い計算オーバヘッドと、例えばＨＯＧ＋ＳＶＭ（空間的スライディングウィンドウ方式のサポートベクトルマシン分類器）またはディープＣＮＮ技法のコストという問題が、ＨＯＧ実装の出力をシャローＣＮＮに入力するという概念を使用することによって解決され得る。

比較
ＨＯＧ－ＣＮＮとＨＯＧＭＬＰという２つの提案生成方法を比較すると、イメージ５００×３０００ピクセルについての走査時間は、ＩｎｔｅｌＣｏｒｅｉ７３．６ＧＨｚＣＰＵ上でそれぞれ約５５０および２５０ｍｓであった。ＨＯＧ－ＣＮＮとＨＯＧ－ＭＬＰのどちらについても、これは、スライディングウィンドウ方式の手作りのＨＯＧ＋ＳＶＭ実装、またはディープＣＮＮベースの実装の数分程度よりも著しく高速である。

ＨＯＧ－ＭＬＰでは、アーキテクチャのＨＯＧ部分はＣＮＮアーキテクチャの一部ではないので、特徴抽出ステージを通じて逆伝播することは不可能である。一方、ＨＯＧ－ＣＮＮでは、ネットワーク全体を通じた逆伝播が可能であり、それによって、ＨＯＧ－ＣＮＮ実装がデータの変動に適応する能力が向上する。

同一のセルサイズおよび方向数を使用するＨＯＧ－ＣＮＮアーキテクチャとＨＯＧ－ＭＬＰアーキテクチャの両方の精度は同程度であるが、ＨＯＧ－ＣＮＮはＨＯＧ－ＭＬＰよりも少ない提案を生成し、したがって（例えば、逆伝播のために）より良好に一般化することに本発明者らは気付いた。

テキスト位置特定：ＤＯＴ位置特定１０４ｂ
フィルタリング後の提案からタイヤ・サイドウォール・テキスト（すなわち、タイヤ・サイドウォールＤＯＴコード）の位置を最終的に特定し、検証するために、生成された関心領域に分類器が適用され、関心領域のうちの１つまたは複数が偽陽性として受け入れられ、または棄却され得る。

図７は、図１のステップ１０４ｂに対応する一実施形態による方法７０４を示すフローチャートである。提案ジェネレータ方法１０４ａから出力された関心領域７００が分類器７０１に入力される。分類器７０１は、関心領域内のテキストの位置を特定し、それによって真の関心領域ならびに偽陽性を検証する。言い換えれば、各関心領域について、分類器７０１はどれが偽陽性であり、どれが偽陽性ではないかを判定する。偽陽性が廃棄されるのに対して、真の関心領域が選択される。分類器７０１は、所与の関心領域が実際に型押し／彫刻マーキング（前述の「Ｄ」、「Ｏ」、「Ｔ」文字シーケンスなど）を含む確率７０２を出力するディープ・ニューラルネットワークであり得る。確率が所定のしきい値未満である場合、所与の関心領域は偽陽性であると判定され、棄却される（７０３ｂ）。そうでない場合、所与の関心領域は真の関心領域として受け入れられ（７０３ａ）、出力される（７０４）。

分類器７０１として使用され得るディープネットワーク８０１の例示的実施例が図８ａに示されている。「Ｊａｄｅｒｂｅｒｇ他（２０１６）、ＲｅａｄｉｎｇＴｅｘｔｉｎｔｈｅＷｉｌｄｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌｎｅｔｗｏｒｋｓ、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ１１６（１）：１－２０ＤＯＩ１０．１００７／ｓ１１２６３－０１５－０８２３－ｚ」で説明されているような他の類似のアーキテクチャが使用され得ることが想定される。実際に、偽陽性が棄却される方法は、ステップ１０４ａによって実現される利点とは無関係であり、それを可能にするのに不可欠なものではない。検出確率を事前定義されたしきい値と比較するために、ＣＮＮ分類器の端部のソフトマックス層が使用され得る。

この例示的ネットワーク８０１のためのトレーニングセットは、複数のＤＯＴおよび背景クラス（１０クラスの１６０万イメージ：７つのＤＯＴクラス、プレーン背景についての３つの背景クラス、エッジ／テクスチャ、および非ＤＯＴテキスト）を含んでいた。図１４（ａ）に示される例では、３２×１００ピクセルの入力ＤＯＴテキスト・イメージ８００が使用され、すなわちＨＯＧ－ＣＮＮまたはＨＯＧ－ＭＬＰの検出結果は６０×１３０ピクセルであり、それが３２×１００ピクセルにダウンサンプリングされる。次いで、分類結果８０２がバイナリ出力（ＤＯＴ／非ＤＯＴ）にマッピングされる。ＨＯＧ－ＭＬＰと同様に、撮像および照射構成が、例えば設置、較正、および／またはハードウェア製品開発中にもはや変更を必要とせず、データセットがより一貫したものにされるとき、テキスト位置特定ネットワーク１００１は、図８ｂに示されるように、４通り分類器（４ｗａｙ－ｃｌａｓｓｉｆｉｅｒ）８０３（ＤＯＴ、プレーン背景、非ＤＯＴテキスト、およびエッジ／テクスチャ）に削減され得る。その結果、提案ジェネレータによって生成される多数の偽陽性が棄却され得、いくつかの強い候補のみが保持される。このステージを通過する偽陽性は、必要な場合、コード読取りステージ１０５でのテキスト認識によって対処され得る。

コード読取り１０５
コード読取り１０５は、図１に示されるように、テキストまたは文字検出／位置特定１０５ａ（コードの文字の位置が特定される）と、テキストまたは文字認識１０５ｂ（文字が認識され、出力される）という２つのステージから構成され得る。ステップ１０５ａおよび１０５ｂは、単一のステップで同一の分類器によって実施され、または別々の分類器によって実施され得る。イメージのコードパッチ（すなわち、ＤＯＴコードおよび「ＤＯＴ」アンカ位置に続く文字を含むイメージの部分）がまず前処理され、低レベル・エッジ・フィルタリングを使用してテキスト高さまで切り取られる。次いで、パッチ高さがコード検出ネットワークのストライド（入力イメージ上の２つの連続する検出ウィンドウ間でスキップされるピクセル数）に従って４０～５０ピクセルにサイズ変更される。

図９は、図１のステップ１０５ａと１０５ｂの両方に対応する単一の分類器を使用して、タイヤ・サイドウォール・コードの位置を特定し、かつ／または分類する（すなわち、タイヤ・サイドウォールの型押しおよび／または彫刻マーキングを読み取る）ために使用される方法９０１のフローチャートである。検証された関心領域に隣接するエリアが選択され、単一の分類器９０１に入力される。次いで、分類器９０１は、選択されたエリア内のコードの文字／シンボルの位置を特定し、所与の文字／シンボルが例えば英字や数字などの文字として認識される確率を出力し得（９０３）、確率から型押しおよび／または彫刻マーキング（すなわち、タイヤ・サイドウォール・コード）の出力された読取りが提供され得る。

代替として、図１０および１１は、ステップ１０５ａおよび１０５ｂを別々に実施し得る別々のネットワークを示す。多数のＯＣＲ技法が存在し、提案／関心領域がステップ１０４ａで説明されるように生成された後に任意のそのような技法が使用され得ることが想定されることを理解されよう。

図１０を参照すると、テキストは背景に対して非常に低いコントラストを有するので、図１０に示されるアーキテクチャ１００１によって提供されるような稠密予測機構（ｄｅｎｓｅｐｒｅｄｉｃｔｉｏｎｍｅｃｈａｎｉｓｍ）が必要とされる。ＣＮＮでは、ｍａｘプーリング層がイメージをダウンサンプリングし、そのことはネットワーク・ストライドを増大させる。ｍａｘプーリング層を除去することは、稠密（ピクセル毎）予測を可能にするが、パラメータスペースを非常に増大させ、そのことによって効率と精度の両方に関してコストがかかる。ＭａｘＯｕｔ活動化と組み合わせたドロップアウトなどの正則化技法は、精度を改善するのに役立つ。したがって、図１０に示されるように、ＭａｘＯｕｔがこのアーキテクチャで使用された。ＲｅＬＵがＭａｘＯｕｔ層に先行する場合、ネットワークはトレーニング中に最小値に迅速に収束することに本発明者らは気付いた。図１０の入力１０００は、３２×３２ピクセルサイズを有するＤｏＧイメージとして示される。Ｇｏｏｄｆｅｌｌｏｗ他（２０１３）、ＭａｘｏｕｔＮｅｔｗｏｒｋｓ、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０^ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ－Ｖｏｌｕｍｅ２８、ＪＭＬＲ．ｏｒｇ、ＩＣＭＬ’１３、ｐｐＩＩＩ－１３１９－ＩＩＩ－１３２７」および「Ｊａｄｅｒｂｅｒｇ他（２０１４）、ＤｅｅｐＦｅａｔｕｒｅｓｆｏｒＴｅｘｔＳｐｏｔｔｉｎｇ、ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ」で説明されているような他のネットワーク・アーキテクチャも想定される。最後に、ＨＯＧ－ＣＮＮおよびＨＯＧ－ＭＬＰと同様に、畳込み層から構成される全結合（ＦＣ）層は、ネットワークがコードパッチ全体の上をスライドすることを可能にし、途中でテキストを検出して位置を特定し、空間スライディングウィンドウ機構のためのどんな必要も回避する。

この例では、前述のように合成的に生成されたテキストクラスと共に、７００Ｋイメージデータセットに関してトレーニングが行われた。背景クラスは実際のタイヤパッチから抽出された。背景クラスは、単一のエッジ、リッジパターン、キャストまたはダイ形状、およびプレーン背景を含んでいた。出力がバイナリクラス確率、すなわちテキスト／非テキストにマッピングされた。文字検出器が、先に論じられたようにコードパッチ全体を畳込み式に走査することによってバウンディングボックスを生成した。そのように検出されたボックスは、テキストの最高の確率が存在する領域が中心に置かれる。検出されたボックスに非最大値抑制が適用され、提案が取り除かれる。任意選択で、文字分類器は文字検出のためにも使用され得る。しかしながら、コード・テキスト認識用の文字分類器とは別々のコード文字検出用の専用分類器がより良好に動作することを本発明者らは発見した。

前述のように、図１１に示されるような別々の文字認識ネットワーク１１０１がこの例示的実施例で使用され、ステップ１０５ｂが実施される。ステップ１０５ａで位置特定が、例えば図１０に示されるアーキテクチャを使用して実施された後、検出されたコード文字位置が使用されて文字が抽出され、文字が文字分類器ネットワーク１１０１に供給される。「Ｊａｄｅｒｂｅｒｇ他（２０１６）、ＲｅａｄｉｎｇＴｅｘｔｉｎｔｈｅＷｉｌｄｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌｎｅｔｗｏｒｋｓ、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ１１６（１）：１－２０ＤＯＩ１０．１００７／ｓ１１２６３－０１５－０８２３－ｚ」で説明されているような他の文字分類器も使用され得る。このネットワークは、数字０から９、大文字アルファベットＡからＺ（タイヤＤＯＴコードでは使用されないＩ、Ｑ、Ｓ、およびＯを除く）についてのクラス、および７つの背景クラスを有し、３３クラス（３２文字および１背景クラス）にマッピングされる３９通り分類器を作成する。モデルが、約７００，０００イメージの本発明者らの合成文字データセットに関してトレーニングされた。分類器はまた、必要とされる場合、タイヤ・サイドウォール・コード内に見出される特定のブランド、ロゴ、またはシンボルを認識するようにトレーニングされ得る。

利点
提案されるシステムは産業システムであるので、精度と効率がどちらも等しく重要である。具体的には、ステップ１０４ａでの前述の提案／関心領域ジェネレータは、精度の顕著な低下を受けることなく、タイヤ・サイドウォール読取りシステムの効率の著しい向上を実現する。したがって、その方法が提案／関心領域の生成を必要とする、タイヤ・サイドウォール読取りに適用される任意の周知のコンピュータビジョンおよびＯＣＲ技法と共に提案／関心領域ジェネレータが使用され得ることを本発明者らは想定する。

精度
精度は、最終的には解析中のデータサンプルに依存する。本明細書で説明されるアーキテクチャのトレーニング誤差は５％未満であった。合成トレーニングデータが現実のイメージデータと混合され、かつ／またはアフィン変形などのトレーニング時間データ増強が追加される場合、ネットワークによる過学習はさらに低減され得る。したがって、ＨＯＧ－ＣＮＮおよびＨＯＧ－ＭＬＰは、タイヤ・サイドウォール・テキストに関する関心領域生成について５％未満の偽陽性率を実現する。これは、タイヤ高、半径、およびホイールアーチに対する位置が多種多様であっても実現される。

効率
産業システムでは、エンド・ユーザが結果を待っているので、効率が非常に重要である。ディープラーニングベースのシステムではＧＰＵ（グラフィカル処理装置）が広く使用されているが、ＧＰＵを配置することは、各撮像場所にＧＰＵが配置されるので全システムコストが増大することを意味する。需要が増大し、場所ごとに２つのユニット（車両の右側および左側について１つずつ）が必要となることにより、全コストを低く保つことは主要な属性となる。したがって、前述のように、理想的にはＣＰＵベースのシステムが求められている。

アンワーピング済みイメージ全体（平均サイズ５００×３０００ピクセル）をディープネットワークで走査することは、Ｃｏｒｅｉ７３．６ＧＨｚＣＰＵ（パラメータメモリ４９６ＭＢを必要とする）上で２０秒超かかる。実際に、物体／テキスト検出用の最高性能のアルゴリズム（すなわち、ベンチマークデータセットに関して高ランキングを有するもの）のうちのいくつかが撮像タイヤ・サイドウォール・テキストに適用されるとき、それらは急速に計算上のボトルネックとなる。一方、提案されるシャローネットワーク（ＨＯＧ－ＣＮＮまたはＨＯＧ－ＭＬＰのどちらか）が必要とするパラメータメモリは１から３ＭＢだけである。次いでその後に、そのように生成された提案のみのディープスキャンが続くとき、全走査時間は約３秒まで削減される。これは、効率に関して１桁の改善（ほぼ９５％の高速化）、ならびに全システムコストおよび複雑さの著しい削減（ＣＰＵベースの動作のみを有するため）であり、ＨＯＧ－ＣＮＮまたはＨＯＧ－ＭＬＰの想起はほぼ１００％であるので、精度が明らかに損なわれることはない。これと共に、タイヤ検出およびアンワーピングのためにイメージを処理し、得られた５００×３０００ピクセル・アンワーピング済みイメージを３つの異なるスケールで走査し、その後でコードを検出して読み取ることについてのエンドツーエンド結果が、前述のＣＰＵ上で、平均で３から５秒かかる。

本発明が前述の好ましい実施形態に関して説明されたが、これらの実施形態は例示的なものに過ぎず、特許請求の範囲はそれらの実施形態に限定されないことを理解されたい。添付の特許請求の範囲内に包含されると企図される、本開示に鑑みた変更形態および代替実施形態を当業者は作成することができる。本明細書で開示または図示される各特徴は、単独であっても、本明細書で開示または図示される任意の他の特徴との任意の適切な組合せであっても、本発明に組み込まれ得る。

例えば、図６ａは２つの全結合畳込み層６０７ａ、６０７ｂを想定するが、これは、精度を犠牲にして計算オーバヘッドをさらに低減するために１つの層に削減され得る。言い換えれば、畳込みニューラルネットワークは１つまたは２つの全結合畳込み層を含み得る。代替として、精度を向上させるために、全結合層の数が、計算複雑さを犠牲にして３つ以上の層に増加され得る。しかしながら、３つ以上の層を使用することは、フリートオペレータにとって計算時間が受け入れられないレベルまで増大するような範囲まで計算複雑さを増大させ、かつ／またはＧＰＵを必要とし、それによって、ＨＯＧ－ＣＮＮまたはＨＯＧ－ＭＬＰを使用することによって得られる利点が低減され、または完全になくなることが想定される。これは理想的な実験室設定にとっては問題ではないことがあるが、コストおよび効率が重要であり、したがってシャローネットワークがより高い利点をもたらす産業システムにとっては問題である。

提案ジェネレータ方法１０４ａの実装
図３は、図１の提案生成ステップ１０４ａに対応する、本発明の一実施形態である提案ジェネレータ方法３０４のステップを示すフローチャートである。例えば前述のように取得された、アンワーピング済みタイヤ・サイドウォールの一部のデジタルイメージ３００が入力として使用される。タイヤ・サイドウォールは、その上にタイヤ・サイドウォール・コードなどの１つまたは複数の型押しおよび／または彫刻マーキングを有する。デジタルイメージの勾配方向ヒストグラムおよびそれに関連する特徴マップが生成される（３０１）。生成された勾配方向ヒストグラムがトレーニング済みニューラルネットワーク３０２に入力される。トレーニング済みニューラルネットワークは、入力された勾配方向ヒストグラムおよびそれに関連する特徴マップに基づいて、デジタルイメージのピクセルの領域が型押しおよび／または彫刻マーキングを含む第１の確率を出力する（３０３）ように構成される。第１の確率が第１の所定のしきい値以上である場合（３０５ａ）、ピクセルの領域が関心領域として受け入れられ、出力される（３０６）。そうでない場合、ピクセルの領域は棄却される（３０５ｂ）。このようにして、提案ジェネレータ方法１０４ａは１つまたは複数の型押しおよび／または彫刻マーキングに関連付けられるデジタルイメージ上の関心領域を生成し得る。

次いで、このＨＯＧ出力が分類器（例えば、多層パーセプトロンまたはＭＬＰ）６０７ａ、６０７ｂに入力される。この例では、分類器６０７ａ、６０７ｂは、マスクサイズ７×１６×２７ＣＨ（ＣＨは現在の層内のチャネル数を表す）のランダムに初期化された全結合（ＦＣ）層６０７ａを含む。この後に、図６ａに示されるように５０％ドロップアウトおよび別のＦＣ層６０７ｂが続いた。ドロップアウトは、単にいくつかのニューロンをスキップすることにより過学習を防止する正則化技法である。過学習を防止するための他の技法も適用され得ることが想定され、交差検証、より多くのデータを用いたトレーニング、特徴の除去、早期打切り、正則化など、他の技法の例が上記で説明された。ＨＯＧ特徴生成と後続の分類は共に、１つの統合ＣＮＮアーキテクチャとして互いに接続されたＦＣと共に実施されるので、ＨＯＧ－ＣＮＮという用語が用いられる。

ＨＯＧ－ＭＬＰ
ＨＯＧ－ＭＬＰでは、統合ＣＮＮアーキテクチャを使用するのではなく、ＶＬＦｅａｔライブラリ（ＶｅｄａｌｄｉおよびＦｕｌｋｅｒｓｏｎ２００８、ＡｎＯｐｅｎａｎｄＰｏｒｔａｂｌｅＬｉｂｒａｒｙｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎＡｌｇｏｒｉｔｈｍｓ、ｖｅｒ（０．９．１６）、ｐ、ｈｔｔｐ：／／ｗｗｗ．ｖｌｆｅａｔ．ｏｒｇ）などの独立型ＨＯＧ実装６１０を使用して、ＨＯＧが入力６０１から抽出され、次いで図６ｂに示されるようにマルチクラスＭＬＰ（ＨＯＧ－ＭＬＰ）ネットワークに供給され得る。この例で使用されるＶＬＦＥＡＴＨＯＧ実装６１０では、勾配が３^＊Ｏ＋４テクスチャ成分についてビニングされる。したがって、６０（Ｈ）×１３０（Ｗ）の入力６０１イメージ・サイズ、８×８のＨＯＧセルサイズ、および１２の方向では（合計で４０成分）、ネットワーク内の第１の層６１１は８×１６×４０ＣＨであった。セルサイズおよび方向数は、交差検証データセットに対して可能な最良の検出精度を達成するように系統的探索を通じて選ばれた。他のセルサイズおよび方向数も使用され得る。交差検証データセットに対する精度。他のセルサイズおよび方向数も使用され得る。プレーン背景、非ＤＯＴテキスト、およびエッジ／テクスチャの間で分割された４つの背景クラスと共に、丸／四角／細字および太字のフォント、はっきりした外観と拡散した外観、長い影と短い影、文字間のシングルスペーシングとダブルスペーシング、および他の変形について７つの合成されたＤＯＴクラスを含む百万個超のイメージの１１クラス（ｎＣ＝１１）のデータセットに関してネットワークがトレーニングされた。第２の層６１２もクロスエントロピー損失層６１３と共に設けられた。クロスエントロピー損失層の出力クラスのうちのどれがＤＯＴコードに対応し、どれが対応しないかを事前決定することによって、出力６１４がバイナリクラス確率すなわちＤＯＴ／非ＤＯＴにマッピングされた。この多クラス表現は、前の知識をトレーニングに組み込むことを可能にし、それによって、例えばネットワークの一般化を向上させ、その結果、設置、較正、および／またはハードウェア製品開発の間のイメージ取得の照明構成の変化に対処し得る。

Claims

タイヤのサイドウォールのデジタルイメージ上の関心領域を生成するためのコンピュータ実装方法であって、前記サイドウォールが１つまたは複数の型押しおよび／または彫刻マーキングを有し、
前記デジタルイメージの勾配方向ヒストグラム特徴マップを生成することと、
前記勾配方向ヒストグラム特徴マップをトレーニング済み畳込みニューラルネットワークに入力することであって、前記トレーニング済み畳込みニューラルネットワークが、入力された前記勾配方向ヒストグラム特徴マップに基づいて、前記デジタルイメージのピクセルの領域が前記型押しおよび／または彫刻マーキングを含む第１の確率を出力するように構成される、入力することと、
前記第１の確率が第１の所定のしきい値以上である場合、ピクセルの前記領域を前記関心領域として受け入れることと
を含むコンピュータ実装方法。
勾配方向ヒストグラム特徴マップを前記生成することが、前記トレーニング済み畳込みニューラルネットワーク内の畳込みフィルタのスタックによって実施される、請求項１に記載のコンピュータ実装方法。
勾配方向ヒストグラム特徴マップを前記生成することが、前記トレーニング済み畳込みニューラルネットワークとは別々の勾配方向ヒストグラムジェネレータによって実施される、請求項１に記載のコンピュータ実装方法。
前記トレーニング済み畳込みニューラルネットワークが１つまたは２つの全結合畳込み層を含む、請求項１から３のいずれかに記載のコンピュータ実装方法。
前記トレーニング済み畳込みニューラルネットワークが、タイヤ・サイドウォールの複数のデジタルイメージから生成された複数の勾配方向ヒストグラム特徴マップを含むトレーニングデータに関してトレーニングされる、請求項１から４のいずれかに記載のコンピュータ実装方法。
前記トレーニングデータが合成データをさらに含む、請求項５に記載のコンピュータ実装方法。
前記第１の確率が前記第１の所定のしきい値未満である場合、ピクセルの前記領域を関心領域として棄却することをさらに含む、請求項１から６のいずれかに記載のコンピュータ実装方法。
前記関心領域に分類器を適用することであって、
前記分類器が、前記関心領域が前記型押しおよび／または彫刻マーキングを含む第２の確率を出力するように構成される、適用することと、
前記第２の確率が第２の所定のしきい値未満である場合、前記関心領域が偽陽性であると判定することと
をさらに含む、請求項１から７のいずれかに記載のコンピュータ実装方法。
タイヤのサイドウォール上の型押しおよび／または彫刻マーキングを読み取る方法であって、
前記タイヤの前記サイドウォールのデジタルイメージを提供することと、
前記デジタルイメージをアンワーピングすることと、
前記デジタルイメージ上の関心領域を生成することと、
前記関心領域が偽陽性であるかどうかを判定するように分類器を適用し、前記関心領域が偽陽性である場合、前記関心領域を廃棄すること、または前記関心領域が偽陽性ではない場合、前記関心領域を選択することと、
選択した前記関心領域に隣接する前記デジタルイメージのエリアを選択することと、
前記関心領域に隣接する前記デジタルイメージの前記エリアに分類器を適用し、前記型押しおよび／または彫刻マーキングを読み取ることと、
を含み、
関心領域を前記生成することが、
前記デジタルイメージの勾配方向ヒストグラム特徴マップを生成することと、
前記勾配方向ヒストグラム特徴マップをトレーニング済み畳込みニューラルネットワークに入力することであって、前記トレーニング済み畳込みニューラルネットワークが、入力された前記勾配方向ヒストグラム特徴マップに基づいて、前記デジタルイメージのピクセルの領域が前記型押しおよび／または彫刻マーキングを含む確率を出力するように構成される、入力することと、
前記確率が所定のしきい値以上である場合、ピクセルの前記領域を前記関心領域として受け入れることと、
を含む方法。
勾配方向ヒストグラム特徴マップを前記生成することが、前記トレーニング済み畳込みニューラルネットワーク内の畳込みフィルタのスタックによって実施される、請求項９に記載の方法。
勾配方向ヒストグラム特徴マップを前記生成することが、前記トレーニング済み畳込みニューラルネットワークとは別々の勾配方向ヒストグラムジェネレータによって実施される、請求項９に記載の方法。
請求項１から１１のいずれかに記載の方法のステップを実施するための手段を備えるデータ処理装置。
前記ステップが中央プロセッサ処理装置（ＣＰＵ）によって実施される、請求項１２に記載のデータ処理装置。
命令を含むコンピュータプログラムであって、前記命令は、前記プログラムがコンピュータによって実行されるとき、請求項１から１１のいずれかに記載の方法のステップを前記コンピュータに実施させる、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムを記憶したコンピュータ可読記憶媒体。