JP2017111806A

JP2017111806A - 畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応

Info

Publication number: JP2017111806A
Application number: JP2016233642A
Authority: JP
Inventors: アルバート・ゴード・ソルデビラ; Gordo Soldevila Albert; ジョン・アルマザン; Almazan Jon
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2015-12-17
Filing date: 2016-11-30
Publication date: 2017-06-22
Anticipated expiration: 2036-11-30
Also published as: EP3182334A1; JP6831682B2; EP3182334B1; EP3182334C0; US20170177965A1; US9785855B2

Abstract

【課題】より正確に効率的なやり方で切り出された画像におけるナンバープレートを認識するための方法を提供する。
【解決手段】学習させられたニューラルネットワークを利用するナンバープレート認識のための方法及びシステムおいて、ニューラルネットワークは、ナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習及び適応させる工程を含み、ニューラルネットワークを、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させ、ナンバープレートの切り出された画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する。そのようなニューラルネットワークの例は、ＣＮＮ（畳み込みニューラルネットワーク）である。
【選択図】図１

Description

実施形態は、広くには、画像処理の分野に関する。また、実施形態は、物体認識に関する。さらに、実施形態は、ナンバープレート認識およびニューラルネットワークに関する。

ＬＰＲ（ナンバープレート認識）またはＡＬＰＲ（自動ナンバープレート認識）は、「インテリジェント」な交通インフラストラクチャの利用の中心的なモジュールとしての機能を有する画像処理工程を典型的に含むコンピュータビジョン技術である。ＡＬＰＲなどのナンバープレート認識技術を、画像処理および文字認識の技術を利用してナンバープレートを自動的に読み取ることによって車両を特定するために使用することができる。ナンバープレート認識工程を、画像におけるナンバープレートの位置を特定し、取得されたプレートの画像において文字を切り分け、特定された文字に対してＯＣＲ（光学式文字認識）を実行することによって、実行することができる。

ＡＬＰＲの課題は、多くの場合、一連の画像処理工程、すなわちナンバープレートを含む部分画像の位置の特定（すなわち、プレートの位置特定）、個々の文字の画像の抽出（すなわち、切り分け）、およびこれらの文字画像に対する光学式文字認識（ＯＣＲ）の実行へと分解される。このように、ＬＰＲおよびＡＬＰＲの技術は、物体の認識という課題だけでなく、テキスト画像の認識という課題も含む。

ナンバープレート画像の認識における課題の１つは、切り出されたナンバープレートの画像に関して、その書き写しを生成することが望まれる点にある。ナンバープレート／テキスト画像の認識という課題に対処するために、２つの主要な動向が存在する。

第１の動向は、上述のＯＣＲにもとづいており、文書における伝統的な単語認識法に着想を得たものである。単語の画像に関して、最初に単語の個々の文字の位置を特定することができ、次いで個々の文字をいくつかの手法によって認識することができる。これらの技術は、きわめて良好な認識結果を得ることができるが、いくつかの問題を免れない。例えば、高い精度を達成するために何百万もの学習用の単語について文字境界ボックスによる注釈付けを行う必要があり、単語内の個々の文字の位置を特定する必要があるが、これは、とくにはナンバープレートそのものを高い精度で位置特定して切り出すことさえできない可能性があるナンバープレートの認識の場合において、低速であり、誤りを生じやすい。

最近のコンピュータビジョン技術に着想した第２の動向は、単語の画像を、個々の文字を明確に検出することなく、グローバルシグネチュア（ＳＩＦＴまたは他の学習による局所特徴量にもとづくバッグオブワードまたはフィッシャーベクトルエンコーディング）によって表現する。そのような手法においては、単語の画像および文字列を関連の類似性指標によって共通の空間に同時に埋め込むことが可能であり、したがって単語の画像の認識を検索問題として考えることを可能にでき、単語の画像に関して、考えられるすべての書き写し（例えば、用語集）をランク付けし、画像の単語に最も類似したものを予想される書き写しとして利用することができる。

これは、多数の分野において利点を提供するが、考えられる書き写しの数が莫大であるナンバープレート認識などのいくつかの特定のタスクにおいては現実的でなく、既知の用語集によらずに認識を実行することが最も重要であるが、はるかに困難なタスクである。いくつかの技術は、グローバルな画像のシグネチュアを利用するが、課題を検索問題と考えるのではなく、最適化問題と考え、適合性関数を最大にする書き写しを見つけようと試みる。この方法は、用語集を必要としない内部のナンバープレートのデータセットについてきわめて良好な結果を得ているが、結果は、予想のとおり、用語集を用いる場合ほどには正確でなく、効率的でもなかった。同様の方向において、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）について、テキストの画像を実際の文字列を容易に回復することができるテキスト埋め込み空間へとどのようにマッピングするかを学習する学習を行うことができる。実際には、これは、大量のラベル付けされた学習用データが利用可能である場合にはテキスト画像の分類の実行を可能にするが、典型的には、とくにはナンバープレートの画像において、そのような状況ではない。

さまざまな交通の領域におけるナンバープレート認識の重要性に鑑みて、用語集によらずに、より正確に、効率的なやり方でナンバープレートを認識するための技術的解決策であって、大量の注釈付けされた学習用データを必要としない技術的解決策が求められる。

以下の概要は、開示される実施形態に特有の革新的特徴のいくつかについての理解を促進するために提示され、完全な説明となることを意図しているわけではない。本明細書に開示される実施形態の種々の態様の完全な理解は、明細書全体、特許請求の範囲、図面、および要約を全体として理解することによって得ることができる。

したがって、開示される実施形態の一態様は、物体認識のための改善された方法およびシステムを提供することである。

開示される実施形態の別の態様は、ナンバープレート認識およびそのテキスト認識のための方法およびシステムを提供することである。

開示される実施形態のまた別の態様は、切り出された画像におけるテキストの認識を提供することにある。

上述の態様ならびに他の目的および利点を、今や本明細書において説明されるとおりに達成することができる。学習させられたニューラルネットワークを利用するナンバープレート認識のための方法およびシステムが、開示される。典型的な実施形態においては、ニューラルネットワークを生成することができる。次いで、ニューラルネットワークは、例えばナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習および適応させることを含む工程に委ねられる。ニューラルネットワークは、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させられる。ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成することができる。

いくつかの典型的な実施形態においては、ニューラルネットワークを、ＣＮＮ（畳み込みニューラルネットワーク）として実現することができる。ニューラルネットワークを反復的に学習および適応させることは、ニューラルネットワークをファインチューニングすることによってニューラルネットワークを反復的に学習および適応させることを含むことができる。いくつかの実施形態におけるニューラルネットワークのファインチューニングは、ニューラルネットワークを反復的に学習および適応させるための粗から細への適応のカスケードの使用を含むことができる。また、ニューラルネットワークは、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように適応させられる。

本明細書に取り入れられ、本明細書の一部を形成する添付の図面は、本発明をさらに例示し、本発明の詳細な説明と併せて本発明の原理を説明する役に立ち、添付の図面において、類似の参照番号は、種々の図の全体を通して、同一または機能的に類似の構成要素を指している。

図１は、典型的な実施形態によるＣＮＮでのナンバープレート認識のための粗から細への適応のカスケードのための方法の論理演算の各段階を示す工程の高レベルのフロー図を示している。図２は、典型的な実施形態によるコンピュータシステムの概略図を示している。図３は、典型的な実施形態によるモジュール、オペレーティングシステム、およびユーザインターフェイスを含むソフトウェアシステムの概略図を示している。図４は、典型的な実施形態に従って実装することができるナンバープレート認識のためのシステムのブロック図を示している。

これらの例（ただし、これらの例に限られるわけではない）において述べられる特定の値および構成は、変更が可能であり、あくまでも１つ以上の実施形態を説明するために言及されているにすぎず、１つ以上の実施形態の技術的範囲を限定しようとするものではない。

次に、主題を、主題の一部を形成しており、特定の典型的な実施形態を例として示している添付の図面を参照して、以下でさらに詳しく説明する。しかしながら、主題はさまざまな異なる形態にて具現化可能であり、したがって保護または請求される主題は、本明細書に記載されるいずれかの典型的な実施形態に限られると解釈されるべきではなく、典型的な実施形態は、あくまでも説明のために提示されているにすぎない。同様に、請求または保護される主題について、合理的な範囲で広い技術的範囲が意図される。とりわけ、主題は、例えば、方法、装置、構成要素、またはシステムとして具現化可能である。したがって、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ（ソフトウェアそのもの以外の）の形態をとることができる。したがって、以下の詳細な説明は、限定の意味で解釈されてはならない。

本明細書および特許請求の範囲の全体を通して、用語は、明示的に述べられている意味を越えて、文脈において示唆または暗示される言外の意味を有することもある。同様に、「一実施形態」という表現は、本明細書において使用されるとき、必ずしも同じ実施形態を指すものではなく、「別の実施形態」という表現は、本明細書において使用されるとき、必ずしも違う実施形態を指すものではない。例えば、請求項に記載の主題は、典型的な実施形態の全体または一部の組み合わせを含むように意図される。

一般に、専門用語は、少なくとも部分的には、文脈における使用から理解され得る。例えば、「および」、「または」、または「および／または」などの用語は、本明細書において使用されるとき、そのような用語の使用の文脈に少なくとも部分的に依存し得る種々の意味を含むことができる。典型的には、「または」は、Ａ、Ｂ、またはＣなど、列挙を結び付けるために用いられた場合、包括的な意味で用いられてＡ、Ｂ、およびＣを意味するように意図されるとともに、排他的な意味で用いられてＡ、Ｂ、またはＣを意味するようにも意図される。加えて、用語「１つ以上」は、本明細書において使用されるとき、文脈に少なくとも部分的に依存して、単数の意味での任意の特徴、構造、または特性を表すために使用され得、あるいは複数の意味での特徴、構造、または特性の組み合わせを表すために使用され得る。同様に、「ａ」、「ａｎ」、または「ｔｈｅ」などの用語も、文脈に少なくとも部分的に依存して、単数の使用を告げるものと理解でき、あるいは複数の使用を告げるものと理解することができる。加えて、用語「にもとづく」は、必ずしも因子の排他的な組を告げるように意図されていると解釈する必要はなく、むしろ、やはり文脈に少なくとも部分的に依存して、必ずしも明示的には説明されないさらなる因子の存在を許容することができる。

開示される実施形態は、一般的なテキスト認識の畳み込みネットワーク（例えば、ｃｏｎｖｎｅｔ）を、ナンバープレート（ＬＰ）画像の認識に適応させる。例えば、標準的なテキストｃｏｎｖｎｅｔアーキテクチャの再使用および大規模な合成テキスト画像データセットの使用が、優秀な性能結果をもたらす。開示される手法は、標準的なｃｏｎｖｎｅｔモデル適応技術、すなわちファインチューニングを使用することによって、合成テキスト画像とＬＰ画像との間の大きな分野の隔たりを克服する。これは、性能にとってきわめて重要であり、対象データの特定の部分集合（例えば、モデルを特定の条件に合わせるための都市または駐車場に特有のデータ）についての後のファインチューニングによってさらなる改善が可能である。この手法の利益として、ナンバープレート（ＬＰ）認識の問題へのテキスト画像ｃｏｎｖｎｅｔの適用が挙げられる。加えて、ファインチューニングにもとづくテキスト画像からＬＰへの成功裏の移し換えに必要な単純でありながら効率的な分野適応技術が、きわめて有用である。

ナンバープレート認識というタスクのための畳み込みニューラルネットワーク（ＣＮＮ）の学習を含む典型的な実施形態を実行することができる。ＣＮＮは、用語集によらないテキスト認識など、コンピュータビジョンに関する多数のタスクにおいて、顕著な結果を示しているが、ナンバープレート認識というタスクの文脈においては、未だ利用されていない。ＣＮＮの学習における主たる困難の１つは、良好なモデルを学習するために、注釈付けされた学習用データが大量に必要な点にある。とくには、ナンバープレート認識に関して、正確なＣＮＮモデルをゼロから学習するために必要な大量のナンバープレート画像の収集および注釈付けは、残念ながら実現可能でない。しかしながら、テキスト認識という関連のタスクに関しては、学習に適した数百万ものテキスト画像を含む合成データセットが利用可能であり、このデータセットにおいて学習されたモデルが、実際の画像へと良好に一般化し、標準的なテキスト認識ベンチマークについて技術水準の結果を手に入れることが示されている。やはり、そのようなモデルは、分野のドリフトゆえにナンバープレート認識という特定のタスクにおいて性能が良好でない。

したがって、開示される実施形態は、ナンバープレート認識のためのモデルの学習というタスクを、教師ありの分野の適応の１つとして考え、一般的なテキスト認識のタスクにおいてきわめて良好に機能するモデルを、学習用データが少ししか得られないナンバープレート認識という特定のタスクに適応させることを試みる。とくには、標準的なＣＮＮのファインチューニングの戦略を利用して、これまでの手法よりも改善されたナンバープレート認識のタスクにおける優秀な精度をすでに得ることができることを、最初に実証する。

そのようなファインチューニング技術は、ナンバープレート認識という複雑なタスクには利用されていない。しかしながら、この問題を考えると、ソース→ターゲットの分野の適応の１つは、単純化され得ることに注意すべきである。代わりに、ナンバープレート画像のターゲット分野を、より細かい粒子とされたサブ分野の集合と考えることができる。例えば、パリの駐車場においてカメラによって取得されるナンバープレート画像は、カメラの位置および種類の両方ならびに取得される車両が相違するであろうフランス南部の高速道路において取得されるナンバープレートとは、異なると考えられる。テキストとナンバープレートとの間には明らかな違いが存在するが、ナンバープレートの２つのサブ分野の間にも明らかな違いが存在する。一般的なナンバープレート認識装置の学習が望まれる場合でも、認識装置を特定のサブ分野に特化させ、その特定のサブ分野においてより高い精度を得ることも、関心の対象となり得る。

典型的な実施形態においては、一技術が、粗から細への適応のカスケードによってＣＮＮの反復的な学習および適応を実行することができ、そこでは、ネットワークが最初に数百万もの学習用サンプルを活用して一般的なテキスト認識を実行するように学習させられ、次いで対象のデータセットにおいてナンバープレート認識にますます類似するタスクを実行するように適応させられる。そのような反復的なファインチューニングは、より標準的なファインチューニングを用いたモデルの学習と比べて、誤りの５％〜１０％の減少をもたらすことができる。最終的な結果は、精度および速度の両方において、これまでの技術的解決策を大きくしのぐ。

この手法の主たる利点の１つは、限られた量の注釈付けされたナンバープレートを使用して高い精度でナンバープレート認識を実行できる一方で、元のネットワークはテキスト認識についてのみ学習させられ、ナンバープレート認識のタスクについて良好には機能しない点にある。開示される手法は、余分な学習用データを、たとえそれがｉ）異なる分野から由来したとしても活用し、ｉｉ）試験時間においてより高速であり、ｉｉｉ）より良好な精度をもたらす。

畳み込みニューラルネットワーク（ＣＮＮ）は、コンピュータビジョン、とりわけテキスト認識に関する多くのタスクにおいて、顕著な結果をもたらすことができる。しかしながら、この精度は、代価を伴う。良好な性能を達成するために、ＣＮＮを、大量のラベル付けされた学習用データで教師ありのやり方で学習させる必要があるが、これは、タスク（例えば、ナンバープレート認識）によっては実現不可能であり得る。

この問題のために、２つの標準的な技術的解決策、すなわち合成データにおいて学習を行うこと、およびあらかじめ学習させたネットワークを対象の分野へと適応させること、が存在する。合成データにおける学習に関しては、実際的な合成データを生成し、学習の目的に使用することが可能である。この手法は、さまざまな分野（例えば、歩行者の位置特定）に利用可能であり、開示される問題により関係するものとして、テキスト認識に利用可能である。

あらかじめ学習させたネットワークを対象の分野へと適応させることについては、「類似」の分野からの充分な学習用データであらかじめ学習させたネットワーク（例えば、ＩｍａｇｅＮｅｔデータセットにおいて学習させたネットワーク）および対象の分野からのいくつかのラベル付けされた学習用サンプルが入手できる場合、ネットワークを対象の分野へと適応させる（すなわち、コミュニティにおいて知られているように、ファインチューニングする）ことができる。これは、ＣＮＮが誤差逆伝播によって学習させられるため、きわめて容易に達成できる。元のタスクと対象のタスクとが同じ（例えば、２０個のあらかじめ定められた分類への分類）であり、分野のシフトだけが利用可能である場合、対象の分野の学習用サンプルを用いた誤差逆伝播によってネットワークの重みを単純に更新することができる。タスクが異なる場合、ネットワークのすべての層を置き換え、ゼロから学習させる必要があるかもしれない。さらに、類似の分野からのあらかじめ学習させたネットワークを用いた結果は、限られた学習用データでのゼロからの学習と比べて、はるかに良好な結果をもたらす傾向にある。

適応を伴ういくつかの状況においては、対象の分野が、実際にいくつかの異なるサブ分野で構成される。これらのサブ分野は、それらの間の関係が、元の分野との関係よりも強いが、依然としてそれらの間の違いはかなり大きい。開示される手法を、対象の分野のこの階層を利用し、認識方法の精度を改善するために、粗から細への適応にもとづいて実行することができる。

両方の手法が、相補的であり得る（例えば、豊富な合成データにおける学習と、その後の実際の対象分野に合わせたファインチューニングの実行）ことに注意すべきである。また、この単純なファインチューニングが良好に機能する理由の１つが、ＣＮＮの目標が非凸であり、通常は確率的勾配降下法によって解かれるからであることに、注意すべきである。目標が凸である場合、対象の分野へのネットワークの直接的なファインチューニングは、他の技術（例えば、規則化を伴う）が同時に使用されなければ、元の分野のすべてのそれまでの知識を消去してしまうと考えられる。まさに非凸の目標が、ファインチューニングのタスクをＣＮＮにとって容易かつ効果的にする。

開示される実施形態は、利用可能な注釈付けされた学習用データが限られているナンバープレート認識の課題に主として集中する。他方で、単語画像認識のための大量の注釈付けされた学習用合成データが入手可能である。どのように両方のタスクが基本的に同じであり、すなわちテキスト画像の内容の認識であるのか、および激しい分野のドリフトが存在することを、理解することができる。テキスト画像およびナンバープレートは、統計（例えば、ナンバープレートは数字をたくさん含んでおり、よく似た長さを有している一方で、辞書の単語は、そのようでない）および取得の条件（例えば、ナンバープレートは困難な角度および照明条件で撮影される可能性があり、背景のテクスチャが異なる可能性がある、など）の両方において相違する。

実験的な実施形態を参照して、テキスト画像の合成データセットにおけるネットワークの学習、およびその後の２つのナンバープレートデータセットにおけるファインチューニングが、きわめて良好な結果をもたらすことを、第１に実証することができる。しかしながら、これを標準的なファインチューニングと理解することができるが、ＣＮＮは、直接的にも、事前学習およびファインチューニングの実行のためのテキスト画像データセットの活用によっても、これまでにナンバープレート認識というタスクに使用されたことがないことに、注意すべきである。

第２に、対象の分野がまさに何であるかを注意深く定義しなければならず、その対象の分野へと直接的にネットワークをファインチューニングすることが最良の戦略でない可能性があることを、実証することができる。ナンバープレート画像の分野を、より細かい粒子とされたサブ分野の集合と考えることができる。例えば、パリの駐車場においてカメラによって取得されるナンバープレート画像は、カメラの位置および種類の両方ならびに取得される車両が相違するであろうフランス南部の高速道路において取得されるナンバープレートとは、異なると考えられる。これは、何が対象の分野であるべきかという疑問に直結する。異なるサブ領域からのものであるかどうかにかかわらず、利用可能なすべてのナンバープレートにおいて学習を行うべきか。関連のサブ分野のナンバープレートにおいてのみ学習を行うべきか。あるいは、両方の組み合わせか。

このように、ネットワークを粗から細へのやり方で学習させることができる。第１に、ネットワークを、元のドメインからのできる限り多くの入手可能なデータ（例えば、実験的な実施形態においては、辞書の単語の約１，０００万枚の合成画像）を利用して学習させることができる。次いで、ネットワークを、対象の分野（この場合には、ナンバープレート画像）からのすべての利用可能なサンプルを、たとえそれらがきわめて異なる状況から得られたものであっても利用して、ファインチューニングすることができる。最後に、ネットワークを、認識が望まれる対象のサブ分野のみに関して再びファインチューニングすることができる。

実験が、この粗から細への戦略が、ゼロからの学習または特定の１つ以上のデータセットへの１回だけのファインチューニングを要件とする手法よりも一貫して良好であることを、実証することができる。ファインチューニングは、今やコンピュータビジョンのコミュニティにおいて標準的に行われているが、粗から細へのやり方で反復のファインチューニングを実行する研究は、ＣＮＮにおいても、より標準的な分野の適応の技術においても、これまでに存在していない。

３つのデータセットを、実験的な実施形態の文脈において利用することができる。データセットの１つは、合成テキスト画像を含み、学習の目的だけに使用される。残りの２つは、現実の状況において取得されたナンバープレート画像の組織内データセットである。次に、そのようなデータセットを、さらに詳しく説明する。本明細書における特定のデータセットへの言及が、あくまでも例示の目的で提示されているにすぎず、開示される実施形態を限定する特徴とは考えられないことを、理解できるだろう。

オックスフォード合成（ＯｘｆｏｒｄＳｙｎｔｈｅｔｉｃ（ＯＳ））データセットは、辞書から抽出された約９０，０００個の異なる単語をカバーする約１，０００万枚の合成画像を含む。このデータセットは、約１００万枚の検証用画像（モデルのパラメータの検証に使用することができる）および約１００万枚の試験用画像（使用されない）をさらに含む。画像は合成であるが、さまざまな種類の変換およびゆがみを適用してきわめて実際的なやり方で生成されている。このデータセットを利用して学習させられたモデルは、現実のデータにきわめて良好に一般化し、テキスト認識のタスクにおいて技術水準の結果を得る。しかしながら、データセットが辞書からの単語しか含んでいないため、文字が数字よりもはるかに一般的であり、数字が充分には代表されないことに、注意すべきである。したがって、このデータセットだけで学習させられたモデルは、数字が文字と同じ程度に一般的であるナンバープレート認識のタスクにおいて、良好には働かないと予想される。

Ｗａデータセット（Ｗａ）は、３，２８２枚の独特のナンバープレートにおいて４，２１５枚の学習用画像および４，２１５枚の試験用画像を含む。これらのナンバープレートは、車両全体を撮影する画像から自動的に位置特定されて切り出され、それらのゆがみを取り除くために自動の透視変換が適用されている。きわめて良好でない検出を手作業で取り除くことができるが、切り出しが部分的であり、位置がずれており、ゆがみが良好には取り除かれておらず、あるいは他の問題を有しているナンバープレートが、そのまま残されている。

Ｃｌデータセット（Ｃｌ）は、Ｗａデータセットと同様のやり方で取得された１，８９１枚の独特のナンバープレートにおいて２，８６７枚の学習用画像および１，３８１枚の試験用画像を含んでいる。しかしながら、一般に、Ｃｌデータセットのナンバープレート画像の品質は、Ｗａデータセットのそれよりもはるかに悪く、不良な検出または位置ずれに起因するより多くの問題を抱えている。１１文字からなる２枚のカスタマイズされたナンバープレートを除き、両方のデータセットにおけるすべてのナンバープレートは、４〜８文字を含んでいる。

両方のナンバープレートデータセットが、限られた数の学習用サンプルしか含んでおらず、これらの学習用サンプルだけを用いたＣＮＮの学習が、平均以下の結果につながりかねないことに、注意すべきである。また、ＷａおよびＣｌのどちらも検証セットを含んでいないことに、触れておかなければならない。学習の目的で、オックスフォード合成データセットにおいて用いられたパラメータと同じパラメータを使用する。ここで調節すべき唯一のパラメータは、ファインチューニングのための反復の回数である。幸いにも、試験セットにおける性能は、何回かの反復の後に基本的に収束する。したがって、ネットワークを、そのような収束が観測されるまで学習させることができる。

典型的な実施形態において、ネットワークは、３２ｘ１００ピクセルへとリサイズ（アスペクト比を維持しない）されたグレー画像を入力として取ることができ、それらを一連の畳み込みおよび全結合層に通すことができる。そのような典型的な実施形態において、ネットワークの出力は、３７ｘ２３というサイズの行列であることができ、ここで各セルは、ナンバープレート１の位置１、２、・・・、２３において考えられる３７個のシンボル（例えば、１０個の数字、２６個の文字、およびヌル（ＮＵＬＬ）シンボル）の各々を発見する確率を示している。ネットワークの出力が与えられると、２３個の列を通って移動し、各列において最高の確率を有するシンボルを採用することによって、書き写しを容易に得ることができる。

ネットワークの正確なアーキテクチャは、ｃｏｎｖ６４−５、ｃｏｎｖ１２８−５、ｃｏｎｖ２５６−３、ｃｏｎｖ５１２−３、ｃｏｎｖ５１２−３、ｆｃ４０９６、ｆｃ４０９６、ｆｃ（３２×２３）であり、ここでｃｏｎｖＸ−Ｙは、サイズがＹ×ＹのＸ個のフィルタによる畳み込みを指し、ｆｃＸは、Ｘ次元の出力を生成する全結合層である。畳み込みフィルタは、１というストライドを有し、マップサイズを維持するようにパディングされる。２というストライドによる２×２のサイズの最大プーリングが、畳み込み層１、２、および４に続く。ＲｅＬＵ非線形性が、層の各ペアの間に適用される。ネットワークは、学習のためにソフトマックス（ｓｏｆｔｍａｘ）を実行して交差エントロピ損失を使用する２３個の独立した分類器（各位置につき１つ）で終わる。分類器は、互いに独立しているが、ネットワークの残りのパラメータと一緒に共同で学習させることができる。

ネットワークを、０．９のモーメンタム、５×１０^−５の固定の学習率、および５×１０^−４の重み減衰を有するＳＧＤによって、１２８というサイズのミニバッチにて学習させることもできる。ネットワークは、検証セットにおける精度の収束までオックスフォード合成におけるいくつかのエポックについて学習させられる。ＷａおよびＣｌにおけるファインチューニング実施形態に、ネットワークは、数百のエポックについて学習させられる。ネットワークの精度が、その時点の後に頭打ちに達したことが、実験的に観察されている。

いくつかの典型的な実施形態において、開示される手法を、ＷａおよびＣｌの試験セットにおいて評価することができる。そのような状況において、認識率（正しく書き写されたナンバープレートの割合）および正規化ＣＥＲ（ＣｈａｒａｃｔｅｒＥｒｒｏｒＲａｔｅ（誤字率））（すなわち、書き写しとグラウンドトゥルース注釈との間の編集距離をそれらの長さの最大値で割ったもの）という２つの指標が報告され得る。異なる設定（例えば、ゼロからの学習、オックスフォード合成からのファインチューニング、および反復のファインチューニング）において学習させられたモデルを評価し、これまでの研究と比較することができる。

典型的な結果が、下記の表１に示される。

ファインチューニング工程が、矢印で示される一方で、データセットのマージを、プラス符号で示すことができる。例えば、「ＯＳ−＞Ｗａ＋Ｃｌ」は、最初に「オックスフォード合成」（すなわち、ＯＳ）において学習させられ、その後にＷａおよびＣｌの両方を組み合わせるデータセットにおいてファインチューニングされたモデルを指す。欠けている値は、試験用データセットが学習用データセットに関係しておらず、高い精度が期待されない設定に属する。

以下の典型的な結果が注目される。第１に、もっぱらＯＳにおいて学習させられたモデル（ｃ）は、ナンバープレート認識というタスクにおいてまったく良好に機能せず、認識精度は０％であり、ＣＥＲは約７０である。ＯＳ＋Ｗａ＋Ｃｌの組み合わせのデータセットにおける学習（ｄ）も、（わずかにましであるが）ひどく悪い結果につながる。これは、ＯＳにおけるテキストデータの量と比べてきわめて少ないナンバープレートしか存在しないため、驚くべきことではない。

第２に、ゼロからのナンバープレートデータセットにおける学習（ｅ、ｆ、ｇ）は、とくにはＷａおよびＣｌの両方のデータセットが組み合わせられる場合に、はるかに良好に機能する。しかしながら、これは、ＯＳから得ることができたすべての知識を活用しておらず、結果は、これまでの研究において達成された結果を依然として下回る。

ＯＳにおけるモデルの学習、およびその後のナンバープレートデータセットにおけるファインチューニング（ｈ、ｉ、ｊ）は、優れた結果につながり、これまでの研究よりも性能がよい。（ｊ）において、システムの精度は、ＷａおよびＣｌにおいてほぼ６ポイントも改善され、ＣＥＲは、ほぼ５０％も低下する。興味深いことに、Ｗａ＋Ｃｌにおけるモデルのファインチューニングは、試験時に見られるナンバープレートに類似しないナンバープレートを認識するための学習をモデルに強いるにもかかわらず、ＷａおよびＣｌの両方における優れた結果につながる（ｊ）。これは、より多くの学習用データが利用可能であり、ファインチューニングがそれを活用できるからであると考えられる。

ＯＳにおいて学習させられたネットワークが最初にＷａ＋Ｃｌにおいてファインチューニングされ、次いでＷａまたはＣｌにおいて再びファインチューニングされる反復のファインチューニング（ｋ、ｌ）が、最良の結果をもたらす。直感的に、ＯＳによってもたらされるテキスト全般についてのすべての情報を利用し、Ｗａ＋Ｃｌによってもたらされるナンバープレート全般についてのすべての情報を利用し、最終的に実際の対象のタスクに専門化されたネットワークが、最良の結果を獲得する。この手法は、認識誤りをＷａにおいて相対でほぼ１０％（ｋ）、Ｃｌにおいて相対で３％（ｌ）さらに減らす。同様の改善を、ＣＥＲについても観測することができる。

図１が、１つの典型的な実施形態によるＣＮＮでのナンバープレート認識のための粗から細への適応のカスケードのための方法１０の論理演算の各段階を示す工程の高レベルのフロー図を示している。図１に示される方法１０は、ナンバープレート認識のためのモデルの学習というタスクを、教師ありの分野の適応の１つとして考え、一般的なテキスト認識のタスクにおいてきわめて良好に機能するモデルを、学習用データが少ししか得られないナンバープレート認識という特定のタスクに適応させることを試みる。すでに示したように、標準的なＣＮＮのファインチューニングの戦略を使用することによって、これまでの研究よりも改善されたナンバープレート認識のタスクにおける優秀な精度をすでに得ることができる。

方法１０の手法は、ブロック１２に示されるとおり、ＣＮＮを用意するステップまたは論理演算を含む。その後に、ブロック１４に示されるとおり、ＣＮＮを、複数の（例えば、数百万の）学習用サンプルを活用することによって、一般的なテキスト認識を実行するように学習させることができる。ブロック１２および１４に示される演算は、ＣＮＮの学習を含む。この演算（すなわち、学習）は、１回だけ生じる。しかしながら、ブロック１６、１８、２０に示される演算は、（例えば、試験時に）多数回生じることができる。

したがって、ブロック１６に示されるとおり、粗から細への適応のカスケードを利用してナンバープレート認識にだんだんと類似するタスクを実行するようにＣＮＮを適応させるステップまたは論理演算を、実行することができる。次いで、得られたＣＮＮを、ブロック１８に示されるとおり、切り出されたナンバープレートの画像へと適用し、ブロック２０に示されるとおり、ナンバープレートの書き写しを生成することができる。明確化のために述べると、学習の演算は、１回だけ（すなわち、学習時に）生じる。すなわち、最初にＣＮＮの学習が、まず一般的なテキストの例を使用し、次いでナンバープレート画像を使用して行われる。これらの演算は、１回だけ実行される。次いで、学習させられたＣＮＮを任意の数の切り出された新たなナンバープレートの画像へと適用して、それらの書き写しを得ることができ、ネットワークをそのたびに再び学習させる必要はない。

いくつかの実施形態において、開示の実施形態の演算を実行するためのコンピュータプログラムコードを、オブジェクト指向のプログラミング言語（例えば、Ｊａｖａ（登録商標）、Ｃ＃、Ｃ＋＋、など）で記述できることに、注意すべきである。しかしながら、特定の実施形態の演算を実行するためのそのようなコンピュータプログラムコードを、「Ｃ」プログラミング言語などの従来からの手続き型プログラミング言語で記述することもでき、例えばＶｉｓｕａｌＢａｓｉｃなどの視覚指向のプログラミング環境において記述することもできる。

プログラムコードは、スタンドアロンのソフトウェアパッケージとして全体または一部がユーザのコンピュータにおいて実行されてよく、一部がユーザのコンピュータにおいて実行され、一部がリモートコンピュータにおいて実行されてよく、あるいは完全にリモートコンピュータにおいて実行されてもよい。後者の状況においては、リモートコンピュータを、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）や、例えばＷｉ−Ｆｉ、Ｗｉｍａｘ、８０２．ｘｘ、および携帯電話網などの無線データネットワークを介してユーザのコンピュータへと接続することができ、あるいは接続を、多くのサードパーティがサポートするネットワークを介して（例えば、インターネットサービスプロバイダによってインターネットを通じて）外部のコンピュータへと行うことができる。そのようなネットワークの例が、図４に示されるネットワーク２２０である。

実施形態が、本発明の実施形態による方法、システム、ならびにコンピュータプログラム製品およびデータ構造のフロー図による図解および／またはブロック図を参照して本明細書において少なくとも部分的に説明される。図解の各ブロックおよびブロックの組み合わせを、コンピュータプログラムインストラクションによって実現できることを、理解できるであろう。これらのコンピュータプログラムインストラクションを、汎用のコンピュータ、専用のコンピュータ、または他のプログラマブルなデータ処理装置のプロセッサへともたらし、コンピュータまたは他のプログラマブルなデータ処理装置によって実行されるインストラクションによって１つ以上のブロックに特定される機能／動作を実行するための手段が生み出されるように、装置を生み出すことができる。

これらのコンピュータプログラムインストラクションは、コンピュータにとって読み取り可能なメモリに格納されてもよく、したがってコンピュータにとって読み取り可能なメモリに格納されたインストラクションによって本明細書において例示および説明された種々の１つ以上のブロック、フロー図、および他のアーキテクチャに指定の機能／動作を実行するインストラクション手段を含む製造物が生み出されるように、特定のやり方で機能するようにコンピュータまたは他のプログラマブルなデータ処理装置を導くことができる。

コンピュータプログラムインストラクションは、コンピュータまたは他のプログラマブルな装置において実行されるインストラクションによって１つ以上のブロックに指定の機能／動作を実行するための段階がもたらされるように、一連の演算段階をコンピュータまたは他のプログラマブルな装置において実行させてコンピュータによって実行されるプロセスを生み出すために、コンピュータまたは他のプログラマブルなデータ処理装置へとロードされてもよい。

図２および３が、実施形態を実行することができるデータ処理環境の典型的な図として提示されている。図２および３が、あくまでも例示にすぎず、開示の実施形態の態様または実施形態を実行することができる環境に関していかなる限定も断言または暗示しようとするものではないことを、理解すべきである。図示の環境に対する多数の変更を、開示の実施形態の技術的思想および技術的範囲から離れることなく、行うことが可能である。

図２に示されるとおり、いくつかの実施形態を、プロセッサ３４１などの１つ以上のプロセッサ、メモリ３４２、コントローラ３４３（例えば、入力／出力コントローラ）、周辺機器ＵＳＢ（ユニバーサルシリアルバス）接続部３４７、キーボード３４４（例えば、物理的なキーボードまたはタッチ式画面にグラフィカルに表示されたキーボード）、入力構成要素３４５（例えば、キーボード３４４と組み合わせて利用でき、あるいはキーボード３４４と一緒に利用することができるマウス、トラックボール、ペンデバイス、などのポインティングデバイス）、および表示装置３４６を含むことができ、いくつかの場合には画像取得ユニット３３２（例えば、デジタルビデオカメラ、ＡＬＰＲカメラ、など）も含むことができるデータ処理システム４００の文脈において実現することができる。データ処理システム４００は、例えば、クライアント−サーバネットワーク（例えば、無線および／または有線）によって周辺装置（図示されていない）と通信するクライアントコンピューティングデバイス（例えば、クライアントＰＣ、ラップトップ、タブレットコンピュータ装置、など）であってよい。別の実施形態において、データ処理システムは、クライアント−サーバネットワークまたは他のサーバにもとづくネットワークの実現の文脈におけるサーバであってよい。

図示のとおり、データ処理システム４００の種々の構成要素は、システムバス３５１または他の同様のアーキテクチャを通じて電子的に通信することができる。例えば、システムバス３５１は、例えばデータ処理システム４００内のコンピュータ構成要素の間でデータを転送し、あるいは他のデータ処理装置、構成要素、コンピュータ、などへとデータを転送し、他のデータ処理装置、構成要素、コンピュータ、などからデータを転送するサブシステムであってよい。データ処理システム４００を、例えばクライアント−サーバにもとづくネットワーク（例えば、インターネット）におけるサーバとして実現でき、あるいはクライアントおよびサーバの文脈（すなわち、各態様がクライアントおよびサーバ上で実施される）において実現することができる。データ処理システム４００は、例えばスタンドアロンのデスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、パッド型コンピュータ装置、サーバ、などであってよい。

図３が、図２に示されるデータ処理システム４００の動作を命令するためのコンピュータソフトウェアシステム４５０を示している。例えばメモリ３４２に格納されたソフトウェアアプリケーション４５４が、一般に、カーネルまたはオペレーティングシステム４５１と、シェルまたはインターフェイス４５３とを含む。ソフトウェアアプリケーション４５４などの１つ以上のアプリケーションプログラムを、データ処理システム４００による実行のために「ロード」する（すなわち、例えばメモリ３４２または他のメモリ位置から転送する）ことができる。データ処理システム４００は、インターフェイス４５３を介してユーザの指令およびデータを受け取ることができ、次いでこれらの入力に、オペレーティングシステム４５１および／またはソフトウェアアプリケーション４５４からのインストラクションに従ってデータ処理システム４００が作用することができる。インターフェイス４５３は、いくつかの実施形態において、結果を表示するように機能することができ、それにもとづいて、ユーザは、さらなる入力をもたらすことができ、あるいはセッションを終わらせることができる。

ソフトウェアアプリケーション４５４は、例えば本明細書において説明されるインストラクションまたは演算などのインストラクションまたは演算を実行することができるモジュール４５２など、１つ以上のモジュールを含むことができる。モジュール４５２によって実行され得るインストラクションの例として、図１のブロック１２、１４、１６、１８、２０に関して本明細書において図示および説明され、本明細書のどこかで説明される段階または演算などの段階または演算が挙げられる。モジュール４５２が、例えば図４に関して本明細書において説明されるモジュール２３２、２３４、２３６、２３８、および／または２３９などのサブモジュールで構成されてよいことに、注意すべきである。

以下の検討は、本システムおよび方法を実行することができる適切なコンピューティング環境の簡単な概要を提示することを意図している。必須ではないが、開示される実施形態は、単一のコンピュータによって実行されるプログラムモジュールなどのコンピュータにとって実行可能なインストラクションという全体的な文脈において説明される。多くの場合、図３に示したモジュール４５２などの「モジュール」が、ソフトウェアアプリケーションを構成する。しかしながら、モジュールを、例えば、電子および／またはコンピュータハードウェア、あるいはそのようなハードウェアとソフトウェアとの組み合わせで構成することもできる。いくつかの場合、「モジュール」は、データベースならびに／あるいはそのようなデータベースと相互作用する電子ハードウェアおよびソフトウィーを構成することもできる。

一般に、プログラムモジュールは、これらに限られるわけではないが、特定のタスクを実行し、あるいは特定の抽象データ型およびインストラクションを実装するルーチン、サブルーチン、ソフトウェアアプリケーション、プログラム、オブジェクト、コンポーネント、データ構造、などを含む。さらに、開示される方法およびシステムを、例えば携帯デバイス、マルチプロセッサシステム、データネットワーク、マイクロプロセッサ基盤またはプログラマブルな家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、サーバ、などといった他のコンピュータシステムの構成において実行できることを、当業者であれば理解できるであろう。

モジュールという用語が、本明細書において利用されるとき、特定のタスクを実行し、あるいは特定の抽象データ型を実装するルーチンおよびデータ構造の集合を指すことができることに、注意すべきである。モジュールを、２つの部分、すなわち他のモジュールまたはルーチンによるアクセスが可能な定数、データ型、変数、およびルーチンを載せるインターフェイスと、典型的には内部向け（そのモジュールにのみアクセス可能）であり、モジュール内にルーチンを実際に実装するソースコードを含んでいる実装部とで構成することができる。また、モジュールという用語は、単純に、文書処理、会計、在庫管理、などの特定のタスクの実行を助けるように設計されたコンピュータプログラムなどのアプリケーションを指すこともできる。このように、例えば図１に示され、本明細書のどこかで検討されるインストラクションまたは段階などのインストラクションまたは段階を、そのような１つ以上のモジュール、サブモジュール、などの文脈において実装することができる。

したがって、図２および３は、開示の実施形態の例として意図されており、構造的な限定として意図されているのではない。さらに、そのような実施形態は、いかなる特定の用途あるいはコンピューティングまたはデータ処理環境にも限定されない。むしろ、開示される手法を、種々のシステムおよびアプリケーションソフトウェアへと好都合に適用できることを、当業者であれば理解できるであろう。さらに、開示される実施形態を、例えばＷｉｎｄｏｗｓ、Ｍａｃｉｎｔｏｓｈ、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ、などといった種々の異なるコンピューティングプラットフォーム上で具現化することができる。

図４が、典型的な実施形態に従って実装することができるナンバープレート認識のためのシステム２００のブロック図を示している。システム２００は、一般に、ネットワーク２２０と直接（例えば、有線接続）または無線のいずれかで通信する画像取得ユニット１０８を含む。図４に示されるネットワーク２２０は、任意のネットワークトポロジ、伝送媒体、またはネットワークプロトコルを採用することができる。ネットワーク２２０は、配線、無線通信リンク、光ファイバケーブル、などの接続を含むことができる。ネットワーク２２０は、互いの通信に伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）というプロトコル一式を使用するネットワークおよびゲートウェイの世界的な集合を代表するインターネットであってもよい。インターネットの中心には、データおよびメッセージを送る何千もの商業用、政府用、教育用、およびその他のコンピュータシステムからなる主要ノードまたはホストコンピュータ間の高速データ通信回線のバックボーンが存在する。

ネットワーク２２０（例えば、無線「Ｗｉ−Ｆｉ」ネットワーク、セルラー通信ネットワーク、インターネット、など）は、いくつかの実施形態においては図２および３に開示のようなデータ処理システム４００であってよいＡＬＰＲユニットと直接（例えば、有線接続）または無線通信のいずれかで通信することができる。ＡＬＰＲユニットは、ＡＬＰＲモジュール４５２を含むことができる。そのようなＡＬＰＲモジュール４５２は、例えば、図２に示したメモリ３４２などのメモリに格納されてよく、例えばやはり図２に示したプロセッサ３４１などのプロセッサによって処理されてよい。

画像取得ユニット１０８は、例えば、ＡＬＰＲカメラまたは他のデジタルビデオカメラであってよく、例えば車両２０５のナンバープレート２１１の画像２１０を取得することができる。画像２１０を、設計の考慮事項に応じて、切り出された画像または切り出しされていない画像としてＡＬＰＲモジュール４５２へともたらすことができる。

図４に示した例では、画像２１０を、ＡＬＰＲモジュール４５２による処理のために、ネットワーク２２０を介してＡＬＰＲユニットへと送ることができる。ＡＬＰＲモジュール４５２は、例えばニューラルネットワーク２３２（例えば、すでに説明したとおりのＣＮＮまたは別の種類のニューラルネットワーク）およびそのようなニューラルネットワークを本明細書においてすでに説明したとおりに複数の学習用サンプルを利用して一般的なテキスト認識を実行すべく学習させるための学習モジュール２３４などの１つ以上のモジュール（または、サブモジュール）を含む。ＡＬＰＲモジュール４５２は、ニューラルネットワークの反復的な学習および適応のための学習／適応モジュール２３６をさらに含むことができる。ＡＬＰＲモジュール４５２は、テキストを認識してナンバープレート２１１に関するナンバープレートの書き写し２４０を生成するために、ニューラルネットワーク２３２をナンバープレート２１１の切り出された画像へと適用するための適用モジュール２３８も含むことができる。ナンバープレート２１１の画像２１０が、切り出しされていない画像としてＡＬＰＲモジュール４５２へともたらされると仮定すると、そのような画像を、画像切り出しモジュール２３９をＡＬＰＲモジュール４５２を介して利用することによって切り出し、次いでＡＬＰＲモジュール４５２の他のモジュール２３２、２３４、２３６、および／または２３８によって処理することができる。

すでに示したとおり、学習の演算は、１回だけ（すなわち、学習時に）生じる。すなわち、最初にニューラルネットワーク２３２の学習が、まず一般的なテキストの例を使用し、次いでナンバープレート画像を使用して行われる。これらの演算は、１回だけ実行される。次いで、学習させられたニューラルネットワーク２３２を任意の数の切り出された新たなナンバープレートの画像へと適用して、ナンバープレートの書き写しを得ることができ、ニューラルネットワーク２３２をそのたびに再び学習させる必要はない。

画像切り出しモジュール２３９を実現するために利用することができる画像切り出し手法の例（ただし、これに限られるわけではない）が、ＸｅｒｏｘＣｏｒｐｏｒａｔｉｏｎへと譲渡されたＲａｊａＢａｌａ等の２０１５年１０月１５日に公開された「ＭｅｔｈｏｄｓａｎｄＳｙｓｔｅｍｓｆｏｒＥｆｆｉｃｉｅｎｔＩｍａｇｅＣｒｏｐｐｉｎｇａｎｄＡｎａｌｙｓｉｓ」という名称の米国特許出願公開第２０１５／０２９４１７５号に開示されていることに、注意すべきである。

以上にもとづき、いくつかの好ましい例および選択肢となる実施形態が本明細書に開示されることを、理解することができる。１つの典型的な実施形態においては、ナンバープレート認識のための方法が開示される。そのような方法は、ニューラルネットワークを生成する段階または論理演算と、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させる段階または論理演算と、ニューラルネットワークを繰り返し学習および適応させる段階または論理演算と、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する段階または論理演算とを含むことができる。好ましい典型的な実施形態において、上述のニューラルネットワーク２３２は、ＣＮＮ（畳み込みニューラルネットワーク）であってよい。当然ながら、ＣＮＮの代わりに他の種類のニューラルネットワークを実装できることを、理解できるであろう。

別の典型的な実施形態においては、各段階または演算を、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するようにニューラルネットワークを適応させるために実行することができる。いくつかの典型的な実施形態において、ニューラルネットワークを反復的に学習および適応させる段階または論理演算は、ニューラルネットワークをファインチューニングすることによってニューラルネットワークを反復的に学習および適応させる段階または論理演算を含むことができる。別の典型的な実施形態において、ニューラルネットワークをファインチューニングする段階または論理演算は、ニューラルネットワークを反復的に学習および適応させるために粗から細への適応のカスケードを利用するための段階または論理演算を含むことができる。さらに別の典型的な実施形態においては、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するようにニューラルネットワークを適応させる段階または論理演算を提供することができる。

別の典型的な実施形態においては、ナンバープレート認識のためのシステムを実現することができる。そのようなシステムは、例えば、少なくとも１つのプロセッサと、コンピュータプログラムコードを包含するコンピュータにとって使用可能な媒体とを含むことができ、コンピュータにとって使用可能な媒体は、プロセッサ（または、複数のプロセッサ）と通信することができる。コンピュータプログラムコードは、プロセッサによる実行が可能であり、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させ、ニューラルネットワークを反復的に学習および適応させ、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成するように構成されたインストラクションを含むことができる。

さらに別の典型的な実施形態においては、ナンバープレート認識のためのプロセスを生じさせるためのインストラクションを表すコードを格納する非一時的なプロセッサにとって読み取り可能な媒体が実現される。そのようなコードは、例えば、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させ、ニューラルネットワークを反復的に学習および適応させ、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成するためのコードを含むことができる。

Claims

ナンバープレート認識のための方法であって、
ニューラルネットワークを生成するステップと、
複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させるステップと、
前記ニューラルネットワークを反復的に学習および適応させるステップと、
前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成するステップと
を含む方法。
前記ニューラルネットワークは、ＣＮＮ（畳み込みニューラルネットワーク）を含む、請求項１に記載の方法。
ナンバープレート認識のためのシステムであって、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを包含するコンピュータにとって使用可能な媒体と
を備えており、
前記コンピュータにとって使用可能な媒体は、前記少なくとも１つのプロセッサと通信することができ、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサによる実行が可能であり、
ニューラルネットワークを生成し、
複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させ、
前記ニューラルネットワークを反復的に学習および適応させ、
前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成する
ように構成されたインストラクションを含んでいる、システム。
前記ニューラルネットワークは、ＣＮＮ（畳み込みニューラルネットワーク）を含む、請求項３に記載のシステム。
前記インストラクションは、前記ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように前記ニューラルネットワークを適応させるようにさらに構成されている、請求項３に記載のシステム。
前記ニューラルネットワークを反復的に学習および適応させるための前記インストラクションは、前記ニューラルネットワークをファインチューニングすることによって前記ニューラルネットワークを反復的に学習および適応させるように構成されたインストラクションをさらに含む、請求項３に記載のシステム。
ナンバープレート認識のためのプロセスを生じさせるためのインストラクションを表すコードを格納しているプロセッサにとって読み取り可能な媒体であって、前記コードは、
ニューラルネットワークを生成し、
複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させ、
前記ニューラルネットワークを反復的に学習および適応させ、
前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成する
ためのコードを含んでいる、プロセッサにとって読み取り可能な媒体。
前記ニューラルネットワークは、ＣＮＮ（畳み込みニューラルネットワーク）を含む、請求項７に記載のプロセッサにとって読み取り可能な媒体。
前記コードは、前記ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように前記ニューラルネットワークを適応させるためのコードをさらに含む、請求項７に記載のプロセッサにとって読み取り可能な媒体。
前記ニューラルネットワークを反復的に学習および適応させることは、前記ニューラルネットワークをファインチューニングすることによって前記ニューラルネットワークを反復的に学習および適応させることをさらに含む、請求項７に記載のプロセッサにとって読み取り可能な媒体。