JP2017111806A - 畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応 - Google Patents

畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応 Download PDF

Info

Publication number
JP2017111806A
JP2017111806A JP2016233642A JP2016233642A JP2017111806A JP 2017111806 A JP2017111806 A JP 2017111806A JP 2016233642 A JP2016233642 A JP 2016233642A JP 2016233642 A JP2016233642 A JP 2016233642A JP 2017111806 A JP2017111806 A JP 2017111806A
Authority
JP
Japan
Prior art keywords
neural network
license plate
learning
recognition
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016233642A
Other languages
English (en)
Other versions
JP6831682B2 (ja
Inventor
アルバート・ゴード・ソルデビラ
Gordo Soldevila Albert
ジョン・アルマザン
Almazan Jon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2017111806A publication Critical patent/JP2017111806A/ja
Application granted granted Critical
Publication of JP6831682B2 publication Critical patent/JP6831682B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】より正確に効率的なやり方で切り出された画像におけるナンバープレートを認識するための方法を提供する。
【解決手段】学習させられたニューラルネットワークを利用するナンバープレート認識のための方法及びシステムおいて、ニューラルネットワークは、ナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習及び適応させる工程を含み、ニューラルネットワークを、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させ、ナンバープレートの切り出された画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する。そのようなニューラルネットワークの例は、CNN(畳み込みニューラルネットワーク)である。
【選択図】図1

Description

実施形態は、広くには、画像処理の分野に関する。また、実施形態は、物体認識に関する。さらに、実施形態は、ナンバープレート認識およびニューラルネットワークに関する。
LPR(ナンバープレート認識)またはALPR(自動ナンバープレート認識)は、「インテリジェント」な交通インフラストラクチャの利用の中心的なモジュールとしての機能を有する画像処理工程を典型的に含むコンピュータビジョン技術である。ALPRなどのナンバープレート認識技術を、画像処理および文字認識の技術を利用してナンバープレートを自動的に読み取ることによって車両を特定するために使用することができる。ナンバープレート認識工程を、画像におけるナンバープレートの位置を特定し、取得されたプレートの画像において文字を切り分け、特定された文字に対してOCR(光学式文字認識)を実行することによって、実行することができる。
ALPRの課題は、多くの場合、一連の画像処理工程、すなわちナンバープレートを含む部分画像の位置の特定(すなわち、プレートの位置特定)、個々の文字の画像の抽出(すなわち、切り分け)、およびこれらの文字画像に対する光学式文字認識(OCR)の実行へと分解される。このように、LPRおよびALPRの技術は、物体の認識という課題だけでなく、テキスト画像の認識という課題も含む。
ナンバープレート画像の認識における課題の1つは、切り出されたナンバープレートの画像に関して、その書き写しを生成することが望まれる点にある。ナンバープレート/テキスト画像の認識という課題に対処するために、2つの主要な動向が存在する。
第1の動向は、上述のOCRにもとづいており、文書における伝統的な単語認識法に着想を得たものである。単語の画像に関して、最初に単語の個々の文字の位置を特定することができ、次いで個々の文字をいくつかの手法によって認識することができる。これらの技術は、きわめて良好な認識結果を得ることができるが、いくつかの問題を免れない。例えば、高い精度を達成するために何百万もの学習用の単語について文字境界ボックスによる注釈付けを行う必要があり、単語内の個々の文字の位置を特定する必要があるが、これは、とくにはナンバープレートそのものを高い精度で位置特定して切り出すことさえできない可能性があるナンバープレートの認識の場合において、低速であり、誤りを生じやすい。
最近のコンピュータビジョン技術に着想した第2の動向は、単語の画像を、個々の文字を明確に検出することなく、グローバルシグネチュア(SIFTまたは他の学習による局所特徴量にもとづくバッグオブワードまたはフィッシャーベクトルエンコーディング)によって表現する。そのような手法においては、単語の画像および文字列を関連の類似性指標によって共通の空間に同時に埋め込むことが可能であり、したがって単語の画像の認識を検索問題として考えることを可能にでき、単語の画像に関して、考えられるすべての書き写し(例えば、用語集)をランク付けし、画像の単語に最も類似したものを予想される書き写しとして利用することができる。
これは、多数の分野において利点を提供するが、考えられる書き写しの数が莫大であるナンバープレート認識などのいくつかの特定のタスクにおいては現実的でなく、既知の用語集によらずに認識を実行することが最も重要であるが、はるかに困難なタスクである。いくつかの技術は、グローバルな画像のシグネチュアを利用するが、課題を検索問題と考えるのではなく、最適化問題と考え、適合性関数を最大にする書き写しを見つけようと試みる。この方法は、用語集を必要としない内部のナンバープレートのデータセットについてきわめて良好な結果を得ているが、結果は、予想のとおり、用語集を用いる場合ほどには正確でなく、効率的でもなかった。同様の方向において、畳み込みニューラルネットワーク(Convolutional Neural Network)について、テキストの画像を実際の文字列を容易に回復することができるテキスト埋め込み空間へとどのようにマッピングするかを学習する学習を行うことができる。実際には、これは、大量のラベル付けされた学習用データが利用可能である場合にはテキスト画像の分類の実行を可能にするが、典型的には、とくにはナンバープレートの画像において、そのような状況ではない。
さまざまな交通の領域におけるナンバープレート認識の重要性に鑑みて、用語集によらずに、より正確に、効率的なやり方でナンバープレートを認識するための技術的解決策であって、大量の注釈付けされた学習用データを必要としない技術的解決策が求められる。
以下の概要は、開示される実施形態に特有の革新的特徴のいくつかについての理解を促進するために提示され、完全な説明となることを意図しているわけではない。本明細書に開示される実施形態の種々の態様の完全な理解は、明細書全体、特許請求の範囲、図面、および要約を全体として理解することによって得ることができる。
したがって、開示される実施形態の一態様は、物体認識のための改善された方法およびシステムを提供することである。
開示される実施形態の別の態様は、ナンバープレート認識およびそのテキスト認識のための方法およびシステムを提供することである。
開示される実施形態のまた別の態様は、切り出された画像におけるテキストの認識を提供することにある。
上述の態様ならびに他の目的および利点を、今や本明細書において説明されるとおりに達成することができる。学習させられたニューラルネットワークを利用するナンバープレート認識のための方法およびシステムが、開示される。典型的な実施形態においては、ニューラルネットワークを生成することができる。次いで、ニューラルネットワークは、例えばナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習および適応させることを含む工程に委ねられる。ニューラルネットワークは、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させられる。ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成することができる。
いくつかの典型的な実施形態においては、ニューラルネットワークを、CNN(畳み込みニューラルネットワーク)として実現することができる。ニューラルネットワークを反復的に学習および適応させることは、ニューラルネットワークをファインチューニングすることによってニューラルネットワークを反復的に学習および適応させることを含むことができる。いくつかの実施形態におけるニューラルネットワークのファインチューニングは、ニューラルネットワークを反復的に学習および適応させるための粗から細への適応のカスケードの使用を含むことができる。また、ニューラルネットワークは、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように適応させられる。
本明細書に取り入れられ、本明細書の一部を形成する添付の図面は、本発明をさらに例示し、本発明の詳細な説明と併せて本発明の原理を説明する役に立ち、添付の図面において、類似の参照番号は、種々の図の全体を通して、同一または機能的に類似の構成要素を指している。
図1は、典型的な実施形態によるCNNでのナンバープレート認識のための粗から細への適応のカスケードのための方法の論理演算の各段階を示す工程の高レベルのフロー図を示している。 図2は、典型的な実施形態によるコンピュータシステムの概略図を示している。 図3は、典型的な実施形態によるモジュール、オペレーティングシステム、およびユーザインターフェイスを含むソフトウェアシステムの概略図を示している。 図4は、典型的な実施形態に従って実装することができるナンバープレート認識のためのシステムのブロック図を示している。
これらの例(ただし、これらの例に限られるわけではない)において述べられる特定の値および構成は、変更が可能であり、あくまでも1つ以上の実施形態を説明するために言及されているにすぎず、1つ以上の実施形態の技術的範囲を限定しようとするものではない。
次に、主題を、主題の一部を形成しており、特定の典型的な実施形態を例として示している添付の図面を参照して、以下でさらに詳しく説明する。しかしながら、主題はさまざまな異なる形態にて具現化可能であり、したがって保護または請求される主題は、本明細書に記載されるいずれかの典型的な実施形態に限られると解釈されるべきではなく、典型的な実施形態は、あくまでも説明のために提示されているにすぎない。同様に、請求または保護される主題について、合理的な範囲で広い技術的範囲が意図される。とりわけ、主題は、例えば、方法、装置、構成要素、またはシステムとして具現化可能である。したがって、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ(ソフトウェアそのもの以外の)の形態をとることができる。したがって、以下の詳細な説明は、限定の意味で解釈されてはならない。
本明細書および特許請求の範囲の全体を通して、用語は、明示的に述べられている意味を越えて、文脈において示唆または暗示される言外の意味を有することもある。同様に、「一実施形態」という表現は、本明細書において使用されるとき、必ずしも同じ実施形態を指すものではなく、「別の実施形態」という表現は、本明細書において使用されるとき、必ずしも違う実施形態を指すものではない。例えば、請求項に記載の主題は、典型的な実施形態の全体または一部の組み合わせを含むように意図される。
一般に、専門用語は、少なくとも部分的には、文脈における使用から理解され得る。例えば、「および」、「または」、または「および/または」などの用語は、本明細書において使用されるとき、そのような用語の使用の文脈に少なくとも部分的に依存し得る種々の意味を含むことができる。典型的には、「または」は、A、B、またはCなど、列挙を結び付けるために用いられた場合、包括的な意味で用いられてA、B、およびCを意味するように意図されるとともに、排他的な意味で用いられてA、B、またはCを意味するようにも意図される。加えて、用語「1つ以上」は、本明細書において使用されるとき、文脈に少なくとも部分的に依存して、単数の意味での任意の特徴、構造、または特性を表すために使用され得、あるいは複数の意味での特徴、構造、または特性の組み合わせを表すために使用され得る。同様に、「a」、「an」、または「the」などの用語も、文脈に少なくとも部分的に依存して、単数の使用を告げるものと理解でき、あるいは複数の使用を告げるものと理解することができる。加えて、用語「にもとづく」は、必ずしも因子の排他的な組を告げるように意図されていると解釈する必要はなく、むしろ、やはり文脈に少なくとも部分的に依存して、必ずしも明示的には説明されないさらなる因子の存在を許容することができる。
開示される実施形態は、一般的なテキスト認識の畳み込みネットワーク(例えば、convnet)を、ナンバープレート(LP)画像の認識に適応させる。例えば、標準的なテキストconvnetアーキテクチャの再使用および大規模な合成テキスト画像データセットの使用が、優秀な性能結果をもたらす。開示される手法は、標準的なconvnetモデル適応技術、すなわちファインチューニングを使用することによって、合成テキスト画像とLP画像との間の大きな分野の隔たりを克服する。これは、性能にとってきわめて重要であり、対象データの特定の部分集合(例えば、モデルを特定の条件に合わせるための都市または駐車場に特有のデータ)についての後のファインチューニングによってさらなる改善が可能である。この手法の利益として、ナンバープレート(LP)認識の問題へのテキスト画像convnetの適用が挙げられる。加えて、ファインチューニングにもとづくテキスト画像からLPへの成功裏の移し換えに必要な単純でありながら効率的な分野適応技術が、きわめて有用である。
ナンバープレート認識というタスクのための畳み込みニューラルネットワーク(CNN)の学習を含む典型的な実施形態を実行することができる。CNNは、用語集によらないテキスト認識など、コンピュータビジョンに関する多数のタスクにおいて、顕著な結果を示しているが、ナンバープレート認識というタスクの文脈においては、未だ利用されていない。CNNの学習における主たる困難の1つは、良好なモデルを学習するために、注釈付けされた学習用データが大量に必要な点にある。とくには、ナンバープレート認識に関して、正確なCNNモデルをゼロから学習するために必要な大量のナンバープレート画像の収集および注釈付けは、残念ながら実現可能でない。しかしながら、テキスト認識という関連のタスクに関しては、学習に適した数百万ものテキスト画像を含む合成データセットが利用可能であり、このデータセットにおいて学習されたモデルが、実際の画像へと良好に一般化し、標準的なテキスト認識ベンチマークについて技術水準の結果を手に入れることが示されている。やはり、そのようなモデルは、分野のドリフトゆえにナンバープレート認識という特定のタスクにおいて性能が良好でない。
したがって、開示される実施形態は、ナンバープレート認識のためのモデルの学習というタスクを、教師ありの分野の適応の1つとして考え、一般的なテキスト認識のタスクにおいてきわめて良好に機能するモデルを、学習用データが少ししか得られないナンバープレート認識という特定のタスクに適応させることを試みる。とくには、標準的なCNNのファインチューニングの戦略を利用して、これまでの手法よりも改善されたナンバープレート認識のタスクにおける優秀な精度をすでに得ることができることを、最初に実証する。
そのようなファインチューニング技術は、ナンバープレート認識という複雑なタスクには利用されていない。しかしながら、この問題を考えると、ソース→ターゲットの分野の適応の1つは、単純化され得ることに注意すべきである。代わりに、ナンバープレート画像のターゲット分野を、より細かい粒子とされたサブ分野の集合と考えることができる。例えば、パリの駐車場においてカメラによって取得されるナンバープレート画像は、カメラの位置および種類の両方ならびに取得される車両が相違するであろうフランス南部の高速道路において取得されるナンバープレートとは、異なると考えられる。テキストとナンバープレートとの間には明らかな違いが存在するが、ナンバープレートの2つのサブ分野の間にも明らかな違いが存在する。一般的なナンバープレート認識装置の学習が望まれる場合でも、認識装置を特定のサブ分野に特化させ、その特定のサブ分野においてより高い精度を得ることも、関心の対象となり得る。
典型的な実施形態においては、一技術が、粗から細への適応のカスケードによってCNNの反復的な学習および適応を実行することができ、そこでは、ネットワークが最初に数百万もの学習用サンプルを活用して一般的なテキスト認識を実行するように学習させられ、次いで対象のデータセットにおいてナンバープレート認識にますます類似するタスクを実行するように適応させられる。そのような反復的なファインチューニングは、より標準的なファインチューニングを用いたモデルの学習と比べて、誤りの5%〜10%の減少をもたらすことができる。最終的な結果は、精度および速度の両方において、これまでの技術的解決策を大きくしのぐ。
この手法の主たる利点の1つは、限られた量の注釈付けされたナンバープレートを使用して高い精度でナンバープレート認識を実行できる一方で、元のネットワークはテキスト認識についてのみ学習させられ、ナンバープレート認識のタスクについて良好には機能しない点にある。開示される手法は、余分な学習用データを、たとえそれがi)異なる分野から由来したとしても活用し、ii)試験時間においてより高速であり、iii)より良好な精度をもたらす。
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、とりわけテキスト認識に関する多くのタスクにおいて、顕著な結果をもたらすことができる。しかしながら、この精度は、代価を伴う。良好な性能を達成するために、CNNを、大量のラベル付けされた学習用データで教師ありのやり方で学習させる必要があるが、これは、タスク(例えば、ナンバープレート認識)によっては実現不可能であり得る。
この問題のために、2つの標準的な技術的解決策、すなわち合成データにおいて学習を行うこと、およびあらかじめ学習させたネットワークを対象の分野へと適応させること、が存在する。合成データにおける学習に関しては、実際的な合成データを生成し、学習の目的に使用することが可能である。この手法は、さまざまな分野(例えば、歩行者の位置特定)に利用可能であり、開示される問題により関係するものとして、テキスト認識に利用可能である。
あらかじめ学習させたネットワークを対象の分野へと適応させることについては、「類似」の分野からの充分な学習用データであらかじめ学習させたネットワーク(例えば、ImageNetデータセットにおいて学習させたネットワーク)および対象の分野からのいくつかのラベル付けされた学習用サンプルが入手できる場合、ネットワークを対象の分野へと適応させる(すなわち、コミュニティにおいて知られているように、ファインチューニングする)ことができる。これは、CNNが誤差逆伝播によって学習させられるため、きわめて容易に達成できる。元のタスクと対象のタスクとが同じ(例えば、20個のあらかじめ定められた分類への分類)であり、分野のシフトだけが利用可能である場合、対象の分野の学習用サンプルを用いた誤差逆伝播によってネットワークの重みを単純に更新することができる。タスクが異なる場合、ネットワークのすべての層を置き換え、ゼロから学習させる必要があるかもしれない。さらに、類似の分野からのあらかじめ学習させたネットワークを用いた結果は、限られた学習用データでのゼロからの学習と比べて、はるかに良好な結果をもたらす傾向にある。
適応を伴ういくつかの状況においては、対象の分野が、実際にいくつかの異なるサブ分野で構成される。これらのサブ分野は、それらの間の関係が、元の分野との関係よりも強いが、依然としてそれらの間の違いはかなり大きい。開示される手法を、対象の分野のこの階層を利用し、認識方法の精度を改善するために、粗から細への適応にもとづいて実行することができる。
両方の手法が、相補的であり得る(例えば、豊富な合成データにおける学習と、その後の実際の対象分野に合わせたファインチューニングの実行)ことに注意すべきである。また、この単純なファインチューニングが良好に機能する理由の1つが、CNNの目標が非凸であり、通常は確率的勾配降下法によって解かれるからであることに、注意すべきである。目標が凸である場合、対象の分野へのネットワークの直接的なファインチューニングは、他の技術(例えば、規則化を伴う)が同時に使用されなければ、元の分野のすべてのそれまでの知識を消去してしまうと考えられる。まさに非凸の目標が、ファインチューニングのタスクをCNNにとって容易かつ効果的にする。
開示される実施形態は、利用可能な注釈付けされた学習用データが限られているナンバープレート認識の課題に主として集中する。他方で、単語画像認識のための大量の注釈付けされた学習用合成データが入手可能である。どのように両方のタスクが基本的に同じであり、すなわちテキスト画像の内容の認識であるのか、および激しい分野のドリフトが存在することを、理解することができる。テキスト画像およびナンバープレートは、統計(例えば、ナンバープレートは数字をたくさん含んでおり、よく似た長さを有している一方で、辞書の単語は、そのようでない)および取得の条件(例えば、ナンバープレートは困難な角度および照明条件で撮影される可能性があり、背景のテクスチャが異なる可能性がある、など)の両方において相違する。
実験的な実施形態を参照して、テキスト画像の合成データセットにおけるネットワークの学習、およびその後の2つのナンバープレートデータセットにおけるファインチューニングが、きわめて良好な結果をもたらすことを、第1に実証することができる。しかしながら、これを標準的なファインチューニングと理解することができるが、CNNは、直接的にも、事前学習およびファインチューニングの実行のためのテキスト画像データセットの活用によっても、これまでにナンバープレート認識というタスクに使用されたことがないことに、注意すべきである。
第2に、対象の分野がまさに何であるかを注意深く定義しなければならず、その対象の分野へと直接的にネットワークをファインチューニングすることが最良の戦略でない可能性があることを、実証することができる。ナンバープレート画像の分野を、より細かい粒子とされたサブ分野の集合と考えることができる。例えば、パリの駐車場においてカメラによって取得されるナンバープレート画像は、カメラの位置および種類の両方ならびに取得される車両が相違するであろうフランス南部の高速道路において取得されるナンバープレートとは、異なると考えられる。これは、何が対象の分野であるべきかという疑問に直結する。異なるサブ領域からのものであるかどうかにかかわらず、利用可能なすべてのナンバープレートにおいて学習を行うべきか。関連のサブ分野のナンバープレートにおいてのみ学習を行うべきか。あるいは、両方の組み合わせか。
このように、ネットワークを粗から細へのやり方で学習させることができる。第1に、ネットワークを、元のドメインからのできる限り多くの入手可能なデータ(例えば、実験的な実施形態においては、辞書の単語の約1,000万枚の合成画像)を利用して学習させることができる。次いで、ネットワークを、対象の分野(この場合には、ナンバープレート画像)からのすべての利用可能なサンプルを、たとえそれらがきわめて異なる状況から得られたものであっても利用して、ファインチューニングすることができる。最後に、ネットワークを、認識が望まれる対象のサブ分野のみに関して再びファインチューニングすることができる。
実験が、この粗から細への戦略が、ゼロからの学習または特定の1つ以上のデータセットへの1回だけのファインチューニングを要件とする手法よりも一貫して良好であることを、実証することができる。ファインチューニングは、今やコンピュータビジョンのコミュニティにおいて標準的に行われているが、粗から細へのやり方で反復のファインチューニングを実行する研究は、CNNにおいても、より標準的な分野の適応の技術においても、これまでに存在していない。
3つのデータセットを、実験的な実施形態の文脈において利用することができる。データセットの1つは、合成テキスト画像を含み、学習の目的だけに使用される。残りの2つは、現実の状況において取得されたナンバープレート画像の組織内データセットである。次に、そのようなデータセットを、さらに詳しく説明する。本明細書における特定のデータセットへの言及が、あくまでも例示の目的で提示されているにすぎず、開示される実施形態を限定する特徴とは考えられないことを、理解できるだろう。
オックスフォード合成(Oxford Synthetic(OS))データセットは、辞書から抽出された約90,000個の異なる単語をカバーする約1,000万枚の合成画像を含む。このデータセットは、約100万枚の検証用画像(モデルのパラメータの検証に使用することができる)および約100万枚の試験用画像(使用されない)をさらに含む。画像は合成であるが、さまざまな種類の変換およびゆがみを適用してきわめて実際的なやり方で生成されている。このデータセットを利用して学習させられたモデルは、現実のデータにきわめて良好に一般化し、テキスト認識のタスクにおいて技術水準の結果を得る。しかしながら、データセットが辞書からの単語しか含んでいないため、文字が数字よりもはるかに一般的であり、数字が充分には代表されないことに、注意すべきである。したがって、このデータセットだけで学習させられたモデルは、数字が文字と同じ程度に一般的であるナンバープレート認識のタスクにおいて、良好には働かないと予想される。
Waデータセット(Wa)は、3,282枚の独特のナンバープレートにおいて4,215枚の学習用画像および4,215枚の試験用画像を含む。これらのナンバープレートは、車両全体を撮影する画像から自動的に位置特定されて切り出され、それらのゆがみを取り除くために自動の透視変換が適用されている。きわめて良好でない検出を手作業で取り除くことができるが、切り出しが部分的であり、位置がずれており、ゆがみが良好には取り除かれておらず、あるいは他の問題を有しているナンバープレートが、そのまま残されている。
Clデータセット(Cl)は、Waデータセットと同様のやり方で取得された1,891枚の独特のナンバープレートにおいて2,867枚の学習用画像および1,381枚の試験用画像を含んでいる。しかしながら、一般に、Clデータセットのナンバープレート画像の品質は、Waデータセットのそれよりもはるかに悪く、不良な検出または位置ずれに起因するより多くの問題を抱えている。11文字からなる2枚のカスタマイズされたナンバープレートを除き、両方のデータセットにおけるすべてのナンバープレートは、4〜8文字を含んでいる。
両方のナンバープレートデータセットが、限られた数の学習用サンプルしか含んでおらず、これらの学習用サンプルだけを用いたCNNの学習が、平均以下の結果につながりかねないことに、注意すべきである。また、WaおよびClのどちらも検証セットを含んでいないことに、触れておかなければならない。学習の目的で、オックスフォード合成データセットにおいて用いられたパラメータと同じパラメータを使用する。ここで調節すべき唯一のパラメータは、ファインチューニングのための反復の回数である。幸いにも、試験セットにおける性能は、何回かの反復の後に基本的に収束する。したがって、ネットワークを、そのような収束が観測されるまで学習させることができる。
典型的な実施形態において、ネットワークは、32x100ピクセルへとリサイズ(アスペクト比を維持しない)されたグレー画像を入力として取ることができ、それらを一連の畳み込みおよび全結合層に通すことができる。そのような典型的な実施形態において、ネットワークの出力は、37x23というサイズの行列であることができ、ここで各セルは、ナンバープレート1の位置1、2、・・・、23において考えられる37個のシンボル(例えば、10個の数字、26個の文字、およびヌル(NULL)シンボル)の各々を発見する確率を示している。ネットワークの出力が与えられると、23個の列を通って移動し、各列において最高の確率を有するシンボルを採用することによって、書き写しを容易に得ることができる。
ネットワークの正確なアーキテクチャは、conv64−5、conv128−5、conv256−3、conv512−3、conv512−3、fc4096、fc4096、fc(32×23)であり、ここでconvX−Yは、サイズがY×YのX個のフィルタによる畳み込みを指し、fcXは、X次元の出力を生成する全結合層である。畳み込みフィルタは、1というストライドを有し、マップサイズを維持するようにパディングされる。2というストライドによる2×2のサイズの最大プーリングが、畳み込み層1、2、および4に続く。ReLU非線形性が、層の各ペアの間に適用される。ネットワークは、学習のためにソフトマックス(softmax)を実行して交差エントロピ損失を使用する23個の独立した分類器(各位置につき1つ)で終わる。分類器は、互いに独立しているが、ネットワークの残りのパラメータと一緒に共同で学習させることができる。
ネットワークを、0.9のモーメンタム、5×10−5の固定の学習率、および5×10−4の重み減衰を有するSGDによって、128というサイズのミニバッチにて学習させることもできる。ネットワークは、検証セットにおける精度の収束までオックスフォード合成におけるいくつかのエポックについて学習させられる。WaおよびClにおけるファインチューニング実施形態に、ネットワークは、数百のエポックについて学習させられる。ネットワークの精度が、その時点の後に頭打ちに達したことが、実験的に観察されている。
いくつかの典型的な実施形態において、開示される手法を、WaおよびClの試験セットにおいて評価することができる。そのような状況において、認識率(正しく書き写されたナンバープレートの割合)および正規化CER(Character Error Rate(誤字率))(すなわち、書き写しとグラウンドトゥルース注釈との間の編集距離をそれらの長さの最大値で割ったもの)という2つの指標が報告され得る。異なる設定(例えば、ゼロからの学習、オックスフォード合成からのファインチューニング、および反復のファインチューニング)において学習させられたモデルを評価し、これまでの研究と比較することができる。
典型的な結果が、下記の表1に示される。
Figure 2017111806
ファインチューニング工程が、矢印で示される一方で、データセットのマージを、プラス符号で示すことができる。例えば、「OS−>Wa+Cl」は、最初に「オックスフォード合成」(すなわち、OS)において学習させられ、その後にWaおよびClの両方を組み合わせるデータセットにおいてファインチューニングされたモデルを指す。欠けている値は、試験用データセットが学習用データセットに関係しておらず、高い精度が期待されない設定に属する。
以下の典型的な結果が注目される。第1に、もっぱらOSにおいて学習させられたモデル(c)は、ナンバープレート認識というタスクにおいてまったく良好に機能せず、認識精度は0%であり、CERは約70である。OS+Wa+Clの組み合わせのデータセットにおける学習(d)も、(わずかにましであるが)ひどく悪い結果につながる。これは、OSにおけるテキストデータの量と比べてきわめて少ないナンバープレートしか存在しないため、驚くべきことではない。
第2に、ゼロからのナンバープレートデータセットにおける学習(e、f、g)は、とくにはWaおよびClの両方のデータセットが組み合わせられる場合に、はるかに良好に機能する。しかしながら、これは、OSから得ることができたすべての知識を活用しておらず、結果は、これまでの研究において達成された結果を依然として下回る。
OSにおけるモデルの学習、およびその後のナンバープレートデータセットにおけるファインチューニング(h、i、j)は、優れた結果につながり、これまでの研究よりも性能がよい。(j)において、システムの精度は、WaおよびClにおいてほぼ6ポイントも改善され、CERは、ほぼ50%も低下する。興味深いことに、Wa+Clにおけるモデルのファインチューニングは、試験時に見られるナンバープレートに類似しないナンバープレートを認識するための学習をモデルに強いるにもかかわらず、WaおよびClの両方における優れた結果につながる(j)。これは、より多くの学習用データが利用可能であり、ファインチューニングがそれを活用できるからであると考えられる。
OSにおいて学習させられたネットワークが最初にWa+Clにおいてファインチューニングされ、次いでWaまたはClにおいて再びファインチューニングされる反復のファインチューニング(k、l)が、最良の結果をもたらす。直感的に、OSによってもたらされるテキスト全般についてのすべての情報を利用し、Wa+Clによってもたらされるナンバープレート全般についてのすべての情報を利用し、最終的に実際の対象のタスクに専門化されたネットワークが、最良の結果を獲得する。この手法は、認識誤りをWaにおいて相対でほぼ10%(k)、Clにおいて相対で3%(l)さらに減らす。同様の改善を、CERについても観測することができる。
図1が、1つの典型的な実施形態によるCNNでのナンバープレート認識のための粗から細への適応のカスケードのための方法10の論理演算の各段階を示す工程の高レベルのフロー図を示している。図1に示される方法10は、ナンバープレート認識のためのモデルの学習というタスクを、教師ありの分野の適応の1つとして考え、一般的なテキスト認識のタスクにおいてきわめて良好に機能するモデルを、学習用データが少ししか得られないナンバープレート認識という特定のタスクに適応させることを試みる。すでに示したように、標準的なCNNのファインチューニングの戦略を使用することによって、これまでの研究よりも改善されたナンバープレート認識のタスクにおける優秀な精度をすでに得ることができる。
方法10の手法は、ブロック12に示されるとおり、CNNを用意するステップまたは論理演算を含む。その後に、ブロック14に示されるとおり、CNNを、複数の(例えば、数百万の)学習用サンプルを活用することによって、一般的なテキスト認識を実行するように学習させることができる。ブロック12および14に示される演算は、CNNの学習を含む。この演算(すなわち、学習)は、1回だけ生じる。しかしながら、ブロック16、18、20に示される演算は、(例えば、試験時に)多数回生じることができる。
したがって、ブロック16に示されるとおり、粗から細への適応のカスケードを利用してナンバープレート認識にだんだんと類似するタスクを実行するようにCNNを適応させるステップまたは論理演算を、実行することができる。次いで、得られたCNNを、ブロック18に示されるとおり、切り出されたナンバープレートの画像へと適用し、ブロック20に示されるとおり、ナンバープレートの書き写しを生成することができる。明確化のために述べると、学習の演算は、1回だけ(すなわち、学習時に)生じる。すなわち、最初にCNNの学習が、まず一般的なテキストの例を使用し、次いでナンバープレート画像を使用して行われる。これらの演算は、1回だけ実行される。次いで、学習させられたCNNを任意の数の切り出された新たなナンバープレートの画像へと適用して、それらの書き写しを得ることができ、ネットワークをそのたびに再び学習させる必要はない。
いくつかの実施形態において、開示の実施形態の演算を実行するためのコンピュータプログラムコードを、オブジェクト指向のプログラミング言語(例えば、Java(登録商標)、C#、C++、など)で記述できることに、注意すべきである。しかしながら、特定の実施形態の演算を実行するためのそのようなコンピュータプログラムコードを、「C」プログラミング言語などの従来からの手続き型プログラミング言語で記述することもでき、例えばVisual Basicなどの視覚指向のプログラミング環境において記述することもできる。
プログラムコードは、スタンドアロンのソフトウェアパッケージとして全体または一部がユーザのコンピュータにおいて実行されてよく、一部がユーザのコンピュータにおいて実行され、一部がリモートコンピュータにおいて実行されてよく、あるいは完全にリモートコンピュータにおいて実行されてもよい。後者の状況においては、リモートコンピュータを、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)や、例えばWi−Fi、Wimax、802.xx、および携帯電話網などの無線データネットワークを介してユーザのコンピュータへと接続することができ、あるいは接続を、多くのサードパーティがサポートするネットワークを介して(例えば、インターネットサービスプロバイダによってインターネットを通じて)外部のコンピュータへと行うことができる。そのようなネットワークの例が、図4に示されるネットワーク220である。
実施形態が、本発明の実施形態による方法、システム、ならびにコンピュータプログラム製品およびデータ構造のフロー図による図解および/またはブロック図を参照して本明細書において少なくとも部分的に説明される。図解の各ブロックおよびブロックの組み合わせを、コンピュータプログラムインストラクションによって実現できることを、理解できるであろう。これらのコンピュータプログラムインストラクションを、汎用のコンピュータ、専用のコンピュータ、または他のプログラマブルなデータ処理装置のプロセッサへともたらし、コンピュータまたは他のプログラマブルなデータ処理装置によって実行されるインストラクションによって1つ以上のブロックに特定される機能/動作を実行するための手段が生み出されるように、装置を生み出すことができる。
これらのコンピュータプログラムインストラクションは、コンピュータにとって読み取り可能なメモリに格納されてもよく、したがってコンピュータにとって読み取り可能なメモリに格納されたインストラクションによって本明細書において例示および説明された種々の1つ以上のブロック、フロー図、および他のアーキテクチャに指定の機能/動作を実行するインストラクション手段を含む製造物が生み出されるように、特定のやり方で機能するようにコンピュータまたは他のプログラマブルなデータ処理装置を導くことができる。
コンピュータプログラムインストラクションは、コンピュータまたは他のプログラマブルな装置において実行されるインストラクションによって1つ以上のブロックに指定の機能/動作を実行するための段階がもたらされるように、一連の演算段階をコンピュータまたは他のプログラマブルな装置において実行させてコンピュータによって実行されるプロセスを生み出すために、コンピュータまたは他のプログラマブルなデータ処理装置へとロードされてもよい。
図2および3が、実施形態を実行することができるデータ処理環境の典型的な図として提示されている。図2および3が、あくまでも例示にすぎず、開示の実施形態の態様または実施形態を実行することができる環境に関していかなる限定も断言または暗示しようとするものではないことを、理解すべきである。図示の環境に対する多数の変更を、開示の実施形態の技術的思想および技術的範囲から離れることなく、行うことが可能である。
図2に示されるとおり、いくつかの実施形態を、プロセッサ341などの1つ以上のプロセッサ、メモリ342、コントローラ343(例えば、入力/出力コントローラ)、周辺機器USB(ユニバーサルシリアルバス)接続部347、キーボード344(例えば、物理的なキーボードまたはタッチ式画面にグラフィカルに表示されたキーボード)、入力構成要素345(例えば、キーボード344と組み合わせて利用でき、あるいはキーボード344と一緒に利用することができるマウス、トラックボール、ペンデバイス、などのポインティングデバイス)、および表示装置346を含むことができ、いくつかの場合には画像取得ユニット332(例えば、デジタルビデオカメラ、ALPRカメラ、など)も含むことができるデータ処理システム400の文脈において実現することができる。データ処理システム400は、例えば、クライアント−サーバネットワーク(例えば、無線および/または有線)によって周辺装置(図示されていない)と通信するクライアントコンピューティングデバイス(例えば、クライアントPC、ラップトップ、タブレットコンピュータ装置、など)であってよい。別の実施形態において、データ処理システムは、クライアント−サーバネットワークまたは他のサーバにもとづくネットワークの実現の文脈におけるサーバであってよい。
図示のとおり、データ処理システム400の種々の構成要素は、システムバス351または他の同様のアーキテクチャを通じて電子的に通信することができる。例えば、システムバス351は、例えばデータ処理システム400内のコンピュータ構成要素の間でデータを転送し、あるいは他のデータ処理装置、構成要素、コンピュータ、などへとデータを転送し、他のデータ処理装置、構成要素、コンピュータ、などからデータを転送するサブシステムであってよい。データ処理システム400を、例えばクライアント−サーバにもとづくネットワーク(例えば、インターネット)におけるサーバとして実現でき、あるいはクライアントおよびサーバの文脈(すなわち、各態様がクライアントおよびサーバ上で実施される)において実現することができる。データ処理システム400は、例えばスタンドアロンのデスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、パッド型コンピュータ装置、サーバ、などであってよい。
図3が、図2に示されるデータ処理システム400の動作を命令するためのコンピュータソフトウェアシステム450を示している。例えばメモリ342に格納されたソフトウェアアプリケーション454が、一般に、カーネルまたはオペレーティングシステム451と、シェルまたはインターフェイス453とを含む。ソフトウェアアプリケーション454などの1つ以上のアプリケーションプログラムを、データ処理システム400による実行のために「ロード」する(すなわち、例えばメモリ342または他のメモリ位置から転送する)ことができる。データ処理システム400は、インターフェイス453を介してユーザの指令およびデータを受け取ることができ、次いでこれらの入力に、オペレーティングシステム451および/またはソフトウェアアプリケーション454からのインストラクションに従ってデータ処理システム400が作用することができる。インターフェイス453は、いくつかの実施形態において、結果を表示するように機能することができ、それにもとづいて、ユーザは、さらなる入力をもたらすことができ、あるいはセッションを終わらせることができる。
ソフトウェアアプリケーション454は、例えば本明細書において説明されるインストラクションまたは演算などのインストラクションまたは演算を実行することができるモジュール452など、1つ以上のモジュールを含むことができる。モジュール452によって実行され得るインストラクションの例として、図1のブロック12、14、16、18、20に関して本明細書において図示および説明され、本明細書のどこかで説明される段階または演算などの段階または演算が挙げられる。モジュール452が、例えば図4に関して本明細書において説明されるモジュール232、234、236、238、および/または239などのサブモジュールで構成されてよいことに、注意すべきである。
以下の検討は、本システムおよび方法を実行することができる適切なコンピューティング環境の簡単な概要を提示することを意図している。必須ではないが、開示される実施形態は、単一のコンピュータによって実行されるプログラムモジュールなどのコンピュータにとって実行可能なインストラクションという全体的な文脈において説明される。多くの場合、図3に示したモジュール452などの「モジュール」が、ソフトウェアアプリケーションを構成する。しかしながら、モジュールを、例えば、電子および/またはコンピュータハードウェア、あるいはそのようなハードウェアとソフトウェアとの組み合わせで構成することもできる。いくつかの場合、「モジュール」は、データベースならびに/あるいはそのようなデータベースと相互作用する電子ハードウェアおよびソフトウィーを構成することもできる。
一般に、プログラムモジュールは、これらに限られるわけではないが、特定のタスクを実行し、あるいは特定の抽象データ型およびインストラクションを実装するルーチン、サブルーチン、ソフトウェアアプリケーション、プログラム、オブジェクト、コンポーネント、データ構造、などを含む。さらに、開示される方法およびシステムを、例えば携帯デバイス、マルチプロセッサシステム、データネットワーク、マイクロプロセッサ基盤またはプログラマブルな家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、サーバ、などといった他のコンピュータシステムの構成において実行できることを、当業者であれば理解できるであろう。
モジュールという用語が、本明細書において利用されるとき、特定のタスクを実行し、あるいは特定の抽象データ型を実装するルーチンおよびデータ構造の集合を指すことができることに、注意すべきである。モジュールを、2つの部分、すなわち他のモジュールまたはルーチンによるアクセスが可能な定数、データ型、変数、およびルーチンを載せるインターフェイスと、典型的には内部向け(そのモジュールにのみアクセス可能)であり、モジュール内にルーチンを実際に実装するソースコードを含んでいる実装部とで構成することができる。また、モジュールという用語は、単純に、文書処理、会計、在庫管理、などの特定のタスクの実行を助けるように設計されたコンピュータプログラムなどのアプリケーションを指すこともできる。このように、例えば図1に示され、本明細書のどこかで検討されるインストラクションまたは段階などのインストラクションまたは段階を、そのような1つ以上のモジュール、サブモジュール、などの文脈において実装することができる。
したがって、図2および3は、開示の実施形態の例として意図されており、構造的な限定として意図されているのではない。さらに、そのような実施形態は、いかなる特定の用途あるいはコンピューティングまたはデータ処理環境にも限定されない。むしろ、開示される手法を、種々のシステムおよびアプリケーションソフトウェアへと好都合に適用できることを、当業者であれば理解できるであろう。さらに、開示される実施形態を、例えばWindows、Macintosh、UNIX(登録商標)、LINUX、などといった種々の異なるコンピューティングプラットフォーム上で具現化することができる。
図4が、典型的な実施形態に従って実装することができるナンバープレート認識のためのシステム200のブロック図を示している。システム200は、一般に、ネットワーク220と直接(例えば、有線接続)または無線のいずれかで通信する画像取得ユニット108を含む。図4に示されるネットワーク220は、任意のネットワークトポロジ、伝送媒体、またはネットワークプロトコルを採用することができる。ネットワーク220は、配線、無線通信リンク、光ファイバケーブル、などの接続を含むことができる。ネットワーク220は、互いの通信に伝送制御プロトコル/インターネットプロトコル(TCP/IP)というプロトコル一式を使用するネットワークおよびゲートウェイの世界的な集合を代表するインターネットであってもよい。インターネットの中心には、データおよびメッセージを送る何千もの商業用、政府用、教育用、およびその他のコンピュータシステムからなる主要ノードまたはホストコンピュータ間の高速データ通信回線のバックボーンが存在する。
ネットワーク220(例えば、無線「Wi−Fi」ネットワーク、セルラー通信ネットワーク、インターネット、など)は、いくつかの実施形態においては図2および3に開示のようなデータ処理システム400であってよいALPRユニットと直接(例えば、有線接続)または無線通信のいずれかで通信することができる。ALPRユニットは、ALPRモジュール452を含むことができる。そのようなALPRモジュール452は、例えば、図2に示したメモリ342などのメモリに格納されてよく、例えばやはり図2に示したプロセッサ341などのプロセッサによって処理されてよい。
画像取得ユニット108は、例えば、ALPRカメラまたは他のデジタルビデオカメラであってよく、例えば車両205のナンバープレート211の画像210を取得することができる。画像210を、設計の考慮事項に応じて、切り出された画像または切り出しされていない画像としてALPRモジュール452へともたらすことができる。
図4に示した例では、画像210を、ALPRモジュール452による処理のために、ネットワーク220を介してALPRユニットへと送ることができる。ALPRモジュール452は、例えばニューラルネットワーク232(例えば、すでに説明したとおりのCNNまたは別の種類のニューラルネットワーク)およびそのようなニューラルネットワークを本明細書においてすでに説明したとおりに複数の学習用サンプルを利用して一般的なテキスト認識を実行すべく学習させるための学習モジュール234などの1つ以上のモジュール(または、サブモジュール)を含む。ALPRモジュール452は、ニューラルネットワークの反復的な学習および適応のための学習/適応モジュール236をさらに含むことができる。ALPRモジュール452は、テキストを認識してナンバープレート211に関するナンバープレートの書き写し240を生成するために、ニューラルネットワーク232をナンバープレート211の切り出された画像へと適用するための適用モジュール238も含むことができる。ナンバープレート211の画像210が、切り出しされていない画像としてALPRモジュール452へともたらされると仮定すると、そのような画像を、画像切り出しモジュール239をALPRモジュール452を介して利用することによって切り出し、次いでALPRモジュール452の他のモジュール232、234、236、および/または238によって処理することができる。
すでに示したとおり、学習の演算は、1回だけ(すなわち、学習時に)生じる。すなわち、最初にニューラルネットワーク232の学習が、まず一般的なテキストの例を使用し、次いでナンバープレート画像を使用して行われる。これらの演算は、1回だけ実行される。次いで、学習させられたニューラルネットワーク232を任意の数の切り出された新たなナンバープレートの画像へと適用して、ナンバープレートの書き写しを得ることができ、ニューラルネットワーク232をそのたびに再び学習させる必要はない。
画像切り出しモジュール239を実現するために利用することができる画像切り出し手法の例(ただし、これに限られるわけではない)が、Xerox Corporationへと譲渡されたRaja Bala等の2015年10月15日に公開された「Methods and Systems for Efficient Image Cropping and Analysis」という名称の米国特許出願公開第2015/0294175号に開示されていることに、注意すべきである。
以上にもとづき、いくつかの好ましい例および選択肢となる実施形態が本明細書に開示されることを、理解することができる。1つの典型的な実施形態においては、ナンバープレート認識のための方法が開示される。そのような方法は、ニューラルネットワークを生成する段階または論理演算と、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させる段階または論理演算と、ニューラルネットワークを繰り返し学習および適応させる段階または論理演算と、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する段階または論理演算とを含むことができる。好ましい典型的な実施形態において、上述のニューラルネットワーク232は、CNN(畳み込みニューラルネットワーク)であってよい。当然ながら、CNNの代わりに他の種類のニューラルネットワークを実装できることを、理解できるであろう。
別の典型的な実施形態においては、各段階または演算を、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するようにニューラルネットワークを適応させるために実行することができる。いくつかの典型的な実施形態において、ニューラルネットワークを反復的に学習および適応させる段階または論理演算は、ニューラルネットワークをファインチューニングすることによってニューラルネットワークを反復的に学習および適応させる段階または論理演算を含むことができる。別の典型的な実施形態において、ニューラルネットワークをファインチューニングする段階または論理演算は、ニューラルネットワークを反復的に学習および適応させるために粗から細への適応のカスケードを利用するための段階または論理演算を含むことができる。さらに別の典型的な実施形態においては、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するようにニューラルネットワークを適応させる段階または論理演算を提供することができる。
別の典型的な実施形態においては、ナンバープレート認識のためのシステムを実現することができる。そのようなシステムは、例えば、少なくとも1つのプロセッサと、コンピュータプログラムコードを包含するコンピュータにとって使用可能な媒体とを含むことができ、コンピュータにとって使用可能な媒体は、プロセッサ(または、複数のプロセッサ)と通信することができる。コンピュータプログラムコードは、プロセッサによる実行が可能であり、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させ、ニューラルネットワークを反復的に学習および適応させ、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成するように構成されたインストラクションを含むことができる。
さらに別の典型的な実施形態においては、ナンバープレート認識のためのプロセスを生じさせるためのインストラクションを表すコードを格納する非一時的なプロセッサにとって読み取り可能な媒体が実現される。そのようなコードは、例えば、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させ、ニューラルネットワークを反復的に学習および適応させ、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成するためのコードを含むことができる。

Claims (10)

  1. ナンバープレート認識のための方法であって、
    ニューラルネットワークを生成するステップと、
    複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させるステップと、
    前記ニューラルネットワークを反復的に学習および適応させるステップと、
    前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成するステップと
    を含む方法。
  2. 前記ニューラルネットワークは、CNN(畳み込みニューラルネットワーク)を含む、請求項1に記載の方法。
  3. ナンバープレート認識のためのシステムであって、
    少なくとも1つのプロセッサと、
    コンピュータプログラムコードを包含するコンピュータにとって使用可能な媒体と
    を備えており、
    前記コンピュータにとって使用可能な媒体は、前記少なくとも1つのプロセッサと通信することができ、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサによる実行が可能であり、
    ニューラルネットワークを生成し、
    複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させ、
    前記ニューラルネットワークを反復的に学習および適応させ、
    前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成する
    ように構成されたインストラクションを含んでいる、システム。
  4. 前記ニューラルネットワークは、CNN(畳み込みニューラルネットワーク)を含む、請求項3に記載のシステム。
  5. 前記インストラクションは、前記ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように前記ニューラルネットワークを適応させるようにさらに構成されている、請求項3に記載のシステム。
  6. 前記ニューラルネットワークを反復的に学習および適応させるための前記インストラクションは、前記ニューラルネットワークをファインチューニングすることによって前記ニューラルネットワークを反復的に学習および適応させるように構成されたインストラクションをさらに含む、請求項3に記載のシステム。
  7. ナンバープレート認識のためのプロセスを生じさせるためのインストラクションを表すコードを格納しているプロセッサにとって読み取り可能な媒体であって、前記コードは、
    ニューラルネットワークを生成し、
    複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させ、
    前記ニューラルネットワークを反復的に学習および適応させ、
    前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成する
    ためのコードを含んでいる、プロセッサにとって読み取り可能な媒体。
  8. 前記ニューラルネットワークは、CNN(畳み込みニューラルネットワーク)を含む、請求項7に記載のプロセッサにとって読み取り可能な媒体。
  9. 前記コードは、前記ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように前記ニューラルネットワークを適応させるためのコードをさらに含む、請求項7に記載のプロセッサにとって読み取り可能な媒体。
  10. 前記ニューラルネットワークを反復的に学習および適応させることは、前記ニューラルネットワークをファインチューニングすることによって前記ニューラルネットワークを反復的に学習および適応させることをさらに含む、請求項7に記載のプロセッサにとって読み取り可能な媒体。
JP2016233642A 2015-12-17 2016-11-30 畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応 Active JP6831682B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/972,481 2015-12-17
US14/972,481 US9785855B2 (en) 2015-12-17 2015-12-17 Coarse-to-fine cascade adaptations for license plate recognition with convolutional neural networks

Publications (2)

Publication Number Publication Date
JP2017111806A true JP2017111806A (ja) 2017-06-22
JP6831682B2 JP6831682B2 (ja) 2021-02-17

Family

ID=57530519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016233642A Active JP6831682B2 (ja) 2015-12-17 2016-11-30 畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応

Country Status (3)

Country Link
US (1) US9785855B2 (ja)
EP (1) EP3182334B1 (ja)
JP (1) JP6831682B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008556A1 (ja) * 2018-07-04 2020-01-09 三菱重工機械システム株式会社 車両ナンバー特定装置、車両ナンバー特定方法およびプログラム
KR20200119384A (ko) * 2019-03-26 2020-10-20 (주)아이에스인텍 차량 번호판을 실시간으로 인식하는 장치 및 방법
WO2021100483A1 (ja) 2019-11-21 2021-05-27 オムロン株式会社 モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム
WO2021100482A1 (ja) 2019-11-21 2021-05-27 オムロン株式会社 モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9990564B2 (en) * 2016-03-29 2018-06-05 Wipro Limited System and method for optical character recognition
US10043240B2 (en) * 2016-04-14 2018-08-07 Microsoft Technology Licensing, Llc Optimal cropping of digital image based on professionalism score of subject
US10043254B2 (en) 2016-04-14 2018-08-07 Microsoft Technology Licensing, Llc Optimal image transformation based on professionalism score of subject
US9904871B2 (en) 2016-04-14 2018-02-27 Microsoft Technologies Licensing, LLC Deep convolutional neural network prediction of image professionalism
US11475276B1 (en) 2016-11-07 2022-10-18 Apple Inc. Generating more realistic synthetic data with adversarial nets
TWI607387B (zh) * 2016-11-25 2017-12-01 財團法人工業技術研究院 字符辨識系統及其字符辨識方法
US10984289B2 (en) * 2016-12-23 2021-04-20 Shenzhen Institute Of Advanced Technology License plate recognition method, device thereof, and user equipment
CN108664957B (zh) * 2017-03-31 2021-08-24 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN107273832B (zh) * 2017-06-06 2020-09-22 青海省交通科学研究院 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN107563385B (zh) * 2017-09-02 2019-10-25 西安电子科技大学 基于深度卷积生成式对抗网络的车牌字符识别方法
CN108108746B (zh) * 2017-09-13 2021-04-09 湖南理工学院 基于Caffe深度学习框架的车牌字符识别方法
CN107704857B (zh) * 2017-09-25 2020-07-24 北京邮电大学 一种端到端的轻量级车牌识别方法及装置
US10922426B2 (en) 2017-09-29 2021-02-16 Dropbox, Inc. Managing content item collections
US10592595B2 (en) 2017-09-29 2020-03-17 Dropbox, Inc. Maintaining multiple versions of a collection of content items
WO2019066641A2 (en) * 2017-09-29 2019-04-04 Mimos Berhad SYSTEM AND METHOD FOR RECOGNITION OF PLATE OF REGISTRATION
US11222162B2 (en) 2017-09-29 2022-01-11 Dropbox, Inc. Managing content item collections
CN107506765B (zh) * 2017-10-13 2020-09-01 厦门大学 一种基于神经网络的车牌倾斜校正的方法
US11038973B2 (en) 2017-10-19 2021-06-15 Dropbox, Inc. Contact event feeds and activity updates
CN107944450B (zh) * 2017-11-16 2020-04-24 深圳市华尊科技股份有限公司 一种车牌识别方法及装置
CN107886082B (zh) * 2017-11-24 2023-07-04 腾讯科技(深圳)有限公司 图像中数学公式检测方法、装置、计算机设备及存储介质
FR3076378B1 (fr) * 2017-12-29 2020-05-29 Bull Sas Procede de formation d'un reseau de neurones pour la reconnaissance d'une sequence de caracteres et procede de reconnaissance associe
US11030466B2 (en) 2018-02-11 2021-06-08 Nortek Security & Control Llc License plate detection and recognition system
RU2716322C2 (ru) * 2018-03-23 2020-03-11 Общество с ограниченной ответственностью "Аби Продакшн" Репродуцирующая аугментация данных изображения
CN108509912B (zh) * 2018-04-03 2021-09-28 深圳市智绘科技有限公司 多路网络视频流车牌识别方法及系统
US10783400B2 (en) 2018-04-06 2020-09-22 Dropbox, Inc. Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
CN110490179B (zh) * 2018-05-15 2022-08-05 杭州海康威视数字技术股份有限公司 车牌识别方法、装置及存储介质
KR102184755B1 (ko) * 2018-05-31 2020-11-30 서울대학교 산학협력단 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법
LT3599572T (lt) * 2018-07-27 2021-12-27 JENOPTIK Traffic Solutions UK Ltd Transporto priemonės valstybinių numerių atpažinimo būdas ir prietaisas
US10740643B2 (en) * 2018-08-28 2020-08-11 Sony Corporation Automatic license plate recognition based on augmented datasets
JP2020046858A (ja) * 2018-09-18 2020-03-26 ソニーセミコンダクタソリューションズ株式会社 情報処理方法、プログラム、および情報処理システム
TWI677826B (zh) * 2018-09-19 2019-11-21 國家中山科學研究院 車牌辨識系統與方法
CN111027555B (zh) * 2018-10-09 2023-09-26 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN109447069A (zh) * 2018-10-31 2019-03-08 沈阳工业大学 面向智能终端的车辆信息采集识别方法及系统
EP3884478A4 (en) * 2018-11-20 2022-07-20 Laser Technology, Inc. HAND-HELD LASER-BASED VEHICLE SPEED DETECTION DEVICE WITH AUTOMATIC NUMBER PLATE RECOGNITION (ANPR)
RU2697613C9 (ru) * 2018-11-20 2022-04-15 Хуавей Текнолоджис Ко., Лтд. Способ распознавания объектов с помощью нейронных сетей
CN109657596A (zh) * 2018-12-12 2019-04-19 天津卡达克数据有限公司 一种基于深度学习的车辆外观部件识别方法
CN109977941A (zh) * 2018-12-21 2019-07-05 北京融链科技有限公司 车牌识别方法及装置
CN110210475B (zh) * 2019-05-06 2021-05-18 浙江大学 一种非二值化和边缘检测的车牌字符图像分割方法
US11164028B2 (en) * 2019-06-18 2021-11-02 Nortek Security & Control Llc License plate detection system
CN110399800B (zh) * 2019-06-28 2021-05-07 智慧眼科技股份有限公司 基于深度学习vgg16框架的车牌检测方法及系统、存储介质
CN110414507B (zh) * 2019-07-11 2022-07-26 深圳智优停科技有限公司 车牌识别方法、装置、计算机设备和存储介质
US11635893B2 (en) 2019-08-12 2023-04-25 Micron Technology, Inc. Communications between processors and storage devices in automotive predictive maintenance implemented via artificial neural networks
US11586194B2 (en) 2019-08-12 2023-02-21 Micron Technology, Inc. Storage and access of neural network models of automotive predictive maintenance
US11586943B2 (en) 2019-08-12 2023-02-21 Micron Technology, Inc. Storage and access of neural network inputs in automotive predictive maintenance
US11853863B2 (en) 2019-08-12 2023-12-26 Micron Technology, Inc. Predictive maintenance of automotive tires
US11748626B2 (en) 2019-08-12 2023-09-05 Micron Technology, Inc. Storage devices with neural network accelerators for automotive predictive maintenance
US11775816B2 (en) 2019-08-12 2023-10-03 Micron Technology, Inc. Storage and access of neural network outputs in automotive predictive maintenance
US11361552B2 (en) * 2019-08-21 2022-06-14 Micron Technology, Inc. Security operations of parked vehicles
US11042350B2 (en) 2019-08-21 2021-06-22 Micron Technology, Inc. Intelligent audio control in vehicles
US11498388B2 (en) 2019-08-21 2022-11-15 Micron Technology, Inc. Intelligent climate control in vehicles
US11702086B2 (en) 2019-08-21 2023-07-18 Micron Technology, Inc. Intelligent recording of errant vehicle behaviors
US10993647B2 (en) 2019-08-21 2021-05-04 Micron Technology, Inc. Drowsiness detection for vehicle control
US11650746B2 (en) 2019-09-05 2023-05-16 Micron Technology, Inc. Intelligent write-amplification reduction for data storage devices configured on autonomous vehicles
US11693562B2 (en) 2019-09-05 2023-07-04 Micron Technology, Inc. Bandwidth optimization for different types of operations scheduled in a data storage device
US11409654B2 (en) 2019-09-05 2022-08-09 Micron Technology, Inc. Intelligent optimization of caching operations in a data storage device
US11436076B2 (en) 2019-09-05 2022-09-06 Micron Technology, Inc. Predictive management of failing portions in a data storage device
US11435946B2 (en) 2019-09-05 2022-09-06 Micron Technology, Inc. Intelligent wear leveling with reduced write-amplification for data storage devices configured on autonomous vehicles
EP3798897A1 (en) * 2019-09-30 2021-03-31 JENOPTIK Traffic Solutions UK Ltd Methods for artificial neural networks
CN110688999B (zh) * 2019-10-08 2020-08-28 合肥海诺恒信息科技有限公司 马赫带效应模拟的点光源金属钢印文字检测方法
CN112926610A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 车牌图像筛选模型的构建方法与车牌图像筛选方法
US11250648B2 (en) 2019-12-18 2022-02-15 Micron Technology, Inc. Predictive maintenance of automotive transmission
CN111160353A (zh) * 2019-12-27 2020-05-15 广州亚信技术有限公司 车牌识别方法、装置及设备
US11481691B2 (en) 2020-01-16 2022-10-25 Hyper Labs, Inc. Machine learning-based text recognition system with fine-tuning model
US11531339B2 (en) 2020-02-14 2022-12-20 Micron Technology, Inc. Monitoring of drive by wire sensors in vehicles
US11709625B2 (en) 2020-02-14 2023-07-25 Micron Technology, Inc. Optimization of power usage of data storage devices
US11704804B2 (en) 2020-04-02 2023-07-18 GE Precision Healthcare LLC Domain adaptation using post-processing model correction
CN111507337A (zh) * 2020-04-10 2020-08-07 河海大学 基于混合神经网络的车牌识别方法
CN111800604A (zh) * 2020-06-12 2020-10-20 深圳英飞拓科技股份有限公司 基于枪球联动检测人形和人脸数据的方法及装置
CN111800605A (zh) * 2020-06-15 2020-10-20 深圳英飞拓科技股份有限公司 基于枪球联动的车形、车牌传输的方法及系统、设备
US11176362B1 (en) 2020-06-24 2021-11-16 Bank Of America Corporation System for character recognition in a digital image processing environment
CN111898497B (zh) * 2020-07-16 2024-05-10 济南博观智能科技有限公司 一种车牌检测的方法、系统、设备及可读存储介质
TWI790471B (zh) * 2020-08-26 2023-01-21 財團法人工業技術研究院 基於深度學習的影像校正方法及系統
CN112200193B (zh) * 2020-12-03 2021-03-16 中国科学院自动化研究所 基于多属性融合的分布式车牌识别方法、系统、装置
CN112669219A (zh) * 2021-01-21 2021-04-16 深圳市爱培科技术股份有限公司 一种立体360度全景图像拼接方法及装置
CN112906643A (zh) * 2021-03-22 2021-06-04 高新兴科技集团股份有限公司 车牌号码识别方法及装置
CN113052174B (zh) * 2021-03-26 2023-08-11 北京百度网讯科技有限公司 车牌数据样本生成方法、装置、电子设备和存储介质
US20220351525A1 (en) * 2021-04-28 2022-11-03 Hayden Al Technologies, Inc. Systems and methods for enforcing traffic congestion pricing
CN114913515B (zh) * 2021-12-31 2024-04-02 北方工业大学 端到端的车牌识别网络构建方法
CN115050028B (zh) * 2022-06-15 2024-03-29 松立控股集团股份有限公司 一种恶劣天气下小样本车牌检测方法
US11842551B1 (en) 2023-02-07 2023-12-12 DCX Innovations sp. z.o.o. System and methods for automatically detecting objects of interest and determining their geographic positions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205284A (ja) * 1990-11-30 1992-07-27 Fuji Electric Co Ltd ナンバープレート認識装置
JPH09231079A (ja) * 1996-02-28 1997-09-05 Hitachi Ltd ファジィ推論システムおよびファジィルール構築システム
US6564198B1 (en) * 2000-02-16 2003-05-13 Hrl Laboratories, Llc Fuzzy expert system for interpretable rule extraction from neural networks
US20100054539A1 (en) * 2006-09-01 2010-03-04 Sensen Networks Pty Ltd Method and system of identifying one or more features represented in a plurality of sensor acquired data sets

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038337A (en) 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US7016529B2 (en) 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US7747070B2 (en) 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
US8704889B2 (en) 2010-03-16 2014-04-22 Hi-Tech Solutions Ltd. Method and apparatus for acquiring images of car license plates
US9092979B2 (en) 2010-12-14 2015-07-28 Xerox Corporation Automated license plate recognition system and method using human-in-the-loop based adaptive learning
US9008429B2 (en) 2013-02-01 2015-04-14 Xerox Corporation Label-embedding for text recognition
CN104346622A (zh) 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
US9412031B2 (en) 2013-10-16 2016-08-09 Xerox Corporation Delayed vehicle identification for privacy enforcement
US9569681B2 (en) 2014-04-10 2017-02-14 Xerox Corporation Methods and systems for efficient image cropping and analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205284A (ja) * 1990-11-30 1992-07-27 Fuji Electric Co Ltd ナンバープレート認識装置
JPH09231079A (ja) * 1996-02-28 1997-09-05 Hitachi Ltd ファジィ推論システムおよびファジィルール構築システム
US6564198B1 (en) * 2000-02-16 2003-05-13 Hrl Laboratories, Llc Fuzzy expert system for interpretable rule extraction from neural networks
US20100054539A1 (en) * 2006-09-01 2010-03-04 Sensen Networks Pty Ltd Method and system of identifying one or more features represented in a plurality of sensor acquired data sets

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008556A1 (ja) * 2018-07-04 2020-01-09 三菱重工機械システム株式会社 車両ナンバー特定装置、車両ナンバー特定方法およびプログラム
GB2589766A (en) * 2018-07-04 2021-06-09 Mitsubishi Heavy Ind Mach Systems Ltd Vehicle number identification device, vehicle number identification method, and program
JPWO2020008556A1 (ja) * 2018-07-04 2021-07-15 三菱重工機械システム株式会社 車両ナンバー特定装置、車両ナンバー特定方法およびプログラム
JP7025546B2 (ja) 2018-07-04 2022-02-24 三菱重工機械システム株式会社 車両ナンバー特定装置、車両ナンバー特定方法およびプログラム
KR20200119384A (ko) * 2019-03-26 2020-10-20 (주)아이에스인텍 차량 번호판을 실시간으로 인식하는 장치 및 방법
KR102234936B1 (ko) * 2019-03-26 2021-04-01 (주)아이에스인텍 차량 번호판을 실시간으로 인식하는 장치 및 방법
WO2021100483A1 (ja) 2019-11-21 2021-05-27 オムロン株式会社 モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム
WO2021100482A1 (ja) 2019-11-21 2021-05-27 オムロン株式会社 モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム

Also Published As

Publication number Publication date
EP3182334A1 (en) 2017-06-21
JP6831682B2 (ja) 2021-02-17
EP3182334B1 (en) 2024-01-24
EP3182334C0 (en) 2024-01-24
US20170177965A1 (en) 2017-06-22
US9785855B2 (en) 2017-10-10

Similar Documents

Publication Publication Date Title
JP6831682B2 (ja) 畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応
JP7193252B2 (ja) 画像の領域のキャプション付加
Goodfellow et al. Multi-digit number recognition from street view imagery using deep convolutional neural networks
US20120263352A1 (en) Methods and systems for verifying automatic license plate recognition results
US9002066B2 (en) Methods, systems and processor-readable media for designing a license plate overlay decal having infrared annotation marks
US20160140425A1 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
WO2023015922A1 (zh) 图像识别模型的训练方法、装置、设备及存储介质
CN111275107A (zh) 一种基于迁移学习的多标签场景图像分类方法及装置
WO2023160472A1 (zh) 一种模型训练方法及相关设备
JP2018534712A (ja) 単一ビューオブジェクト再構成のためのファイングレインデータセットにおける教師なしマッチング
US20220092407A1 (en) Transfer learning with machine learning systems
US20220327816A1 (en) System for training machine learning model which recognizes characters of text images
DE102022107186A1 (de) Generatorausnutzung zur deepfake-detektion
US11182415B2 (en) Vectorization of documents
Zhang et al. Position-augmented transformers with entity-aligned mesh for textvqa
EP3882817A2 (en) Method, apparatus and device for recognizing bill and storage medium
US11321397B2 (en) Composition engine for analytical models
CN117523593B (zh) 患者病历数据处理方法及系统
CN116721713B (zh) 一种面向化学结构式识别的数据集构建方法和装置
KR102445932B1 (ko) 지식 증류 기반의 멀티모달 매핑 정보를 활용한 이미지 생성 기법
Li et al. Multi-scale cross-modal spatial attention fusion for multi-label image recognition
CN115082761A (zh) 模型产生装置及方法
US20220230425A1 (en) Object discovery in images through categorizing object parts
KR20120062168A (ko) 부분 궤적 인식 장치 및 방법
Wang et al. Text recognition in uav aerial images

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170302

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210129

R150 Certificate of patent or registration of utility model

Ref document number: 6831682

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150