JP2021119506A - ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置 - Google Patents

ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置 Download PDF

Info

Publication number
JP2021119506A
JP2021119506A JP2021076270A JP2021076270A JP2021119506A JP 2021119506 A JP2021119506 A JP 2021119506A JP 2021076270 A JP2021076270 A JP 2021076270A JP 2021076270 A JP2021076270 A JP 2021076270A JP 2021119506 A JP2021119506 A JP 2021119506A
Authority
JP
Japan
Prior art keywords
license plate
code
feature
decoding
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021076270A
Other languages
English (en)
Other versions
JP7166388B2 (ja
Inventor
ニ,シハン
Zihan Ni
ソン,イーペン
Yipeng Sun
ハン,ジュンウ
Junyu Han
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021119506A publication Critical patent/JP2021119506A/ja
Application granted granted Critical
Publication of JP7166388B2 publication Critical patent/JP7166388B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1823Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】ナンバープレート認識の精度を大幅に向上させる方法、装置、記憶媒体及びプログラムを提供する。【解決手段】ナンバープレート認識方法hが、ナンバープレート領域の特徴マップの複数の特徴ベクトルを取得することにより、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得する。【選択図】図1

Description

本出願は、人工知能、コンピュータビジョン及び深層学習技術の分野に関し、具体的には画像認識技術の分野に関し、特に、ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置に関する。
ナンバープレート認識は、都市車両管理の重要な技術の一つであり、様々な複雑なシーンでのナンバープレートの正確、且つ迅速な認識は、交通法執行、駐車場管理、及び道路通行の効率を効果的に向上させることができる。
現在、ナンバープレート認識技術は、検問所、道路監視などのシーンでほぼ成熟しているが、2行ナンバープレートや中国語文字などの複雑なシーンでの認識精度は、未だ理想的ではない。
本出願は、ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法、装置、電子機器及び記憶媒体を提供する。
第1態様では、本出願第1の実施例は、ナンバープレート領域の特徴マップを取得するステップであって、前記特徴マップには複数の特徴ベクトルが含まれるステップと、前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得するステップと、前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得するステップと、各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成するステップと、複数の前記ターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するステップと、を含むナンバープレート認識方法を提供する。
第2態様では、本出願の第2実施例は、複数の訓練画像を取得するステップと、前記複数の訓練画像を用いてナンバープレート認識モデルを訓練するステップであって、前記ナンバープレート認識モデルは、特徴抽出ネットワークと認識ネットワークとを含むステップと、を含み、前記特徴抽出ネットワークは、ナンバープレート領域の特徴マップを取得するように構成され、前記特徴マップには複数の特徴ベクトルが含まれ、前記認識ネットワークは、前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得し、前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得し、各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成し、複数の前記ターゲットコードをデコードしてナンバープレート内の複数の文字を取得するように構成されるナンバープレート認識モデルの訓練方法を提供する。
第3の態様では、本出願の実施例は、ナンバープレート領域の特徴マップを取得するように構成される取得モジュールであって、前記特徴マップには複数の特徴ベクトルが含まれる取得モジュールと、前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得するように構成される第1エンコードモジュールと、前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得するように構成される第2エンコードモジュールと、各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成するように構成される生成モジュールと、複数の前記ターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するように構成されるデコードモジュールと、を含むナンバープレート認識装置を提供する。
第4の態様では、本出願の実施例は、複数の訓練画像を取得するように構成される取得モジュールと、前記複数の訓練画像を用いてナンバープレート認識モデルを訓練するように構成される訓練モジュールであって、前記ナンバープレート認識モデルは、特徴抽出ネットワークと認識ネットワークとを含む訓練モジュールと、を含み、前記特徴抽出ネットワークは、ナンバープレート領域の特徴マップを取得するように構成され、前記特徴マップには複数の特徴ベクトルが含まれ、前記認識ネットワークは、前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得し、前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得し、各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成し、複数の前記ターゲットコードをデコードしてナンバープレート内の複数の文字を取得するように構成されるナンバープレート認識モデルの訓練装置を提供する。
第5の態様では、本出願の実施例は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが第1態様に記載のナンバープレート認識方法、又は、第2態様に記載のナンバープレート認識モデルの訓練方法を実行可能である電子機器を提供する。
第6の態様では、本出願の実施例は、コンピュータ命令が記憶された非一時的コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに第1態様に記載のナンバープレート認識方法、又は、第2態様に記載のナンバープレート認識モデルの訓練方法を実行させる非一時的コンピュータ読み取り可能な記憶媒体を提供する。
第7の態様では、本出願の実施例は、コンピュータに第1態様に記載のナンバープレート認識方法、又は、第2態様に記載のナンバープレート認識モデルの訓練方法を実行させるコンピュータプログラムを提供する。
出願の上記の一実施例は、以下の利点又は有益な効果を有する。ナンバープレート領域の特徴マップを取得し、特徴マップには複数の特徴ベクトルが含まれ、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得する。この方法では、抽出されたナンバープレート領域の特徴マップに含まれる複数の特徴ベクトルを、それぞれリカレントニューラルネットワークを用いて正逆方向にエンコードすることで、エンコードされた特徴にはコンテキスト情報が含まれるようになり、ナンバープレート認識の精度が大幅に向上する。
この部分に記載された内容は、本出願の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本出願の範囲を限定するものでもないことを理解されたい。本出願の他の特徴は、以下の説明を通じて容易に理解される。
図面は、本解決的手段をより良く理解するために使用され、本出願を制限するものではない。
本出願の実施例1に係るナンバープレート認識方法の概略フローチャートである。 本出願の実施例2に係るナンバープレート認識方法の概略フローチャートである。 本出願の実施例に係るデコードプロセスのサブフローの概略図である。 本出願の実施例3に係る特徴マップを取得するためのサブフローの概略図である。 本出願の実施例4に係るナンバープレート認識モデルの訓練方法の概略フローチャートである。 本出願の実施例5に係るサンプル画像を取得するためのサブフローの概略図である。 本出願の実施例6に係るナンバープレート認識装置の概略構成図である。 本出願の実施例7に係るナンバープレート認識モデルの訓練装置の概略構成図である。 本出願の実施例に係る電子機器の概略構成図である。
本出願の例示的な実施例について、図面を参照しながら以下に説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更及び修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
従来のナンバープレート認識システムは、一般に、エッジ検出、輪郭抽出などの方法でナンバープレートを位置決めしてから、ナンバープレートの四隅の点の位置に基づいて補正を行い、続いてMSERなどの方法を用いて単一の文字の検出を行い、単一の文字領域ごとにSVMなどの分類器を用いて分類を行い、最終的にすべての単一の文字の認識結果を統合してナンバープレート番号を取得する。
ただし、従来のナンバープレートのエンドツーエンドシステムは、ニューラルネットワークに基づくコネクショニスト時系列分類モデル(Connectionist Temporal Classification,CTC)を用いてナンバープレート認識を行い、1行ナンバープレートしか処理できないため、行分割する方式で複数行文字のナンバープレート認識を行うことが多い。2行ナンバープレートを認識する時に、コンテキスト情報を利用することができなため、特徴表現力が限られ、ナンバープレートの認識効果が不十分となる。
上記の従来のナンバープレート認識技術に存在する技術的問題に対し、本出願は、ナンバープレート領域の特徴マップを取得するステップであって、特徴マップには複数の特徴ベクトルが含まれるステップと、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得するステップと、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得するステップと、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成するステップと、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するステップと、を含むナンバープレート認識方法を提供する。抽出されたナンバープレート領域の特徴を、リカレントニューラルネットワークを用いて正逆方向にエンコードすることで、特徴コードにはコンテキスト情報含まれるようになり、特徴表現力が向上し、複数種類のナンバープレートをより正確に認識することができ、ナンバープレート認識効果を最適化することができる。
以下、本出願の実施例に係るナンバープレート認識方法、ナンバープレート認識モデルの訓練方法、装置、電子機器及び記憶媒体について、図面を参照しながら説明する。
図1は、本出願の実施例1に係るナンバープレート認識方法の概略フローチャート図である。
本出願の実施例は、このナンバープレート認識方法がナンバープレート認識装置に配置されたことを例にして説明するが、このナンバープレート認識装置は、任意の電子機器に適用することができ、これにより、この電子機器がナンバープレート認識機能を実行することができる。
電子機器は、パーソナルコンピュータ(Personal Computer、PCと略称する)、クラウド機器、モバイル機器などであってもよく、モバイル機器は、例えば、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアラブル機器、車載機器などの各種のオペレーティングシステムを有するハードウェア機器であってもよい。
図1に示すように、このナンバープレート認識方法は、以下のステップ101〜ステップ105と、を含んでもよい。
ステップ101において、ナンバープレート領域の特徴マップを取得する。
特徴マップには複数の特徴ベクトルが含まれる。
例えば、ナンバープレート領域の特徴マップには、ナンバープレートの色特徴、テクスチャ特徴、形状特徴、空間関係特徴などが含まれてもよい。
本出願の実施例では、撮影機器を用いてナンバープレートを撮影し、ナンバープレート領域を含むナンバープレート画像を取得した後、畳み込みニューラルネットワークモデルによりナンバープレート画像の特徴マップを抽出し、ナンバープレート画像の特徴マップからナンバープレート領域の特徴マップを決定することができる。
なお、ナンバープレート画像を取得する際、通常の撮影機器を用いてナンバープレートを撮影して、ナンバープレート領域を含む2次元画像を取得してもよいし、深度カメラを用いてナンバープレートを撮影して、ナンバープレート領域を含む3次元画像を取得してもよいが、ここでは限定されない。
例えば、畳み込みニューラルネットワークは、畳み込み層とプーリング層とを含み、畳み込み層によりナンバープレート画像の特徴抽出を行って、ナンバープレート画像の特徴マップを取得し、ナンバープレート画像の特徴マップからナンバープレート領域の特徴マップを決定することができる。
ナンバープレート認識のスピードを制御するために、畳み込みニューラルネットワークに入力されたナンバープレート画像は、例えば512*512などの特定のサイズにスケーリングすることができる。しかし、小さいサイズのナンバープレートのナンバープレート画像におけるサイズがより小さいため小さいサイズのナンバープレートの認識効果が悪い。1つの可能な場合では、ナンバープレート画像の特徴抽出を行う時に、特徴抽出の範囲を適宜拡大して、ナンバープレート領域の特徴マップを得てもよい。
例えば、小さいサイズのナンバープレート領域の外接矩形を取得した後、幅又は高さを外側に0.5倍適宜拡張し、小さいサイズのナンバープレート領域の特徴抽出範囲を拡大することで、小さいサイズのナンバープレート領域の特徴マップを得てもよい。
2行ナンバープレートの国家標準サイズは220*440であるので、分岐の認識にかかる時間を均一にし、且つ十分な特徴を確保するために、本出願では、8*16をナンバープレート領域の特徴マップのサイズとして選択することができる。
ステップ102において、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得する。
ステップ103において、複数の特徴ベクトルを、第2順序で順次第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得する。
リカレントニューラルネットワーク(Recurrent Neural Network,RNN)は、シーケンスデータを入力として、シーケンスの進化方向に再帰を行い、且つ全てのノードがチェーンで接続される再帰型ニューラルネットワークである。
区別を容易にするために、本出願では、複数の特徴ベクトルを第1順序で順次エンコードするリカレントニューラルネットワークを第1リカレントニューラルネットワークと呼び、複数の特徴ベクトルを第2順序で順次エンコードするリカレントニューラルネットワークを第2リカレントニューラルネットワークと呼ぶ。当然ながら、他の命名方式も可能であり、本出願では単に例示的な表現とする。
同様に、区別を容易にするために、本出願では、各特徴ベクトルを第1リカレントニューラルネットワークに入力してエンコードし、エンコードされた特徴ベクトルを第1コードと呼び、各特徴ベクトルを第2リカレントニューラルネットワークに入力してエンコードし、エンコードされた特徴ベクトルを第2コードと呼ぶ。当然ながら、他の命名方式も可能であり、本出願では単に例示的な表現とする。
本出願では、ナンバープレート領域の特徴マップに含まれる複数の特徴ベクトルを取得した後、複数の特徴ベクトルを第1順序で第1リカレントニューラルネットワークに順次入力してエンコードし、第1リカレントニューラルネットワークのエンコード結果に基づいて、各特徴ベクトルの第1コードを取得することができる。さらに、複数の特徴ベクトルを第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得することができる。
なお、第1順序は、左から右への正方向順序であってもよいし、右から左への逆方向順序であってもよい。すなわち、複数の特徴ベクトルを左から右へ第1リカレントニューラルネットワークに順次入力してエンコードしてもよいし、複数の特徴ベクトルを右から左へ第1リカレントニューラルネットワークに順次入力してエンコードしてもよく、本出願ではこれについて限定しない。
同様に、第2順序は、左から右への正方向順序であってもよいし、右から左への逆方向順序であってもよく、本出願ではこれについて限定しない。本出願では、第1順序と第2順序を逆の順序とすることを必要とし、例えば、第1順序が左から右への正方向順序である場合、第2順序は右から左への逆方向順序である。すなわち、第1リカレントニューラルネットワークが複数の特徴ベクトルを正方向にエンコードする場合、第2リカレントニューラルネットワークは複数の特徴ベクトルを逆方向にエンコードする。
なお、上記のステップ102とステップ103は、上記の順序で実行することに限定されず、ステップ103を先に実行してからステップ102を実行してもよいし、又は、ステップ102とステップ103を同時に実行してもよい。本出願では、ステップ102とステップ103の実行順序について限定しない。
ステップ104において、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成する。
ターゲットコードは、各特徴ベクトルをエンコードすることによって最終的に得られたエンコード結果であってもよい。
可能な一実現形態として、各特徴ベクトルの第1コード及び第2コードを得た後、各特徴ベクトルに対応する第1コードと第2コードとの接続関係により、各特徴ベクトルの第1コード及び第2コードを組み合わせて、各特徴ベクトルのターゲットコードを生成することができる。
なお、ナンバープレート画像と画像内の文字は、順序のあるシーケンスに対応し、2つの方向の情報はいずれも有用な情報であることが理解されたい。本出願では、ナンバープレート領域の特徴マップには含まれる複数の特徴ベクトルを、それぞれリカレントニューラルネットワークを用いて正逆方向にエンコードすることで、各特徴に対応するターゲットコードにはコンテキスト情報が含まれるようになり、より有用な情報を抽出することができる。
ステップ105において、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得する。
ナンバープレート内の複数の文字は、中国語、数字及びアルファベットの任意の組み合わせであってもよい。また、複数の文字は、1行に配列されてもよいし、2行に配列されてもよく、ここでは限定しない。
本出願の実施例では、複数の特徴ベクトルの複数のターゲットコードを取得した後、複数のターゲットコードをデコードして、デコード結果に基づいてナンバープレート内の複数の文字を決定することができる。
可能な一実現形態として、複数の特徴ベクトルをエンコードして複数のターゲットコードを取得した後、複数のターゲットコードをリカレントニューラルネットワークに入力してデコードして、複数のデコードベクトルを得てもよい。さらに、複数のデコードベクトルに基づいて、ナンバープレート内の複数の文字を決定する。
本出願の実施例のナンバープレート認識方法は、ナンバープレート領域の特徴マップを取得し、特徴マップには複数の特徴ベクトルが含まれ、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得する。この方法では、抽出されたナンバープレート領域の特徴マップに含まれる複数の特徴ベクトルを、それぞれリカレントニューラルネットワークを用いて正逆方向にエンコードすることで、エンコードされた特徴にはコンテキスト情報が含まれるようになり、ナンバープレート認識の精度が大幅に向上する。
上記の実施例を基にして、1つの可能な場合では、各特徴ベクトルの第1コード及び第2コードを取得した後、各特徴ベクトルの第1コードと第2コードをスプライスして複数のターゲットコードを取得し、ターゲットコードをデコードしてナンバープレート内の複数の文字を得てもよい。次に、図2を参照して、上記の過程を詳しく説明し、図2は、本出願の実施例2に係るナンバープレート認識方法の概略フローチャート図である。
図2に示すように、このナンバープレート認識方法は、以下のステップ201〜ステップ206と、をさらに含んでもよい。
ステップ201において、ナンバープレート領域の特徴マップを取得する。
ステップ202において、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得する。
ステップ203において、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得する。
本出願の実施例では、ステップ201〜ステップ203の実現過程は、上記の実施例におけるステップ101〜ステップ103の実現過程を参照してもよく、ここでその説明が省略される。
なお、上記のステップ202とステップ203は、上記の順序で実行することに限定されず、ステップ203を先に実行してからステップ202を実行してもよいし、又は、ステップ202とステップ203を同時に実行してもよい。本出願では、ステップ202とステップ203の実行順序について限定しない。
ステップ204において、特徴ベクトルごとに、第1コードと第2コードとをスプライスして、複数のターゲットコードを取得する。
本出願の実施例では、複数の特徴ベクトルを、第1リカレントニューラルネットワーク及び第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コード及び第2コードを取得した後、各特徴ベクトルの第1コードと第2コードとをスプライスして、対応するターゲットコードを取得することができる。これにより、コンテキストを含む意味情報を取得することができる。
例えば、ナンバープレート領域の特徴マップAに複数の特徴ベクトルAi,jが含まれ、ここで、i、jは特徴マップの各点の座標を表す。第1リカレントニューラルネットワーク及び第2リカレントニューラルネットワークをそれぞれ用いて複数の特徴ベクトルAi,jをエンコードして、第1コードFi,j及び第2コードBi,jを取得し、第1コードFi,j及び第2コードBi,jを位置ごとにスプライスして、ターゲットコードを取得する。第1コードFi,j及び第2コードBi,jのサイズはいずれもC*H*Wであり、すなわち、各位置はC次元ベクトルであり、したがって、位置ごとにスプライスすることは、H*W内の位置ごとに2つの特徴マップのC次元ベクトルをスプライスすることであり、最終的に得されたターゲットコードは、2C*H*Wの特徴マップである。
ステップ205において、複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードして、複数のデコードベクトルを取得する。
本出願の実施例では、複数のターゲットコードをデコードする際に、リカレントニューラルネットワークを用いてもよく、エンコードに用いられるリカレントニューラルネットワークと区別するために、本実施例では、複数のターゲットコードをデコードするリカレントニューラルネットワークを第3のリカレントニューラルネットワークと呼ぶ。
可能な一実現形態として、第3のリカレントニューラルネットワークを用いて、複数のターゲットコードを順次デコードする際に、デコードプロセスを複数回実行してもよい。図3を参照すると、各回のデコードプロセスは、以下のサブステップ2051〜サブステップ2054、を含んでもよい。
サブステップ2051において、今回のデコードのターゲットコードを取得する。
複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードする際に、各回のエンコードは、いずれも対応するターゲットコードを有することが理解されたい。したがって、第3のリカレントニューラルネットワークを用いてデコードを複数回実行する過程において、今回のデコードのターゲットコードを取得する必要がある。
サブステップ2052において、前回のデコードにおいて第3のリカレントニューラルネットワークによって出力されたシステム状態ベクトルと、今回のデコードのターゲットコードとの類似度を決定する。
システム状態ベクトルとは、システム状態変数のある時刻における値であり、その時刻におけるシステムの状態と呼ばれる。例えば、t=0時刻における状態変数の値を、システム初期状態ベクトル、又は、開始状態ベクトルと呼ぶ。
可能な一実現形態として、空間注意メカニズムを使用して、前回のデコードにおいて第3のリカレントニューラルネットワークによって出力されたシステム状態ベクトルと、今回のデコードのターゲットコードとの類似度を算出してもよい。
サブステップ2053において、類似度に基づいて、今回のデコードのターゲットコードに重みを付けて、今回の重み付けコードを取得する。
第3のリカレントニューラルネットワークは、前回のデコードにおいて出力したシステム状態ベクトルと今回のデコードのターゲットコードとの類似度が大きい場合、今回のデコードのターゲットコードに重みを付ける際に、高い重みを用いて今回の重み付けデコードを得てもよいことを理解されたい。
サブステップ2054において、今回の重み付けコード、前回のデコードにおいて出力されたシステム状態ベクトル及び前回のデコードにおいて出力されたデコードベクトルを第3のリカレントニューラルネットワークに入力して、今回のデコードのシステム状態ベクトル及び今回のデコードのデコードベクトルを出力する。
本出願では、前回のデコードにおいて第3のリカレントニューラルネットワークkら出力されたシステム状態ベクトル、と今回のデコードのターゲットコードとの類似度に基づいて、今回の重み付けコードを取得した後、今回の重み付けコード、前回のデコードにおいて出力されたシステム状態ベクトル及び前回のデコードにおいて出力されたデコードベクトルを第3のリカレントニューラルネットワークに入力して、今回のデコードのシステム状態ベクトル及び今回のデコードのデコードベクトルを出力することができる。
なお、第3のリカレントニューラルネットワークを用いて複数のターゲットコードの初回のデコードを行う際に、前回のデコードにおいて出力されたシステム状態ベクトル及び前回のデコードにおいて出力されたデコードベクトルが存在しないため、本出願では、デコードの開始識別子を予め設定し、設定された開始識別子を前回のデコードにおいて出力されたデコードベクトルとして決定してもよい。最終回のエンコードにおいて第2リカレントニューラルネットワークによって出力されたシステム状態ベクトルを、前回のデコードにおいて出力されたシステム状態ベクトルとして決定してもよい。
さらに、第3のリカレントニューラルネットワークを用いて複数のターゲットコードの初回のデコードを行う過程において、最終回のエンコードにおいて第2リカレントニューラルネットワークによって出力されたシステム状態ベクトルと初回のデコードのターゲットコードとの類似度を決定し、さらに、類似度に基づいて、今回のデコードのターゲットコードに重みを付けて、今回の重み付けコードを取得し、最後に、今回の重み付けコード、最終回のエンコードにおいて第2リカレントニューラルネットワークによって出力されたシステム状態ベクトル、及び設定された開始識別子を、第3のリカレントニューラルネットワークに入力して、初回のデコードのシステム状態ベクトル及び初回のデコードのデコードベクトルを出力してもよい。
ステップ206において、複数のデコードベクトルに基づいて、ナンバープレート内の複数の文字を決定する。
本出願では、複数のターゲットコードを第3のリカレントニューラルネットワークを用いて複数回のデコードを順次行い、複数のデコードベクトルを取得した後、複数のデコードベクトルを統合して、ナンバープレート内の複数の文字を決定することができる。
本出願の実施例に係るナンバープレート認識方法は、ナンバープレート領域の特徴マップを取得し、特徴マップには複数の特徴ベクトルが含まれ、リカレントニューラルネットワークを用いて複数の特徴ベクトルを正逆方向にエンコードした後、各特徴ベクトルの第1コード及び第2コードを取得し、さらに、特徴ベクトルごとに、第1コードと第2コードとをスプライスして、複数のターゲットコードを取得し、複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードして、複数のデコードベクトルを取得し、複数のデコードベクトルに基づいて、ナンバープレート内の複数の文字を決定する。複数のターゲットコードにはコンテキスト情報が含まれているため、特徴の表現力が向上し、1行及び2行ナンバープレートの認識性能が向上する。
いくつかのシーンでは、ナンバープレートの傾斜角度が大きいか、又はナンバープレートのサイズが小さい場合がある。小さいサイズのナンバープレートを認識する場合、従来のナンバープレート認識モデルは、検出認識共有の特徴マップからナンバープレートの特徴を抽出し、小さいサイズのナンバープレートが共有の特徴マップで占める割合が非常に小さいため、認識効果が悪い。このような場合について、上記のいずれかの実施例において、元画像の文字領域及び外周の設定範囲の特徴抽出を行うことで、ナンバープレートのサイズが小さいことによって特徴マップが小さいか、又はナンバープレート領域が容易に認識できないという問題を解決する。それとともに、ステップ101又はステップ201においてナンバープレート領域の特徴マップを取得する際に、取得された元画像の特徴抽出を行って、元特徴マップを取得し、元特徴マップにおいてナンバープレート領域に対応する元特徴マップを決定し、さらに、ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、ナンバープレート領域に対応するターゲット特徴マップを取得し、透視変換を行うことで、ナンバープレートが大きな角度で傾斜することによる検出誤差を回避することもできる。以下、図4を参照して、上記のプロセスを詳細に説明するが、図4は、本出願の実施例3に係る特徴マップを取得するためのサブフローの概略図である。
図4に示すように、ステップ101又は201は、以下のサブステップ301〜サブステップ304と、をさらに含んでもよい。
ステップ301において、元画像を取得する。
元画像は、ナンバープレート領域を含む車両全体の画像であってもよい。
本出願では、元画像を取得する際に、一般な撮影機器で撮影して2次元の元画像を取得してもよいし、深度カメラで撮影して3次元の元画像を取得してもよいが、ここでは限定しない。
例えば、交差点や道路脇に設置された撮像機器で、道路を走行している車両を撮像して、元画像を取得してもよい。
ステップ302において、元画像の特徴抽出を行って、元特徴マップを取得する。
特徴抽出は、コンピュータビジョン及び画像処理の概念の1つである。これは、コンピュータを用いて画像情報を抽出し、各画像の点が1つの画像特徴に属するか否かを決定することを意味する。特徴抽出の結果、画像上の点は、異なるサブセットに分けられ、これらのサブセットは、孤立している点、連続している曲線、又は連続している領域に属する場合が多い。よく使われる画像特徴には、色特徴、テクスチャ特徴、形状特徴、空間関係特徴がある。
色特徴は、画像又は画像領域に対応する物体の表面特性を記述するグローバルな特徴である。例えば、色ヒストグラム法を用いて、元画像の色特徴を抽出することができる。
テクスチャ特徴も、画像又は画像領域に対応する物体の表面特性を記述するグローバルな特徴である。色特徴とは異なり、テクスチャ特徴は、画素点に基づく特徴ではなく、複数の画素点を含む領域において統計的な計算を行う必要がある。例えば、統計方法を用いて、検出されたオブジェクトの元画像のテクスチャ特徴を抽出することができる。
元画像の形状特徴を抽出するには、幾何学的パラメータ法や形状不変モーメント法などを用いることができる。
画像の空間関係特徴を抽出する方法は2つある。1つは、まず元画像を自動的に分割し、元画像に含まれるオブジェクト又は色領域に分割し、続いてこれらの領域に基づいて画像特徴を抽出し、インデックスを作成することである。もう1つは、単に、元画像をいくつかの規則的なサブブロックに均等に分割し、続いて各画像のサブブロックの特徴を抽出し、インデックスを作成することである。
なお、元画像の画像特徴を抽出する際に、元画像の色特徴、テクスチャ特徴、形状特徴、及び空間関係特徴の少なくとも1つを抽出することができる。
可能な一実現形態として、取得された元画像の文字領域を認識し、元画像内の文字領域、及び文字領域の外周の設定範囲の特徴抽出を行って、元特徴マップを取得するものとしてもよい。これにより、ナンバープレート領域に対応する特徴マップを正確に取得することができる。
例えば、元画像内のナンバープレートは小さいサイズのナンバープレートであり、元画像の文字領域を認識した後、幅又は高さを外側に0.5倍適宜拡張して、元画像の文字領域及び文字領域の外周の設定範囲の特徴抽出を行って、小さいサイズのナンバープレート領域の特徴マップを取得することができる。
ステップ303において、元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定する。
元画像には、ナンバープレート領域が含まれるが、車両及び周囲環境などの他の領域も含まれており、ナンバープレートを正確に認識するために、元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定して、ナンバープレート領域に対応する元特徴マップに対してナンバープレート認識を行うことができることを理解されたい。
例えば、小さいサイズのナンバープレートは、元画像に対応する元特徴マップにおいて占める割合が小さい可能性があり、元画像から抽出された元特徴マップに対してナンバープレート認識を直接行うと、小さいサイズのナンバープレートの認識率が低い場合がある。小さいサイズのナンバープレートの認識率を向上させるために、本出願では、元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定し、さらに、ナンバープレート領域に対応する元特徴マップのみを処理することで、小さいサイズのナンバープレートの認識効果の向上を実現する。
可能な一実現形態として、元画像の特徴抽出を行って元特徴マップを取得した後、元特徴マップを完全畳み込みネットワーク(Fully Convolutional Networks,FCN)に入力してオブジェクト認識を行って、元特徴マップにおいてナンバープレート候補枠を決定することができる。さらに、ナンバープレート候補枠内にある元特徴マップを、ナンバープレート領域に対応する元特徴マップとする。
ステップ304において、ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、ナンバープレート領域に対応するターゲット特徴マップを取得する。
透視変換の本質は、画像を新しい表示面に投影することであり、透視変換の一般的な変換式は以下のとおりである。
Figure 2021119506
ここで、[x,y,w]は透視変換後に出力された特徴マップ上の座標であり、[u,v,w]は、入力された元特徴マップ上の座標であり、
Figure 2021119506
本出願では、ナンバープレート領域に対応する元特徴マップを取得した後、ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、一定の幅及び高さのナンバープレート領域に対応するターゲット特徴マップを取得することができる。
本出願の実施例では、元画像を取得し、元画像の特徴抽出を行って、元特徴マップを取得し、元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定し、ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、ナンバープレート領域に対応するターゲット特徴マップを取得する。これにより、ナンバープレート領域に対応するターゲット特徴マップを正確に取得し、ナンバープレート領域に対応するターゲット特徴マップからナンバープレートの複数の文字を認識することができ、ナンバープレート認識の精度向上に有利である。
ナンバープレート認識モデルの精度を向上させるために、深層学習モデル訓練方法に基づいてナンバープレート認識モデルを訓練することにより、訓練されたナンバープレート認識モデルが様々な種類のナンバープレートを正確に認識できるようにすることができる。このため、本出願は、ナンバープレート認識モデルの訓練方法を提供する。
図5は、本出願の実施例4に係るナンバープレート認識モデルの訓練方法の概略フローチャートである。
図5に示すように、このナンバープレート認識モデルの訓練方法は、以下のステップ401と、ステップ402と、を含んでもよい。
ステップ401において、複数の訓練画像を取得する。
ナンバープレート認識モデルが全ての種類のナンバープレートを認識できることを実現するためには、様々な種類のナンバープレートを訓練サンプルとしてナンバープレート認識モデルを訓練する必要がある。例えば、既存のナンバープレートの種類は、新エネルギー車ナンバープレート、ハイブリッド車ナンバープレート、二層黄色ナンバープレート、普通の青色ナンバープレート、香港とマカオのナンバープレート、警察車両ナンバープレート、1行武装警察車両ナンバープレート、2行武装警察車両ナンバープレート、農業用車両ナンバープレート、民間航空用車両ナンバープレートなどを含んでもよい。
しかし、従来の公開されるナンバープレートのデータセットは、種類が少なすぎて地域が集中しすぎ、よく見られない種類のナンバープレートの収集コストも高い。全ての種類のナンバープレート画像を取得できないことに鑑み、本出願ではデータ合成の方式を採用し、全ての種類、全ての領域をカバーするナンバープレート画像を訓練画像として生成することができる。すなわち、本出願における訓練画像には、撮像された実際のナンバープレート画像だけでなく、合成されたナンバープレート画像も含まれる。
合成されたナンバープレート画像をよりリアルにするために、既存の実際のナンバープレート画像に基づいて、合成されたナンバープレートを実際のナンバープレート領域に置き換えてもよい。可能な一実現形態として、ナンバープレートセット及び車両外観画像を取得し、ナンバープレートセット内の複数のナンバープレートに基づいて、各ナンバープレートに対応するナンバープレート画像を生成し、各ナンバープレートに対応するナンバープレート画像を車両画像とそれぞれ合成して、各ナンバープレートに対応する訓練画像を取得する。
ステップ402において、複数の訓練画像を用いて、ナンバープレート認識モデルを訓練する。
ナンバープレート認識モデルは、特徴抽出ネットワークと認識ネットワークとを含む。
特徴抽出ネットワークは、ナンバープレート領域の特徴マップを取得するように構成され、特徴マップには、複数の特徴ベクトルが含まれる。
1つの可能な場合として、各訓練画像をナンバープレート認識モデルに入力した後、特徴抽出ネットワークを用いて訓練画像の特徴抽出を行って、ナンバープレート領域の特徴マップを取得してもよい。
認識ネットワークは、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するように構成される。
区別を容易にするために、本出願では、複数の特徴ベクトルを第1順序で順次エンコードするリカレントニューラルネットワークを第1リカレントニューラルネットワークと呼び、複数の特徴ベクトルを第2順序で順次エンコードするリカレントニューラルネットワークを第2リカレントニューラルネットワークと呼ぶ。当然ながら、他の命名方式も可能であり、本出願では単に例示的な表現である。
同様に、区別を容易にするために、本出願では、各特徴ベクトルを第1リカレントニューラルネットワークに入力してエンコードし、エンコードされた特徴ベクトルを第1コードと呼び、各特徴ベクトルを第2リカレントニューラルネットワークに入力してエンコードし、得たエンコードされた特徴ベクトルを第2コードと呼ぶ。当然ながら、他の命名方式も可能であり、本出願では単に例示的な表現である。
本出願では、ナンバープレート領域の特徴マップに含まれる複数の特徴ベクトルを取得した後、ナンバープレート認識モデルの認識ネットワークは、複数の特徴ベクトルを第1順序で第1リカレントニューラルネットワークに順次入力してエンコードし、第1リカレントニューラルネットワークのエンコード結果に基づいて、各特徴ベクトルの第1コードを取得することができる。複数の特徴ベクトルを第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得することもできる。
なお、第1順序は、左から右への正方向順序であってもよいし、右から左への逆方向順序であってもよい。すなわち、複数の特徴ベクトルを左から右へ第1リカレントニューラルネットワークに順次入力してエンコードしてもよいし、複数の特徴ベクトルを右から左へ第1リカレントニューラルネットワークに順次入力してエンコードしてもよく、本出願ではこれについて限定しない。
同様に、第2順序は、左から右への正方向順序であってもよいし、右から左への逆方向順序であってもよく、本出願ではこれについて限定しない。本出願では、第1順序と第2順序を逆の順序とすることを必要とし、例えば、第1順序が左から右への正方向順序である場合、第2順序は右から左への逆方向順序である。すなわち、第1リカレントニューラルネットワークが複数の特徴ベクトルを正方向にエンコードする場合、第2リカレントニューラルネットワークは、複数の特徴ベクトルを逆方向にエンコードする。
1行及び2行ナンバープレートに対するナンバープレート認識モデルの認識性能を保証するために、訓練過程における各反復では、1行/2行ナンバープレート、実際/合成のナンバープレートのデータの比率の合理性を確保する必要があり、例えば、1回のモデル訓練過程において採用される1行実際のナンバープレート、1行合成ナンバープレート、2行実際のナンバープレート、2行合成ナンバープレートのサンプル比率は、0.3:0.2:0.2:0.3であってもよい。
本出願の実施例に係る車両認識モデルの訓練方法は、複数の訓練画像を取得し、複数の訓練画像を用いて、ナンバープレート認識モデルを訓練する。これにより、複数の訓練画像により訓練されたナンバープレート認識モデルは、様々な種類のナンバープレートを正確に認識することができ、ナンバープレート認識方法の実用性向上に有利である。
本出願の実施例の可能な一実現形態として、合成されたナンバープレート画像を訓練画像として取得する際に、ナンバープレートセット内の各ナンバープレートと車両外観画像を合成して、各ナンバープレートに対応する訓練画像を取得してもよい。これにより、様々な種類のナンバープレート画像を訓練画像として取得することができる。具体的な実現プロセスを図6に示し、図6は、本出願の実施例5に係るサンプル画像を取得するためのサブフローの概略図である。
図6に示すように、上記のステップ401で訓練画像を取得する際、以下のサブステップであるステップ501〜ステップ504と、をさらに含んでもよい。
ステップ501において、ナンバープレートセット及び車両外観画像を取得する。
合成されたナンバープレート画像をよりリアルにするために、既存の実際のナンバープレート画像に基づいて、合成されたナンバープレートを実際のナンバープレート領域に置き換えてもよい。このため、本出願では、全ての種類のナンバープレートを含むナンバープレートセットと車両外観画像とを取得することができる。
ナンバープレートセットには、例えば、新エネルギー車ナンバープレート、ハイブリッド車ナンバープレート、2行黄色ナンバープレート、普通の青色ナンバープレート、香港とマカオのナンバープレート、警察車両ナンバープレート、1行武装警察車両ナンバープレート、2行武装警察車両ナンバープレート、農業用車両ナンバープレート、民間航空用車両ナンバープレートなどの複数種類のナンバープレートが含まれる。
本出願では、車両外観画像は、ナンバープレート領域を含む車両外観画像であり、ナンバープレートの種類に対応する車両であってもよいし、他の種類の車両であってもよいが、ここでは限定しない。
ステップ502において、ナンバープレートセット内の複数のナンバープレートに基づいて、各ナンバープレートに対応するナンバープレート画像を生成する。
可能な一実現形態として、ナンバープレートセット内の各ナンバープレートを、当該種類のナンバープレートのナンバープレートテンプレートと融合して、各ナンバープレートに対応するナンバープレートの画像を合成してもよい。
さらに、実際のナンバープレート画像におけるナンバープレート領域R、G、Bの3つのカラーチャンネルの平均値を統計し、その最大値と255との比率に基づいて、合成されたナンバープレート画像の明るさを調整し、且つ、ある程度のガウスぼかしを加えて、合成されたナンバープレートの画像の画像ノイズを低減し、詳細部レベルを低減する。
ステップ503において、各ナンバープレートに対応するナンバープレート画像を車両画像とそれぞれ合成して、各ナンバープレートに対応する訓練画像を取得する。
本出願の実施例では、各ナンバープレートに対応するナンバープレート画像を取得した後、各ナンバープレートに対応するナンバープレート画像を車両画像における実際のナンバープレート領域に充填し、車両画像と合成することで、各ナンバープレートに対応する訓練画像を取得する。
可能な一実現形態として、アフィン変換法を用いて、各ナンバープレートに対応するナンバープレート画像を車両画像とそれぞれ合成して、各ナンバープレートに対応する訓練画像を取得してもよい。
ステップ504において、各訓練画像に、対応するナンバープレートを用いてラベルを付ける。
各ナンバープレートはいずれも唯一であり、各ナンバープレートに対応する訓練画像を取得した後、対応するナンバープレートを用いて訓練画像にラベルを付けてもよいことを理解されたい。
本出願の実施例では、ナンバープレートセット及び車両外観画像を取得し、ナンバープレートセットにおける複数のナンバープレートに基づいて、各ナンバープレートに対応するナンバープレート画像を生成し、各ナンバープレートに対応するナンバープレート画像を車両画像とそれぞれ合成して、各ナンバープレートに対応する訓練画像を取得し、各訓練画像に、対応するナンバープレートを用いてラベルを付ける。これにより、ナンバープレートセットにおける各ナンバープレート及び車両外観画像により、各ナンバープレートに対応する訓練画像を合成することができ、様々な種類のナンバープレート画像を訓練画像として取得することができる。
上記の実施例を実現するために、本出願は、ナンバープレート認識装置を提供する。
図7は、本出願の実施例6に係るナンバープレート認識装置の概略構成図である。
図7に示すように、このナンバープレート認識装置600は、取得モジュール610と、第1エンコードモジュール620と、第2エンコードモジュール630と、生成モジュール640と、デコードモジュール650と、を含んでもよい。
取得モジュール610は、ナンバープレート領域の特徴マップを取得するように構成され、特徴マップには複数の特徴ベクトルが含まれる。
第1エンコードモジュール620は、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得するように構成される。
第2エンコードモジュール630は、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得するように構成される。
生成モジュール640は、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成するように構成される。
デコードモジュール650は、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するように構成される。
1つの可能な場合として、生成モジュール640は、前記特徴ベクトルごとに、前記第1コードと前記第2コードとをスプライスして、前記複数のターゲットコードを取得するように構成されるスプライスユニットを含み取得する。
1つの可能な場合として、デコードモジュール650は、複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードして、複数のデコードベクトルを取得するように構成されるデコードユニットと、複数のデコードベクトルに基づいて、ナンバープレート内の複数の文字を決定するように構成される第1決定ユニットと、を含んでもよい。
別の可能な場合として、デコードユニットは、さらに、第3のリカレントニューラルネットワークを用いて複数回のデコードプロセスを実行するように構成され、各回のデコードプロセスは、今回のデコードのターゲットコードを取得するステップと、前回のデコードにおいて第3のリカレントニューラルネットワークによって出力されたシステム状態ベクトルと、今回のデコードのターゲットコードとの類似度を決定するステップと、類似度に基づいて、今回のデコードのターゲットコードに重みを付けて、今回の重み付けコードを取得するステップと、今回の重み付けコード、前回のデコードにおいて出力されたシステム状態ベクトル及び前回のデコードにおいて出力されたデコードベクトルを、第3のリカレントニューラルネットワークに入力して、今回のデコードのシステム状態ベクトル及び今回のデコードのデコードベクトルを出力するステップと、を含み、初回のデコードプロセスは、さらに、設定された開始識別子を前回のデコードにおいて出力されたデコードベクトルとして決定するステップと、最終回のエンコードにおいて第2リカレントニューラルネットワークによって出力されたシステム状態ベクトルを、前回のデコードにおいて出力されたシステム状態ベクトルとして決定するステップと、を含む。
別の可能な場合として、取得モジュール610は、元画像を取得するように構成される取得ユニットと、元画像の特徴抽出を行って、元特徴マップを取得するように構成される抽出ユニットと、元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定するように構成される第2決定ユニットと、ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、ナンバープレート領域に対応するターゲット特徴マップを取得するように構成される変換ユニットと、を含んでもよい。
別の可能な場合として、第2決定ユニットは、さらに、元特徴マップを完全畳み込みネットワークに入力してオブジェクト認識を行って、元特徴マップにおいてナンバープレート候補枠を決定し、ナンバープレート候補枠内にある元特徴マップを、ナンバープレート領域に対応する元特徴マップとするように構成される。
別の可能な場合として、抽出ユニットは、さらに、元画像の文字領域を認識し、元画像内の文字領域、及び文字領域の外周の設定範囲の特徴抽出を行って、元特徴マップを取得するように構成される。
なお、前述したナンバープレート認識方法の実施例の解釈及び説明は、この実施例のナンバープレート認識装置にも適用し、ここでは説明を省略する。
本出願の実施例に係るナンバープレート認識装置は、ナンバープレート領域の特徴マップを取得し、特徴マップには複数の特徴ベクトルが含まれ、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得する。この方法では、抽出されたナンバープレート領域の特徴マップに含まれる複数の特徴ベクトルを、それぞれリカレントニューラルネットワークを用いて正逆方向にエンコードすることで、エンコードされた特徴にはコンテキスト情報が含まれるようになり、ナンバープレート認識の精度が大幅に向上する。
上記の実施例を実現するために、本出願は、ナンバープレート認識モデルの訓練装置を提供する。
図8に示すように、このナンバープレート認識モデルの訓練装置700は、取得モジュール710と、訓練モジュール720と、を含んでもよい。
取得モジュール710は、複数の訓練画像を取得するように構成される。
訓練モジュール720は、複数の訓練画像を用いてナンバープレート認識モデルを訓練するように構成され、ナンバープレート認識モデルは、特徴抽出ネットワークと認識ネットワークとを含み、特徴抽出ネットワークは、ナンバープレート領域の特徴マップを取得するように構成され、特徴マップには複数の特徴ベクトルが含まれ、認識ネットワークは、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードしてナンバープレート内の複数の文字を取得するように構成される。
別の可能な場合として、取得モジュール710は、さらに、ナンバープレートセット及び車両外観画像を取得するように構成される取得ユニットと、ナンバープレートセット内の複数のナンバープレートに基づいて、各ナンバープレートに対応するナンバープレート画像を生成するように構成される生成ユニットと、各ナンバープレートに対応するナンバープレート画像を車両画像とそれぞれ合成し、各ナンバープレートに対応する訓練画像を取得するように構成される合成ユニットと、各訓練画像に、対応するナンバープレートを用いてラベルを付けるように構成されるラベル付けユニットと、を含んでもよい。
なお、前述したナンバープレート認識モデルの訓練方法の実施例の解釈及び説明は、この実施例のナンバープレート認識モデルの訓練装置にも適用し、ここでは説明を省略する。
本出願の実施例に係る車両認識モデルの訓練装置は、複数の訓練画像を取得し、複数の訓練画像を用いて、ナンバープレート認識モデルを訓練する。これにより、複数の訓練画像により訓練されたナンバープレート認識モデルは、様々な種類のナンバープレートを正確に認識することができ、ナンバープレート認識方法の実用性向上に有利である。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図9は、本出願の実施例に係るナンバープレート認識方法を実現する電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器は、さらに、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置などの様々な形態のモバイル装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記述及び/又は要求される本出願の実現を限定することを意図しない。
図9に示すように、この電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インタフェースと低速インタフェースとを含むインタフェースであって、各コンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスで接続され、共通のマザーボードに実装されてもよいし、又は必要に応じて他の方式で実装されてもよい。プロセッサは、外部入力/出力装置(例えば、インタフェースに結合されたディスプレイ機器)にGUIのグラフィック情報を表示させるようにメモリ中又はメモリ上に記憶された命令を含む命令であって、電子機器内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリ及び複数のメモリと共に使用することができる。同様に、それぞれが必要な動作の一部(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする)を提供する複数の電子機器を接続することができる。図9では、1つのプロセッサ801を例にする。
メモリ802は、本出願に係る非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが本出願に係るナンバープレート認識方法を実行するようにし、又は、本出願に係るナンバープレート認識モデルの訓練方法を実行するようにする。本出願の非一時的コンピュータ読み取り可能な記憶媒体には、本出願に係るナンバープレート認識方法をコンピュータに実行させるコンピュータ命令が記憶されている。
メモリ802は、非一時的コンピュータ読み取り可能な記憶媒体として、例えば、本出願の実施例におけるナンバープレート認識方法に対応するプログラム命令/モジュール(例えば、図7に示される取得モジュール610、第1エンコードモジュール620、第2エンコードモジュール630、生成モジュール640及びデコードモジュール650、又は、図8に示される取得モジュール710及び訓練モジュール720)のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュール、を記憶するために用いられる。プロセッサ801は、メモリ802に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記の方法の実施例におけるナンバープレート認識方法、又は、ナンバープレート認識モデルの訓練方法を実現する。
メモリ802は、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ802は、高速ランダムアクセスメモリを含むことができ、非一時的メモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的固体記憶デバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に配置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
電子機器は、入力装置803と出力装置804とをさらに含むことができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式で接続することができ、図9では、バスによる接続を例にする。
入力装置803は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又はそれ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置804は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み取得するが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこの記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施される。本明細書で使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこのポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
本出願の実施例の技術的解決手段によれば、ナンバープレート領域の特徴マップを取得し、特徴マップには複数の特徴ベクトルが含まれ、複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第1コードを取得し、複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各特徴ベクトルの第2コードを取得し、各特徴ベクトルの第1コード及び各特徴ベクトルの第2コードに基づいて、複数の特徴ベクトルの複数のターゲットコードを生成し、複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得する。この方法では、抽出されたナンバープレート領域の特徴マップに含まれる複数の特徴ベクトルを、それぞれリカレントニューラルネットワークを用いて正逆方向にエンコードすることで、エンコードされた特徴にはコンテキスト情報が含まれるようになり、ナンバープレート認識の精度が大幅に向上する。
以上に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることが理解されるであろう。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術的解決手段が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (21)

  1. ナンバープレート認識方法であって、
    ナンバープレート領域の特徴マップを取得するステップであって、前記特徴マップには複数の特徴ベクトルが含まれるステップと、
    前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得するステップと、
    前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得するステップと、
    各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成するステップと、
    複数の前記ターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するステップと、を含む、ナンバープレート認識方法。
  2. 各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成するステップは、
    前記特徴ベクトルごとに、前記第1コードと前記第2コードとをスプライスして、前記複数のターゲットコードを取得するステップを含む、請求項1に記載のナンバープレート認識方法。
  3. 前記複数のターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するステップは、
    前記複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードして、複数のデコードベクトルを取得するステップと、
    前記複数のデコードベクトルに基づいて、ナンバープレート内の複数の文字を決定するステップと、を含む、請求項1に記載のナンバープレート認識方法。
  4. 前記複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードするステップは、
    前記第3のリカレントニューラルネットワークを用いて複数回のデコードプロセスを実行するステップを含み、
    各回の前記デコードプロセスは、
    今回のデコードのターゲットコードを取得するステップと、
    前回のデコードにおいて前記第3のリカレントニューラルネットワークによって出力されたシステム状態ベクトルと、前記今回のデコードのターゲットコードとの類似度を決定するステップと、
    前記類似度に基づいて、前記今回のデコードのターゲットコードに重みを付けて、今回の重み付けコードを取得するステップと、
    前記今回の重み付けコード、前記前回のデコードにおいて出力されたシステム状態ベクトル及び前回のデコードにおいて出力されたデコードベクトルを、前記第3のリカレントニューラルネットワークに入力して、今回のデコードのシステム状態ベクトル及び今回のデコードのデコードベクトルを出力するステップと、を含み、
    初回の前記デコードプロセスは、
    設定された開始識別子を前記前回のデコードにおいて出力されたデコードベクトルとして決定するステップと、
    最終回のエンコードにおいて前記第2リカレントニューラルネットワークによって出力されたシステム状態ベクトルを、前記前回のデコードにおいて出力されたシステム状態ベクトルとして決定するステップと、をさらに含む、請求項3に記載のナンバープレート認識方法。
  5. ナンバープレート領域の特徴マップを取得するステップは、
    元画像を取得するステップと、
    前記元画像の特徴抽出を行って、元特徴マップを取得するステップと、
    前記元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定するステップと、
    前記ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、前記ナンバープレート領域に対応するターゲット特徴マップを取得するステップと、を含む、請求項1〜4のいずれか1項に記載のナンバープレート認識方法。
  6. 前記元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定するステップは、
    前記元特徴マップを完全畳み込みネットワークに入力してオブジェクト認識を行って、前記元特徴マップにおいてナンバープレート候補枠を決定するステップと、
    前記ナンバープレート候補枠内にある前記元特徴マップを、前記ナンバープレート領域に対応する元特徴マップとするステップと、を含む、請求項5に記載のナンバープレート認識方法。
  7. 前記元画像の特徴抽出を行って、元特徴マップを取得するステップは、
    前記元画像の文字領域を認識するステップと、
    前記元画像内の前記文字領域、及び前記文字領域の外周の設定範囲の特徴抽出を行って、前記元特徴マップを取得するステップと、を含む、請求項5に記載のナンバープレート認識方法。
  8. ナンバープレート認識モデルの訓練方法であって、
    複数の訓練画像を取得するステップと、
    前記複数の訓練画像を用いてナンバープレート認識モデルを訓練するステップであって、前記ナンバープレート認識モデルは、特徴抽出ネットワークと認識ネットワークとを含むステップと、を含み、
    前記特徴抽出ネットワークは、ナンバープレート領域の特徴マップを取得するように構成され、前記特徴マップには複数の特徴ベクトルが含まれ、
    前記認識ネットワークは、前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得し、前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得し、各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成し、複数の前記ターゲットコードをデコードしてナンバープレート内の複数の文字を取得するように構成される、ナンバープレート認識モデルの訓練方法。
  9. 訓練画像を取得するステップは、
    ナンバープレートセット及び車両外観画像を取得するステップと、
    前記ナンバープレートセット内の複数のナンバープレートに基づいて、各前記ナンバープレートに対応するナンバープレート画像を生成するステップと、
    各前記ナンバープレートに対応するナンバープレート画像を、前記車両画像とそれぞれ合成し、各前記ナンバープレートに対応する訓練画像を取得するステップと、
    各前記訓練画像に、対応する前記ナンバープレートを用いてラベルを付けるステップと、を含む、請求項8に記載の訓練方法。
  10. ナンバープレート認識装置であって、
    ナンバープレート領域の特徴マップを取得するように構成される取得モジュールであって、前記特徴マップには複数の特徴ベクトルが含まれる取得モジュールと、
    前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得するように構成される第1エンコードモジュールと、
    前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得するように構成される第2エンコードモジュールと、
    各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成するように構成される生成モジュールと、
    複数の前記ターゲットコードをデコードして、ナンバープレート内の複数の文字を取得するように構成されるデコードモジュールと、を含む、ナンバープレート認識装置。
  11. 前記生成モジュールは、
    前記特徴ベクトルごとに、前記第1コードと前記第2コードとをスプライスして、前記複数のターゲットコードを取得するように構成されるスプライスユニットを含む、請求項10に記載のナンバープレート認識装置。
  12. 前記デコードモジュールは、
    前記複数のターゲットコードを第3のリカレントニューラルネットワークを用いて順次デコードして、複数のデコードベクトルを取得するように構成されるデコードユニットと、
    前記複数のデコードベクトルに基づいて、ナンバープレート内の複数の文字を決定するように構成される第1決定ユニットと、を含む、請求項10に記載のナンバープレート認識装置。
  13. 前記デコードユニットは、さらに、
    前記第3のリカレントニューラルネットワークを用いて複数回のデコードプロセスを実行するように構成され、
    各回の前記デコードプロセスは、
    今回のデコードのターゲットコードを取得するステップと、
    前回のデコードにおいて前記第3のリカレントニューラルネットワークによって出力されたシステム状態ベクトルと、前記今回のデコードのターゲットコードとの類似度を決定するステップと、
    前記類似度に基づいて、前記今回のデコードのターゲットコードに重みを付けて、今回の重み付けコードを取得するステップと、
    前記今回の重み付けコード、前記前回のデコードにおいて出力されたシステム状態ベクトル及び前回のデコードにおいて出力されたデコードベクトルを、前記リカレントニューラルネットワークに入力して、今回のデコードのシステム状態ベクトル及び今回のデコードのデコードベクトルを出力するステップと、を含み、
    初回の前記デコードプロセスは、
    設定された開始識別子を、前記前回のデコードにおいて出力されたデコードベクトルとして決定するステップと、
    最終回のエンコードにおいて前記第2リカレントニューラルネットワークによって出力されたシステム状態ベクトルを、前記前回のデコードにおいて出力されたシステム状態ベクトルとして決定するステップと、をさらに含む、請求項12に記載のナンバープレート認識装置。
  14. 前記取得モジュールは、
    元画像を取得するように構成される取得ユニットと、
    前記元画像の特徴抽出を行って、元特徴マップを取得するように構成される抽出ユニットと、
    前記元特徴マップから、ナンバープレート領域に対応する元特徴マップを決定するように構成される第2決定ユニットと、
    前記ナンバープレート領域に対応する元特徴マップに対して透視変換を行って、前記ナンバープレート領域に対応するターゲット特徴マップを取得するように構成される変換ユニットと、を含む、請求項10〜13のいずれか1項に記載のナンバープレート認識装置。
  15. 前記第2決定ユニットは、前記元特徴マップを完全畳み込みネットワークに入力してオブジェクト認識を行って、前記元特徴マップにおいてナンバープレート候補枠を決定し、
    前記ナンバープレート候補枠内にある前記元特徴マップを、前記ナンバープレート領域に対応する元特徴マップとするように構成される、請求項14に記載のナンバープレート認識装置。
  16. 前記抽出ユニットは、さらに、
    前記元画像の文字領域を認識し、
    前記元画像内の前記文字領域、及び前記文字領域の外周の設定範囲の特徴抽出を行って、前記元特徴マップを取得するように構成される、請求項14に記載のナンバープレート認識装置。
  17. ナンバープレート認識モデルの訓練装置であって、
    複数の訓練画像を取得するように構成される取得モジュールと、
    前記複数の訓練画像を用いてナンバープレート認識モデルを訓練するように構成される訓練モジュールであって、前記ナンバープレート認識モデルは、特徴抽出ネットワークと認識ネットワークとを含む訓練モジュールと、を含み、
    前記特徴抽出ネットワークは、ナンバープレート領域の特徴マップを取得するように構成され、前記特徴マップには複数の特徴ベクトルが含まれ、
    前記認識ネットワークは、前記複数の特徴ベクトルを、第1順序で第1リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第1コードを取得し、前記複数の特徴ベクトルを、第2順序で第2リカレントニューラルネットワークに順次入力してエンコードして、各前記特徴ベクトルの第2コードを取得し、各前記特徴ベクトルの第1コード及び各前記特徴ベクトルの第2コードに基づいて、複数の前記特徴ベクトルの複数のターゲットコードを生成し、複数の前記ターゲットコードをデコードしてナンバープレート内の複数の文字を取得するように構成される、ナンバープレート認識モデルの訓練装置。
  18. 前記取得モジュールは、
    ナンバープレートセット及び車両外観画像を取得するように構成される取得ユニットと、
    前記ナンバープレートセット内の複数のナンバープレートに基づいて、各前記ナンバープレートに対応するナンバープレート画像を生成するように構成される生成ユニットと、
    各前記ナンバープレートに対応するナンバープレート画像を前記車両画像とそれぞれ合成し、各前記ナンバープレートに対応する訓練画像を取得するように構成される合成ユニットと、
    各前記訓練画像に、対応する前記ナンバープレートを用いてラベルを付けるように構成されるラベル付けユニットと、を含む、請求項17に記載の訓練装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1〜7のいずれか1項に記載のナンバープレート認識方法、又は、請求項8又は9に記載のナンバープレート認識モデルの訓練方法を実行可能である、電子機器。
  20. コンピュータ命令が記憶された非一時的コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれか1項に記載のナンバープレート認識方法、又は、請求項8又は9に記載のナンバープレート認識モデルの訓練方法を実行させる、非一時的コンピュータ読み取り可能な記憶媒体。
  21. コンピュータに請求項1〜7のいずれか1項に記載のナンバープレート認識方法、又は、請求項8又は9に記載のナンバープレート認識モデルの訓練方法を実行させる、コンピュータプログラム。
JP2021076270A 2020-06-12 2021-04-28 ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置 Active JP7166388B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010536808.7A CN111832568B (zh) 2020-06-12 2020-06-12 车牌识别方法、车牌识别模型的训练方法和装置
CN202010536808.7 2020-06-12

Publications (2)

Publication Number Publication Date
JP2021119506A true JP2021119506A (ja) 2021-08-12
JP7166388B2 JP7166388B2 (ja) 2022-11-07

Family

ID=72897932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021076270A Active JP7166388B2 (ja) 2020-06-12 2021-04-28 ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置

Country Status (5)

Country Link
US (1) US20210209395A1 (ja)
EP (1) EP3907660A1 (ja)
JP (1) JP7166388B2 (ja)
KR (1) KR20210080291A (ja)
CN (1) CN111832568B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937837A (zh) * 2022-11-09 2023-04-07 粤丰科盈智能投资(广东)有限公司 一种基于位置编码的车牌检测方法、装置及计算机可读存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508018A (zh) * 2020-12-14 2021-03-16 北京澎思科技有限公司 车牌识别方法、装置及存储介质
CN113191220A (zh) * 2021-04-15 2021-07-30 广州紫为云科技有限公司 一种基于深度学习的双层车牌识别方法
CN113807361B (zh) * 2021-08-11 2023-04-18 华为技术有限公司 神经网络、目标检测方法、神经网络训练方法及相关产品
KR102479671B1 (ko) * 2021-11-30 2022-12-21 주식회사 오토피디아 차량 부품 정보를 제공하기 위한 방법
CN114945108A (zh) * 2022-05-14 2022-08-26 云知声智能科技股份有限公司 一种用于辅助视觉障碍者理解图片的方法及装置
KR102642630B1 (ko) 2023-04-03 2024-03-05 주식회사 이투온 식별 장치 및 이를 이용한 차량 번호판 인식 방법
CN117558136A (zh) * 2023-11-18 2024-02-13 广东有位智能科技有限公司 一种地区车牌智能识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342880A (ja) * 2001-05-18 2002-11-29 Hitachi Eng Co Ltd 車番認識装置
CN110490179A (zh) * 2018-05-15 2019-11-22 杭州海康威视数字技术股份有限公司 车牌识别方法、装置及存储介质
US20200167609A1 (en) * 2018-11-22 2020-05-28 Delta Electronics, Inc. Object recognition system and method using simulated object images
US20200175326A1 (en) * 2018-12-04 2020-06-04 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9602728B2 (en) * 2014-06-09 2017-03-21 Qualcomm Incorporated Image capturing parameter adjustment in preview mode
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN107679531A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 基于深度学习的车牌识别方法、装置、设备及存储介质
CN107704857B (zh) * 2017-09-25 2020-07-24 北京邮电大学 一种端到端的轻量级车牌识别方法及装置
CN108229474B (zh) * 2017-12-29 2019-10-01 北京旷视科技有限公司 车牌识别方法、装置及电子设备
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning
TWI677826B (zh) * 2018-09-19 2019-11-21 國家中山科學研究院 車牌辨識系統與方法
CN110163199A (zh) * 2018-09-30 2019-08-23 腾讯科技(深圳)有限公司 车牌识别方法、车牌识别装置、车牌识别设备及介质
CN110033003B (zh) * 2019-03-01 2023-12-15 华为技术有限公司 图像分割方法和图像处理装置
CN110070085B (zh) * 2019-04-30 2021-11-02 北京百度网讯科技有限公司 车牌识别方法和装置
CN111079753B (zh) * 2019-12-20 2023-08-22 长沙千视通智能科技有限公司 一种基于深度学习与大数据结合的车牌识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342880A (ja) * 2001-05-18 2002-11-29 Hitachi Eng Co Ltd 車番認識装置
CN110490179A (zh) * 2018-05-15 2019-11-22 杭州海康威视数字技术股份有限公司 车牌识别方法、装置及存储介质
US20200167609A1 (en) * 2018-11-22 2020-05-28 Delta Electronics, Inc. Object recognition system and method using simulated object images
US20200175326A1 (en) * 2018-12-04 2020-06-04 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937837A (zh) * 2022-11-09 2023-04-07 粤丰科盈智能投资(广东)有限公司 一种基于位置编码的车牌检测方法、装置及计算机可读存储介质
CN115937837B (zh) * 2022-11-09 2023-10-27 粤丰科盈智能投资(广东)有限公司 一种基于位置编码的车牌检测方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111832568A (zh) 2020-10-27
JP7166388B2 (ja) 2022-11-07
US20210209395A1 (en) 2021-07-08
KR20210080291A (ko) 2021-06-30
CN111832568B (zh) 2024-01-12
EP3907660A1 (en) 2021-11-10

Similar Documents

Publication Publication Date Title
JP2021119506A (ja) ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置
Cui et al. Deep learning for image and point cloud fusion in autonomous driving: A review
Zhang et al. Vision-based parking-slot detection: A DCNN-based approach and a large-scale benchmark dataset
Kondapally et al. Towards a Transitional Weather Scene Recognition Approach for Autonomous Vehicles
Li et al. Stepwise domain adaptation (SDA) for object detection in autonomous vehicles using an adaptive CenterNet
Khalid et al. Automatic measurement of the traffic sign with digital segmentation and recognition<? show [AQ ID= Q1]?>
GB2596370A (en) Model training method and apparatus, and prediction method and apparatus
Hu et al. Learning discriminative pattern for real-time car brand recognition
Zhang et al. A semi-supervised 3D object detection method for autonomous driving
WO2022000469A1 (en) Method and apparatus for 3d object detection and segmentation based on stereo vision
Vasamsetti et al. Automatic underwater moving object detection using multi‐feature integration framework in complex backgrounds
Tang et al. Multi-modality 3D object detection in autonomous driving: A review
Liu et al. SLPR: A deep learning based chinese ship license plate recognition framework
Lei et al. MFP‐Net: Multi‐scale feature pyramid network for crowd counting
Liao et al. Multi-scale saliency features fusion model for person re-identification
Rao et al. In-vehicle object-level 3D reconstruction of traffic scenes
CN116229406B (zh) 车道线检测方法、系统、电子设备及存储介质
Shi et al. Context‐guided ground truth sampling for multi‐modality data augmentation in autonomous driving
Huang et al. Overview of LiDAR point cloud target detection methods based on deep learning
Shen et al. Joint vehicle detection and distance prediction via monocular depth estimation
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems
Lee et al. SAM-Net: LiDAR depth inpainting for 3D static map generation
WO2023105800A1 (en) Object detection device, object detection method, and object detection system
Yuan et al. A multi‐scale feature representation and interaction network for underwater object detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221025

R150 Certificate of patent or registration of utility model

Ref document number: 7166388

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150