JP7246104B2 - License plate identification method based on text line identification - Google Patents
License plate identification method based on text line identification Download PDFInfo
- Publication number
- JP7246104B2 JP7246104B2 JP2021105233A JP2021105233A JP7246104B2 JP 7246104 B2 JP7246104 B2 JP 7246104B2 JP 2021105233 A JP2021105233 A JP 2021105233A JP 2021105233 A JP2021105233 A JP 2021105233A JP 7246104 B2 JP7246104 B2 JP 7246104B2
- Authority
- JP
- Japan
- Prior art keywords
- license plate
- network
- text
- text line
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
本発明は、画像処理とモード識別に基づくナンバープレート識別技術に関し、特にテキスト行識別に基づくナンバープレート識別方法に関する。 The present invention relates to a license plate identification technique based on image processing and mode identification, and more particularly to a license plate identification method based on text line identification.
ナンバープレート検出と識別は、典型的なコンピュータ視覚分野のタスクであり、インテリジェント交通システムにおいて広い応用の将来性がある。現代交通システムの発展に伴い、交通量は、急速に増加し、ナンバープレート識別システムは、交通管理、公共安全などを補助することができる。 License plate detection and identification is a typical computer vision field task and has broad application potential in intelligent traffic systems. With the development of modern transportation systems, traffic volume increases rapidly, and license plate identification systems can assist traffic management, public safety, and so on.
過去十数年来、ナンバープレート識別問題は、業界で広く注目されている。画質に影響を与えるさまざまな要因、例えば撮影環境(照明、位置、焦点ぼけなど)、ピクチャ品質(解像度など)及び複雑な撮影背景を考慮すると、任意のシーンでのナンバープレート識別タスクは、依然として困難に直面している。 Over the last decade or so, the license plate identification problem has received widespread attention in the industry. Considering various factors affecting image quality, such as shooting environment (lighting, position, defocus, etc.), picture quality (resolution, etc.) and complex shooting backgrounds, the task of license plate identification in arbitrary scenes remains challenging. facing.
既存のいくつかのナンバープレート識別システムの識別方法は、主にナンバープレート検出、キャラクタ分割及びシーン文字識別のステップを含む。ナンバープレート識別は、自然画像からナンバープレートの位置を検出し、且つ検出されたナンバープレート上からテキスト情報を識別するという二つの部分にまとめることができる。既存のいくつかのナンバープレート識別システムのワークフローにおいて、あるものは、入力された自然画像から出力されたテキスト内容までの完全なワークフローを実現することに重点を置き、あるワークフローは、識別の正確性を向上させるために、ナンバープレート検出の前に車両検出を加えている。 The identification methods of some existing license plate identification systems mainly include the steps of license plate detection, character segmentation and scene character identification. License plate identification can be summarized in two parts: detecting the position of the license plate from the natural image and identifying the textual information on the detected license plate. Among the workflows of some existing license plate identification systems, some focus on achieving a complete workflow from the input natural image to the output text content, while another focuses on the accuracy of identification. Vehicle detection is added before license plate detection to improve
既存のナンバープレート識別方法は、ディープラーニングに基づく方法と非ディープラーニングに基づく方法の二つに分けることができる。ディープラーニングが発展する前に、一般的には色情報、テキスト情報、またはナンバープレートのエッジ情報に基づいてナンバープレートを大まかに識別する。使用される方法は、一般的には有限ボルツマンマシンまたはサポートベクトルマシンである。 Existing license plate identification methods can be divided into deep learning-based methods and non-deep learning-based methods. Before the development of deep learning, the license plate is roughly identified, generally based on color information, text information, or edge information of the license plate. The methods used are typically Finite Boltzmann Machines or Support Vector Machines.
近年、ディープラーニングの発展に伴い、キャラクタ分割に基づくナンバープレート識別方法が比較的に流行している。キャラクタ分割に基づく方法には、事前に分割されたトレーニングデータを必要とするため、トレーニングデータへのタグ付けが困難であり、且つそれは、フォントファイルを利用して画像を自動的に生成するため、ナンバープレート識別の効果とロバスト性が比較的に低い。 In recent years, with the development of deep learning, the license plate identification method based on character segmentation is relatively popular. Character segmentation-based methods require pre-segmented training data, which makes tagging the training data difficult, and it utilizes font files to automatically generate images. The effectiveness and robustness of license plate identification is relatively low.
本発明の目的は、上記従来の技術の欠陥を克服するために、識別効果及びロバスト性を向上させるテキスト行識別に基づくナンバープレート識別方法を提供することである。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a license plate identification method based on text line identification with improved identification effectiveness and robustness, so as to overcome the deficiencies of the above prior art.
本発明の目的は、以下の技術案よって実現されてもよい。 The object of the present invention may be achieved by the following technical solutions.
テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するS1と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップS2と、
CPTNネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップS3と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップS4とを含む。
A license plate identification method based on text line identification, comprising:
S1 for acquiring an original image;
a license plate detection step S2 of detecting a license plate portion in the original image to obtain a license plate image;
a text line detection step S3 of detecting text lines on the license plate by the CPTN network to obtain a license plate text line image;
a text line identification step S4 of inputting the license plate text line image into the license plate text line identification network and finally outputting the character sequence of the license plate text line to complete the license plate identification.
さらに、前記ステップS2において、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出する。 Further, in step S2, the license plate portion in the original image is detected by the YOLOv3 network.
さらに、前記YOLOv3ネットワークは、オリジナル画像の特徴図ディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する。 Furthermore, the YOLOv3 network reduces the feature map dimension of the original image five times to reduce the first feature map, second feature map, third feature map, fourth feature map, and fifth feature map, respectively. After that, the third feature map, the fourth feature map and the fifth feature map are respectively spliced after going through upsampling, and finally output the feature tensor to complete the detection of the license plate.
さらに、前記ステップS3は、具体的には、
回帰モデルを利用してCPTNネットワークの垂直検出フレームを予測して得るS31と、
予測して得られる垂直検出フレームに対して、CPTNネットワークにおいて発生する可能性のある水平方向での測位が正確でないことを防止できる境界最適化を行うS32と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得て、垂直検出フレームの合併は、CTPNネットワークが同一ラインのテキストを二つの部分に分割することを防止できるS33と、
CPTNネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るS34と、を含む。
Further, step S3 is specifically:
S31 of predicting the vertical detection frame of the CPTN network using a regression model;
performing boundary optimization S32 on the predicted vertical detection frame that can prevent incorrect horizontal positioning that can occur in CPTN networks;
The vertical detection frames that reach the threshold for which the degree of overlap in the vertical direction is set are merged into one detection frame to obtain the final vertical detection frame. S33 that can prevent splitting into two parts;
The CPTN network includes S34 performing text line detection by the vertical detection frame to obtain a license plate text line image.
さらに、前記垂直フレーム検出フレームのセンター位置tcと高さthの計算方法は、以下の通りである。 Further, the calculation method of the center position tc and the height th of the vertical frame detection frame is as follows.
そのうち、cb yが境界フレームのセンター位置であり、hbが境界フレームの高さであり、 ca yがアンカーフレームのセンターであり、haがアンカーフレームの高さであり、前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量twを計算し、該オフセット量twの計算式は、以下の通りである。 where c b y is the center position of the boundary frame, h b is the height of the boundary frame, c a y is the center of the anchor frame, ha is the height of the anchor frame, and the boundary optimal Each vertical frame detection frame calculates one horizontal detection offset tw , and the calculation formula of the offset tw is as follows.
そのうち、xa sideが実際のナンバープレート水平境界に最も近い座標であり、ca xが垂直検出フレームセンター位置のx座標であり、waが垂直検出フレームフレームの幅である。 Where x a side is the coordinate closest to the actual license plate horizontal boundary, c a x is the x coordinate of the vertical detection frame center position, and w a is the width of the vertical detection frame.
さらに、前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ-デコーダパラダイムのアテンションメカニズムが内蔵されているseq2seqネットワークを採用する。 Further, said license plate text identification network comprises a correction network and a text identification network, respectively realizing correction and character identification for a license plate text line image, said correction network correcting distorted and twisted text by two-dimensional transformation. and the text identification network employs a seq2seq network with built-in attention mechanisms of the encoder-decoder paradigm.
さらに、前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Cに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Arを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Aと補正テキスト行制御点ベクトル群Arとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る。 Further, the correction network includes a positioning network, which performs prediction on the control point vectors C of the original text line and, by backpropagation gradient, the control point vectors A r of the corrected text line. Obtained by regression analysis, the correction network performs a two-dimensional transformation on the original text line image based on the relationship between the original text line control point vector group A and the corrected text line control point vector group Ar. , to obtain the corrected text line image.
さらに好ましくは、前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である。 More preferably, the positioning network comprises six convolution filter layers, five max pool layers and two fully connected layer group layers, and the control points comprise five, each of It is the intersection of the four vertices and the diagonals.
さらに、前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向LSTMネットワークに入力した後、テキスト特徴シーケンスを得るS41と、
デコーダは、コンテキストベクトル、デコーダ内部状態及び前ステップの出力を利用し、アテンションメカニズムとGRUサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するS43と、を含む。
Further, the text identification network performing character identification on the license plate text line image specifically includes:
The encoder uses a convolutional neural network to extract the text feature map from the corrected license plate text line image, then divides the text feature map and inputs it to the bi-directional LSTM network to obtain the text feature sequence. S41;
The decoder uses the context vector, the decoder internal state and the output of the previous step, outputs the probability of each character and the sequence terminator and predicts the current text symbol by means of the attention mechanism and the GRU cycle network unit S43. .
さらに、前記デコーダの計算式は、以下の通りである。 Further, the calculation formula of the decoder is as follows.
そのうち、数式4がデコーダによってステップt2で出力される現在のテキストシンボル予測確率であり、数式5がデコーダのステップt2の内部状態ベクトルであり、数式6がデコーダのステップt2-1の内部状態ベクトルであり、数式7デコーダのステップt2のコンテキストベクトルであり、数式8がデコーダのステップt2-1の出力であり、rnnがGRUサイクルネットワークユニットであり、数式9がキャラクタ分類確率図であり、W0が完全接続ネットワークパラメータであり、b0が完全接続ネットワークオフセット量である。
Among them, Equation 4 is the current text symbol prediction probability output by the decoder at step t 2 ,
前記デコーダのステップt2のコンテキストベクトル数式7は、アテンションメカニズムによって得られ、その数式は、以下の通りである。 The context vector equation 7 of step t2 of the decoder is obtained by the attention mechanism, and the equation is as follows.
そのうち、Wconvがコンボリューションネットワークパラメータであり、数式11が完全接続ネットワークパラメータであり、数式12がエンコーダのステップt1のテキスト特徴シーケンスであり、数式13が重み付けパラメータであり、Tが入力シーケンスの長さであり、数式14がk時刻重み付けパラメータであり、v、W、Vがいずれも完全接続ネットワークパラメータであり、BLSTMが双方向LSTMネットワークであり、数式15がエンコーダのステップt1のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式16がエンコーダのステップt1-1のテキスト特徴シーケンスである。
where W conv is the convolution network parameter, Equation 11 is the complete connectivity network parameter, Equation 12 is the text feature sequence of the encoder step t1 , Equation 13 is the weighting parameter, and T is the input sequence 14 is the k-time weighting parameter, v, W, and V are all fully connected network parameters, BLSTM is the bi-directional LSTM network, and Equation 15 is the text feature of the encoder step t 1 is the vector sequence obtained after partitioning the figure, and
従来技術に比べて、本発明は、以下の利点を有する。
1)本発明は、キャラクタ分割がない全新のナンバープレート識別方法を提案し、キャラクタ分割の代わりにナンバープレートテキスト行検出を導入し、キャラクタ分割に比べて、本発明は、同一ラインの連続テキストを全体として検出し、トレーニングに対する後続の識別モデルの効果を向上させ、既存のナンバープレート識別方法と比べて、本発明の方法は、モデルのロバスト性を向上させ、モデルの識別の正確度を向上させる。
2)本発明は、ナンバープレート識別問題を古典的なコンピュータ視覚問題--画像に基づくシーケンス識別に転化し、このように、トレーニングデータにはナンバープレートの二次元座標と識別する必要なキャラクタシーケンスのみを必要として、モデルトレーニングの時間とコストを節約する。
3)本発明では、ナンバープレートテキスト行検出によって、複数行のテキストのナンバープレートに適用でき、複数の国と地域の異なるナンバープレートを識別することができるため、本発明は、日常の都市交通管理に運用できるだけでなく、都市間、ひいては国際交通管理にも運用でき、スマートシティ建設の重要な構成部分となり、人工知能技術と中国の都市建設、道路建設、交通管理との結合に対して積極的な推進意義がある。
Compared with the prior art, the present invention has the following advantages.
1) The present invention proposes a whole new license plate identification method without character splitting, and introduces license plate text line detection instead of character splitting. Detecting as a whole, improving the effectiveness of subsequent identification models on training, and compared to existing license plate identification methods, the method of the present invention improves the robustness of the model and improves the accuracy of the model's identification. .
2) The present invention turns the license plate identification problem into a classical computer vision problem--image-based sequence identification, and thus the training data contains only the two-dimensional coordinates of the license plate and the necessary character sequences to identify. , saving time and cost in model training.
3) With license plate text line detection, the present invention can be applied to license plates with multiple lines of text, and can identify different license plates in multiple countries and regions, so the present invention can be used in daily urban traffic management. It can be used not only in urban areas, but also in inter-city and even international traffic management, and has become an important component of smart city construction. promotion is significant.
以下、添付図面と具体的な実施例を参照しながら、本発明について詳細に説明する。明らかに、記述された実施例は、本発明の一部の実施例であり、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。 The present invention will now be described in detail with reference to the accompanying drawings and specific embodiments. Apparently, the described embodiments are some but not all embodiments of the present invention. All other embodiments obtained by persons skilled in the art based on the embodiments in the present invention without creative efforts shall fall within the protection scope of the present invention.
実施例;
図1に示すように、本発明は、テキスト行識別に基づくナンバープレート識別方法を提供し、自然シーンでナンバープレートを識別でき、該方法は、コンボリューションニューラルネットワークとサイクルニューラルネットワークに基づき、主にナンバープレート検出(LPD)、ナンバープレートテキスト検出(LP Text Detection)及びナンバープレートテキスト識別(LP Text Rectification and Recognition)の三つのステップを含む。
Example;
As shown in Fig. 1, the present invention provides a license plate identification method based on text line identification, which can identify license plates in natural scenes, and the method is based on convolution neural network and cycle neural network, mainly It includes three steps: license plate detection (LPD), license plate text detection (LP Text Detection) and license plate text recognition (LP Text Recognition and Recognition).
そのうち、ナンバープレート検出ステップにおいて、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出し、例えば、図1において、オリジナル画像がオートバイクに乗っている人であり、ナンバープレート検出を経た後、オリジナル画像におけるナンバープレート一部のサブ画像を抽出する。 Among them, in the license plate detection step, the license plate part in the original image is detected by the YOLOv3 network. For example, in FIG. Extract a sub-image of part of the license plate.
ナンバープレートテキスト行検出ステップにおいて、CPTNネットワークによってナンバープレート上のテキスト行を分割し、国際上によく見られるナンバープレート上のテキストは、単一行と複数行に分けられてもよい。複数行のテキストに対して、後続の識別作業を容易にするために、まず二行のテキストを複数の単一行のテキストに分割する必要がある。単一行のテキストに対して、画像から直感的に見ると、前のステップのナンバープレート検出は、必ずしもナンバープレート上のテキスト行の位置を正確に測位することができないため、このステップも不可欠である。図1のように、一つの二行のナンバープレートテキストが上下二行に分割され、単独で後続ネットワークに送られてテキスト識別が行われる。 In the license plate text line detection step, the text lines on the license plate are segmented by the CPTN network, and the text on the license plate commonly seen internationally may be divided into single lines and multiple lines. For multiple lines of text, it is necessary to first split the two lines of text into multiple single lines of text to facilitate subsequent identification work. For a single line of text, intuitively from the image, this step is also essential because license plate detection in the previous step cannot necessarily accurately locate the position of the text line on the license plate. . As shown in FIG. 1, one two-line license plate text is split into two lines, top and bottom, and sent singly to the subsequent network for text identification.
ナンバープレートテキスト行識別ステップは、TPSに基づく補正ネットワークと、アテンションメカニズムを含むSeq2Seqモデルに基づく識別ネットワークとによって、テキスト行の文字を識別し、ナンバープレート識別を完了し、撮影角度などの問題の影響で、ナンバープレートが画像中でねじれてしまう可能性があり、テキスト識別の効果を向上させるために、識別前にテキスト行に対して補正操作を行う必要がある。図1において、最終的に二つのテキスト行をそれぞれ補正と識別した後、完全なナンバープレートの識別結果を得る。 The license plate text line identification step identifies the characters in the text line by the correction network based on TPS and the identification network based on the Seq2Seq model, including the attention mechanism, to complete the license plate identification, and the effects of issues such as shooting angle , the license plate may be distorted in the image, and in order to improve the effect of text identification, it is necessary to perform correction operations on the text lines before identification. In FIG. 1, finally, after identifying each of the two text lines as corrected, a complete license plate identification result is obtained.
三つのステップの具体的な実行過程は、以下の通りである。 The specific execution process of the three steps is as follows.
(1)ナンバープレート検出ステップ
YOLOv3ネットワークを使用してオリジナル画像におけるナンバープレート部分を検出する時、オリジナル入力画像をまずグリッドに分割する必要があり、ナンバープレートのセンターがグリッドユニットにある場合、該グリッドは、ナンバープレート検出を担当する。
(1) License plate detection step When using the YOLOv3 network to detect the license plate part in the original image, the original input image needs to be divided into grids first, and if the center of the license plate is in the grid unit, then the grid is responsible for license plate detection.
図2に示すように、YOLOv3ネットワークのバックボーンネットワークは、古典的なDarknet-53であり、主に53レイヤのコンボリューションネットワークで構成され、bottom-up経路、top-down経路及びサイド接続を含む。 As shown in Figure 2, the backbone network of the YOLOv3 network is the classical Darknet-53, which is mainly composed of 53 layers of convolutional networks, including bottom-up paths, top-down paths and side connections.
本発明は、入力画像の解像度を608*608に設定し、Darknet-53のネットワーク構造に従って、特徴図のディメンションを五回低減させる:304、152、76、38、19。異なるサイズのターゲットを検出する時のネットワークの効果を向上させるために、YOLOv3ネットワークは、三種類の異なる次元の特徴図を使用してナンバープレートを検出し、それぞれは76、38、19であり、異なるサイズの特徴テンソルに対してアップサンプリングを経た後にスプライスを行い、最後に出力される特徴テンソルは、高い正確性を有するだけでなく、さらに高い意味性を有する。境界フレームの回帰複雑性を低減させるために、本発明は、Faster-RCNNにおけるAnchor Boxの概念又はSSDにおけるPrior Boxの概念を導入し、k-meansクラスタリング方法を使用してPrior Boxを得る。 The present invention sets the resolution of the input image to 608*608 and reduces the dimension of the feature map five times according to the network structure of Darknet-53: 304, 152, 76, 38, 19. To improve the network's effectiveness in detecting targets of different sizes, the YOLOv3 network detects license plates using three different dimensional feature maps, respectively 76, 38, and 19; Feature tensors of different sizes are spliced after upsampling, and the finally output feature tensor not only has high accuracy, but also has higher significance. In order to reduce the regression complexity of boundary frames, the present invention introduces the concept of Anchor Box in Faster-RCNN or the concept of Prior Box in SSD, and uses the k-means clustering method to obtain the Prior Box.
(2)ナンバープレートテキスト行検出ステップ
本発明のナンバープレート識別方法は、複数の国と地域のナンバープレートに適用され、周知のように、国内でよく見られるナンバープレートの文字は、いずれも単一行であるが、他の国のナンバープレートの文字が複数行であることを考慮すると、後続の文字識別を容易にするために、ナンバープレートの文字を行ごとに検出する必要があると考えられる。単一行のテキストのナンバープレートに対して、該ステップは、検出領域と実際領域のIoU値を向上させることができる。
(2) License plate text line detection step The license plate identification method of the present invention is applied to license plates of multiple countries and regions. However, considering that other countries' license plates have multiple lines of characters, it may be necessary to detect the license plate characters line by line to facilitate subsequent character identification. For a single-line text license plate, this step can improve the IoU values of the detection area and the actual area.
一般的な検出ターゲットとは異なり、テキスト行は、一つのキャラクタシーケンスであり、一貫性の意味を有する。領域生成ネットワーク(RPN)は、ナンバープレートテキスト行の開始位置と終了位置を測位することが比較的に困難であるため、CTPNモデルを採用してナンバープレートテキスト行を検出する。 Unlike typical detection targets, a line of text is a single character sequence and has a coherent meaning. A Region Generation Network (RPN) employs the CTPN model to detect license plate text lines, since it is relatively difficult to locate the start and end positions of license plate text lines.
CTPNネットワークは、垂直フレームを導入してテキスト行を検出し、垂直フレームは、一組の等幅の検出フレームであり、それらの高さは、それぞれ異なり、一つの垂直フレームは、センター位置と高さの二つの指標で決定されてもよい。CPTNネットワークにおいて、一つの回帰モデルを用いて垂直フレームを予測する。垂直フレームのセンター位置tcと高さthの計算方法は、以下の通りである。 The CTPN network introduces a vertical frame to detect lines of text, a vertical frame is a set of equal-width detection frames, their heights are different, and one vertical frame has a center position and a height. It may be determined by two measures of tightness. In the CPTN network, one regression model is used to predict vertical frames. The method of calculating the center position t c and height t h of the vertical frame is as follows.
そのうち、cb yとhbは、それぞれ境界フレームのセンター位置と高さを表し、ca yとhaは、入力画像に基づいて事前に計算し、計算を助けることができる。しかし、画像が水平方向上に16画素の等幅の領域に分割されているため、テキスト行検出フレームが水平方向上にも実際のナンバープレート領域を完全にカバーできることを保証できず、CPTNモデルにおいて、水平方向での測位が正確でない状況が発生する可能性がある。この問題を解决するために、境界最適化の方法を導入し、各垂直フレームが一つの水平方向検出のオフセット量を計算し、このオフセット量の計算方法は、以下の通りである。 Among them, c b y and h b represent the center position and height of the boundary frame respectively, and c a y and ha can be pre-calculated based on the input image to aid the calculation. However, because the image is horizontally divided into equal-width 16-pixel areas, it cannot be guaranteed that the text line detection frame can completely cover the actual license plate area horizontally as well. , a situation may arise in which the positioning in the horizontal direction is not accurate. In order to solve this problem, a method of boundary optimization is introduced to calculate the offset amount of horizontal detection for each vertical frame, and the method of calculating the offset amount is as follows.
そのうち、xa sideが実際のナンバープレート水平境界に最も近い座標を表し、ca xが垂直フレームセンター位置のx座標を表し、waが垂直フレームの幅を表す。 Among them, x a side represents the coordinate closest to the actual license plate horizontal boundary, c a x represents the x coordinate of the vertical frame center position, and w a represents the width of the vertical frame.
図3に示すように、CTPNモデルのバックボーンネットワークは、VGG16ネットワークを使用し、入力画像は、任意の大きさであってもよく、VGG16によって出力される特徴図のサイズは、入力画像の大きさに依存する。複数回のコンボリューションを経て特徴を抽出し、最終的にW*H*Nの特徴図を得て、Nが特徴チャネル数であり、WとHがそれぞれ特徴図の幅と高さである。次に256個の3*3のコンボリューションコアが特徴図上でスライドし、画素点ごとに256次元の特徴ベクトルを抽出し、ピクチャにおける同一行内で抽出された複数の256次元ベクトルを一つのシーケンスと見なし、BLSTMモジュール中に導入し、BLSTMモジュールの後に512次元の完全接続層と出力層が接続される。 As shown in Figure 3, the backbone network of the CTPN model uses the VGG16 network, the input image can be of any size, and the size of the feature map output by VGG16 is the size of the input image. depends on Features are extracted through multiple rounds of convolution, and finally a feature map of W*H*N is obtained, where N is the number of feature channels, and W and H are the width and height of the feature map, respectively. Then 256 3*3 convolution cores slide on the feature map, extract 256-dimensional feature vectors for each pixel point, and combine multiple 256-dimensional vectors extracted within the same row in the picture into one sequence. and introduced into the BLSTM module, after which the 512-dimensional fully connected layer and the output layer are connected.
CTPNネットワークは、同一行のテキストを二つの部分に分割することがあり、本発明では、検出フレーム合併を導入することにより、後続の処理を行い、二つの検出が垂直方向上での重畳がある程度に達した場合、それらを一つの検出フレームに合併し、具体的には、一つの閾値を設定し、垂直方向上での重畳部分が閾値よりも高い場合、両者を合併することである。 The CTPN network may split the same line of text into two parts, and the present invention performs subsequent processing by introducing detection frame merging so that the two detections overlap to some extent in the vertical direction. , they are merged into one detection frame, specifically, one threshold is set, and if the overlapping part in the vertical direction is higher than the threshold, both are merged.
(3)ナンバープレートテキスト行識別ステップ
該ステップは、すでに検出されたナンバープレート上のテキスト行に対する識別を完了する必要があるが、識別する前に、テキスト行を補正する必要がある。撮影画角の問題により、ピクチャ上の文字が歪んで見える可能性があり、ある程度の補正により、歪んだ文字をできるだけ規則的にし、このように、識別の正確率を向上させることができる。
(3) License plate text line identification step This step needs to complete identification for already detected text lines on the license plate, but before identification, the text lines need to be corrected. Due to the problem of the shooting angle of view, the characters on the picture may appear distorted, and some correction can make the distorted characters as regular as possible, thus improving the identification accuracy rate.
本発明は、Seq2Seqネットワークを使用してテキスト識別を行い、そのうちに古典的なアテンションメカニズムが含まれる。テキストの補正に対して、本発明は、STNネットワークをテキスト識別ネットワークに嵌め込むことによって実現され、2D変換によって歪みとねじれのテキストを補正する。 The present invention uses the Seq2Seq network to perform text identification, in which classical attention mechanisms are involved. For text correction, the present invention is implemented by fitting an STN network into a text identification network to correct distorted and twisted text by 2D transformation.
図4に示すように、STNネットワークの主な考え方は、空間変換操作をニューラルネットワークモデルにモデリングする。補正対象の画像において、矩形フレームの四つの頂点と対角線の交点にそれぞれ位置する五つの制御点を決定する。入力ピクチャをIに仮定し、出力される補正後の画像がIrであり、原画像の五つの制御点の座標からなるベクトル群がAと表され、出力される補正後の画像における五つの制御点からなるベクトル群がArと表され、オリジナルテキスト行の制御点ベクトル群Aにおける各制御点の座標は、具体的には、数式19と表される。二次元変換の本質は、一つの補間函数fに近似し、Ar=f(A)を満たすことである。TPS(Thin-Plate-Spline)モデルは、歪みテキスト補正の処理において非常に有効であることが証明されており、ナンバープレートピクチャの補正タスクは、五つの制御点位置の予測タスクに帰着されてもよく、測位ネットワークを用いて画像I上の制御点を予測し、測位ネットワークは、逆伝播勾配によって、出力画像の制御点を回帰分析し、出力画像の五つの制御点を自動的にラベル付けし、
6つのコンボリューションフィルタレイヤ、5つの最大プールレイヤ及び二つの完全接続レイヤで構成される。一つの10次元のベクトルを出力し、5つの2次元ベクトルに再構成し、5つの制御点座標に対応させる。制御点の座標は、正規化を経て、つまり、左上のの頂点座標が(0、0)であり、右下の頂点座標が(1、1)である。
As shown in FIG. 4, the main idea of STN networks is to model the spatial transformation operation into a neural network model. In the image to be corrected, five control points located at the intersections of the four vertices and the diagonal lines of the rectangular frame are determined. Assume that the input picture is I, the output corrected image is Ir , the vector group consisting of the coordinates of the five control points of the original image is represented by A, and the five A vector group consisting of control points is represented by Ar , and the coordinates of each control point in the control point vector group A of the original text line are specifically represented by Equation (19). The essence of a two-dimensional transform is to approximate a single interpolation function f and satisfy A r =f(A). The TPS (Thin-Plate-Spline) model has proven to be very effective in the process of distorted text correction, and the correction task of license plate pictures can be reduced to the task of predicting five control point positions. A positioning network is often used to predict the control points on image I. The positioning network recursively analyzes the control points of the output image by backpropagation gradients and automatically labels the five control points of the output image. ,
It consists of 6 convolution filter layers, 5 max pool layers and 2 fully connected layers. A 10-dimensional vector is output and reconstructed into 5 2-dimensional vectors corresponding to 5 control point coordinates. The coordinates of the control points are normalized, that is, the upper left vertex coordinates are (0,0) and the lower right vertex coordinates are (1,1).
p点の座標が[xp,yp]と表され、それに対応する補正後の点p’の座標は、以下のような方法に従って計算することができる。 The coordinates of the p point are expressed as [x p , y p ], and the corresponding corrected coordinates of the point p′ can be calculated according to the following method.
そのうち、Φ(x)=x2log(x)は、点pとk番目の制御点との間のユークリッド距離に応用される核関数である。 Among them, Φ(x)=x 2 log(x) is the kernel function applied to the Euclidean distance between the point p and the kth control point.
線形システムを解くことによってTPSのパラメータを解いた後、最終的に得られる出力される補正画像の数式は、以下の通りである。 After solving the parameters of the TPS by solving the linear system, the finally obtained formula of the output corrected image is:
そのうち、Vがダウンサンプラであり、Iが入力ピクチャであり、Irが補正後のピクチャであり、原図と補正図の画素点は、ダウンサンプリングを経て最終的に補正された画像を得る。 Among them, V is the down sampler, I is the input picture, Ir is the corrected picture, and the pixel points of the original map and the corrected map are down-sampled to finally obtain the corrected image.
図6に示すように、ナンバープレートテキスト識別ネットワークは、ナンバープレートテキスト行のキャラクタシーケンスを出力するために用いられ、該ネットワークは、一つのseq2seqフレームであり、且つエンコーダ-デコーダパラダイムに依存する内蔵されているアテンションメカニズムを有する。 As shown in FIG. 6, a license plate text identification network is used to output the character sequence of a license plate text line, the network being one seq2seq frame and built-in depending on the encoder-decoder paradigm. have an attention mechanism that
まず、エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上から特徴を抽出し、画像サイズが32*100である。特徴を抽出するコンボリューションネットワークは、ResNet-50に基づく改良であり、最後の三つのダウンサンプリングレイヤのコンボリューションコアの移動ステップサイズは、(2、1)であり、このようにするのは、各特徴チャネル上の特徴図が一つのベクトルであることを保証するためであり、従って、最後に得られる特徴図の大きさは、1*25*512(h*w*n)である。その後特徴図を分割し、一つのベクトルシーケンスで構成されるベクトル群を得て、 X=[x1,x2,…,xT]と表され、そのうち、T=25であり、すなわち特徴図大きさにおける特徴幅w、ベクトル群における各ベクトルは、いずれも512次元であり、すなわち特徴図大きさにおける特徴チャネル数nである。 First, the encoder uses a convolutional neural network to extract features from the corrected license plate text line image, and the image size is 32*100. The convolution network for extracting features is an improvement based on ResNet-50, the moving step size of the convolution core for the last three downsampling layers is (2, 1), so that This is to ensure that the feature map on each feature channel is one vector, so the final feature map size is 1*25*512 (h*w*n). Then divide the feature map to obtain a vector group consisting of a vector sequence, expressed as X=[x 1 , x 2 , . Each of the feature width w in the size and each vector in the vector group has 512 dimensions, that is, the number of feature channels in the feature map size n.
双方向LSTM(BLSTM)ネットワークは、二つの方向上での特徴シーケンスの長距離依存関係を取得することができるので、BLSTMを前のステップで取得された特徴シーケンスに応用することにより、より豊富なコンテキスト関係を有する特徴シーケンスを取得する。BLSTMによって出力される新たな特徴シーケンスは、H=[h1,h2,…,hT]と表され、そのうち、任意の一つの数式22は、数式23と表されてもよい。 Bidirectional LSTM (BLSTM) networks can obtain long-range dependencies of feature sequences in two directions, so applying BLSTM to the feature sequences obtained in the previous step yields a richer Get feature sequences with contextual relationships. The new feature sequence output by BLSTM is represented as H=[h 1 , h 2 , .
BLSTMの任意の一ステップにおいて、デコーダは、最終的にコンテキストベクトルC、デコーダの内部状態s、前のステップの出力yに基づき、最後に一つの確率図を出力し、この確率図は、各キャラクタとシーケンスターミネータ号(EOS)の確率を表す。コンテキストベクトルCは、Hの集約情報であり、C=[c1,c2,…,cT],C=q(H)と表され、ここでのqは、アテンションメカニズムであり、数式24と表されてもよく、
そのうち、数式25は、エンコーダのステップt1の隠れた状態数式26とデコーダのステップt2-1の隠れた状態数式27によって計算して得られるものであり、W、V、bは、いずれもトレーニング可能な重み付けである。
In any one step of BLSTM, the decoder finally outputs one probability diagram based on the context vector C, the internal state s of the decoder, the output y of the previous step, and this probability diagram is for each character and the probability of a sequence terminator (EOS). The context vector C is the aggregated information of H, denoted as C=[c 1 ,c 2 ,...,c T ],C=q(H), where q is the attention mechanism, Eq. may be expressed as
Among them, Equation 25 is obtained by calculating hidden state Equation 26 at step t 1 of the encoder and hidden state Equation 27 at step t 2 -1 of the decoder, and W, V, and b are all It is a trainable weighting.
エンコーダの出力は、また入力としてデコーダに入り、デコーダは、一つの出力ベクトルzと一つの新しい状態ベクトルsを計算する。 The output of the encoder also enters the decoder as input, and the decoder computes one output vector z and one new state vector s.
そのうち、yは、one-hot形式であり、rnnは、GRUサイクルネットワークユニットを表し、出力zは、現在のテキストシンボルを予測するために用いられる。 Wherein y is the one-hot form, rnn represents the GRU cycle network unit, and the output z is used to predict the current text symbol.
最尤推定の考え方を運用し、出力シーケンスの条件確率を最大化するために、最適化する必要なターゲット関数は、以下の通りである。 To operate the concept of maximum likelihood estimation and maximize the conditional probability of the output sequence, the target function that needs to be optimized is:
出力が最大長さを超えた場合、またはEOSシンボルを得た場合、出力シーケンスが終了し、最終的に画像中のナンバープレートテキスト行の識別結果を得たことを示し、本実施例は、Beam Researchアルゴリズムを使用し、そのうちBeam sizeのパラメータが5に設定される。 If the output exceeds the maximum length, or if an EOS symbol is obtained, indicating that the output sequence has ended and finally obtained the identification result of the license plate text line in the image, this embodiment uses the Beam The Research algorithm is used, in which the Beam size parameter is set to 5.
本発明は、AOLPデータセットとUFPR-ALPRデータセットによってトレーニングとテストを行うことにより、本発明によって提案される方法の高いロバスト性と高い性能を検証した。 We have verified the high robustness and high performance of our proposed method by training and testing with AOLP and UFPR-ALPR datasets.
ナンバープレート検出ステップにおいて、IoU値が0.5より大きい場合、ナンバープレートの検出に成功したとみなされ、IoUの数式は、以下の通りである。 In the license plate detection step, if the IoU value is greater than 0.5, the license plate is considered successfully detected, and the IoU formula is as follows:
そのうち、Rdetが検出フレームであり、Rgtがマークフレームである。 Among them, R det is the detection frame and R gt is the mark frame.
ナンバープレートテキスト行検出タスクにおいて、IoUは、検出の正確性を評価するために用いられる。また、ナンバープレートテキスト識別タスクといくつかのナンバープレートテキスト検出タスクにおいて、F1-score使用して性能を評価し、数式は、以下の通りである。 In the license plate text line detection task, IoU is used to assess the accuracy of detection. We also evaluated the performance using F 1 -score in the license plate text identification task and some license plate text detection tasks, and the formula is as follows.
この指標は、正確率precesionとリコール率recallを同時に考慮した。 This index simultaneously considered the accuracy rate precision and the recall rate recall.
本実施例では、二つのデータセットを使用してそれぞれ検証する。各ステップが終了した後、いずれもその効果を検査し、各ステップがいずれも高い性能と高いロバスト性であることを確保する。UFPR-ALPRデータセットとは異なり、AOLPデータセット自体は、トレーニングセットとテストセットを分割していないので、そのうちの三つのサブセットのうちの二つをトレーニングセットとして、一つをテストセットとして利用してもよく、例えば、LEとACサブセットを使用してナンバープレート識別モデルをトレーニングし、RPサブセットを使用してテストする。二つのデータセットのそれぞれの三つの主なステップにおける詳細なテスト結果は、表1から表6を参照してください。 In this example, two data sets are used to validate each. After each step is finished, each one checks its effect to ensure that each step has high performance and high robustness. Unlike the UFPR-ALPR dataset, the AOLP dataset itself does not split the training and test sets, so of the three subsets, two are used as the training set and one as the test set. For example, a license plate recognition model may be trained using the LE and AC subsets and tested using the RP subset. See Tables 1 through 6 for detailed test results on the three main steps for each of the two datasets.
以上に記述されているのは、本発明の具体的な実施の形態に過ぎず、本発明の保護範囲は、それに限らない。いかなる当業者が、本発明に掲示される技術的範囲内に、各種の等価な修正又は置き換えを容易に想到でき、これらの修正又は置き換えは、いずれも、本発明の保護範囲内に含まれるべきである。このため、本発明の保護範囲は、請求項の保護範囲を基にすべきである。 What have been described above are only specific embodiments of the present invention, and the protection scope of the present invention is not limited thereto. Any person skilled in the art can easily come up with various equivalent modifications or replacements within the technical scope posted in the present invention, and any of these modifications or replacements should be included in the protection scope of the present invention. is. Therefore, the protection scope of the present invention should be based on the protection scope of the claims.
Claims (7)
オリジナル画像を取得するS1と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップS2と、
テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップS3と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップS4とを含み、
前記ナンバープレートテキスト行識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ-デコーダパラダイムのアテンションメカニズムが内蔵されているseq2seqネットワークを採用し、
前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向LSTMネットワークに入力した後、テキスト特徴シーケンスh t を得るS41と、
テキスト特徴シーケンスh t をデコーダに入力するS42と、
デコーダは、コンテキストベクトル、デコーダ内部状態及び前のステップの出力を利用し、アテンションメカニズムとGRUサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するS43と、を含み、
前記デコーダの計算式は、数式1の通りであり、
S1 for acquiring an original image;
a license plate detection step S2 of detecting a license plate portion in the original image to obtain a license plate image;
a text line detection step S3 of detecting text lines on the license plate by a text detection network to obtain a license plate text line image;
a text line identification step S4 of inputting the license plate text line image into the license plate text line identification network and finally outputting the character sequence of the license plate text line to complete the license plate identification ;
The license plate text line identification network includes a correction network and a text identification network, respectively, to achieve correction and character identification for the license plate text line image, the correction network corrects text for distortion and twist by two-dimensional transformation. , the text identification network employs a seq2seq network with built-in attention mechanisms of the encoder-decoder paradigm;
Specifically, the text identification network performing character identification on the license plate text line image includes:
The encoder uses a convolutional neural network to extract the text feature map from the corrected license plate text line image, then divides the text feature map and feeds it into a bi-directional LSTM network, after which the text feature sequence h t S41 to obtain
inputting S42 the text feature sequence ht to the decoder;
the decoder uses the context vector, the decoder internal state and the output of the previous step, outputs the probability of each character and the sequence terminator and predicts the current text symbol by means of the attention mechanism and the GRU cycle network unit S43; including
The calculation formula of the decoder is as shown in Formula 1,
回帰モデルを利用してCTPNネットワークの垂直検出フレームを予測して得るS31と、
予測して得られる垂直検出フレームに対して境界最適化を行うS32と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得るS33と、
CTPNネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るS34と、を含む、ことを特徴とする、請求項1に記載のテキスト行識別に基づくナンバープレート識別方法。 Specifically, the step S3 is
S31 using a regression model to predict the vertical detection frame of the CTPN network;
S32 performing boundary optimization on the vertical detection frame obtained by prediction;
a step S33 of merging the vertical detection frames reaching a threshold for which the degree of superimposition in the vertical direction is set into one detection frame to obtain a final vertical detection frame;
The method for license plate identification based on text line identification according to claim 1, characterized in that the CTPN network performs text line detection by vertical detection frames, and includes S34 to obtain a license plate text line image.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735739.2 | 2020-07-28 | ||
CN202010735739.2A CN111914838B (en) | 2020-07-28 | 2020-07-28 | License plate recognition method based on text line recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022025008A JP2022025008A (en) | 2022-02-09 |
JP7246104B2 true JP7246104B2 (en) | 2023-03-27 |
Family
ID=73281498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021105233A Active JP7246104B2 (en) | 2020-07-28 | 2021-06-24 | License plate identification method based on text line identification |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7246104B2 (en) |
CN (1) | CN111914838B (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633429A (en) * | 2020-12-21 | 2021-04-09 | 安徽七天教育科技有限公司 | Method for recognizing handwriting choice questions of students |
KR102560051B1 (en) * | 2021-01-28 | 2023-07-27 | 네이버 주식회사 | Method and system for detecting string using high order polynomial regression |
CN113065561A (en) * | 2021-03-15 | 2021-07-02 | 国网河北省电力有限公司 | Scene text recognition method based on fine character segmentation |
WO2022205018A1 (en) * | 2021-03-30 | 2022-10-06 | 广州视源电子科技股份有限公司 | License plate character recognition method and apparatus, and device and storage medium |
CN113191220A (en) * | 2021-04-15 | 2021-07-30 | 广州紫为云科技有限公司 | Deep learning-based double-layer license plate recognition method |
CN113159158A (en) * | 2021-04-16 | 2021-07-23 | 西安建筑科技大学 | License plate correction and reconstruction method and system based on generation countermeasure network |
CN113435436A (en) * | 2021-06-03 | 2021-09-24 | 北京理工大学 | Scene character recognition method based on linear constraint correction network |
CN116311214B (en) * | 2023-05-22 | 2023-08-22 | 珠海亿智电子科技有限公司 | License plate recognition method and device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015114949A (en) | 2013-12-13 | 2015-06-22 | 大日本印刷株式会社 | Image processor, image processing method, program for image processor, and recording medium |
JP2016091458A (en) | 2014-11-10 | 2016-05-23 | 株式会社ブロードリーフ | Program, image processor, and image processing method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19507059B9 (en) * | 1995-03-01 | 2005-02-17 | Wevelsiep, Klaus, Prof. Dipl.-Ing. Dr. | Method for omnidirectional acquisition of OCR plain text on labels or similar data carriers by random search and decoding with a neural network |
US11030466B2 (en) * | 2018-02-11 | 2021-06-08 | Nortek Security & Control Llc | License plate detection and recognition system |
CN108549893B (en) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | End-to-end identification method for scene text with any shape |
CN109753954A (en) * | 2018-11-14 | 2019-05-14 | 安徽艾睿思智能科技有限公司 | The real-time positioning identifying method of text based on deep learning attention mechanism |
CN109902622B (en) * | 2019-02-26 | 2020-06-09 | 中国科学院重庆绿色智能技术研究院 | Character detection and identification method for boarding check information verification |
CN109919147A (en) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | The method of text identification in drop for clothing image |
CN111325203B (en) * | 2020-01-21 | 2022-07-05 | 福州大学 | American license plate recognition method and system based on image correction |
-
2020
- 2020-07-28 CN CN202010735739.2A patent/CN111914838B/en active Active
-
2021
- 2021-06-24 JP JP2021105233A patent/JP7246104B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015114949A (en) | 2013-12-13 | 2015-06-22 | 大日本印刷株式会社 | Image processor, image processing method, program for image processor, and recording medium |
JP2016091458A (en) | 2014-11-10 | 2016-05-23 | 株式会社ブロードリーフ | Program, image processor, and image processing method |
Non-Patent Citations (3)
Title |
---|
Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai,Robust Scene Text Recognition with Automatic Rectification,[online],2016年07月,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7780821 |
Qi-chao Mao, Hong-Mei Sun, Yan-Bo Liu, and Rui-Sheng Jia,Mini-YOLOv3: Real-Time Object Detector for Embedded Applications,[online],2019年09月16日,pp.133529-133538,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8839032 |
機械学習で車両のナンバープレートを認識してみる,[online],2020年07月25日,https://www.pullup.net/pane_center.php/pane_center.php?anchor=20200725 |
Also Published As
Publication number | Publication date |
---|---|
JP2022025008A (en) | 2022-02-09 |
CN111914838B (en) | 2024-05-31 |
CN111914838A (en) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7246104B2 (en) | License plate identification method based on text line identification | |
Bulat et al. | Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans | |
CN110287960B (en) | Method for detecting and identifying curve characters in natural scene image | |
CN109902622B (en) | Character detection and identification method for boarding check information verification | |
Kamal et al. | Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint | |
US20200250436A1 (en) | Video object segmentation by reference-guided mask propagation | |
WO2021196873A1 (en) | License plate character recognition method and apparatus, electronic device, and storage medium | |
WO2020133442A1 (en) | Text recognition method and terminal device | |
CN104573688A (en) | Mobile platform tobacco laser code intelligent identification method and device based on deep learning | |
CN113435240B (en) | End-to-end form detection and structure identification method and system | |
CN111008632B (en) | License plate character segmentation method based on deep learning | |
CN113609896A (en) | Object-level remote sensing change detection method and system based on dual-correlation attention | |
CN112418216A (en) | Method for detecting characters in complex natural scene image | |
CN111008633A (en) | License plate character segmentation method based on attention mechanism | |
CN111191611A (en) | Deep learning-based traffic sign label identification method | |
CN111027539A (en) | License plate character segmentation method based on spatial position information | |
CN113158977B (en) | Image character editing method for improving FANnet generation network | |
CN116645592B (en) | Crack detection method based on image processing and storage medium | |
CN115131797A (en) | Scene text detection method based on feature enhancement pyramid network | |
CN112560584A (en) | Face detection method and device, storage medium and terminal | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
CN113486715A (en) | Image reproduction identification method, intelligent terminal and computer storage medium | |
CN111881914B (en) | License plate character segmentation method and system based on self-learning threshold | |
CN111339919B (en) | Mirror detection method based on multitask cooperation | |
KR20110087620A (en) | Layout based page recognition method for printed medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220614 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7246104 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |