JP2005352705A - Device and method for pattern recognition, and character recognizing method - Google Patents
Device and method for pattern recognition, and character recognizing method Download PDFInfo
- Publication number
- JP2005352705A JP2005352705A JP2004171878A JP2004171878A JP2005352705A JP 2005352705 A JP2005352705 A JP 2005352705A JP 2004171878 A JP2004171878 A JP 2004171878A JP 2004171878 A JP2004171878 A JP 2004171878A JP 2005352705 A JP2005352705 A JP 2005352705A
- Authority
- JP
- Japan
- Prior art keywords
- image
- pattern recognition
- character
- frame
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
本発明は、パターン認識装置、パターン認識方法及び文字認識方法に関し、たとえば、自動車等車両の登録番号(いわゆる車両ナンバー)の認識や、広告看板等に掲載された文字列(例:電話番号、ホームページアドレス、電子メールアドレスなど)の認識に用いて好適なパターン認識装置、パターン認識方法及び文字認識方法に関する。 The present invention relates to a pattern recognition apparatus, a pattern recognition method, and a character recognition method, for example, recognition of a registration number (so-called vehicle number) of a vehicle such as an automobile, and a character string (eg, telephone number, homepage) posted on an advertisement signboard. The present invention relates to a pattern recognition apparatus, a pattern recognition method, and a character recognition method suitable for use in recognition of addresses, e-mail addresses, and the like.
パターン認識とは、人間が視覚系を通して外界を認識する行為、つまり、未知の入力パターンと、あらかじめ記憶している標準パターンとの間の類似性を評価し、もっとも類似性の高い標準パターンを入力パターンとして認識する一連の行為をコンピュータに代行させることをいう。 Pattern recognition is the action that humans recognize the outside world through the visual system, that is, the similarity between an unknown input pattern and a standard pattern stored in advance is evaluated, and the standard pattern with the highest similarity is input. This refers to having a computer act as a series of actions that are recognized as patterns.
ここで、標準パターンの種類のことを“クラス”という。たとえば、数字の場合は0〜9までの10個のクラスがある。パターン認識の典型的な対象例は、数字や文字又は記号など(以下「文字等」という。)である。これは、文字等のクラスには上限があり、扱いやすいからである。たとえば、数字やアルファベットは、ASCII(American Standard Code for Information Interchange)コードと呼ばれる7ビットの計128種類のクラスしかない(正確には空白文字と制御記号を除外した94種類)。 Here, the type of standard pattern is called “class”. For example, in the case of numbers, there are 10 classes from 0 to 9. Typical target examples of pattern recognition are numbers, characters, symbols, and the like (hereinafter referred to as “characters”). This is because there is an upper limit in the class of characters and the like, and it is easy to handle. For example, numbers and alphabets have only a total of 128 types of 7-bit classes called ASCII (American Standard Code for Information Interchange) codes (94 types excluding blank characters and control symbols).
また、他の欧州言語で用いられるアクセント記号付きの文字やキリル文字、アラビア文字なども表せるようにした拡張ASCII文字セット(8ビットASCII文字)も定義されている。さらに、63種類の1バイト仮名文字の規格(JIS7/JIS8の2方式)や、世界中の主要な文字(日本語、中国語、韓国語等)を一括して扱う多重言語文字セットの規格(いわゆるUnicode)なども定義されている。 In addition, an extended ASCII character set (8-bit ASCII characters) is also defined which can express accented characters, Cyrillic characters, Arabic characters, etc. used in other European languages. In addition, there are 63 different standards for 1-byte kana characters (JIS7 / JIS8) and multilingual character set standards that handle major characters (Japanese, Chinese, Korean, etc.) all over the world ( So-called Unicode) is also defined.
このように、パターン認識のうち、文字等を認識するものは、たとえば、その対象が数字とアルファベット及び一部の記号である場合、高々94種類のクラスを評価すればよいので、コンピュータの記憶容量の圧迫を招かず、しかも、コンピュータの処理負担も軽いので実用的である。しかしながら、本発明の思想は、かかる限定的な用途のパターン認識に限定されない。文字等に限らず、クラスとして定義できるものであればよく、任意にデザインされた図形を認識するものであってもよい。以下においては、認識対象のパターンを「文字等」として説明するが、これは説明の簡単化のための便宜である。 As described above, among the pattern recognitions, those that recognize characters and the like, for example, when the target is numerals, alphabets, and some symbols, it is sufficient to evaluate at most 94 types of classes. This is practical because it does not cause any pressure on the computer, and the processing load on the computer is light. However, the idea of the present invention is not limited to such limited pattern recognition. It may be anything that can be defined as a class, not limited to characters and the like, and may recognize a figure designed arbitrarily. In the following description, the pattern to be recognized is described as “characters”, but this is for convenience of explanation.
パターン認識装置の従来技術について説明する。たとえば、特許文献1には、「時系列文書画像から、少ない計算コスト・メモリ量で広範囲な文書を読み取る方法及び装置」に関する技術が記載されている。
The prior art of the pattern recognition apparatus will be described. For example,
この従来技術によれば、“時系列文書画像”とは、時系列画像取得手段、すなわち、時々刻々と画像を取得し、出力できるビデオカメラのような装置、又は既に収録されている文書動画像を再生することができるビデオ装置などによって取得された画像のこととされている。 According to this prior art, “time-series document image” means time-series image acquisition means, that is, a device such as a video camera that can acquire and output an image every moment, or a document moving image that has already been recorded. It is assumed that the image is acquired by a video device or the like that can reproduce the video.
一般に、ビデオカメラは毎秒数十フレーム(たとえば、30フレーム/秒)の静止画像を生成出力し、また、ビデオ装置はビデオカメラの出力画像などを収録(録画)すると共に必要に応じて再生出力するものであるから、上記の“時系列文書画像”は、文書(紙の上に文字列を書き込み又は印刷したもの)を被写体にして、その被写体を所定の時間、ビデオカメラで撮影した動画像であるということができる。そして、この場合の“時系列”とは、一定の周期、たとえば、30フレーム/秒程度の間隔で静止画が連続していることを意味するものと解される。 In general, a video camera generates and outputs a still image of several tens of frames per second (for example, 30 frames / second), and a video device records (records) an output image of the video camera and reproduces and outputs it as necessary. Therefore, the above “time-series document image” is a moving image obtained by taking a document (a character string written or printed on paper) as a subject and photographing the subject with a video camera for a predetermined time. It can be said that there is. The “time series” in this case is understood to mean that still images are continuous at a constant period, for example, an interval of about 30 frames / second.
さて、この従来技術においては、微小な時間差をおいて獲得した画像(つまり、時系列文書画像)より抽出される文字認識結果は多くの重複を有するので、重複部分を対応づけることによって2つの認識結果を合成することができるという基本的な原理を示した上で、時系列文書画像中の文字数が少ないと、文字の切り出しを誤りやすいという技術課題を示し、動的計画法を用いた非線形な対応づけ(DPマッチング)により切り出し誤りを考慮した対応づけを行い、更に動的計画法の部分区間における累積距離を利用することにより、上記の技術課題の解決、すなわち、認識誤りをおかしやすい文字コード(たとえば、“ば”と“ぱ”など)を正しく識別できるとされている。 In this prior art, character recognition results extracted from images (that is, time-series document images) acquired with a small time difference have a large number of duplicates. In addition to showing the basic principle that results can be synthesized, if the number of characters in a time-series document image is small, this indicates a technical problem that character extraction is likely to be erroneous. By matching (DP matching) considering cut-out errors, and using the cumulative distance in the partial section of dynamic programming, the character code that solves the above technical problem, that is, easily recognizes the recognition error. (For example, “BA” and “PA”) can be correctly identified.
ここで、DPマッチングについて概説すると、通常、同じパターンの図形でも標準パターンと未知入力パターンの長さ(特徴ベクトルのデータ個数)が異なることがある。また、同じパターンの長さでも局所的に伸縮してみると非常によく一致することがある。このようなときに有効なのが「動的計画法を用いて二つのパターンの要素間の対応づけ(整列化)を行い、それによって類似度を計算する」という処理である。この処理は、動的計画法(Dynamic Programing)の頭文字をとってDPマッチングと呼ばれている。動的計画法は、ある問題を解きたいとき、“それと同じタイプで、それよりサイズが小さい一群の問題”の解を利用すると、計算量が少なく、しかも同じ手続きの繰り返しで解を得ることができという問題解決手法であり、とりわけ、コンピュータ向きの手法である。 Here, when DP matching is outlined, there is a case where the length of the standard pattern and the unknown input pattern (number of data of feature vectors) is usually different even in the same pattern figure. Also, even when the length of the same pattern is used, it may match very well when locally expanded or contracted. A process that is effective in such a case is a process of “corresponding (alignment) between elements of two patterns using dynamic programming, and thereby calculating a similarity”. This process is called DP matching after the acronym of Dynamic Programming. When you want to solve a certain problem, dynamic programming uses a solution of “a group of problems of the same type and smaller size”, and it can be obtained with a small amount of computation and by repeating the same procedure. It is a problem-solving technique that can be done, especially a computer-oriented technique.
しかしながら、上記の従来技術は、DPマッチングを応用し、認識誤りをおかしやすい文字コードを正しく区別できるようにした点で有益ではあるが、たとえば、位置不定の枠線で囲まれた文字列の認識精度が充分でないという問題点がある。 However, the above prior art is useful in that DP matching is applied so that character codes that are likely to cause recognition errors can be correctly distinguished. For example, recognition of a character string surrounded by an indefinite frame is recognized. There is a problem that the accuracy is not sufficient.
図20は、枠線で囲まれた文字列画像の一例を示す図である。この図において、便宜的に示す“123456”の文字列1は、横長矩形状の枠線2に囲まれている。
FIG. 20 is a diagram illustrating an example of a character string image surrounded by a frame line. In this figure, a
これらの文字列1と枠線2とを含む画像3から文字列1を切り出して認識する場合、枠線2の一部が文字として誤認されることがある。たとえば、文字列1と枠線2の距離Lが極接近している場合、文字列1の前後に位置する枠線2の一部が“I”や“1”などと誤認されることがある。この誤認は、DPマッチングを適用しても回避できない。微小な時間差をおいて獲得した画像の各々にも枠線2が写っているからである。なお、枠線2の位置が固定であれば(たとえば、文字列1からの距離Lが大きく且つ既知であれば)、文字列1のみの切り出しウィンドウを設定するなどして不要な枠線2の取り込みを抑制し、誤認を回避できると考えられるが、枠線2の位置が不定である場合には、適切な切り出しウィンドウの設定は困難であり、文字列1の誤認を否めない。
When the
このような誤認のケースは、たとえば、装飾枠付の車両のナンバープレートを認識するときに起こり得る。とりわけ、ナンバープレートの縁から内側へと装飾枠がはみ出している場合で、しかも、文字列(車両ナンバー)の先頭や後尾に装飾枠が接近し、あるいは、文字列の一部に装飾枠が重なっている場合などに起こり得る。加えて、ナンバープレートの装飾枠は様々なデザインのものが使用されるため、それらの装飾枠によって形成される枠線の位置も不定となるからである。 Such a misidentification case may occur, for example, when a license plate of a vehicle with a decorative frame is recognized. In particular, when the decorative frame protrudes from the edge of the license plate to the inside, the decorative frame approaches the beginning or tail of the character string (vehicle number), or the decorative frame overlaps part of the character string. This can happen if you are. In addition, because the decorative frame of the license plate has various designs, the position of the frame line formed by the decorative frame is also undefined.
なお、“装飾枠”とは、ナンバープレートを補強するため又は美観を高めるために、そのナンバープレートの周囲を取り囲むようにして所望により取り付けられる枠体のことをいう。ナンバープレートフレームともいう。単純なデザインのものから色や形に凝ったものあるいは文字装飾や図形装飾を施したものまで多種多様なものが用いられている。 The “decorative frame” refers to a frame that is attached as desired so as to surround the license plate in order to reinforce the license plate or enhance the appearance. Also called license plate frame. A wide variety of products are used, from simple designs to elaborate colors and shapes, or decorated with letters and graphics.
または、文字列4が横長楕円形状の枠線5に囲まれている場合、上記と同様に、これらの文字列4と枠線5とを含む画像6から文字列4を切り出して認識する際に、やはり、枠線5の一部が文字として誤認(文字列4の前後に位置する枠線5の一部が“(”や“)”など)されることがある。
Alternatively, when the
このような誤認のケースは、たとえば、広告看板等の文字列を認識するときに起こり得る。当該文字列を目立たせるために楕円の枠線で囲むとき、デザインの都合等により、文字列の前後と枠線との間に十二分な空きスペースを確保できない場合などである。 Such a misidentification case may occur, for example, when a character string such as an advertising billboard is recognized. When the character string is surrounded by an elliptical frame to make it stand out, there is a case where a sufficient free space cannot be secured between the front and rear of the character string and the frame due to the convenience of the design.
そこで本発明の目的は、認識対象パターン(たとえば、文字列)の周囲に位置不定の枠線が存在していた場合でも、当該文字列を精度よく認識できるパターン認識装置、パターン認識方法及び文字認識方法を提供することにある。 Therefore, an object of the present invention is to provide a pattern recognition device, a pattern recognition method, and a character recognition that can accurately recognize a character string even when a frame with an indefinite position exists around the recognition target pattern (for example, a character string). To provide a method.
本発明は、同一の被写体の画像を一定又は不定の周期で撮影して時系列的に出力する撮像手段と、前記画像の中から所定の形状に合致する読み取り範囲を切り出す切り出し手段と、前記切り出し手段によって切り出された切り出し画像の中から対象となるパターン認識行の画像を取り出すパターン認識行取り出し手段と、前記パターン認識行の画像に含まれるパターン認識候補を抽出する抽出手段と、前記パターン認識候補の中から非パターン認識候補を除去する除去手段と、前記非パターン認識候補が除去されたパターン認識候補を確定パターンとして出力する出力手段とを備えたことを特徴とする。
好ましくは、前記除去手段は、DPマッチングによって前記パターン認識候補の中から非パターン認識候補を除去することを特徴とする。
また、好ましくは、前記所定の形状は、車両のナンバープレートの外形に相当する形状であり、且つ、前記パターン認識行は、当該ナンバープレート上の文字列行であることを特徴とする。
ここで、前記撮像手段は、前記被写体の画像をリアルタイムに撮影するものであってもよいが、これに限定されず、たとえば、ビデオカメラやビデオ装置のように、事前に撮影し又は録画しておいた前記被写体の画像を再生出力するものであってもよい。
The present invention provides an imaging unit that captures images of the same subject at a constant or indefinite period and outputs them in time series, a clipping unit that clips a reading range that matches a predetermined shape from the image, and the clipping Pattern recognition line extraction means for extracting an image of a target pattern recognition line from the cut image cut out by the means, extraction means for extracting a pattern recognition candidate included in the image of the pattern recognition line, and the pattern recognition candidate Removing means for removing non-pattern recognition candidates from the pattern, and output means for outputting the pattern recognition candidates from which the non-pattern recognition candidates have been removed as a definite pattern.
Preferably, the removing unit removes non-pattern recognition candidates from the pattern recognition candidates by DP matching.
Preferably, the predetermined shape is a shape corresponding to an outer shape of a license plate of a vehicle, and the pattern recognition line is a character string line on the license plate.
Here, the image pickup unit may take an image of the subject in real time, but is not limited thereto. For example, the image pickup unit may take a picture or record in advance like a video camera or a video device. It is also possible to reproduce and output the image of the subject that has been placed.
本発明では、時系列的に連続する同一の被写体の画像の中から所定の形状に合致する読み取り範囲を切り出し、この切り出し画像の中から対象となるパターン認識行の画像を取り出し、この対象となるパターン認識行の画像に含まれるパターン認識候補を抽出するとともに、このパターン認識候補の中から非パターン認識候補を除去し、非パターン認識候補が除去されたパターン認識候補を確定パターンとして出力するので、たとえば、枠線に囲まれた文字列をパターン認識する場合であって、その枠線の一部が文字列に接近し、文字列と誤認(枠線の縦棒が“I”や“1”などと誤認)されるような場合においては、これらの誤認文字が非パターン認識候補として除去されるため、正しい文字認識を行うことができ、文字列の周囲に位置不定の枠線が存在していた場合でも、当該文字列を精度よく認識できるパターン認識装置、パターン認識方法及び文字認識方法を提供することができる。
また、枠状の物体又は枠状の図形を含む同一の被写体物を時系列的に撮像した複数の画像の中から、前記枠状の物体又は枠状の図形の周囲の画像を含む枠周囲画像を切り出し、前記複数の画像に対応する各々の該枠周囲画像に対してそれぞれ文字認識を行って複数の文字認識候補の文字を算出し、該文字認識候補の文字列のうち、部分集合の一致度合いが高い文字列を文字認識結果として出力するようにすれば、枠の位置が特定できない連続した動画像であって、しかも、文字の桁数や文字配置の種類が多数存在する場合であっても、文字画像を誤って非文字と誤認識することがない。これは、文字以外の画像に対して認識した結果は、不定文字と判定されるか、あるいは、安定して同一の文字として認識されないからである。
また、前記枠周囲画像を上下にサーチして文字領域を含まない部分を検出し、該文字領域を含まない部分を前記枠周囲画像から削除し、該該文字領域を含まない部分を削除した枠周囲画像に対して文字認識を行うようにすれば、枠との干渉によって文字が誤って排除されるという、セグメンテーション誤りを抑制することができる。
In the present invention, a reading range that matches a predetermined shape is cut out from images of the same subject that are continuous in time series, an image of a target pattern recognition line is taken out from the cut-out image, and becomes the target. Since the pattern recognition candidate included in the image of the pattern recognition line is extracted, the non-pattern recognition candidate is removed from the pattern recognition candidate, and the pattern recognition candidate from which the non-pattern recognition candidate is removed is output as a confirmed pattern. For example, in the case of pattern recognition of a character string surrounded by a frame line, a part of the frame line approaches the character string and is mistaken as a character string (the vertical bar of the frame line is “I” or “1”. In such a case, these misidentified characters are removed as non-pattern recognition candidates. Even if the border is present, the pattern recognition apparatus of the character string can be recognized accurately, it is possible to provide a pattern recognition method and a character recognition method.
In addition, a frame peripheral image including an image around the frame-shaped object or the frame-shaped graphic from among a plurality of images obtained by capturing the same subject including the frame-shaped object or the frame-shaped graphic in time series And character recognition is performed on each of the frame surrounding images corresponding to the plurality of images to calculate a plurality of character recognition candidate characters, and a subset of the character recognition candidate character strings is matched. If a character string with a high degree is output as a character recognition result, it is a continuous moving image in which the position of the frame cannot be specified, and there are many types of character digits and character arrangements. However, the character image is not erroneously recognized as a non-character. This is because the result of recognition for an image other than a character is determined as an indefinite character or is not stably recognized as the same character.
Further, the frame surrounding image is searched up and down to detect a portion that does not include a character region, a portion that does not include the character region is deleted from the frame surrounding image, and a portion that does not include the character region is deleted. If character recognition is performed on the surrounding image, it is possible to suppress a segmentation error in which characters are erroneously excluded due to interference with the frame.
以下、本発明の実施の形態を、特に限定しないが、「車両ナンバープレート読み取り装置」への適用を例にして図面に基づいて説明する。なお、以下の説明における様々な細部の特定ないし実例および数値や文字列その他の記号の例示は、本発明の思想を明瞭にするための、あくまでも参考であって、それらのすべてまたは一部によって本発明の思想が限定されないことは明らかである。また、周知の手法、周知の手順、周知のアーキテクチャおよび周知の回路構成等(以下「周知事項」)についてはその細部にわたる説明を避けるが、これも説明を簡潔にするためであって、これら周知事項のすべてまたは一部を意図的に排除するものではない。かかる周知事項は本発明の出願時点で当業者の知り得るところであるので、以下の説明に当然含まれている。 In the following, embodiments of the present invention will be described with reference to the drawings, taking application to a “vehicle license plate reading device” as an example, although not particularly limited. It should be noted that the specific details or examples in the following description and illustrations of numerical values, character strings, and other symbols are for reference only to clarify the idea of the present invention, and all or some of them may be used as a reference. Obviously, the idea of the invention is not limited. In addition, a well-known technique, a well-known procedure, a well-known architecture, a well-known circuit configuration, and the like (hereinafter, “well-known matter”) are not described in detail, but this is also to simplify the description. Not all or part of the matter is intentionally excluded. Such well-known matters are known to those skilled in the art at the time of filing of the present invention, and are naturally included in the following description.
図1は、車両ナンバープレート読み取り装置のシステム構成図である。この図において、自動車等車両(以下「自車」という。)10に搭載された車両ナンバープレート読み取り装置11(パターン認識装置)は、テレビカメラ12(撮像手段)と、コントロールユニット13と、ディスプレイユニット14とを備える。
FIG. 1 is a system configuration diagram of a vehicle license plate reader. In this figure, a vehicle license plate reading device 11 (pattern recognition device) mounted on a vehicle such as an automobile (hereinafter referred to as “own vehicle”) 10 includes a television camera 12 (imaging means), a
テレビカメラ12は、所定画角の撮影レンズ15を任意方向(ここでは自車10の前方とする。)に向けて車体に取り付けられており、自車10の前方画像を所定の短い周期(たとえば、毎秒30フレーム程度)で撮影し、時系列的に連続した静止画の集まりである動画を生成し、コントロールユニット13に出力する。ここで、テレビカメラ15は、上記の動画を生成できる撮像デバイスを備えたものであればよく、原理的には、たとえば、真空管方式の撮像管を用いたものであってもよいが、消費電力や重量の点で、CCD(Charge Coupled Devices)カメラやCMOS(Complementary Metal Oxide Semiconductor)カメラなどの半導体撮像デバイスの使用が望ましい。さらに、屋外におけるあらゆる明るさの撮影環境を考慮すると、とりわけダイナミックレンジが広いカメラ(たとえば、CMOSカメラ)の使用が望ましい。但し、発明の思想上は、テレビカメラ15の具体的構成は限定されない。自車10の前方画像を所定の短い周期(一定の周期が望ましいが、極端に異ならなければ不定の周期でも構わない。)で撮影し、時系列的に連続した静止画の集まりである動画を生成して出力できるものであればよい。
The
コントロールユニット13は、テレビカメラ15からの動画を用いて、認識対象車両(ここでは自車10の前方に位置する「先行車16」とする。)のナンバープレート17の文字列(車両ナンバー)を認識するものであり、また、ディスプレイユニット14は、文字認識の結果を表示して自車10の乗員(運転者等)に知らせるものである。
The
図2は、車両ナンバープレート読み取り装置11の概念的な機能ブロック図である。車両ナンバープレート読み取り装置11は、機能別に、画像入力部18(撮像手段)、位置検出部19(切り出し手段)、上下方向背景除去部20(パターン認識行取り出し手段)、文字認識部21(抽出手段)、補正処理部22(除去手段)、認識結果出力部23(出力手段)及び制約条件記憶部24の各部に分けることができる。
FIG. 2 is a conceptual functional block diagram of the vehicle
画像入力部18は、自車10の前方画像を所定の短い周期で撮影し、時系列的に連続した静止画の集まりである動画を生成して出力するものであり、この画像入力部18は、上記のテレビカメラ15に相当する。なお、画像の“入力部”としているのは、テレビカメラ15の出力画像だけに限定されることなく、たとえば、ビデオ装置の再生画像であってもよいことを意味する。
The
画像入力部18以外の各部、すなわち、位置検出部19、上下方向背景除去部20、文字認識部21、補正処理部22、認識結果出力部23及び制約条件記憶部24は、コントロールユニット13の内部機能ブロックであり、たとえば、コントロールユニット13がコンピュータとその周辺回路によって構成されているものとするとき、それらのコンピュータや周辺回路等のハードウェアリソースと、当該コンピュータの基本プログラムや各種の応用プログラムなどのソフトウェアリソースとの有機的結合によって実現される機能ブロックであるが、言うまでもなく、それらの機能の全て又は一部をハードロジックで構成しても構わない。
Each unit other than the
図3は、車両ナンバープレート読み取り装置11のシステム全体の動作フローを示す図である。この図において、ステップS1は画像入力部18の動作工程(撮像工程)、ステップS2は位置検出部19の動作工程(切り出し工程)、ステップS3は上下方向背景除去部20の動作工程(パターン認識行取り出し工程)、ステップS4は文字認識部21の動作工程(抽出工程)、ステップS5は補正処理部22の動作工程(除去工程)、ステップS6は認識結果出力部23の動作工程(出力工程)である。車両ナンバープレート読み取り装置11は、これらのステップS1〜ステップ6を逐次に実行しながら、先行車16のナンバープレート17の文字列(車両ナンバー)を認識し、その認識結果をディスプレイユニット14に表示するという動作を自車10の走行中、繰り返し実行する。
FIG. 3 is a diagram showing an operation flow of the entire system of the vehicle
なお、ここでは、先行車16の車両ナンバーの認識結果を単にディスプレイユニット14に表示しているだけであるが、これに限定されない。たとえば、別途に車両ナンバー登録用のデータベースを備えておき、先行車16の車両ナンバーの認識結果とデータベースの登録情報とを照合して一致/不一致をディスプレイユニット14に表示するようにしてもよい。このようにすると、たとえば、盗難車両の照合作業を自動化することができる。
Here, the recognition result of the vehicle number of the preceding
まず、ステップS1で、先行車16を含む動画像を時系列的に連続して取り込み、続くステップS2〜ステップS6で、動画像を構成する各静止画(フローチャートでは“1画像”と称している。)ごとに所要の処理を行う。すなわち、ステップS2で、静止画からナンバープレート17の画像(少なくともプレート枠と文字列とを含む画像)を切り出し、ステップS3で、ナンバープレート17の切り出し画像から文字列が存在する行の画像(文字列とその文字列の前後に位置するプレート枠とを含む画像)を取り出す。次に、ステップS4で、文字列が存在する行の画像から当該行を除く上下の背景を除去して、その背景を除去した画像に含まれる文字を認識し、認識された文字列を仮認識文字列として出力する。次に、ステップS5で、DPマッチング処理を行い、仮認識文字列の部分集合の一致度合いが高い文字列を補正認識文字列として決定して出力する。そして、最後に、補正認識文字列をもとに認識結果を判定して、その判定結果をディスプレイユニット14に出力する。なお、図2の制約条件記憶部24については後で説明する。
First, in step S1, moving images including the preceding
各部の動作を詳しく説明する。
図4は、位置検出部19の具体的な動作フローを示す図である。
まず、ステップS2aで、画像入力部18で入力された動画像から1フレームの画像(静止画)を取り出す。
The operation of each part will be described in detail.
FIG. 4 is a diagram illustrating a specific operation flow of the
First, in step S2a, one frame image (still image) is extracted from the moving image input by the
図5は、画像入力部18で入力された動画像25を示す図である。動画像25は、自時系列的に連続した静止画の集まりである動画であり、各々の静止画は図中の符号F1、F2、F3、・・・・で示されている。
FIG. 5 is a diagram illustrating the moving
次いで、ステップS2bで、1フレームの画像(静止画)のエッジ抽出を行う。
図6は、エッジ抽出画像26を示す図である。エッジ抽出とは、画像中の輪郭線を際立たせる処理のことをいう。図示のエッジ抽出画像26では、先行車16の後部画像のうち、ボディ外形、リアウィンドウ、テールランプ等の灯火具、リアバンパー、テールゲート開閉ノブなどの輪郭線が強調表示(図では白レベル強調)されていると共に、ナンバープレート外枠と、そのプレート内の文字の外形線も同様に強調表示されている。
Next, in step S2b, edge extraction of one frame image (still image) is performed.
FIG. 6 is a diagram showing the
次に、ステップS2cで、エッジ抽出画像26のサイズを小さくする。ここでは、便宜的にエッジ抽出画像26のサイズを193×96画素(ピクセル)とし、それを32×16画素にサイズに圧縮するものとする。
Next, in step S2c, the size of the
次いで、ステップS2dで、サイズ圧縮したエッジ抽出画像26の中から注目領域(ここではナンバープレート17)の重心を求める。
Next, in step S2d, the center of gravity of the attention area (here, the license plate 17) is obtained from the edge-extracted
図7は、注目領域(ここではナンバープレート17)の重心を求める際に用いられる概念図であり、ここでは、ニューラルネットワーク(以下「NN」と略す。)を例にしている。図示のNNは、入力層27、中間層28及び出力層29の3層構造を有しており、中間層28にはナンバープレートの重心座標が学習されている。また、ナンバープレート以外の、たとえば、リアウィンドウ、テールランプ等の灯火具、リアバンパー、テールゲート開閉ノブなどについては抑制学習を行う。入力層27にサイズ圧縮したエッジ抽出画像26を与えると、出力層29からナンバープレートの重心の位置が取り出される。
FIG. 7 is a conceptual diagram used when obtaining the center of gravity of the region of interest (here, the license plate 17). Here, a neural network (hereinafter abbreviated as “NN”) is taken as an example. The illustrated NN has a three-layer structure of an input layer 27, an intermediate layer 28, and an output layer 29, and the center-of-gravity coordinates of the license plate are learned in the intermediate layer 28. Further, other than the license plate, for example, lighting learning such as a rear window and a tail lamp, a rear bumper, and a tail gate opening / closing knob are subjected to suppression learning. When the
最後に、ステップS2eで、ナンバープレートの重心を元画像サイズに投影加算し、部分画像(ナンバープレート領域を含む画像)の切り出し位置を決定し、ステップS2fで、ナンバープレート画像とその位置を出力する。なお、投影加算の際に、ガウスフィルタを掛けることによって近似的に連続的な分布を作ることができ、位置検出の精度を高めることができる。 Finally, in step S2e, the center of gravity of the license plate is projected and added to the original image size to determine the cutout position of the partial image (image including the license plate area), and in step S2f, the license plate image and its position are output. . In addition, an approximate continuous distribution can be created by applying a Gaussian filter during projection addition, and the accuracy of position detection can be improved.
図8は、ナンバープレート画像の例を示す図である。図(a)において、ナンバープレート画像31(切り出し画像)は、車両ナンバーの文字列(図では一例として米国ナンバーの“4UMV844”を示している。)と、その文字列の周囲を取り囲む横長矩形状の枠線とを含み、いずれも白抜きのエッジ線で強調されている。図(b)は、画素数を削減して圧縮したナンバープレート画像32を示す図である。
FIG. 8 is a diagram illustrating an example of a license plate image. In FIG. 1A, a license plate image 31 (cut-out image) is a vehicle number character string (in the figure, US number “4UMV844” is shown as an example) and a horizontally long rectangular shape surrounding the character string. These are all highlighted with white edge lines. FIG. (B) is a diagram showing a
図9は、上下方向背景除去部20の具体的な動作フローを示す図である。
まず、ステップS3aで、ナンバープレート画像32を入力し、次いで、ステップS3bで、垂直エッジ画像を水平方向に投影してヒストグラムを作成する。
FIG. 9 is a diagram showing a specific operation flow of the vertical direction
First, in step S3a, a
図10は、ナンバープレート画像32とそのヒストグラム分布図である。図(a)において、ナンバープレート画像32の周囲の黒い部分は、ナンバープレートの装飾枠であり、装飾枠に囲まれた白色部分の文字列(“4WPD602”)は車両ナンバーである。また、車両ナンバーの若干上部には、判読不能な文字列が認められ、また、装飾枠の内部にも、二箇所程度の判読不能な文字列が認められる。
FIG. 10 is a
図(b)は、垂直方向のエッジだけを強調した画像34である。この垂直エッジ強調画像34には、読み取り対象の文字列(車両ナンバー)34aの他に、上記の判読不能文字列に相当するいくつかの文字列34b、34c、34dや、ナンバープレートの装飾枠の垂直エッジ部34e、34fなどの不要部分が含まれている。
FIG. 2B is an
さて、このようなナンバープレート画像32の垂直エッジ画像を水平方向に投影してヒストグラムを作成すると、図(b)に示すように、中央付近の大きな山35aと、その上下に位置する小さな二つの山35b、35cとを有するヒストグラム35が得られる。大きな山35aは、読み取り対象の文字列(車両ナンバー)34aの位置を表し、小さな二つの山35b、35cは、それぞれ読み取り不要文字列34b、34c、34dの位置を表している。大きな山35aと、小さな二つの山35b、35cは、明らかに異なっており、特に、大きな山35aの裾幅Aは、小さな二つの山35b、35cのそれよりも遙かに大きいから、読み取り対象の文字列(車両ナンバー)34aの行位置を確実に特定することができる。
Now, when a histogram is created by projecting the vertical edge image of such a
したがって、ステップS3cで、ヒストグラム35の分布に基づき、画像34の中心から上下方向に文字列行の検索を行い、ステップS3dで、文字列行の幅と上下端情報を算出し、ステップS3eで、プレート領域を含む画像34に判別分析法による二値化を行い、ステップS3fで、上下端情報を元に、二値化された画像から文字を含まない上下部分の背景除去を行う。これにより、読み取り対象の文字列(車両ナンバー)34aの行のみの画像を取り出すことができる。
Therefore, in step S3c, a character string row is searched in the vertical direction from the center of the
図11は、そのようにして取り出された読み取り対象の文字列(車両ナンバー)34aの行のみの画像36(パターン認識行の画像)を示す図である。図10の元画像34と比較すると、読み取り対象の文字列(車両ナンバー)34aの行の上下の余分な部分が除去されている。但し、この画像36は、読み取り対象の文字列(車両ナンバー)34aの前後(図面の左右方向)に、ナンバープレートの装飾枠の垂直エッジ部34e、34fが残っているため、この不要部分を文字として誤認(図示の例の場合は縦棒であるから“I”や“1”などと誤認)するおそれがある。この不要部分は、次の文字認識部21と補正処理部22で取り除かれる。
FIG. 11 is a diagram showing an image 36 (image of a pattern recognition line) of only the line of the character string (vehicle number) 34a to be read extracted in this way. Compared with the
図12は、文字認識部21の具体的な動作フローを示す図である。
この文字認識部21では、まず、ステップS4aで、ラベリングされた文字の大きさを12×24画素に正規化し、次いで、ステップS4bで、3層英数字認識用NNに入力する。
FIG. 12 is a diagram illustrating a specific operation flow of the
In the
図13は、3層英数字認識用NNの概念構造図である。この図において、識別する英数字は“0〜9”、“A〜Z”及び“その他”の37文字とするが、これは説明の便宜である。3層英数字認識用NNは、入力層37、中間層38及び出力層39からなり、ラベリングされた文字画像40を入力層37に与えると、各桁37文字の中で、もっとも出力値が高いものを当該文字画像40の文字認識結果として出力する。
FIG. 13 is a conceptual structural diagram of a three-layer alphanumeric recognition NN. In this figure, 37 alphanumeric characters “0 to 9”, “A to Z” and “others” are identified for convenience of explanation. The three-layer alphanumeric character recognition NN includes an
図14は、補正処理部22の具体的な動作フローを示す図である。
この補正処理部22では、まず、ステップS5aで、文字認識部21が出力した文字認識候補を入力し、ステップS5bで、DPマッチングにより、文字認識候補間の距離が最短で且つ部分集合の一致度合いが最も高い位置を算出する。そして、一致度合いがもっとも高い位置からの文字列を最終的な補正文字認識結果として出力する。
FIG. 14 is a diagram illustrating a specific operation flow of the
In this
ここで、動画像におけるフレーム毎のナンバープレート文字切り出し精度は、環境変化や車体色などに影響を受けるために安定しない。さらに、車両走行中は画像ブレが生じるため、頻繁に切り出しミスが起き、文字列の桁数を誤る場合も多い。たとえば、バンパーやプレートの境目などを切り出してしまい、文字と誤判定してしまう現象はその典型的な例である。 Here, the license plate character extraction accuracy for each frame in the moving image is not stable because it is affected by environmental changes, vehicle body colors, and the like. In addition, image blurring occurs while the vehicle is running, so that frequent clipping errors often occur and the number of digits in the character string is often incorrect. For example, a phenomenon in which a bumper or a plate boundary is cut out and erroneously determined as a character is a typical example.
我が国のナンバープレートは桁数が既知であり、陸支コードや車種コードなども、文字の小ささを除けば数字のみで構成されている。したがって、我が国のナンバープレートを対象とする限り、車両ナンバーや陸支コード及び車種コードの既知の位置情報を用いて補正を行うことも可能であるが、海外のナンバープレートでは、桁数が一定でないものや、また、英数字の組み合わせでだけでなく、記号やマークなどの使用も認められているものもあり、こうした外国のナンバープレートを対象とする場合に、とりわけ誤判別を起こしやすい。 The number of digits is known in Japan's license plate, and land codes and vehicle type codes are composed of numbers only, except for the small letters. Therefore, as long as the Japanese license plate is targeted, it is possible to make corrections using the known position information of the vehicle number, land code, and vehicle type code, but the number of digits is not constant in overseas license plates. Some of them are not only combinations of alphanumeric characters but also symbols and marks, and are especially prone to misclassification when targeting foreign license plates.
そこで、本実施形態においては、前フレームの認識結果を用いて、現フレームの文字切り出し結果を補正する手法を用いる。この手法では、認識対象とする文字列の桁数は未知であっても構わない。前フレームで切り出された文字列と現フレームの文字列の対応点を求めて、切り出し位置のずれを吸収することにより、誤りを補正する。 Therefore, in the present embodiment, a method of correcting the character cutout result of the current frame using the recognition result of the previous frame is used. In this method, the number of digits of the character string to be recognized may be unknown. Corresponding points between the character string clipped in the previous frame and the character string of the current frame are obtained, and the error is corrected by absorbing the shift of the cutout position.
対応点の算出には、DPマッチングを用いる。
図15は、補正処理部22におけるDPマッチングの概念図である。また、次式(1)は、DPマッチングの計算式であり、この式(1)を用いて、前フレームと現フレームとの認識文字列間の最短距離を算出し、その位置を現フレームの補正結果とする。また、位置補正処理後の文字列を時系列データとして文字列スタックに投票し、桁位置ごとに最も出現頻度の高い文字を最終認識結果とする。
DP matching is used to calculate the corresponding points.
FIG. 15 is a conceptual diagram of DP matching in the
ここで、i、jは、それぞれ現フレームと前フレーム内の認識文字の桁位置。g(i、j)は認識文字列の始端から文字(i、j)までの累積距離である。この距離が最短となる位置を現フレームの補正位置とする。 Here, i and j are digit positions of recognized characters in the current frame and the previous frame, respectively. g (i, j) is the cumulative distance from the beginning of the recognized character string to the character (i, j). The position where this distance is the shortest is set as the correction position of the current frame.
図16は、認識結果出力部23の具体的な動作フローを示す図である。
認識結果出力部23では、ステップS6aで、補正文字認識結果の入力があるか否かを判定し、補正文字認識結果の入力があれば、次に、ステップS6bで、所定の制約条件を満たしているか否かを判定する。そして、所定の制約条件を満たしていれば、ステップS6cで、補正文字認識結果が連続して同一であるか否かを判定し、補正文字認識結果が連続して同一であれば、ステップS6dで、その補正文字認識結果をディスプレイユニット14に出力する。
FIG. 16 is a diagram illustrating a specific operation flow of the recognition
In step S6a, the recognition
なお、所定の制約条件とは、図2の制約条件記憶部24に記憶されている情報のことである。
図17は、制約条件記憶部24に記憶されている情報の一例を示す図である。図示の例では、4つの制約条件が記憶されている。第一の制約条件41は、「桁数が最小文字数以下のときあるいは最大文字数以上のときには認識結果として出力しない。」というものであり、第二の制約条件42は、「認識候補文字列が開始文字列に登録されている文字列で始まり、最小文字数以下又は最大文字数以上のときには認識結果として出力しない。」というものであり、第三制約条件43は、「認識候補文字列の中に中間文字列に登録されている文字列が存在し、最小文字数以下又は最大文字数以上のときには認識結果として出力しない。」というものである。
Note that the predetermined constraint condition is information stored in the constraint
FIG. 17 is a diagram illustrating an example of information stored in the constraint
次に、本実施形態の車両ナンバープレート読み取り装置11の評価実験について説明する。
評価実験で使用した画像データは、カリフォルニア州の高速道路走行中に、自車10の前方の視野内をCCDカメラで撮影した多数のモノクロ画像(有用範囲8ビットで切り出した画像)を使用した。画像サイズは640×480画素である。また、大きな輝度変化に対応するため、ダイナミックレンジの広いCCDカメラを用いた。画像データベースにはナンバープレートが写し込まれている46種のシーンを格納した。なお、目視でも文字列が読み取れないシーンはデータベースから除去してある。表1に画像データの数を示す。
Next, an evaluation experiment of the vehicle
As the image data used in the evaluation experiment, a large number of monochrome images (images cut out with a useful range of 8 bits) taken with a CCD camera in the field of view in front of the
画像データは、大きく分けて装飾枠(ナンバープレートの装飾枠)が取り付けてあるものと、装飾枠がないものとに分類される。また、7桁の英数字列のものを標準レイアウトとし、それ以外のものを特殊レイアウトとする。 The image data is roughly classified into those having a decorative frame (number plate decorative frame) and those having no decorative frame. A 7-digit alphanumeric string is used as a standard layout, and other layouts are used as a special layout.
まず、位置検出処理について説明する。評価実験では、位置検出NNの学習データとして、画像データベースに収められている全16392枚の画像の中から、ナンバープレートが全て異なるように無作為に取り出した53枚の画像を用いた。また、車のテールランプ部分やエンブレムなど、NNが誤反応しやすい部分が含まれる17枚の画像を抑制学習に用いた。 First, the position detection process will be described. In the evaluation experiment, as the learning data for the position detection NN, 53 images that were randomly extracted from all 16392 images stored in the image database so that the license plates were all different were used. In addition, 17 images including portions where the NN is likely to react erroneously, such as a tail lamp portion and an emblem of a car, were used for the suppression learning.
位置検出処理において、前フレームでナンバープレートの重心位置が判明している場合には、現フレームを探索するときに画像全体を検索する必要はない。また、画像ブレなどによりエッジが不鮮明な場合は、位置検出NNが背景などに誤反応することもある。そこで、ナンバープレートの位置が前フレームの 処理で判明している場合には、次フレームでその座標近傍のみを探索することにした。これにより、計算量を最小限に抑え、処理速度を向上させることができた。 In the position detection process, when the center of gravity position of the license plate is known in the previous frame, it is not necessary to search the entire image when searching for the current frame. In addition, when the edge is unclear due to image blurring or the like, the position detection NN may erroneously react to the background or the like. Therefore, when the position of the license plate is known by the processing of the previous frame, we decided to search only the vicinity of the coordinates in the next frame. As a result, the calculation amount can be minimized and the processing speed can be improved.
図18は、フレーム間移動距離の分布図、図19(a)は、探索領域限定による効果を示す図である。評価に用いた動画像データでのナンバープレートフレーム間移動距離は、図18のフレーム間移動距離の分布図45a、45bに示すように、x軸方向に最大35画素、y軸方向に25画素である。図19(a)の探索領域限定による効果図46に示すように、各フレームを全検索する方法(棒グラフ46a)に比べて、現フレームの位置検出座標から次フレームの検索領域を制限する方法(棒グラフ46b)は、位置検出精度が87.1%(14283/16392)から94.2%(15446/16392)となり、平均フレームレートは毎秒7.8フレームから毎秒13.8フレームと大幅に向上した。さらに、文字認識処理においては、英数字が1文字も認識できない場合にも、非存在フレーム、もしくはナンバープレート重心位置の誤検出と判断する(棒グラフ46c)ことにより、認識率は95.1%(15583/16392)となり、平均フレームレートも毎秒14.3フレームに向上した。
FIG. 18 is a distribution diagram of the inter-frame movement distance, and FIG. 19A is a diagram showing the effect of limiting the search area. The movement distance between license plate frames in the moving image data used for the evaluation is 35 pixels in the x-axis direction and 25 pixels in the y-axis direction, as shown in the distribution diagrams 45a and 45b of the movement distance between frames in FIG. is there. Effect of Limiting Search Area in FIG. 19A As shown in FIG. 46, compared to the method of searching all the frames (
位置検出処理により切り出された装飾枠なしのナンバープレート画像(10674枚)と装飾枠ありの画像(4909枚)を用いて英数字認識を行った。垂直方向エッジ情報を用いて、文字列の上下端を推定することで、文字列下端に接触している装飾枠などの背景領域を効果的に除去することができた。文字の上下端を決定する閾値は予備実験により、ヒストグラムの最大となる「頻度×0.085」とした。この手法により、装飾枠なしのナンバープレート英数字の89.1%(9511/10674)に加え、さらに、装飾枠ありの英数字の83.5%(4099/4909)も切り出すことができた。 Alphanumeric recognition was performed using a license plate image without a decorative frame (10673 sheets) and an image with a decorative frame (4909 sheets) cut out by the position detection process. By estimating the upper and lower ends of the character string using the edge information in the vertical direction, it was possible to effectively remove the background area such as a decorative frame in contact with the lower end of the character string. The threshold for determining the upper and lower ends of the characters was set to “frequency × 0.085”, which is the maximum of the histogram, by preliminary experiments. By this method, 83.5% (4099/4909) of alphanumeric characters with a decorative frame could be cut out in addition to 89.1% (9511/10673) of license plate alphanumeric characters without a decorative frame.
文字認識処理で得られた文字列情報を用いて、DPマッチングにより前フレームの文字列との対応点を求め、桁位置補正処理を行った。英数字認識NNのみの場合の認識率は72.5%であるが、DPマッチングを用いた文字列補正処理を加えたことで、桁位置ずれや文字の脱落による誤認識が補正され、認識率97.8%を得た。 Using the character string information obtained by the character recognition process, the corresponding point with the character string of the previous frame was obtained by DP matching, and the digit position correction process was performed. The recognition rate in the case of only the alphanumeric recognition NN is 72.5%, but by adding character string correction processing using DP matching, misrecognition due to digit position shifts or missing characters is corrected, and the recognition rate 97.8% was obtained.
図19(b)は、DPマッチングによる認識改善例を示す図である。この図において、補正処理なしの場合は、シーンの最後まで誤認識フレームが断続的に存在するのに対し、DPマッチングを用いた補正処理を加えた場合は、始めの25フレーム程度で認識結果が確定した。これにより、誤認識フレームが補正されていることが確認できた。文字列先頭のセグメンテーション誤りによる誤認識や輝度変化による脱落誤りが生じた場合も同様に認識結果が補正された。 FIG. 19B is a diagram illustrating an example of recognition improvement by DP matching. In this figure, when there is no correction processing, erroneous recognition frames exist intermittently until the end of the scene, whereas when correction processing using DP matching is added, the recognition result is obtained in the first 25 frames. Confirmed. This confirmed that the misrecognized frame was corrected. The recognition result was corrected in the same way when there was a misrecognition due to a segmentation error at the beginning of the character string or a drop error due to a luminance change.
以上のとおり、車両搭載型のナンバープレート認識システムとその評価実験について述べたが、従来のNN法による位置検出処理と文字認識処理に、動画像としての時系列情報を加えたことにより、撮影環境がリアルタイムに変化していくシーンにおいても、車両ナンバーを高精度に認識できることを確認できた。また、従来法では困難であった文字列にナンバープレートの装飾枠が隣接しているような場合においても、適応的に文字列を分離することが確認できた。 As described above, the vehicle-mounted license plate recognition system and its evaluation experiment have been described. By adding time-series information as moving images to the conventional position detection processing and character recognition processing by the NN method, It was confirmed that the vehicle number can be recognized with high accuracy even in a scene where the vehicle changes in real time. In addition, it was confirmed that the character strings were adaptively separated even when the decorative frame of the license plate was adjacent to the character strings, which was difficult with the conventional method.
以上のとおりであるから、本実施形態によれば、時系列的に同一対象(先行車16のナンバープレート17を含む被写体)を撮影して得られた動画を構成する複数の静止画の中で文字を含む枠の位置が特定できない複数の画像から、文字の桁数と文字配置の種類が多数あった場合であっても、装飾の制約条件が少ない枠内にある文字部分の画像にある文字の文字認識を正しく行うことができるという優れた効果が得られる。 As described above, according to the present embodiment, among a plurality of still images constituting a moving image obtained by photographing the same object (subject including the license plate 17 of the preceding vehicle 16) in time series. Even if there are many types of character digits and character arrangements from multiple images in which the position of the frame containing the characters cannot be specified, the characters in the image of the character part in the frame with few decoration restrictions It is possible to obtain an excellent effect that character recognition can be performed correctly.
また、枠内に表記されたすべての文字と絵を分離して文字認識をしなくても、英数字のみや英数字とカタカナなどの限られた文字のみを正確に認識することができれば、以下に示すような様々な用途で利用できる。 Also, if you can accurately recognize only alphanumeric characters or only limited characters such as alphanumeric characters and katakana without separating all characters and pictures written in the frame and recognizing them, the following It can be used for various purposes as shown in
たとえば、車載カメラを使って先行車のナンバープレートや、道路標識、あるいは、看板などに表記された文字を認識して利用することができる。利用の仕方としては、車両の追跡や盗難車等の特定、環境情報や公国情報の取得など様々なものが考えられる。なお、ナンバープレートでは、登録番号の部分が読み取れればよい。 For example, it is possible to recognize and use characters written on a license plate of a preceding vehicle, a road sign, or a signboard using an in-vehicle camera. There are various ways of use such as tracking a vehicle, identifying a stolen vehicle, and acquiring environmental information and principality information. It should be noted that the registration plate may be read with the license plate.
また、動画カメラ付携帯電話に応用してもよい。ポスターやメニュー又は看板などに表記された文字を携帯電話機のカメラで撮影して認識し利用することができる。利用例としては、表記された電話番号やメールアドレスを認識してメールを送信したり電話を掛けたり、または、看板に表記された店舗名を認識して電話番号を検索したり電話を掛けたり、様々なものが考えられる。 Moreover, you may apply to the mobile phone with a moving image camera. Characters written on posters, menus, signboards, etc. can be recognized and used by photographing with a camera of a mobile phone. Examples of usage include recognizing the phone number or email address shown to send an email or making a call, or recognizing the store name shown on the signboard to find a phone number or making a phone call. Various things can be considered.
また、ビデオカメラで撮影した画像をパソコンなどの画像処理装置に入力して、入力した画像のなかで撮影されていた枠で囲まれた表示板、ポスター、看板、標識、値札、番号札、名札、ナンバープレートなどに表記された文字を認識して利用してもよい。利用例は、画像編集のタイトルとして使ったり、シーン検索のキーワードとして使ったり、または、撮影対象を特定するために使ったりすることができる。 Also, images taken with a video camera are input to an image processing device such as a personal computer, and a display board, poster, signboard, sign, price tag, number tag, name tag surrounded by a frame that was captured in the input image. The characters written on the license plate may be recognized and used. The usage example can be used as a title for image editing, as a keyword for scene search, or used to specify a shooting target.
これらの用途で共通する画像の特徴は、時系列で撮影された画像に同じ枠の画像が繰り返して現れる、画像のなかの枠の位置をあらかじめ知ることができない、画像ごとに文字画像の認識しやすさが変動することがある(詳しくは、カメラの動きや対象の動きによって画像中の枠の位置が移動することがある、自然光や照明、影などの環境変化によって枠や文字の照度が変動することがある、カメラと枠を構成する物体との間にある物体の影響で枠や文字が一時的に隠れることがある、枠内に文字以外で大きさと形状が文字と類似する画像が含まれることがある)、などである。 The image features common to these applications are that images of the same frame appear repeatedly in images taken in time series, the position of the frame in the image cannot be known in advance, and character images are recognized for each image. (In particular, the position of the frame in the image may move depending on the movement of the camera or the movement of the target. The illuminance of the frame or text varies due to environmental changes such as natural light, lighting, or shadows. The frame and text may be temporarily hidden by the influence of the object between the camera and the objects that make up the frame, and images that are similar in size and shape to characters other than text are included in the frame ), Etc.
また、ナンバープレートや、道路標識、表示板など特定目的に使われる枠に含まれる画像には、さらに、枠内に表記される文字の種類と大きさや位置には制約がある、文字以外の画像の表記に制約がある、などの特徴がある。これらの特徴を活用することで、さらに認識率を向上させることができる。 In addition, images included in frames used for specific purposes, such as license plates, road signs, and display boards, are also non-character images that have restrictions on the type, size, and position of characters displayed in the frames. There are features such as restrictions on notation. By utilizing these features, the recognition rate can be further improved.
本発明では、前記の応用を可能とするため繰り返して撮影した画像(同一対象を複数回撮影して得られる時系列の画像)に含まれる枠の画像に関する特徴を最大限に活用して、枠内に表記された文字のうち限定された文字に関して正確に認識できるようにする。 In the present invention, the feature relating to the image of the frame included in the image repeatedly photographed (time-series image obtained by photographing the same object a plurality of times) in order to enable the application described above is utilized to the maximum extent. To make it possible to accurately recognize limited characters among the characters written in the box.
同一対象を複数回撮影して得られる時系列の画像には、枠の位置はカメラと枠の関係において制約された条件で画像内を移動することがある、時系列画像の中で枠内の同じ位置にある文字において、認識しやすい画像と認識しにくい画像があり、繰り返して撮影して認識すると正しい認識結果が含まれることがある、などの特徴がある。 For time-series images obtained by shooting the same object multiple times, the frame position may move within the image under conditions constrained by the relationship between the camera and the frame. Characters at the same position include an image that is easy to recognize and an image that is difficult to recognize, and there are features such that a correct recognition result may be included when repeatedly taken and recognized.
前後の画像の文字に対応関係があるが、誤認識の可能性があるので完全に一致するとは限らない。このため、複数回撮影した画像の特徴を使って認識精度を向上させようとすると、1枚の画像から文字認識を行う場合には発生しない以下の課題についても解決する必要がある。 There is a correspondence relationship between the characters in the preceding and following images, but there is a possibility of misrecognition, so they do not always match completely. For this reason, if it is attempted to improve the recognition accuracy by using the characteristics of an image taken a plurality of times, it is necessary to solve the following problems that do not occur when character recognition is performed from one image.
つまり、枠の画像内の位置が変動しても対応できるようにして、同じ枠の画像を使って認識精度を向上させる必要がある。また、表記された文字列の文字数は既知ではなく、枠内で認識される文字は全て正しい場合もあるが、誤認識された文字を含むことがあるので、そのような文字認識候補の対応関係をもとに一致度合いを算出して補正するためには、枠内の文字列の前後の部分で抜けが無いように認識する必要がある。また、複数回撮影しても、枠内の文字が枠あるいは枠の外側にあると誤認識されると、認識文字候補として出力されないので、補正できなくなる。また、一致度合いを計算できるためには、認識できない文字が含まれている場合にも、文字認識の際に文字抜けが発生しないようにして文字列の対応関係に関する情報が失われないように、認識できている文字の認識結果を出力する必要がある。 That is, it is necessary to improve the recognition accuracy by using the image of the same frame so that it can cope with the fluctuation of the position in the image of the frame. In addition, the number of characters in the written character string is not known, and all characters recognized in the frame may be correct, but may include misrecognized characters. In order to calculate and correct the degree of coincidence based on the above, it is necessary to recognize that there is no omission in the part before and after the character string in the frame. Even if the image is taken a plurality of times, if a character in the frame is erroneously recognized as being outside the frame or the frame, the character is not output as a recognized character candidate and cannot be corrected. In addition, in order to be able to calculate the degree of match, even when unrecognizable characters are included, so that character omission is not lost during character recognition so that information on the correspondence between character strings is not lost, It is necessary to output the recognition result of recognized characters.
前記、複数回撮影した画像を使って認識精度を向上させるときの課題を以下のようにすることによって解決する。
(イ)以前の画像に対して行った文字認識で枠内に文字列が認識されている場合には、その位置情報をもとに次フレームの探索範囲を限定して、前回の枠とは異なる画像を切り出すことを避ける。
(ロ)文字列の長さ方向に枠周辺の画像を含む画像に対して予測される最大文字数で認識を行い、そこに含まれる文字以外の画像部分を含めて認識し、文字列の抜けが無いように認識する。
(ハ)他の文字や文字以外の画像を、限定された文字と誤認識しないように文字認識を行い、認識できない文字を不定文字として、認識候補文字列の文字の対応関係がずれないように一致度合いを算出する。
The above-described problem in improving the recognition accuracy using images taken a plurality of times is solved as follows.
(B) When a character string is recognized in the frame by character recognition performed on the previous image, the search range of the next frame is limited based on the position information, and the previous frame Avoid cropping different images.
(B) Recognition is performed with the maximum number of characters predicted for an image including an image around the frame in the length direction of the character string, and recognition is performed including image portions other than the characters included therein, and character strings are missing. Recognize that there is no.
(C) Character recognition is performed so that other characters and images other than characters are not mistakenly recognized as limited characters, and unrecognizable characters are set as indefinite characters so that the correspondence between characters in the recognition candidate character strings does not shift. The degree of coincidence is calculated.
なお、文字認識において、類似度が最も近い文字を認識結果とする方式では、英数字以外の文字を英数字と誤認識してしまうので、それをさけるために英数字のいずれかと類似度が高いときにそれを認識候補として出力し、英数字のいずれとも類似度が低い場合には不定文字を認識候補として出力することが望ましい。 In character recognition, the method that uses the character with the closest similarity as the recognition result misrecognizes a non-alphanumeric character as an alphanumeric character, so the similarity is high with any of the alphanumeric characters to avoid it. It is sometimes desirable to output it as a recognition candidate, and to output an indefinite character as a recognition candidate if the similarity of any alphanumeric characters is low.
以上のとおりにすると、ナンバープレートの位置が特定できない連続した動画像から、文字の桁数と文字配置の種類が多数あり、装飾の制約条件が少ないナンバープレートにおいて、文字画像を誤って文字でないと誤認識することが抑制される。 In this way, there are many types of character digits and character arrangements from consecutive moving images where the position of the license plate cannot be specified. Misrecognition is suppressed.
また、文字以外の画像に対して認識した結果は文字認識部で不定文字と判定されるか、安定して同一の文字として認識されないので、補正処理で排除される。また、枠や装飾と干渉することで文字が誤って排除されるセグメンテーション誤りが抑制される。また、ナンバープレートの一部しか画像に含まれていないとき桁数が少ないときに、撮影範囲に入った文字のみを認識して、撮影範囲外の文字が脱落した認識結果が出力されない。また、ナンバープレートの部分が撮影範囲外から撮影範囲内に移動するときに、一部の文字が脱落する誤認識が発生しない。また、ナンバープレートの部分が撮影範囲内から撮影範囲外に移動するときに、一部の文字が脱落する誤認識が発生しない。 In addition, the result of recognition for an image other than a character is determined as an indefinite character by the character recognition unit, or is not stably recognized as the same character, and thus is excluded by the correction process. Further, a segmentation error in which characters are erroneously excluded due to interference with a frame or decoration is suppressed. Further, when only a part of the license plate is included in the image, when the number of digits is small, only the characters that are in the shooting range are recognized, and the recognition result that the characters outside the shooting range are dropped is not output. Further, when the number plate part moves from outside the shooting range to within the shooting range, there is no erroneous recognition that some characters are dropped. Further, when the number plate part moves from the shooting range to the outside of the shooting range, there is no erroneous recognition that some characters are dropped.
S1 ステップ(撮像工程)
S2 ステップ(切り出し工程)
S3 ステップ(パターン認識行取り出し工程)
S4 ステップ(抽出工程)
S5 ステップ(除去工程)
S6 ステップ(出力工程)
11 車両ナンバープレート読み取り装置(パターン認識装置)
12 テレビカメラ(撮像手段)
18 画像入力部(撮像手段)
19 位置検出部(切り出し手段)
20 上下方向背景除去部(パターン認識行取り出し手段)
21 文字認識部(抽出手段)
22 補正処理部(除去手段)
23 認識結果出力部(出力手段)
31 ナンバープレート画像(切り出し画像)
36 画像(パターン認識行の画像)
S1 step (imaging process)
S2 step (cutout process)
S3 step (pattern recognition line extraction process)
S4 step (extraction process)
S5 step (removal process)
S6 step (output process)
11 Vehicle license plate reader (pattern recognition device)
12 TV camera (imaging means)
18 Image input unit (imaging means)
19 Position detector (cutout means)
20 Vertical background removal unit (pattern recognition line extraction means)
21 Character recognition part (extraction means)
22 Correction processing unit (removal means)
23. Recognition result output unit (output means)
31 License plate image (cutout image)
36 images (images of pattern recognition lines)
Claims (8)
前記画像の中から所定の形状に合致する読み取り範囲を切り出す切り出し手段と、
前記切り出し手段によって切り出された切り出し画像の中から対象となるパターン認識行の画像を取り出すパターン認識行取り出し手段と、
前記パターン認識行の画像に含まれるパターン認識候補を抽出する抽出手段と、
前記パターン認識候補の中から非パターン認識候補を除去する除去手段と、
前記非パターン認識候補が除去されたパターン認識候補を確定パターンとして出力する出力手段と
を備えたことを特徴とするパターン認識装置。 Imaging means for capturing images of the same subject at a constant or indefinite period and outputting them in time series;
Clipping means for cutting out a reading range that matches a predetermined shape from the image;
Pattern recognition line extraction means for extracting an image of a target pattern recognition line from the cutout image cut out by the cutout means;
Extraction means for extracting pattern recognition candidates included in the image of the pattern recognition line;
Removing means for removing non-pattern recognition candidates from the pattern recognition candidates;
An output means for outputting the pattern recognition candidate from which the non-pattern recognition candidate has been removed as a definite pattern.
前記画像の中から所定の形状に合致する読み取り範囲を切り出す切り出し工程と、
前記切り出し工程によって切り出された切り出し画像の中から対象となるパターン認識行の画像を取り出すパターン認識行取り出し工程と、
前記パターン認識行の画像に含まれるパターン認識候補を抽出する抽出工程と、
前記パターン認識候補の中から非パターン認識候補を除去する除去工程と、
前記非パターン認識候補が除去されたパターン認識候補を確定パターンとして出力する出力工程と
を含むことを特徴とするパターン認識方法。 An imaging process for capturing images of the same subject at a constant or indefinite period and outputting them in time series;
A cutout step of cutting out a reading range that matches a predetermined shape from the image;
A pattern recognition row extraction step for extracting an image of a target pattern recognition row from the cutout image cut out by the cutout step;
An extraction step of extracting pattern recognition candidates included in the image of the pattern recognition line;
Removing the non-pattern recognition candidate from the pattern recognition candidates;
An output step of outputting the pattern recognition candidate from which the non-pattern recognition candidate is removed as a definite pattern.
A frame surrounding image in which the frame surrounding image is searched up and down to detect a portion that does not include a character region, the portion that does not include the character region is deleted from the frame surrounding image, and the portion that does not include the character region is deleted The character recognition method according to claim 7, wherein character recognition is performed on the character.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004171878A JP2005352705A (en) | 2004-06-09 | 2004-06-09 | Device and method for pattern recognition, and character recognizing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004171878A JP2005352705A (en) | 2004-06-09 | 2004-06-09 | Device and method for pattern recognition, and character recognizing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005352705A true JP2005352705A (en) | 2005-12-22 |
Family
ID=35587148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004171878A Pending JP2005352705A (en) | 2004-06-09 | 2004-06-09 | Device and method for pattern recognition, and character recognizing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005352705A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007200005A (en) * | 2006-01-26 | 2007-08-09 | Honda Motor Co Ltd | Operation support device |
JP2008039611A (en) * | 2006-08-07 | 2008-02-21 | Canon Inc | Device and method for measuring position and attitude, compound real feeling presentation system, computer program and storage medium |
WO2008099664A1 (en) * | 2007-02-15 | 2008-08-21 | Mitsubishi Heavy Industries, Ltd. | Vehicle number recognizing device |
JP2009294704A (en) * | 2008-06-02 | 2009-12-17 | Mitsubishi Heavy Ind Ltd | License number recognition device and license number recognition method |
JP2015191620A (en) * | 2014-03-28 | 2015-11-02 | 富士重工業株式会社 | Outside-vehicle environment recognition device |
JP2016158186A (en) * | 2015-02-26 | 2016-09-01 | カシオ計算機株式会社 | Imaging device, imaging method, imaging program |
JP2017033438A (en) * | 2015-08-05 | 2017-02-09 | コニカミノルタ株式会社 | Business form identification apparatus, business form identification method, and program |
JP2020030858A (en) * | 2015-04-08 | 2020-02-27 | 東芝テック株式会社 | Image processing apparatus and image processing method |
RU2727464C1 (en) * | 2016-12-28 | 2020-07-21 | Омрон Хэлткэа Ко., Лтд. | Terminal device |
JP2021163231A (en) * | 2020-03-31 | 2021-10-11 | ローレルバンクマシン株式会社 | Paper sheet identification device and paper sheet identification method |
JP2022181678A (en) * | 2021-05-26 | 2022-12-08 | Necプラットフォームズ株式会社 | Information processing system and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09293122A (en) * | 1996-04-25 | 1997-11-11 | Nec Corp | Document reading method/document reader |
JPH1166226A (en) * | 1997-08-25 | 1999-03-09 | Toshiba Corp | License plate recognizing device for vehicle |
JPH11306283A (en) * | 1998-04-24 | 1999-11-05 | Chuo Spring Co Ltd | Number plate reader |
JP2000057259A (en) * | 1998-08-04 | 2000-02-25 | Mitsubishi Heavy Ind Ltd | Character recognizing device |
JP2001052116A (en) * | 1999-08-06 | 2001-02-23 | Toshiba Corp | Device and method for matching pattern stream, device and method for matching character string |
-
2004
- 2004-06-09 JP JP2004171878A patent/JP2005352705A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09293122A (en) * | 1996-04-25 | 1997-11-11 | Nec Corp | Document reading method/document reader |
JPH1166226A (en) * | 1997-08-25 | 1999-03-09 | Toshiba Corp | License plate recognizing device for vehicle |
JPH11306283A (en) * | 1998-04-24 | 1999-11-05 | Chuo Spring Co Ltd | Number plate reader |
JP2000057259A (en) * | 1998-08-04 | 2000-02-25 | Mitsubishi Heavy Ind Ltd | Character recognizing device |
JP2001052116A (en) * | 1999-08-06 | 2001-02-23 | Toshiba Corp | Device and method for matching pattern stream, device and method for matching character string |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007200005A (en) * | 2006-01-26 | 2007-08-09 | Honda Motor Co Ltd | Operation support device |
JP4621600B2 (en) * | 2006-01-26 | 2011-01-26 | 本田技研工業株式会社 | Driving assistance device |
JP2008039611A (en) * | 2006-08-07 | 2008-02-21 | Canon Inc | Device and method for measuring position and attitude, compound real feeling presentation system, computer program and storage medium |
WO2008099664A1 (en) * | 2007-02-15 | 2008-08-21 | Mitsubishi Heavy Industries, Ltd. | Vehicle number recognizing device |
JP4727732B2 (en) * | 2007-02-15 | 2011-07-20 | 三菱重工業株式会社 | Vehicle number recognition device |
JP2009294704A (en) * | 2008-06-02 | 2009-12-17 | Mitsubishi Heavy Ind Ltd | License number recognition device and license number recognition method |
JP2015191620A (en) * | 2014-03-28 | 2015-11-02 | 富士重工業株式会社 | Outside-vehicle environment recognition device |
JP2016158186A (en) * | 2015-02-26 | 2016-09-01 | カシオ計算機株式会社 | Imaging device, imaging method, imaging program |
US10204276B2 (en) | 2015-02-26 | 2019-02-12 | Casio Computer Co., Ltd. | Imaging device, method and recording medium for capturing a three-dimensional field of view |
JP2020030858A (en) * | 2015-04-08 | 2020-02-27 | 東芝テック株式会社 | Image processing apparatus and image processing method |
JP2017033438A (en) * | 2015-08-05 | 2017-02-09 | コニカミノルタ株式会社 | Business form identification apparatus, business form identification method, and program |
RU2727464C1 (en) * | 2016-12-28 | 2020-07-21 | Омрон Хэлткэа Ко., Лтд. | Terminal device |
JP2021163231A (en) * | 2020-03-31 | 2021-10-11 | ローレルバンクマシン株式会社 | Paper sheet identification device and paper sheet identification method |
JP7372633B2 (en) | 2020-03-31 | 2023-11-01 | ローレルバンクマシン株式会社 | Paper sheet identification device and paper sheet identification method |
JP2022181678A (en) * | 2021-05-26 | 2022-12-08 | Necプラットフォームズ株式会社 | Information processing system and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317764B2 (en) | Text image quality based feedback for improving OCR | |
Ye et al. | Text detection and recognition in imagery: A survey | |
Chen et al. | Automatic detection and recognition of signs from natural scenes | |
US9171204B2 (en) | Method of perspective correction for devanagari text | |
US7403657B2 (en) | Method and apparatus for character string search in image | |
US20080212837A1 (en) | License plate recognition apparatus, license plate recognition method, and computer-readable storage medium | |
US11527057B2 (en) | System and method for license plate recognition | |
US20090148043A1 (en) | Method for extracting text from a compound digital image | |
Guo et al. | Mixed vertical-and-horizontal-text traffic sign detection and recognition for street-level scene | |
Shah et al. | OCR-based chassis-number recognition using artificial neural networks | |
JP2005352705A (en) | Device and method for pattern recognition, and character recognizing method | |
Faustina Joan et al. | A survey on text information extraction from born-digital and scene text images | |
US8036461B2 (en) | Method of graphical objects recognition using the integrity principle | |
CN109508716B (en) | Image character positioning method and device | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
CN110766001B (en) | Bank card number positioning and end-to-end identification method based on CNN and RNN | |
KR100667156B1 (en) | Apparatus and method for character recognition by selecting character region in camera document image captured by portable camera | |
Siddique et al. | Development of an automatic vehicle license plate detection and recognition system for Bangladesh | |
Laroca et al. | Automatic license plate recognition: an efficient and layout-independent system based on the YOLO detector | |
Dhir | Video Text extraction and recognition: A survey | |
JPH08190690A (en) | Method for determining number plate | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
Emmanuel et al. | Automatic detection and recognition of Malayalam text from natural scene images | |
KR101727432B1 (en) | Apparatus and method for improving the performance of object recognition function using an image in Multi-Step | |
Chitrakala et al. | An efficient character segmentation based on VNP algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091211 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100408 |