JP2021005164A - Character recognition device, imaging device, character recognition method, and character recognition program - Google Patents
Character recognition device, imaging device, character recognition method, and character recognition program Download PDFInfo
- Publication number
- JP2021005164A JP2021005164A JP2019117702A JP2019117702A JP2021005164A JP 2021005164 A JP2021005164 A JP 2021005164A JP 2019117702 A JP2019117702 A JP 2019117702A JP 2019117702 A JP2019117702 A JP 2019117702A JP 2021005164 A JP2021005164 A JP 2021005164A
- Authority
- JP
- Japan
- Prior art keywords
- character
- model
- image
- character recognition
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000003384 imaging method Methods 0.000 title 1
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000000306 recurrent effect Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、文字認識装置、撮影装置、文字認識方法、および、文字認識プログラムに関する。 The present invention relates to a character recognition device, a photographing device, a character recognition method, and a character recognition program.
従来、AI(Artificial Intelligence)を利用して画像から文字を読み取る技術が知られている。例えば、非特許文献1には、1行に並んだ文字を含む画像を機械学習モデルに入力して得られた特徴量行列(特徴マップ)を横方向に1列ずつ切り出しながら、文字を認識する技術が開示されている。 Conventionally, a technique of reading characters from an image using AI (Artificial Intelligence) is known. For example, in Non-Patent Document 1, characters are recognized while cutting out a feature matrix (feature map) obtained by inputting an image containing characters arranged in one line into a machine learning model one column at a time in the horizontal direction. The technology is disclosed.
しかしながら、上述のような従来技術には、文字の配置、並びに、文字の大きさ、及びフォント等の文字の属性が統一されていない場合、読み取り精度が低下するという問題がある。例えば、複数行の文字を含む画像を処理しようとすると、特徴量行列から切り出した1列の特徴量に、縦方向に並んだ複数文字の特徴量が含まれることになるので、1列の特徴量を用いても1つの文字として認識することができないという問題がある。 However, the above-mentioned prior art has a problem that the reading accuracy is lowered when the character arrangement, the character size, and the character attributes such as the font are not unified. For example, when trying to process an image containing a plurality of lines of characters, the feature amount of one column cut out from the feature amount matrix includes the feature amount of a plurality of characters arranged in the vertical direction, so that the feature amount of one column is included. There is a problem that even if a quantity is used, it cannot be recognized as one character.
本発明の一態様は、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することを目的とする。 One aspect of the present invention is to provide a technique capable of accurately reading characters even if the arrangement and attributes of the characters are not unified in the image.
上記の課題を解決するために、本発明の一態様に係る文字認識装置は、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。 In order to solve the above problems, the character recognition device according to one aspect of the present invention is a first convolutional neural network in which a character image containing one or more characters is input and a feature amount of the character image is output. The model, the second model which is a recursive neural network in which the feature amount output by the first model is input one or more times and the character information indicating the character included in the character image is output, and the first model. The model and the second model are used to provide a character processing unit that outputs character information indicating characters included in the character image.
本発明の一態様に係る文字認識方法は、第1のモデルと、第2のモデルとを用いた文字認識方法であって、前記第1のモデルが、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、前記第2のモデルが、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含む。 The character recognition method according to one aspect of the present invention is a character recognition method using a first model and a second model, in which the first model inputs a character image containing one or more characters. It is a convolutional neural network that outputs the feature amount of the character image, and the second model is input with the feature amount output by the first model one or more times, and the character included in the character image is input. It is a recursive neural network that outputs the indicated character information, and includes a character processing step that outputs character information indicating characters included in the character image using the first model and the second model.
本発明の一態様によれば、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することができる。 According to one aspect of the present invention, it is possible to provide a technique capable of accurately reading characters even if the arrangement and attributes of the characters are not unified in the image.
〔実施形態〕
以下、本発明の一実施形態について、詳細に説明する。
[Embodiment]
Hereinafter, one embodiment of the present invention will be described in detail.
(文字認識装置1の構成)
図1は、本実施形態に係る文字認識装置1の構成を示すブロック図である。文字認識装置1は、入出力部11、文字認識部12、および、学習部13を備えている。文字認識部12は、文字処理部14、第3のモデルMA、第1のモデルMB、および、第2のモデルMCを備えている。
(Configuration of character recognition device 1)
FIG. 1 is a block diagram showing a configuration of a character recognition device 1 according to the present embodiment. The character recognition device 1 includes an input /
文字認識装置1には、カメラ(撮影装置)2と、表示装置3とが接続されている。カメラ2は、所定のシーンを撮影し、当該撮影した画像である撮影画像を文字認識装置1に出力する。カメラ2の種類としては、例えば、公共のため(例えば、交通安全監視システム等)に使われるカメラ、個人で使われるカメラの両方が含まれる。表示装置3は、文字認識装置1から出力された、撮影画像の文字認識結果を表示する。 A camera (photographing device) 2 and a display device 3 are connected to the character recognition device 1. The camera 2 captures a predetermined scene and outputs a captured image, which is the captured image, to the character recognition device 1. The type of camera 2 includes, for example, both a camera used for public purposes (for example, a traffic safety monitoring system, etc.) and a camera used for individuals. The display device 3 displays the character recognition result of the captured image output from the character recognition device 1.
文字認識部12において、第3のモデルMAは、画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)である。なお、本明細書において「文字」との文言には、記号、数字、および、各種言語の文字が含まれる。また、領域情報は、画像において文字が存在する領域の四隅の座標を含む。なお、第3のモデルMAは、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものである。
In the
第1のモデルMBは、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである。第2のモデルMCは、第1のモデルが出力する特徴量が1回以上入力され、文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)である。再帰型ニューラルネットワークは、長期短期記憶ネットワーク(LSTM:Long Short-Term Memory)であってもよい。なお、第1のモデルMBおよび第2のモデルMCは、1以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものである。 The first model MB is a convolutional neural network in which a character image containing one or more characters is input and the feature amount of the character image is output. The second model MC is a recurrent neural network (RNN) in which the feature amount output by the first model is input one or more times and character information indicating the characters included in the character image is output. The recurrent neural network may be a long short-term memory network (LSTM). The first model MB and the second model MC are trained using teacher data including a character image including one or more characters and character information indicating characters included in the character image. ..
入出力部11は、カメラ2の撮影画像から複数の文字を含む画像を抽出し、当該画像を文字処理部14に出力する。また、入出力部11は、文字処理部14から出力された文字情報を表示装置3に表示させる。なお、入出力部11が出力する文字情報は、表示装置3に加え、又は表示装置3に代えて、他の情報処理装置に提供される構成としてもよい。そのような他の情報処理装置において、上記の文字情報は、データベースに格納された他の文字情報と対比するために用いられたり、他のカメラで撮像された画像に基づく文字情報等と比較するために用いられたりする。
The input /
文字処理部14は、第3のモデルMA、第1のモデルMBおよび第2のモデルMCを用いて、文字画像に含まれる文字を示す文字情報を出力する。文字処理部14は、入出力部11から取得した画像を第3のモデルMAに入力し、当該画像から、第3のモデルMAが出力する領域情報が示す領域を切り出し、切り出した領域を文字画像として第1のモデルMBに入力する。ただし、文字処理部14は、第3のモデルMAを用いない処理を行ってもよく、その場合、文字処理部14は、入出力部11から取得した画像を文字画像として第1のモデルMBに入力する。
The
そして、文字処理部14は、第1のモデルMBが出力した特徴量を第2のモデルMCに1回以上入力し、第2のモデルMCが出力する1文字分の文字情報を連結することにより、文字画像に含まれる文字を取得する。一態様において、文字処理部14は、第2のモデルMCに対し、文字画像の特徴量とともに、第2のモデルMCが前の回に出力した文字を示す文字情報を入力する。
Then, the
学習部13は、第1のモデルMBおよび第2のモデルMCを、教師データを用いて学習させる。詳細には、学習部13は、第2のモデルMCの出力から計算した損失関数を用いて、第1のモデルMBおよび第2のモデルMCをそれぞれ学習させる。また、学習部13は、第3のモデルMAを、教師データを用いて学習させる。
The
(画像の例)
図2は、本実施形態に係る文字認識装置1が処理する画像の例を示す図である。201は、車体を含む道路の撮影画像の例である。202は、車体の画像(以下、車体画像という)の例である。203は、ナンバープレートの画像(以下、ナンバープレート画像という)の例である。
(Example of image)
FIG. 2 is a diagram showing an example of an image processed by the character recognition device 1 according to the present embodiment.
(文字認識装置1の処理)
図3は、本実施形態に係る文字認識装置1の処理を示すフローチャートである。以下、文字認識装置1が車体を含む画像からナンバープレートの文字を読み取る(認識する)処理(すなわち、文字画像がナンバープレートを含む撮影画像または当該撮影画像の部分画像である構成)について説明する。本処理は、リアルタイムに行われる。なお、文字認識装置1は、カメラ2から画像を取得するのではなく、自装置が備える記録媒体から画像を取得してもよいし、ローカル又はグローバルなネットワークを介して画像を取得してもよい。
(Processing of character recognition device 1)
FIG. 3 is a flowchart showing the processing of the character recognition device 1 according to the present embodiment. Hereinafter, a process in which the character recognition device 1 reads (recognizes) the characters on the license plate from the image including the vehicle body (that is, the character image is a photographed image including the license plate or a partial image of the photographed image) will be described. This process is performed in real time. The character recognition device 1 may acquire an image from a recording medium provided in its own device, or may acquire an image via a local or global network, instead of acquiring an image from the camera 2. ..
(ステップS301)
文字認識装置1において、入出力部11は、カメラ2から車体を含む道路の撮影画像(図2の201に対応)を取得する。
(Step S301)
In the character recognition device 1, the input /
(ステップS302)
次に、入出力部11は、ステップS301で取得した撮影画像から車体を検出し、車体画像(図2の202に対応)を切り出す。撮影画像から車体を検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、他の手法に比べて処理が相対的に軽い「SqueezeDet」等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。
(Step S302)
Next, the input /
(ステップS303)
そして、入出力部11は、ステップS302で切り出した車体画像からナンバープレートを検出し、ナンバープレート画像(図2の203に対応)を切り出す。車体画像からナンバープレートを検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、ステップS302と同様に、SqueezeDet等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。また、車体画像からナンバープレート画像を切り出すことにより、ナンバープレート画像と、車体画像とを対応させて管理することができる。
(Step S303)
Then, the input /
(ステップS304)
続いて、入出力部11は、ステップS303で切り出したナンバープレート画像を第3のモデルMAに入力して、ナンバープレート画像から文字部分画像を切り出す。後述する通り、文字部分画像を利用して文字認識を実行することにより、ナンバープレート画像を利用して文字認識を実行する場合よりも、識別精度を向上させることができる。
(Step S304)
Subsequently, the input /
学習部13は、事前に、第3のモデルMAに対して、ナンバープレート画像に含まれる文字の部分(例えば、矩形領域)を学習させる。その場合、教師データとして、ナンバープレート画像に、文字を含む矩形領域の各頂点(4隅)の座標を付与したものが用いられる。
The
なお、ステップS304の処理は、必須ではなく、省略してもよい。 The process of step S304 is not essential and may be omitted.
(ステップS305)
さらに、文字処理部14は、第3のモデルMAから文字部分画像を取得し、当該文字部分画像を第1のモデルMBに入力し、第2のモデルMCに文字を出力させる。
(Step S305)
Further, the
図5は、本実施形態に係るナンバープレートの例を示す図である。例えば、ナンバープレートが図5の503である場合、第2のモデルMCは「TN77J8285」を出力する。なお、「−」を出力するように、第1のモデルMBおよび第2のモデルMCに学習させることもできる。ステップS305の処理の詳細は、図4を参照しながら、説明する。 FIG. 5 is a diagram showing an example of a license plate according to the present embodiment. For example, when the license plate is 503 in FIG. 5, the second model MC outputs "TN77J8285". It is also possible to train the first model MB and the second model MC so as to output "-". The details of the process of step S305 will be described with reference to FIG.
(教師データの作成方法)
モデルMA、MBおよびMCの教師データの作成方法の一例を、以下に示す。
i)多数のナンバープレート画像を取得する。
ii)個々のナンバープレート画像について、人の手で、四隅の座標のアノテーションを行う。
iii)個々のナンバープレート画像について、人の手で、文字列の読み取りを行う。このとき、多段文字等の読み取り方向、「−」の読み取りの有無等について統一しておく。
iv)i)のナンバープレート画像と、ii)の四隅の座標のアノテーションデータとを、文字部分画像を切り抜くための第3のモデルMAの教師データとする。
v)i)のナンバープレート画像とii)の四隅の座標のアノテーションデータとから文字部分画像を生成する。
vi)v)の文字部分画像と、iii)の文字列とを、第1のモデルMBおよび第2のモデルMCの教師データとする。
(How to create teacher data)
An example of how to create teacher data for models MA, MB and MC is shown below.
i) Obtain a large number of license plate images.
ii) Annotate the coordinates of the four corners by hand for each license plate image.
iii) For each license plate image, read the character string by hand. At this time, the reading direction of multi-stage characters and the presence or absence of reading "-" are unified.
iv) The license plate image of i) and the annotation data of the coordinates of the four corners of ii) are used as the teacher data of the third model MA for cutting out the character partial image.
v) Generate a character partial image from the license plate image of i) and the annotation data of the coordinates of the four corners of ii).
The character partial image of vi) v) and the character string of iii) are used as teacher data of the first model MB and the second model MC.
なお、ある程度学習が進んでからは、文字認識装置1自身が新規データに対して車体検出、ナンバープレート検出、ナンバープレートの切り出し、および文字読み取りを行う。そして、最後に人間が文字読み取りの間違えた箇所を修正することにより、アノテーションデータの半自動生成を実施することができる。 After learning has progressed to some extent, the character recognition device 1 itself performs vehicle body detection, license plate detection, license plate cutting, and character reading for new data. Finally, the annotation data can be semi-automatically generated by correcting the part where the human has made a mistake in reading the character.
(文字部分画像から文字を出力させる処理)
図4は、本実施形態に係る文字部分画像から文字を出力させる処理を示すフローチャートである。本処理は、図3のステップS305の処理を詳細にしたものである。図6は、本実施形態に係る第1のモデルMBおよび第2のモデルMCの入出力を示す図である。
(Process to output characters from the character partial image)
FIG. 4 is a flowchart showing a process of outputting characters from the character partial image according to the present embodiment. This process is a detailed version of the process of step S305 in FIG. FIG. 6 is a diagram showing input / output of the first model MB and the second model MC according to the present embodiment.
ここで、第1のモデルMBは、例えば、10層以下の層数からなる畳み込みニューラルネットワークであるので、リアルタイムな応答性を有する。一例として、第1のモデルMBは、6層からなる畳み込みニューラルネットワークである。一態様において、第1のモデルMBは、ナンバープレートの文字部分画像が入力され、当該文字部分画像の特徴量行列を出力する。 Here, since the first model MB is, for example, a convolutional neural network having 10 or less layers, it has real-time responsiveness. As an example, the first model MB is a convolutional neural network consisting of 6 layers. In one aspect, in the first model MB, the character partial image of the license plate is input, and the feature matrix of the character partial image is output.
また、第2のモデルMCは、再帰型ニューラルネットワークであり、文字部分画像の特徴量行列が1回以上入力され、各回においてナンバープレートの文字を示す文字情報を1文字分ずつ出力する。 Further, the second model MC is a recurrent neural network, in which the feature matrix of the character partial image is input one or more times, and the character information indicating the characters of the license plate is output one character at each time.
(ステップS401)
文字認識装置1において、文字処理部14は、第3のモデルMAから取得した文字部分画像を第1のモデルMBに入力し、特徴量行列を出力させる。この処理は、図6の(最初のステップ)における、第1のモデルMBの入出力に対応する。
(Step S401)
In the character recognition device 1, the
(ステップS402:文字処理ステップ)
次に、文字処理部14は、第1のモデルMBが出力した特徴量行列と、最初を示す特殊文字とを第2のモデルMCに入力し、1文字を出力させる。ここで、文字処理部14は、第1のモデルMBが出力した特徴量行列をそのまま第2のモデルMCに入力する。この処理は、図6の(最初のステップ)における、第2のモデルMCの入出力に対応する。
(Step S402: Character processing step)
Next, the
(ステップS403)
ここで、文字処理部14は、第2のモデルMCが出力した1文字が最後を示す特殊文字であるか否かを判定する。1文字が最後を示す特殊文字である場合(ステップS403のYES)、文字処理部14は、処理を終了する。これは、図6の(最後のステップ)における、第2のモデルMCの入出力の後処理である。ここで、例えば、文字認識装置1は、ステップS402で出力された文字を連結して出力してもよい。
(Step S403)
Here, the
一方、1文字が最後を示す特殊文字でない場合(ステップS403のNO)、文字処理部14は、ステップS404の処理を実行する。
On the other hand, when one character is not a special character indicating the end (NO in step S403), the
(ステップS404:文字処理ステップ)
文字処理部14は、第2のモデルMCが先に出力した1文字と、第1のモデルMBが出力した特徴量行列とを第2のモデルMCに入力し、次の1文字を出力させる。第2のモデルMCにおいて、当該第2のモデルMCが先に出力した1文字は、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。この処理は、図6の(i回目のステップ)における、第2のモデルMCの入出力に対応する。
(Step S404: Character processing step)
The
なお、一態様において、ステップS404において、文字処理部14は、第2のモデルMCが先に出力した1文字を第2のモデルMCに入力しない構成であってもよい。この場合、第2のモデルMCの内部状態が、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。ただし、ステップS404において、文字処理部14が、第2のモデルMCが先に出力した1文字を第2のモデルMCに入力する構成が好ましい。
In one aspect, in step S404, the
(本実施形態の効果)
文字を含む画像の特徴量行列を1列ずつ分割し、分割した1列の特徴量をRNNに順次入力する非特許文献1の構成では、文字が多段に分けて配置されている画像を処理する場合に、1列の特徴量に複数の文字の特徴量が含まれる場合があるので、識別精度が低下してしまう。
(Effect of this embodiment)
In the configuration of Non-Patent Document 1 in which the feature amount matrix of an image containing characters is divided one column at a time and the feature amounts of the divided one column are sequentially input to the RNN, an image in which characters are arranged in multiple stages is processed. In some cases, the feature amount of one column may include the feature amount of a plurality of characters, so that the identification accuracy is lowered.
本実施形態に係る第2のモデルMCは、文字画像の特徴量行列の全体が入力され、1文字分の文字情報を出力する構成である。そのため、文字が多段に分けて配置されている画像を学習させることにより、文字が多段に分けて配置されている画像に対しても識別精度が低下しないようにすることができる。このように本実施形態によれば、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することができる。 The second model MC according to the present embodiment has a configuration in which the entire feature matrix of the character image is input and character information for one character is output. Therefore, by learning the image in which the characters are arranged in multiple stages, it is possible to prevent the identification accuracy from being lowered even in the image in which the characters are arranged in multiple stages. As described above, according to the present embodiment, it is possible to provide a technique capable of accurately reading characters even if the arrangement and attributes of the characters are not unified in the image.
〔付記事項〕
上記実施形態では、車体のナンバープレートに含まれる文字を読み取ることを説明したが、本発明は、他の用途にも適用可能である。以下では、他の用途について説明する。
[Additional notes]
In the above embodiment, the characters included in the license plate of the vehicle body have been described, but the present invention can be applied to other uses. In the following, other uses will be described.
(1)文字認識装置1は、文字の配置、大きさ、フォントが統一されていない、ナンバープレート以外の任意の画像(例えば、名刺、看板、チラシなど)からリアルタイムな文字認識を行ってもよい。 (1) The character recognition device 1 may perform real-time character recognition from an arbitrary image (for example, a business card, a signboard, a leaflet, etc.) other than a license plate whose character arrangement, size, and font are not unified. ..
(2)文字認識装置1は、多段の文字を読み取ってもよい。すなわち、文字画像は、複数の段に分かれて配置された複数の文字を含むこととしてもよい。 (2) The character recognition device 1 may read a multi-stage character. That is, the character image may include a plurality of characters arranged in a plurality of stages.
(3)文字認識装置1は、モデルに画像を入力する直前に、超解像処理、複数フレームを利用したブレ補正処理等を行ってもよい。また、文字認識装置1は、文字画像(ナンバープレート画像)の傾きを補正する処理を行ってもよい。 (3) The character recognition device 1 may perform super-resolution processing, blur correction processing using a plurality of frames, and the like immediately before inputting an image into the model. Further, the character recognition device 1 may perform a process of correcting the inclination of the character image (license plate image).
(4)カメラ2の撮像画像は、赤外線画像であってもよい。 (4) The captured image of the camera 2 may be an infrared image.
(5)第2のモデルMCは、1文字ずつではなく、2文字以上ずつ出力するようにしてもよい。第2のモデルMCが1度に出力する文字数は、学習時の教師データにより、調整可能である。また、文字自体ではなく、文字を数字に置き換えたもの(文字を示す文字情報)を出力してもよい。 (5) The second model MC may output two or more characters instead of one character at a time. The number of characters output by the second model MC at one time can be adjusted by the teacher data at the time of learning. Further, instead of the character itself, the character replaced with a number (character information indicating the character) may be output.
(6)日本のナンバープレートに適用した場合、地名の辞書を用意しておくのがよい。 (6) When applied to Japanese license plates, it is advisable to prepare a dictionary of place names.
(7)カメラ2が文字認識装置1の少なくとも一部を備えた構成であってもよい。この場合、カメラ2は、撮影部と、文字認識装置1とを備え、文字処理部14は、撮影部が撮影した撮影画像または当該撮影画像の部分画像を文字画像として、文字情報を出力してもよい。また、カメラ2は、撮影部と、入出力部11と、文字認識部12とを備え、文字処理部14は、撮影部が撮影した撮影画像または当該撮影画像の部分画像を文字画像として、文字情報を出力してもよい。この場合、学習部13の機能は、ネットワークを介してカメラ2に接続されたサーバにより提供してもよい。
(7) The camera 2 may be configured to include at least a part of the character recognition device 1. In this case, the camera 2 includes a shooting unit and a character recognition device 1, and the
〔ソフトウェアによる実現例〕
文字認識装置1の制御ブロック(特に、入出力部11、文字認識部12、および、学習部13)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
[Example of realization by software]
Even if the control block of the character recognition device 1 (in particular, the input /
後者の場合、文字認識装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 In the latter case, the character recognition device 1 includes a computer that executes instructions of a program that is software that realizes each function. The computer includes, for example, one or more processors and a computer-readable recording medium that stores the program. Then, in the computer, the processor reads the program from the recording medium and executes it, thereby achieving the object of the present invention. As the processor, for example, a CPU (Central Processing Unit) can be used. As the recording medium, in addition to a "non-temporary tangible medium" such as a ROM (Read Only Memory), a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used. Further, a RAM (Random Access Memory) for expanding the above program may be further provided. Further, the program may be supplied to the computer via an arbitrary transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program. It should be noted that one aspect of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the above program is embodied by electronic transmission.
図7は、本実施形態に係る文字認識装置1のハードウェア構成の具体例を示すブロック図である。文字認識装置1は、バス18を介して互いに接続された、入出力部11と、演算装置15と、主記憶装置16と、補助記憶装置17とを備えている。入出力部11には、カメラ2、および、表示装置3が接続される。演算装置15、主記憶装置16、および補助記憶装置17は、それぞれ、例えばプロセッサ(例えばCPU:Central Processing Unit,GPU:Graphics Processing Unit等)、RAM(random access memory)、ハードディスクドライブであってもよい。演算装置15は、一例として、図1に示した、学習部13および文字処理部14を含む。主記憶装置16および補助記憶装置17は、一例として、図1に示した、第3のモデルMA、第1のモデルMB、および、第2のモデルMCを記憶している。
FIG. 7 is a block diagram showing a specific example of the hardware configuration of the character recognition device 1 according to the present embodiment. The character recognition device 1 includes an input /
(まとめ)
本発明の態様1に係る文字認識装置は、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。
(Summary)
The character recognition device according to the first aspect of the present invention includes a first model which is a convolutional neural network in which a character image containing one or more characters is input and outputs a feature amount of the character image, and the first model. A second model, which is a recursive neural network in which the feature amount to be output is input one or more times and character information indicating a character included in the character image is output, and the first model and the second model are used. It is provided with a character processing unit that outputs character information indicating characters included in the character image.
本発明の態様2に係る文字認識装置は、前記態様1において、前記文字処理部が、前記第2のモデルに対し、前記特徴量とともに、前記第2のモデルが前の回に出力した文字を示す文字情報を入力することとしてもよい。 In the character recognition device according to the second aspect of the present invention, in the first aspect, the character processing unit outputs the characters output by the second model to the second model together with the feature amount in the previous time. You may enter the character information to indicate.
本発明の態様3に係る文字認識装置は、前記態様1または2において、前記第1のモデルおよび前記第2のモデルが、1以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものであることとしてもよい。 In the character recognition device according to the third aspect of the present invention, in the first or second aspect, the first model and the second model display a character image containing one or more characters and characters included in the character image. It may be that the training is performed using the teacher data including the indicated character information.
本発明の態様4に係る文字認識装置は、前記態様3において、前記第1のモデルおよび前記第2のモデルを、前記教師データを用いて学習させる学習部をさらに備えることとしてもよい。 In the third aspect, the character recognition device according to the fourth aspect of the present invention may further include a learning unit for learning the first model and the second model using the teacher data.
本発明の態様5に係る文字認識装置は、前記態様1から4において、画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワークである第3のモデルをさらに備え、前記文字処理部が、前記画像から、前記第3のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第1のモデルに入力することとしてもよい。 The character recognition device according to the fifth aspect of the present invention further comprises a third model, which is a convolutional neural network in which an image is input and area information indicating an area in which a character exists in the image is output in the first to fourth aspects. The character processing unit may cut out a region indicated by the area information output by the third model from the image, and input the cut out area as the character image into the first model.
本発明の態様6に係る文字認識装置は、前記態様5において、前記第3のモデルが、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものであることとしてもよい。 In the character recognition device according to the sixth aspect of the present invention, in the fifth aspect, the third model includes a teacher data including an image including a region where characters exist and the coordinates of four corners of the region where characters exist in the image. It may be that it was trained using.
本発明の態様7に係る文字認識装置は、前記態様1から6において、前記文字画像は、複数の段に分かれて配置された複数の文字を含むこととしてもよい。 In the character recognition device according to the seventh aspect of the present invention, in the first to sixth aspects, the character image may include a plurality of characters arranged in a plurality of stages.
本発明の態様8に係る文字認識装置は、前記態様1から7において、前記文字画像は、ナンバープレートを含む撮影画像または当該撮影画像の部分画像であることとしてもよい。 In the character recognition device according to the eighth aspect of the present invention, in the first to seventh aspects, the character image may be a photographed image including a license plate or a partial image of the photographed image.
本発明の態様9に係る撮影装置は、撮影部と、前記態様1から8の何れかの文字認識装置とを備え、前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力する。 The photographing device according to the ninth aspect of the present invention includes a photographing unit and a character recognition device according to any one of the first to eighth aspects, and the character processing unit of the character recognition device is a photographed image taken by the photographing unit. Alternatively, the character information is output by using the partial image of the captured image as the character image.
本発明の態様10に係る文字認識装置は、第1のモデルと、第2のモデルとを用いた文字認識方法であって、前記第1のモデルが、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、前記第2のモデルが、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含む。 The character recognition device according to the tenth aspect of the present invention is a character recognition method using a first model and a second model, and the first model inputs a character image containing one or more characters. It is a convolutional neural network that outputs the feature amount of the character image, and the second model is input with the feature amount output by the first model one or more times, and the character included in the character image is input. It is a recursive neural network that outputs the indicated character information, and includes a character processing step that outputs character information indicating characters included in the character image using the first model and the second model.
本発明の各態様に係る文字認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記文字認識装置が備える各部(ソフトウェア要素)として動作させることにより上記文字認識装置をコンピュータにて実現させる文字認識装置の文字認識プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The character recognition device according to each aspect of the present invention may be realized by a computer. In this case, the character recognition device is made into a computer by operating the computer as each part (software element) included in the character recognition device. The character recognition program of the character recognition device and the computer-readable recording medium on which the character recognition device is recorded also fall within the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the embodiments obtained by appropriately combining the technical means disclosed in the different embodiments. Is also included in the technical scope of the present invention.
1 文字認識装置
2 カメラ(撮影装置)
11 入出力部
12 文字認識部
13 学習部
14 文字処理部
MA 第3のモデル
MB 第1のモデル
MC 第2のモデル
1 character recognition device 2 camera (shooting device)
11 Input /
Claims (11)
前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、
前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、
を備えることを特徴とする文字認識装置。 A first model, which is a convolutional neural network in which a character image containing one or more characters is input and the feature amount of the character image is output,
A second model, which is a recurrent neural network in which the feature amount output by the first model is input one or more times and character information indicating characters included in the character image is output,
Using the first model and the second model, a character processing unit that outputs character information indicating characters included in the character image, and a character processing unit.
A character recognition device characterized by being equipped with.
前記文字処理部は、前記画像から、前記第3のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第1のモデルに入力することを特徴とする請求項1から4の何れか1項に記載の文字認識装置。 It further comprises a third model, which is a convolutional neural network into which an image is input and outputs area information indicating the area in which characters exist in the image.
The character processing unit cuts out a region indicated by the area information output by the third model from the image, and inputs the cut out region as the character image into the first model. The character recognition device according to any one of 1 to 4.
請求項1から8の何れか1項に記載の文字認識装置とを備え、
前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力することを特徴とする撮影装置。 With the shooting department
The character recognition device according to any one of claims 1 to 8 is provided.
The character processing unit of the character recognition device is a photographing device that outputs the character information by using a photographed image taken by the photographing unit or a partial image of the photographed image as the character image.
前記第1のモデルは、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、
前記第2のモデルは、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、
前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含むことを特徴とする文字認識方法。 A character recognition method using the first model and the second model.
The first model is a convolutional neural network in which a character image containing one or more characters is input and the feature amount of the character image is output.
The second model is a recurrent neural network in which the feature amount output by the first model is input one or more times and character information indicating characters included in the character image is output.
A character recognition method comprising the character processing step of outputting character information indicating a character included in the character image by using the first model and the second model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019117702A JP6779491B1 (en) | 2019-06-25 | 2019-06-25 | Character recognition device, shooting device, character recognition method, and character recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019117702A JP6779491B1 (en) | 2019-06-25 | 2019-06-25 | Character recognition device, shooting device, character recognition method, and character recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6779491B1 JP6779491B1 (en) | 2020-11-04 |
JP2021005164A true JP2021005164A (en) | 2021-01-14 |
Family
ID=73022349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019117702A Active JP6779491B1 (en) | 2019-06-25 | 2019-06-25 | Character recognition device, shooting device, character recognition method, and character recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6779491B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022159995A (en) * | 2021-04-05 | 2022-10-18 | 日本システム開発株式会社 | Image generation apparatus |
JP2022181678A (en) * | 2021-05-26 | 2022-12-08 | Necプラットフォームズ株式会社 | Information processing system and program |
KR102626798B1 (en) * | 2022-12-23 | 2024-01-18 | 주식회사 업스테이지 | Method and system monitoring model set associated with character recognition |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022123907A1 (en) * | 2020-12-09 | 2022-06-16 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018060296A (en) * | 2016-10-03 | 2018-04-12 | グローリー株式会社 | Image processing apparatus, image processing system, and image processing method |
JP6430672B1 (en) * | 2018-03-16 | 2018-11-28 | 株式会社三井E&Sマシナリー | Reading system and reading method |
JP2019046007A (en) * | 2017-08-31 | 2019-03-22 | 株式会社Pfu | Coordinate detection device and learnt model |
-
2019
- 2019-06-25 JP JP2019117702A patent/JP6779491B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018060296A (en) * | 2016-10-03 | 2018-04-12 | グローリー株式会社 | Image processing apparatus, image processing system, and image processing method |
JP2019046007A (en) * | 2017-08-31 | 2019-03-22 | 株式会社Pfu | Coordinate detection device and learnt model |
JP6430672B1 (en) * | 2018-03-16 | 2018-11-28 | 株式会社三井E&Sマシナリー | Reading system and reading method |
Non-Patent Citations (1)
Title |
---|
保黒政大: "車載搭載型ナンバープレート認識システム", 電気学会論文誌C VOL.126 NO.5, vol. 第126巻 第5号, JPN6020024025, 1 May 2006 (2006-05-01), JP, pages 589 - 595, ISSN: 0004300751 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022159995A (en) * | 2021-04-05 | 2022-10-18 | 日本システム開発株式会社 | Image generation apparatus |
JP2022181678A (en) * | 2021-05-26 | 2022-12-08 | Necプラットフォームズ株式会社 | Information processing system and program |
KR102626798B1 (en) * | 2022-12-23 | 2024-01-18 | 주식회사 업스테이지 | Method and system monitoring model set associated with character recognition |
Also Published As
Publication number | Publication date |
---|---|
JP6779491B1 (en) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6779491B1 (en) | Character recognition device, shooting device, character recognition method, and character recognition program | |
JP7490141B2 (en) | IMAGE DETECTION METHOD, MODEL TRAINING METHOD, IMAGE DETECTION APPARATUS, TRAINING APPARATUS, DEVICE, AND PROGRAM | |
CN111950424B (en) | Video data processing method and device, computer and readable storage medium | |
WO2019214320A1 (en) | Vehicle damage identification processing method, processing device, client and server | |
EP4040401A1 (en) | Image processing method and apparatus, device and storage medium | |
CN111754541A (en) | Target tracking method, device, equipment and readable storage medium | |
CN108073898B (en) | Method, device and equipment for identifying human head area | |
CN109490843B (en) | Normalized radar screen monitoring method and system | |
WO2019214321A1 (en) | Vehicle damage identification processing method, processing device, client and server | |
WO2022227218A1 (en) | Drug name recognition method and apparatus, and computer device and storage medium | |
CN111242083A (en) | Text processing method, device, equipment and medium based on artificial intelligence | |
CN111741329B (en) | Video processing method, device, equipment and storage medium | |
CN112686243A (en) | Method and device for intelligently identifying picture characters, computer equipment and storage medium | |
CN110619334A (en) | Portrait segmentation method based on deep learning, architecture and related device | |
CN113159200A (en) | Object analysis method, device and storage medium | |
JP2022185143A (en) | Text detection method, and text recognition method and device | |
CN114022748B (en) | Target identification method, device, equipment and storage medium | |
CN113191355A (en) | Text image synthesis method, device, equipment and storage medium | |
CN116774973A (en) | Data rendering method, device, computer equipment and storage medium | |
CN115760886B (en) | Land parcel dividing method and device based on unmanned aerial vehicle aerial view and related equipment | |
JP6811965B2 (en) | Image processing equipment, image processing methods and programs | |
CN112541436B (en) | Concentration analysis method and device, electronic equipment and computer storage medium | |
CN108875467B (en) | Living body detection method, living body detection device and computer storage medium | |
CN111626244B (en) | Image recognition method, device, electronic equipment and medium | |
CN112233194B (en) | Medical picture optimization method, device, equipment and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200107 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200515 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200923 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6779491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |