JP6779491B1 - 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム - Google Patents
文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム Download PDFInfo
- Publication number
- JP6779491B1 JP6779491B1 JP2019117702A JP2019117702A JP6779491B1 JP 6779491 B1 JP6779491 B1 JP 6779491B1 JP 2019117702 A JP2019117702 A JP 2019117702A JP 2019117702 A JP2019117702 A JP 2019117702A JP 6779491 B1 JP6779491 B1 JP 6779491B1
- Authority
- JP
- Japan
- Prior art keywords
- character
- model
- image
- character recognition
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000000306 recurrent effect Effects 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 abstract description 8
- 239000011159 matrix material Substances 0.000 description 10
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
以下、本発明の一実施形態について、詳細に説明する。
図1は、本実施形態に係る文字認識装置1の構成を示すブロック図である。文字認識装置1は、入出力部11、文字認識部12、および、学習部13を備えている。文字認識部12は、文字処理部14、第3のモデルMA、第1のモデルMB、および、第2のモデルMCを備えている。
図2は、本実施形態に係る文字認識装置1が処理する画像の例を示す図である。201は、車体を含む道路の撮影画像の例である。202は、車体の画像(以下、車体画像という)の例である。203は、ナンバープレートの画像(以下、ナンバープレート画像という)の例である。
図3は、本実施形態に係る文字認識装置1の処理を示すフローチャートである。以下、文字認識装置1が車体を含む画像からナンバープレートの文字を読み取る(認識する)処理(すなわち、文字画像がナンバープレートを含む撮影画像または当該撮影画像の部分画像である構成)について説明する。本処理は、リアルタイムに行われる。なお、文字認識装置1は、カメラ2から画像を取得するのではなく、自装置が備える記録媒体から画像を取得してもよいし、ローカル又はグローバルなネットワークを介して画像を取得してもよい。
文字認識装置1において、入出力部11は、カメラ2から車体を含む道路の撮影画像(図2の201に対応)を取得する。
次に、入出力部11は、ステップS301で取得した撮影画像から車体を検出し、車体画像(図2の202に対応)を切り出す。撮影画像から車体を検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、他の手法に比べて処理が相対的に軽い「SqueezeDet」等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。
そして、入出力部11は、ステップS302で切り出した車体画像からナンバープレートを検出し、ナンバープレート画像(図2の203に対応)を切り出す。車体画像からナンバープレートを検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、ステップS302と同様に、SqueezeDet等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。また、車体画像からナンバープレート画像を切り出すことにより、ナンバープレート画像と、車体画像とを対応させて管理することができる。
続いて、入出力部11は、ステップS303で切り出したナンバープレート画像を第3のモデルMAに入力して、ナンバープレート画像から文字部分画像を切り出す。後述する通り、文字部分画像を利用して文字認識を実行することにより、ナンバープレート画像を利用して文字認識を実行する場合よりも、識別精度を向上させることができる。
さらに、文字処理部14は、第3のモデルMAから文字部分画像を取得し、当該文字部分画像を第1のモデルMBに入力し、第2のモデルMCに文字を出力させる。
モデルMA、MBおよびMCの教師データの作成方法の一例を、以下に示す。
i)多数のナンバープレート画像を取得する。
ii)個々のナンバープレート画像について、人の手で、四隅の座標のアノテーションを行う。
iii)個々のナンバープレート画像について、人の手で、文字列の読み取りを行う。このとき、多段文字等の読み取り方向、「−」の読み取りの有無等について統一しておく。
iv)i)のナンバープレート画像と、ii)の四隅の座標のアノテーションデータとを、文字部分画像を切り抜くための第3のモデルMAの教師データとする。
v)i)のナンバープレート画像とii)の四隅の座標のアノテーションデータとから文字部分画像を生成する。
vi)v)の文字部分画像と、iii)の文字列とを、第1のモデルMBおよび第2のモデルMCの教師データとする。
図4は、本実施形態に係る文字部分画像から文字を出力させる処理を示すフローチャートである。本処理は、図3のステップS305の処理を詳細にしたものである。図6は、本実施形態に係る第1のモデルMBおよび第2のモデルMCの入出力を示す図である。
文字認識装置1において、文字処理部14は、第3のモデルMAから取得した文字部分画像を第1のモデルMBに入力し、特徴量行列を出力させる。この処理は、図6の(最初のステップ)における、第1のモデルMBの入出力に対応する。
次に、文字処理部14は、第1のモデルMBが出力した特徴量行列と、最初を示す特殊文字とを第2のモデルMCに入力し、1文字を出力させる。ここで、文字処理部14は、第1のモデルMBが出力した特徴量行列をそのまま第2のモデルMCに入力する。この処理は、図6の(最初のステップ)における、第2のモデルMCの入出力に対応する。
ここで、文字処理部14は、第2のモデルMCが出力した1文字が最後を示す特殊文字であるか否かを判定する。1文字が最後を示す特殊文字である場合(ステップS403のYES)、文字処理部14は、処理を終了する。これは、図6の(最後のステップ)における、第2のモデルMCの入出力の後処理である。ここで、例えば、文字認識装置1は、ステップS402で出力された文字を連結して出力してもよい。
文字処理部14は、第2のモデルMCが先に出力した1文字と、第1のモデルMBが出力した特徴量行列とを第2のモデルMCに入力し、次の1文字を出力させる。第2のモデルMCにおいて、当該第2のモデルMCが先に出力した1文字は、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。この処理は、図6の(i回目のステップ)における、第2のモデルMCの入出力に対応する。
文字を含む画像の特徴量行列を1列ずつ分割し、分割した1列の特徴量をRNNに順次入力する非特許文献1の構成では、文字が多段に分けて配置されている画像を処理する場合に、1列の特徴量に複数の文字の特徴量が含まれる場合があるので、識別精度が低下してしまう。
上記実施形態では、車体のナンバープレートに含まれる文字を読み取ることを説明したが、本発明は、他の用途にも適用可能である。以下では、他の用途について説明する。
文字認識装置1の制御ブロック(特に、入出力部11、文字認識部12、および、学習部13)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
本発明の態様1に係る文字認識装置は、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。
2 カメラ(撮影装置)
11 入出力部
12 文字認識部
13 学習部
14 文字処理部
MA 第3のモデル
MB 第1のモデル
MC 第2のモデル
Claims (11)
- 1以上の文字を含む文字画像が入力され、当該文字画像の全体の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、
前記第1のモデルが出力した前記文字画像全体の特徴量が繰り返し入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、
前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、
を備えることを特徴とする文字認識装置。 - 前記文字処理部は、前記第2のモデルに対し、前記特徴量とともに、前記第2のモデルが前の回に出力した文字を示す文字情報を入力することを特徴とする請求項1に記載の文字認識装置。
- 前記第1のモデルおよび前記第2のモデルは、1以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものであることを特徴とする請求項1または2に記載の文字認識装置。
- 前記第1のモデルおよび前記第2のモデルを、前記教師データを用いて学習させる学習部をさらに備えることを特徴とする請求項3に記載の文字認識装置。
- 画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワークである第3のモデルをさらに備え、
前記文字処理部は、前記画像から、前記第3のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第1のモデルに入力することを特徴とする請求項1から4の何れか1項に記載の文字認識装置。 - 前記第3のモデルは、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものであることを特徴とする請求項5に記載の文字認識装置。
- 前記文字画像は、複数の段に分かれて配置された複数の文字を含むことを特徴とする請求項1から6の何れか1項に記載の文字認識装置。
- 前記文字画像は、ナンバープレートを含む撮影画像または当該撮影画像の部分画像であることを特徴とする請求項1から7の何れか1項に記載の文字認識装置。
- 撮影部と、
請求項1から8の何れか1項に記載の文字認識装置とを備え、
前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力することを特徴とする撮影装置。 - 第1のモデルと、第2のモデルとを用いた文字認識方法であって、
前記第1のモデルは、1以上の文字を含む文字画像が入力され、当該文字画像の全体の特徴量を出力する畳み込みニューラルネットワークであり、
前記第2のモデルは、前記第1のモデルが出力した前記文字画像全体の特徴量が繰り返し入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、
前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含むことを特徴とする文字認識方法。 - 請求項1に記載の文字認識装置としてコンピュータを機能させるための文字認識プログラムであって、前記第1のモデル、前記第2のモデル、および、前記文字処理部としてコンピュータを機能させるための文字認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019117702A JP6779491B1 (ja) | 2019-06-25 | 2019-06-25 | 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019117702A JP6779491B1 (ja) | 2019-06-25 | 2019-06-25 | 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6779491B1 true JP6779491B1 (ja) | 2020-11-04 |
JP2021005164A JP2021005164A (ja) | 2021-01-14 |
Family
ID=73022349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019117702A Active JP6779491B1 (ja) | 2019-06-25 | 2019-06-25 | 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6779491B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022123907A1 (ja) * | 2020-12-09 | 2022-06-16 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、撮像装置、車両装置、並びに医療用ロボット装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7117720B1 (ja) * | 2021-04-05 | 2022-08-15 | 日本システム開発株式会社 | 画像生成装置 |
JP2022181678A (ja) * | 2021-05-26 | 2022-12-08 | Necプラットフォームズ株式会社 | 情報処理システム及びプログラム |
KR102626798B1 (ko) * | 2022-12-23 | 2024-01-18 | 주식회사 업스테이지 | 문자 인식과 연관된 모델 세트 모니터링 방법 및 시스템 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6829575B2 (ja) * | 2016-10-03 | 2021-02-10 | グローリー株式会社 | 画像処理装置、画像処理システム及び画像処理方法 |
JP6858101B2 (ja) * | 2017-08-31 | 2021-04-14 | 株式会社Pfu | 座標検出装置及び学習済みモデル |
JP6430672B1 (ja) * | 2018-03-16 | 2018-11-28 | 株式会社三井E&Sマシナリー | 読取システム及び読取方法 |
-
2019
- 2019-06-25 JP JP2019117702A patent/JP6779491B1/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022123907A1 (ja) * | 2020-12-09 | 2022-06-16 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、撮像装置、車両装置、並びに医療用ロボット装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021005164A (ja) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6779491B1 (ja) | 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム | |
CN109902659B (zh) | 用于处理人体图像的方法和装置 | |
CN111950424B (zh) | 一种视频数据处理方法、装置、计算机及可读存储介质 | |
WO2019214320A1 (zh) | 车辆损伤识别的处理方法、处理设备、客户端及服务器 | |
EP4040401A1 (en) | Image processing method and apparatus, device and storage medium | |
US11455502B2 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
CN111754541A (zh) | 目标跟踪方法、装置、设备及可读存储介质 | |
WO2019109793A1 (zh) | 人头区域识别方法、装置及设备 | |
US11900662B2 (en) | Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures | |
CN109490843B (zh) | 一种归一化雷达屏幕监测方法及系统 | |
WO2019214321A1 (zh) | 车辆损伤识别的处理方法、处理设备、客户端及服务器 | |
WO2022227218A1 (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN111741329B (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN110619334A (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
JP2023526899A (ja) | 画像修復モデルを生成するための方法、デバイス、媒体及びプログラム製品 | |
CN113159200A (zh) | 对象分析方法、装置及存储介质 | |
JP2022185143A (ja) | テキスト検出方法、テキスト認識方法及び装置 | |
CN114022748B (zh) | 目标识别方法、装置、设备及存储介质 | |
CN113191355A (zh) | 文本图像合成方法、装置、设备及存储介质 | |
CN115760886B (zh) | 基于无人机鸟瞰图的地块划分方法、装置及相关设备 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
JP6811965B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN112541436B (zh) | 专注度分析方法、装置、电子设备及计算机存储介质 | |
CN112528790B (zh) | 基于行为识别的教学管理方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200107 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200515 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200923 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6779491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |