JP6779491B1 - 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム - Google Patents

文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム Download PDF

Info

Publication number
JP6779491B1
JP6779491B1 JP2019117702A JP2019117702A JP6779491B1 JP 6779491 B1 JP6779491 B1 JP 6779491B1 JP 2019117702 A JP2019117702 A JP 2019117702A JP 2019117702 A JP2019117702 A JP 2019117702A JP 6779491 B1 JP6779491 B1 JP 6779491B1
Authority
JP
Japan
Prior art keywords
character
model
image
character recognition
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019117702A
Other languages
English (en)
Other versions
JP2021005164A (ja
Inventor
大資 玉城
大資 玉城
健太郎 須藤
健太郎 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exa Wizards Inc
Original Assignee
Exa Wizards Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exa Wizards Inc filed Critical Exa Wizards Inc
Priority to JP2019117702A priority Critical patent/JP6779491B1/ja
Application granted granted Critical
Publication of JP6779491B1 publication Critical patent/JP6779491B1/ja
Publication of JP2021005164A publication Critical patent/JP2021005164A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像において文字が統一されていなくても、文字を精度よく読み取る。【解決手段】文字認識装置(1)は、文字画像の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、第1のモデルが出力する特徴量が1回以上入力され、文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、上記モデルを用いて文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。【選択図】図1

Description

本発明は、文字認識装置、撮影装置、文字認識方法、および、文字認識プログラムに関する。
従来、AI(Artificial Intelligence)を利用して画像から文字を読み取る技術が知られている。例えば、非特許文献1には、1行に並んだ文字を含む画像を機械学習モデルに入力して得られた特徴量行列(特徴マップ)を横方向に1列ずつ切り出しながら、文字を認識する技術が開示されている。
Palaiahnakote Shivakumara、外5名、"CNN-RNN based method for license plate recognition"、[online]、CAAI Trans. Intell. Technol., 2018, Vol. 3, Iss. 3, pp. 169-175、[令和1年6月5日検索]、インターネット<URL:https://core.ac.uk/download/pdf/161769815.pdf>
しかしながら、上述のような従来技術には、文字の配置、並びに、文字の大きさ、及びフォント等の文字の属性が統一されていない場合、読み取り精度が低下するという問題がある。例えば、複数行の文字を含む画像を処理しようとすると、特徴量行列から切り出した1列の特徴量に、縦方向に並んだ複数文字の特徴量が含まれることになるので、1列の特徴量を用いても1つの文字として認識することができないという問題がある。
本発明の一態様は、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様に係る文字認識装置は、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。
本発明の一態様に係る文字認識方法は、第1のモデルと、第2のモデルとを用いた文字認識方法であって、前記第1のモデルが、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、前記第2のモデルが、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含む。
本発明の一態様によれば、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することができる。
本発明の一実施形態に係る文字認識装置の構成を示すブロック図である。 本発明の一実施形態に係る文字認識装置が処理する画像の例を示す図である。 本発明の一実施形態に係る文字認識装置の処理を示すフローチャートである。 本発明の一実施形態に係る文字部分画像から文字を出力させる処理を示すフローチャートである。 本発明の一実施形態に係るナンバープレートの例を示す図である。 本発明の一実施形態に係るモデルの入出力を示す図である。 本発明の一実施形態に係る文字認識装置のハードウェア構成を示すブロック図である。
〔実施形態〕
以下、本発明の一実施形態について、詳細に説明する。
(文字認識装置1の構成)
図1は、本実施形態に係る文字認識装置1の構成を示すブロック図である。文字認識装置1は、入出力部11、文字認識部12、および、学習部13を備えている。文字認識部12は、文字処理部14、第3のモデルMA、第1のモデルMB、および、第2のモデルMCを備えている。
文字認識装置1には、カメラ(撮影装置)2と、表示装置3とが接続されている。カメラ2は、所定のシーンを撮影し、当該撮影した画像である撮影画像を文字認識装置1に出力する。カメラ2の種類としては、例えば、公共のため(例えば、交通安全監視システム等)に使われるカメラ、個人で使われるカメラの両方が含まれる。表示装置3は、文字認識装置1から出力された、撮影画像の文字認識結果を表示する。
文字認識部12において、第3のモデルMAは、画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)である。なお、本明細書において「文字」との文言には、記号、数字、および、各種言語の文字が含まれる。また、領域情報は、画像において文字が存在する領域の四隅の座標を含む。なお、第3のモデルMAは、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものである。
第1のモデルMBは、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである。第2のモデルMCは、第1のモデルが出力する特徴量が1回以上入力され、文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)である。再帰型ニューラルネットワークは、長期短期記憶ネットワーク(LSTM:Long Short-Term Memory)であってもよい。なお、第1のモデルMBおよび第2のモデルMCは、1以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものである。
入出力部11は、カメラ2の撮影画像から複数の文字を含む画像を抽出し、当該画像を文字処理部14に出力する。また、入出力部11は、文字処理部14から出力された文字情報を表示装置3に表示させる。なお、入出力部11が出力する文字情報は、表示装置3に加え、又は表示装置3に代えて、他の情報処理装置に提供される構成としてもよい。そのような他の情報処理装置において、上記の文字情報は、データベースに格納された他の文字情報と対比するために用いられたり、他のカメラで撮像された画像に基づく文字情報等と比較するために用いられたりする。
文字処理部14は、第3のモデルMA、第1のモデルMBおよび第2のモデルMCを用いて、文字画像に含まれる文字を示す文字情報を出力する。文字処理部14は、入出力部11から取得した画像を第3のモデルMAに入力し、当該画像から、第3のモデルMAが出力する領域情報が示す領域を切り出し、切り出した領域を文字画像として第1のモデルMBに入力する。ただし、文字処理部14は、第3のモデルMAを用いない処理を行ってもよく、その場合、文字処理部14は、入出力部11から取得した画像を文字画像として第1のモデルMBに入力する。
そして、文字処理部14は、第1のモデルMBが出力した特徴量を第2のモデルMCに1回以上入力し、第2のモデルMCが出力する1文字分の文字情報を連結することにより、文字画像に含まれる文字を取得する。一態様において、文字処理部14は、第2のモデルMCに対し、文字画像の特徴量とともに、第2のモデルMCが前の回に出力した文字を示す文字情報を入力する。
学習部13は、第1のモデルMBおよび第2のモデルMCを、教師データを用いて学習させる。詳細には、学習部13は、第2のモデルMCの出力から計算した損失関数を用いて、第1のモデルMBおよび第2のモデルMCをそれぞれ学習させる。また、学習部13は、第3のモデルMAを、教師データを用いて学習させる。
(画像の例)
図2は、本実施形態に係る文字認識装置1が処理する画像の例を示す図である。201は、車体を含む道路の撮影画像の例である。202は、車体の画像(以下、車体画像という)の例である。203は、ナンバープレートの画像(以下、ナンバープレート画像という)の例である。
(文字認識装置1の処理)
図3は、本実施形態に係る文字認識装置1の処理を示すフローチャートである。以下、文字認識装置1が車体を含む画像からナンバープレートの文字を読み取る(認識する)処理(すなわち、文字画像がナンバープレートを含む撮影画像または当該撮影画像の部分画像である構成)について説明する。本処理は、リアルタイムに行われる。なお、文字認識装置1は、カメラ2から画像を取得するのではなく、自装置が備える記録媒体から画像を取得してもよいし、ローカル又はグローバルなネットワークを介して画像を取得してもよい。
(ステップS301)
文字認識装置1において、入出力部11は、カメラ2から車体を含む道路の撮影画像(図2の201に対応)を取得する。
(ステップS302)
次に、入出力部11は、ステップS301で取得した撮影画像から車体を検出し、車体画像(図2の202に対応)を切り出す。撮影画像から車体を検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、他の手法に比べて処理が相対的に軽い「SqueezeDet」等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。
(ステップS303)
そして、入出力部11は、ステップS302で切り出した車体画像からナンバープレートを検出し、ナンバープレート画像(図2の203に対応)を切り出す。車体画像からナンバープレートを検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、ステップS302と同様に、SqueezeDet等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。また、車体画像からナンバープレート画像を切り出すことにより、ナンバープレート画像と、車体画像とを対応させて管理することができる。
(ステップS304)
続いて、入出力部11は、ステップS303で切り出したナンバープレート画像を第3のモデルMAに入力して、ナンバープレート画像から文字部分画像を切り出す。後述する通り、文字部分画像を利用して文字認識を実行することにより、ナンバープレート画像を利用して文字認識を実行する場合よりも、識別精度を向上させることができる。
学習部13は、事前に、第3のモデルMAに対して、ナンバープレート画像に含まれる文字の部分(例えば、矩形領域)を学習させる。その場合、教師データとして、ナンバープレート画像に、文字を含む矩形領域の各頂点(4隅)の座標を付与したものが用いられる。
なお、ステップS304の処理は、必須ではなく、省略してもよい。
(ステップS305)
さらに、文字処理部14は、第3のモデルMAから文字部分画像を取得し、当該文字部分画像を第1のモデルMBに入力し、第2のモデルMCに文字を出力させる。
図5は、本実施形態に係るナンバープレートの例を示す図である。例えば、ナンバープレートが図5の503である場合、第2のモデルMCは「TN77J8285」を出力する。なお、「−」を出力するように、第1のモデルMBおよび第2のモデルMCに学習させることもできる。ステップS305の処理の詳細は、図4を参照しながら、説明する。
(教師データの作成方法)
モデルMA、MBおよびMCの教師データの作成方法の一例を、以下に示す。
i)多数のナンバープレート画像を取得する。
ii)個々のナンバープレート画像について、人の手で、四隅の座標のアノテーションを行う。
iii)個々のナンバープレート画像について、人の手で、文字列の読み取りを行う。このとき、多段文字等の読み取り方向、「−」の読み取りの有無等について統一しておく。
iv)i)のナンバープレート画像と、ii)の四隅の座標のアノテーションデータとを、文字部分画像を切り抜くための第3のモデルMAの教師データとする。
v)i)のナンバープレート画像とii)の四隅の座標のアノテーションデータとから文字部分画像を生成する。
vi)v)の文字部分画像と、iii)の文字列とを、第1のモデルMBおよび第2のモデルMCの教師データとする。
なお、ある程度学習が進んでからは、文字認識装置1自身が新規データに対して車体検出、ナンバープレート検出、ナンバープレートの切り出し、および文字読み取りを行う。そして、最後に人間が文字読み取りの間違えた箇所を修正することにより、アノテーションデータの半自動生成を実施することができる。
(文字部分画像から文字を出力させる処理)
図4は、本実施形態に係る文字部分画像から文字を出力させる処理を示すフローチャートである。本処理は、図3のステップS305の処理を詳細にしたものである。図6は、本実施形態に係る第1のモデルMBおよび第2のモデルMCの入出力を示す図である。
ここで、第1のモデルMBは、例えば、10層以下の層数からなる畳み込みニューラルネットワークであるので、リアルタイムな応答性を有する。一例として、第1のモデルMBは、6層からなる畳み込みニューラルネットワークである。一態様において、第1のモデルMBは、ナンバープレートの文字部分画像が入力され、当該文字部分画像の特徴量行列を出力する。
また、第2のモデルMCは、再帰型ニューラルネットワークであり、文字部分画像の特徴量行列が1回以上入力され、各回においてナンバープレートの文字を示す文字情報を1文字分ずつ出力する。
(ステップS401)
文字認識装置1において、文字処理部14は、第3のモデルMAから取得した文字部分画像を第1のモデルMBに入力し、特徴量行列を出力させる。この処理は、図6の(最初のステップ)における、第1のモデルMBの入出力に対応する。
(ステップS402:文字処理ステップ)
次に、文字処理部14は、第1のモデルMBが出力した特徴量行列と、最初を示す特殊文字とを第2のモデルMCに入力し、1文字を出力させる。ここで、文字処理部14は、第1のモデルMBが出力した特徴量行列をそのまま第2のモデルMCに入力する。この処理は、図6の(最初のステップ)における、第2のモデルMCの入出力に対応する。
(ステップS403)
ここで、文字処理部14は、第2のモデルMCが出力した1文字が最後を示す特殊文字であるか否かを判定する。1文字が最後を示す特殊文字である場合(ステップS403のYES)、文字処理部14は、処理を終了する。これは、図6の(最後のステップ)における、第2のモデルMCの入出力の後処理である。ここで、例えば、文字認識装置1は、ステップS402で出力された文字を連結して出力してもよい。
一方、1文字が最後を示す特殊文字でない場合(ステップS403のNO)、文字処理部14は、ステップS404の処理を実行する。
(ステップS404:文字処理ステップ)
文字処理部14は、第2のモデルMCが先に出力した1文字と、第1のモデルMBが出力した特徴量行列とを第2のモデルMCに入力し、次の1文字を出力させる。第2のモデルMCにおいて、当該第2のモデルMCが先に出力した1文字は、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。この処理は、図6の(i回目のステップ)における、第2のモデルMCの入出力に対応する。
なお、一態様において、ステップS404において、文字処理部14は、第2のモデルMCが先に出力した1文字を第2のモデルMCに入力しない構成であってもよい。この場合、第2のモデルMCの内部状態が、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。ただし、ステップS404において、文字処理部14が、第2のモデルMCが先に出力した1文字を第2のモデルMCに入力する構成が好ましい。
(本実施形態の効果)
文字を含む画像の特徴量行列を1列ずつ分割し、分割した1列の特徴量をRNNに順次入力する非特許文献1の構成では、文字が多段に分けて配置されている画像を処理する場合に、1列の特徴量に複数の文字の特徴量が含まれる場合があるので、識別精度が低下してしまう。
本実施形態に係る第2のモデルMCは、文字画像の特徴量行列の全体が入力され、1文字分の文字情報を出力する構成である。そのため、文字が多段に分けて配置されている画像を学習させることにより、文字が多段に分けて配置されている画像に対しても識別精度が低下しないようにすることができる。このように本実施形態によれば、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することができる。
〔付記事項〕
上記実施形態では、車体のナンバープレートに含まれる文字を読み取ることを説明したが、本発明は、他の用途にも適用可能である。以下では、他の用途について説明する。
(1)文字認識装置1は、文字の配置、大きさ、フォントが統一されていない、ナンバープレート以外の任意の画像(例えば、名刺、看板、チラシなど)からリアルタイムな文字認識を行ってもよい。
(2)文字認識装置1は、多段の文字を読み取ってもよい。すなわち、文字画像は、複数の段に分かれて配置された複数の文字を含むこととしてもよい。
(3)文字認識装置1は、モデルに画像を入力する直前に、超解像処理、複数フレームを利用したブレ補正処理等を行ってもよい。また、文字認識装置1は、文字画像(ナンバープレート画像)の傾きを補正する処理を行ってもよい。
(4)カメラ2の撮像画像は、赤外線画像であってもよい。
(5)第2のモデルMCは、1文字ずつではなく、2文字以上ずつ出力するようにしてもよい。第2のモデルMCが1度に出力する文字数は、学習時の教師データにより、調整可能である。また、文字自体ではなく、文字を数字に置き換えたもの(文字を示す文字情報)を出力してもよい。
(6)日本のナンバープレートに適用した場合、地名の辞書を用意しておくのがよい。
(7)カメラ2が文字認識装置1の少なくとも一部を備えた構成であってもよい。この場合、カメラ2は、撮影部と、文字認識装置1とを備え、文字処理部14は、撮影部が撮影した撮影画像または当該撮影画像の部分画像を文字画像として、文字情報を出力してもよい。また、カメラ2は、撮影部と、入出力部11と、文字認識部12とを備え、文字処理部14は、撮影部が撮影した撮影画像または当該撮影画像の部分画像を文字画像として、文字情報を出力してもよい。この場合、学習部13の機能は、ネットワークを介してカメラ2に接続されたサーバにより提供してもよい。
〔ソフトウェアによる実現例〕
文字認識装置1の制御ブロック(特に、入出力部11、文字認識部12、および、学習部13)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、文字認識装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
図7は、本実施形態に係る文字認識装置1のハードウェア構成の具体例を示すブロック図である。文字認識装置1は、バス18を介して互いに接続された、入出力部11と、演算装置15と、主記憶装置16と、補助記憶装置17とを備えている。入出力部11には、カメラ2、および、表示装置3が接続される。演算装置15、主記憶装置16、および補助記憶装置17は、それぞれ、例えばプロセッサ(例えばCPU:Central Processing Unit,GPU:Graphics Processing Unit等)、RAM(random access memory)、ハードディスクドライブであってもよい。演算装置15は、一例として、図1に示した、学習部13および文字処理部14を含む。主記憶装置16および補助記憶装置17は、一例として、図1に示した、第3のモデルMA、第1のモデルMB、および、第2のモデルMCを記憶している。
(まとめ)
本発明の態様1に係る文字認識装置は、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。
本発明の態様2に係る文字認識装置は、前記態様1において、前記文字処理部が、前記第2のモデルに対し、前記特徴量とともに、前記第2のモデルが前の回に出力した文字を示す文字情報を入力することとしてもよい。
本発明の態様3に係る文字認識装置は、前記態様1または2において、前記第1のモデルおよび前記第2のモデルが、1以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものであることとしてもよい。
本発明の態様4に係る文字認識装置は、前記態様3において、前記第1のモデルおよび前記第2のモデルを、前記教師データを用いて学習させる学習部をさらに備えることとしてもよい。
本発明の態様5に係る文字認識装置は、前記態様1から4において、画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワークである第3のモデルをさらに備え、前記文字処理部が、前記画像から、前記第3のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第1のモデルに入力することとしてもよい。
本発明の態様6に係る文字認識装置は、前記態様5において、前記第3のモデルが、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものであることとしてもよい。
本発明の態様7に係る文字認識装置は、前記態様1から6において、前記文字画像は、複数の段に分かれて配置された複数の文字を含むこととしてもよい。
本発明の態様8に係る文字認識装置は、前記態様1から7において、前記文字画像は、ナンバープレートを含む撮影画像または当該撮影画像の部分画像であることとしてもよい。
本発明の態様9に係る撮影装置は、撮影部と、前記態様1から8の何れかの文字認識装置とを備え、前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力する。
本発明の態様10に係る文字認識装置は、第1のモデルと、第2のモデルとを用いた文字認識方法であって、前記第1のモデルが、1以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、前記第2のモデルが、前記第1のモデルが出力する前記特徴量が1回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含む。
本発明の各態様に係る文字認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記文字認識装置が備える各部(ソフトウェア要素)として動作させることにより上記文字認識装置をコンピュータにて実現させる文字認識装置の文字認識プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
1 文字認識装置
2 カメラ(撮影装置)
11 入出力部
12 文字認識部
13 学習部
14 文字処理部
MA 第3のモデル
MB 第1のモデル
MC 第2のモデル

Claims (11)

  1. 1以上の文字を含む文字画像が入力され、当該文字画像の全体の特徴量を出力する畳み込みニューラルネットワークである第1のモデルと、
    前記第1のモデルが出力した前記文字画像全体の特徴量が繰り返し入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第2のモデルと、
    前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、
    を備えることを特徴とする文字認識装置。
  2. 前記文字処理部は、前記第2のモデルに対し、前記特徴量とともに、前記第2のモデルが前の回に出力した文字を示す文字情報を入力することを特徴とする請求項1に記載の文字認識装置。
  3. 前記第1のモデルおよび前記第2のモデルは、1以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものであることを特徴とする請求項1または2に記載の文字認識装置。
  4. 前記第1のモデルおよび前記第2のモデルを、前記教師データを用いて学習させる学習部をさらに備えることを特徴とする請求項3に記載の文字認識装置。
  5. 画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワークである第3のモデルをさらに備え、
    前記文字処理部は、前記画像から、前記第3のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第1のモデルに入力することを特徴とする請求項1から4の何れか1項に記載の文字認識装置。
  6. 前記第3のモデルは、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものであることを特徴とする請求項5に記載の文字認識装置。
  7. 前記文字画像は、複数の段に分かれて配置された複数の文字を含むことを特徴とする請求項1から6の何れか1項に記載の文字認識装置。
  8. 前記文字画像は、ナンバープレートを含む撮影画像または当該撮影画像の部分画像であることを特徴とする請求項1から7の何れか1項に記載の文字認識装置。
  9. 撮影部と、
    請求項1から8の何れか1項に記載の文字認識装置とを備え、
    前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力することを特徴とする撮影装置。
  10. 第1のモデルと、第2のモデルとを用いた文字認識方法であって、
    前記第1のモデルは、1以上の文字を含む文字画像が入力され、当該文字画像の全体の特徴量を出力する畳み込みニューラルネットワークであり、
    前記第2のモデルは、前記第1のモデルが出力した前記文字画像全体の特徴量が繰り返し入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、
    前記第1のモデルおよび前記第2のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含むことを特徴とする文字認識方法。
  11. 請求項1に記載の文字認識装置としてコンピュータを機能させるための文字認識プログラムであって、前記第1のモデル、前記第2のモデル、および、前記文字処理部としてコンピュータを機能させるための文字認識プログラム。
JP2019117702A 2019-06-25 2019-06-25 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム Active JP6779491B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019117702A JP6779491B1 (ja) 2019-06-25 2019-06-25 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019117702A JP6779491B1 (ja) 2019-06-25 2019-06-25 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム

Publications (2)

Publication Number Publication Date
JP6779491B1 true JP6779491B1 (ja) 2020-11-04
JP2021005164A JP2021005164A (ja) 2021-01-14

Family

ID=73022349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019117702A Active JP6779491B1 (ja) 2019-06-25 2019-06-25 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム

Country Status (1)

Country Link
JP (1) JP6779491B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123907A1 (ja) * 2020-12-09 2022-06-16 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、撮像装置、車両装置、並びに医療用ロボット装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7117720B1 (ja) * 2021-04-05 2022-08-15 日本システム開発株式会社 画像生成装置
JP2022181678A (ja) * 2021-05-26 2022-12-08 Necプラットフォームズ株式会社 情報処理システム及びプログラム
KR102626798B1 (ko) * 2022-12-23 2024-01-18 주식회사 업스테이지 문자 인식과 연관된 모델 세트 모니터링 방법 및 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6829575B2 (ja) * 2016-10-03 2021-02-10 グローリー株式会社 画像処理装置、画像処理システム及び画像処理方法
JP6858101B2 (ja) * 2017-08-31 2021-04-14 株式会社Pfu 座標検出装置及び学習済みモデル
JP6430672B1 (ja) * 2018-03-16 2018-11-28 株式会社三井E&Sマシナリー 読取システム及び読取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022123907A1 (ja) * 2020-12-09 2022-06-16 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、撮像装置、車両装置、並びに医療用ロボット装置

Also Published As

Publication number Publication date
JP2021005164A (ja) 2021-01-14

Similar Documents

Publication Publication Date Title
JP6779491B1 (ja) 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム
CN109902659B (zh) 用于处理人体图像的方法和装置
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
WO2019214320A1 (zh) 车辆损伤识别的处理方法、处理设备、客户端及服务器
EP4040401A1 (en) Image processing method and apparatus, device and storage medium
US11455502B2 (en) Learning device, classification device, learning method, classification method, learning program, and classification program
CN111754541A (zh) 目标跟踪方法、装置、设备及可读存储介质
WO2019109793A1 (zh) 人头区域识别方法、装置及设备
US11900662B2 (en) Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures
CN109490843B (zh) 一种归一化雷达屏幕监测方法及系统
WO2019214321A1 (zh) 车辆损伤识别的处理方法、处理设备、客户端及服务器
WO2022227218A1 (zh) 药名识别方法、装置、计算机设备和存储介质
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN110619334A (zh) 基于深度学习的人像分割方法、架构及相关装置
JP2023526899A (ja) 画像修復モデルを生成するための方法、デバイス、媒体及びプログラム製品
CN113159200A (zh) 对象分析方法、装置及存储介质
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN114022748B (zh) 目标识别方法、装置、设备及存储介质
CN113191355A (zh) 文本图像合成方法、装置、设备及存储介质
CN115760886B (zh) 基于无人机鸟瞰图的地块划分方法、装置及相关设备
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
JP6811965B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN112541436B (zh) 专注度分析方法、装置、电子设备及计算机存储介质
CN112528790B (zh) 基于行为识别的教学管理方法、装置及服务器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200107

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200515

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201005

R150 Certificate of patent or registration of utility model

Ref document number: 6779491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250