JP6779491B1

JP6779491B1 - 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム

Info

Publication number: JP6779491B1
Application number: JP2019117702A
Authority: JP
Inventors: 大資玉城; 健太郎須藤
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2020-11-04
Anticipated expiration: 2039-06-25
Also published as: JP2021005164A

Abstract

【課題】画像において文字が統一されていなくても、文字を精度よく読み取る。【解決手段】文字認識装置（１）は、文字画像の特徴量を出力する畳み込みニューラルネットワークである第１のモデルと、第１のモデルが出力する特徴量が１回以上入力され、文字情報を出力する再帰型ニューラルネットワークである第２のモデルと、上記モデルを用いて文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。【選択図】図１

Description

本発明は、文字認識装置、撮影装置、文字認識方法、および、文字認識プログラムに関する。

従来、ＡＩ（Artificial Intelligence）を利用して画像から文字を読み取る技術が知られている。例えば、非特許文献１には、１行に並んだ文字を含む画像を機械学習モデルに入力して得られた特徴量行列（特徴マップ）を横方向に１列ずつ切り出しながら、文字を認識する技術が開示されている。

Palaiahnakote Shivakumara、外5名、"CNN-RNN based method for license plate recognition"、[online]、CAAI Trans. Intell. Technol., 2018, Vol. 3, Iss. 3, pp. 169-175、[令和１年６月５日検索]、インターネット<URL:https://core.ac.uk/download/pdf/161769815.pdf>

しかしながら、上述のような従来技術には、文字の配置、並びに、文字の大きさ、及びフォント等の文字の属性が統一されていない場合、読み取り精度が低下するという問題がある。例えば、複数行の文字を含む画像を処理しようとすると、特徴量行列から切り出した１列の特徴量に、縦方向に並んだ複数文字の特徴量が含まれることになるので、１列の特徴量を用いても１つの文字として認識することができないという問題がある。

本発明の一態様は、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様に係る文字認識装置は、１以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第１のモデルと、前記第１のモデルが出力する前記特徴量が１回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第２のモデルと、前記第１のモデルおよび前記第２のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。

本発明の一態様に係る文字認識方法は、第１のモデルと、第２のモデルとを用いた文字認識方法であって、前記第１のモデルが、１以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、前記第２のモデルが、前記第１のモデルが出力する前記特徴量が１回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、前記第１のモデルおよび前記第２のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含む。

本発明の一態様によれば、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することができる。

本発明の一実施形態に係る文字認識装置の構成を示すブロック図である。本発明の一実施形態に係る文字認識装置が処理する画像の例を示す図である。本発明の一実施形態に係る文字認識装置の処理を示すフローチャートである。本発明の一実施形態に係る文字部分画像から文字を出力させる処理を示すフローチャートである。本発明の一実施形態に係るナンバープレートの例を示す図である。本発明の一実施形態に係るモデルの入出力を示す図である。本発明の一実施形態に係る文字認識装置のハードウェア構成を示すブロック図である。

〔実施形態〕
以下、本発明の一実施形態について、詳細に説明する。

（文字認識装置１の構成）
図１は、本実施形態に係る文字認識装置１の構成を示すブロック図である。文字認識装置１は、入出力部１１、文字認識部１２、および、学習部１３を備えている。文字認識部１２は、文字処理部１４、第３のモデルＭＡ、第１のモデルＭＢ、および、第２のモデルＭＣを備えている。

文字認識装置１には、カメラ（撮影装置）２と、表示装置３とが接続されている。カメラ２は、所定のシーンを撮影し、当該撮影した画像である撮影画像を文字認識装置１に出力する。カメラ２の種類としては、例えば、公共のため（例えば、交通安全監視システム等）に使われるカメラ、個人で使われるカメラの両方が含まれる。表示装置３は、文字認識装置１から出力された、撮影画像の文字認識結果を表示する。

文字認識部１２において、第３のモデルＭＡは、画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）である。なお、本明細書において「文字」との文言には、記号、数字、および、各種言語の文字が含まれる。また、領域情報は、画像において文字が存在する領域の四隅の座標を含む。なお、第３のモデルＭＡは、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものである。

第１のモデルＭＢは、１以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである。第２のモデルＭＣは、第１のモデルが出力する特徴量が１回以上入力され、文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）である。再帰型ニューラルネットワークは、長期短期記憶ネットワーク（ＬＳＴＭ：Long Short-Term Memory）であってもよい。なお、第１のモデルＭＢおよび第２のモデルＭＣは、１以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものである。

入出力部１１は、カメラ２の撮影画像から複数の文字を含む画像を抽出し、当該画像を文字処理部１４に出力する。また、入出力部１１は、文字処理部１４から出力された文字情報を表示装置３に表示させる。なお、入出力部１１が出力する文字情報は、表示装置３に加え、又は表示装置３に代えて、他の情報処理装置に提供される構成としてもよい。そのような他の情報処理装置において、上記の文字情報は、データベースに格納された他の文字情報と対比するために用いられたり、他のカメラで撮像された画像に基づく文字情報等と比較するために用いられたりする。

文字処理部１４は、第３のモデルＭＡ、第１のモデルＭＢおよび第２のモデルＭＣを用いて、文字画像に含まれる文字を示す文字情報を出力する。文字処理部１４は、入出力部１１から取得した画像を第３のモデルＭＡに入力し、当該画像から、第３のモデルＭＡが出力する領域情報が示す領域を切り出し、切り出した領域を文字画像として第１のモデルＭＢに入力する。ただし、文字処理部１４は、第３のモデルＭＡを用いない処理を行ってもよく、その場合、文字処理部１４は、入出力部１１から取得した画像を文字画像として第１のモデルＭＢに入力する。

そして、文字処理部１４は、第１のモデルＭＢが出力した特徴量を第２のモデルＭＣに１回以上入力し、第２のモデルＭＣが出力する１文字分の文字情報を連結することにより、文字画像に含まれる文字を取得する。一態様において、文字処理部１４は、第２のモデルＭＣに対し、文字画像の特徴量とともに、第２のモデルＭＣが前の回に出力した文字を示す文字情報を入力する。

学習部１３は、第１のモデルＭＢおよび第２のモデルＭＣを、教師データを用いて学習させる。詳細には、学習部１３は、第２のモデルＭＣの出力から計算した損失関数を用いて、第１のモデルＭＢおよび第２のモデルＭＣをそれぞれ学習させる。また、学習部１３は、第３のモデルＭＡを、教師データを用いて学習させる。

（画像の例）
図２は、本実施形態に係る文字認識装置１が処理する画像の例を示す図である。２０１は、車体を含む道路の撮影画像の例である。２０２は、車体の画像（以下、車体画像という）の例である。２０３は、ナンバープレートの画像（以下、ナンバープレート画像という）の例である。

（文字認識装置１の処理）
図３は、本実施形態に係る文字認識装置１の処理を示すフローチャートである。以下、文字認識装置１が車体を含む画像からナンバープレートの文字を読み取る（認識する）処理（すなわち、文字画像がナンバープレートを含む撮影画像または当該撮影画像の部分画像である構成）について説明する。本処理は、リアルタイムに行われる。なお、文字認識装置１は、カメラ２から画像を取得するのではなく、自装置が備える記録媒体から画像を取得してもよいし、ローカル又はグローバルなネットワークを介して画像を取得してもよい。

（ステップＳ３０１）
文字認識装置１において、入出力部１１は、カメラ２から車体を含む道路の撮影画像（図２の２０１に対応）を取得する。

（ステップＳ３０２）
次に、入出力部１１は、ステップＳ３０１で取得した撮影画像から車体を検出し、車体画像（図２の２０２に対応）を切り出す。撮影画像から車体を検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、他の手法に比べて処理が相対的に軽い「SqueezeDet」等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。

（ステップＳ３０３）
そして、入出力部１１は、ステップＳ３０２で切り出した車体画像からナンバープレートを検出し、ナンバープレート画像（図２の２０３に対応）を切り出す。車体画像からナンバープレートを検出する処理には、任意の物体検出アルゴリズムが利用可能であり、例えば、ステップＳ３０２と同様に、SqueezeDet等が用いられる。これにより、高速な処理が可能となるので、リアルタイムな処理が実現できる。また、車体画像からナンバープレート画像を切り出すことにより、ナンバープレート画像と、車体画像とを対応させて管理することができる。

（ステップＳ３０４）
続いて、入出力部１１は、ステップＳ３０３で切り出したナンバープレート画像を第３のモデルＭＡに入力して、ナンバープレート画像から文字部分画像を切り出す。後述する通り、文字部分画像を利用して文字認識を実行することにより、ナンバープレート画像を利用して文字認識を実行する場合よりも、識別精度を向上させることができる。

学習部１３は、事前に、第３のモデルＭＡに対して、ナンバープレート画像に含まれる文字の部分（例えば、矩形領域）を学習させる。その場合、教師データとして、ナンバープレート画像に、文字を含む矩形領域の各頂点（４隅）の座標を付与したものが用いられる。

なお、ステップＳ３０４の処理は、必須ではなく、省略してもよい。

（ステップＳ３０５）
さらに、文字処理部１４は、第３のモデルＭＡから文字部分画像を取得し、当該文字部分画像を第１のモデルＭＢに入力し、第２のモデルＭＣに文字を出力させる。

図５は、本実施形態に係るナンバープレートの例を示す図である。例えば、ナンバープレートが図５の５０３である場合、第２のモデルＭＣは「ＴＮ７７Ｊ８２８５」を出力する。なお、「−」を出力するように、第１のモデルＭＢおよび第２のモデルＭＣに学習させることもできる。ステップＳ３０５の処理の詳細は、図４を参照しながら、説明する。

（教師データの作成方法）
モデルＭＡ、ＭＢおよびＭＣの教師データの作成方法の一例を、以下に示す。
i）多数のナンバープレート画像を取得する。
ii）個々のナンバープレート画像について、人の手で、四隅の座標のアノテーションを行う。
iii）個々のナンバープレート画像について、人の手で、文字列の読み取りを行う。このとき、多段文字等の読み取り方向、「−」の読み取りの有無等について統一しておく。
iv）i)のナンバープレート画像と、ii)の四隅の座標のアノテーションデータとを、文字部分画像を切り抜くための第３のモデルＭＡの教師データとする。
v）i)のナンバープレート画像とii)の四隅の座標のアノテーションデータとから文字部分画像を生成する。
vi）v）の文字部分画像と、iii）の文字列とを、第１のモデルＭＢおよび第２のモデルＭＣの教師データとする。

なお、ある程度学習が進んでからは、文字認識装置１自身が新規データに対して車体検出、ナンバープレート検出、ナンバープレートの切り出し、および文字読み取りを行う。そして、最後に人間が文字読み取りの間違えた箇所を修正することにより、アノテーションデータの半自動生成を実施することができる。

（文字部分画像から文字を出力させる処理）
図４は、本実施形態に係る文字部分画像から文字を出力させる処理を示すフローチャートである。本処理は、図３のステップＳ３０５の処理を詳細にしたものである。図６は、本実施形態に係る第１のモデルＭＢおよび第２のモデルＭＣの入出力を示す図である。

ここで、第１のモデルＭＢは、例えば、１０層以下の層数からなる畳み込みニューラルネットワークであるので、リアルタイムな応答性を有する。一例として、第１のモデルＭＢは、６層からなる畳み込みニューラルネットワークである。一態様において、第１のモデルＭＢは、ナンバープレートの文字部分画像が入力され、当該文字部分画像の特徴量行列を出力する。

また、第２のモデルＭＣは、再帰型ニューラルネットワークであり、文字部分画像の特徴量行列が１回以上入力され、各回においてナンバープレートの文字を示す文字情報を１文字分ずつ出力する。

（ステップＳ４０１）
文字認識装置１において、文字処理部１４は、第３のモデルＭＡから取得した文字部分画像を第１のモデルＭＢに入力し、特徴量行列を出力させる。この処理は、図６の（最初のステップ）における、第１のモデルＭＢの入出力に対応する。

（ステップＳ４０２：文字処理ステップ）
次に、文字処理部１４は、第１のモデルＭＢが出力した特徴量行列と、最初を示す特殊文字とを第２のモデルＭＣに入力し、１文字を出力させる。ここで、文字処理部１４は、第１のモデルＭＢが出力した特徴量行列をそのまま第２のモデルＭＣに入力する。この処理は、図６の（最初のステップ）における、第２のモデルＭＣの入出力に対応する。

（ステップＳ４０３）
ここで、文字処理部１４は、第２のモデルＭＣが出力した１文字が最後を示す特殊文字であるか否かを判定する。１文字が最後を示す特殊文字である場合（ステップＳ４０３のＹＥＳ）、文字処理部１４は、処理を終了する。これは、図６の（最後のステップ）における、第２のモデルＭＣの入出力の後処理である。ここで、例えば、文字認識装置１は、ステップＳ４０２で出力された文字を連結して出力してもよい。

一方、１文字が最後を示す特殊文字でない場合（ステップＳ４０３のＮＯ）、文字処理部１４は、ステップＳ４０４の処理を実行する。

（ステップＳ４０４：文字処理ステップ）
文字処理部１４は、第２のモデルＭＣが先に出力した１文字と、第１のモデルＭＢが出力した特徴量行列とを第２のモデルＭＣに入力し、次の１文字を出力させる。第２のモデルＭＣにおいて、当該第２のモデルＭＣが先に出力した１文字は、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。この処理は、図６の（ｉ回目のステップ）における、第２のモデルＭＣの入出力に対応する。

なお、一態様において、ステップＳ４０４において、文字処理部１４は、第２のモデルＭＣが先に出力した１文字を第２のモデルＭＣに入力しない構成であってもよい。この場合、第２のモデルＭＣの内部状態が、次に文字部分画像のどこを見るべきかを決定するのに用いられると解釈される。ただし、ステップＳ４０４において、文字処理部１４が、第２のモデルＭＣが先に出力した１文字を第２のモデルＭＣに入力する構成が好ましい。

（本実施形態の効果）
文字を含む画像の特徴量行列を１列ずつ分割し、分割した１列の特徴量をＲＮＮに順次入力する非特許文献１の構成では、文字が多段に分けて配置されている画像を処理する場合に、１列の特徴量に複数の文字の特徴量が含まれる場合があるので、識別精度が低下してしまう。

本実施形態に係る第２のモデルＭＣは、文字画像の特徴量行列の全体が入力され、１文字分の文字情報を出力する構成である。そのため、文字が多段に分けて配置されている画像を学習させることにより、文字が多段に分けて配置されている画像に対しても識別精度が低下しないようにすることができる。このように本実施形態によれば、画像において文字の配置および属性が統一されていなくても、文字を精度よく読み取ることのできる技術を提供することができる。

〔付記事項〕
上記実施形態では、車体のナンバープレートに含まれる文字を読み取ることを説明したが、本発明は、他の用途にも適用可能である。以下では、他の用途について説明する。

（１）文字認識装置１は、文字の配置、大きさ、フォントが統一されていない、ナンバープレート以外の任意の画像（例えば、名刺、看板、チラシなど）からリアルタイムな文字認識を行ってもよい。

（２）文字認識装置１は、多段の文字を読み取ってもよい。すなわち、文字画像は、複数の段に分かれて配置された複数の文字を含むこととしてもよい。

（３）文字認識装置１は、モデルに画像を入力する直前に、超解像処理、複数フレームを利用したブレ補正処理等を行ってもよい。また、文字認識装置１は、文字画像（ナンバープレート画像）の傾きを補正する処理を行ってもよい。

（４）カメラ２の撮像画像は、赤外線画像であってもよい。

（５）第２のモデルＭＣは、１文字ずつではなく、２文字以上ずつ出力するようにしてもよい。第２のモデルＭＣが１度に出力する文字数は、学習時の教師データにより、調整可能である。また、文字自体ではなく、文字を数字に置き換えたもの（文字を示す文字情報）を出力してもよい。

（６）日本のナンバープレートに適用した場合、地名の辞書を用意しておくのがよい。

（７）カメラ２が文字認識装置１の少なくとも一部を備えた構成であってもよい。この場合、カメラ２は、撮影部と、文字認識装置１とを備え、文字処理部１４は、撮影部が撮影した撮影画像または当該撮影画像の部分画像を文字画像として、文字情報を出力してもよい。また、カメラ２は、撮影部と、入出力部１１と、文字認識部１２とを備え、文字処理部１４は、撮影部が撮影した撮影画像または当該撮影画像の部分画像を文字画像として、文字情報を出力してもよい。この場合、学習部１３の機能は、ネットワークを介してカメラ２に接続されたサーバにより提供してもよい。

〔ソフトウェアによる実現例〕
文字認識装置１の制御ブロック（特に、入出力部１１、文字認識部１２、および、学習部１３）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、文字認識装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

図７は、本実施形態に係る文字認識装置１のハードウェア構成の具体例を示すブロック図である。文字認識装置１は、バス１８を介して互いに接続された、入出力部１１と、演算装置１５と、主記憶装置１６と、補助記憶装置１７とを備えている。入出力部１１には、カメラ２、および、表示装置３が接続される。演算装置１５、主記憶装置１６、および補助記憶装置１７は、それぞれ、例えばプロセッサ（例えばＣＰＵ：Central Processing Unit，ＧＰＵ：Graphics Processing Unit等）、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。演算装置１５は、一例として、図１に示した、学習部１３および文字処理部１４を含む。主記憶装置１６および補助記憶装置１７は、一例として、図１に示した、第３のモデルＭＡ、第１のモデルＭＢ、および、第２のモデルＭＣを記憶している。

（まとめ）
本発明の態様１に係る文字認識装置は、１以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークである第１のモデルと、前記第１のモデルが出力する前記特徴量が１回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第２のモデルと、前記第１のモデルおよび前記第２のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、を備える。

本発明の態様２に係る文字認識装置は、前記態様１において、前記文字処理部が、前記第２のモデルに対し、前記特徴量とともに、前記第２のモデルが前の回に出力した文字を示す文字情報を入力することとしてもよい。

本発明の態様３に係る文字認識装置は、前記態様１または２において、前記第１のモデルおよび前記第２のモデルが、１以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものであることとしてもよい。

本発明の態様４に係る文字認識装置は、前記態様３において、前記第１のモデルおよび前記第２のモデルを、前記教師データを用いて学習させる学習部をさらに備えることとしてもよい。

本発明の態様５に係る文字認識装置は、前記態様１から４において、画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワークである第３のモデルをさらに備え、前記文字処理部が、前記画像から、前記第３のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第１のモデルに入力することとしてもよい。

本発明の態様６に係る文字認識装置は、前記態様５において、前記第３のモデルが、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものであることとしてもよい。

本発明の態様７に係る文字認識装置は、前記態様１から６において、前記文字画像は、複数の段に分かれて配置された複数の文字を含むこととしてもよい。

本発明の態様８に係る文字認識装置は、前記態様１から７において、前記文字画像は、ナンバープレートを含む撮影画像または当該撮影画像の部分画像であることとしてもよい。

本発明の態様９に係る撮影装置は、撮影部と、前記態様１から８の何れかの文字認識装置とを備え、前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力する。

本発明の態様１０に係る文字認識装置は、第１のモデルと、第２のモデルとを用いた文字認識方法であって、前記第１のモデルが、１以上の文字を含む文字画像が入力され、当該文字画像の特徴量を出力する畳み込みニューラルネットワークであり、前記第２のモデルが、前記第１のモデルが出力する前記特徴量が１回以上入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、前記第１のモデルおよび前記第２のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含む。

本発明の各態様に係る文字認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記文字認識装置が備える各部（ソフトウェア要素）として動作させることにより上記文字認識装置をコンピュータにて実現させる文字認識装置の文字認識プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１文字認識装置
２カメラ（撮影装置）
１１入出力部
１２文字認識部
１３学習部
１４文字処理部
ＭＡ第３のモデル
ＭＢ第１のモデル
ＭＣ第２のモデル

Claims

１以上の文字を含む文字画像が入力され、当該文字画像の全体の特徴量を出力する畳み込みニューラルネットワークである第１のモデルと、
前記第１のモデルが出力した前記文字画像全体の特徴量が繰り返し入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークである第２のモデルと、
前記第１のモデルおよび前記第２のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理部と、
を備えることを特徴とする文字認識装置。
前記文字処理部は、前記第２のモデルに対し、前記特徴量とともに、前記第２のモデルが前の回に出力した文字を示す文字情報を入力することを特徴とする請求項１に記載の文字認識装置。
前記第１のモデルおよび前記第２のモデルは、１以上の文字を含む文字画像と、当該文字画像に含まれる文字を示す文字情報とを含む教師データを用いて学習させたものであることを特徴とする請求項１または２に記載の文字認識装置。
前記第１のモデルおよび前記第２のモデルを、前記教師データを用いて学習させる学習部をさらに備えることを特徴とする請求項３に記載の文字認識装置。
画像が入力され、当該画像において文字が存在する領域を示す領域情報を出力する畳み込みニューラルネットワークである第３のモデルをさらに備え、
前記文字処理部は、前記画像から、前記第３のモデルが出力する前記領域情報が示す領域を切り出し、切り出した領域を前記文字画像として前記第１のモデルに入力することを特徴とする請求項１から４の何れか１項に記載の文字認識装置。
前記第３のモデルは、文字が存在する領域を含む画像と、当該画像において文字が存在する領域の四隅の座標と含む教師データを用いて学習させたものであることを特徴とする請求項５に記載の文字認識装置。
前記文字画像は、複数の段に分かれて配置された複数の文字を含むことを特徴とする請求項１から６の何れか１項に記載の文字認識装置。
前記文字画像は、ナンバープレートを含む撮影画像または当該撮影画像の部分画像であることを特徴とする請求項１から７の何れか１項に記載の文字認識装置。
撮影部と、
請求項１から８の何れか１項に記載の文字認識装置とを備え、
前記文字認識装置の前記文字処理部は、前記撮影部が撮影した撮影画像または当該撮影画像の部分画像を前記文字画像として、前記文字情報を出力することを特徴とする撮影装置。
第１のモデルと、第２のモデルとを用いた文字認識方法であって、
前記第１のモデルは、１以上の文字を含む文字画像が入力され、当該文字画像の全体の特徴量を出力する畳み込みニューラルネットワークであり、
前記第２のモデルは、前記第１のモデルが出力した前記文字画像全体の特徴量が繰り返し入力され、前記文字画像に含まれる文字を示す文字情報を出力する再帰型ニューラルネットワークであり、
前記第１のモデルおよび前記第２のモデルを用いて、前記文字画像に含まれる文字を示す文字情報を出力する文字処理ステップを含むことを特徴とする文字認識方法。
請求項１に記載の文字認識装置としてコンピュータを機能させるための文字認識プログラムであって、前記第１のモデル、前記第２のモデル、および、前記文字処理部としてコンピュータを機能させるための文字認識プログラム。