JP2023170853A

JP2023170853A - 学習装置、文字認識システム、学習方法、及びプログラム

Info

Publication number: JP2023170853A
Application number: JP2022082920A
Authority: JP
Inventors: 江美橋本; Emi Hashimoto
Original assignee: Toppan Holdings Inc
Current assignee: Toppan Holdings Inc
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-12-01

Abstract

【課題】認識することが困難な文字を、多大な時間をかけることなく効率よく学習させることができる学習装置、文字認識システム、学習方法、及びプログラムを提供する。【解決手段】文字を認識させた認識結果を取得する取得部と、前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定する決定部と、前記決定部により決定された前記追加文字を前記ノンパラメトリックモデルに学習させる学習部と、を備える。【選択図】図１

Description

本発明は、学習装置、文字認識システム、学習方法、及びプログラムに関する。

文字を認識させる技術がある。例えば、特許文献１には、段階的に複数回の文字認識を行う技術が開示されている。第1の文字認識で誤った認識をした場合、誤った文字の文字種等を特定し、特定した文字種に適した方法で再度の文字認識を行う。これにより、文字認識の精度を向上させることが可能となる。

特開２０２０－１６０６０９号公報

特許文献１では、特定の文字種に特化した複数の文字認識エンジンを備える必要があるため装置コストが高く、また、新たな文字種が追加された場合などに柔軟に対応することが困難である。
この対策として、ディープラーニング技術を用いることが考えられる。例えば、ディープラーニングによる学習済モデルを用いて文字認識を行い、誤った認識をした文字を学習データとして追加し、改めてディープラーニングのモデルに再学習させる試みが考えられる。しかしながら、ディープラーニングの学習済モデルに再学習させる場合、再学習に多大な時間を要してしまうという問題があった。

本発明は、このような状況に鑑みてなされたものであり、認識することが困難な文字を、多大な時間をかけることなく効率よく学習させることができる学習装置、文字認識システム、学習方法、及びプログラムを提供する。

本発明の一態様にかかる学習装置は、文字を認識させた認識結果を取得する取得部と、前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定する決定部と、前記決定部により決定された前記追加文字を前記ノンパラメトリックモデルに学習させる学習部と、を備える。

本発明の一態様にかかる文字認識システムは、上記に記載の学習装置によって学習されたノンパラメトリックモデルと、ディープラーニングを用いて文字を認識するディープラーニングモデルと、前記ディープラーニングモデルが正しく認識できない文字を、前記ノンパラメトリックモデルを用いて認識させる実行部と、を備える。

本発明の一態様にかかる学習方法は、コンピュータが行う学習方法であって、文字を認識させた認識結果を取得する工程と、前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定する工程と、前記追加文字を前記ノンパラメトリックモデルに学習させる工程とを含む。

本発明の一態様にかかるプログラムは、コンピュータに、文字を認識させた認識結果を取得するステップと、前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定するステップと、前記追加文字を前記ノンパラメトリックモデルに学習させるステップとを実行させるプログラムである。

本発明によれば、認識することが困難な文字を、ノンパラメトリックモデルに学習させることができる。
ディープラーニングでは、入力に対する出力を導出するモデルを仮定し、学習によりモデルに設定するパラメータを決定するのに対し、ノンパラメトリックモデルはモデルを仮定することなく、学習データをその特徴に応じて分布させた特徴量空間を用いて、特徴量空間における入力データの位置に基づいて、入力データを分類する。
例えば、ノンパラメトリックモデルの一つであるｋ最近傍法の場合、学習データがプロットされた空間において入力データに近い任意のｋ個のデータを取得し、多数決によって入力データが属するクラスを予測する。
このため、ノンパラメトリックモデルに学習データを追加して再学習させる場合、特徴量空間にデータを追加すればよく、ディープラーニングに比べて追加学習の時間がほとんどかからずに済む。したがって、認識することが困難な文字を、ディープラーニングの学習モデルに再学習させる場合よりも効率よく学習させることが可能である。

実施形態にかかる学習装置の構成を示すブロック図である。実施形態にかかる学習装置での処理を示すフローチャートである。実施形態の学習装置が行う処理の流れを示すフローチャートである。実施形態にかかる文字認識システムの構成を示すブロック図である。

以下、本発明の実施の形態について図面を参照しながら説明する。図１は、本発明の実施形態にかかる学習装置１のブロック図である。学習装置１は、文字認識を行うための学習済モデルを生成する。学習装置１はコンピュータである。

（学習装置１の構成について）
図１に示すように、本発明の実施形態にかかる学習装置１は、文字認識結果取得部１１、追加文字決定部１２、ノンパラメトリックモデル学習部１３、予測器生成部１４、文字データベース１５、及びノンパラメトリックモデル情報１６により構成される。

学習装置１が備える機能部（文字認識結果取得部１１、追加文字決定部１２、ノンパラメトリックモデル学習部１３、及び予測器生成部１４）により行われる処理は、学習装置１がハードウェアとして備えるＣＰＵ（Central Processing Unit）にプログラムを実行させることによって実現される。

文字認識結果取得部１１は、文字を認識した認識結果を取得する。例えば、文字認識結果取得部１１は、ディープラーニングの手法を用いて文字を認識した認識結果を取得する。例えば、文字認識結果取得部１１は、文字データベース１５に格納されている文字画像データセットを用いてディープラーニングにより学習された学習済モデルによる文字認識を行う。或いは、文字認識結果取得部１１は、ディープラーニングにより学習された学習済モデルによって予測済みの認識結果を取得してもよい。文字認識結果取得部１１は、このようにして取得したディープラーニングによる文字認識の認識結果を追加文字決定部１２に出力する。

認識結果には、文字を認識することが困難である度合を示す情報が含まれる。例えば、認識結果には、正解とする文字、文字認識の過程において文字認識の候補となった文字とその文字が正解らしい確率（尤度）、認識率、誤認識率、及び学習に用いた学習データの数（サンプル数）などを示す情報が含まれる。また、認識結果には、文字種ごとの、尤度、認識率、誤認識率、及びサンプル数などを示す情報が含まれていてもよい。

ここでの文字種は、例えば、数字、ラテン文字などのアルファベット、ひらがな、カタカナ、及び漢字の何れか又はこれらの組み合わせである。あるいは、文字種は、英語又は日本語などのように言語であってもよい。また、文字種は、大文字又は小文字などであってもよい。あるいは、文字種は上記したものの組み合わせであってもよい。

追加文字決定部１２は、文字認識結果取得部１１の認識結果を取得し、この認識結果の情報を用いて、ノンパラメトリックモデルに追加する文字（以下、追加文字）を決定する。

追加文字決定部１２は、認識結果に基づいて文字を認識することが困難である文字を特定し、特定した文字を追加文字として決定する。追加文字決定部１２は、例えば、以下の（１）から（３）のそれぞれに示す方法に基づいて追加文字を決定する。

（１）誤って認識しやすい文字
追加文字決定部１２は、文字認識の過程において複数の文字認識の候補があげられ、その複数の認識候補のそれぞれの尤度が同程度であった文字を、追加文字とする。
例えば、正解が「あ」という文字に対し、文字認識の候補として「あ」と「め」の複数の文字認識の候補があげられたとする。認識対象とする文字が「あ」であるらしい確率（尤度）が３３％であり、認識対象とする文字が「め」であるらしい確率（尤度）が３２％であり、それぞれの尤度の差が閾値（例えば、３％）未満であるとする。この場合、追加文字決定部１２は、文字認識の候補としての「あ」と「め」のそれぞれの尤度の差が閾値未満であり、たとえ認識結果が正しくとも誤って認識し易い文字、つまり文字を認識することが困難な文字であるとみなし、追加文字とする。

（２）サンプル数が少ない文字種
追加文字決定部１２は、学習に用いた学習データの数（サンプル数）が閾値未満である文字種を、追加文字とする。
ディープラーニングによる認識では、サンプル数が多いほど認識率が向上していく。すなわち、ディープラーニングによる認識では、使用頻度が低い文字種、珍しい文字種に関しては、学習データがほとんど存在しないため正しく認識できない場合が多い。このため、追加文字決定部１２は、文字の種別ごとのサンプル数が閾値以下である文字を、認識することが困難な文字とみなし、追加文字とする。ここでの閾値は予め自動で決定された一律の値であってもよいし、文字種ごと変動する値であってもよいし、ユーザが手動により決定する値であってもよい。

（３）誤って認識された文字
追加文字決定部１２は、認識率が低い、或いは誤認識率が高い文字を、追加文字とする。すなわち、追加文字決定部１２は、文字認識の過程、或いはサンプル数に関わらず、ディープラーニングによる学習済モデルに認識させた結果として誤って認識された文字を、認識することが困難な文字とみなし、追加文字とするようにしてもよい。

ノンパラメトリックモデル学習部１３は、追加文字決定部１２で決定した追加文字をノンパラメトリックモデルに学習させる。これにより文字認識に用いるノンパラメトリックモデルを更新する。ノンパラメトリックモデルとしては、例えばｋ最近傍法がある。ｋ最近傍法の場合、ノンパラメトリックモデル学習部１３は、追加文字の画像情報と正解文字を示す情報とを対応づけたデータを、学習データに追加するデータとして特徴量空間（学習データがプロットされる空間）に追加する。

予測器生成部１４は、ノンパラメトリックモデル学習部１３によって追加文字が学習されることにより更新されたノンパラメトリックモデルを使った予測器を生成する。

文字データベース１５は、文字画像データセットを記憶する。文字画像データセットは、例えば、文字を撮像した画像情報と、撮像された文字を正しく認識した結果を示す情報とが組み（セット）になった情報である。

ノンパラメトリックモデル情報１６は、ノンパラメトリックモデルに関する情報を記憶する。ノンパラメトリックモデルに関する情報には、学習データをその特徴に応じて分布させた特徴量空間を示す情報が含まれる。特徴量空間に配置される学習データの分布状況は、ノンパラメトリックモデル学習部１３によって更新される。

（学習装置１の変形例）
ここで、実施形態における学習装置１の変形例について説明する。本変形例では、メトリック学習された最近傍識別器を用いる点において、上述した実施形態と相違する。メトリック学習は、文字の特徴量がプロットされた特徴量空間における距離であるメトリックに基づいてデータを分類する手法である。なお、説明を簡単にするために、ここでのメトリック学習された最近傍識別器は、ノンパラメトリックモデル学習部１３が学習対象とするノンパラメトリックモデルとは異なるモデルであることを前提とする。

例えば、文字認識結果取得部１１は、ディープラーニングによる学習済モデルが誤った認識をした文字について、最近傍識別器による文字認識を行う。そして、文字認識結果取得部１１は、メトリック学習された最近傍識別器による文字認識の認識結果を取得する。文字認識結果取得部１１は、取得した認識結果を追加文字決定部１２に出力する。ここでの認識結果には、最近傍識別器によってどのようなクラスに分類されたかを示す情報が含まれる。

追加文字決定部１２は、例えば、以下の（４）に示す方法により追加文字を決定する。

（４）最近傍識別器が誤って認識する文字
追加文字決定部１２は、最近傍識別器により文字を認識させた結果、正しく分類されなかった文字を追加文字とする。例えば、最近傍識別器が誤ったクラスに分類をしたり、複数のクラスに分類したり、１のクラスに分類したがそのクラスに認識対象とは異なる文字が含まれていたりする場合、その文字を認識することが困難な文字とみなして、追加文字とする。

（学習装置１が行う処理の流れについて）
図２は、本発明の実施形態にかかる学習装置１での処理を示すフローチャートである。
（ステップＳ１）：文字認識結果取得部１１は文字を認識させた認識結果を取得する。
（ステップＳ２）：追加文字決定部１２は、文字認識結果取得部１１からの認識結果を用いて、追加文字を決定する。
（ステップＳ３）：ノンパラメトリックモデル学習部１３は、追加文字決定部１２で決定した追加文字をノンパラメトリックモデルに学習させることにより、ノンパラメトリックモデルを更新する。
（ステップＳ４）：予測器生成部１４は、ノンパラメトリックモデル学習部１３で更新されたノンパラメトリックモデルを使用する予測器を生成する。

図３は、ステップＳ２での追加文字の決定での処理を示すフローチャートである。

（ステップＳ１０１）：追加文字決定部１２は、ディープラーニングに学習させた文字について類似文字との誤認識率が閾値以上であるか否かを判定する。追加文字決定部１２は、類似文字との誤認識率が閾値以上である場合には（ステップＳ１０１：Ｙｅｓ）、ステップＳ１０５で追加文字として決定する。

（ステップＳ１０２）：追加文字決定部１２は、ディープラーニングに学習させた文字について文字の種別ごとのサンプル数が閾値以下か否かを判定する。追加文字決定部１２は、文字の種別ごとのサンプル数が閾値以下の場合には（ステップＳ１０２：Ｙｅｓ）、ステップＳ１０５で追加文字として決定する。

（ステップＳ１０３）：追加文字決定部１２は、ディープラーニングに学習させた文字について文字の種別ごとの認識率が閾値以下か否かを判定する。追加文字決定部１２は、文字の種別ごとの認識率が閾値以下の場合には（ステップＳ１０３：Ｙｅｓ）、ステップＳ１０５で追加文字として決定する。

（ステップＳ１０４）：追加文字決定部１２は、メトリック学習された最近傍識別器の分類結果が正しくないか否かを判定する。追加文字決定部１２は、分類結果が正しくない場合（ステップＳ１０４：Ｙｅｓ）、ステップＳ１０５で追加文字として決定する。
（ステップＳ１０５）：追加文字決定部１２は、ステップＳ１０１からステップＳ１０４の何れかに該当する場合には、追加文字と判定する。
（ステップＳ１０６）：追加文字決定部１２は、ステップＳ１０１からステップＳ１０４の何れにも該当しない場合には、追加文字ではないと判定する。

以上説明したように、実施形態の学習装置１は、文字認識結果取得部１１と、追加文字決定部１２と、ノンパラメトリックモデル学習部１３とを備える。文字認識結果取得部１１は、「取得部」の一例である。追加文字決定部１２は、「決定部」の一例である。ノンパラメトリックモデル学習部１３は、「学習部」の一例である。文字認識結果取得部１１は認識結果を取得する。追加文字決定部１２は認識結果に基づいて認識することが困難な文字を特定し、特定した文字をノンパラメトリックモデルに学習させる追加文字として決定する。ノンパラメトリックモデル学習部１３は、追加文字をノンパラメトリックモデルに学習させる。

これにより、実施形態の学習装置１では、認識することが困難な文字を、ノンパラメトリックモデルに学習させることができる。ノンパラメトリックモデルに学習データを追加して再学習させる場合、ディープラーニングによる学習済モデルに再学習させる場合と比較して、学習の時間をほとんどかかけずに済む。ディープラーニングでは、入力に対する出力を導出するモデルを仮定し、学習によりモデルに設定するパラメータを決定するのに対し、ノンパラメトリックモデルはモデルを仮定することなく、学習データをその特徴に応じて分布させた特徴量空間を用いて、特徴量空間における入力データの位置に基づいて、入力データを分類するためである。したがって、認識することが困難な文字を、ディープラーニングの学習モデルに再学習させる場合よりも効率よく学習させることが可能である。

また、実施形態の学習装置１では、文字認識結果取得部１１はディープラーニングによる学習済モデルが文字を認識した認識結果を取得する。追加文字決定部１２は、ディープラーニングによる学習済モデルが認識することが困難な文字を追加文字とする。これにより、実施形態の学習装置１では、ディープラーニングによる文字認識において、ディープラーニングによる学習済モデルが認識することが困難な文字を追加文字とすることができる。

一般に、ディープラーニングによる学習済モデルでは、再学習に多大な時間を要するにもかかわらず、再学習をした学習済モデルが必ずしも全体として文字認識の精度が向上したモデルになるとは限らない。例えば、再学習前には正しく認識できていた文字が、再学習後には誤認識するようになってしまったり、再学習後のモデルが追加で学習させた文字を正しく認識できなかったりする場合もあり得る。

これに対し、本実施形態では、ノンパラメトリックモデルが文字の画像情報を特徴量空間においてクラスタリングすることにより文字を認識させる。このため、特に、形状が類似する文字に対しては、ディープラーニングによる学習済モデルにおいて誤った認識がなされた場合であっても、ノンパラメトリックモデルによる認識において正しく認識されることが期待できる。したがって、認識することが困難な文字を、ディープラーニングの学習モデルに再学習させる場合よりも効率よく、且つ精度よく学習させることが可能である。

一方で、ノンパラメトリックモデルを用いた文字認識に関しては、サンプル数の増加に伴い、文字認識にかかる時間が増大する。文字認識の対象となる文字は１００万文字を超えることもある。このため、文字認識の対象となる全ての文字を、ノンパラメトリックモデルを用いて認識させようとすると、文字認識にかかる時間が増大してしまうという問題が生じ得る。

これに対し、本実施形態では、ディープラーニングによる学習済モデルを用いた場合に認識させることが困難な文字を、ノンパラメトリックモデルに学習させるようにした。上述したように、ディープラーニングによる認識では、サンプル数が多いほど認識率が向上することが知られている。このため、ディープラーニングによる学習済モデルは、使用頻度が高い文字種、珍しくない汎用的な文字種のほとんどを正しく認識することができる。本実施形態では、ノンパラメトリックモデルに学習させる追加文字を、ディープラーニングによる学習済モデルに認識させることが困難な文字に限定する。これにより、追加文字を、ノンパラメトリックモデルに学習させることが有効なデータに絞ることができ、ノンパラメトリックモデルに学習させる文字数の増大を抑制することができる。

また、実施形態の学習装置１では、文字認識結果取得部１１はディープラーニングによる学習済モデルが文字を認識する過程において文字認識の候補となった文字が正解らしい確率である尤度を取得する。追加文字決定部１２は、文字認識の候補となった文字のそれぞれの尤度の差が閾値未満である文字を前記追加文字とする。これにより、実施形態の学習装置１では、ディープラーニングによる文字認識において誤認識しやすい文字を追加文字とすることができる。

例えば、「あ」という文字と「め」という文字は形状が類似しており、ディープラーニングによる認識では、正解が「あ」という文字に対して「め」と誤認識したり、「あ」という文字に対して「あ」と「め」の２つの認識候補を提示し、手動で正解を選択したりすることがある。このような形状が類似する文字は、メトリック（特徴量空間における距離）が小さい。このため、サンプル数を増やして学習させたとしても、ディープラーニングによる認識では誤った認識を繰り返す可能性が高い。
このように、文字認識では、サンプル数だけでは文字を認識することが困難な度合を判定することが難しい可能性がある。例えば、文字の形状が似ているものであれば、サンプル数に関係なく誤認識する可能性がある。

これに対し、ノンパラメトリックモデルでは、学習により「あ」という文字と、「め」という文字との間に境界線を追加することにより、両者が特徴量空間において異なるクラスに分類できるように学習する。このため、形状が類似する複数の文字が存在し、メトリック（特徴量空間における距離）が近い文字が複数存在する場合であっても、学習により境界線を追加することで文字を正しく認識することができるようになる。したがって、ディープラーニングによる学習済モデルに再学習させるより、ノンパラメトリックモデルに学習させる方が有効な文字を、ノンパラメトリックモデルに学習させることができる。

また、実施形態の学習装置１では、文字認識結果取得部１１は、文字種ごとのサンプル数を認識結果として取得を取得する。追加文字決定部１２は、サンプル数が閾値未満である文字種に属する文字を追加文字とする。これにより、実施形態の学習装置１では、サンプル数が少なく、ディープラーニングによる文字認識において誤認識しやすい文字を追加文字とすることができる。

また、実施形態の学習装置１では、文字認識結果取得部１１は、ディープラーニングによる学習済モデルが誤った認識をした文字に関する情報を認識結果として取得する。追加文字決定部１２は、ディープラーニングによる学習済モデルが誤った認識をした文字を追加文字とする。これにより、実施形態の学習装置１では、ディープラーニングによる文字認識において誤認識した文字を追加文字とすることができる。

また、実施形態の変形例に係る学習装置１では、文字認識結果取得部１１は、メトリック学習された最近傍識別器の分類結果を、認識結果として取得する。追加文字決定部１２は、メトリック学習された最近傍識別器により正しく分類されなかった文字を、追加文字とする。これにより、実施形態の変形例に係る学習装置１では、メトリック学習された最近傍識別器、例えば汎用的な最近傍識別器を用いた場合に正しく分類することが難しい文字を、ノンパラメトリックモデルを学習させることができる。したがって、ノンパラメトリックモデルを学習させる文字の数をさらに絞ることができ、ノンパラメトリックモデルを学習させる文字の数が増大することを抑制することが可能となる。

（学習装置１を用いた文字認識システム１００について）
ここで、学習装置１を用いた文字認識システム１００について説明する。文字認識システム１００は、学習装置１によりノンパラメトリックモデルを学習させる学習段階と、学習段階を経て更新されたノンパラメトリックモデルを用いて文字認識を実行する実行段階を有するシステムである。

図４は、本発明の実施形態にかかる文字認識システム１００の構成例を示すブロック図である。図４に示すように、文字認識システム１００は、例えば、学習装置１と実行装置２とを備える。

学習装置１は、上述した学習装置１である。学習装置１は、例えば、追加文字を学習させたノンパラメトリックモデルを示す情報を実行装置２に送信する。

実行装置２は、文字を認識する処理を実行するコンピュータである。実行装置２は、ディープラーニングモデルと、ノンパラメトリックモデルを併用して文字認識を行う。ここでのノンパラメトリックモデルは、学習装置１が追加文字を学習させることにより更新されたモデルである。実行装置２は、例えば、学習装置１から追加文字を学習させたノンパラメトリックモデルを示す情報を受信し、受信した情報を、後述するノンパラメトリックモデル情報２７として記憶させる。

実行装置２は、例えば、文字画像入力部２１と、ディープラーニングモデル文字認識部２２と、ノンパラメトリックモデル文字認識部２３と、認識制御部２４と、出力部２５と、ディープラーニングモデル情報２６と、ノンパラメトリックモデル情報２７とを備える。

実行装置２が備える機能部（文字画像入力部２１、ディープラーニングモデル文字認識部２２、ノンパラメトリックモデル文字認識部２３、認識制御部２４、及び出力部２５）により行われる処理は、実行装置２がハードウェアとして備えるＣＰＵ（Central Processing Unit）にプログラムを実行させることによって実現される。

文字画像入力部２１は、文字認識の対象とする文字画像を入力する。文字画像入力部２１は、例えば、スキャナー又はカメラなどである。

ディープラーニングモデル文字認識部２２は、後述する認識制御部２４の制御に従い、ディープラーニングによる学習済モデルを用いた文字認識を行う。ディープラーニングモデル文字認識部２２が文字認識に用いる学習済モデルは、一般的なディープラーニングによる文字認識モデルであり、例えば、汎用的な文字が認識できるように学習されたモデルである。

ノンパラメトリックモデル文字認識部２３は、認識制御部２４の制御に従い、ノンパラメトリックモデルを用いた文字認識を行う。ここでのノンパラメトリックモデルは、上述した学習装置１により追加文字を学習することによって更新されたモデルであり、例えば、ノンパラメトリックモデル情報２７に基づくモデルである。

認識制御部２４は、ディープラーニングモデル文字認識部２２による文字認識、及び、ノンパラメトリックモデル文字認識部２３による文字認識を制御する。

例えば、認識制御部２４は、文字画像入力部２１に入力された文字画像を、ディープラーニングモデル文字認識部２２に出力し、ディープラーニングによる学習済モデルに文字を認識させる。
認識制御部２４は、ディープラーニングモデル文字認識部２２による文字を認識した結果を取得し、ディープラーニングによる学習済モデルが文字を正しく認識した場合、その結果を、出力部２５に出力する。
一方、認識制御部２４は、ディープラーニングによる学習済モデルが文字を正しく認識しなかった場合、その認識対象とした文字画像を、ノンパラメトリックモデル文字認識部２３に出力し、ノンパラメトリックモデルに文字を認識させる。この場合、認識制御部２４は、ノンパラメトリックモデルによる文字を認識した結果を出力部２５に出力する。

或いは、認識制御部２４は、文字画像入力部２１に入力された文字画像の属性情報に基づいて、ディープラーニングによる学習済モデル、又はノンパラメトリックモデルの何れに文字を認識させるか判定するようにしてもよい。
ここでの属性情報は、上述した文字認識結果取得部１１が取得する認識結果と同様な情報であり、文字を認識することが困難である度合を示す情報である。
認識制御部２４は、文字画像入力部２１に入力された文字画像の属性情報に基づいて、文字画像に対応する文字が、認識することが困難な文字であるか否かを特定する。認識制御部２４は、文字画像入力部２１に入力された文字画像に対応する文字が、認識することが困難な文字である場合、その文字画像をノンパラメトリックモデル文字認識部２３に出力し、ノンパラメトリックモデルに文字を認識させる。一方、認識制御部２４は、文字画像入力部２１に入力された文字画像に対応する文字が、認識することが困難な文字でない場合、その文字画像をディープラーニングモデル文字認識部２２に出力し、ディープラーニングによる学習済モデルに文字を認識させる。

出力部２５は、例えばディスプレイであり、入力された文字画像、及び文字画像に対応する文字を認識した結果を表示する。

以上説明したように、実施形態の文字認識システム１００は、ノンパラメトリックモデル情報２７と、ディープラーニングモデル情報２６と、認識制御部２４とを備える。ノンパラメトリックモデル情報２７は、学習装置１によって学習されたノンパラメトリックモデルを示す情報である。ディープラーニングモデル情報２６は、ディープラーニングによる学習済モデルを示す情報である。認識制御部２４は、ディープラーニングモデルが正しく認識できない文字を、ノンパラメトリックモデルを用いて認識させる。これにより、実施形態の文字認識システム１００では、ディープラーニングでは正しく認識できない文字を、ノンパラメトリックモデルを用いて認識させることができる。ノンパラメトリックモデルは、学習装置１により追加文字を学習したモデルであるため、ディープラーニングでは正しく認識できない文字を正しく認識することができる可能性が高い。このため、実施形態の文字認識システム１００ではより精度よく文字を認識させることができる。

以上のように、本実施形態にかかる学習装置１では、ディープラーニングによる認識結果に関する情報を取得して追加文字を決定し、ノンパラメトリックモデルに追加している。追加文字をノンパラメトリックモデルで学習させることで、長時間にわたる学習を行わずに、認識精度を向上させることができる。

上述した実施形態における学習装置１及び文字認識システム１００の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

例えば、文字認識結果取得部１１は、従来のＯＣＲ（optical character recognition）技術を用いて文字を認識した認識結果を取得するようにしてもよい。この場合、追加文字決定部１２は、ＯＣＲの文字認識において認識することが困難な文字を追加文字とする。

また、上述した実施形態の変形例では、説明を簡単にするために、メトリック学習された最近傍識別器が、ノンパラメトリックモデル学習部１３が学習対象とするノンパラメトリックモデルとは異なるモデルであることを前提としたが、これに限定されることはない。
例えば、ノンパラメトリックモデル学習部１３が学習対象とするノンパラメトリックモデルが、ある程度の文字認識が可能となるように、ある程度の学習データが分布する特徴量空間を有するモデルであってもよい。
この場合、ノンパラメトリックモデルは、特に、追加文字決定部１２によって追加文字と決定された文字、或いは文字種を正しく認識することができるように学習させたモデルとなる。このように、文字を認識する対象に応じてノンパラメトリックモデルが更新されるように構成されてもよい。

１００…文字認識システム、１１…文字認識結果取得部（取得部）、１２…追加文字決定部（決定部）、１３…ノンパラメトリックモデル学習部（学習部）、１４…予測器生成部（生成部）

Claims

文字を認識させた認識結果を取得する取得部と、
前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定する決定部と、
前記決定部により決定された前記追加文字を前記ノンパラメトリックモデルに学習させる学習部と、
を備える学習装置。
前記取得部は、ディープラーニングによる学習済モデルを用いて文字を認識させた前記認識結果を取得し、
前記決定部は、ディープラーニングによる学習済モデルを用いた文字認識では認識することが困難な文字を前記追加文字とする、
請求項１に記載の学習装置。
前記取得部は、ディープラーニングによる学習済モデルが文字を認識する過程において文字認識の候補となった文字が正解らしい確率である尤度を取得し、
前記決定部は、文字認識の候補となった文字のそれぞれの尤度の差が閾値未満である文字を前記追加文字とする、
請求項１に記載の学習装置。
前記取得部は、ディープラーニングによる学習済モデルに学習させた学習データの数であるサンプル数を、文字種ごとに示す情報を前記認識結果として取得し、
前記決定部は、前記サンプル数が閾値未満である文字種に属する文字を前記追加文字とする、
請求項２に記載の学習装置。
前記取得部は、ディープラーニングによる学習済モデルを用いて文字を認識させた結果、誤った認識をした文字に関する情報を前記認識結果として取得し、
前記決定部は、ディープラーニングによる学習済モデルを用いて文字を認識させた結果、誤った認識をした文字を前記追加文字とする、
請求項２に記載の学習装置。
前記取得部は、メトリック学習された最近傍識別器の分類結果を前記認識結果として取得し、
前記決定部は、メトリック学習された最近傍識別器により正しく分類されなかった文字を前記追加文字とする、
請求項１に記載の学習装置。
請求項１から請求項５のいずれか一項に記載の学習装置によって学習された前記ノンパラメトリックモデルと、
ディープラーニングを用いて文字を認識するディープラーニングモデルと、
前記ディープラーニングモデルが正しく認識できない文字を、前記ノンパラメトリックモデルを用いて認識させる実行部と、
を備える文字認識システム。
コンピュータが行う学習方法であって、
文字を認識させた認識結果を取得する工程と、
前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定する工程と、
前記追加文字を前記ノンパラメトリックモデルに学習させる工程と
を含む学習方法。
コンピュータに、
文字を認識させた認識結果を取得するステップと、
前記認識結果に基づいて認識することが困難な文字を特定し、前記特定した文字をノンパラメトリックモデルに学習させる追加文字として決定するステップと、
前記追加文字を前記ノンパラメトリックモデルに学習させるステップと
を実行させるプログラム。