JP2021179926A

JP2021179926A - 学習プログラム、学習装置および学習方法

Info

Publication number: JP2021179926A
Application number: JP2020086276A
Authority: JP
Inventors: 大柱金; Daeju Kim; リシャブドゥッタ; Dutta Rishabh; 聡山田; Satoshi Yamada
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-18
Anticipated expiration: 2040-05-15
Also published as: JP7228542B2

Abstract

【課題】文字認識に関する分類問題の推定精度を向上させること。【解決手段】本願に係る学習プログラムは、入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習プログラムであって、取得手順と、学習手順とをコンピュータに実行させる。取得手順は、文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する。学習手順は、文字種別ごとに、当該文字種別に対応する文字情報に基づいて、損失関数の値を最小化するようモデルに関する所定のパラメータを学習する。【選択図】図２

Description

本発明は、学習プログラム、学習装置および学習方法に関する。

教師あり学習などの機械学習によって構築された学習モデルを使用して、分類問題のデータからデータが所属するカテゴリを推定する技術がある（例えば、特許文献１参照）。

例えば、学習モデルとしてニューラルネットワーク（深いニューラルネットワーク）を用いる機械学習は、深層学習ということが多い。分類問題を扱うニューラルネットワークは、データから特徴ベクトルを算出する演算部と、特徴ベクトルからデータの各カテゴリに所属していると推定される確率を算出する演算部で構成される。

特開２００９−２８２６８６号公報

機械学習の分類問題では、データが所属するカテゴリを誤らないようにすることが常に課題である。しかしながら、上記の従来技術では、必ずしも分類問題の推定精度を向上することができるとは限らない。具体的には、上記の従来技術では、文字認識に関する分類問題の推定精度を向上させることができるとは限らない。

本願は、上記に鑑みてなされたものであって、文字認識に関する分類問題の推定精度を向上させることを目的とする。

本願に係る学習プログラムは、入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習プログラムであって、前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得手順と、前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習手順とをコンピュータに実行させる。

実施形態の一態様によれば、文字認識に関する分類問題の推定精度を向上させることができる。

図１は、実施形態に係る学習処理の全体像を示す図である。図２は、実施形態に係る学習装置の構成例を示す図である。図３は、実施形態に係る学習データ記憶部の一例を示す図である。図４は、実施形態に係る学習処理の一例（１）を示す図である。図５は、実施形態に係る学習処理の一例（２）を示す図である。図６は、実施形態に係る学習処理手順を示すフローチャートである。図７は、実施形態に係るクラス分類処理手順を示すフローチャートである。図８は、学習装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る学習プログラム、学習装置および学習方法を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習プログラム、学習装置および学習方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．実施形態に係る学習処理の概要〕
従来、活字を含む文書の画像を文字列に変換する光学文字認識（ＯＣＲ；Optical Character Recognition）技術が知られている。しかし、日本語の場合、ひらがな、かたかな、漢字、英数字などが混合されて使用されることがあり、これらの中には形状が似ているものが多く存在する。このため、従来のＯＣＲ技術では、誤った文字認識（分類）がなされてしまう場合がある。具体的には、従来のＯＣＲ技術では、入力された文字が所属するカテゴリを誤って推定されてしまう場合がある。

例えば、漢字の「田」、漢字の「母」、漢字の「丑」は、形状（見た目）が似ており、従来のＯＣＲ技術での学習に用いられるアルゴリズムでは、本来、漢字の「田」に属する文字であるにも拘らず、漢字の「母」に属する文字であると認識されてしまう場合がある。同様のことは、数字の「１」、大文字の「Ｌ」、小文字の「ｌ」、記号の「縦棒」の間などでも起こり得る。また、同様のことは、かたかなの「ハ」、漢字の「八」の間などでも起こり得る。

このようなことから、本実施形態では、入力された文字がどの文字カテゴリに属するかを推定する、所謂、クラス分類における分類精度を高めることができる学習アルゴリズムを提案するものである。具体的には、実施形態に係る学習処理は、入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する中で、文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得すし、文字種別ごとに、当該文字種別に対応する文字情報に基づいて、損失関数の値を最小化するようモデルに関する所定のパラメータを学習する。

〔２．学習プログラムおよび学習装置について〕
実施形態に係る学習プログラムは、上述した実施形態に係る学習処理をコンピュータに実行させるためのプログラムである。実施形態に係る学習プログラムは、入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習プログラムであって、文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得手順と、文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習手順とをコンピュータに実行させるための学習プログラムである。

また、本実施形態では、このようなコンピュータの一例として、学習装置１００を例に挙げる。すなわち、学習装置１００は、実施形態に係る学習プログラムの制御に従って、文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得し、文字種別ごとに、当該文字種別に対応する文字情報に基づいて、損失関数の値を最小化するようモデルに関する所定のパラメータを学習する。

また、本実施形態では、学習装置１００は、サーバ装置やクラウドシステム等により実現されるものとする。一方で、実施形態に係る学習プログラムが実行されるコンピュータは、例えば、エンドユーザによって利用される情報処理端末であってもよく、このような情報処理端末としては、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等が挙げられる。

また、以下の実施形態では、「文字種別」を「文字カテゴリ」と表記する場合がある。上記例を用いると、漢字の「田」、漢字の「母」、漢字の「丑」は、文字カテゴリの一例であり、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリと言い換えることができる。また、「田」カテゴリに属する文字には、ゴシック体により書かれた「田」という文字、明朝体により書かれた「田」という文字、手書きによる「田」という文字など様々な態様（字体）の文字が存在する。「母」カテゴリに属する文字、「丑」カテゴリに属する文字についても同様である。

〔３．学習処理の全体像〕
ここからは、図１を用いて、実施形態に係る学習装置１００によって行われる学習処理の全体像について説明する。図１は、実施形態に係る学習処理の全体像を示す図である。実施形態に係る学習のアルゴリズムは、誤った文字カテゴリとして認識される傾向にある文字の集合（クラスタ）に対応する範囲の広いカテゴリを対象とするクラス分類のためのアルゴリズム（第１アルゴリズム）と、この範囲の広いカテゴリに含まれる各文字カテゴリを対象とするアルゴリズム（第２アルゴリズム）とによって構成されるものである。まず、図１の上段を用いて第１アルゴリズムについて説明する。

図１の例では、文字カテゴリが異なる文字であって、互いに形状が似ていることにより誤って認識される傾向にある文字が属するカテゴリであるメインカテゴリＣｎの一例として、メインカテゴリＣ１およびメインカテゴリＣ２が示されている。

メインカテゴリＣ１について説明する。上記の通り、漢字の「田」、漢字の「母」、漢字の「丑」は、形状が似ているために、誤った分類がなされてしまう傾向にある。例えば、正しくは「田」カテゴリに属する文字であるにも拘らず、「母」カテゴリに属する文字であると認識されてしまう傾向にある。逆に、正しくは「母」カテゴリに属する文字であるにも拘らず、「田」カテゴリに属する文字であると認識されてしまう傾向にある。したがって、メインカテゴリＣ１は、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリ、とった互いに分類先が間違われる傾向にあるカテゴリを含む範囲の広いカテゴリである。

また、メインカテゴリＣ１には、「田１」、「田２」、「田３」が含まれる。これらは、漢字の「田」であるが互いに字体の異なる文字を概念的に示すものである。より詳細には、「田１」は、漢字の「田」の文字であって、所定の字体の文字を示す画像データである。また、「田２」は、漢字の「田」の文字であって、他の所定の字体の文字を示す画像データである。また、「田３」は、漢字の「田」の文字であって、さらに他の所定の字体の文字を示す画像データである。

また、メインカテゴリＣ１には、「母１」、「母２」、「母３」が含まれる。これらは、漢字の「母」であるが互いに字体の異なる文字を概念的に示すものである。より詳細には、「母１」は、漢字の「母」の文字であって、所定の字体の文字を示す画像データである。また、「母２」は、漢字の「田」の文字であって、他の所定の字体の文字を示す画像データである。また、「母３」は、漢字の「母」の文字であって、さらに他の所定の字体の文字を示す画像データである。

また、メインカテゴリＣ１には、「丑１」、「丑２」、「丑３」が含まれる。これらは、漢字の「丑」であるが互いに字体の異なる文字を概念的に示すものである。より詳細には、「丑１」は、漢字の「丑」の文字であって、所定の字体の文字を示す画像データである。また、「丑２」は、漢字の「丑」の文字であって、他の所定の字体の文字を示す画像データである。また、「丑３」は、漢字の「丑」の文字であって、さらに他の所定の字体の文字を示す画像データである。

ここで、メインカテゴリＣ１についてより詳細に説明する。例えば、利用者は、「田１」に対応する画像データを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、「田１」に対応する画像データを学習データの新たなサンプルとしてメインカテゴリＣ１に所属させる。また、利用者は、「田２」に対応する画像データを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、「田２」に対応する文字データを学習データの新たなサンプルとしてメインカテゴリＣ１に所属させる。また、利用者は、「田３」に対応する画像データを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、「田３」に対応する画像データを学習データの新たなサンプルとしてメインカテゴリＣ１に所属させる。また、利用者は、「母」および「丑」についても同様に画像データを学習データとして学習装置１００に入力する。このようにして、メインカテゴリＣ１に属する各文字の画像データの集合（クラスタ）が、メインカテゴリＣ１に対応する学習データとして得られる。

メインカテゴリＣ２については、メインカテゴリＣ１の例に倣って説明可能であるため詳細な説明を省略する。簡単に説明すると、かたかなの「ト」、かたかなの「ド」、数字の「７」は、形状が似ているために、誤った分類がなされてしまう傾向にある。例えば、正しくは「ト」カテゴリに属する文字であるにも拘らず、「７」カテゴリに属する文字であると認識されてしまう傾向にある。逆に、正しくは「７」カテゴリに属する文字であるにも拘らず、「ト」カテゴリに属する文字であると認識されてしまう傾向にある。したがって、メインカテゴリＣ２は、「ト」カテゴリ、「ド」カテゴリ、「７」カテゴリ、といった互いに分類先が間違われる傾向にあるカテゴリを含む範囲の広いカテゴリである。

そして、例えば、利用者は、「ト１」に対応する画像データを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、「ト１」に対応する画像データを学習データの新たなサンプルとしてメインカテゴリＣ２に所属させる。また、利用者は、「ト２」に対応する画像データを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、「ト２」に対応する画像データを学習データの新たなサンプルとしてメインカテゴリＣ２に所属させる。また、利用者は、「ト３」に対応する画像データを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、「ト３」に対応する画像データを学習データの新たなサンプルとしてメインカテゴリＣ２に所属させる。また、利用者は、「ド」および「７」についても同様に画像データを学習データとして学習装置１００に入力する。このようにして、メインカテゴリＣ２に属する各文字の画像データの集合（クラスタ）が、メインカテゴリＣ２に対応する学習データとして得られる。

このように、メインカテゴリＣｎごとに学習データが得られている状態において、学習装置１００は、入力された文字が文字カテゴリの候補のうちのいずれの文字カテゴリに属する文字であるか文字認識するためのモデルＭｎを学習する際に、メインカテゴリＣｎに属する様々な文字カテゴリの文字を対象として、損失関数（クロスエントロピー）を最小化するよう、モデルＭｎのパラメータを学習する。

例えば、メインカテゴリＣ１に対応するモデルをモデルＭ１とすると、モデルＭ１は、文字カテゴリの候補（すなわち、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリ）のうちのいずれの文字カテゴリに属する文字であるか文字認識するためのモデルである。具体的には、モデルＭ１は、入力された文字が、「田」カテゴリに属する文字であることの確率、「母」カテゴリに属する文字であることの確率、「丑」カテゴリに属する文字であることの確率をそれぞれ出力するモデルである。

ここで、学習装置１００は、分類先が未知の文字を含む画像データＤＡｘ１の入力を利用者から受け付けたとする。図１の例では、画像データＤＡｘ１には、漢字の「田」の文字が含まれる。そうすると、学習装置１００は、まず、画像データＤＡｘ１を解析することにより、画像データＤＡｘ１に含まれる文字を抽出する。そして、学習装置１００は、抽出した文字がメインカテゴリＣｎのいずれに所属する文字であるかを推定し、抽出した文字を推定先のメインカテゴリＣｎに所属させるクラスタリング処理を行う。図１の例では、学習装置１００は、抽出した文字がメインカテゴリＣ１に所属する文字であると推定し、この抽出した文字をメインカテゴリＣ１に所属させる。

また、学習装置１００は、このように所属させたことにより所属先のメインカテゴリＣ１に対応するモデルＭ１を用いて、画像データＤＡｘ１から抽出した未知の文字について、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリのうちのいずれの文字カテゴリに属するかを推定することによるクラス分類を行う。例えば、学習装置１００は、画像データＤＡｘ１から抽出した未知の文字をモデルＭ１に入力することにより、係る未知の文字が、「田」カテゴリに属する文字である確率、「母」カテゴリに属する文字である確率、「丑」カテゴリに属する文字である確率を得る。

そして、図１では、未知の文字が、「田」カテゴリに属する文字である確率「３５％」、「母」カテゴリに属する文字である確率「３０％」、「丑」カテゴリに属する文字である確率「３５％」が得られた例が示されている。係る例によれば、全ての確率が拮抗しており高精度なクラス分類がなされていない。

このようなことから、複数の異なる文字カテゴリを含む範囲の広いカテゴリであるメインカテゴリＣｎのみの着目している第１アルゴリズムだけでは、分類問題の推定精度を向上させることができない場合がある。このようなことから、本実施形態では、この範囲の広いカテゴリに含まれる各文字カテゴリを対象とするアルゴリズム（第２アルゴリズム）をさらに組み合わせることで分類問題の推定精度を向上させようとしている。

ここからは、これまでの例をさらに用いるとともに、図１の下段に示す例を用いて、第２アルゴリズムについて説明する。また、以降、メインカテゴリＣ１に絞って第２アルゴリズムについて説明する。

学習装置１００は、第２アルゴリズムによる学習を行うにあたって、利用者から学習データの入力を受け付けることができる。例えば、学習装置１００は、文字カテゴリと、当該文字カテゴリに属する文字の画像データとの組合せを学習データとして受け付けることができる。このようなことから、学習装置１００は、文字カテゴリの指定を利用者から受け付けることができる。

例えば、利用者は、文字カテゴリ「田」と、「田１」に対応する画像データとの組合せを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、図１に示すように、「田１」に対応する画像データを学習データの新たなサンプルとして「田」カテゴリに所属させる。また、利用者は、文字カテゴリ「田」と、「田２」に対応する画像データとの組合せを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、図１に示すように、「田２」に対応する画像データを学習データの新たなサンプルとして「田」カテゴリに所属させる。また、利用者は、文字カテゴリ「田」と、「田３」に対応する画像データとの組合せを学習データとして学習装置１００に入力する。係る場合、学習装置１００は、図１に示すように、「田３」に対応する画像データを学習データの新たなサンプルとして「田」カテゴリに所属させる。

また、利用者は、「母」カテゴリおよび「丑」カテゴリについても同様に、当該文字カテゴリと、当該文字カテゴリに属する文字の画像データとの組合せを学習データとして学習装置１００に入力する。このようにして、学習装置１００は、図１に示すように、メインカテゴリＣ１に含まれる文字カテゴリごとに、当該文字カテゴリに属する各文字の画像データの集合（クラスタ）を学習データとして得る。

なお、学習装置１００は、メインカテゴリＣｎを、当該メインカテゴリＣｎに含まれる文字カテゴリごとに分割することにより、利用者からの指定なしに動的に文字カテゴリを抽出してもよい。例えば、図１の例では、学習装置１００は、メインカテゴリＣ１を、当該メインカテゴリＣｎに含まれる文字カテゴリごとに分割することにより、利用者からの指定なしに、動的に、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリを抽出してもよい。そして、学習装置１００は、このようにして抽出した文字カテゴリごとに学習データ（画像データ）の入力を受け付けてもよい。

また、例えば、学習装置１００は、ハイパーパラメータとして文字カテゴリの数の指定を受け付けることにより、メインカテゴリＣｎごとに、当該メインカテゴリＣｎを指定された数分の文字カテゴリに分割してもよい。

このように、文字カテゴリごとに学習データが得られている状態において、学習装置１００は、入力された文字が文字カテゴリの候補のうちのいずれの文字カテゴリに属する文字であるか文字認識するためのモデルＭｎを学習する際に、文字カテゴリごとに、当該文字カテゴリに対応する学習データに基づいて、損失関数の値を最小化するようモデルＭｎに関する所定のパラメータを学習する。例えば、学習装置１００は、文字カテゴリごとに、当該文字カテゴリに属する各文字の特徴情報（特徴ベクトル）に基づいて、損失関数の値を最小化するようモデルＭｎに関する所定のパラメータを学習する。

図１の例では、学習装置１００は、モデルＭ１を学習する際に、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリそれぞれについて、当該文字カテゴリに対応する学習データに基づいて、損失関数の値を最小化するようモデルＭ１に関する所定のパラメータを学習する。この点について、「田」カテゴリを例に説明する。

図１の例では、漢字の「田」の文字であって、互いに字体の異なる文字として、「田１」、「田２」、「田３」が、「田」カテゴリに含まれる。したがって、学習装置１００は、「田１」に対応する画像データを解析することにより、「田１」によって示される字体の文字について、特徴ベクトルを取得する。また、学習装置１００は、「田２」に対応する画像データを解析することにより、「田２」によって示される字体の文字について、特徴ベクトルを取得する。また、学習装置１００は、「田３」に対応する画像データを解析することにより、「田３」によって示される字体の文字について、特徴ベクトルを取得する。

そして、学習装置１００は、取得した各特長ベクトルを「田」カテゴリに対応する損失関数（クロスエントロピー）に適用する。そして、学習装置１００は、「田」カテゴリについて学習データとして与えられた各文字が、「田」カテゴリに属する文字であって正解データとして与えられた文字として認識される確率が高まるよう、確率分布の誤差（クロスエントロピー誤差）を最小化するように、モデルＭ１（例えば、ニューラルネットワークモデル）の重みまたはバイアスを学習する。

また、学習装置１００は、図１の上段で説明した第１アルゴリズムを規定するクロスエントロピーであってメインカテゴリＣｎ（係る例では、メインカテゴリＣ１）に対応するクロスエントロピー、および、図１の下段で説明した第２アルゴリズムを規定するクロスエントロピーであって文字カテゴリ（係る例では、「田」カテゴリ）に対応するクロスエントロピーそれぞれから得られた誤差を最小化するようにモデルＭ１のパラメータを学習する。この詳細については、後に図４および図５を用いて説明する。

また、学習装置１００は、同様の処理を「母」カテゴリ、「丑」カテゴリについても行う。

ここで、学習装置１００は、分類先が未知の文字を含む画像データＤＡｘ１の入力を利用者から受け付けたとする。そうすると、学習装置１００は、まず、画像データＤＡｘ１を解析することにより、画像データＤＡｘ１に含まれる文字を抽出する。そして、学習装置１００は、抽出した文字がメインカテゴリＣｎのいずれに所属する文字であるかを推定し、抽出した文字を推定先のメインカテゴリＣｎに所属させるクラスタリング処理を行う。図１の例では、学習装置１００は、抽出した文字がメインカテゴリＣ１に所属する文字であると推定し、抽出した文字をメインカテゴリＣ１に所属させる。

また、学習装置１００は、このように所属させたことにより所属先のメインカテゴリＣ１に対応するモデルＭ１を用いて、画像データＤＡｘ１から抽出した未知の文字について、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリのうちのいずれの文字カテゴリに属するかを推定することによるクラス分類を行う。また、ここで、用いられるモデルＭ１は、第１アルゴリズムだけでなく、第２アルゴリズムによる学習結果も反映されたものである。

例えば、学習装置１００は、画像データＤＡｘ１から抽出した未知の文字をこのモデルＭ１に入力することにより、係る未知の文字が、「田」カテゴリに属する文字である確率、「母」カテゴリに属する文字である確率、「丑」カテゴリに属する文字である確率を得る。

そして、図１では、未知の文字が、「田」カテゴリに属する文字である確率「９０％」、「母」カテゴリに属する文字である確率「５％」、「丑」カテゴリに属する文字である確率「５％」が得られた例が示されている。係る例によれば、全ての確率が拮抗しており高精度なクラス分類がなされていない上段の例と比較して、未知の文字に対する「田」カテゴリへの高精度な分類が実現されている。

さて、これまで図１で説明してきたように、学習装置１００は、実施形態に係る学習プログラムの制御に従って、文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得し、文字種別ごとに、当該文字種別に対応する文字情報に基づいて、損失関数の値を最小化するようモデルに関する所定のパラメータを学習する。

より詳細には、図１で説明したように、学習装置１００は、実施形態に係る学習プログラムの制御に従って、各文字カテゴリに対応する第２アルゴリズムを規定するクロスエントロピーによるクロスエントロピー誤差と、各文字カテゴリを含む範囲の広いカテゴリであって、誤った文字種別として認識される傾向にある文字の集合を含むカテゴリに対応する第２アルゴリズムを規定するクロスエントロピーによるクロスエントロピー誤差とを総合した総合的な誤差を最小化するようパラメータを学習する。

このような学習装置１００（学習プログラム）によれば、文字認識に関する分類問題の推定精度を向上させることができる。

〔４．学習装置の構成〕
次に、図２を用いて、実施形態に係る学習装置１００について説明する。図２は、実施形態に係る学習装置１００の構成例を示す図である。図２に示すように、学習装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、例えば、入力の際に用いられる外部の装置との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、学習データ記憶部１２１と、モデル情報記憶部１２２とを有する。

（学習データ記憶部１２１について）
学習データ記憶部１２１は、利用者によって入力された学習データを記憶する。ここで、図３に実施形態に係る学習データ記憶部１２１の一例を示す。図３の例では、学習データ記憶部１２１は、「メインカテゴリ」、「文字カテゴリ」、「学習データ」、「特徴ベクトル」といった項目を有する。

「メインカテゴリ」は、図１で説明したように、互いに誤って認識される傾向にある文字カテゴリを含む範囲の広いカテゴリである。図３に示す学習データ記憶部１２１の例では、このようなメインカテゴリの一例として図１に示した「メインカテゴリＣ１」が示されている。

「文字カテゴリ」は、対応する「メインカテゴリ」に属する文字それぞれが個別に所属するカテゴリである。図３に示す学習データ記憶部１２１の例では、「メインカテゴリＣ１」には、文字カテゴリの一例として、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリが含まれる例が示されている。この点について、「メインカテゴリＣ１」には、「田」カテゴリに属する文字、「母」カテゴリに属する文字、「丑」カテゴリに属する文字が混合された状態で所属している、といえる。

「学習データ」は、対応する「文字カテゴリ」に属する文字を含む画像データであって、学習のためのサンプルとして利用されるよう利用者から入力された画像データである。図３に示す学習データ記憶部１２１の例では、「文字カテゴリ」の一例である「田」カテゴリに対して、学習データ「学習データ♯１１−１」が対応付けられている。係る例は、「田」カテゴリに属する文字であって、ある字体の文字を示す画像データが入力されたことにより、学習装置１００が、係る画像データを「学習データ♯１１−１」として格納している例を示す。

「特徴ベクトル」は、対応する「学習データ」を解析することにより取得（抽出された）された、学習データ内に含まれる文字の特徴を示す特徴情報である。図３に示す学習データ記憶部１２１の例では、「文字カテゴリ」の一例である「田」カテゴリ、および、学習データ「学習データ♯１１−１」の組に対して、特徴ベクトル「特徴ベクトル♯１１−１」が対応付けられている。係る例は、「学習データ♯１１−１」を解析することにより、「学習データ♯１１−１」内に含まれる文字（「田」カテゴリに属する文字）の特徴を示す特徴ベクトルとして「特徴ベクトル♯１１−１」が取得（抽出）された例を示す。

（モデル情報記憶部１２２について）
モデル情報記憶部１２２は、入力された文字が文字カテゴリの候補のうちのいずれの文字カテゴリに属する文字であるか文字認識するためのモデルを記憶する。例えば、モデル情報記憶部１２２は、「メインカテゴリ」ごとに、第１アルゴリズムおよび第２アルゴリズムが反映されたモデルを記憶する。

（制御部１３０について）
制御部１３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、学習装置１００内部の記憶装置に記憶されている各種プログラム（例えば、実施形態に係る学習プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図２に示すように、制御部１３０は、データ受付部１３１と、取得部１３２と、学習部１３３と、入力受付部１３４と、分類部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図２に示した接続関係に限られず、他の接続関係であってもよい。

（データ受付部１３１）
データ受付部１３１は、学習データを受け付ける。例えば、データ受付部１３１は、文字カテゴリと、当該文字カテゴリに属する文字の画像データとの組合せである学習データの入力を利用者から受け付ける。また、データ受付部１３１は、受け付けた学習でデータを学習データ記憶部１２１に格納する。

（取得部１３２について）
取得部１３２は、文字カテゴリごとに、当該文字カテゴリに属する文字に関する文字情報を取得する。例えば、取得部１３２は、文字カテゴリごとに、当該文字カテゴリに属する文字の特徴示す特徴情報（特徴ベクトル）を取得する。例えば、取得部１３２は、データ受付部１３１により学習データが受け付けられた場合には、受け付けられた学習データを解析することにより、係る学習データに画像として含まれる文字を抽出する。そして、取得部１３２は、抽出した文字に対応する画像部分からこの文字の特徴を示す特徴ベクトルを取得する。係る特徴ベクトルは、例えば、ピクセル情報によって示される。

（学習部１３３について）
学習部１３３は、処理対象の文字カテゴリごとに、当該文字カテゴリに対応する文字情報（特徴ベクトル）に基づいて、損失関数の値を最小化するようモデルに関する所定のパラメータを学習する。例えば、学習部１３３は、モデルを学習する際に、所定のパラメータを学習する。

例えば、学習部１３３は、処理対象の文字カテゴリごとに、当該文字カテゴリに属する文字に関する文字情報と、当該文字カテゴリに属する文字であって正解データとして入力された文字に関する文字情報とに基づいて、損失関数の値を最小化するよう所定のパラメータを学習する。

例えば、学習部１３３は、処理対象の文字カテゴリごとに、当該文字カテゴリに属する文字に関する文字情報を足し合わせることにより算出された指標値と、正解データとして入力された文字に関する文字情報とに基づいて、損失関数の値を最小化するよう所定のパラメータを学習する。例えば、学習部１３３は、損失関数の値を最小化する処理として、係る指標値と、正解データとして入力された文字に関する文字情報とに基づいて、文字カテゴリに属する文字が正解データとして入力された文字として認識される確率を高めるよう所定のパラメータを学習する。

また、学習部１３３は、処理対象の文字カテゴリについての損失関数の値と、異なる文字カテゴリにそれぞれに属する文字であって誤った文字カテゴリとして認識される傾向にある文字の集合に対応する所定のカテゴリ（メインカテゴリ）を対象に得られた損失関数の値とに基づき算出された値であって、異なる文字カテゴリ間での総合的な損失関数の値を最小化するようパラメータを学習する。例えば、学習部１３３は、処理対象の文字カテゴリについての損失関数の値と、異なる文字カテゴリにそれぞれに属する文字であって誤った文字カテゴリとして認識される傾向にある文字の集合に対応する所定のカテゴリを対象に得られた損失関数の値とを足し合わせた、総合的な損失関数の値を最小化するようパラメータを学習する。

また、学習部１３３は、損失関数の値を最小化するよう、所定のパラメータとしてニューラルネットワークの重みまたはバイアスを学習する。

（入力受付部１３４について）
入力受付部１３４は、分類先が未知の文字を含む画像データの入力を利用者から受け付ける。例えば、入力受付部１３４は、分類先が未知の文字を含む画像データの入力を、利用者によって利用される情報処理端末（例えば、スマートフォン）から受け付ける。

（分類部１３５について）
分類部１３５は、分類先が未知の文字がどの文字カテゴリに属する文字であるかを推定することによるクラス分類を行う。例えば、分類部１３５は、入力受付部１３４により分類先が未知の文字を含む画像データの入力が受け付けられた場合に、係る画像データを解析することにより、係る画像データに画像として含まれる文字を抽出する。そして、分類部１３５は、抽出した文字を分類先が未知の文字、すなわちクラス分類を行う処理対象の文字として認識する。

そして、分類部１３５は、処理対象の文字がメインカテゴリＣｎのいずれに所属する文字であるかを推定し、処理対象の文字を推定先のメインカテゴリＣｎに所属させるクラスタリング処理を行う。

また、分類部１３５は、所属先のメインカテゴリＣｎに対応するモデルＭｎを用いて、処理対象の文字について、候補の文字カテゴリのうちいずれの文字カテゴリに属するかを推定することによるクラス分類を行う。例えば、分類部１３５は、所属先のメインカテゴリＣｎに対応するモデルＭｎに対して、処理対象の文字の画像部分を入力することにより、処理対象の文字が、候補の文字カテゴリそれぞれに属する文字であることの確率を得る。そして、分類部１３５は、取得した確率に基づいて、処理対象の文字（分類先が未知の文字）がどの文字カテゴリに属する文字であるかを推定する。

また、分類部１３５は、分類先が未知の文字を含む画像データを入力した利用者に向けて、分類結果を提示することもできる。例えば、分類部１３５は、確率に基づき推定した文字カテゴリ（分類先）を提示してもよいし、文字カテゴリごとに得られた確率を提示してもよい。図１の例を用いると、例えば、分類部１３５は、入力された画像データから抽出した文字であって、分類先が未知の文字について、「田」カテゴリに属する文字である確率「９０％」、「母」カテゴリに属する文字である確率「５％」、「丑」カテゴリに属する文字である確率「５％」といったように文字カテゴリと確率との組合せを提示する。

〔５．学習処理の一例〕
ここからは、学習部１３３によって行われる学習処理の一例について、図４および図５を用いて説明する。図４は、実施形態に係る学習処理の一例（１）を示す図である。図５は、実施形態に係る学習処理の一例（２）を示す図である。

図４および図５では、図１の上段で説明した第１アルゴリズムを規定するクロスエントロピーであってメインカテゴリＣｎに対応するクロスエントロピー、および、図１の下段で説明した第２アルゴリズムを規定するクロスエントロピーであって文字カテゴリに対応するクロスエントロピーの組合せを例に挙げて、実施形態に係る学習処理を説明する。

まず、図４から説明する。図４（図５も同様）に示される式（１）は、メインカテゴリＣｎに対応するクロスエントロピーであるメインクロスエントロピーから算出された誤差と、メインカテゴリＣｎに含まれる各文字カテゴリに対応するクロスエントロピーである内部クロスエントロピーから算出された誤差とを足し合わせた総合的な誤差（ｔｏｔａｌｌｏｓｓ）を最小化するようにモデルＭｎのパラメータ（例えば、重み）を学習する学習処理を示すものである。

ここで、図４では、図１の例に沿って、メインカテゴリＣｎをメインカテゴリＣ１とし、文字カテゴリを「田」カテゴリとする。係る場合、式（１）は、メインカテゴリＣ１に対応するメインクロスエントロピーから算出された誤差と、「田」カテゴリに対応する内部クロスエントロピーから算出された誤差とを足し合わせた総合的な誤差（ｔｏｔａｌｌｏｓｓ）を最小化するようにモデルＭ１のパラメータ（例えば、重み）を学習する学習処理を示すものとなる。

式（１）の左項であるメインクロスエントロピーに着目する。「Ｘ」は、処理対象のメインカテゴリＣｎ（係る例では、メインカテゴリＣ１）に属する文字の正解データ（正解ベクトル）を示す。メインカテゴリＣ１には、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリが含まれる。したがって、係る例では、「Ｘ」は、「田」カテゴリに属する文字（漢字の「田」の文字）の正解ベクトルと、「母」カテゴリに属する文字（漢字の「母」の文字）の正解ベクトルと、「丑」カテゴリに属する文字（漢字の「丑」の文字）の正解ベクトルとを示す。

「ｘ＿ｉ」は、処理対象のメインカテゴリＣｎ（係る例では、メインカテゴリＣ１）に属する全文字であって、学習データサンプルとして入力された全文字それそれの文字情報（特徴ベクトル）を示す。図４の例では、「ｘ＿ｉ」は、「田１」によって示される字体の文字（漢字の「田」）から得られた特徴ベクトルである。また、「ｘ＿ｉ」は、「田２」によって示される字体の文字（漢字の「田」）から得られた特徴ベクトルである。また、「ｘ＿ｉ」は、「田３」によって示される字体の文字（漢字の「田」）から得られた特徴ベクトルである。

同様に、図４の例では、「ｘ＿ｉ」は、「母１」によって示される字体の文字（漢字の「母」）から得られた特徴ベクトルである。また、「ｘ＿ｉ」は、「母２」によって示される字体の文字（漢字の「母」）から得られた特徴ベクトルである。また、「ｘ＿ｉ」は、「母３」によって示される字体の文字（漢字の「母」）から得られた特徴ベクトルである。

さらに、同様に、図４の例では、「ｘ＿ｉ」は、「丑１」によって示される字体の文字（漢字の「丑」）から得られた特徴ベクトルである。また、「ｘ＿ｉ」は、「丑２」によって示される字体の文字（漢字の「丑」）から得られた特徴ベクトルである。また、「ｘ＿ｉ」は、「丑３」によって示される字体の文字（漢字の「丑」）から得られた特徴ベクトルである。

このような状態において、学習部１３３は、メインクロスエントロピーに基づく第１アルゴリズムによる学習を行う。具体的には、学習部１３３は、正解ベクトル（「Ｘ」）と、各特長ベクトル（「ｘ＿ｉ」）の合算により算出された指標値との誤差であるクロスエントロピー誤差（メインクロスエントロピー誤差）を最小化するようモデルＭ１に対応するパラメータを学習する。各特長ベクトルの合算により算出された指標値とは、「ｘ＿１」が示す各特長ベクトル（図４の例の場合、９つの文字にそれぞれから得られた特徴ベクトル）を足し合わせることにより算出された指標値である。

そして、学習部１３３は、メインカテゴリＣ１について学習データとして与えられた各文字（図４の例の場合、９つの文字）が、正解データとして与えられた文字として認識される確率が高まるよう、確率分布の誤差（メインクロスエントロピー誤差）を最小化するように、モデルＭ１に対応するパラメータを学習する。

次に、式（１）の右項である内部クロスエントロピーに着目する。「ｊ」は、処理対象の文字カテゴリ（係る例では、「田」カテゴリ）を示す。したがって、「Ｘ＿ｊ」は、処理対象の文字カテゴリ（係る例では、「田」カテゴリ）に属する文字の正解データ（正解ベクトル）を示す。

また、「Ｃ＿ｊ」は、処理対象の文字カテゴリ（係る例では、「田」カテゴリ）に属する文字の集合を示す。

「ｘ＿ｊ＿ｉ」は、処理対象の文字カテゴリ（係る例では、「田」カテゴリ）に属する全文字であって、学習データサンプルとして入力された全文字それそれの文字情報（特徴ベクトル）を示す。図４の例では、「ｘ＿ｊ＿ｉ」は、「田１」によって示される字体の文字（漢字の「田」）から得られた特徴ベクトルである。また、「ｘ＿ｊ＿ｉ」は、「田２」によって示される字体の文字（漢字の「田」）から得られた特徴ベクトルである。また、「ｘ＿ｊ＿ｉ」は、「田３」によって示される字体の文字（漢字の「田」）から得られた特徴ベクトルである。

このような状態において、学習部１３３は、内部クロスエントロピーに基づく第２アルゴリズムによる学習を行う。具体的には、学習部１３３は、正解ベクトル（「Ｘ＿ｊ」）と、各特長ベクトル（「ｘ＿ｊ＿ｉ」）の合算により算出された指標値との誤差であるクロスエントロピー誤差（内部クロスエントロピー誤差）を最小化するようモデルＭ１に対応するパラメータを学習する。各特長ベクトルの合算により算出された指標値とは、「ｘ＿ｊ＿ｉ」が示す各特長ベクトル（図４の例の場合、３つの「田」の文字にそれぞれから得られた特徴ベクトル）を足し合わせることにより算出された指標値である。

そして、学習部１３３は、メインカテゴリＣ１に含まれる１つの「田」カテゴリだけを対象に、学習データとして与えられた各文字（図４の例の場合、３つの「田」の文字）が、正解データとして与えられた「田」の文字として認識される確率が高まるよう、確率分布の誤差（内部クロスエントロピー誤差）を最小化するように、モデルＭ１に対応するパラメータを学習する。

また、式（１）を用いた学習により、学習部１３３は、結果的に、メインクロスエントロピーから算出された誤差と、「田」カテゴリに対応するクロスエントロピーである内部クロスエントロピーから算出された誤差とを足し合わせた総合的な誤差（ｔｏｔａｌｌｏｓｓ）を最小化するように、モデルＭ１に対応するパラメータを学習することになる。

ここで、メインカテゴリＣ１に着目すると、学習部１３３は、メインカテゴリＣ１に含まれる文字カテゴリごとに、当該文字カテゴリに対応する特徴ベクトルに基づいて、損失関数の値を最小化するようモデルＭ１に関するパラメータを学習するものである。そして、図４では、学習部１３３が、式（１）の右項で示される内部クロスエントロピーに基づいて、メインカテゴリＣ１に含まれる文字カテゴリの１つである「田」カテゴリについて第２アルゴリズムによる学習を行う例を示した。

しかし、学習部１３３は、式（１）の右項で示される内部クロスエントロピーに基づいて、メインカテゴリＣ１に含まれる文字カテゴリの１つである「母」カテゴリについて第２アルゴリズムによる学習も行う。したがって、この点について図５を用いて説明する。なお、メインカテゴリＣ１に着目した場合、学習部１３３は、式（１）の右項で示される内部クロスエントロピーに基づいて、「丑」カテゴリについても第２アルゴリズムによる学習も行うが繰り返しの説明になるためこれについては詳細な説明を省略する。

ここで、図５では、図１の例に沿って、メインカテゴリＣｎをメインカテゴリＣ１とし、文字カテゴリを「母」カテゴリとする。係る場合、式（１）は、メインカテゴリＣ１に対応するメインクロスエントロピーから算出された誤差と、「母」カテゴリに対応する内部クロスエントロピーから算出された誤差とを足し合わせた総合的な誤差（ｔｏｔａｌｌｏｓｓ）を最小化するようにモデルＭ１のパラメータ（例えば、重み）を学習する学習処理を示すものとなる。

式（１）の左項であるメインクロスエントロピーについては図４で説明した通りであるため詳細な説明を省略し、式（１）の右項である内部クロスエントロピーに着目する。

「ｊ」は、処理対象の文字カテゴリ（係る例では、「母」カテゴリ）を示す。したがって、「Ｘ＿ｊ」は、処理対象の文字カテゴリ（係る例では、「母」カテゴリ）に属する文字の正解データ（正解ベクトル）を示す。

また、「Ｃ＿ｊ」は、処理対象の文字カテゴリ（係る例では、「母」カテゴリ）に属する文字の集合を示す。

「ｘ＿ｊ＿ｉ」は、処理対象の文字カテゴリ（係る例では、「母」カテゴリ）に属する全文字であって、学習データサンプルとして入力された全文字それぞれの文字情報（特徴ベクトル）を示す。図５の例では、「ｘ＿ｊ＿ｉ」は、「母１」によって示される字体の文字（漢字の「母」）から得られた特徴ベクトルである。また、「ｘ＿ｊ＿ｉ」は、「母２」によって示される字体の文字（漢字の「母」）から得られた特徴ベクトルである。また、「ｘ＿ｊ＿ｉ」は、「母３」によって示される字体の文字（漢字の「母」）から得られた特徴ベクトルである。

このような状態において、学習部１３３は、内部クロスエントロピーに基づく第２アルゴリズムによる学習を行う。具体的には、学習部１３３は、正解ベクトル（「Ｘ＿ｊ」）と、各特長ベクトル（「ｘ＿ｊ＿ｉ」）の合算により算出された指標値との誤差であるクロスエントロピー誤差（内部クロスエントロピー誤差）を最小化するようモデルＭ１に対応するパラメータを学習する。各特長ベクトルの合算により算出された指標値とは、「ｘ＿ｊ＿ｉ」が示す各特長ベクトル（図５の例の場合、３つの「母」の文字にそれぞれから得られた特徴ベクトル）を足し合わせることにより算出された指標値である。

そして、学習部１３３は、メインカテゴリＣ１に含まれる１つの「母」カテゴリだけを対象に、学習データとして与えられた各文字（図５の例の場合、３つの「母」の文字）が、正解データとして与えられた「母」の文字として認識される確率が高まるよう、確率分布の誤差（内部クロスエントロピー誤差）を最小化するように、モデルＭ１に対応するパラメータを学習する。

また、式（１）を用いた学習により、学習部１３３は、結果的に、メインクロスエントロピーから算出された誤差と、「母」カテゴリに対応するクロスエントロピーである内部クロスエントロピーから算出された誤差とを足し合わせた総合的な誤差（ｔｏｔａｌｌｏｓｓ）を最小化するように、モデルＭ１に対応するパラメータを学習することになる。

ここで、第２アルゴリズムによれば、文字カテゴリごとに、当該文字カテゴリに対応する特徴ベクトルに基づいて、損失関数の値を最小化するようモデルＭｎに関する所定のパラメータを学習するという処理は、「Ｘ＿ｊ」と「ｘ＿ｊ＿ｉ」との距離ｄ＿ｉを最小化するようパラメータを学習することに相当する。この点について、図１（図４および図５も同様）の例を用いて説明する。

例えば、第１アルゴリズムのみを用いる場合、「メインカテゴリＣ１」には、「田」カテゴリに属する文字、「母」カテゴリに属する文字、「丑」カテゴリに属する文字が混在している。このため、例えば、「田」カテゴリに属する文字と、「母」カテゴリに属する文字との距離、具体的には、異なる文字カテゴリに属する文字間での距離である距離ｄをより短くするように学習されてしまうことがある。この結果、本来、「田」カテゴリに属する文字であるにも拘らず、形状が似ていることによる他の文字カテゴリに属する類似文字と認識されてしまうといったことが起こり得る。

しかしながら、第２アルゴリズムによれば、文字カテゴリに分けたうえで、各文字カテゴリについて、学習データとして与えた文字と、正解データとし得与えられた文字との距離ｄ＿ｉを最小化しようと学習される。このため、第２アルゴリズムによれば、副次的に、形状が似ているが異なる文字カテゴリに属するといった類似文字どうしを離すように学習することができる。例えば、図１に示すように、第２アルゴリズムによれば、「田」カテゴリ、「母」カテゴリ、「丑」カテゴリといったように文字カテゴリに分けられたうえで、文字カテゴリごとに学習されるため、上段の例と比較して、下段の例では、副次的に、「田１」と「母３」との距離ｄがより離されることになる。

〔６．処理手順〕
次に、図６および図７を用いて、実施形態に係る学習プログラムによって動作する学習装置１００による情報処理の手順について説明する。図６では、実施形態に係る学習処理の手順について説明する。図７では、学習処理により学習されたモデルを用いた、クラス分類処理の手順について説明する。

〔６−１．処理手順（１）〕
まず、図６を用いて、実施形態に係る学習処理の手順について説明する。図６は、実施形態に係る学習処理手順を示すフローチャートである。

まず、データ受付部１３１は、文字カテゴリと、当該文字カテゴリに属する文字の画像データとの組合せである学習データの入力を利用者から受け付けたか否かを判定する（ステップＳ１０１）。データ受付部１３１は、組合せを受け付けていないと判定している間は（ステップＳ１０１；Ｎｏ）、組合せを受け付けたと判定できるまで待機する。

一方で、取得部１３２は、データ受付部１３１により組合せを受け付けたと判定された場合には（ステップＳ１０１；Ｙｅｓ）、受け付けられた学習データを解析することにより、係る学習データに画像として含まれる文字の特徴を示す特徴ベクトルを取得する（ステップＳ１０２）。

次に、学習部１３３は、処理対象の文字カテゴリ（データ受付部１３１により受け付けられた文字カテゴリ、すなわち利用者が指定した文字カテゴリ）に属する文字による学習データ群（クラスタ）に基づいて、処理対象の文字カテゴリについて損失関数を最小化するようにモデルＭｎのパラメータを学習する（ステップＳ１０３）。例えば、学習部１３３は、モデルＭｎ自体の学習を行う際に、モデルＭｎのパラメータを学習する。

〔６−２．処理手順（２）〕
次に、図７を用いて、実施形態に係るクラス分類処理の手順について説明する。図７は、実施形態に係るクラス分類処理手順を示すフローチャートである。

入力受付部１３４は、分類先が未知の文字を含む画像データの入力を利用者から受け付けたか否かを判定する（ステップＳ２０１）。入力受付部１３４は、分類先が未知の文字を含む画像データの入力を利用者から受け付けていないと判定している間は（ステップＳ２０１；Ｎｏ）、分類先が未知の文字を含む画像データの入力を受け付けたと判定できるまで待機する。

一方、分類部１３５は、入力受付部１３４により分類先が未知の文字を含む画像データの入力を利用者から受け付けたと判定された場合には（ステップＳ２０１；Ｙｅｓ）、係る画像データに画像として含まれる文字を抽出し、抽出した文字を分類先が未知の文字、すなわちクラス分類を行う処理対象の文字として認識する（ステップＳ２０２）。

次に、分類部１３５は、処理対象の文字がメインカテゴリＣｎのいずれに所属する文字であるかを推定し、処理対象の文字を推定先のメインカテゴリＣｎに所属させるクラスタリング処理を行う（ステップＳ２０３）。

また、分類部１３５は、所属先のメインカテゴリＣｎに対応するモデルＭｎを用いて、処理対象の文字について、候補の文字カテゴリのうちいずれの文字カテゴリに属するかを推定することによるクラス分類を行う（ステップＳ２０４）。例えば、分類部１３５は、所属先のメインカテゴリＣｎに対応するモデルＭｎに対して、処理対象の文字の画像部分を入力することにより、処理対象の文字が、候補の文字カテゴリそれぞれに属する文字であることの確率を得る。そして、分類部１３５は、取得した確率に基づいて、処理対象の文字（分類先が未知の文字）がどの文字カテゴリに属する文字であるかを推定する。

また、分類部１３５は、ステップＳ２０４での分類結果に関する情報を利用者に提示する（ステップＳ２０５）。例えば、分類部１３５は、確率に基づき推定した文字カテゴリ（分類先）を提示してもよいし、文字カテゴリごとに得られた確率を提示してもよい。

〔７．ハードウェア構成〕
また、上記実施形態に係る学習装置１００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、学習装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５０を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５０を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、係るプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る学習装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５０を介してこれらのプログラムを取得してもよい。

〔８．その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１００学習装置
１２０記憶部
１２１学習データ記憶部
１２２モデル情報記憶部
１３０制御部
１３１データ受付部
１３２取得部
１３３学習部
１３４入力受付部
１３５分類部

Claims

入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習プログラムであって、
前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得手順と、
前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習手順と
をコンピュータに実行させるための学習プログラム。
前記学習手順は、前記モデルを学習する際に、前記所定のパラメータを学習する
ことを特徴とする請求項１に記載の学習プログラム。
前記学習手順は、前記文字種別に属する文字に関する文字情報と、当該文字種別に属する文字であって正解データとして入力された文字に関する文字情報とに基づいて、前記損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項１または２に記載の学習プログラム。
前記学習手順は、前記文字種別に属する文字に関する文字情報を足し合わせることにより算出された指標値と、前記正解データとして入力された文字に関する文字情報とに基づいて、前記損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項３に記載の学習プログラム。
前記学習手順は、前記損失関数の値を最小化する処理として、前記指標値と、前記正解データとして入力された文字に関する文字情報とに基づいて、前記文字種別に属する文字が前記正解データとして入力された文字として認識される確率を高めるよう前記所定のパラメータを学習する
ことを特徴とする請求項４に記載の学習プログラム。
前記学習手順は、前記損失関数の値と、異なる前記文字種別にそれぞれに属する文字であって誤った文字種別として認識される傾向にある文字の集合に対応する所定のカテゴリを対象に得られた損失関数の値とに基づき算出された値であって、異なる前記文字種別間での総合的な損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項１〜５のいずれか１つに記載の学習プログラム。
前記学習手順は、前記損失関数の値と、異なる前記文字種別にそれぞれに属する文字であって誤った文字種別として認識される傾向にある文字の集合に対応する所定のカテゴリを対象に得られた損失関数の値とを足し合わせた、前記総合的な損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項６に記載の学習プログラム。
前記学習手順は、前記損失関数の値を最小化するよう、前記所定のパラメータとしてニューラルネットワークの重みまたはバイアスを学習する
ことを特徴とする請求項１〜７のいずれか１つに記載の学習プログラム。
前記取得手順は、前記文字に関する文字情報として、当該文字の特徴を示す特徴情報する
ことを特徴とする請求項１〜８のいずれか１つに記載の学習プログラム。
入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習装置であって、
前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得部と、
前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習部と
を有することを特徴とする学習装置。
入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルをコンピュータに学習させる学習方法であって、
前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得工程と、
前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習工程と
を含むことを特徴とする学習方法。