JP2019057087A - 文字認識方法及び文字認識システム - Google Patents

文字認識方法及び文字認識システム Download PDF

Info

Publication number
JP2019057087A
JP2019057087A JP2017180634A JP2017180634A JP2019057087A JP 2019057087 A JP2019057087 A JP 2019057087A JP 2017180634 A JP2017180634 A JP 2017180634A JP 2017180634 A JP2017180634 A JP 2017180634A JP 2019057087 A JP2019057087 A JP 2019057087A
Authority
JP
Japan
Prior art keywords
recognition
categories
learning
character
extended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017180634A
Other languages
English (en)
Inventor
一郎 松島
Ichiro Matsushima
一郎 松島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BAAZU JOHO KAGAKU KENKYUSHO KK
Original Assignee
BAAZU JOHO KAGAKU KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BAAZU JOHO KAGAKU KENKYUSHO KK filed Critical BAAZU JOHO KAGAKU KENKYUSHO KK
Priority to JP2017180634A priority Critical patent/JP2019057087A/ja
Publication of JP2019057087A publication Critical patent/JP2019057087A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】ディープラーニングアルゴリズムを用いた文字認識方法に関し、誤認識の可能性を確実に抑制して作業効率の大幅な向上を可能とする。【解決手段】ニューラルネットワークによるディープラーニングアルゴリズムを用いて、認識すべき文字として複数の認識対象カテゴリーを設定し、その認識対象カテゴリーに属する文字画像群を含む学習データを用いて第1の学習を行い、認識対象カテゴリーに対応する誤認識文字画像に基づき、認識結果からリジェクトすべき複数の拡張カテゴリーに属する文字画像群を含む拡張学習データを用いて第2の学習を行い、第1及び第2の学習により得られたパラメータを用いて入力文字画像を認識し、認識対象カテゴリーと拡張カテゴリーを含む複数のカテゴリーのいずれかを出力する。【選択図】図1

Description

本発明は、手書き文字等の入力文字画像を認識する文字認識方法及び文字認識システムに関するものである。
従来から、手書き文字等の入力文字画像に対する認識処理により文字(カテゴリー)を認識する文字認識方法が広く普及している。例えば、手書き文字等をスキャナー等で読み取って生成された文字画像データに対し、パターン照合による方法や特徴点抽出による方法を用いて、標準文字パターンとの間の類似度を判定する文字認識装置が知られている(例えば、特許文献1、2参照)。また、近年においては、ニューラルネットワークによるディープラーニングを適用した文字認識システムが提案されている。例えば、手書き数字のデータセットであるMNIST(Mixed National Institute of Standards and Technology database)などの大量の文字画像群を学習データとして学習させれば、従来の文字認識装置に比べても高い認識性能(例えば、単純認識率99.3%程度)を実現することができる。
特開平10−21325号公報 特開2007−156938号公報
一般に、文字認識の利用目的のうち、手書きで勤務時間を記載した勤務表などは給与計算等に関連するので、誤認識の可能性を極力低減することが望ましい。しかし、実際にはディープラーニングを適用した文字認識システムにより99.3%の単純認識率を確保できたとしても、0.7%程度の誤認識が発生することになる。これは、例えば前述の勤務表に300文字が記載されていた場合、平均で1〜3文字程度の誤認識が発生することを意味し、前述のような利用目的には十分とは言えない。例えば、記載項目の相関関係をチェックして誤認識を自動的に検出する処理も知られているが、全ての誤認識を自動的に検出することは困難である。そのため、文字認識システムで前述の勤務表を認識させた後、1〜3文字程度の誤認識を見つけるために人間が目視で確認する作業が不可欠となるので、文字認識システムを導入したとしても、必ずしも作業効率の向上にはつながらない問題がある。
本発明は上記の問題を解決するためになされたものであり、ニューラルネットワークによるディープラーニングアルゴリズムを適用した文字認識方法において、認識率を高めることに加えて、誤認識を生じやすい文字画像を認識結果から確実にリジェクト(除外)することで誤認識の可能性を抑制し、人間が目視で確認する作業を軽減して作業効率の大幅な向上を実現するものである。
上記課題を解決するために、本発明の文字認識方法は、ニューラルネットワークによるディープラーニングアルゴリズムを用いて、入力文字画像を認識する文字認識方法であって、次の第1の学習と第2の学習を行う。第1の学習は、認識すべき文字として複数の認識対象カテゴリーを設定し、前記複数の認識対象カテゴリーに属する文字画像群を含む学習データを用いて前記ディープラーニングアルゴリズムに基づいて行うものである。第2の学習は、前記複数の認識対象カテゴリーに対応する誤認識文字画像に基づき、前記複数の認識対象カテゴリーの各々の認識結果からリジェクトすべき複数の拡張カテゴリーを設定し、前記複数の拡張カテゴリーに属する文字画像群を含む拡張学習データを用いて前記ディープラーニングアルゴリズムに基づいて行うものである。そして、前記第1及び第2の学習により得られたパラメータを用いて前記入力文字画像を認識し、前記認識対象カテゴリーと前記拡張カテゴリーのそれぞれを含む複数のカテゴリーのうち、いずれかのカテゴリーを出力する。
本発明の文字認識方法によれば、認識すべき文字として設定される複数の認識対象カテゴリーに対応する学習データを学習する第1の学習と、認識カテゴリーの誤認識文字画像に基づく複数の拡張カテゴリーに対応する拡張学習データを学習する第2の学習とを行い、それらの学習で得られたパラメータを用いて入力文字画像を認識する。よって、認識対象カテゴリーについての認識率(リジェクト分を除いた認識率)を高めるとともに、一般的に誤認識を生じやすい入力文字画像の類型を拡張カテゴリーとして認識させて取り扱うことで、誤認識を生じる可能性を十分に抑制することができる。その結果、文字認識に際し、ある程度の誤認識の発生を想定して人間が目視で確認する作業を軽減でき、作業効率の大幅な向上が可能となる。
本発明において、入力文字画像の認識に際し、複数の拡張カテゴリーのいずれかが出力された場合、認識結果からリジェクトすべきリジェクト判定として取り扱うことができる。よって、リジェクト判定された入力文字画像を認識結果から容易にリジェクト(除外)でき、誤認識の可能性をゼロに近づけることが可能となる。
本発明において、入力文字画像の認識に際し、複数のカテゴリーの各々に対して認識度合に応じた認識スコアを計算して付与し、そのうち最も高い認識スコアと2番目に高い認識スコアとのスコア差を算出し、前記スコア差が所定の閾値に満たない場合、リジェクト判定として取り扱うようにできる。このように拡張カテゴリーの出力とスコア差の算出とを組み合わせてリジェクト判定を行うことで、高精度で利便性が高い文字認識を実現することができる。
本発明において、第1及び第2の学習を所定回数だけ繰り返し実行し、最終的に得られたパラメータを用いて入力文字画像を認識することができる。このような認識対象カテゴリーと拡張カテゴリーに対応する学習を繰り返すことで、ディープラーニングアルゴリズムにおけるパラメータの精度を確実に高めることができる。すなわち、認識対象カテゴリーと拡張カテゴリーに対する文字の特徴を学習していく。
本発明の文字認識方法は、多様な用途に適用することができる。一例として、複数の認識対象カテゴリーとして0〜9までの10個の数字を認識する用途に適用可能である。この場合、複数の拡張カテゴリーとしては、0〜9の数字の各々に対応する誤認識文字画像に基づく10個のカテゴリーを設定すればよい。
また、上記課題を解決するために、本発明の文字認識システムは、前述の第1の学習及び第2の学習を行う学習手段と、前述の入力文字画像の認識によりいずれかのカテゴリーを出力する認識手段とを備えて構成される。この場合、文字認識システムの認識手段による前述のリジェクト判定や、前述の認識スコア及びスコア差を用いた判定については、文字認識方法に関して説明した通りである。
本発明によれば、ニューラルネットワークによるディープラーニングアルゴリズムにより、認識すべき文字としての認識対象カテゴリーに関わる第1の学習と、認識結果からリジェクト(除外)すべき拡張カテゴリーに関わる第2の学習とを行った後に、入力文字画像の認識を行うようにしたので、従来の認識方法では誤認識となるような入力文字画像の多くを確実にリジェクトすることができる。よって、入力文字画像に対する高い認識率(リジェクト分を除いた認識率)が得られるだけでなく、誤認識率をほぼゼロにすることができるので、文字認識後に全部の文字を目視で確認する作業は必要なく、リジェクト分の文字のみを目視すればよくなるので、人手を要する工数を大幅に削減して作業効率を格段に高めることが可能となる。
本実施形態の文字認識システムの概略の構成を示す図である。 本実施形態の文字認識システムのうち、学習部20とテスト認識部30の詳細な構成を示す図である。 本実施形態の文字認識システムのうち、認識部40の詳細な構成を示す図である。 MNISTによる手書き数字の文字画像群の例を示す図である。 拡張カテゴリー10〜19が付与された文字画像の具体例を示す図である。 本実施形態におけるディープラーニングアルゴリズムをモデル化して表したディープラーニングモデルの例を示す図である。 認識出力処理部46(図3)において行われる分析及び判定処理の具体例を示すフローチャートである。 実施例1において、誤認識文字画像に対応するスコア分布を示す図である。 図8との対比のため、第1の学習のみ行って第2の学習を行なわない場合における誤認識文字画像のスコア分布を示す図である。
以下、本発明の好適な実施形態について、図面を参照しながら説明する。ただし、以下に述べる実施形態は本発明の技術思想を適用した形態の一例であって、本発明が本実施形態の内容により限定されることはない。
以下、本発明を適用した一実施形態としての文字認識システムの構成について説明する。図1は、本実施形態の文字認識システムの概略の構成を示す図であり、図2及び図3は、図1の文字認識システムにおける構成要素の詳細な構成を示す図である。本実施形態の文字認識システムの全体は、後述の学習データを用いてディープラーニングアルゴリズムに基づく学習を行って生成されたパラメータを出力する学習部20と、後述のテストデータに対するテスト認識処理及び学習部20への拡張学習データのフィードバックを行うテスト認識部30と、文字認識システムに入力された文字画像(以下、「入力文字画像」という)を認識対象データとし、その認識処理により後述の認識結果等の情報を出力する認識部40とを備えている。
本実施形態の文字認識システムは、多様な文字認識に応用可能であるが、以下の説明では、10個の数字0〜9を認識する応用例について説明する。この場合、認識すべき対象として10個の認識対象カテゴリー0、1、2、3、4、5、6、7、8、9を定義する。そして、本実施形態では、認識対象カテゴリーを拡張し、各々の数字0〜9を誤認識した際の文字画像(以下、「誤認識文字画像」という)に基づき、認識結果からリジェクト(除外)すべき10個の拡張カテゴリー10、11、12、13、14、15、16、17、18、19を定義する。例えば、拡張カテゴリー10は、正解値10を有するが認識値が異なる数字となった誤認識文字画像に基づき、学習部20における学習によって生成される仮想的なカテゴリー(認識対象カテゴリー0に対応)を表す。他の拡張カテゴリー11〜19も同様に解釈されるが、拡張カテゴリー10〜19の詳細については後述する。このように、本実施形態では、10個の認識対象カテゴリー0〜9と10個の拡張カテゴリー10〜19とを併せ、全部で20個のカテゴリーが存在することになる。
図2に示す学習部20においては、認識対象カテゴリー0〜9の学習(本発明の第1の学習)に用いる文字画像群からなる学習データ21と、拡張カテゴリー10〜19の学習(本発明の第2の学習)に用いる文字画像群からなる拡張学習データ22と、学習データ21及び拡張学習データ22を用いてディープラーニングアルゴリズムに基づく学習処理を実行する学習ディープラーニング部23と、学習ディープラーニング部23の学習処理により生成される後述のパラメータ24が示されている。
また、図2に示すテスト認識部30においては、学習部20で生成されたパラメータ24と同一のパラメータ31と、外部から入力されるテスト用の文字画像群であるテストデータ32と、パラメータ31及びテストデータ32を用いてディープラーニングアルゴリズムに基づくテスト認識処理を実行するテスト認識ディープラーニング部33と、テスト認識ディープラーニング部33の認識処理により得られる認識スコア等を含むテスト認識結果データ34と、テスト認識結果データ34の内容に応じて入力文字画像を振り分ける振り分け処理部35と、振り分け処理部35により振り分けられた正常認識出力36及び誤認識出力37が示されている。
また、図3に示す認識部40においては、学習部20で生成されたパラメータ24と同一のパラメータ41と、外部から入力される認識対象の文字画像群である認識対象データ42と、パラメータ41及び認識対象データ42を用いてディープラーニングアルゴリズムに基づく認識処理を実行する認識ディープラーニング部43と、認識ディープラーニング部43の認識処理により得られる認識スコアデータ44と、予め設定された閾値45と、認識スコアデータ44の内容と閾値45とに基づき入力文字画像に対する認識スコアの分析やリジェクト判定処理を行う認識出力処理部46と、認識出力処理部46の処理に応じて振り分けられた認識対象出力47及びリジェクト判定出力48が示されている。
次に、図2及び図3に示す文字認識システムにおいて実行される具体的な処理について説明する。最初に、ディープラーニングアルゴリズムで用いるパラメータ24、31、41を決定するために、学習部20において学習処理を実行する必要がある。その際、認識対象カテゴリー0〜9に対応する学習データ21については、予め用意された手書き文字による文字画像群を用いることができる。例えば、手書きによる10個の数字0〜9のデータセットであるMNIST(Mixed National Institute of Standards and Technology database)を学習データ21として用いることができる。
図4は、前述のMNISTによる手書き数字の文字画像群の例を示している。通常、MNISTに含まれる個々の文字画像データは、28×28のグレー画像として扱われ、それぞれの文字画像に対して正解値(0〜9のいずれか)が設定されている。文字画像に設定された正解値は、学習データ21に付与される認識対象カテゴリー0〜9に一致する。なお、MNISTには全部で7万個の文字画像が含まれるが、学習部20における学習処理の状況に応じて必要な個数だけを用いることができる。
一方、最初の時点で、拡張カテゴリー10〜19に対応する拡張学習データ22が存在しないことを想定し、まず、認識対象カテゴリー0〜9に対応する学習データ21のみを用いて学習ディープラーニング部23による学習(第1の学習)を実行し、その結果としてパラメータ24を生成する。
次に、図2のテスト認識部30において、学習部20で生成されたパラメータ24と同一のパラメータ31を設定し、予め準備されるテストデータ32を用いてテスト認識ディープラーニング部33によるテスト認識処理を行う。その結果、各文字画像の認識スコアを含むテスト認識結果データ34が生成され、振り分け処理部35を介して、認識値と正解値が一致する正常認識出力36と、認識値と正解値が不一致の誤認識出力37に振り分けられる。そして、誤認識出力37に含まれる誤認識文字画像群は、誤認識の結果に応じた拡張カテゴリー10〜19が付与され、学習部20の拡張学習データ22としてフィードバックされる。
ここで、図5は、拡張カテゴリー10〜19が付与された文字画像の具体例を示している。例えば、拡張カテゴリー10は、本来の正解値が0である文字画像に関し、前述のテスト認識部30における認識値が正解値と一致しない3つの誤認識文字画像(図5では、正解値0に対しそれぞれ認識値8、7、6)が例示されている。他の拡張カテゴリー11〜19の文字画像についても、同様の解釈が可能である。一般に、文字を誤認識する際の類型には一定の傾向が見られ、例えば、拡張カテゴリー13からは数字3が数字5と誤認識されやすく、拡張カテゴリー14からは数字4が数字9と誤認識されやすい傾向がわかる。
そして、拡張カテゴリー10〜19が付与された拡張学習データ22と元の学習データ21とを用いて学習ディープラーニング部23による学習(第2の学習)を実行し、その結果として前述のパラメータ24を更新する。また、第1及び第2の学習は、所定回数だけ繰り返し実行することにより、パラメータ24の更新を繰り返し行って精度を高めるようにしてもよい。
次に、図3の認識部40において、学習部20で最終的に更新されたパラメータ24と同一のパラメータ41を設定し、実際に認識すべき文字画像群からなる認識対象データ42を用いて認識ディープラーニング部43による認識処理を実行する。認識ディープラーニング部43の認識処理は、前述の学習部20の学習ディープラーニング部23及びテスト認識部30のテスト認識ディープラーニング部33と共通のディープラーニングアルゴリズムに従って実行される。ここで、図6を参照して、本実施形態の学習部20、テスト認識部30、認識部40おいて共通のディープラーニングアルゴリズムをモデル化して表したディープラーニングモデルについて説明する。
図6に示すディープラーニングモデルの例は、多層に接続された畳み込みニューラルネットワークにより構成される。図6においては、入力データと、8つのパラメータPと、6つの畳み込み層Cと、7つの活性化関数層Fと、3つのプーリング層Poと、2つの全結合層Aと、2つのドロップアウト層Dと、出力データとが示される。これらの構成要素の各々に対し括弧内に番号を付すことで区別して表すものとする。
まず、入力データが初段の畳み込み層C(1)に入力される。この入力データは、学習部20では学習データ21と拡張学習データ22であり、テスト認識部30ではテストデータ32であり、認識部40では認識対象データ42である。畳み込み層C(1)では、入力データの各々の文字画像に対し、パラメータP(1)を用いた畳み込み演算を行う。パラメータ(1)には、例えば、入力文字画像から得られた複数のニューロンの数値にそれぞれ乗じる複数の重みが含まれる。他のパラメータP(2)〜P(7)と畳み込み層C(2)〜C(6)についても上記と同様の機能を有する。
活性化関数層F(1)は、畳み込み層C(1)の演算結果に対して所定の関数に基づく変換を施す。例えば、活性化関数層F(1)としては、ReLU(Reflected Linear Unit)関数が用いられる。ReLU関数は、入力が0を超えていれば、その入力をそのまま出力し、入力が0以下ならば0を出力する関数である。他の活性化関数F(2)〜(7)についても上記と同様の機能を有する。
また、プーリング層Po(1)〜Po(3)は、縦及び横方向の空間を小さくする演算を行う。全結合層A(1)、A(2)は、隣接する層の全てのニューロンを連結して出力を生成する。ドロップアウト層D(1)、D(2)は、学習に際してランダムに選択されたニューロンの一定割合を消去する。
図6に示すディープラーニングモデルに示される各層の構成は例示であって、実際にはニューラルネットワークで適用可能な多様な構成要素を用いて多様な連結で構成することができる。また、図6では、全部で8層のディープラーニングモデルを示しているが、より多層のディープラーニングモデルを構成することができる。
図3に戻って、認識ディープラーニング部43による認識処理の結果、認識対象データ42の各々の文字画像に対し、認識対象カテゴリー0〜9及び拡張カテゴリー10〜19の認識度合に応じた認識スコアが付与される。すなわち、認識対象データ42に含まれる文字画像に付与される複数の認識スコアからなる認識スコアデータ44が生成される。続いて、認識出力処理部46では、予め設定された閾値45に基づき、生成された認識スコアデータ44を分析し、その結果を、認識対象の文字として判定された認識対象出力47と、認識結果からリジェクトすべきと判定されたリジェクト判定出力48とに振り分けて出力する。
ここで、図7のフローチャートを用いて、認識出力処理部46において行われる分析及び判定処理の具体例を説明する。図7においては、特定の文字画像に対し、認識スコアデータ44として生成される認識スコアとして、認識対象カテゴリー0〜9に対応する認識スコアの値(以下、「スコア値」という)と、拡張カテゴリー10〜19に対応するスコア値とを含む計20種のスコア値を想定する。各々のスコア値は、対応するカテゴリーとの認識度合が高く判定されるほど大きな値をとる。
まず、図7において、前述の20種のスコア値のうちの最も高いスコア値を抽出し、それに対応するカテゴリーCを判定する(ステップS1)。次いで、ステップS1で判定したカテゴリーCが認識対象カテゴリー0〜9に該当するか否かを判定する(ステップS2)。ステップS2において、カテゴリーCが認識対象カテゴリー0〜9に該当すると判定された場合は(ステップS2:YES)、前述の最も高いスコア値と2番目に高いスコア値とのスコア差Dを算出する(ステップS3)。そして、ステップS3で算出したスコア差Dを閾値T(図2の閾値45)と比較し、D>Tを満たすか否かを判定する(ステップS4)。ステップS4において、D>Tを満たすと判定された場合(ステップS4:YES)、認識対象として判定されたカテゴリーCが認識対象出力47に出力される(ステップS5)。
これに対し、ステップS2の判定の結果、カテゴリーCが認識対象カテゴリー0〜9に該当せずに、拡張カテゴリー10〜19に該当すると判定された場合は(ステップS2:NO)、そのカテゴリーCがリジェクト判定出力48に出力される(ステップS6)。同様に、ステップS4の判定の結果、D>Tを満たさないと判定された場合は(ステップS4:NO)、最も高いスコア値のカテゴリーCを、対応する拡張カテゴリーに読み替えてリジェクト判定出力48に出力される(ステップS6)。すなわち、判定されたカテゴリーCが認識対象カテゴリー0〜9に該当し、かつスコア差Dが閾値Tより大きい場合のみ認識対象出力47となり、それ以外のケースはリジェクト判定出力48となる。
換言すれば、リジェクト判定出力48として出力されるケースは、判定されたカテゴリーCが拡張カテゴリー10〜19に該当するケースか、あるいは認識対象カテゴリー0〜9に該当したとしても1番目と2番目のスコア差Dが小さいケースのいずれかである。認識部40に入力された文字画像が拡張カテゴリー10〜19のいずれかと判定され、結果的にリジェクト判定出力48とされた場合、認識結果から除外されることになるので誤認識の可能性は確実に抑制されることになる。
本実施形態において、図1〜図7を用いて説明した文字認識システムは一例であって、本発明を適用可能な文字認識システムは多様な変形が可能である。例えば、本実施形態では、数字を認識する応用例として、10個の認識対象カテゴリー0〜10と10個の拡張カテゴリー11〜19を設定する場合を説明したが、本発明は、より多様な文字群に対し、複数の認識対象カテゴリーと複数の拡張カテゴリーを設定して適用可能であり、例えば、アルファベットや特殊記号などの文字群を想定することができる。なお、本実施形態では、認識対象カテゴリーの個数Mと拡張カテゴリーの個数NとがM=Nとなる場合を説明したが、認識対象文字の種別や誤認識の類型に応じて、M=Nには限らず、M及びNをそれぞれ所望の個数に設定することができる。
また、図7の処理では、認識対象文字や要求される認識性能に応じて、スコア差Dに関連するステップS3、S4を省略し、単純にステップS1、S2、S5、S6のみからなる処理を採用してもよい。例えば、拡張カテゴリー10〜19と判定された場合のみをリジェクトしても、十分に高い認識率を得られ、かつ誤認識をほほゼロにできるなら処理を簡潔化することができる。なお、ステップS4における閾値Tは、それぞれのスコア値の傾向に応じて適切な値を設定することができる。
また、本実施形態の文字認識システムは図2のテスト認識部30を備えているが、学習データ21に加えて、予め拡張学習データ22を用意できれば、テスト認識部30を設けなくてもよい。すなわち、誤認識文字画像の多様な類型を事前に収集しておけば、それに拡張カテゴリー10〜19を付与して拡張学習データ22を準備することができる。この場合、学習部20と認識部40とにより、文字認識システムを構成可能となる。
以上説明したように、本実施形態の文字認識システム(文字認識方法)によれば、学習部20において、認識対象カテゴリーに関わる第1の学習に加えて、誤認識文字画像の類型として位置付けられる拡張カテゴリーに関わる第2の学習を行い、第1及び第2の学習を反映したパラメータを用いて入力文字画像の認識を行うようにした。これにより、入力文字画像の認識率(リジェクト分を除いた認識率)を高めるだけではなく、従来の文字認識では誤認識となっていた文字画像を拡張カテゴリーに対応付けてリジェクトすることができるので、誤認識率を格段に低減することができる。従来の文字認識装置では、ある程度の誤認識率が想定される以上、全ての文字を人間が目視で確認する作業を重複して行う必要があったが、本実施形態の文字認識システムでは、リジェクトされた文字についてのみ目視で確認を行えばよいため、作業効率が大幅に向上する。また、認識結果として、認識対象カテゴリーと拡張カテゴリーの判定に加えて認識スコアに基づく判定を加味することで、きめ細かい認識を実現して認識性能のさらなる向上が可能となる。
以下、本実施形態の文字認識システムにおいて、図2に示す学習部20、テスト認識部30、認識部40に関し、実際の文字画像群を用いた具体的な評価結果についての2つの実施例を説明する。
[実施例1]
まず、MNISTの6万文字の手書き数字からなる学習データ21を用意し、図2の学習部20にて学習を行ってパラメータ24(1)を生成した。続いて、MNISTの6万文字からなるテストデータ32(テストデータは学習データと同一)を用意し、テスト認識部30にてパラメータ24(1)と同一のパラメータ31(1)を用いてテスト認識を行い、誤認識出力37として163文字の誤認識文字画像を抽出した。続いて、拡張カテゴリー10〜19を付与した62文字の誤認識文字画像を学習部20にフィードバックし、それらの誤認識文字画像を拡張学習データ22として学習データ21とともに学習を行い、更新されたパラメータ24(2)を生成した。なお、パラメータ24、31、41の各々に付した括弧内の数字により時系列の生成順を表すものとする。
次に、パラメータ24(2)と同一のパラメータ31(2)を用いて、テスト認識部30にてテストデータ32のテスト認識(2回目)を行い、誤認識出力37として249文字の誤認識文字画像を抽出した。続いて、拡張カテゴリー10〜19を付与した249文字の誤認識文字画像を学習部20に再びフィードバックし、前回の163文字と今回の249文字を併せた412文字の誤認識文字画像からなる拡張学習データ22を学習データ21とともに学習し、更新されたパラメータ24(3)を生成した。そして、パラメータ24(3)と同一のパラメータ31(3)を用いて、テスト認識部30にてテストデータ32のテスト認識(3回目)を行い、誤認識出力37として193文字の誤認識文字画像を抽出した。続いて、拡張カテゴリー10〜19を付与した193文字の誤認識文字画像を学習部20に再びフィードバックし、1〜3回目の163文字、249文字、193文字を併せた605文字の誤認識文字画像からなる拡張学習データ22を学習データ21とともに学習し、更新されたパラメータ24(4)を生成した。
さらに、パラメータ24(4)と同一のパラメータ31(4)を用いて、テスト認識部30にてテストデータ32のテスト認識(4回目)を行い、誤認識出力37として154文字の誤認識文字画像を抽出した。続いて、拡張カテゴリー10〜19を付与した154文字の誤認識文字画像を学習部20に再びフィードバックし、1〜4回目の163文字、249文字、193文字、154文字を併せた759文字の誤認識文字画像からなる拡張学習データ22を学習データ21とともに学習し、更新されたパラメータ24(5)を生成した。以上のプロセスでは、複数の誤認識文字画像をフィードバックする学習を4回繰り返して実行したことになる。
次に、認識部40において、前述のパラメータ24(5)と同一のパラメータ41(5)を用いて、MNISTの1万文字の手書き数字を認識対象データ42として認識処理を実行した。このとき、認識出力処理部46では、閾値T=3.0と設定した。その結果、1万文字のうち、認識対象出力47が9643文字となり、リジェクト判定出力48が357文字となった。認識対象出力47の9643文字を評価した結果、9635文字は正解値と認識値が一致し、8文字が正解値と認識値が一致しなかった。また、全体の1万文字に対する認識率は、96.35%となり、リジェクト判定出力48を除く認識率は、99.92%となった。
ここで、図8には、実施例1における誤認識文字画像に対応するスコア分布を示した。また、図8との対比のため、図9には、第1の学習のみ行って第2の学習を行なわない場合における誤認識文字画像のスコア分布を示した。すなわち、図9のスコア分布は、最初の時点での認識対象カテゴリー0〜9に対応する学習データ21のみを用いて学習ディープラーニング部23による学習(第1の学習)を実行し、その結果として得たパラメータ24を用いて文字認識を行ったものである。図8では、74文字の誤認識文字画像に番号1〜74(横軸)を付し、図9では、62文字の誤認識文字画像に番号1〜62(横軸)を付し、それぞれに対応する1番高いスコア値(縦軸)及び1番目と2番目のスコア値のスコア差D(縦軸)をプロットした
まず、図8においては、74文字の誤認識文字画像のうち、閾値Tが3.0を超えるものが8文字だけ確認された。一方、図9においては、図8と比べて誤認識文字画像が12文字少ない62文字であったが、スコア差Dのバラツキがかなり大きく、閾値Tが3.0を超えるものが22文字確認された。例えば、図9において、図8と同様に閾値3.0を超える文字数が8文字となるようにする場合、閾値Tを8.75程度に引き上げる必要がある。図9の破線にて閾値T=8.75を示したが、この場合にはリジェクト判定となる文字画像が大きく増加することは避けられない。以上のことから、誤認識文字画像のスコア差Dを縮めることに第2の学習による効果が働いているのが理解できる。
なお、前述したように認識対象出力47のうち正解値と認識値が一致しなかった8文字分の誤認識文字画像に関しては、実施例1の冒頭で述べたのと同様に、第2の学習を更に5回繰り返すことにより、誤認識文字画像をゼロにすることができた。すなわち、閾値T=3.0として、1万文字のうち、認識対象出力47が9504文字となり、リジェクト判定出力48が496文字となり、認識対象出力47の9504文字を評価した結果、すべて正解値と認識値が一致した。全体の1万文字に対する認識率は、95.04%、リジェクト判定出力48を除く認識率は、100.00%となった。
[実施例2]
以下の実施例2では、前述のMNISTに代え、発明者らが従来の文字認識装置を用いて蓄積した手書き数字の各種文字画像群を用いた。まず、6万文字の手書き数字からなる学習データ21を用意し、図2の学習部20にて学習を行ってパラメータ24(1)を生成した。そして、比較的きれいな2万文字の第1の手書き数字群からなるテストデータ32を用意し、テスト認識部30にてパラメータ24(1)と同一のパラメータ31(1)を用いてテスト認識を行い、誤認識出力37として48文字の誤認識文字画像を抽出した。また、標準的な20万文字の第2の手書き数字群からなるテストデータ32を用意し、テスト認識部30にて前述のパラメータ31(1)を用いてテスト認識を行い、誤認識出力37として836文字の誤認識文字画像を抽出した。
次に、抽出した48文字と836文字とを併せた884文字の誤認識文字画像に拡張カテゴリー10〜19を付与して学習部20にフィードバックし、それを拡張学習データ22として学習データ21とともに学習し、更新されたパラメータ24(2)を生成した。そして、パラメータ24(2)と同一のパラメータ31(2)を用いて、テスト認識部30にて前述の第1の手書き数字群をテストデータ32としてテスト認識を行い、誤認識出力37として43文字の誤認識文字画像を抽出した。同様に、テスト認識部30にて前述の第2の手書き数字群をテストデータ32としてテスト認識を行い、誤認識出力37として637文字の誤認識文字画像を抽出した。
次に、抽出した43文字と637文字とを併せた680文字の誤認識文字画像に拡張カテゴリー10〜19を付与して学習部20にフィードバックし、前述の884文字と今回の680文字を併せた1564文字の誤認識文字画像を拡張学習データ22として学習データ21とともに学習し、更新されたパラメータ24(3)を生成した。そして、従来の文字認識装置で誤認識となった間違えやすい3万文字の第3の手書き数字群からなるテストデータ32を用意し、テスト認識部30にて前述のパラメータ24(3)と同一のパラメータ31(3)を用いてテスト認識を行い、誤認識出力37として566文字の誤認識文字画像を抽出した。
次に、抽出した566文字の誤認識文字画像に拡張カテゴリー10〜19を付与して学習部20にフィードバックし、前述の1564文字と今回の566文字を併せた2130文字の誤認識文字画像を拡張学習データ22として学習データ21とともに学習し、更新されたパラメータ24(4)を生成した。
次に、認識部40において、パラメータ24(4)と同一のパラメータ41(4)を用いて、実際の勤怠データの21129個の手書き数字群を認識対象データ42として認識処理を実行した。このとき、実施例1と同様、閾値T=3.0に設定した。その結果、21129個の手書き数字群については、認識対象出力47が19395文字、リジェクト判定出力48が1734文字となった。認識対象出力47の19395文字を評価した結果、19391文字は正解値と認識値が一致し、4文字が正解値と認識値が一致しなかった。全体の認識率が91.77%、リジェクト判定出力48を除く認識率は、99.98%となった。なお、前述の4文字の誤認識文字画像については、第2の学習が不足しているものと考えられ、実施例1と同様に、更に第2の学習を数回繰り返すことにより正解値と認識値を一致させて誤認識をゼロにすることができる。
以上、本実施形態に基づき本発明の内容を具体的に説明したが、本発明は上述の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で多様な変更を施すことができる。例えば、本実施形態の文字認識システムは、ネットワークを介して相互に接続された複数の機器等で構成することもできるが、例えば、文字認識方法に関わるソフトウェアを搭載した1台のコンピュータを用いて構成してもよい。また、その他の点についても上記実施形態により本発明の内容が限定されるものではなく、本発明の作用効果を得られる限り、上記実施形態に開示した内容には限定されることなく適宜に変更可能である。
20…学習部
21…学習データ
22…拡張学習データ
23…学習ディープラーニング部
24、31、41…パラメータ
30…テスト認識部
32…テストデータ
33…テスト認識ディープラーニング部
34…テスト認識結果データ
35…振り分け処理部
36…正常認識出力
37…誤認識出力
40…認識部
42…認識対象データ
43…認識ディープラーニング部
44…認識スコアデータ
45…閾値
46…認識出力処理部
47…認識対象出力
48…リジェクト判定出力

Claims (8)

  1. ニューラルネットワークによるディープラーニングアルゴリズムを用いて、入力文字画像を認識する文字認識方法であって、
    認識すべき文字として複数の認識対象カテゴリーを設定し、前記複数の認識対象カテゴリーに属する文字画像群を含む学習データを用いて前記ディープラーニングアルゴリズムに基づく第1の学習を行い、
    前記複数の認識対象カテゴリーに対応する誤認識文字画像に基づき、前記複数の認識対象カテゴリーの各々の認識結果からリジェクトすべき複数の拡張カテゴリーを設定し、前記複数の拡張カテゴリーに属する文字画像群を含む拡張学習データを用いて前記ディープラーニングアルゴリズムに基づく第2の学習を行い、
    前記第1及び第2の学習により得られたパラメータを用いて前記入力文字画像を認識し、前記認識対象カテゴリーと前記拡張カテゴリーのそれぞれを含む複数のカテゴリーのうち、いずれかのカテゴリーを出力することを特徴とする文字認識方法。
  2. 前記入力文字画像の認識に際し、前記複数の拡張カテゴリーのいずれかが出力された場合、前記認識結果からリジェクトすべきリジェクト判定として取り扱うことを特徴とする請求項1に記載の文字認識方法。
  3. 前記入力文字画像の認識に際し、前記複数のカテゴリーの各々に対して認識度合に応じた認識スコアを付与し、最も高い認識スコアと2番目に高い認識スコアとのスコア差を算出し、前記スコア差が所定の閾値に満たない場合、前記リジェクト判定として取り扱うことを特徴とする請求項2に記載に記載の文字認識方法。
  4. 前記第1及び第2の学習を所定回数だけ繰り返し実行し、最終的に得られた前記パラメータを用いて前記入力文字画像を認識することを特徴とする請求項1に記載の文字認識方法。
  5. 前記複数の認識対象カテゴリーは、0〜9までの10個の数字であり、前記複数の拡張カテゴリーは、前記0〜9の数字の各々に対応する誤認識文字画像に基づく10個のカテゴリーであることを特徴とする請求項1に記載の文字認識方法。
  6. ニューラルネットワークによるディープラーニングアルゴリズムを用いて、入力文字画像を認識する文字認識システムであって、
    認識すべき文字として複数の認識対象カテゴリーを設定し、前記複数の認識対象カテゴリーに属する文字画像群を含む学習データを用いて前記ディープラーニングアルゴリズムに基づく第1の学習を行うとともに、前記複数の認識対象カテゴリーに対応する誤認識文字画像に基づき、前記複数の認識対象カテゴリーの各々の認識結果からリジェクトすべき複数の拡張カテゴリーを設定し、前記複数の拡張カテゴリーに属する文字画像群を含む拡張学習データを用いて前記ディープラーニングアルゴリズムに基づく第2の学習を行う学習手段と、
    前記第1及び第2の学習により得られたパラメータを用いて前記入力文字画像を認識し、前記認識対象カテゴリーと前記拡張カテゴリーのそれぞれを含む複数のカテゴリーのうち、いずれかのカテゴリーを出力する認識手段と、
    を備えることを特徴とする文字認識システム。
  7. 前記認識手段は、前記複数の拡張カテゴリーのいずれかが出力された場合、前記認識結果からリジェクトすべきリジェクト判定として取り扱うことを特徴とする請求項6に記載の文字認識システム。
  8. 前記認識手段は、前記複数のカテゴリーの各々に対して認識度合に応じた認識スコアを付与し、最も高い認識スコアと2番目に高い認識スコアとのスコア差を算出し、前記スコア差が所定の閾値に満たない場合、前記リジェクト判定として取り扱うことを特徴とする請求項7に記載の文字認識システム。
JP2017180634A 2017-09-20 2017-09-20 文字認識方法及び文字認識システム Pending JP2019057087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017180634A JP2019057087A (ja) 2017-09-20 2017-09-20 文字認識方法及び文字認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017180634A JP2019057087A (ja) 2017-09-20 2017-09-20 文字認識方法及び文字認識システム

Publications (1)

Publication Number Publication Date
JP2019057087A true JP2019057087A (ja) 2019-04-11

Family

ID=66107525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017180634A Pending JP2019057087A (ja) 2017-09-20 2017-09-20 文字認識方法及び文字認識システム

Country Status (1)

Country Link
JP (1) JP2019057087A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084327A (zh) * 2019-04-30 2019-08-02 福州大学 基于视角自适应深度网络的票据手写数字识别方法及系统
CN110781892A (zh) * 2019-09-12 2020-02-11 河海大学 一种基于深度学习的银行卡号识别方法
WO2023273516A1 (zh) * 2021-06-28 2023-01-05 上海商汤智能科技有限公司 字符识别及神经网络训练方法和装置、神经网络、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084327A (zh) * 2019-04-30 2019-08-02 福州大学 基于视角自适应深度网络的票据手写数字识别方法及系统
CN110084327B (zh) * 2019-04-30 2023-04-07 福州大学 基于视角自适应深度网络的票据手写数字识别方法及系统
CN110781892A (zh) * 2019-09-12 2020-02-11 河海大学 一种基于深度学习的银行卡号识别方法
WO2023273516A1 (zh) * 2021-06-28 2023-01-05 上海商汤智能科技有限公司 字符识别及神经网络训练方法和装置、神经网络、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111915437B (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
US8379982B2 (en) System and method for fast biometric pattern matching
CN110598800A (zh) 一种基于人工智能的垃圾分类识别方法
CN110096977B (zh) 笔迹鉴定模型的训练方法及笔迹鉴定方法、设备和介质
JP2019057087A (ja) 文字認識方法及び文字認識システム
Divya et al. Facial expression recognition by calculating euclidian distance for eigen faces using PCA
Rateria et al. Off-line signature verification through machine learning
Anikin et al. Handwritten signature recognition method based on fuzzy logic
JP2018106618A (ja) 画像データ分類装置、オブジェクト検出装置及びこれらのプログラム
CN109886206B (zh) 一种三维物体识别方法及设备
Zhang et al. Neuron activation frequency based test case prioritization
CN113743443B (zh) 一种图像证据分类和识别方法及装置
Hnoohom et al. Thai handwritten verification system on documents for the investigation
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
JPWO2005069221A1 (ja) パターン識別システム、パターン識別方法、及びパターン識別プログラム
JP4875433B2 (ja) 信号識別装置の学習方法
George et al. Leaf recognition using multi-layer perceptron
JP3095069B2 (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
Oladele et al. Forged Signature Detection Using Artificial Neural Network
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
JPH08115387A (ja) パターン認識装置
JP2778194B2 (ja) パターン認識方法および装置
Khotanzad et al. Hand written digit recognition using BKS combination of neural network classifiers
CN111460880A (zh) 多模生物特征融合方法和系统
JP2020091813A (ja) ニューラルネットワークの学習方法、コンピュータプログラム及びコンピュータ装置