JP2021179926A - 学習プログラム、学習装置および学習方法 - Google Patents
学習プログラム、学習装置および学習方法 Download PDFInfo
- Publication number
- JP2021179926A JP2021179926A JP2020086276A JP2020086276A JP2021179926A JP 2021179926 A JP2021179926 A JP 2021179926A JP 2020086276 A JP2020086276 A JP 2020086276A JP 2020086276 A JP2020086276 A JP 2020086276A JP 2021179926 A JP2021179926 A JP 2021179926A
- Authority
- JP
- Japan
- Prior art keywords
- character
- learning
- category
- loss function
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000006870 function Effects 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 59
- 238000012545 processing Methods 0.000 description 13
- 238000013500 data storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000010365 information processing Effects 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
従来、活字を含む文書の画像を文字列に変換する光学文字認識(OCR;Optical Character Recognition)技術が知られている。しかし、日本語の場合、ひらがな、かたかな、漢字、英数字などが混合されて使用されることがあり、これらの中には形状が似ているものが多く存在する。このため、従来のOCR技術では、誤った文字認識(分類)がなされてしまう場合がある。具体的には、従来のOCR技術では、入力された文字が所属するカテゴリを誤って推定されてしまう場合がある。
実施形態に係る学習プログラムは、上述した実施形態に係る学習処理をコンピュータに実行させるためのプログラムである。実施形態に係る学習プログラムは、入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習プログラムであって、文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得手順と、文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習手順とをコンピュータに実行させるための学習プログラムである。
ここからは、図1を用いて、実施形態に係る学習装置100によって行われる学習処理の全体像について説明する。図1は、実施形態に係る学習処理の全体像を示す図である。実施形態に係る学習のアルゴリズムは、誤った文字カテゴリとして認識される傾向にある文字の集合(クラスタ)に対応する範囲の広いカテゴリを対象とするクラス分類のためのアルゴリズム(第1アルゴリズム)と、この範囲の広いカテゴリに含まれる各文字カテゴリを対象とするアルゴリズム(第2アルゴリズム)とによって構成されるものである。まず、図1の上段を用いて第1アルゴリズムについて説明する。
次に、図2を用いて、実施形態に係る学習装置100について説明する。図2は、実施形態に係る学習装置100の構成例を示す図である。図2に示すように、学習装置100は、通信部110と、記憶部120と、制御部130とを有する。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、例えば、入力の際に用いられる外部の装置との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、学習データ記憶部121と、モデル情報記憶部122とを有する。
学習データ記憶部121は、利用者によって入力された学習データを記憶する。ここで、図3に実施形態に係る学習データ記憶部121の一例を示す。図3の例では、学習データ記憶部121は、「メインカテゴリ」、「文字カテゴリ」、「学習データ」、「特徴ベクトル」といった項目を有する。
モデル情報記憶部122は、入力された文字が文字カテゴリの候補のうちのいずれの文字カテゴリに属する文字であるか文字認識するためのモデルを記憶する。例えば、モデル情報記憶部122は、「メインカテゴリ」ごとに、第1アルゴリズムおよび第2アルゴリズムが反映されたモデルを記憶する。
制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、学習装置100内部の記憶装置に記憶されている各種プログラム(例えば、実施形態に係る学習プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
データ受付部131は、学習データを受け付ける。例えば、データ受付部131は、文字カテゴリと、当該文字カテゴリに属する文字の画像データとの組合せである学習データの入力を利用者から受け付ける。また、データ受付部131は、受け付けた学習でデータを学習データ記憶部121に格納する。
取得部132は、文字カテゴリごとに、当該文字カテゴリに属する文字に関する文字情報を取得する。例えば、取得部132は、文字カテゴリごとに、当該文字カテゴリに属する文字の特徴示す特徴情報(特徴ベクトル)を取得する。例えば、取得部132は、データ受付部131により学習データが受け付けられた場合には、受け付けられた学習データを解析することにより、係る学習データに画像として含まれる文字を抽出する。そして、取得部132は、抽出した文字に対応する画像部分からこの文字の特徴を示す特徴ベクトルを取得する。係る特徴ベクトルは、例えば、ピクセル情報によって示される。
学習部133は、処理対象の文字カテゴリごとに、当該文字カテゴリに対応する文字情報(特徴ベクトル)に基づいて、損失関数の値を最小化するようモデルに関する所定のパラメータを学習する。例えば、学習部133は、モデルを学習する際に、所定のパラメータを学習する。
入力受付部134は、分類先が未知の文字を含む画像データの入力を利用者から受け付ける。例えば、入力受付部134は、分類先が未知の文字を含む画像データの入力を、利用者によって利用される情報処理端末(例えば、スマートフォン)から受け付ける。
分類部135は、分類先が未知の文字がどの文字カテゴリに属する文字であるかを推定することによるクラス分類を行う。例えば、分類部135は、入力受付部134により分類先が未知の文字を含む画像データの入力が受け付けられた場合に、係る画像データを解析することにより、係る画像データに画像として含まれる文字を抽出する。そして、分類部135は、抽出した文字を分類先が未知の文字、すなわちクラス分類を行う処理対象の文字として認識する。
ここからは、学習部133によって行われる学習処理の一例について、図4および図5を用いて説明する。図4は、実施形態に係る学習処理の一例(1)を示す図である。図5は、実施形態に係る学習処理の一例(2)を示す図である。
次に、図6および図7を用いて、実施形態に係る学習プログラムによって動作する学習装置100による情報処理の手順について説明する。図6では、実施形態に係る学習処理の手順について説明する。図7では、学習処理により学習されたモデルを用いた、クラス分類処理の手順について説明する。
まず、図6を用いて、実施形態に係る学習処理の手順について説明する。図6は、実施形態に係る学習処理手順を示すフローチャートである。
次に、図7を用いて、実施形態に係るクラス分類処理の手順について説明する。図7は、実施形態に係るクラス分類処理手順を示すフローチャートである。
また、上記実施形態に係る学習装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、学習装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
120 記憶部
121 学習データ記憶部
122 モデル情報記憶部
130 制御部
131 データ受付部
132 取得部
133 学習部
134 入力受付部
135 分類部
Claims (11)
- 入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習プログラムであって、
前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得手順と、
前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習手順と
をコンピュータに実行させるための学習プログラム。 - 前記学習手順は、前記モデルを学習する際に、前記所定のパラメータを学習する
ことを特徴とする請求項1に記載の学習プログラム。 - 前記学習手順は、前記文字種別に属する文字に関する文字情報と、当該文字種別に属する文字であって正解データとして入力された文字に関する文字情報とに基づいて、前記損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項1または2に記載の学習プログラム。 - 前記学習手順は、前記文字種別に属する文字に関する文字情報を足し合わせることにより算出された指標値と、前記正解データとして入力された文字に関する文字情報とに基づいて、前記損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項3に記載の学習プログラム。 - 前記学習手順は、前記損失関数の値を最小化する処理として、前記指標値と、前記正解データとして入力された文字に関する文字情報とに基づいて、前記文字種別に属する文字が前記正解データとして入力された文字として認識される確率を高めるよう前記所定のパラメータを学習する
ことを特徴とする請求項4に記載の学習プログラム。 - 前記学習手順は、前記損失関数の値と、異なる前記文字種別にそれぞれに属する文字であって誤った文字種別として認識される傾向にある文字の集合に対応する所定のカテゴリを対象に得られた損失関数の値とに基づき算出された値であって、異なる前記文字種別間での総合的な損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項1〜5のいずれか1つに記載の学習プログラム。 - 前記学習手順は、前記損失関数の値と、異なる前記文字種別にそれぞれに属する文字であって誤った文字種別として認識される傾向にある文字の集合に対応する所定のカテゴリを対象に得られた損失関数の値とを足し合わせた、前記総合的な損失関数の値を最小化するよう前記所定のパラメータを学習する
ことを特徴とする請求項6に記載の学習プログラム。 - 前記学習手順は、前記損失関数の値を最小化するよう、前記所定のパラメータとしてニューラルネットワークの重みまたはバイアスを学習する
ことを特徴とする請求項1〜7のいずれか1つに記載の学習プログラム。 - 前記取得手順は、前記文字に関する文字情報として、当該文字の特徴を示す特徴情報する
ことを特徴とする請求項1〜8のいずれか1つに記載の学習プログラム。 - 入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルを学習する学習装置であって、
前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得部と、
前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習部と
を有することを特徴とする学習装置。 - 入力された文字が文字種別の候補のうちのいずれの文字種別に属する文字であるか文字認識するためのモデルをコンピュータに学習させる学習方法であって、
前記文字種別ごとに、当該文字種別に属する文字に関する文字情報を取得する取得工程と、
前記文字種別ごとに、当該文字種別に対応する前記文字情報に基づいて、損失関数の値を最小化するよう前記モデルに関する所定のパラメータを学習する学習工程と
を含むことを特徴とする学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020086276A JP7228542B2 (ja) | 2020-05-15 | 2020-05-15 | 学習プログラム、学習装置および学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020086276A JP7228542B2 (ja) | 2020-05-15 | 2020-05-15 | 学習プログラム、学習装置および学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021179926A true JP2021179926A (ja) | 2021-11-18 |
JP7228542B2 JP7228542B2 (ja) | 2023-02-24 |
Family
ID=78511665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020086276A Active JP7228542B2 (ja) | 2020-05-15 | 2020-05-15 | 学習プログラム、学習装置および学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7228542B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0714011A (ja) * | 1993-06-25 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 文字認識装置および文字認識方法 |
JPH0816728A (ja) * | 1994-06-28 | 1996-01-19 | Canon Inc | 文字認識装置及び方法 |
JPH08122267A (ja) * | 1994-10-25 | 1996-05-17 | Mitsubishi Electric Corp | マーク認識装置およびマーク認識方法 |
JP2018077786A (ja) * | 2016-11-11 | 2018-05-17 | 株式会社東芝 | 画像処理装置、画像処理方法、プログラム、運転制御システム、および、車両 |
CN111079479A (zh) * | 2018-10-19 | 2020-04-28 | 北京市商汤科技开发有限公司 | 小孩状态分析方法和装置、车辆、电子设备、存储介质 |
-
2020
- 2020-05-15 JP JP2020086276A patent/JP7228542B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0714011A (ja) * | 1993-06-25 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 文字認識装置および文字認識方法 |
JPH0816728A (ja) * | 1994-06-28 | 1996-01-19 | Canon Inc | 文字認識装置及び方法 |
JPH08122267A (ja) * | 1994-10-25 | 1996-05-17 | Mitsubishi Electric Corp | マーク認識装置およびマーク認識方法 |
JP2018077786A (ja) * | 2016-11-11 | 2018-05-17 | 株式会社東芝 | 画像処理装置、画像処理方法、プログラム、運転制御システム、および、車両 |
CN111079479A (zh) * | 2018-10-19 | 2020-04-28 | 北京市商汤科技开发有限公司 | 小孩状态分析方法和装置、车辆、电子设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
"深層学習", [ONLINE], JPN7022003489, 3 February 2020 (2020-02-03), ISSN: 0004834432 * |
Also Published As
Publication number | Publication date |
---|---|
JP7228542B2 (ja) | 2023-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5176773B2 (ja) | 文字認識方法および文字認識装置 | |
Tao et al. | Effective discriminative feature selection with nontrivial solution | |
JP4757116B2 (ja) | パラメータ学習方法及びその装置、パターン識別方法及びその装置、プログラム | |
US11551034B2 (en) | Adversarial network for transforming handwritten text | |
US10885325B2 (en) | Information processing apparatus, control method, and storage medium | |
Lozano et al. | Experimental study on prototype optimisation algorithms for prototype-based classification in vector spaces | |
Song et al. | Selective zero-shot classification with augmented attributes | |
Sampath et al. | Handwritten optical character recognition by hybrid neural network training algorithm | |
Mohanty et al. | Performance comparison of svm and k-nn for oriya character recognition | |
JP7228542B2 (ja) | 学習プログラム、学習装置および学習方法 | |
Brodić et al. | Identification of fraktur and latin scripts in german historical documents using image texture analysis | |
Sener et al. | Unsupervised transductive domain adaptation | |
US20150186797A1 (en) | Data reduction in nearest neighbor classification | |
CN110532384B (zh) | 一种多任务字典单分类方法、系统、装置及存储介质 | |
Ärje et al. | Breaking the curse of dimensionality in quadratic discriminant analysis models with a novel variant of a Bayes classifier enhances automated taxa identification of freshwater macroinvertebrates | |
Rouabhi et al. | Optimizing Handwritten Arabic Character Recognition: Feature Extraction, Concatenation, and PSO-Based Feature Selection. | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
Awaida et al. | Automatic check digits recognition for Arabic using multi-scale features, HMM and SVM classifiers | |
JP2009259190A (ja) | 文字認識プログラムおよび文字認識装置 | |
JP7388660B2 (ja) | 情報処理装置、利用者端末、情報処理方法、及び情報処理プログラム | |
KR102236639B1 (ko) | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 | |
JP7143752B2 (ja) | 学習プログラム、学習方法および学習装置 | |
Ali | USING MACHINE LEARNING MODELS AND DEEP LEARNING NETWORKS FOR HANDWRITTEN NUMBERS AND LETTERS RECOGNITION | |
JP7268347B2 (ja) | 識別装置、識別方法及びプログラム | |
An et al. | Independent Gabor analysis of multiscale total variation-based quotient image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7228542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |