JP7264911B2 - パターン認識装置及び学習済みモデル - Google Patents
パターン認識装置及び学習済みモデル Download PDFInfo
- Publication number
- JP7264911B2 JP7264911B2 JP2020549965A JP2020549965A JP7264911B2 JP 7264911 B2 JP7264911 B2 JP 7264911B2 JP 2020549965 A JP2020549965 A JP 2020549965A JP 2020549965 A JP2020549965 A JP 2020549965A JP 7264911 B2 JP7264911 B2 JP 7264911B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- candidate
- candidates
- recognition candidate
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003909 pattern recognition Methods 0.000 title claims description 136
- 238000011156 evaluation Methods 0.000 claims description 70
- 238000000034 method Methods 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 46
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000012567 pattern recognition method Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000011664 signaling Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 235000013361 beverage Nutrition 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Description
本発明の一側面は、パターン認識装置及び学習済みモデルに関する。
従来、予め用意された認識辞書に記憶されたパターンの中から、入力された未知のパターン(例えば、音声及び画像等)に適合する認識候補を出力するシステムが知られている。
例えば、特許文献1には、認識対象である未知のパターンに対して複数の異なる認識手法を適用して得られた認識候補を統合して出力する際に、個々の認識手法において得られた認識候補を適切な順に配置することを可能とするパターン認識装置が開示されている。具体的には、上記パターン認識装置は、複数の認識手法により得られた各認識候補の認識スコアを、複数種類の認識手法に共通の尺度による正解度に変換することにより、各認識候補を適切に順序付ける。
しかしながら、上記パターン認識装置では、ある認識処理手法によって得られた認識候補間の順序は維持されたままである。すなわち、ある認識処理手法における第1位の認識スコアを有する認識候補と第2位以下の認識スコアを有する認識候補との間では、順位は変動しない。このため、上記パターン認識装置では、第2位以下の認識スコアを有する認識候補が認識対象の未知のパターンに対応する正解データである場合において、正解データに対応する認識候補を最終的な認識結果(第1位の認識結果)として得ることはできない。このため、上記パターン認識装置には、認識精度の向上を図る上で改善の余地がある。
そこで、本発明の一側面は、認識精度の向上を図ることができるパターン認識装置及び学習済みモデルを提供することを目的とする。
本発明の一側面に係るパターン認識装置は、入力データに対するパターン認識によって得られ、認識の確からしさを示す認識スコアをそれぞれ有する複数の認識候補を取得する取得部と、複数の認識候補のうち第1位の認識スコアを有する認識候補である第1認識候補と他の認識候補である第2認識候補との各ペアについて、第1認識候補と第2認識候補とに関する特徴量に基づいて、第2認識候補が入力データに対応する正解データである可能性を定量化した評価値を算出する算出部と、算出部により算出された第2認識候補毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果を決定する決定部と、を備える。
上記パターン認識装置では、第1認識候補と各第2認識候補との各ペアについて、第2認識候補が正解データである可能性を定量化した評価値が算出される。すなわち、第1認識候補よりも第2認識候補の方が正解データである可能性が高いか否か(換言すれば、第1認識候補の立場と第2認識候補の立場とを入れ替えた方が良いか否か)を示す指標として、第2認識候補毎の評価値が算出される。そして、第2認識候補毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果が決定される。この構成によれば、認識スコアに基づく順位をそのまま複数の認識候補の最終的な順位として確定することなく、認識候補毎の評価値に基づいて複数の認識候補の順位を適切に修正した上で最終的な認識結果を決定することが可能となる。従って、上記パターン認識装置によれば、認識精度の向上を図ることができる。
本発明の一側面に係る学習済みモデルは、入力データに対するパターン認識によって得られる複数の認識候補のうちから選択された第1認識候補と第2認識候補とに関する特徴量を入力して、一方の認識候補である第2認識候補が入力データに対応する正解データである可能性を定量化した評価値を出力するように、コンピュータを機能させるための学習済みモデルであって、認識対象のデータに対するパターン認識によって得られた2つの認識候補に関する特徴量を説明変数とし、2つの認識候補のうちの一方の認識候補が認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする学習データを用いた機械学習を実行することにより生成される。
上記学習済みモデルによれば、入力データに対するパターン認識によって得られた複数の認識候補の順位(認識スコアに基づく順位)を適切に修正するための評価値が得られる。従って、上記学習済みモデルによれば、認識精度の向上を図ることができる。
本発明の一側面によれば、認識精度の向上を図ることができるパターン認識装置及び学習済みモデルを提供することができる。
以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。
図1は、一実施形態に係るパターン認識装置10の機能構成を示すブロック図である。パターン認識装置10は、画像データを入力データとして取得し、当該画像データに含まれる物体を認識(識別、特定)するコンピュータシステムである。例えば、画像データは、ある商品(例えば、食品、飲料品、トイレタリー等の日用品等)を被写体として含む。パターン認識装置10は、予め商品毎に用意された辞書画像(画像データベース)の中から、入力された画像データに対応する正解データであると推定される辞書画像を最終的な認識結果として決定及び出力する。ここで、画像データが商品Aを被写体として含む場合、当該画像データに対応する正解データは、商品Aの画像として予め登録された辞書画像である。この場合、商品Aの辞書画像が最終的な認識結果として出力された場合に、画像データが正しく認識されたことになる。
本実施形態では、パターン認識装置10は、学習処理及び認識処理の両方を実行するように構成されている。学習処理は、機械学習によって学習済みモデル(本実施形態では、第1モデルM1、第2モデルM2、及び第3モデルM3)を生成する処理である。認識処理は、学習処理によって生成された学習済みモデルを用いることによって、認識対象となる画像データ(以下「入力画像」ともいう。)に被写体として含まれる物体(商品)を認識する処理である。このような入力画像は、例えば、スマートフォン、タブレット等の端末のカメラ機能を用いて認識対象となる商品を撮像することによって得られる。
図1に示されるように、パターン認識装置10は、第1認識部11と、第2認識部12と、取得部13と、第1モデル生成部14と、第2モデル生成部15と、第3モデル生成部16と、算出部17と、決定部18と、出力部19と、を備える。学習処理は、第1認識部11と、第2認識部12と、取得部13と、第1モデル生成部14と、第2モデル生成部15と、第3モデル生成部16と、によって実行される。認識処理は、第1認識部11と、第2認識部12と、取得部13と、算出部17と、決定部18と、出力部19と、によって実行される。
第1認識部11及び第2認識部12のそれぞれは、入力画像に対するパターン認識(本実施形態では画像認識)を実行することにより、複数の認識候補を出力する。複数の認識候補の各々は、認識候補を一意に特定するための識別情報(例えば、辞書画像を特定するための画像ID)と、認識の確からしさを示す認識スコアと、を有する。第1認識部11は、第1のパターン認識を実行する。第2認識部12は、第1のパターン認識とは異なる第2のパターン認識を実行する。第1認識部11及び第2認識部12のそれぞれは、予め商品毎に用意された辞書画像を記憶する画像データベースと、入力画像から抽出される特徴量と各辞書画像の特徴量とを比較することによって入力画像との類似度が高い複数の認識候補(例えば上位n個の認識候補)を抽出する認識エンジンと、によって構成され得る。
第1認識部11によって実行される第1のパターン認識は、入力画像をグレースケール変換することにより得られたグレースケール画像から特徴量(特徴点)を抽出し、当該特徴量に基づいて入力画像に含まれる物体を認識する手法である。例えば、第1のパターン認識は、いわゆる特定物体認識と呼ばれる認識アルゴリズムであり、グレースケール画像から抽出された局所特徴量に基づいて入力画像に含まれる物体を認識する。このような第1のパターン認識は、色情報(例えばRGB値等)を特徴量として含まないことにより、特徴量の次元数を抑えることができる。このため、比較的高速かつ少ない辞書画像(例えば1商品当たり1つの辞書画像)で、入力画像に含まれる物体を比較的精度良く認識できるという長所を有する。一方で、第1のパターン認識は、色情報を特徴量として含まないため、色違いの同一デザインを有する商品同士を精度良く認識(識別)することが困難であるという短所を有する。
第2認識部12によって実行される第2のパターン認識は、入力画像の色情報を含む特徴量に基づいて入力画像に含まれる物体を認識する手法である。例えば、第2のパターン認識は、ディープラーニングによって構築されたCNN(Convolutional Neural Network)等のニューラルネットワークを上記認識エンジンとして用いることにより、物体認識(類似画像検索)を実行する。第2のパターン認識は、色情報を特徴量として含むため、上述した第1のパターン認識と比較して、色違いの同一デザインを有する商品同士(例えば、互いに異なる属性(味、香り等)を有する同一ブランドの商品同士)を精度良く認識することが可能であるという長所を有する。一方で、第2のパターン認識の認識精度を第1のパターン認識と同等の精度まで高めるためには、多数の学習データ(1商品当たり数百枚程度の学習用画像)を用いて上記ニューラルネットワークを構築する必要があるという短所がある。
取得部13は、入力画像に対するパターン認識によって得られた複数の認識候補を取得する。上述した通り、各認識候補は、画像IDと認識スコアとを有する。すなわち、各認識候補には、画像IDと認識スコアとが関連付けられている。本実施形態では一例として、取得部13は、ある1つの入力画像について、第1認識部11(第1のパターン認識)によって得られた複数の認識候補(ここでは、認識スコア順で上位n個の認識候補A1~An)と、第2認識部12(第2のパターン認識)によって得られた複数の認識候補(ここでは、認識候補A1~Anと重複する認識候補が除外された中で、認識スコア順で上位m個の認識候補B1~Bm)と、を複数の認識候補として取得する。ここで、n及びmは、予め任意に定められた値である。本実施形態では、第1のパターン認識によって得られた認識候補A1~Anを補完するための認識候補として、第2のパターン認識によって得られた認識候補B1~Bm(認識候補A1~Anと重複しない認識候補)が取得される。取得部13は、認識候補A1~An及び認識候補B1~Bmをこの順に並べた認識候補列を取得する。
図2は、取得部13により取得される認識候補列(m+n個の認識候補)の例を模式的に示す図である。図2において、認識候補列R1は、第1のパターン認識によって得られた認識候補A1~Anを認識スコア順に並べた列であり、認識候補列R2は、第2のパターン認識によって得られた認識候補B1~Bmを認識スコア順に並べた列である。また、図2において黒塗りされた認識候補は、入力画像に対応する正解データである。
図2の(A)は、第1のパターン認識における第1位の認識候補A1(第1位の認識スコアを有する認識候補)が正解データである例を示している。すなわち、図2の(A)は、第1のパターン認識によって正しい認識結果が得られた例(正例)を示している。
一方、図2の(B)は、第1のパターン認識における第2位以下の認識候補が正解データであった例を示している。また、図2の(C)は、第2のパターン認識によって得られた補完候補(ここでは一例として、認識候補B1)が正解データであった例を示している。すなわち、図2の(B)及び(C)は、第1のパターン認識によって正しい認識結果が得られなかった例(すなわち、認識候補A1が正解データではない例(負例))を示している。
第1モデル生成部14は、取得部13により取得された認識候補列の認識順位を更新(すなわち、再順序付け(リランキング))するために利用される第1モデルM1を生成する。例えば、図2の(B)及び(C)に示したような負例において、正解データに対応する認識候補の認識順位を繰り上げて最終的な認識結果(第1位の認識候補)とすることができれば、認識精度を向上させることができる。第1モデルM1は、このような認識順位の更新に用いるための評価値を出力する。
第1モデルM1は、例えばXGboost等のブースティングアルゴリズム等によって学習される識別器である。第1モデル生成部14は、入力画像に対するパターン認識によって得られる2つの認識候補に関する特徴量を説明変数とし、上記2つの認識候補のうちの一方の認識候補が認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする第1学習データを用いて機械学習を実行することにより、第1モデルM1を生成する。
図3を参照して、第1モデル生成部14の処理の一例について説明する。
ステップS101において、第1モデル生成部14は、ある入力画像(認識対象のデータ)に対するパターン認識によって得られた複数(ここではn+m個)の認識候補を取得する。具体的には、第1モデル生成部14は、上記入力画像に対して上述した第1認識部11、第2認識部12、及び取得部13の処理が実行されることによって得られた認識候補列(A1,…,An,B1,…,Bm)を取得する。
ステップS102において、第1モデル生成部14は、複数の認識候補のうちから2つの認識候補を抽出することによってペアを生成する。本実施形態では一例として、第1モデル生成部14は、第1のパターン認識における第1位の認識スコアを有する認識候補A1と、他の認識候補A2~An,B1~Bmとの各ペアを生成する。これにより、図4に示されるように、認識候補A1と認識候補A2とのペアP2(A1,A2)から、認識候補A1と認識候補BmとのペアPn+m(A1,Bm)までのn+m-1個のペアが生成される。
ステップS103において、第1モデル生成部14は、ペア毎の特徴量を生成する。本実施形態では一例として、第1モデル生成部14は、認識候補A1と認識候補K(K=A2~An,B1~Bm)とのペアの特徴量(認識候補A1と認識候補Kとに関する特徴量)として、以下の要素a1~a10からなる10次元の特徴量を生成する。ここで、「スコア_k」は、認識候補kの認識スコアである。「類似度」は、ディープラーニングにより構築されたCNNによって抽出された特徴量同士のコサイン距離である。「類似度_k」は、入力画像の特徴量と認識候補kの特徴量とのコサイン距離である。
<認識候補A1と認識候補Kとのペアの特徴量の一例>
a1=スコア_K÷スコア_A1
a2=(スコア_A1-スコア_K)÷スコア_A1
a3=類似度_A1
a4=類似度_K
a5=類似度_A1-類似度_K
a6=類似度_K÷類似度_A1
a7=スコア_A1×類似度_A1
a8=スコア_K×類似度_K
a9=(スコア_A1×類似度_A1)-(スコア_K×類似度_K)
a10=(スコア_K×類似度_K)÷(スコア_A1×類似度_A1)
<認識候補A1と認識候補Kとのペアの特徴量の一例>
a1=スコア_K÷スコア_A1
a2=(スコア_A1-スコア_K)÷スコア_A1
a3=類似度_A1
a4=類似度_K
a5=類似度_A1-類似度_K
a6=類似度_K÷類似度_A1
a7=スコア_A1×類似度_A1
a8=スコア_K×類似度_K
a9=(スコア_A1×類似度_A1)-(スコア_K×類似度_K)
a10=(スコア_K×類似度_K)÷(スコア_A1×類似度_A1)
ステップS104において、第1モデル生成部14は、2つの認識候補に関する特徴量(ここでは、認識候補A1と認識候補Kとのペアの特徴量)を説明変数(入力)とし、上記2つの認識候補のうちの一方の認識候補(ここでは認識候補K)が入力画像に対応する正解データであるか否かを示す指標値を目的変数とする第1学習データを生成する。本実施形態では、当該指標値は、認識候補Kが入力画像に対応する正解データである場合に「1」に設定され、認識候補Kが入力画像に対応する正解データでない場合に「0」に設定されるフラグ値である。すなわち、当該指標値は、認識候補Kの認識順位を第1位にする(換言すれば、認識候補A1の立場と認識候補Kの立場とを入れ替える)ことによって正しい認識結果が得られる場合に「1」となり、それ以外の場合に「0」となる。本実施形態では、1つの入力画像に対するステップS101~S104の処理によって、n+m-1個(すなわち、ペアの個数)の第1学習データが生成される。
ステップS105において、第1モデル生成部14は、第1学習データを更に生成するか否かを判定する。例えば、第1モデル生成部14は、指標値が「0」となる第1学習データ及び指標値が「1」となる第1学習データのそれぞれが第1モデルM1の精度を担保するのに十分な数だけ得られるまで、他の入力画像(ステップS101~S104の処理が実行されていない入力画像)についてステップS101と同様の処理を実行し(ステップS105:YES→ステップS106)、その実行結果に対してステップS102~S104の処理を実行する。これにより、他の入力画像についての第1学習データが生成される。十分な数の第1学習データが得られ、第1学習データを更に生成する必要がない場合には(ステップS105:NO)、第1モデル生成部14は、第1学習データに基づく機械学習を実行することにより、第1モデルM1を生成する(ステップS107)。
図5は、第1モデルM1の生成方法(学習方法)を示す図である。図5において、黒塗りされた認識候補は、入力画像に対応する正解データを示している。ここで、負例は、第1のパターン認識によって正しい認識結果が得られなかった例(すなわち、認識候補A1が入力画像に対応する正解データではない例)である。一方、正例は、第1のパターン認識によって正しい認識結果が得られた例(すなわち、認識候補A1が入力画像に対応する正解データである例)である。
図5において、「負例1」は、認識候補Kが入力画像に対応する正解データであるペアを示している。当該ペアに対応する第1学習データは、当該ペアの特徴量(a1,…,a10)を説明変数とし、指標値「1」を目的変数とするデータとなる。「負例2」は、認識候補A1及び認識候補Kのいずれも入力画像に対応する正解データではないペアを示している。当該ペアに対応する第1学習データは、当該ペアの特徴量(a1,…,a10)を説明変数とし、指標値「0」を目的変数とするデータとなる。「正例」は、認識候補A1が入力画像に対応する正解データであるペアを示している。当該ペアに対応する第1学習データは、当該ペアの特徴量(a1,…,a10)を説明変数とし、指標値「0」を目的変数とするデータとなる。
このような第1学習データを用いることにより、認識候補Kが正解データである場合にのみ「1」を出力するように第1モデルM1を学習させることができる。つまり、このような機械学習によって構築された第1モデルM1の出力値は、認識候補Kが入力画像の正解データである可能性(換言すれば、認識候補A1の立場と認識候補Kの立場とを入れ替えることによって正しい認識結果が得られる確率(入れ替え確率))を示すことになる。よって、ある入力画像に対する認識処理を実行する際には、認識候補A1と認識候補K(K=A2~An,B1~Bm)との各ペアの特徴量を第1モデルM1に入力することにより認識候補K毎の出力値を算出し、当該出力値の降順に複数の認識候補を並べ替えることにより、当該入力画像に対応する正解データである可能性が高い順に複数の認識候補を並べ替えることが可能となる。
なお、上記の仕組みでは、認識候補A1に対応する第1モデルM1の出力値は得られないが、認識候補A1には、各認識候補Kの出力値に対応する値(基準値)として「0.5」を割り当てればよい。その理由は以下の通りである。第1モデルM1の出力値が0.5より高いことは、認識候補A1よりも認識候補Kの方が入力画像に対応する正解データである可能性が高いこと(すなわち、認識候補A1の立場と認識候補Kの立場とを入れ替えるべきであること)を意味する。一方、第1モデルM1の出力値が0.5より低いことは、認識候補Kよりも認識候補A1の方が入力画像に対応する正解データである可能性が高いこと(すなわち、認識候補A1の立場と認識候補Kの立場とを入れ替えるべきではないこと)を意味する。すなわち、上述のように学習された第1モデルM1においては、「0.5」が認識候補A1の立場と認識候補Kの立場とを入れ替えるべきか否かの境界値となる。よって、認識候補A1に、「0.5」を割り当てることにより、上述した複数の認識候補の並べ替えを適切に行うことが可能となる。
第2モデル生成部15は、上述した第1モデルM1の出力値に基づく並べ替え(リランキング)を行った結果の妥当性を判定するための第2モデルM2を生成する。第2モデルM2は、例えば、XGboost等のブースティングアルゴリズム等によって学習される識別器である。
図6を参照して、第2モデル生成部15の処理の一例について説明する。
ステップS201及びS202の処理は、上述したステップS101及びS102の処理と同様である。すなわち、ステップS201において、第2モデル生成部15は、ある入力画像(認識対象のデータ)に対するパターン認識によって得られた複数(ここではn+m個)の認識候補を取得する。ステップS202において、第2モデル生成部15は、複数の認識候補のうちから2つの認識候補を抽出することによってペアを生成する。これにより、図4に示されるように、認識候補A1と認識候補A2とのペアP2(A1,A2)から、認識候補A1と認識候補BmとのペアPn+m(A1,Bm)までのn+m-1個のペアが生成される。
ステップS203において、第2モデル生成部15は、第1位の認識スコアを有する認識候補A1(第4認識候補)と他の認識候補K(K=A2~An,B1~Bm)(第5認識候補)との各ペアについて、認識候補A1と一方の認識候補としての認識候補Kとに関する特徴量(a1,…,a10)を生成する。
ステップS204において、第2モデル生成部15は、認識候補A1と認識候補K(K=A2~An,B1~Bm)との各ペアについて、ペア毎の特徴量(a1,…,a10)を第1モデルM1に入力することにより得られる第1モデルM1の出力値を、ペア毎(すなわち認識候補K毎)の評価値として取得する。
ステップS205において、第2モデル生成部15は、認識候補K毎の評価値に基づいて、最終的な認識結果の候補となる認識候補X1(第6認識候補)を抽出する。具体的には、第2モデル生成部15は、認識候補A1に予め割り当てられた基準値(0.5)と認識候補K毎の評価値とのうち最大の値を有する認識候補X1(X1は、A1~An及びB1~Bmのいずれか)を抽出する。認識候補X1は、第1モデルM1の出力値(評価値)に基づくリランキング後において、第1位の認識順位を有する認識候補である。
ステップS206において、第2モデル生成部15は、認識候補X1が認識候補A1と同一であるか否かを判定する。認識候補X1が認識候補A1とは異なる場合(ステップS206:NO)、第2モデル生成部15は、第2学習データを生成する(ステップS207)。一方、認識候補X1が認識候補A1と同一である場合(ステップS206:YES)、リランキングの前後で第1位の認識候補に変動はなく(すなわち、認識候補A1が第1位のままであり)、リランキングの妥当性を評価する対象とはならないため、第2モデル生成部15は、ステップS207の処理をスキップする。
ステップS207において、第2モデル生成部15は、まず、認識候補A1と認識候補X1とに関する特徴量を生成する。本実施形態では一例として、第2モデル生成部15は、認識候補A1と認識候補X1とに関する特徴量として、以下の要素b1~b6からなる6次元の特徴量を生成する。
<認識候補A1と認識候補X1とのペアの特徴量の一例>
b1=スコア_A1
b2=類似度_A1
b3=スコア_X1
b4=類似度_X1
b5=認識候補X1の評価値(第1モデルM1の出力値)
b6=認識候補A1(辞書画像)と認識候補X1(辞書画像)との類似度
<認識候補A1と認識候補X1とのペアの特徴量の一例>
b1=スコア_A1
b2=類似度_A1
b3=スコア_X1
b4=類似度_X1
b5=認識候補X1の評価値(第1モデルM1の出力値)
b6=認識候補A1(辞書画像)と認識候補X1(辞書画像)との類似度
続いて、第2モデル生成部15は、認識候補A1と認識候補X1とに関する特徴量(b1,…,b6)を説明変数とし、認識候補X1が正解データであるか否かを示す指標値を目的変数とする第2学習データを生成する。本実施形態では、当該指標値は、認識候補X1が入力画像に対応する正解データである場合に「1」に設定され、認識候補A1が入力画像に対応する正解データである場合に「0」に設定されるフラグ値である。すなわち、当該指標値は、認識候補X1の認識順位を第1位にする(すなわち、認識候補A1の立場と認識候補X1の立場とを入れ替える)ことによって正しい認識結果が得られる場合(すなわち、第1モデルM1の出力値(評価値)に基づくリランキングが妥当な場合)に「1」となり、それ以外の場合に「0」となる。
なお、認識候補A1及び認識候補X1のいずれも入力画像に対応する正解データではない場合には、リランキングの妥当性を判定する意味がないため、第2学習データの生成対象から除外される。すなわち、第2モデル生成部15は、認識候補X1が正解データである場合(リランキングが妥当な場合を示す正例)及び認識候補A1が正解データである場合(リランキングが妥当でない場合を示す負例)のいずれかに対応する第2学習データを生成する。
ステップS208において、第2モデル生成部15は、第2学習データを更に生成するか否かを判定する。例えば、第2モデル生成部15は、正例及び負例のそれぞれに対応する第2学習データが第2モデルM2の精度を担保するのに十分な数だけ得られるまで、他の入力画像(ステップS201~S207の処理が実行されていない入力画像)についてステップS201と同様の処理を実行し(ステップS208:YES→ステップS209)、その実行結果に対してステップS202~S207の処理を実行する。これにより、他の入力画像についての第2学習データを生成することが可能となる。ただし、ステップS207がスキップされる場合、及び認識候補A1及び認識候補X1のいずれも入力画像に対応する正解データではない場合(上述した正例及び負例のいずれにも該当しない場合)等には、新たな第2学習データは得られない。その場合、新たな第2学習データが得られるまで他の入力画像に対する処理を継続すればよい。十分な数の第2学習データが得られ、第2学習データを更に生成する必要がない場合には(ステップS208:NO)、第2モデル生成部15は、第2学習データに基づく機械学習を実行することにより、第2モデルM2を生成する(ステップS210)。
図7は、第2モデルM2の生成方法(学習方法)を示す図である。図7において、黒塗りされた認識候補は、入力画像に対応する正解データを示している。ここで、正例は、第1モデルM1の出力値(評価値)に基づくリランキング(認識候補X1の順位を第1位に変更する処理)によって正しい認識結果が得られた例である。一方、負例は、上記リランキングによって正しい認識結果が得られなくなった例(すなわち、リランキングを行っていなければ正しい認識結果が得られた例)である。
図7に示されるように、正例に該当するペアに対応する第2学習データは、当該ペアの特徴量(b1,…,b6)を説明変数とし、指標値「1」を目的変数とするデータとなる。負例に該当するペアに対応する第2学習データは、当該ペアの特徴量(b1,…,b6)を説明変数とし、指標値「0」を目的変数とするデータとなる。
このような第2学習データを用いることにより、リランキングが妥当な場合(すなわち、認識候補X1が正解データである場合)にのみ「1」を出力するように第2モデルM2を学習させることができる。つまり、このような機械学習によって構築された第2モデルM2の出力値は、リランキング後の結果を採用することによって正しい認識結果が得られる確率(すなわち、リランキングが妥当である確率)を示すことになる。よって、ある入力画像に対する認識処理を実行する際には、第2モデルM2の出力値に基づいて、リランキングの妥当性を考慮した上で適切な認識結果を出力することが可能となる。例えば、第2モデルM2の出力値が0.5より大きい場合(又は0.5以上の場合)には、リランキング後の第1位の認識候補X1を最終的な認識結果とし、第2モデルM2の出力値が0.5以下の場合(又は0.5未満の場合)には、リランキング前の第1位の認識候補A1を最終的な認識結果とすることが可能となる。
第3モデル生成部16は、第1モデルM1に基づくリランキングと、第2モデルM2に基づくリランキングの妥当性判定と、を踏まえて決定された最終的な認識結果の確信度(正解度)を出力するための第3モデルM3を生成する。第3モデルM3は、例えば、XGboost等のブースティングアルゴリズム等によって学習される識別器である。
図8を参照して、第3モデル生成部16の処理の一例について説明する。
ステップS301の処理は、上述したステップS101の処理と同様である。すなわち、ステップS301において、第3モデル生成部16は、ある入力画像(認識対象のデータ)に対するパターン認識によって得られた複数(ここではn+m個)の認識候補を取得する。具体的には、図2に示されるような認識候補列(A1,…,An,B1,…,Bm)がリランキング前の認識候補列として得られる。
ステップS302において、第3モデル生成部16は、上述したステップS202~S205と同様の処理を実行することにより、複数の認識候補のリランキングを行う。すなわち、第3モデル生成部16は、認識候補A1の基準値(0.5)及び認識候補K(K=A2~An,B1~Bm)毎の評価値(第1モデルM1の出力値)を降順に並べ替えることにより、複数の認識候補を並べ替える。これにより、リランキング後の認識候補列(X1,…,Xn+m-1)が得られる。
ステップS303において、第3モデル生成部16は、第2モデルM2を用いてリランキングの妥当性を判定する。具体的には、第3モデル生成部16は、リランキング後の第1位の認識候補X1が認識候補A1とは異なる場合に、認識候補A1と認識候補X1とに関する特徴量(b1,…,b6)を第2モデルM2に入力することにより得られる出力値を、第2評価値として取得する。
ステップS304において、第3モデル生成部16は、ステップS303において得られた第2評価値に基づいて、最終的な認識結果を決定する。本実施形態では、第3モデル生成部16は、第2評価値が0.5以上の場合には、リランキング後の認識候補列(X1,…,Xn+m-1)を採用し、リランキング後の第1位の認識候補X1を最終的な認識結果とする。一方、第3モデル生成部16は、第2評価値が0.5未満の場合には、リランキング前の認識候補列(A1,…,An,B1,…,Bm)を採用し、リランキング前の第1位の認識候補A1を最終的な認識結果とする。
ステップS305において、第3モデル生成部16は、ステップS304において採用された認識候補列に基づいて第3学習データを生成する。以下、ステップS304において採用された認識候補列を(Y1,…,Yn+m-1)と表す。認識候補列(Y1,…,Yn+m-1)は、リランキング前の認識候補列(A1,…,An,B1,…,Bm)又はリランキング後の認識候補列(X1,…,Xn+m-1)である。
まず、第3モデル生成部16は、ステップS304において採用された認識候補列(Y1,…,Yn+m-1)の第1位の認識候補Y1と第2位の認識候補Y2とに関する特徴量を生成する。本実施形態では一例として、第3モデル生成部16は、認識候補Y1と認識候補Y2とに関する特徴量として、以下の要素c1~c11からなる11次元の特徴量を生成する。
<認識候補Y1と認識候補Y2とのペアの特徴量の一例>
c1=スコア_Y1
c2=類似度_Y1
c3=認識候補Y1の評価値(第1モデルM1の出力値又は基準値)
c4=スコア_Y2
c5=類似度_Y2
c6=認識候補Y2の評価値(第1モデルM1の出力値又は基準値)
c7=スコア_Y1-スコア_Y2
c8=スコア_Y2÷スコア_Y1
c9=類似度_Y2÷類似度_Y1
c10=認識候補Y1の評価値÷認識候補Y2の評価値
c11=認識候補Y1(辞書画像)と認識候補Y2(辞書画像)との類似度
<認識候補Y1と認識候補Y2とのペアの特徴量の一例>
c1=スコア_Y1
c2=類似度_Y1
c3=認識候補Y1の評価値(第1モデルM1の出力値又は基準値)
c4=スコア_Y2
c5=類似度_Y2
c6=認識候補Y2の評価値(第1モデルM1の出力値又は基準値)
c7=スコア_Y1-スコア_Y2
c8=スコア_Y2÷スコア_Y1
c9=類似度_Y2÷類似度_Y1
c10=認識候補Y1の評価値÷認識候補Y2の評価値
c11=認識候補Y1(辞書画像)と認識候補Y2(辞書画像)との類似度
続いて、第3モデル生成部16は、認識候補Y1と認識候補Y2とに関する特徴量(c1,…,c11)を説明変数とし、認識候補Y1が正解データであるか否かを示す指標値を目的変数とする第3学習データを生成する。本実施形態では、当該指標値は、認識候補Y1が入力画像に対応する正解データである場合に「1」に設定され、認識候補Y1が入力画像に対応する正解データでない場合に「0」に設定されるフラグ値である。
ステップS306において、第3モデル生成部16は、第3学習データを更に生成するか否かを判定する。例えば、第3モデル生成部16は、正例(指標値が1の場合)及び負例(指標値が0の場合)のそれぞれに対応する第3学習データが第3モデルM3の精度を担保するのに十分な数だけ得られるまで、他の入力画像(ステップS301~S305の処理が実行されていない入力画像)についてステップS301と同様の処理を実行し(ステップS306:YES→ステップS307)、その実行結果に対してステップS302~S305の処理を実行する。これにより、他の入力画像についての第3学習データが生成される。十分な数の第3学習データが得られ、第3学習データを更に生成する必要がない場合には(ステップS306:NO)、第3モデル生成部16は、第3学習データに基づく機械学習を実行することにより、第3モデルM3を生成する(ステップS308)。
以上の処理によれば、最終的に正しい認識結果が得られた場合にのみ「1」を出力するように第3モデルM3を学習させることができる。つまり、このような機械学習によって構築された第3モデルM3の出力値は、最終的な認識結果(認識候補Y1)が入力画像に対応する正解データである可能性(すなわち、最終的な認識結果の確信度)を示すことになる。
次に、上述のようにして得られた学習済みモデル(第1モデルM1、第2モデルM2、及び第3モデルM3)を用いて、認識対象として入力された入力画像に対する認識処理を実行するための機能要素(算出部17、決定部18、及び出力部19)について説明する。
算出部17は、複数の認識候補のうち第1位の認識スコアを有する認識候補A1(第1認識候補)と他の認識候補K(K=A2~An,B1~Bm)(第2認識候補)との各ペアについて、認識候補A1と認識候補Kとに関する特徴量に基づいて、認識候補Kが入力画像に対応する正解データである可能性を定量化した評価値を算出する。具体的には、算出部17は、各ペア(認識候補A1,認識候補K)について、認識候補A1と一方の認識候補としての認識候補Kとに関する特徴量(a1,…,a10)を第1モデルM1に入力することにより得られる出力値を評価値として取得する。これにより、認識候補K毎の評価値が得られる。
決定部18は、算出部17により算出された認識候補K毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果を決定する。本実施形態では、決定部18は、まず、認識候補A1に予め割り当てられた基準値(0.5)及び認識候補K毎の評価値の比較結果に基づいて、最終的な認識結果の候補となる認識候補X1(第3認識候補)を抽出する。例えば、決定部18は、認識候補A1の基準値(0.5)及び認識候補K毎の評価値とを降順に並べ替えることにより、複数の認識候補を並べ替える。すなわち、基準値又は評価値に基づいて、複数の認識候補の認識順位を更新(リランキング)する。これにより、リランキング後の認識候補列(X1,…,Xn+m-1)と共に、最終的な認識結果の候補として、リランキング後の第1位の認識候補X1が得られる。
続いて、決定部18は、認識候補X1が認識候補A1とは異なる場合に、認識候補A1と認識候補X1とに関する特徴量に基づいて、認識候補X1を最終的な認識結果とすることの妥当性を定量化した第2評価値を算出する。具体的には、決定部18は、認識候補X1が認識候補A1とは異なる場合に、認識候補A1と認識候補X1とに関する特徴量(b1,…,b6)を生成する。そして、決定部18は、当該特徴量(b1,…,b6)を第2モデルM2に入力することにより得られる出力値を、第2評価値として取得する。
続いて、決定部18は、第2評価値に基づいて認識候補X1を最終的な認識結果とするか否かを決定する。例えば、決定部18は、第2評価値と予め設定された閾値(本実施形態では0.5)との比較結果に基づいて、リランキング前の第1位の認識候補A1及びリランキング後の第1位の認識候補X1のいずれを最終的な認識結果とするか否かを決定してもよい。例えば、決定部18は、第2評価値が0.5以上の場合には、リランキング後の認識候補列(X1,…,Xn+m-1)を採用し、リランキング後の第1位の認識候補X1を最終的な認識結果としてもよい。一方、決定部18は、第2評価値が0.5未満の場合には、リランキング前の認識候補列(A1,…,An,B1,…,Bm)を採用し、リランキング前の第1位の認識候補A1を最終的な認識結果としてもよい。
上述したような決定部18の処理によれば、第1モデルM1を用いたリランキング、及び第2モデルM2を用いたリランキングの妥当性判定のそれぞれの結果に基づいて、入力画像に対応する正解データである可能性が高い認識候補を、最終的な認識結果として決定することができる。
出力部19は、決定部18により決定された最終的な認識候補列(Y1,…,Yn+m-1)をディスプレイ、プリンタ、又はその他の外部装置等に出力する。本実施形態では、出力部19は、最終的な認識候補列(Y1,…,Yn+m-1)の第1位の認識候補Y1と第2位の認識候補Y2とに関する特徴量(c1,…,c11)を生成する。そして、出力部19は、当該特徴量(c1,…,c11)を第3モデルM3に入力することにより得られる出力値を、最終的な認識結果の確信度として取得する。例えば、出力部19は、最終的な認識結果(認識候補Y1)及び確信度をディスプレイ等に出力することにより、最終的な認識結果及び確信度をユーザに提示できる。なお、出力部19は、最終的な認識結果(認識候補Y1)だけでなく、最終的な認識候補列(Y1,…,Yn+m-1)の一部(例えば上位x個)又は全部を出力してもよい。この場合、正解データである可能性が高い順に複数の認識結果をユーザに提示することにより、ユーザの利便性を向上し得る。
次に、図9を参照して、認識処理を実行する際のパターン認識装置の処理手順(一実施形態に係るパターン認識方法)の一例について説明する。
ステップS401において、取得部13は、入力画像(認識対象のデータ)に対するパターン認識によって得られた複数(ここではn+m個)の認識候補を取得する。本実施形態では、取得部13は、第1認識部11(第1のパターン認識)によって得られたn個の認識候補A1~Anと、第2認識部12(第2のパターン認識)によって得られた認識候補A1~Anとは重複しないm個の認識候補B1~Bmと、を複数の認識候補として取得する。これにより、図2に示されるように、リランキング前の認識候補列(A1,…,An,B1,…,Bm)が得られる。
ステップS402において、算出部17は、リランキング前の第1位の認識候補A1と、他の認識候補K(K=A2~An,B1~Bm)との各ペア(図4に示されるn+m-1個のペア)を生成する。
ステップS403において、算出部17は、ペア毎の特徴量(a1,…,a10)を生成する。そして、算出部17は、ペア毎の特徴量(a1,…,a10)を第1モデルM1に入力することにより得られる第1モデルM1の出力値を、ペア毎(すなわち認識候補K毎)の評価値として取得する。
ステップS404において、決定部18は、認識候補A1に予め割り当てられた基準値(0.5)及び認識候補K(K=A2~An,B1~Bm)毎の評価値を降順に並べ替えることにより、複数の認識候補を並べ替える。すなわち、決定部18は、複数の認識候補の認識順位を更新(リランキング)する。これにより、リランキング後の認識候補列(X1,…,Xn+m-1)が得られる。
ステップS405において、決定部18は、第2モデルM2を用いてリランキングの妥当性を判定する。具体的には、決定部18は、リランキング後の第1位の認識候補X1が認識候補A1とは異なる場合に、認識候補A1と認識候補X1とに関する特徴量(b1,…,b6)を第2モデルM2に入力することにより得られる出力値を、第2評価値として取得する。なお、認識候補X1が認識候補A1と等しい場合(すなわち、リランキングによって第1位の認識候補が変動していない場合)、決定部18は、ステップS405及びS406の処理をスキップして、後述するステップS408へと進んでもよい。
ステップS406において、決定部18は、第2評価値と予め設定された閾値(ここでは0.5)とを比較する。第2評価値が閾値(0.5)以上の場合(ステップS406:YES)には、決定部18は、リランキング後の認識候補列(X1,…,Xn+m-1)を採用し、リランキング後の第1位の認識候補X1を最終的な認識結果とする(ステップS407)。一方、第2評価値が閾値(0.5)未満の場合(ステップS406:NO)には、決定部18は、リランキング前の認識候補列(A1,…,An,B1,…,Bm)を採用し、リランキング前の第1位の認識候補A1を最終的な認識結果とする(ステップS408)。
ステップS409において、出力部19は、最終的な認識候補列の第1位の認識候補Y1と第2位の認識候補Y2とに関する特徴量(c1,…,c11)を生成する。そして、出力部19は、当該特徴量(c1,…,c11)を第3モデルM3に入力することにより得られる出力値を、最終的な認識結果の確信度として取得する。
ステップS410において、出力部19は、最終的な認識結果(認識候補Y1)及び確信度を出力する。これにより、ユーザに最終的な認識結果及び確信度を提示したり、最終的な認識結果に基づいて何らかの情報処理を行う外部装置等に最終的な認識結果を出力したりすることができる。
以上説明したパターン認識装置10では、認識候補A1と各認識候補K(K=A2~An,B1~Bm)との各ペアについて、認識候補Kが正解データである可能性を定量化した評価値が算出される。すなわち、認識候補A1よりも認識候補Kの方が正解データである可能性が高いか否か(換言すれば、認識候補A1の立場と認識候補Kの立場とを入れ替えた方が良いか否か)を示す指標として、認識候補K毎の評価値が算出される。そして、認識候補K毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果が決定される。この構成により、認識スコアに基づく順位(すなわち、リランキング前の認識順位)をそのまま複数の認識候補の最終的な順位として確定することなく、認識候補K毎の評価値に基づいて複数の認識候補の順位を適切に修正した上で最終的な認識結果を決定することが可能となる。従って、パターン認識装置10によれば、認識精度の向上を図ることができる。
また、複数の認識候補を得るために実行されるパターン認識は、第1のパターン認識(第1認識部11)と第1のパターン認識とは異なる第2のパターン認識(第2認識部12)とを含む。取得部13により取得される複数の認識候補は、入力画像に対する第1のパターン認識によって得られる認識候補(認識候補列R1)と、入力画像に対する第2のパターン認識によって得られる認識候補(認識候補列R2)とを含む。このように、複数の互いに異なる認識手法によって得られた認識候補が混在する複数の認識候補に対して、上述した評価値に基づく処理(リランキング)を実行することにより、最終的に正しい認識結果が得られる可能性を高めることができる。例えば、第1のパターン認識によって得られた認識候補列R1の中に入力画像に対応する正解データが含まれておらず、第2のパターン認識によって得られた認識候補列R2(補完候補)の中に正解データが含まれている場合において、当該正解データに対応する認識候補を最終的な認識結果として得ることが可能となる。
また、第1のパターン認識は、入力画像(画像データ)をグレースケール変換することにより得られたグレースケール画像から抽出される特徴量に基づいて入力画像に含まれる物体を認識する処理(本実施形態では、上述した特定物体認識)である。第2のパターン認識は、入力画像の色情報を含む特徴量に基づいて入力画像に含まれる物体を認識する処理(本実施形態では、上述したCNN等のニューラルネットワークを用いた物体認識(類似画像検索))である。上述したように、第1のパターン認識には、比較的少ない辞書画像を用意するだけで簡易的に物体認識を実行できる長所がある一方で、色違いの同一デザインを有する商品同士を精度良く認識することが困難であるという短所がある。第2のパターン認識には、多数の学習用画像を用いてニューラルネットワークを構築する必要があるという短所がある一方で、色情報を特徴量として用いることにより、色違いの同一デザインを有する商品同士を比較的精度良く認識できるという第1のパターン認識の短所を補う長所がある。このように、一方の短所を他方が補う関係にある複数のパターン認識の手法を併用して複数の認識候補を取得し、各認識候補の評価値に基づく処理(リランキング)を行うことにより、最終的に正しい認識結果が得られる可能性を効果的に高めることができる。つまり、一方の認識手法で正解データに対応する認識候補が得られない場合であっても、他方の認識手法で正解データに対応する認識候補が得られることが期待できる。さらに、リランキングによって、正解データに対応する認識候補を最終的な認識結果として得ることが期待できる。
また、決定部18は、算出部17により算出された認識候補K毎の評価値に基づいて、最終的な認識結果の候補となる認識候補X1(第3認識候補)を抽出する。本実施形態では、決定部18は、リランキング後の認識候補列(X1,…,Xn+m-1)を取得する。そして、決定部18は、認識候補X1が認識候補A1とは異なる場合(すなわち、リランキングによって第1位の認識候補が変化した場合)に、認識候補A1と認識候補Xとに関する特徴量(b1,…,b6)に基づいて、認識候補X1を最終的な認識結果とすることの妥当性を定量化した第2評価値を算出する。そして、決定部18は、第2評価値に基づいて認識候補X1を最終的な認識結果とするか否かを決定する。本実施形態では、決定部18は、第2評価値が閾値(0.5)以上である場合に、リランキング後の認識候補列を採用し、認識候補X1を最終的な認識結果とする。このように、リランキングの妥当性の判定結果に基づいてリランキング結果の採否を決定することにより、最終的に正しい認識結果が得られる可能性を高めることができる。
また、上記実施形態では、算出部17は、認識候補A1と認識候補Kとの各ペアについて、認識候補A1と認識候補Kとに関する特徴量(a1,…,a10)を第1モデルM1に入力することにより得られる出力値を評価値として取得する。この構成によれば、認識候補Kが正解データである場合にのみ「1」を出力する(その他の場合には「0」を出力する)ように学習させられた第1モデルM1を用いることにより、認識候補K毎の評価値を適切に算出することができる。
また、上記実施形態では、決定部18は、認識候補X1が認識候補A1とは異なる場合に、認識候補A1と認識候補X1とに関する特徴量(b1,…,b6)を第2モデルM2に入力することにより得られる出力値を第2評価値として取得する。この構成によれば、認識候補X1が正解データである場合にのみ「1」を出力する(その他の場合には「0」を出力する)ように学習させられた第2モデルM2を用いることにより、リランキング結果の妥当性を示す第2評価値を適切に算出することができる。
また、第1モデルM1は、入力画像に対するパターン認識によって得られる複数の認識候補のうちから選択された認識候補A1と認識候補Kとに関する特徴量(a1,…,a10)を入力して、一方の認識候補である認識候補Kが入力画像の正解データである可能性を定量化した評価値を出力するように、コンピュータを機能させるための学習済みモデルである。すなわち、第1モデルM1は、特徴量(a1,…,a10)を入力してから評価値を出力するまでの演算を行うプログラムと、当該演算に用いられる重み付け係数(パラメータ)との組み合わせである。このような第1モデルM1によれば、入力画像に対するパターン認識によって得られた複数の認識候補の順位(認識スコアに基づく順位)を適切に修正(リランキング)するための評価値が得られる。従って、第1モデルM1によれば、認識精度の向上を図ることができる。
なお、本発明者らは、パターン認識装置10の効果を確認するために、上述した第1のパターン認識及び第2のパターン認識において商品毎に10枚の辞書画像を用意すると共に、商品毎に20枚程度の学習用画像を用いて第2のパターン認識に用いられるニューラルネットワーク(CNN)を構築した。そして、このような第1のパターン認識(第1認識部11)及び第2のパターン認識(第2認識部12)を用いて、飲料品155点及びヘアケア商品689点に対して上記認識処理を実行した。
飲料品155点については、特定物体認識(第1のパターン認識)のみを行った場合の正解率(すなわち、第1のパターン認識における第1位の認識候補A1が正解データであった割合)は80%であったのに対して、上記認識処理を実行することにより得られた最終的な認識結果の正解率は83%であった。すなわち、上記認識処理によって3%の精度向上が得られた。ヘアケア商品689点については、特定物体認識(第1のパターン認識)のみを行った場合の正解率は78%であったのに対して、上記認識処理を実行することにより得られた最終的な認識結果の正解率は87%であった。すなわち、上記認識処理によって9%の精度向上が得られた。このような精度向上の要因としては、特定物体認識(第1のパターン認識)に加えて色情報を特徴量として用いることができるディープラーニングをベースとした類似画像検索(第2のパターン認識)を併用し、上述したリランキングを行うことによって、特定物体認識が苦手とする色違いの同一デザインの商品の認識精度を向上させることができたためと考えられる。さらに、第2のパターン認識に用いられるCNNの学習用画像の数を、第2のパターン認識のみによって第1のパターン認識と同等の認識精度を確保するために必要と考えられる数(商品毎に数百枚)よりも少ない数(商品毎に20枚)に抑えつつ、特定物体認識のみを行う場合よりも認識精度を向上できることも確認された。
[変形例]
取得部13が取得する複数の認識候補は、1つのパターン認識手法によって得られた候補であってもよい。この場合でも、評価値に基づくリランキングによって認識精度の向上が期待できる。また、取得部13が取得する複数の認識候補は、3つ以上の互いに異なるパターン認識手法によって得られた候補を含んでもよい。
取得部13が取得する複数の認識候補は、1つのパターン認識手法によって得られた候補であってもよい。この場合でも、評価値に基づくリランキングによって認識精度の向上が期待できる。また、取得部13が取得する複数の認識候補は、3つ以上の互いに異なるパターン認識手法によって得られた候補を含んでもよい。
上記実施形態では、取得部13によって、第1のパターン認識によって得られた認識候補A1~Anの補完候補として、第2のパターン認識によって得られた認識候補B1~Bm(認識候補A1~Anと重複しない認識候補)が取得されたが、これとは逆に、第2のパターン認識によって得られた認識候補の補完候補として、第1のパターン認識によって得られた認識候補が取得されてもよい。
上記実施形態では、第1のパターン認識において第1位の認識スコアを有する認識候補A1をペアの基準となる認識候補としたが、第2のパターン認識において第1位の認識スコアを有する認識候補B1をペアの基準となる認識候補としてもよい。すなわち、複数の認識候補が、互いに異なる複数のパターン認識手法によって得られた候補を含む場合には、いずれかのパターン認識手法において第1位の認識スコアを有する認識候補が、ペアの基準となる認識候補とされてもよい。
上記実施形態では、決定部18は、リランキングが妥当ではないと判定した場合に、リランキング前の第1のパターン認識における第1位の認識候補A1を最終的な認識結果として決定したが(図9のステップS408参照)、認識候補A1以外の認識候補(例えば、第2のパターン認識における第1位の認識候補)を最終的な認識結果として決定してもよい。
第2モデルM2の出力値(第2評価値)に基づくリランキングの妥当性判定は、省略されてもよい。この場合、決定部18は、リランキング後の認識候補列(X1,…,Xn+m-1)を採用し、リランキング後の第1位の認識候補X1を最終的な認識結果としてもよい。この場合でも、評価値に基づくリランキングによって認識精度の向上が期待できる。また、この場合、第2モデル生成部15は省略されてもよい。
出力部19における第3モデルM3を用いた確信度の算出は、省略されてもよい。この場合、第3モデル生成部16は省略されてもよい。
第1認識部11及び第2認識部12は、パターン認識装置10とは異なる外部装置に設けられてもよい。すなわち、パターン認識装置10は、外部装置において実行された第1のパターン認識及び第2のパターン認識の結果を取得できればよく、自ら第1のパターン認識及び第2のパターン認識を実行しなくてもよい。
第1モデルM1に入力される特徴量は、認識候補A1及び認識候補Kに関する特徴を含んでいればよく、特徴量の要素及び次元数は上記例(a1,…,a10)に限られない。第2モデルM2に入力される特徴量は、認識候補A1及び認識候補X1に関する特徴を含んでいればよく、特徴量の要素及び次元数は上記例(b1,…,b6)に限られない。第3モデルM3に入力される特徴量は、最終的な認識結果(認識候補Y1)に関する特徴を含んでいればよく、特徴量の要素及び次元数は上記例(c1,…,c11)に限られない。
また、上記実施形態では、画像データに対するパターン認識に適用される形態について説明したが、パターン認識の対象となるデータは、画像に限られず、音声等の画像以外のデータであってもよい。また、パターン認識は、パターン認識の対象となるデータに応じた認識処理であればよく、上記実施形態で説明された画像認識に限られない。例えば、パターン認識は、文字認識、音声認識等の画像認識以外の認識処理であってもよい。
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。
例えば、本開示の一実施の形態におけるパターン認識装置10は、本開示のパターン認識方法を行うコンピュータとして機能してもよい。図10は、本開示の一実施の形態に係るパターン認識装置10のハードウェア構成の一例を示す図である。上述のパターン認識装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。パターン認識装置10のハードウェア構成は、図10に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
パターン認識装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、決定部18は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係るパターン認識方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
また、パターン認識装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
情報等は、上位レイヤ(又は下位レイヤ)から下位レイヤ(又は上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及びシンボルの少なくとも一方は信号(シグナリング)であってもよい。また、信号はメッセージであってもよい。
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々な情報要素は、あらゆる好適な名称によって識別できるので、これらの様々な情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
10…パターン認識装置、11…第1認識部、12…第2認識部、13…取得部、14…第1モデル生成部、15…第2モデル生成部、16…第3モデル生成部、17…算出部、18…決定部、19…出力部、M1…第1モデル(学習済みモデル)、M2…第2モデル、M3…第3モデル。
Claims (7)
- 入力データに対するパターン認識によって得られ、認識の確からしさを示す認識スコアをそれぞれ有する複数の認識候補を取得する取得部と、
前記複数の認識候補のうち第1位の認識スコアを有する認識候補である第1認識候補と他の認識候補である第2認識候補との各ペアについて、前記第1認識候補と前記第2認識候補とに関する特徴量に基づいて、前記第2認識候補が前記入力データに対応する正解データである可能性を定量化した評価値を算出する算出部と、
前記算出部により算出された前記第2認識候補毎の前記評価値に基づいて、前記複数の認識候補のうちから最終的な認識結果を決定する決定部と、
を備えるパターン認識装置。 - 前記パターン認識は、第1のパターン認識と前記第1のパターン認識とは異なる第2のパターン認識とを含み、
前記取得部により取得される前記複数の認識候補は、前記入力データに対する第1のパターン認識によって得られる認識候補と、前記入力データに対する前記第2のパターン認識によって得られる認識候補とを含む、請求項1に記載のパターン認識装置。 - 前記入力データは、画像データであり、
前記第1のパターン認識は、前記画像データをグレースケール変換することにより得られたグレースケール画像から抽出される特徴量に基づいて前記画像データに含まれる物体を認識する手法であり、
前記第2のパターン認識は、前記画像データの色情報を含む特徴量に基づいて前記画像データに含まれる物体を認識する手法である、請求項2に記載のパターン認識装置。 - 前記決定部は、
前記算出部により算出された前記第2認識候補毎の前記評価値に基づいて、前記最終的な認識結果の候補となる第3認識候補を抽出し、
前記第3認識候補が前記第1認識候補とは異なる場合に、前記第1認識候補と前記第3認識候補とに関する特徴量に基づいて、前記第3認識候補を前記最終的な認識結果とすることの妥当性を定量化した第2評価値を算出し、
前記第2評価値に基づいて前記第3認識候補を前記最終的な認識結果とするか否かを決定する、請求項1~3のいずれか一項に記載のパターン認識装置。 - 認識対象のデータに対する前記パターン認識によって得られる2つの認識候補に関する特徴量を説明変数とし、前記2つの認識候補のうちの一方の認識候補が前記認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする第1学習データを用いて機械学習を実行することにより、第1モデルを生成する第1モデル生成部を更に備え、
前記算出部は、前記各ペアについて、前記第1認識候補と前記一方の認識候補としての前記第2認識候補とに関する特徴量を前記第1モデルに入力することにより得られる出力値を前記評価値として取得する、請求項1~4のいずれか一項に記載のパターン認識装置。 - 認識対象のデータに対する前記パターン認識によって得られる2つの認識候補に関する特徴量を説明変数とし、前記2つの認識候補のうちの一方の認識候補が前記認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする第1学習データを用いて機械学習を実行することにより、第1モデルを生成する第1モデル生成部と、
第2モデルを生成する第2モデル生成部と、を更に備え、
前記第2モデル生成部は、
前記認識対象のデータに対する前記パターン認識によって得られ、認識の確からしさを示す認識スコアをそれぞれ有する複数の認識候補を取得し、
前記複数の認識候補のうち第1位の認識スコアを有する認識候補である第4認識候補と他の認識候補である第5認識候補との各ペアについて、前記第4認識候補と前記一方の認識候補としての前記第5認識候補とに関する特徴量を前記第1モデルに入力することにより、前記第5認識候補毎の評価値を取得し、
前記第5認識候補毎の前記評価値に基づいて、最終的な認識結果の候補となる第6認識候補を抽出し、
前記第6認識候補が前記第4認識候補とは異なる場合に、前記第4認識候補と前記第6認識候補とに関する特徴量を説明変数とし、前記第6認識候補が正解データであるか否かを示す指標値を目的変数とする第2学習データを生成し、
前記第2学習データを用いて機械学習を実行することにより、前記第2モデルを生成し、
前記決定部は、前記第3認識候補が前記第1認識候補とは異なる場合に、前記第1認識候補と前記第3認識候補とに関する特徴量を前記第2モデルに入力することにより得られる出力値を前記第2評価値として取得する、請求項4に記載のパターン認識装置。 - 入力データに対するパターン認識によって得られる複数の認識候補のうちから選択された第1認識候補と第2認識候補とに関する特徴量を入力して、一方の認識候補である前記第2認識候補が前記入力データに対応する正解データである可能性を定量化した評価値を出力するように、コンピュータを機能させるための学習済みモデルであって、
認識対象のデータに対する前記パターン認識によって得られた2つの認識候補に関する特徴量を説明変数とし、前記2つの認識候補のうちの一方の認識候補が前記認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする学習データを用いた機械学習を実行することにより生成された学習済みモデル。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018188160 | 2018-10-03 | ||
JP2018188160 | 2018-10-03 | ||
PCT/JP2019/027775 WO2020070943A1 (ja) | 2018-10-03 | 2019-07-12 | パターン認識装置及び学習済みモデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020070943A1 JPWO2020070943A1 (ja) | 2021-09-02 |
JP7264911B2 true JP7264911B2 (ja) | 2023-04-25 |
Family
ID=70055391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020549965A Active JP7264911B2 (ja) | 2018-10-03 | 2019-07-12 | パターン認識装置及び学習済みモデル |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210166063A1 (ja) |
JP (1) | JP7264911B2 (ja) |
WO (1) | WO2020070943A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12067708B2 (en) * | 2020-09-08 | 2024-08-20 | Rakuten Group, Inc. | Image judgement apparatus, image judgement method and non-transitory computer readable medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0785277A (ja) * | 1993-09-13 | 1995-03-31 | Nippon Telegr & Teleph Corp <Ntt> | データ分類方式 |
JP3761937B2 (ja) * | 1995-09-18 | 2006-03-29 | キヤノン株式会社 | パターン認識方法及び装置及びコンピュータ制御装置 |
JP2005044330A (ja) * | 2003-07-24 | 2005-02-17 | Univ Of California San Diego | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
TWI652634B (zh) * | 2018-01-31 | 2019-03-01 | 緯創資通股份有限公司 | 自助結帳方法及其系統 |
-
2019
- 2019-07-12 WO PCT/JP2019/027775 patent/WO2020070943A1/ja active Application Filing
- 2019-07-12 JP JP2020549965A patent/JP7264911B2/ja active Active
- 2019-07-12 US US17/267,890 patent/US20210166063A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210166063A1 (en) | 2021-06-03 |
JPWO2020070943A1 (ja) | 2021-09-02 |
WO2020070943A1 (ja) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10460029B2 (en) | Reply information recommendation method and apparatus | |
CN107844560B (zh) | 一种数据接入的方法、装置、计算机设备和可读存储介质 | |
CN111566646B (zh) | 用于对数据进行混淆和解码的电子装置以及用于控制该电子装置的方法 | |
JP6751684B2 (ja) | 類似画像検索装置 | |
CN111445440B (zh) | 一种医学图像分析方法、设备和存储介质 | |
US20210157983A1 (en) | Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents | |
US9396407B2 (en) | Image recognition device, recording medium, and image recognition method | |
US10614312B2 (en) | Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor | |
JP7364709B2 (ja) | 機械学習および自然言語処理を利用したワクチン接種データの抽出および確認 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
WO2020040253A1 (ja) | 予測解釈装置、及び予測解釈方法 | |
CN109886311B (zh) | 增量聚类方法、装置、电子设备和计算机可读介质 | |
CN110096573A (zh) | 一种文本解析方法及相关设备 | |
US11663420B2 (en) | Dialogue system | |
JP7264911B2 (ja) | パターン認識装置及び学習済みモデル | |
CN116127376A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN111385659B (zh) | 一种视频推荐方法、装置、设备及存储介质 | |
CN114511085A (zh) | 实体属性值的识别方法、装置、设备、介质及程序产品 | |
EP4278315A1 (en) | Ticket troubleshooting support system | |
WO2021020299A1 (ja) | 人気度推定システム及び地理的特徴生成モデル | |
JP2021124913A (ja) | 検索装置 | |
CN111858907A (zh) | 文本处理方法、装置、设备和存储介质 | |
US9378466B2 (en) | Data reduction in nearest neighbor classification | |
CN114332529A (zh) | 图像分类模型的训练方法、装置、电子设备及存储介质 | |
CN114663718A (zh) | 训练装置、方法、设备以及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7264911 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |