JP7264911B2

JP7264911B2 - パターン認識装置及び学習済みモデル

Info

Publication number: JP7264911B2
Application number: JP2020549965A
Authority: JP
Inventors: 一成中村; 利明杉村; 隼赤塚
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2018-10-03
Filing date: 2019-07-12
Publication date: 2023-04-25
Anticipated expiration: 2039-07-12
Also published as: WO2020070943A1; JPWO2020070943A1; US20210166063A1; US12190237B2

Description

本発明の一側面は、パターン認識装置及び学習済みモデルに関する。

従来、予め用意された認識辞書に記憶されたパターンの中から、入力された未知のパターン（例えば、音声及び画像等）に適合する認識候補を出力するシステムが知られている。

例えば、特許文献１には、認識対象である未知のパターンに対して複数の異なる認識手法を適用して得られた認識候補を統合して出力する際に、個々の認識手法において得られた認識候補を適切な順に配置することを可能とするパターン認識装置が開示されている。具体的には、上記パターン認識装置は、複数の認識手法により得られた各認識候補の認識スコアを、複数種類の認識手法に共通の尺度による正解度に変換することにより、各認識候補を適切に順序付ける。

特開平９－８１７３０号公報

しかしながら、上記パターン認識装置では、ある認識処理手法によって得られた認識候補間の順序は維持されたままである。すなわち、ある認識処理手法における第１位の認識スコアを有する認識候補と第２位以下の認識スコアを有する認識候補との間では、順位は変動しない。このため、上記パターン認識装置では、第２位以下の認識スコアを有する認識候補が認識対象の未知のパターンに対応する正解データである場合において、正解データに対応する認識候補を最終的な認識結果（第１位の認識結果）として得ることはできない。このため、上記パターン認識装置には、認識精度の向上を図る上で改善の余地がある。

そこで、本発明の一側面は、認識精度の向上を図ることができるパターン認識装置及び学習済みモデルを提供することを目的とする。

本発明の一側面に係るパターン認識装置は、入力データに対するパターン認識によって得られ、認識の確からしさを示す認識スコアをそれぞれ有する複数の認識候補を取得する取得部と、複数の認識候補のうち第１位の認識スコアを有する認識候補である第１認識候補と他の認識候補である第２認識候補との各ペアについて、第１認識候補と第２認識候補とに関する特徴量に基づいて、第２認識候補が入力データに対応する正解データである可能性を定量化した評価値を算出する算出部と、算出部により算出された第２認識候補毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果を決定する決定部と、を備える。

上記パターン認識装置では、第１認識候補と各第２認識候補との各ペアについて、第２認識候補が正解データである可能性を定量化した評価値が算出される。すなわち、第１認識候補よりも第２認識候補の方が正解データである可能性が高いか否か（換言すれば、第１認識候補の立場と第２認識候補の立場とを入れ替えた方が良いか否か）を示す指標として、第２認識候補毎の評価値が算出される。そして、第２認識候補毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果が決定される。この構成によれば、認識スコアに基づく順位をそのまま複数の認識候補の最終的な順位として確定することなく、認識候補毎の評価値に基づいて複数の認識候補の順位を適切に修正した上で最終的な認識結果を決定することが可能となる。従って、上記パターン認識装置によれば、認識精度の向上を図ることができる。

本発明の一側面に係る学習済みモデルは、入力データに対するパターン認識によって得られる複数の認識候補のうちから選択された第１認識候補と第２認識候補とに関する特徴量を入力して、一方の認識候補である第２認識候補が入力データに対応する正解データである可能性を定量化した評価値を出力するように、コンピュータを機能させるための学習済みモデルであって、認識対象のデータに対するパターン認識によって得られた２つの認識候補に関する特徴量を説明変数とし、２つの認識候補のうちの一方の認識候補が認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする学習データを用いた機械学習を実行することにより生成される。

上記学習済みモデルによれば、入力データに対するパターン認識によって得られた複数の認識候補の順位（認識スコアに基づく順位）を適切に修正するための評価値が得られる。従って、上記学習済みモデルによれば、認識精度の向上を図ることができる。

本発明の一側面によれば、認識精度の向上を図ることができるパターン認識装置及び学習済みモデルを提供することができる。

一実施形態に係るパターン認識装置の機能構成を示すブロック図である。取得部によって取得される認識候補列の例を示す図である。第１モデル生成部の処理の一例を示すフローチャートである。第１モデル生成部により生成される認識候補のペアを示す図である。第１モデルの生成方法（学習方法）を示す図である。第２モデル生成部の処理の一例を示すフローチャートである。第２モデルの生成方法（学習方法）を示す図である。第３モデル生成部の処理の一例を示すフローチャートである。パターン認識装置による認識処理の一例を示すフローチャートである。パターン認識装置のハードウェア構成の一例を示すブロック図である。

以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。

図１は、一実施形態に係るパターン認識装置１０の機能構成を示すブロック図である。パターン認識装置１０は、画像データを入力データとして取得し、当該画像データに含まれる物体を認識（識別、特定）するコンピュータシステムである。例えば、画像データは、ある商品（例えば、食品、飲料品、トイレタリー等の日用品等）を被写体として含む。パターン認識装置１０は、予め商品毎に用意された辞書画像（画像データベース）の中から、入力された画像データに対応する正解データであると推定される辞書画像を最終的な認識結果として決定及び出力する。ここで、画像データが商品Ａを被写体として含む場合、当該画像データに対応する正解データは、商品Ａの画像として予め登録された辞書画像である。この場合、商品Ａの辞書画像が最終的な認識結果として出力された場合に、画像データが正しく認識されたことになる。

本実施形態では、パターン認識装置１０は、学習処理及び認識処理の両方を実行するように構成されている。学習処理は、機械学習によって学習済みモデル（本実施形態では、第１モデルＭ１、第２モデルＭ２、及び第３モデルＭ３）を生成する処理である。認識処理は、学習処理によって生成された学習済みモデルを用いることによって、認識対象となる画像データ（以下「入力画像」ともいう。）に被写体として含まれる物体（商品）を認識する処理である。このような入力画像は、例えば、スマートフォン、タブレット等の端末のカメラ機能を用いて認識対象となる商品を撮像することによって得られる。

図１に示されるように、パターン認識装置１０は、第１認識部１１と、第２認識部１２と、取得部１３と、第１モデル生成部１４と、第２モデル生成部１５と、第３モデル生成部１６と、算出部１７と、決定部１８と、出力部１９と、を備える。学習処理は、第１認識部１１と、第２認識部１２と、取得部１３と、第１モデル生成部１４と、第２モデル生成部１５と、第３モデル生成部１６と、によって実行される。認識処理は、第１認識部１１と、第２認識部１２と、取得部１３と、算出部１７と、決定部１８と、出力部１９と、によって実行される。

第１認識部１１及び第２認識部１２のそれぞれは、入力画像に対するパターン認識（本実施形態では画像認識）を実行することにより、複数の認識候補を出力する。複数の認識候補の各々は、認識候補を一意に特定するための識別情報（例えば、辞書画像を特定するための画像ＩＤ）と、認識の確からしさを示す認識スコアと、を有する。第１認識部１１は、第１のパターン認識を実行する。第２認識部１２は、第１のパターン認識とは異なる第２のパターン認識を実行する。第１認識部１１及び第２認識部１２のそれぞれは、予め商品毎に用意された辞書画像を記憶する画像データベースと、入力画像から抽出される特徴量と各辞書画像の特徴量とを比較することによって入力画像との類似度が高い複数の認識候補（例えば上位ｎ個の認識候補）を抽出する認識エンジンと、によって構成され得る。

第１認識部１１によって実行される第１のパターン認識は、入力画像をグレースケール変換することにより得られたグレースケール画像から特徴量（特徴点）を抽出し、当該特徴量に基づいて入力画像に含まれる物体を認識する手法である。例えば、第１のパターン認識は、いわゆる特定物体認識と呼ばれる認識アルゴリズムであり、グレースケール画像から抽出された局所特徴量に基づいて入力画像に含まれる物体を認識する。このような第１のパターン認識は、色情報（例えばＲＧＢ値等）を特徴量として含まないことにより、特徴量の次元数を抑えることができる。このため、比較的高速かつ少ない辞書画像（例えば１商品当たり１つの辞書画像）で、入力画像に含まれる物体を比較的精度良く認識できるという長所を有する。一方で、第１のパターン認識は、色情報を特徴量として含まないため、色違いの同一デザインを有する商品同士を精度良く認識（識別）することが困難であるという短所を有する。

第２認識部１２によって実行される第２のパターン認識は、入力画像の色情報を含む特徴量に基づいて入力画像に含まれる物体を認識する手法である。例えば、第２のパターン認識は、ディープラーニングによって構築されたＣＮＮ（Convolutional Neural Network）等のニューラルネットワークを上記認識エンジンとして用いることにより、物体認識（類似画像検索）を実行する。第２のパターン認識は、色情報を特徴量として含むため、上述した第１のパターン認識と比較して、色違いの同一デザインを有する商品同士（例えば、互いに異なる属性（味、香り等）を有する同一ブランドの商品同士）を精度良く認識することが可能であるという長所を有する。一方で、第２のパターン認識の認識精度を第１のパターン認識と同等の精度まで高めるためには、多数の学習データ（１商品当たり数百枚程度の学習用画像）を用いて上記ニューラルネットワークを構築する必要があるという短所がある。

取得部１３は、入力画像に対するパターン認識によって得られた複数の認識候補を取得する。上述した通り、各認識候補は、画像ＩＤと認識スコアとを有する。すなわち、各認識候補には、画像ＩＤと認識スコアとが関連付けられている。本実施形態では一例として、取得部１３は、ある１つの入力画像について、第１認識部１１（第１のパターン認識）によって得られた複数の認識候補（ここでは、認識スコア順で上位ｎ個の認識候補Ａ１～Ａｎ）と、第２認識部１２（第２のパターン認識）によって得られた複数の認識候補（ここでは、認識候補Ａ１～Ａｎと重複する認識候補が除外された中で、認識スコア順で上位ｍ個の認識候補Ｂ１～Ｂｍ）と、を複数の認識候補として取得する。ここで、ｎ及びｍは、予め任意に定められた値である。本実施形態では、第１のパターン認識によって得られた認識候補Ａ１～Ａｎを補完するための認識候補として、第２のパターン認識によって得られた認識候補Ｂ１～Ｂｍ（認識候補Ａ１～Ａｎと重複しない認識候補）が取得される。取得部１３は、認識候補Ａ１～Ａｎ及び認識候補Ｂ１～Ｂｍをこの順に並べた認識候補列を取得する。

図２は、取得部１３により取得される認識候補列（ｍ＋ｎ個の認識候補）の例を模式的に示す図である。図２において、認識候補列Ｒ１は、第１のパターン認識によって得られた認識候補Ａ１～Ａｎを認識スコア順に並べた列であり、認識候補列Ｒ２は、第２のパターン認識によって得られた認識候補Ｂ１～Ｂｍを認識スコア順に並べた列である。また、図２において黒塗りされた認識候補は、入力画像に対応する正解データである。

図２の（Ａ）は、第１のパターン認識における第１位の認識候補Ａ１（第１位の認識スコアを有する認識候補）が正解データである例を示している。すなわち、図２の（Ａ）は、第１のパターン認識によって正しい認識結果が得られた例（正例）を示している。

一方、図２の（Ｂ）は、第１のパターン認識における第２位以下の認識候補が正解データであった例を示している。また、図２の（Ｃ）は、第２のパターン認識によって得られた補完候補（ここでは一例として、認識候補Ｂ１）が正解データであった例を示している。すなわち、図２の（Ｂ）及び（Ｃ）は、第１のパターン認識によって正しい認識結果が得られなかった例（すなわち、認識候補Ａ１が正解データではない例（負例））を示している。

第１モデル生成部１４は、取得部１３により取得された認識候補列の認識順位を更新（すなわち、再順序付け（リランキング））するために利用される第１モデルＭ１を生成する。例えば、図２の（Ｂ）及び（Ｃ）に示したような負例において、正解データに対応する認識候補の認識順位を繰り上げて最終的な認識結果（第１位の認識候補）とすることができれば、認識精度を向上させることができる。第１モデルＭ１は、このような認識順位の更新に用いるための評価値を出力する。

第１モデルＭ１は、例えばＸＧｂｏｏｓｔ等のブースティングアルゴリズム等によって学習される識別器である。第１モデル生成部１４は、入力画像に対するパターン認識によって得られる２つの認識候補に関する特徴量を説明変数とし、上記２つの認識候補のうちの一方の認識候補が認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする第１学習データを用いて機械学習を実行することにより、第１モデルＭ１を生成する。

図３を参照して、第１モデル生成部１４の処理の一例について説明する。

ステップＳ１０１において、第１モデル生成部１４は、ある入力画像（認識対象のデータ）に対するパターン認識によって得られた複数（ここではｎ＋ｍ個）の認識候補を取得する。具体的には、第１モデル生成部１４は、上記入力画像に対して上述した第１認識部１１、第２認識部１２、及び取得部１３の処理が実行されることによって得られた認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）を取得する。

ステップＳ１０２において、第１モデル生成部１４は、複数の認識候補のうちから２つの認識候補を抽出することによってペアを生成する。本実施形態では一例として、第１モデル生成部１４は、第１のパターン認識における第１位の認識スコアを有する認識候補Ａ１と、他の認識候補Ａ２～Ａｎ，Ｂ１～Ｂｍとの各ペアを生成する。これにより、図４に示されるように、認識候補Ａ１と認識候補Ａ２とのペアＰ_２（Ａ１，Ａ２）から、認識候補Ａ１と認識候補ＢｍとのペアＰ_ｎ＋ｍ（Ａ１，Ｂｍ）までのｎ＋ｍ－１個のペアが生成される。

ステップＳ１０３において、第１モデル生成部１４は、ペア毎の特徴量を生成する。本実施形態では一例として、第１モデル生成部１４は、認識候補Ａ１と認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）とのペアの特徴量（認識候補Ａ１と認識候補Ｋとに関する特徴量）として、以下の要素ａ１～ａ１０からなる１０次元の特徴量を生成する。ここで、「スコア_ｋ」は、認識候補ｋの認識スコアである。「類似度」は、ディープラーニングにより構築されたＣＮＮによって抽出された特徴量同士のコサイン距離である。「類似度_ｋ」は、入力画像の特徴量と認識候補ｋの特徴量とのコサイン距離である。
＜認識候補Ａ１と認識候補Ｋとのペアの特徴量の一例＞
ａ１＝スコア_Ｋ÷スコア_Ａ１
ａ２＝（スコア_Ａ１－スコア_Ｋ）÷スコア_Ａ１
ａ３＝類似度_Ａ１
ａ４＝類似度_Ｋ
ａ５＝類似度_Ａ１－類似度_Ｋ
ａ６＝類似度_Ｋ÷類似度_Ａ１
ａ７＝スコア_Ａ１×類似度_Ａ１
ａ８＝スコア_Ｋ×類似度_Ｋ
ａ９＝（スコア_Ａ１×類似度_Ａ１）－（スコア_Ｋ×類似度_Ｋ）
ａ１０＝（スコア_Ｋ×類似度_Ｋ）÷（スコア_Ａ１×類似度_Ａ１）

ステップＳ１０４において、第１モデル生成部１４は、２つの認識候補に関する特徴量（ここでは、認識候補Ａ１と認識候補Ｋとのペアの特徴量）を説明変数（入力）とし、上記２つの認識候補のうちの一方の認識候補（ここでは認識候補Ｋ）が入力画像に対応する正解データであるか否かを示す指標値を目的変数とする第１学習データを生成する。本実施形態では、当該指標値は、認識候補Ｋが入力画像に対応する正解データである場合に「１」に設定され、認識候補Ｋが入力画像に対応する正解データでない場合に「０」に設定されるフラグ値である。すなわち、当該指標値は、認識候補Ｋの認識順位を第１位にする（換言すれば、認識候補Ａ１の立場と認識候補Ｋの立場とを入れ替える）ことによって正しい認識結果が得られる場合に「１」となり、それ以外の場合に「０」となる。本実施形態では、１つの入力画像に対するステップＳ１０１～Ｓ１０４の処理によって、ｎ＋ｍ－１個（すなわち、ペアの個数）の第１学習データが生成される。

ステップＳ１０５において、第１モデル生成部１４は、第１学習データを更に生成するか否かを判定する。例えば、第１モデル生成部１４は、指標値が「０」となる第１学習データ及び指標値が「１」となる第１学習データのそれぞれが第１モデルＭ１の精度を担保するのに十分な数だけ得られるまで、他の入力画像（ステップＳ１０１～Ｓ１０４の処理が実行されていない入力画像）についてステップＳ１０１と同様の処理を実行し（ステップＳ１０５：ＹＥＳ→ステップＳ１０６）、その実行結果に対してステップＳ１０２～Ｓ１０４の処理を実行する。これにより、他の入力画像についての第１学習データが生成される。十分な数の第１学習データが得られ、第１学習データを更に生成する必要がない場合には（ステップＳ１０５：ＮＯ）、第１モデル生成部１４は、第１学習データに基づく機械学習を実行することにより、第１モデルＭ１を生成する（ステップＳ１０７）。

図５は、第１モデルＭ１の生成方法（学習方法）を示す図である。図５において、黒塗りされた認識候補は、入力画像に対応する正解データを示している。ここで、負例は、第１のパターン認識によって正しい認識結果が得られなかった例（すなわち、認識候補Ａ１が入力画像に対応する正解データではない例）である。一方、正例は、第１のパターン認識によって正しい認識結果が得られた例（すなわち、認識候補Ａ１が入力画像に対応する正解データである例）である。

図５において、「負例１」は、認識候補Ｋが入力画像に対応する正解データであるペアを示している。当該ペアに対応する第１学習データは、当該ペアの特徴量（ａ１，…，ａ１０）を説明変数とし、指標値「１」を目的変数とするデータとなる。「負例２」は、認識候補Ａ１及び認識候補Ｋのいずれも入力画像に対応する正解データではないペアを示している。当該ペアに対応する第１学習データは、当該ペアの特徴量（ａ１，…，ａ１０）を説明変数とし、指標値「０」を目的変数とするデータとなる。「正例」は、認識候補Ａ１が入力画像に対応する正解データであるペアを示している。当該ペアに対応する第１学習データは、当該ペアの特徴量（ａ１，…，ａ１０）を説明変数とし、指標値「０」を目的変数とするデータとなる。

このような第１学習データを用いることにより、認識候補Ｋが正解データである場合にのみ「１」を出力するように第１モデルＭ１を学習させることができる。つまり、このような機械学習によって構築された第１モデルＭ１の出力値は、認識候補Ｋが入力画像の正解データである可能性（換言すれば、認識候補Ａ１の立場と認識候補Ｋの立場とを入れ替えることによって正しい認識結果が得られる確率（入れ替え確率））を示すことになる。よって、ある入力画像に対する認識処理を実行する際には、認識候補Ａ１と認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）との各ペアの特徴量を第１モデルＭ１に入力することにより認識候補Ｋ毎の出力値を算出し、当該出力値の降順に複数の認識候補を並べ替えることにより、当該入力画像に対応する正解データである可能性が高い順に複数の認識候補を並べ替えることが可能となる。

なお、上記の仕組みでは、認識候補Ａ１に対応する第１モデルＭ１の出力値は得られないが、認識候補Ａ１には、各認識候補Ｋの出力値に対応する値（基準値）として「０．５」を割り当てればよい。その理由は以下の通りである。第１モデルＭ１の出力値が０．５より高いことは、認識候補Ａ１よりも認識候補Ｋの方が入力画像に対応する正解データである可能性が高いこと（すなわち、認識候補Ａ１の立場と認識候補Ｋの立場とを入れ替えるべきであること）を意味する。一方、第１モデルＭ１の出力値が０．５より低いことは、認識候補Ｋよりも認識候補Ａ１の方が入力画像に対応する正解データである可能性が高いこと（すなわち、認識候補Ａ１の立場と認識候補Ｋの立場とを入れ替えるべきではないこと）を意味する。すなわち、上述のように学習された第１モデルＭ１においては、「０．５」が認識候補Ａ１の立場と認識候補Ｋの立場とを入れ替えるべきか否かの境界値となる。よって、認識候補Ａ１に、「０．５」を割り当てることにより、上述した複数の認識候補の並べ替えを適切に行うことが可能となる。

第２モデル生成部１５は、上述した第１モデルＭ１の出力値に基づく並べ替え（リランキング）を行った結果の妥当性を判定するための第２モデルＭ２を生成する。第２モデルＭ２は、例えば、ＸＧｂｏｏｓｔ等のブースティングアルゴリズム等によって学習される識別器である。

図６を参照して、第２モデル生成部１５の処理の一例について説明する。

ステップＳ２０１及びＳ２０２の処理は、上述したステップＳ１０１及びＳ１０２の処理と同様である。すなわち、ステップＳ２０１において、第２モデル生成部１５は、ある入力画像（認識対象のデータ）に対するパターン認識によって得られた複数（ここではｎ＋ｍ個）の認識候補を取得する。ステップＳ２０２において、第２モデル生成部１５は、複数の認識候補のうちから２つの認識候補を抽出することによってペアを生成する。これにより、図４に示されるように、認識候補Ａ１と認識候補Ａ２とのペアＰ_２（Ａ１，Ａ２）から、認識候補Ａ１と認識候補ＢｍとのペアＰ_ｎ＋ｍ（Ａ１，Ｂｍ）までのｎ＋ｍ－１個のペアが生成される。

ステップＳ２０３において、第２モデル生成部１５は、第１位の認識スコアを有する認識候補Ａ１（第４認識候補）と他の認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）（第５認識候補）との各ペアについて、認識候補Ａ１と一方の認識候補としての認識候補Ｋとに関する特徴量（ａ１，…，ａ１０）を生成する。

ステップＳ２０４において、第２モデル生成部１５は、認識候補Ａ１と認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）との各ペアについて、ペア毎の特徴量（ａ１，…，ａ１０）を第１モデルＭ１に入力することにより得られる第１モデルＭ１の出力値を、ペア毎（すなわち認識候補Ｋ毎）の評価値として取得する。

ステップＳ２０５において、第２モデル生成部１５は、認識候補Ｋ毎の評価値に基づいて、最終的な認識結果の候補となる認識候補Ｘ１（第６認識候補）を抽出する。具体的には、第２モデル生成部１５は、認識候補Ａ１に予め割り当てられた基準値（０．５）と認識候補Ｋ毎の評価値とのうち最大の値を有する認識候補Ｘ１（Ｘ１は、Ａ１～Ａｎ及びＢ１～Ｂｍのいずれか）を抽出する。認識候補Ｘ１は、第１モデルＭ１の出力値（評価値）に基づくリランキング後において、第１位の認識順位を有する認識候補である。

ステップＳ２０６において、第２モデル生成部１５は、認識候補Ｘ１が認識候補Ａ１と同一であるか否かを判定する。認識候補Ｘ１が認識候補Ａ１とは異なる場合（ステップＳ２０６：ＮＯ）、第２モデル生成部１５は、第２学習データを生成する（ステップＳ２０７）。一方、認識候補Ｘ１が認識候補Ａ１と同一である場合（ステップＳ２０６：ＹＥＳ）、リランキングの前後で第１位の認識候補に変動はなく（すなわち、認識候補Ａ１が第１位のままであり）、リランキングの妥当性を評価する対象とはならないため、第２モデル生成部１５は、ステップＳ２０７の処理をスキップする。

ステップＳ２０７において、第２モデル生成部１５は、まず、認識候補Ａ１と認識候補Ｘ１とに関する特徴量を生成する。本実施形態では一例として、第２モデル生成部１５は、認識候補Ａ１と認識候補Ｘ１とに関する特徴量として、以下の要素ｂ１～ｂ６からなる６次元の特徴量を生成する。
＜認識候補Ａ１と認識候補Ｘ１とのペアの特徴量の一例＞
ｂ１＝スコア_Ａ１
ｂ２＝類似度_Ａ１
ｂ３＝スコア_Ｘ１
ｂ４＝類似度_Ｘ１
ｂ５＝認識候補Ｘ１の評価値（第１モデルＭ１の出力値）
ｂ６＝認識候補Ａ１（辞書画像）と認識候補Ｘ１（辞書画像）との類似度

続いて、第２モデル生成部１５は、認識候補Ａ１と認識候補Ｘ１とに関する特徴量（ｂ１，…，ｂ６）を説明変数とし、認識候補Ｘ１が正解データであるか否かを示す指標値を目的変数とする第２学習データを生成する。本実施形態では、当該指標値は、認識候補Ｘ１が入力画像に対応する正解データである場合に「１」に設定され、認識候補Ａ１が入力画像に対応する正解データである場合に「０」に設定されるフラグ値である。すなわち、当該指標値は、認識候補Ｘ１の認識順位を第１位にする（すなわち、認識候補Ａ１の立場と認識候補Ｘ１の立場とを入れ替える）ことによって正しい認識結果が得られる場合（すなわち、第１モデルＭ１の出力値（評価値）に基づくリランキングが妥当な場合）に「１」となり、それ以外の場合に「０」となる。

なお、認識候補Ａ１及び認識候補Ｘ１のいずれも入力画像に対応する正解データではない場合には、リランキングの妥当性を判定する意味がないため、第２学習データの生成対象から除外される。すなわち、第２モデル生成部１５は、認識候補Ｘ１が正解データである場合（リランキングが妥当な場合を示す正例）及び認識候補Ａ１が正解データである場合（リランキングが妥当でない場合を示す負例）のいずれかに対応する第２学習データを生成する。

ステップＳ２０８において、第２モデル生成部１５は、第２学習データを更に生成するか否かを判定する。例えば、第２モデル生成部１５は、正例及び負例のそれぞれに対応する第２学習データが第２モデルＭ２の精度を担保するのに十分な数だけ得られるまで、他の入力画像（ステップＳ２０１～Ｓ２０７の処理が実行されていない入力画像）についてステップＳ２０１と同様の処理を実行し（ステップＳ２０８：ＹＥＳ→ステップＳ２０９）、その実行結果に対してステップＳ２０２～Ｓ２０７の処理を実行する。これにより、他の入力画像についての第２学習データを生成することが可能となる。ただし、ステップＳ２０７がスキップされる場合、及び認識候補Ａ１及び認識候補Ｘ１のいずれも入力画像に対応する正解データではない場合（上述した正例及び負例のいずれにも該当しない場合）等には、新たな第２学習データは得られない。その場合、新たな第２学習データが得られるまで他の入力画像に対する処理を継続すればよい。十分な数の第２学習データが得られ、第２学習データを更に生成する必要がない場合には（ステップＳ２０８：ＮＯ）、第２モデル生成部１５は、第２学習データに基づく機械学習を実行することにより、第２モデルＭ２を生成する（ステップＳ２１０）。

図７は、第２モデルＭ２の生成方法（学習方法）を示す図である。図７において、黒塗りされた認識候補は、入力画像に対応する正解データを示している。ここで、正例は、第１モデルＭ１の出力値（評価値）に基づくリランキング（認識候補Ｘ１の順位を第１位に変更する処理）によって正しい認識結果が得られた例である。一方、負例は、上記リランキングによって正しい認識結果が得られなくなった例（すなわち、リランキングを行っていなければ正しい認識結果が得られた例）である。

図７に示されるように、正例に該当するペアに対応する第２学習データは、当該ペアの特徴量（ｂ１，…，ｂ６）を説明変数とし、指標値「１」を目的変数とするデータとなる。負例に該当するペアに対応する第２学習データは、当該ペアの特徴量（ｂ１，…，ｂ６）を説明変数とし、指標値「０」を目的変数とするデータとなる。

このような第２学習データを用いることにより、リランキングが妥当な場合（すなわち、認識候補Ｘ１が正解データである場合）にのみ「１」を出力するように第２モデルＭ２を学習させることができる。つまり、このような機械学習によって構築された第２モデルＭ２の出力値は、リランキング後の結果を採用することによって正しい認識結果が得られる確率（すなわち、リランキングが妥当である確率）を示すことになる。よって、ある入力画像に対する認識処理を実行する際には、第２モデルＭ２の出力値に基づいて、リランキングの妥当性を考慮した上で適切な認識結果を出力することが可能となる。例えば、第２モデルＭ２の出力値が０．５より大きい場合（又は０．５以上の場合）には、リランキング後の第１位の認識候補Ｘ１を最終的な認識結果とし、第２モデルＭ２の出力値が０．５以下の場合（又は０．５未満の場合）には、リランキング前の第１位の認識候補Ａ１を最終的な認識結果とすることが可能となる。

第３モデル生成部１６は、第１モデルＭ１に基づくリランキングと、第２モデルＭ２に基づくリランキングの妥当性判定と、を踏まえて決定された最終的な認識結果の確信度（正解度）を出力するための第３モデルＭ３を生成する。第３モデルＭ３は、例えば、ＸＧｂｏｏｓｔ等のブースティングアルゴリズム等によって学習される識別器である。

図８を参照して、第３モデル生成部１６の処理の一例について説明する。

ステップＳ３０１の処理は、上述したステップＳ１０１の処理と同様である。すなわち、ステップＳ３０１において、第３モデル生成部１６は、ある入力画像（認識対象のデータ）に対するパターン認識によって得られた複数（ここではｎ＋ｍ個）の認識候補を取得する。具体的には、図２に示されるような認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）がリランキング前の認識候補列として得られる。

ステップＳ３０２において、第３モデル生成部１６は、上述したステップＳ２０２～Ｓ２０５と同様の処理を実行することにより、複数の認識候補のリランキングを行う。すなわち、第３モデル生成部１６は、認識候補Ａ１の基準値（０．５）及び認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）毎の評価値（第１モデルＭ１の出力値）を降順に並べ替えることにより、複数の認識候補を並べ替える。これにより、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）が得られる。

ステップＳ３０３において、第３モデル生成部１６は、第２モデルＭ２を用いてリランキングの妥当性を判定する。具体的には、第３モデル生成部１６は、リランキング後の第１位の認識候補Ｘ１が認識候補Ａ１とは異なる場合に、認識候補Ａ１と認識候補Ｘ１とに関する特徴量（ｂ１，…，ｂ６）を第２モデルＭ２に入力することにより得られる出力値を、第２評価値として取得する。

ステップＳ３０４において、第３モデル生成部１６は、ステップＳ３０３において得られた第２評価値に基づいて、最終的な認識結果を決定する。本実施形態では、第３モデル生成部１６は、第２評価値が０．５以上の場合には、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）を採用し、リランキング後の第１位の認識候補Ｘ１を最終的な認識結果とする。一方、第３モデル生成部１６は、第２評価値が０．５未満の場合には、リランキング前の認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）を採用し、リランキング前の第１位の認識候補Ａ１を最終的な認識結果とする。

ステップＳ３０５において、第３モデル生成部１６は、ステップＳ３０４において採用された認識候補列に基づいて第３学習データを生成する。以下、ステップＳ３０４において採用された認識候補列を（Ｙ１,…,Ｙｎ＋ｍ－１）と表す。認識候補列（Ｙ１,…,Ｙｎ＋ｍ－１）は、リランキング前の認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）又はリランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）である。

まず、第３モデル生成部１６は、ステップＳ３０４において採用された認識候補列（Ｙ１,…,Ｙｎ＋ｍ－１）の第１位の認識候補Ｙ１と第２位の認識候補Ｙ２とに関する特徴量を生成する。本実施形態では一例として、第３モデル生成部１６は、認識候補Ｙ１と認識候補Ｙ２とに関する特徴量として、以下の要素ｃ１～ｃ１１からなる１１次元の特徴量を生成する。
＜認識候補Ｙ１と認識候補Ｙ２とのペアの特徴量の一例＞
ｃ１＝スコア_Ｙ１
ｃ２＝類似度_Ｙ１
ｃ３＝認識候補Ｙ１の評価値（第１モデルＭ１の出力値又は基準値）
ｃ４＝スコア_Ｙ２
ｃ５＝類似度_Ｙ２
ｃ６＝認識候補Ｙ２の評価値（第１モデルＭ１の出力値又は基準値）
ｃ７＝スコア_Ｙ１－スコア_Ｙ２
ｃ８＝スコア_Ｙ２÷スコア_Ｙ１
ｃ９＝類似度_Ｙ２÷類似度_Ｙ１
ｃ１０＝認識候補Ｙ１の評価値÷認識候補Ｙ２の評価値
ｃ１１＝認識候補Ｙ１（辞書画像）と認識候補Ｙ２（辞書画像）との類似度

続いて、第３モデル生成部１６は、認識候補Ｙ１と認識候補Ｙ２とに関する特徴量（ｃ１，…，ｃ１１）を説明変数とし、認識候補Ｙ１が正解データであるか否かを示す指標値を目的変数とする第３学習データを生成する。本実施形態では、当該指標値は、認識候補Ｙ１が入力画像に対応する正解データである場合に「１」に設定され、認識候補Ｙ１が入力画像に対応する正解データでない場合に「０」に設定されるフラグ値である。

ステップＳ３０６において、第３モデル生成部１６は、第３学習データを更に生成するか否かを判定する。例えば、第３モデル生成部１６は、正例（指標値が１の場合）及び負例（指標値が０の場合）のそれぞれに対応する第３学習データが第３モデルＭ３の精度を担保するのに十分な数だけ得られるまで、他の入力画像（ステップＳ３０１～Ｓ３０５の処理が実行されていない入力画像）についてステップＳ３０１と同様の処理を実行し（ステップＳ３０６：ＹＥＳ→ステップＳ３０７）、その実行結果に対してステップＳ３０２～Ｓ３０５の処理を実行する。これにより、他の入力画像についての第３学習データが生成される。十分な数の第３学習データが得られ、第３学習データを更に生成する必要がない場合には（ステップＳ３０６：ＮＯ）、第３モデル生成部１６は、第３学習データに基づく機械学習を実行することにより、第３モデルＭ３を生成する（ステップＳ３０８）。

以上の処理によれば、最終的に正しい認識結果が得られた場合にのみ「１」を出力するように第３モデルＭ３を学習させることができる。つまり、このような機械学習によって構築された第３モデルＭ３の出力値は、最終的な認識結果（認識候補Ｙ１）が入力画像に対応する正解データである可能性（すなわち、最終的な認識結果の確信度）を示すことになる。

次に、上述のようにして得られた学習済みモデル（第１モデルＭ１、第２モデルＭ２、及び第３モデルＭ３）を用いて、認識対象として入力された入力画像に対する認識処理を実行するための機能要素（算出部１７、決定部１８、及び出力部１９）について説明する。

算出部１７は、複数の認識候補のうち第１位の認識スコアを有する認識候補Ａ１（第１認識候補）と他の認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）（第２認識候補）との各ペアについて、認識候補Ａ１と認識候補Ｋとに関する特徴量に基づいて、認識候補Ｋが入力画像に対応する正解データである可能性を定量化した評価値を算出する。具体的には、算出部１７は、各ペア（認識候補Ａ１，認識候補Ｋ）について、認識候補Ａ１と一方の認識候補としての認識候補Ｋとに関する特徴量（ａ１，…，ａ１０）を第１モデルＭ１に入力することにより得られる出力値を評価値として取得する。これにより、認識候補Ｋ毎の評価値が得られる。

決定部１８は、算出部１７により算出された認識候補Ｋ毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果を決定する。本実施形態では、決定部１８は、まず、認識候補Ａ１に予め割り当てられた基準値（０．５）及び認識候補Ｋ毎の評価値の比較結果に基づいて、最終的な認識結果の候補となる認識候補Ｘ１（第３認識候補）を抽出する。例えば、決定部１８は、認識候補Ａ１の基準値（０．５）及び認識候補Ｋ毎の評価値とを降順に並べ替えることにより、複数の認識候補を並べ替える。すなわち、基準値又は評価値に基づいて、複数の認識候補の認識順位を更新（リランキング）する。これにより、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）と共に、最終的な認識結果の候補として、リランキング後の第１位の認識候補Ｘ１が得られる。

続いて、決定部１８は、認識候補Ｘ１が認識候補Ａ１とは異なる場合に、認識候補Ａ１と認識候補Ｘ１とに関する特徴量に基づいて、認識候補Ｘ１を最終的な認識結果とすることの妥当性を定量化した第２評価値を算出する。具体的には、決定部１８は、認識候補Ｘ１が認識候補Ａ１とは異なる場合に、認識候補Ａ１と認識候補Ｘ１とに関する特徴量（ｂ１，…，ｂ６）を生成する。そして、決定部１８は、当該特徴量（ｂ１，…，ｂ６）を第２モデルＭ２に入力することにより得られる出力値を、第２評価値として取得する。

続いて、決定部１８は、第２評価値に基づいて認識候補Ｘ１を最終的な認識結果とするか否かを決定する。例えば、決定部１８は、第２評価値と予め設定された閾値（本実施形態では０．５）との比較結果に基づいて、リランキング前の第１位の認識候補Ａ１及びリランキング後の第１位の認識候補Ｘ１のいずれを最終的な認識結果とするか否かを決定してもよい。例えば、決定部１８は、第２評価値が０．５以上の場合には、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）を採用し、リランキング後の第１位の認識候補Ｘ１を最終的な認識結果としてもよい。一方、決定部１８は、第２評価値が０．５未満の場合には、リランキング前の認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）を採用し、リランキング前の第１位の認識候補Ａ１を最終的な認識結果としてもよい。

上述したような決定部１８の処理によれば、第１モデルＭ１を用いたリランキング、及び第２モデルＭ２を用いたリランキングの妥当性判定のそれぞれの結果に基づいて、入力画像に対応する正解データである可能性が高い認識候補を、最終的な認識結果として決定することができる。

出力部１９は、決定部１８により決定された最終的な認識候補列（Ｙ１，…，Ｙｎ＋ｍ－１）をディスプレイ、プリンタ、又はその他の外部装置等に出力する。本実施形態では、出力部１９は、最終的な認識候補列（Ｙ１，…，Ｙｎ＋ｍ－１）の第１位の認識候補Ｙ１と第２位の認識候補Ｙ２とに関する特徴量（ｃ１，…，ｃ１１）を生成する。そして、出力部１９は、当該特徴量（ｃ１，…，ｃ１１）を第３モデルＭ３に入力することにより得られる出力値を、最終的な認識結果の確信度として取得する。例えば、出力部１９は、最終的な認識結果（認識候補Ｙ１）及び確信度をディスプレイ等に出力することにより、最終的な認識結果及び確信度をユーザに提示できる。なお、出力部１９は、最終的な認識結果（認識候補Ｙ１）だけでなく、最終的な認識候補列（Ｙ１，…，Ｙｎ＋ｍ－１）の一部（例えば上位ｘ個）又は全部を出力してもよい。この場合、正解データである可能性が高い順に複数の認識結果をユーザに提示することにより、ユーザの利便性を向上し得る。

次に、図９を参照して、認識処理を実行する際のパターン認識装置の処理手順（一実施形態に係るパターン認識方法）の一例について説明する。

ステップＳ４０１において、取得部１３は、入力画像（認識対象のデータ）に対するパターン認識によって得られた複数（ここではｎ＋ｍ個）の認識候補を取得する。本実施形態では、取得部１３は、第１認識部１１（第１のパターン認識）によって得られたｎ個の認識候補Ａ１～Ａｎと、第２認識部１２（第２のパターン認識）によって得られた認識候補Ａ１～Ａｎとは重複しないｍ個の認識候補Ｂ１～Ｂｍと、を複数の認識候補として取得する。これにより、図２に示されるように、リランキング前の認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）が得られる。

ステップＳ４０２において、算出部１７は、リランキング前の第１位の認識候補Ａ１と、他の認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）との各ペア（図４に示されるｎ＋ｍ－１個のペア）を生成する。

ステップＳ４０３において、算出部１７は、ペア毎の特徴量（ａ１，…，ａ１０）を生成する。そして、算出部１７は、ペア毎の特徴量（ａ１，…，ａ１０）を第１モデルＭ１に入力することにより得られる第１モデルＭ１の出力値を、ペア毎（すなわち認識候補Ｋ毎）の評価値として取得する。

ステップＳ４０４において、決定部１８は、認識候補Ａ１に予め割り当てられた基準値（０．５）及び認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）毎の評価値を降順に並べ替えることにより、複数の認識候補を並べ替える。すなわち、決定部１８は、複数の認識候補の認識順位を更新（リランキング）する。これにより、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）が得られる。

ステップＳ４０５において、決定部１８は、第２モデルＭ２を用いてリランキングの妥当性を判定する。具体的には、決定部１８は、リランキング後の第１位の認識候補Ｘ１が認識候補Ａ１とは異なる場合に、認識候補Ａ１と認識候補Ｘ１とに関する特徴量（ｂ１，…，ｂ６）を第２モデルＭ２に入力することにより得られる出力値を、第２評価値として取得する。なお、認識候補Ｘ１が認識候補Ａ１と等しい場合（すなわち、リランキングによって第１位の認識候補が変動していない場合）、決定部１８は、ステップＳ４０５及びＳ４０６の処理をスキップして、後述するステップＳ４０８へと進んでもよい。

ステップＳ４０６において、決定部１８は、第２評価値と予め設定された閾値（ここでは０．５）とを比較する。第２評価値が閾値（０．５）以上の場合（ステップＳ４０６：ＹＥＳ）には、決定部１８は、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）を採用し、リランキング後の第１位の認識候補Ｘ１を最終的な認識結果とする（ステップＳ４０７）。一方、第２評価値が閾値（０．５）未満の場合（ステップＳ４０６：ＮＯ）には、決定部１８は、リランキング前の認識候補列（Ａ１，…，Ａｎ，Ｂ１，…，Ｂｍ）を採用し、リランキング前の第１位の認識候補Ａ１を最終的な認識結果とする（ステップＳ４０８）。

ステップＳ４０９において、出力部１９は、最終的な認識候補列の第１位の認識候補Ｙ１と第２位の認識候補Ｙ２とに関する特徴量（ｃ１，…，ｃ１１）を生成する。そして、出力部１９は、当該特徴量（ｃ１，…，ｃ１１）を第３モデルＭ３に入力することにより得られる出力値を、最終的な認識結果の確信度として取得する。

ステップＳ４１０において、出力部１９は、最終的な認識結果（認識候補Ｙ１）及び確信度を出力する。これにより、ユーザに最終的な認識結果及び確信度を提示したり、最終的な認識結果に基づいて何らかの情報処理を行う外部装置等に最終的な認識結果を出力したりすることができる。

以上説明したパターン認識装置１０では、認識候補Ａ１と各認識候補Ｋ（Ｋ＝Ａ２～Ａｎ，Ｂ１～Ｂｍ）との各ペアについて、認識候補Ｋが正解データである可能性を定量化した評価値が算出される。すなわち、認識候補Ａ１よりも認識候補Ｋの方が正解データである可能性が高いか否か（換言すれば、認識候補Ａ１の立場と認識候補Ｋの立場とを入れ替えた方が良いか否か）を示す指標として、認識候補Ｋ毎の評価値が算出される。そして、認識候補Ｋ毎の評価値に基づいて、複数の認識候補のうちから最終的な認識結果が決定される。この構成により、認識スコアに基づく順位（すなわち、リランキング前の認識順位）をそのまま複数の認識候補の最終的な順位として確定することなく、認識候補Ｋ毎の評価値に基づいて複数の認識候補の順位を適切に修正した上で最終的な認識結果を決定することが可能となる。従って、パターン認識装置１０によれば、認識精度の向上を図ることができる。

また、複数の認識候補を得るために実行されるパターン認識は、第１のパターン認識（第１認識部１１）と第１のパターン認識とは異なる第２のパターン認識（第２認識部１２）とを含む。取得部１３により取得される複数の認識候補は、入力画像に対する第１のパターン認識によって得られる認識候補（認識候補列Ｒ１）と、入力画像に対する第２のパターン認識によって得られる認識候補（認識候補列Ｒ２）とを含む。このように、複数の互いに異なる認識手法によって得られた認識候補が混在する複数の認識候補に対して、上述した評価値に基づく処理（リランキング）を実行することにより、最終的に正しい認識結果が得られる可能性を高めることができる。例えば、第１のパターン認識によって得られた認識候補列Ｒ１の中に入力画像に対応する正解データが含まれておらず、第２のパターン認識によって得られた認識候補列Ｒ２（補完候補）の中に正解データが含まれている場合において、当該正解データに対応する認識候補を最終的な認識結果として得ることが可能となる。

また、第１のパターン認識は、入力画像（画像データ）をグレースケール変換することにより得られたグレースケール画像から抽出される特徴量に基づいて入力画像に含まれる物体を認識する処理（本実施形態では、上述した特定物体認識）である。第２のパターン認識は、入力画像の色情報を含む特徴量に基づいて入力画像に含まれる物体を認識する処理（本実施形態では、上述したＣＮＮ等のニューラルネットワークを用いた物体認識（類似画像検索））である。上述したように、第１のパターン認識には、比較的少ない辞書画像を用意するだけで簡易的に物体認識を実行できる長所がある一方で、色違いの同一デザインを有する商品同士を精度良く認識することが困難であるという短所がある。第２のパターン認識には、多数の学習用画像を用いてニューラルネットワークを構築する必要があるという短所がある一方で、色情報を特徴量として用いることにより、色違いの同一デザインを有する商品同士を比較的精度良く認識できるという第１のパターン認識の短所を補う長所がある。このように、一方の短所を他方が補う関係にある複数のパターン認識の手法を併用して複数の認識候補を取得し、各認識候補の評価値に基づく処理（リランキング）を行うことにより、最終的に正しい認識結果が得られる可能性を効果的に高めることができる。つまり、一方の認識手法で正解データに対応する認識候補が得られない場合であっても、他方の認識手法で正解データに対応する認識候補が得られることが期待できる。さらに、リランキングによって、正解データに対応する認識候補を最終的な認識結果として得ることが期待できる。

また、決定部１８は、算出部１７により算出された認識候補Ｋ毎の評価値に基づいて、最終的な認識結果の候補となる認識候補Ｘ１（第３認識候補）を抽出する。本実施形態では、決定部１８は、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）を取得する。そして、決定部１８は、認識候補Ｘ１が認識候補Ａ１とは異なる場合（すなわち、リランキングによって第１位の認識候補が変化した場合）に、認識候補Ａ１と認識候補Ｘとに関する特徴量（ｂ１，…，ｂ６）に基づいて、認識候補Ｘ１を最終的な認識結果とすることの妥当性を定量化した第２評価値を算出する。そして、決定部１８は、第２評価値に基づいて認識候補Ｘ１を最終的な認識結果とするか否かを決定する。本実施形態では、決定部１８は、第２評価値が閾値（０．５）以上である場合に、リランキング後の認識候補列を採用し、認識候補Ｘ１を最終的な認識結果とする。このように、リランキングの妥当性の判定結果に基づいてリランキング結果の採否を決定することにより、最終的に正しい認識結果が得られる可能性を高めることができる。

また、上記実施形態では、算出部１７は、認識候補Ａ１と認識候補Ｋとの各ペアについて、認識候補Ａ１と認識候補Ｋとに関する特徴量（ａ１，…，ａ１０）を第１モデルＭ１に入力することにより得られる出力値を評価値として取得する。この構成によれば、認識候補Ｋが正解データである場合にのみ「１」を出力する（その他の場合には「０」を出力する）ように学習させられた第１モデルＭ１を用いることにより、認識候補Ｋ毎の評価値を適切に算出することができる。

また、上記実施形態では、決定部１８は、認識候補Ｘ１が認識候補Ａ１とは異なる場合に、認識候補Ａ１と認識候補Ｘ１とに関する特徴量（ｂ１，…，ｂ６）を第２モデルＭ２に入力することにより得られる出力値を第２評価値として取得する。この構成によれば、認識候補Ｘ１が正解データである場合にのみ「１」を出力する（その他の場合には「０」を出力する）ように学習させられた第２モデルＭ２を用いることにより、リランキング結果の妥当性を示す第２評価値を適切に算出することができる。

また、第１モデルＭ１は、入力画像に対するパターン認識によって得られる複数の認識候補のうちから選択された認識候補Ａ１と認識候補Ｋとに関する特徴量（ａ１，…，ａ１０）を入力して、一方の認識候補である認識候補Ｋが入力画像の正解データである可能性を定量化した評価値を出力するように、コンピュータを機能させるための学習済みモデルである。すなわち、第１モデルＭ１は、特徴量（ａ１，…，ａ１０）を入力してから評価値を出力するまでの演算を行うプログラムと、当該演算に用いられる重み付け係数（パラメータ）との組み合わせである。このような第１モデルＭ１によれば、入力画像に対するパターン認識によって得られた複数の認識候補の順位（認識スコアに基づく順位）を適切に修正（リランキング）するための評価値が得られる。従って、第１モデルＭ１によれば、認識精度の向上を図ることができる。

なお、本発明者らは、パターン認識装置１０の効果を確認するために、上述した第１のパターン認識及び第２のパターン認識において商品毎に１０枚の辞書画像を用意すると共に、商品毎に２０枚程度の学習用画像を用いて第２のパターン認識に用いられるニューラルネットワーク（ＣＮＮ）を構築した。そして、このような第１のパターン認識（第１認識部１１）及び第２のパターン認識（第２認識部１２）を用いて、飲料品１５５点及びヘアケア商品６８９点に対して上記認識処理を実行した。

飲料品１５５点については、特定物体認識（第１のパターン認識）のみを行った場合の正解率（すなわち、第１のパターン認識における第１位の認識候補Ａ１が正解データであった割合）は８０％であったのに対して、上記認識処理を実行することにより得られた最終的な認識結果の正解率は８３％であった。すなわち、上記認識処理によって３％の精度向上が得られた。ヘアケア商品６８９点については、特定物体認識（第１のパターン認識）のみを行った場合の正解率は７８％であったのに対して、上記認識処理を実行することにより得られた最終的な認識結果の正解率は８７％であった。すなわち、上記認識処理によって９％の精度向上が得られた。このような精度向上の要因としては、特定物体認識（第１のパターン認識）に加えて色情報を特徴量として用いることができるディープラーニングをベースとした類似画像検索（第２のパターン認識）を併用し、上述したリランキングを行うことによって、特定物体認識が苦手とする色違いの同一デザインの商品の認識精度を向上させることができたためと考えられる。さらに、第２のパターン認識に用いられるＣＮＮの学習用画像の数を、第２のパターン認識のみによって第１のパターン認識と同等の認識精度を確保するために必要と考えられる数（商品毎に数百枚）よりも少ない数（商品毎に２０枚）に抑えつつ、特定物体認識のみを行う場合よりも認識精度を向上できることも確認された。

［変形例］
取得部１３が取得する複数の認識候補は、１つのパターン認識手法によって得られた候補であってもよい。この場合でも、評価値に基づくリランキングによって認識精度の向上が期待できる。また、取得部１３が取得する複数の認識候補は、３つ以上の互いに異なるパターン認識手法によって得られた候補を含んでもよい。

上記実施形態では、取得部１３によって、第１のパターン認識によって得られた認識候補Ａ１～Ａｎの補完候補として、第２のパターン認識によって得られた認識候補Ｂ１～Ｂｍ（認識候補Ａ１～Ａｎと重複しない認識候補）が取得されたが、これとは逆に、第２のパターン認識によって得られた認識候補の補完候補として、第１のパターン認識によって得られた認識候補が取得されてもよい。

上記実施形態では、第１のパターン認識において第１位の認識スコアを有する認識候補Ａ１をペアの基準となる認識候補としたが、第２のパターン認識において第１位の認識スコアを有する認識候補Ｂ１をペアの基準となる認識候補としてもよい。すなわち、複数の認識候補が、互いに異なる複数のパターン認識手法によって得られた候補を含む場合には、いずれかのパターン認識手法において第１位の認識スコアを有する認識候補が、ペアの基準となる認識候補とされてもよい。

上記実施形態では、決定部１８は、リランキングが妥当ではないと判定した場合に、リランキング前の第１のパターン認識における第１位の認識候補Ａ１を最終的な認識結果として決定したが（図９のステップＳ４０８参照）、認識候補Ａ１以外の認識候補（例えば、第２のパターン認識における第１位の認識候補）を最終的な認識結果として決定してもよい。

第２モデルＭ２の出力値（第２評価値）に基づくリランキングの妥当性判定は、省略されてもよい。この場合、決定部１８は、リランキング後の認識候補列（Ｘ１，…，Ｘｎ＋ｍ－１）を採用し、リランキング後の第１位の認識候補Ｘ１を最終的な認識結果としてもよい。この場合でも、評価値に基づくリランキングによって認識精度の向上が期待できる。また、この場合、第２モデル生成部１５は省略されてもよい。

出力部１９における第３モデルＭ３を用いた確信度の算出は、省略されてもよい。この場合、第３モデル生成部１６は省略されてもよい。

第１認識部１１及び第２認識部１２は、パターン認識装置１０とは異なる外部装置に設けられてもよい。すなわち、パターン認識装置１０は、外部装置において実行された第１のパターン認識及び第２のパターン認識の結果を取得できればよく、自ら第１のパターン認識及び第２のパターン認識を実行しなくてもよい。

第１モデルＭ１に入力される特徴量は、認識候補Ａ１及び認識候補Ｋに関する特徴を含んでいればよく、特徴量の要素及び次元数は上記例（ａ１，…，ａ１０）に限られない。第２モデルＭ２に入力される特徴量は、認識候補Ａ１及び認識候補Ｘ１に関する特徴を含んでいればよく、特徴量の要素及び次元数は上記例（ｂ１，…，ｂ６）に限られない。第３モデルＭ３に入力される特徴量は、最終的な認識結果（認識候補Ｙ１）に関する特徴を含んでいればよく、特徴量の要素及び次元数は上記例（ｃ１，…，ｃ１１）に限られない。

また、上記実施形態では、画像データに対するパターン認識に適用される形態について説明したが、パターン認識の対象となるデータは、画像に限られず、音声等の画像以外のデータであってもよい。また、パターン認識は、パターン認識の対象となるデータに応じた認識処理であればよく、上記実施形態で説明された画像認識に限られない。例えば、パターン認識は、文字認識、音声認識等の画像認識以外の認識処理であってもよい。

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。

例えば、本開示の一実施の形態におけるパターン認識装置１０は、本開示のパターン認識方法を行うコンピュータとして機能してもよい。図１０は、本開示の一実施の形態に係るパターン認識装置１０のハードウェア構成の一例を示す図である。上述のパターン認識装置１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。パターン認識装置１０のハードウェア構成は、図１０に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

パターン認識装置１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、決定部１８は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係るパターン認識方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency Division Duplex）及び時分割複信（ＴＤＤ：Time Division Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

また、パターン認識装置１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

情報の通知は、本開示において説明した態様／実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング（例えば、ＤＣＩ（Downlink Control Information）、ＵＣＩ（Uplink Control Information））、上位レイヤシグナリング（例えば、ＲＲＣ（Radio Resource Control）シグナリング、ＭＡＣ（Medium Access Control）シグナリング、報知情報（ＭＩＢ（Master Information Block）、ＳＩＢ（System Information Block）））、その他の信号又はこれらの組み合わせによって実施されてもよい。また、ＲＲＣシグナリングは、ＲＲＣメッセージと呼ばれてもよく、例えば、ＲＲＣ接続セットアップ（RRC Connection Setup）メッセージ、ＲＲＣ接続再構成（RRC Connection Reconfiguration）メッセージなどであってもよい。

本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

情報等は、上位レイヤ（又は下位レイヤ）から下位レイヤ（又は上位レイヤ）へ出力され得る。複数のネットワークノードを介して入出力されてもよい。

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及びシンボルの少なくとも一方は信号（シグナリング）であってもよい。また、信号はメッセージであってもよい。

本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。

上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々な情報要素は、あらゆる好適な名称によって識別できるので、これらの様々な情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。

本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１０…パターン認識装置、１１…第１認識部、１２…第２認識部、１３…取得部、１４…第１モデル生成部、１５…第２モデル生成部、１６…第３モデル生成部、１７…算出部、１８…決定部、１９…出力部、Ｍ１…第１モデル（学習済みモデル）、Ｍ２…第２モデル、Ｍ３…第３モデル。

Claims

入力データに対するパターン認識によって得られ、認識の確からしさを示す認識スコアをそれぞれ有する複数の認識候補を取得する取得部と、
前記複数の認識候補のうち第１位の認識スコアを有する認識候補である第１認識候補と他の認識候補である第２認識候補との各ペアについて、前記第１認識候補と前記第２認識候補とに関する特徴量に基づいて、前記第２認識候補が前記入力データに対応する正解データである可能性を定量化した評価値を算出する算出部と、
前記算出部により算出された前記第２認識候補毎の前記評価値に基づいて、前記複数の認識候補のうちから最終的な認識結果を決定する決定部と、
を備えるパターン認識装置。
前記パターン認識は、第１のパターン認識と前記第１のパターン認識とは異なる第２のパターン認識とを含み、
前記取得部により取得される前記複数の認識候補は、前記入力データに対する第１のパターン認識によって得られる認識候補と、前記入力データに対する前記第２のパターン認識によって得られる認識候補とを含む、請求項１に記載のパターン認識装置。
前記入力データは、画像データであり、
前記第１のパターン認識は、前記画像データをグレースケール変換することにより得られたグレースケール画像から抽出される特徴量に基づいて前記画像データに含まれる物体を認識する手法であり、
前記第２のパターン認識は、前記画像データの色情報を含む特徴量に基づいて前記画像データに含まれる物体を認識する手法である、請求項２に記載のパターン認識装置。
前記決定部は、
前記算出部により算出された前記第２認識候補毎の前記評価値に基づいて、前記最終的な認識結果の候補となる第３認識候補を抽出し、
前記第３認識候補が前記第１認識候補とは異なる場合に、前記第１認識候補と前記第３認識候補とに関する特徴量に基づいて、前記第３認識候補を前記最終的な認識結果とすることの妥当性を定量化した第２評価値を算出し、
前記第２評価値に基づいて前記第３認識候補を前記最終的な認識結果とするか否かを決定する、請求項１～３のいずれか一項に記載のパターン認識装置。
認識対象のデータに対する前記パターン認識によって得られる２つの認識候補に関する特徴量を説明変数とし、前記２つの認識候補のうちの一方の認識候補が前記認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする第１学習データを用いて機械学習を実行することにより、第１モデルを生成する第１モデル生成部を更に備え、
前記算出部は、前記各ペアについて、前記第１認識候補と前記一方の認識候補としての前記第２認識候補とに関する特徴量を前記第１モデルに入力することにより得られる出力値を前記評価値として取得する、請求項１～４のいずれか一項に記載のパターン認識装置。
認識対象のデータに対する前記パターン認識によって得られる２つの認識候補に関する特徴量を説明変数とし、前記２つの認識候補のうちの一方の認識候補が前記認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする第１学習データを用いて機械学習を実行することにより、第１モデルを生成する第１モデル生成部と、
第２モデルを生成する第２モデル生成部と、を更に備え、
前記第２モデル生成部は、
前記認識対象のデータに対する前記パターン認識によって得られ、認識の確からしさを示す認識スコアをそれぞれ有する複数の認識候補を取得し、
前記複数の認識候補のうち第１位の認識スコアを有する認識候補である第４認識候補と他の認識候補である第５認識候補との各ペアについて、前記第４認識候補と前記一方の認識候補としての前記第５認識候補とに関する特徴量を前記第１モデルに入力することにより、前記第５認識候補毎の評価値を取得し、
前記第５認識候補毎の前記評価値に基づいて、最終的な認識結果の候補となる第６認識候補を抽出し、
前記第６認識候補が前記第４認識候補とは異なる場合に、前記第４認識候補と前記第６認識候補とに関する特徴量を説明変数とし、前記第６認識候補が正解データであるか否かを示す指標値を目的変数とする第２学習データを生成し、
前記第２学習データを用いて機械学習を実行することにより、前記第２モデルを生成し、
前記決定部は、前記第３認識候補が前記第１認識候補とは異なる場合に、前記第１認識候補と前記第３認識候補とに関する特徴量を前記第２モデルに入力することにより得られる出力値を前記第２評価値として取得する、請求項４に記載のパターン認識装置。
入力データに対するパターン認識によって得られる複数の認識候補のうちから選択された第１認識候補と第２認識候補とに関する特徴量を入力して、一方の認識候補である前記第２認識候補が前記入力データに対応する正解データである可能性を定量化した評価値を出力するように、コンピュータを機能させるための学習済みモデルであって、
認識対象のデータに対する前記パターン認識によって得られた２つの認識候補に関する特徴量を説明変数とし、前記２つの認識候補のうちの一方の認識候補が前記認識対象のデータに対応する正解データであるか否かを示す指標値を目的変数とする学習データを用いた機械学習を実行することにより生成された学習済みモデル。