JP6350048B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6350048B2
JP6350048B2 JP2014140127A JP2014140127A JP6350048B2 JP 6350048 B2 JP6350048 B2 JP 6350048B2 JP 2014140127 A JP2014140127 A JP 2014140127A JP 2014140127 A JP2014140127 A JP 2014140127A JP 6350048 B2 JP6350048 B2 JP 6350048B2
Authority
JP
Japan
Prior art keywords
recognition
recognition method
probability
result
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014140127A
Other languages
English (en)
Other versions
JP2016018353A (ja
Inventor
遠藤 利生
利生 遠藤
上原 祐介
祐介 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014140127A priority Critical patent/JP6350048B2/ja
Publication of JP2016018353A publication Critical patent/JP2016018353A/ja
Application granted granted Critical
Publication of JP6350048B2 publication Critical patent/JP6350048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、取得した画像データ等に対し複数の認識方式を適用し、認識結果の確からしさを示す指標値が高い方の認識方式の結果を利用する認識システムが提案されている(例えば特許文献1から3参照)。
特開2000−155803号公報 特開平11−282964号公報 特開平10−240930号公報
しかしながら、従来の技術では指標値に依存しているため、認識正答率及び非互換性が十分でないという問題があった。
一つの側面では、複数の認識方式を採用した場合でも、認識正答率及び非互換性を向上させることが可能な情報処理装置等を提供することを目的とする。
本願に開示する情報処理装置は、テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得する取得部と、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる非互換率の許容値を取得する許容値取得部と、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを生成する生成部とを備える。
一つの側面では、認識正答率及び非互換性を向上させることが可能となる。
情報処理システムの概要を示す説明図である。 コンピュータのハードウェア群を示すブロック図である。 結果ファイルのレコードレイアウトを示す説明図である。 正誤ファイルのレコードレイアウトを示す説明図である。 正答率及び非互換率を示す説明図である。 正答指標値の組を示すグラフである。 指標値が高い認識方式を選択した際のイメージを示す説明図である。 選択方式を変更した際のイメージを示す説明図である。 認識方式の選択方式に対する、正答率及び非互換率の変化を示すグラフである。 最適な選択方法の概念を示すイメージ図である。 各認識方式の指標値の組み合わせに対する第1確率を示す説明図である。 各認識方式の指標値の組み合わせに対する第2確率を示す説明図である。 各指標値の組み合わせに対する除算値を示す説明図である。 候補選択テーブル、非互換率及び正答率を示す説明図である。 本実施形態に係る選択テーブルと他の選択テーブルとの対比を示す説明図である。 結果取得処理の手順を示すフローチャートである。 選択テーブルの選択処理手順を示すフローチャートである。 選択テーブルの選択処理手順を示すフローチャートである。 認識処理の手順を示すフローチャートである。 3以上の認識方式を用いる場合の処理内容を示す説明図である。 認識処理の手順を示す説明図である。 グループ決定処理の手順を示すフローチャートである。 グループ選択処理の手順を示すフローチャートである。 認識処理の手順を示すフローチャートである。 推定確率を示す説明図である。 正答指標値の推定確率を示す説明図である。 選択可能なグループと選択確率を示す説明図である。 認識方式の合成を示す説明図である。 認識方式の生成処理手順を示すフローチャートである。 テーブル生成処理の手順を示すフローチャートである。 上述した形態のコンピュータの動作を示す機能ブロック図である。 実施の形態6に係るコンピュータのハードウェア群を示すブロック図である。
実施の形態1
以下実施の形態を、図面を参照して説明する。図1は情報処理システムの概要を示す説明図である。情報処理システムは、情報処理装置1、及び、データ取得装置2等を含む。情報処理装置1及びデータ取得装置2は有線または無線で接続されている。情報処理装置1はサーバコンピュータ、パーソナルコンピュータ、携帯電話、スマートフォン、ゲーム機またはPDA(Personal Digital Assistant)等である。以下では情報処理装置1をコンピュータ1と読み替えて説明する。
データ取得装置2は例えば、計測対象物の各種データを取得する装置またはセンサ等でありカメラ、マイク、加速度センサ、温度センサ、スキャナ、光度センサ等である。なお、データ取得装置2は、コンピュータ1と一体化されていても良い。本実施形態では一例としてカメラを用い、自動車ナンバープレートに示された文字を認識する形態を説明する。以下ではデータ取得装置2をカメラ2という。
カメラ2から取り込まれた画像データはコンピュータ1へ出力される。コンピュータ1にはナンバープレートに対する複数の認識方式が用意されている。本実施形態では旧認識方式と、新認識方式の2つが存在するものとして説明する。コンピュータ1は、旧認識方式を適用し、認識結果及び認識結果の確からしさを示す指標値を出力する。指標値は例えば0から1の値であり、数値が大きくなるほど、正確であるものとして説明する。
コンピュータ1は同様に新認識方式を適用して、認識結果及び認識結果の確からしさを示す指標値を出力する。コンピュータ1には、旧認識方式の指標値と、新認識方式の指標値との組み合わせにおいて、何れの認識方式を選択するかを示す選択テーブル151が用意されている。コンピュータ1は、選択テーブル151及び新旧の指標値を参照し、いずれかの認識方式を選択する。コンピュータ1は選択された認識方式に係る認識結果を出力する。以下では、テストデータを用いて選択テーブル151を生成する処理について詳述する。
図2はコンピュータ1のハードウェア群を示すブロック図である。コンピュータ1は制御部としてのCPU11、RAM12、入力部13、表示部14、記憶部15、通信部16、時計部18及び画像取込部19等を含む。CPU11は、バス17を介してハードウェア各部と接続されている。CPU11は記憶部15に記憶された制御プログラム15Pに従いハードウェア各部を制御する。またCPU11は、制御プログラム15P内の新旧認識方式に係るプログラムを実行し、ナンバープレートに対する文字認識を行う。RAM12は例えばSRAM、DRAM、フラッシュメモリ等である。RAM12は、記憶部としても機能し、CPU11による各種プログラムの実行時に発生する種々のデータを一時的に記憶する。
入力部13はマウスまたはキーボード、マウスまたはタッチパネル等の入力デバイスであり、受け付けた操作情報をCPU11へ出力する。表示部14は液晶ディスプレイまたは有機EL(electroluminescence)ディスプレイ等であり、CPU11の指示に従い各種情報を表示する。通信部16は通信モジュールであり、図示しない他のコンピュータとの間でインターネット等の通信網Nを介して、情報の送受信を行う。
時計部18は日時をCPU11へ出力する。画像取込部19はカメラ2から出力される画像データを取り込む。画像取込部19は取り込んだ画像をCPU11へ出力する。CPU11は、画像データをRAM12に記憶し、ナンバープレートの新旧の認識方式プログラムを実行して、認識処理を行う。記憶部15はハードディスクまたは大容量メモリであり、制御プログラム15P、選択テーブル151、結果ファイル152及び正誤ファイル153等を記憶している。なお、実施形態では選択テーブル151等を記憶部15に記憶する例を挙げたがこれに限るものではない。RAM12に記憶するほか、図示しない他のDBサーバ内に記憶するようにしても良い。この場合、CPU11は、SQL(Structured Query Language)を用いて選択テーブル151に対し、情報の読み出し及び書き込みを行う。
図3は結果ファイル152のレコードレイアウトを示す説明図である。結果ファイル152は、テストIDフィールドに加え、新旧認識方式について、認識結果フィールド、正誤フィールド、指標値フィールド等を含む。テストIDフィールドには、テストデータにおける計測対象物を特定するための固有の識別情報(以下、テストIDという)が記憶されている。本実施形態では計測対象物であるナンバープレート毎にテストIDが付与されている。
認識結果フィールドには、新旧認識方式により算出された認識結果が記憶されている。正誤フィールドには、認識結果が正しいことを示す正、認識結果が誤りであることを示す誤の情報が記憶されている。指標値フィールドには、新旧認識方式プログラムが出力した認識結果の確からしさを示す指標値が記憶されている。図3の例では説明を容易にするために指標値を粗視化すべく、高、低の2つの値を指標値として記憶している。
CPU11は、画像取込部19からテスト用の画像データを取り込む。なお、テスト用の画像データは通信部16を介してダウンロードするようにしても良い。ユーザは、テストデータにおける各ナンバープレートの正確な番号を予め把握しているものとする。CPU11は、旧認識方式プログラムを実行し、テストデータに対する認識結果及び指標値を結果ファイル152に記憶する。ユーザは認識結果が正しい場合、入力部13から正を示す情報を入力する。ユーザは結果認識が誤りであると判断した場合、入力部13から誤を示す情報を入力する。CPU11は、入力部13から入力された正誤の情報を結果ファイル152に記憶する。
同様に、CPU11は、新認識方式プログラムを実行し、テストデータに対する認識結果及び指標値を結果ファイル152に記憶する。ユーザは認識結果が正しい場合、入力部13から正を示す情報を入力する。ユーザは結果認識が誤りであると判断した場合、入力部13から誤を示す情報を入力する。CPU11は、入力部13から入力された正誤の情報を結果ファイル152に記憶する。
図4は正誤ファイル153のレコードレイアウトを示す説明図である。正誤ファイル153は、旧認識方式の正答数及び誤答数と、新認識方式の正答数及び誤答数とを記憶している。図4の例は100件のテストデータについて新旧の認識方式を用いて認識処理を行った結果を示している。CPU11は、結果ファイル152の正誤フィールドの情報を参照し、正誤ファイル153に情報を記憶する。図4の例では、旧認識方式及び新認識方式共に正答となる件数は85件である。
旧認識方式では正答であったが、新認識方式では誤答となった件数は5件である。旧認識方式では誤答であったが、新認識方式では正答となった件数は7件である。旧認識方式及び新認識方式共に誤答となった件数は3件である。CPU11は、正誤ファイル153を参照し、旧認識方式の正答率、新認識方式の正答率、及び、認識方式を旧から新へ切り替えることにより、切り替え前後で認識結果が正から誤となる数に基づき算出される非互換率を算出する。
図5は正答率及び非互換率を示す説明図である。CPU11は、正誤ファイル153を参照し、旧認識方式及び新認識方式共に正答となる件数85件と、旧認識方式では正答であったが新認識方式では誤答となった件数5件とを加算する。CPU11は、加算した値を総件数100件で除し、100を乗ずることで、旧認識方式の正答率90%を算出する。同様に、CPU11は、正誤ファイル153を参照し、旧認識方式及び新認識方式共に正答となる件数は85件と、旧認識方式では誤答であったが新認識方式では正答となった件数7件とを加算する。CPU11は、加算した値を総件数100件で除し、100を乗ずることで、新認識方式の正答率92%を算出する。
CPU11は、旧認識方式では正答であったが新認識方式では誤答となった件数5件を、旧認識方式で正答となった90件で除し、100を乗ずることで非互換率5.6%を算出する。図4の例では、新認識方式では正答率が2%向上しているものの、非互換率が5.6%にも上ることが分かる。このまま新認識方式に切り替えれば、5.6%の事例が認識できなくなるということとなる。
図6は正答指標値の組を示すグラフである。横軸は旧認識方式の正答指標値を示し、縦軸は新認識方式の正答指標値を示す。多数のデータに対し、新旧認識方式の両方を適用して、得られる指標値の組を2次元の点として描画した物である。図6においては、新旧認識方式の双方で誤答となった事例を×、新認識方式のみで正答となった事例は△、旧認識方式のみで正答となった事例を○、新旧認識方式の双方で正答となった事例を◎で示す。図6から、指標値が共に高い右上付近では新旧認識方式の双方が正答となる事例が多いことが理解できる。また旧認識方式の指標値が高く、新認識方式の指標値が低い右下付近では旧認識方式のみで正答となる事例が多いことが理解できる。逆に新認識方式の指標値が高く、旧認識方式の指標値が低い左上付近では新認識方式のみで正答となる事例が多いことも理解できる。
図7は指標値が高い認識方式を選択した際のイメージを示す説明図である。最も単純な選択方式として、指標値が高い方を選ぶ方法を採用した場合、グラフ左上半分の事例については、新認識方式の認識結果が選ばれる。また、グラフ右下半分の事例については,旧認識方式の認識結果が選ばれることになる。当該選択方式では、グラフ中央付近の○で表される事例が非互換事例となる。すなわち、旧認識方式では認識できていたにもかかわらず、本選択方式では認識できなくなる。
図8は選択方式を変更した際のイメージを示す説明図である。図8の例では、指標値の選択方法を若干変更している。このように、指標値の選択方法を適宜変更することで、新旧認識方式の双方を利用しても、正答率を改善しつつ非互換率を0にすることができる。
図9は、認識方式の選択方式に対する、正答率及び非互換率の変化を示すグラフである。横軸は選択方式を示し、原点は常に旧認識方式を選択することを示す。横軸正方向に増加するにつれ新認識方式を選択する割合が増加することを示している。横軸正方向の最大値が常に新認識方式を選択することを示す。縦軸は正答率及び非互換率を示し、単位は%である。図9におけるグラフにおいて実線が正答率を示し、点線が非互換率を示す。
図8から明らかなように、指標値の選択方法を変えた場合、非互換率及び正答率は図9の如く変化する。常に旧認識方式を選択する場合、非互換率は0であるが、正答率は旧方式の正答率のままであり、あまり高くない。新認識方式を選択する割合が増えるにつれて、非互換率及び正答率は次第に大きくなっていく。指標値が高い方を選択する付近にて、正答率は最大となる。
図10は最適な選択方法の概念を示すイメージ図である。CPU11は、入力部13から予め、非互換率の許容値の入力を受け付ける。CPU11は、入力された許容値をRAM12に記憶する。許容値は設計に応じて定めればよいが、例えば1%である。選択方法、非互換率及び正答率の関係が既知である場合、図10に示す如く、非互換率の許容値の範囲内で正答率が最大となるような最適な選択方法を求めることができる。図10の例では左側の部分が非互換率の許容値の範囲内であり、正答率のカーブが最大となる位置が最適な選択方法ということになる。
続いて、新認識方式の指標値と旧認識方式の指標値との組み合わせにおいて、何れの認識方式を選択するかを示す選択テーブル151の生成処理について説明する。以下、選択テーブル151の値を適宜d(u,v)と表現する。ここで、uは旧認識方式の指標値であり、vは新認識方式の指標値である。本実施形態では説明を容易にするために、d(u,v)が0または1のいずれかであるものとして説明する。0の場合は、常に旧認識方式の認識結果を選択する。1の場合は、常に新方式の認識結果を選択する。
なお、dが0から1の値を取る場合、CPU11は、0以上1未満の一様な擬似乱数を生成する。CPU11は、生成した擬似乱数が、d(u,v)より小さい場合、新認識方式の認識結果を選択する。生成した擬似乱数がd(u,v)以上の場合、旧認識方式の認識結果を選択する。
CPU11は、テストデータを用いて以下の確率を推定する。ここで、X、Yは正答Cまたは誤答Wを示す。
P(X):旧認識方式がXする確率
P(Y|X):旧認識方式がX する場合に、新認識方式がYする確率
P(u, v|X, Y ):旧認識方式がX で新認識方式がY する場合に正答指標値がu, v となる確率
これらの確率の推定は、テストデータでこれらの事象が発生する割合を求めることで行う。例えば、100件のテストデータについて、旧認識方式が正答したものが80件であった場合には、旧認識方式が正答する確率P(C) = 0.8と推定される
選択方法は、正答指標値がu, v の場合に、新認識方式の認識結果を選択する確率d(u, v) で規定される。ここで,d(u, v)は0以上1以下である。従って、すべてのu, v の組み合わせに対してd(u, v) を定めれば選択方法が決定される。d(u, v) が仮に与えられたとすると、そのときの非互換率は式1により表され、正答率は式2により表される。
Figure 0006350048
(式1)
Figure 0006350048
(式2)
非互換率及び正答率が式1及び式2で表される理由を簡単に述べる。非互換率は、旧認識方式が正答する場合に選択結果が誤答になる確率である。これは、新認識方式が誤答でかつ正答指標値の選択で新認識方式を選択した場合にのみ起こる。新認識方式が誤答になる確率はP(W|C) である。正答指標値は様々な値u, vを排他的に取り、その発生確率がP(u, v|C,W) で選択確率がd(u, v) であることから、非互換率が式1で表されることが分かる。
一方、正答率の確率は、旧認識方式が正答である場合と旧認識方式が誤答である場合の確率の和で表される。旧認識方式が正答である場合に,選択結果が誤答になるのは新認識方式が誤答で新認識方式を選択する場合に限られるため、その確率は非互換率に等しい。従って、旧認識方式が正答である場合の正答率は1から非互換率を引いた値となる。また、旧認識方式が誤答である場合に選択結果が正答になるのは新認識方式が正答で新認識方式を選択する場合に限られるため、その確率は式3で表される。これより正答率が式2で表現されることが理解できる。
Figure 0006350048
(式3)
非互換率が許容値以下で正答率を最大にする最適な選択方法は以下のように決定される。d(u, v) を未知数として、非互換率が許容値以下、かつ、正答率が最大となる最適化問題を解く。本実施形態では、式の形で最適化問題を解くことができる。これには,統計学で良く用いられるネイマン・ピアソンの補題を拡張した定理を用いる。
n 個の変数x1, : : : , xn に対して,式4に示す制約条件の下で、式5に示す目的関数を最大化する問題を考える。
Figure 0006350048
(式4)
Figure 0006350048
(式5)
ここで,ai, b は非負の定数,ci は定数である。制約条件を満たし目的関数を最大にするx1, : : : , xn の組の1つx* 1, : : : , x* n は以下で与えられる。
1. ci < 0 となるi に対してはx* i = 0 と定める。
2. そうでなくai = 0 となるi に対してはx* i = 1 と定める。
3. 残りの変数を改めてx1, : : : , xn と表す。もし,b > a1 + : : : + an ならば、残りのi に対してすべてx*i = 1 と定める。
4. それ以外の場合には,ci/ai が広義単調減少となるように番号を付け変えて(すなわちc1/a1≧ c2/a2 ・・・)、b = a1 +・・・+ am-1 + γam を満たすm とγを取る。
Figure 0006350048
Figure 0006350048
(式6)
Figure 0006350048
(式7)
上記の定理の証明は以下の通りである。第1の場合についてはxi = 0 がf の値を増大させずにg を最大にすることから自明である。第2の場合については、xi の値がf の値に影響を与えないで、xi = 1 がg を最大にすることから明らかである。
Figure 0006350048
Figure 0006350048
(式8)
上記の定理を最適選択方法の決定に適用する。例外的な第1〜第3の場合を除外して考えると、最適選択方法は式9で表される。
Figure 0006350048
(式9)
ただし,k (以下、場合により基準値という)はこのときの非互換率が許容値に一致するように選ぶ。なお,非互換率を許容値に一致させるために、対応する項の比がk に等しくなる1つのd(u, v) で確率的な選択を必要とする場合がある。続いて、最適な選択方法について、具体例を用いて説明する。図11は各認識方式の指標値の組み合わせに対する第1確率を示す説明図である。図12は各認識方式の指標値の組み合わせに対する第2確率を示す説明図である。指標値は高低の2値とする。テストデータから推定した確率を図11及び図12に示す。P(C) = 0.8、P(W) = 0.2、 P(W|C) = 0.125,P(C|W) = 0.5とする。P(C) は 旧認識方式が正答する確率(第4確率)であり、P(W) は旧認識方式が誤答する確率(第5確率)である。P(W|C) は旧認識方式が正答である場合に、新認識方式が誤答する確率(第3確率)である。P(C|W) は旧認識方式が誤答である場合に、新認識方式が正答する確率(第6確率)である。
図11の縦欄は旧認識方式の指標値uが低または高、横欄は新認識方式の指標値vが低または高であることを示す。P(u, v|C, W )は旧認識方式が正答であり新認識方式が誤答である場合に,正答指標値の組み合わせが現れる確率(第1確率)である。図11の例では、u, v共に低となる確率は0.04、uが高でvが低となる確率は0.91、uが低でvが高となる確率は0.01、u, v共に高となる確率は0.04である。
図12の縦欄は旧認識方式の指標値uが低または高、横欄は新認識方式の指標値vが低または高であることを示す。P(u, v|W,C )は旧認識方式が誤答であり新認識方式が正答である場合に,正答指標値の組み合わせが現れる確率(第2確率)である。図12の例では、u, v共に低となる確率は0.08、uが高でvが低となる確率は0.02、uが低でvが高となる確率は0.70、u, v共に高となる確率は0.20である。
図13は各指標値の組み合わせに対する除算値を示す説明図である。CPU11は、第2確率を第1確率で除して、新旧認識方式の指標値の組み合わせに対する除算値を算出する。図13の例では、u, v共に低の場合除算値は2、uが高でvが低の場合の除算値は2/91、uが低でvが高の場合の除算値は70、u, v共に高の場合の除算値は5である。
CPU11は、除算値に基づき式9におけるkの値を決定する。CPU11は、4つの除算値に基づき2/91、2、5、70、及び、無限大(または70より大きい)の5つのkを決定する。図14は候補選択テーブル、非互換率及び正答率を示す説明図である。各kに対応する候補選択テーブルdは図14に示すとおりである。
kが無限大の場合、各指標値に対するテーブルdの各値は全て0となる。この場合、全ての場合において、旧認識方式を選択することとなる。kが70の場合、各指標値に対するテーブルdの各値は、uが低、vが高の場合に、1となり、他は全て0となる。kが5の場合、各指標値に対するテーブルdの各値は、uが低、vが高、及び、uが高、vが高の場合に、1となり、他は全て0となる。kが2の場合、uが高、vが低の場合に、0となり、他は全て1となる。kが2/91の場合、全て1となる。この場合全ての場合において新認識方式を選択する。
CPU11は、式1、第1確率、第3確率及び各候補選択テーブルを参照し、各kに対する非互換率を算出する。kが無限大の場合、非互換率は0、kが70の場合、非互換率は0.00125、kが5の場合、非互換率は0.00625となる。kが2の場合、非互換率は0.01125、kが2/91の場合、非互換率は0.125となる。
続いてCPU11は、式2、第1確率〜第6確率、及び各候補選択テーブルを参照し、各kに対する正答率を算出する。kが無限大の場合、正答率は0.8、kが70の場合、正答率は0.869、kが5の場合、正答率は0.885となる。kが2の場合、正答率は0.889、kが2/91の場合、正答率0.8となる。
CPU11は、予め記憶部15に記憶した許容値0.00625を読み出す。CPU11は、当該許容値の範囲内で最良の正答率を有する選択テーブル151を抽出する。図14の例では正答率0.8、0.869、0.885の中で最高の値を有する0.885に対応するテーブルが選択される。すなわちkが5の場合のテーブルが最終的に選択される。
図15は本実施形態に係る選択テーブル151と他の選択テーブルとの対比を示す説明図である。上段が本実施形態で選択された選択テーブル151に基づく選択方式を示す。uが低、vが高、及び、uが高、vが高の場合に、新認識方式を選択し、その他は旧認識方式を選択する。この場合、非互換率は0.625%であり、正答率は88.5%となる。なお、図15においては正答率に100を乗じて%で表している。
一方、uが低であれば、新認識方式、それ以外は旧認識方式を選択するという単純な方式では、正答率は87.3%に過ぎない。なお、確率的な選択を用いる場合、上記の非互換率以外の任意の許容値に対しても最適な選択方法を得ることができる。例えば、許容値が1%の場合、(u,v)が(低、高)、(高、高)の場合1、(低低)を3/4の確率とすることで、非互換率0.01, 正答率0.888を得ることができる。
以上のハードウェア群において各種ソフトウェア処理を、フローチャートを用いて説明する。図16は結果取得処理の手順を示すフローチャートである。CPU11は、テストデータを用いて、旧認識方式による認識結果及び指標値をテストIDに対応付けて結果ファイル152に記憶する(ステップS161)。CPU11は、入力部13からテストIDに対応する旧認識方式の認識結果に対する正誤を受け付ける。CPU11は、受け付けた正誤の情報を参照し、テストIDに対応付けて旧認識方式による正誤を結果ファイル152に記憶する(ステップS162)。
CPU11は、テストデータを用いて、新認識方式による認識結果及び指標値をテストIDに対応付けて結果ファイル152に記憶する(ステップS163)。CPU11は、入力部13からテストIDに対応する新認識方式の認識結果に対する正誤を受け付ける。CPU11は、受け付けた正誤の情報を参照し、テストIDに対応付けて新認識方式による正誤を結果ファイル152に記憶する(ステップS164)。
CPU11は、指標値の許容値を入力部13から受け付ける(ステップS165)。CPU11は、記憶部15に受け付けた許容値を記憶する(ステップS166)。CPU11は、新旧認識方式の正誤に基づき正誤ファイル153を生成する(ステップS167)。
図17及び図18は選択テーブル151の選択処理手順を示すフローチャートである。CPU11は、旧認識方式の認識結果が正であり、新認識方式の認識結果が誤である場合に、各認識方式の指標値の組み合わせが現れる第1確率を算出する(ステップS171)。CPU11は、旧認識方式の認識結果が誤であり、新認識方式の認識結果が正である場合に、各認識方式の指標値の組み合わせが現れる第2確率を算出する(ステップS172)。
CPU11は、算出した第2確率を第1確率で除して、各認識方式の指標値の組み合わせに対する除算値を算出する(ステップS173)。CPU11は、各認識方式の指標値の組み合わせに対する除算値を参照し、複数の基準値(k)を決定する(ステップS174)。本実施形態では全除算値及び無限大とする基準値を決定する。CPU11は、基準値と除算値の大小を比較して、候補選択テーブルを生成する(ステップS175)。例えば、特定の指標値の組み合わせについて除算値が基準値より小さい場合、当該組み合わせに係る指標値については、旧認識方式を選択する旨の情報を記憶する。逆に特定の指標値の組み合わせについて除算値が基準値以上の場合、当該組み合わせに係る指標値については、新認識方式を選択する旨の情報を記憶する。
CPU11は、全ての基準値についての候補選択テーブルを生成したか否かを判断する(ステップS176)。CPU11は、全ての基準値についての候補選択テーブルを生成していないと判断した場合(ステップS176でNO)、処理をステップS175に戻す。CPU11は、全ての基準値についての候補選択テーブルを生成したと判断した場合(ステップS176でYES)、処理をステップS177へ移行させる。
CPU11は、旧認識方式の認識結果が正であり、新認識方式の認識結果が誤である第3確率を算出する(ステップS177)。CPU11は、第3確率、第1確率及び候補選択テーブルに基づき、各候補選択テーブルに対応する非互換率を算出する(ステップS178)。具体的には、記憶部15から式1を読み出し、式1に第3確率、第1確率、候補選択テーブルの値を入力することにより、各候補選択テーブルの非互換率を算出する。CPU11は、旧認識方式の認識結果が正である第4確率を算出する(ステップS179)。CPU11は、旧認識方式の認識結果が誤である第5確率を算出する(ステップS181)。
CPU11は、旧認識方式の認識結果が誤であり、新認識方式の認識結果が正である第6確率を算出する(ステップS182)。CPU11は、記憶部15に記憶した式2を読み出す。CPU11は、式2に、第1確率〜第6確率、及び、候補選択テーブルの各値を代入し、各候補選択テーブルに対する正答率を算出する(ステップS183)。CPU11は、許容値以下の非互換率を有する正答率を抽出する(ステップS184)。CPU11は、最大の正答率を有する選択テーブル151を抽出する(ステップS185)。
CPU11は、抽出した選択テーブル151を記憶部15に記憶する(ステップS186)。CPU11は、選択テーブル151に対応する正答率及び非互換率を表示部14に出力する(ステップS187)。これにより、新旧認識方式を併用した場合でも、高い精度を確保することができる。また第1確率から第6確率を用いて非互換率及び正答率を算出し、これらの値をユーザに提供することも可能となる。
実施の形態2
実施の形態2は生成した選択テーブル151を用いて新旧認識方式を用いて運用する形態に関する。図19は認識処理の手順を示すフローチャートである。CPU11は、ステップS185で選択した選択テーブル151を読み出す(ステップS191)。CPU11は、画像取込部19から画像データを取り込む(ステップS192)。CPU11は、新旧認識方式を用いて認識処理を行う(ステップS193)。CPU11は、新旧認識方式による認識結果及び指標値を取得する(ステップS194)。
CPU11は、新旧認識方式の指標値及び選択テーブル151を参照し、認識方式を選択する(ステップS195)。CPU11は、選択した認識方式に係る認識結果を出力する(ステップS196)。CPU11は、認識IDを生成し、生成した認識IDに対応付けて認識結果を記憶部15に記憶する(ステップS197)。これにより、選択テーブル151を活用して新たな画像データに対しても、新旧認識方式による精度の高い計測が可能となる。なお、実施の形態2は実施の形態1で用いたコンピュータ1とは異なる他のコンピュータで実施しても良い。この場合、他のコンピュータは実施の形態1で導出した選択テーブル151を参照し、新旧認識方式を実行することとなる。
本実施の形態2は以上の如きであり、その他は実施の形態1と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
実施の形態3
実施の形態3は認識方式が3以上の形態に関する。図20は3以上の認識方式を用いる場合の処理内容を示す説明図である。本実施形態では、認識処理を行う3つ以上の方式を組み合わせて用いる。この場合、全体として複数の認識結果が存在する場合でも、認識結果が一致する方式が現れることがある。そこで、図20に示すように、CPU11は、認識結果が一致する方式をグループにまとめる。図20は、認識方式(以下、適宜方式と省略する)1、方式2、方式3の3つの方式が存在する例を示す。方式1の認識結果はA、方式2の認識結果もA、方式3の認識結果はBであったとする。この場合、グループ1は、認識結果がAのグループであり、方式1及び方式2が当該グループに属する。一方グループ2は、認識結果がBの方式3が属することとなる。
図21は認識処理の手順を示す説明図である。CPU11は、テストデータに係る画像データを読み込む。CPU11は、取り込んだ画像データに対し、複数の認識方式を適用する。CPU11は、認識結果を参照し、結果ファイル152に、各認識方式の認識結果、正誤、及び、指標値を記憶する。図21の例ではn種の方式が存在する例を示している。CPU11は、指標値u1, : : : , un をまとめて1つのベクトルu で表す。CPU11は、認識結果が一致する方式を1つのグループにまとめ、グループの集合Sを生成する。CPU11は、確率d(G|S, u) でグループG を選択する。最終的に、CPU11は、選択したグループに係る認識結果を出力する。以下詳細を説明する。
CPU11は、テストデータを用いて、どのグループの認識結果を選ぶべきかを記載したテーブルdを生成する。CPU11は、テストデータを用いて以下の確率を算出する。ここで、X は正答C 、または、誤答W を示す。
P(X) 旧方式がX する確率
P(S|X) 旧方式がX する場合に、グループ集合がS になる確率
P(u|C, S) 旧方式が正答でグループ集合がS の場合に、指標値がu となる確率
P(G|W, S) 旧方式が誤答でグループ集合がS の場合に、グループG が正答する確率
P(u|W, S,G) 旧方式が誤答でグループ集合がS でグループG が正答する場合に、指標値がu となる確率
選択方法は、グループ集合S で正答指標値u におけるグループG の選択確率d(G|S, u) で規定される。
Figure 0006350048
従って,すべてのS, G, u の組み合わせに対してd(G|S, u) を定めれば選択方法は決定される。d(G|S, u) が仮に与えられたとすると,実施形態1と同様に、そのときの非互換率は式10で、正答率は式11で表される。ここで,G1 は旧方式が属するグループを表す。また、ΣS は、すべてのグループ集合S に対して和を取ることを表す。同様に、ΣG≠G1 は、G1以外のすべてのグループG に対して和を取ることを表す。
Figure 0006350048
(式10)
Figure 0006350048
(式11)
非互換率が許容値以下で正答率を最大にする最適な選択方法は、d(G|S, u) を未知数として、非互換率が許容値以下、かつ、正答率が最大となる最適化問題を解くことで得られる。本実施形態では、当該最適化問題は線形計画問題で表される。線形計画問題は、線形計画法を用いて高速に解くことができる。従って、最適選択方法の決定も線形計画法によって高速に行うことができる。
図22はグループ決定処理の手順を示すフローチャートである。CPU11は、テストデータを用いて、複数の認識方式による認識結果及び指標値をテストIDに対応付けて結果ファイル152に記憶する(ステップS221)。CPU11は、入力部13からテストIDに対応する各認識方式の認識結果に対する正誤を受け付ける。CPU11は、受け付けた正誤の情報を参照し、テストIDに対応付けて各認識方式による正誤を結果ファイル152に記憶する(ステップS222)。
CPU11は、認識結果に応じてグループにまとめ、グループの集合Sを生成する(ステップS223)。CPU11は、指標値の許容値を入力部13から受け付ける(ステップS224)。CPU11は、記憶部15に受け付けた許容値を記憶する(ステップS225)。
図23はグループ選択処理の手順を示すフローチャートである。CPU11は、結果ファイル152を参照し、旧方式が正の場合に、グループ集合がS になる確率P(S|C) を算出する(ステップS231)。CPU11は、旧方式が正でグループ集合がS の場合に、指標値がu となる確率P(u|C, S)を算出する(ステップS232)。CPU11は、旧方式が正の確率P(C)を算出する(ステップS233)。
CPU11は、旧方式が誤の確率P(W)を算出する(ステップS234)。CPU11は、旧方式が誤の場合に、グループ集合がSになる確率P(S|W)を算出する(ステップS235)。CPU11は、旧方式が誤でグループ集合がS の場合に、グループG が正の確率P(G|W, S)を算出する(ステップS236)。CPU11は、旧方式が誤でグループ集合がS でグループG が正の場合に、指標値がu となる確率P(u|W, S,G)を算出する(ステップS237)。CPU11は、式10及び式11を参照し、d(G|S, u) を未知数として、非互換率が許容値以下、かつ正答率が最大となる最適化問題を解いて、テーブル(第2選択テーブル)を生成する(ステップS238)。
図24は認識処理の手順を示すフローチャートである。CPU11は、ステップS238で生成した選択テーブルを読み出す(ステップS241)。CPU11は、画像取込部19から画像データを取り込む(ステップS242)。CPU11は、各認識方式を用いて認識処理を行う(ステップS243)。CPU11は、各認識方式による認識結果及び指標値を取得する(ステップS244)。
CPU11は、一致する認識結果を1つのグループGにまとめグループの集合Sを生成する(ステップS245)。CPU11は、指標値、グループの集合S及びテーブルを参照し、選択確率を読み出す(ステップS246)。CPU11は、選択確率に応じて選択されたグループを抽出する(ステップS247)。CPU11は、抽出したグループに係る認識結果を出力する(ステップS248)。CPU11は、認識IDに対応付けて認識結果を記憶部15に記憶する(ステップS249)。
なお、指標値については適宜粗視化しても良い。高、低のみならず、3段階以上に丸めても良い。また、指標値をグループ毎にまとめ、例えばグループ内の最大値または平均値を用いても良い。さらには、指標値を使用しない(正答指標値を1段階に丸めることと等価)方法であっても良い。テストデータを用いた関係推定において、グループによる正答率の偏り、例えば要素数の多いグループは正答になりやすいといった傾向がすべて取り込まれるため、正答指標値を使用しなくても正答率の最大化を行うことができる。
最適選択方式を算出する例を以下に示す。認識方式数n は3、指標値は高低の2値とする(以下では1、0と表記とする)。また,複数方式が誤答である場合に、それらの認識結果が偶然、一致することは起こらないと仮定する。最初に、テストデータを用いて確率を推定する。各テストデータにおいて、3つの認識方式のうち、どの方式が正答を与えたか(方式正誤状態と呼ぶ)を調べ、それぞれの方式正誤状態に分類されるテストデータの割合を算出する。この割合を方式正誤状態の推定確率とする。
図25は推定確率を示す説明図である。図25においては、誤答を0、正答を1で表している。図25には、各方式正誤状態で取り得るグループ集合も併せて記載している。例えば、0番の方式正誤状態では、3つの方式がすべて誤答であるので、仮定からそれらの認識結果はみな異なるため、3つのグループに分かれる。3番の方式正誤状態では、方式1が誤答,方式2と方式3が正答であるので、2つのグループ(1)、(2, 3)に分かれる。他の方式正誤状態も同様である。
本算出例では、各方式正誤状態で取り得るグループ集合は1つであるが、一般には複数のグループ集合を取り得る。推定確率p0, : : : , p7 は、0から1までの値を取る。また、テストデータは、8種類の方式正誤状態のいずれかに分類されるので、p0 からp7 まで足すと1になる。
次に、8通りの各方式正誤状態に分類されたテストデータを、指標値が何であったかで細分類する。指標値は3つの認識方式がそれぞれ0か1を出力する。方式1、方式2、方式3の順番で並べた場合、組み合わせは(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1), (1, 0, 0), (1, 0, 1), (1, 1, 0), (1, 1, 1)の8通りとなる。以下では説明を容易にするために、これらを0から7までの整数で表す。それぞれの指標値を取るテストデータの割合を指標値の推定確率とする。ただし、ここでは、各方式正誤状態に分類されたテストデータの個数に対する割合を求める。このため、各方式正誤状態における条件付き確率となる。
図26は正答指標値の推定確率を示す説明図である。推定確率は0から1までの値を取る。確率の推定方法から、図26の確率を横方向に足すといずれも1になることが分かる。式で表せば,i = 0, : : : , 7 に対して、Σu qi,u = 1 である。テストデータから推定した図25及び図26の確率を用いれば、最適選択方法の算出に必要な確率は以下のように表される。
P(X):
旧方式が誤答する確率P(0) = p0 + p1 + p2 + p3
旧方式が正答する確率P(1) = p4 + p5 + p6 + p7
P(S|X):
旧方式が誤答する場合に,グループ集合が(1), (2), (3) になる確率P((1), (2), (3)|0) =(p0 + p1 + p2)/P(0)
旧方式が誤答する場合に,グループ集合が(1), (2, 3) になる確率P((1), (2, 3)|0) = p3/P(0)
旧方式が正答する場合に,グループ集合が(1), (2), (3) になる確率P((1), (2), (3)|1) =p4/P(1)
旧方式が正答する場合に,グループ集合が(1, 3), (2)) になる確率P((1, 3), (2)|1) = p5/P(1)
旧方式が正答する場合に,グループ集合が(1, 2), (3) になる確率P((1, 2), (3)|1) = p6/P(1)
旧方式が正答する場合に,グループ集合が(1, 2, 3) になる確率P((1, 2, 3)|1) = p7/P(1)
それ以外のグループ集合S になる確率は0
P(u|C, S):
旧方式が正答でグループ集合が(1), (2), (3) の場合に,正答指標値がu になる確率P(u|1, (1), (2), (3)) = q4,u
旧方式が正答でグループ集合が(1, 3), (2) の場合に,正答指標値がu になる確率P(u|1, (1, 3), (2)) = q5,u
旧方式が正答でグループ集合が(1, 2), (3) の場合に,正答指標値がu になる確率P(u|1, (1, 2), (3)) = q6,u
旧方式が正答でグループ集合が(1, 2, 3) の場合に,正答指標値がu になる確率P(u|1, (1, 2, 3)) = q7,u
P(G|W, S):
旧方式が誤答でグループ集合が(1), (2), (3) の場合に,グループ(3) が正答する確率P((3)|0, (1), (2), (3)) = p1/(p0 + p1 + p2)
旧方式が誤答でグループ集合が(1), (2), (3) の場合に,グループ(2) が正答する確率P((2)|0, (1), (2), (3)) = p2/(p0 + p1 + p2)
旧方式が誤答でグループ集合が(1), (2, 3) の場合に,グループ(2, 3) が正答する確率P((2, 3)|0, (1), (2, 3)) = 1
P(u|W, S,G):
旧方式が誤答でグループ集合が(1), (2), (3) でグループ(3) が正答する場合に,正答指標値がu になる確率P(u|0, (1), (2), (3), (3)) = q1,u
旧方式が誤答でグループ集合が(1), (2), (3) でグループ(2) が正答する場合に,正答指標値がu になる確率P(u|0, (1), (2), (3), (2)) = q2,u
旧方式が誤答でグループ集合が(1), (2, 3) でグループ(2, 3) が正答する場合に,正答指標値がu になる確率P(u|0, (1), (2, 3), (2, 3)) = q3,u
次に、選択方法について検討する。選択方法は、グループ集合S と正答指標値u が与えられたときのグループG の選択確率d(G|S, u) で規定される。図27は選択可能なグループと選択確率を示す説明図である。
図27におけるd1,u, d2,u, d3,u, d’1,u, d1,3,u, d1,2,u が求めるべき選択確率であり、0以上1以下の値を取る必要がある。グループ集合の中のどれか1つのグループを選択するため、選択可能なグループにおける選択確率の和は1 になる。この制約を用いて未知数の数を減らすことができる。また、d1,u + d2,u + d3,u = 1 が成り立つ必要がある。与えられた選択確率に対する非互換率は式12で表され、正答率は、式13で表される。
Figure 0006350048
(式12)
Figure 0006350048
(式13)
最適選択方法は、式12及び式13において、非互換率を許容値以下とし、正答率を最大にするようなd1,u, d2,u, d3,u, d’1,u, d1,3,u, d1,2,uである。本算出例では、式の形で最適選択方法を求めることができる。まず,d1,3,u とd1,2,u は非互換率の式で非正の係数が掛かった形でしか用いられていないことに注目する。
従って、d1,3,u = 1, d1,2,u = 1 が非互換率を最小に正答率を最大にする。次に,d’1,u は正答率の式で非正の係数が掛かった形でしか用いられていないことに注目する。従って、d’1,u = 0が正答率を最大にする。
Figure 0006350048
Figure 0006350048
Figure 0006350048
これにより得られた値を非互換率及び正答率の式に代入することにより式14及び式15を得ることができる。
Figure 0006350048
(式14)
Figure 0006350048
(式15)
ここで、xu = 1 - d1,u と置くと、最適選択方法を与えるd1,u の計算に式4から式8に示す定理を適用することができる。例外的な第1〜第3の場合を除外して考えた場合、最適選択方法を与えるd1,u は式16で表される。
Figure 0006350048
(式16)
ただし、k はこのときの非互換率が許容値に一致するように選ぶ。d1,u からd3,u, d2,u が計算できるため、最適選択方法を与えるd1,u, d2,u, d3,u, d’1,u, d1,3,u, d1,2,u を全て算出することが可能となる。これにより認識方式が3以上であっても、複数の認識方式を用いることで高精度の認識結果を得ることが可能となる。
本実施の形態3は以上の如きであり、その他は実施の形態1及び実施の形態2と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
実施の形態4
実施の形態4は認識方式についての異なる形態に関する。認識方式が複数の過程により実行される場合、一の認識方式の一部の過程を、他の認識方式の一部の過程に置き換えることで、さらに異なる認識方式としても良い。
図28は認識方式の合成を示す説明図である。本実施形態では認識処理は車番検出、文字検出及び文字認識の3つの段階を含む。車番検出は画像データからナンバープレートを検出する処理である。文字検出はナンバープレート上の文字を抽出する処理である。文字認識は抽出した文字を認識する処理である。方式1は実施の形態1で述べた旧認識処理であり、旧車番検出、旧文字検出及び旧文字認識である。方式8は実施の形態1で述べた新認識処理であり、新車番検出、新文字検出及び新文字認識である。
CPU11は、これら3つの処理を適宜新旧認識方式で組み替えて新たな認識方式を生成する。CPU11は、旧車番検出、旧文字検出及び新文字認識を組み合わせて方式2を生成する。CPU11は、他の組み合わせに係る方式を適宜生成する。
図29は認識方式の生成処理手順を示すフローチャートである。CPU11は、各認識方式を構成する複数の認識処理を、記憶部15から読み出す(ステップS291)。CPU11は、読み出した認識処理を参照し、認識処理の一部を変更して新たな認識方式を生成する(ステップS292)。CPU11は、全ての認識処理の組み合わせについて処理を終了したか否かを判断する(ステップS293)。CPU11は、処理を終了していないと判断した場合(ステップS293でNO)、処理をステップS292に戻す。CPU11は、全ての組み合わせについて処理を終了したと判断した場合(ステップS293でYES)、一連の処理を終了する。これにより、認識方式が少ない場合でも、適宜内部処理を組み替えることで数多くの方式を生成できる。また数多くの方式に対し、実施の形態3で述べた処理を適用することが可能となる。
本実施の形態4は以上の如きであり、その他は実施の形態1から実施の形態3と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
実施の形態5
実施の形態5は、認識方式の出力として不答(認識できない)を許す形態に関する。認識方式の出力として不答を認めることが望ましい状況として、例えば車番認識を用いた駐車場管理システムにおいて、1台の車に対して複数回の撮影が可能な場合が挙げられる。認識結果が誤答である場合、登録車が不許可になる問題が発生する。しかし、認識結果が不答の場合には再撮影または再認識すれば、若干の遅延は起こるものの登録車が不許可になる可能性を低減することができる。
認識方式の出力として不答を認める場合、1つのデータに対する認識結果は、正答、誤答または不答のいずれか1つに分類される。正答に分類されるデータの割合が正答率であり、実施の形態例1〜4で認識精度を表す性能指標として用いた。同様に、誤答に分類されるデータの割合を誤答率、不答に分類されるデータの割合を不答率という。正答率、誤答率、不答率は、0から1までの数であり、3つを加えると1になる。
これら3つの性能指標に関して、正答率が高く、誤答率と不答率が低いほど良好な認識精度となる。誤答率と不答率はともに低いことが望ましいが、両方を同時に最小化することは難しい。従って、本実施形態では、認識精度の性能指標として、λを非負の定数として、誤答率 +λ×不答率を用いる。以下では、これを誤り損失という。λは、誤答と不答の影響の大きさを表すパラメータである。認識システムによって誤答と不答の影響は異なるので、それを考慮したλの値が与えられると仮定する。例えば、誤答が不答の2倍くらいの影響がある認識システムでは、λ=0.5とすれば良い。
同様に、互換性についても不答を考慮した性能指標を導入する。旧方式で正答であったデータの集まりに対して認識結果が誤答となる割合を条件誤答率、認識結果が不答となる割合を条件不答率という。実施の形態1〜4で互換性の性能指標として用いた非互換率は、条件誤答率(あるいは条件誤答率と条件不答率の和)に等しい。
認識精度の性能指標の誤り損失と同様に、μを非負の定数として、条件誤答率 + μ×条件不答率を互換性の性能指標として用いる。以下ではこれを非互換損失という。μは、誤答と不答の影響の大きさを表すパラメータである。例えばμ=λとしてもよいが、両者を異なる値に取ることも可能である。上記の性能指標を用い、最適な選択方法とは非互換損失を許容値以下にして誤り損失を最小にするような選択方法と定める。
CPU11は、どのグループの認識結果を選ぶべきかを記載したテーブルdを生成する。以下、詳細を説明する。最初にテストデータを用いて以下の確率を推定する。ここで、X は正答C、誤答W、不答N のいずれかを表す。
P(X) 旧方式がX する確率
P(S|X) 旧方式がX する場合に、グループ集合がS になる確率
P(u|C, S) 旧方式が正答でグループ集合がS の場合に、指標値がu となる確率
P(G|X, S) 旧方式がXでグループ集合がS の場合に、グループG が正答する確率
ただしG0 の場合は正答グループがない確率を表す
P(u|X, S,G) 旧方式がXでグループ集合がS でグループG が正答する場合に、指標値がu となる確率
ただしG0 の場合は正答グループがない確率を表す
選択方法は、グループ集合S で正答指標値u におけるグループG の選択確率d(G|S, u) で規定される。
Figure 0006350048
従って、すべてのS、 G, u の組み合わせに対してd(G|S, u) を定めれば選択方法は決定される。d(G|S, u) が仮に与えられたとすると、実施の形態3と同様に、そのときの非互換損失は式17で表すことができる。また誤り損失は式18で表すことができる。ここで、G0 は不答に対応するグループ、G1 は旧方式が属するグループを表す。
Figure 0006350048
(式17)
Figure 0006350048
(式18)
CPU11は、d(G|S, u)を未知数として、非互換率損失を許容値以下にして、誤り損失を最小にする最適化問題を、線形計画法を用いて算出する。以降の処理は実施の形態3で述べたとおりであるので詳細な説明は省略する。
図30はテーブル生成処理の手順を示すフローチャートである。なお、実施の形態3と共通する部分は適宜詳細な説明を省略する。CPU11は、λ及びμの値を記憶部15から読み出す(ステップS301)。またCPU11は、非互換率損失の許容値を記憶部15から読み出す。CPU11は、ステップS231〜S237で説明した処理を実行する(ステップS302〜S308)。
CPU11は、P(N)、すなわち旧方式が不答の確率を算出する(ステップS309)。CPU11は、P(S|N)、すなわち旧方式が不答の場合、グループ集合がSになる確率を算出する(ステップS310)。CPU11は、P(G|N,S)、すなわち旧方式が不答でグループ集合がSの場合にグループGが正の確率を算出する(ステップS311)。CPU11は、P(u|N,S,G)、すなわち、旧方式が不答でグループ集合がSでグループGが正の場合に、指標値がuとなる確率を算出する(ステップS312)。CPU11は、式17及び式18を参照し、d(G|S, u)を未知数として、非互換率損失が許容値以下にして、かつ、誤り損失が最小となる最適化問題を解いて、テーブル(第3選択テーブル)を生成する(ステップS313)。これにより、認識結果に不答が含まれる場合でも、精度良く認識することが可能となる。
本実施の形態5は以上の如きであり、その他は実施の形態1から実施の形態4と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
実施の形態6
図31は上述した形態のコンピュータ1の動作を示す機能ブロック図である。CPU11が制御プログラム15Pを実行することにより、コンピュータ1は以下のように動作する。取得部311はテストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得する。許容値取得部312は、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる非互換率の許容値を取得する。生成部313は、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブル151を生成する。第1確率算出部314は、前記結果データに基づき、旧認識方式の認識結果が正であり新認識方式の認識結果が誤である場合に、各認識方式の指標値の組み合わせが現れる第1確率を算出する。
コンピュータ1は、また以下のように動作する。読み出し部315は、テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブル151を読み出す。指標値取得部316は、複数の認識方式により得られた認識結果及び指標値を取得する。選択部317は、取得した各認識方式の指標値及び前記選択テーブル151を参照し、認識方式を選択する。出力部318は、選択部317により選択した認識方式に係る認識結果を出力する。
図32は実施の形態6に係るコンピュータ1のハードウェア群を示すブロック図である。コンピュータ1を動作させるためのプログラムは、ディスクドライブ等の読み取り部10AにCD-ROM、DVD(Digital Versatile Disc)ディスク、メモリーカード、またはUSB(Universal Serial Bus)メモリ等の可搬型記録媒体1Aを読み取らせて記憶部15に記憶しても良い。また当該プログラムを記憶したフラッシュメモリ等の半導体メモリ1Bをコンピュータ1内に実装しても良い。さらに、当該プログラムは、インターネット等の通信網Nを介して接続される他のサーバコンピュータ(図示せず)からダウンロードすることも可能である。以下に、その内容を説明する。
図32に示すコンピュータ1は、上述した各種ソフトウェア処理を実行するプログラムを、可搬型記録媒体1Aまたは半導体メモリ1Bから読み取り、或いは、通信網を介して他のサーバコンピュータ(図示せず)からダウンロードする。当該プログラムは、制御プログラム15Pとしてインストールされ、RAM12にロードして実行される。これにより、上述したコンピュータ1として機能する。
本実施の形態6は以上の如きであり、その他は実施の形態1から5と同様であるので、対応する部分には同一の参照番号を付してその詳細な説明を省略する。
以上の実施の形態1乃至6を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得する取得部と、
認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる非互換率の許容値を取得する許容値取得部と、
前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを生成する生成部と
を備える情報処理装置。
(付記2)
前記結果データに基づき、一の認識方式の認識結果が正であり他の認識方式の認識結果が誤である場合に、各認識方式の指標値の組み合わせが現れる第1確率を算出する第1確率算出部
を備える付記1に記載の情報処理装置。
(付記3)
前記結果データに基づき、一の認識方式の認識結果が誤であり他の認識方式の認識結果が正である場合に、各認識方式の指標値の組み合わせが現れる第2確率を算出する第2確率算出部
を備える付記2に記載の情報処理装置。
(付記4)
前記第2確率を前記第1確率で除して、各認識方式の指標値の組み合わせに対する除算値を算出する除算値算出部と、
各除算値に基づき、候補となる候補選択テーブルを生成する候補生成部と
を備える付記3に記載の情報処理装置。
(付記5)
一の認識方式の認識結果が正であり他の認識方式の認識結果が誤である第3確率を算出する第3確率算出部と、
前記第3確率、前記第1確率及び前記候補選択テーブルに基づき、各候補選択テーブルに対応する非互換率を算出する非互換率算出部と
を備える付記4に記載の情報処理装置。
(付記6)
一の認識方式の認識結果が正である第4確率を算出する第4確率算出部と、
一の認識方式の認識結果が誤である第5確率を算出する第5確率算出部と、
一の認識方式の認識結果が誤であり他の認識方式の認識結果が正である第6確率を算出する第6確率算出部と、
第1確率乃至第6確率、及び前記候補選択テーブルに基づき、各候補選択テーブルに対応する正答率を算出する正答率算出部と
を備える付記5に記載の情報処理装置。
(付記7)
候補選択テーブルから、算出した非互換率が許容値以下であり、かつ、正答率が最良となる選択テーブルを抽出する抽出部と
を備える付記6に記載の情報処理装置。
(付記8)
認識方式が3以上の場合、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各認識方式の認識結果に基づき分類されるグループの集合毎に、集合内のいずれのグループを選択するかを示す第2選択テーブルを生成する第2生成部
を備える付記1から7のいずれか一つに記載の情報処理装置。
(付記9)
2つの認識方式が複数の段階により処理されている場合に、一の認識方式の複数の段階の一部を他の認識方式の一部へ変更することにより、新たな認識方式を生成する方式生成部
を備える付記8に記載の情報処理装置。
(付記10)
前記結果データに基づき、認識結果が誤りとなる誤答率及び認識結果を出力しない不答率に基づく誤り損失を算出する損失算出部と、
前記結果データに基づき、認識方式を切り替えることにより切り替え前後で認識結果が正から認識結果を出力しない不答となる数に基づき定まる条件不答率と、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる非互換率とに基づき算出される非互換損失を算出する非互換損失算出部と、
認識方式が3以上の場合、前記結果データを参照し、非互換損失の許容値の範囲内で前記誤り損失が最小となるように、各認識方式の認識結果に基づき分類されるグループの集合毎に、集合内のいずれのグループを選択するかを示す第3選択テーブルを生成する第3生成部と
を備える付記1から8のいずれか一つに記載の情報処理装置。
(付記11)
テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを読み出す読み出し部と、
複数の認識方式により得られた認識結果及び指標値を取得する指標値取得部と、
取得した各認識方式の指標値及び前記選択テーブルを参照し、認識方式を選択する選択部と、
選択部により選択した認識方式に係る認識結果を出力する出力部と
を備える情報処理装置。
(付記12)
テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを読み出し、
複数の認識方式により得られた認識結果及び指標値を取得し、
取得した各認識方式の指標値及び前記選択テーブルを参照し、認識方式を選択し、
選択した認識方式に係る認識結果を出力する
処理をコンピュータに実行させる情報処理方法。
(付記13)
コンピュータに、
テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを読み出し、
複数の認識方式により得られた認識結果及び指標値を取得し、
取得した各認識方式の指標値及び前記選択テーブルを参照し、認識方式を選択し、
選択した認識方式に係る認識結果を出力する
処理を実行させるプログラム。
1 コンピュータ
1A 可搬型記録媒体
1B 半導体メモリ
2 カメラ
10A 読み取り部
11 CPU
12 RAM
13 入力部
14 表示部
15 記憶部
15P 制御プログラム
16 通信部
18 時計部
19 画像取込部
151 選択テーブル
152 結果ファイル
153 正誤ファイル
311 取得部
312 許容値取得部
313 生成部
314 第1確率算出部
315 読み出し部
316 指標値取得部
317 選択部
318 出力部

Claims (5)

  1. テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得する取得部と、
    認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる非互換率の許容値を取得する許容値取得部と、
    前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを生成する生成部と
    を備える情報処理装置。
  2. 前記結果データに基づき、一の認識方式の認識結果が正であり他の認識方式の認識結果が誤である場合に、各認識方式の指標値の組み合わせが現れる第1確率を算出する第1確率算出部
    を備える請求項1に記載の情報処理装置。
  3. テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを読み出す読み出し部と、
    複数の認識方式により得られた認識結果及び指標値を取得する指標値取得部と、
    取得した各認識方式の指標値及び前記選択テーブルを参照し、認識方式を選択する選択部と、
    選択部により選択した認識方式に係る認識結果を出力する出力部と
    を備える情報処理装置。
  4. テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを読み出し、
    複数の認識方式により得られた認識結果及び指標値を取得し、
    取得した各認識方式の指標値及び前記選択テーブルを参照し、認識方式を選択し、
    選択した認識方式に係る認識結果を出力する
    処理をコンピュータに実行させる情報処理方法。
  5. コンピュータに、
    テストデータに対して複数の認識方式を適用して得られる各認識結果の正誤及び認識の確からしさを示す指標値を含む結果データを取得し、認識方式を切り替えることにより切り替え前後で認識結果が正から誤となる数に基づき定まる変化率の許容値を取得し、前記結果データを参照し、前記許容値の範囲内で認識正答率が最良となるように、各指標値に対して複数の認識方式の内のいずれの認識方式を選択するかを示す選択テーブルを読み出し、
    複数の認識方式により得られた認識結果及び指標値を取得し、
    取得した各認識方式の指標値及び前記選択テーブルを参照し、認識方式を選択し、
    選択した認識方式に係る認識結果を出力する
    処理を実行させるプログラム。
JP2014140127A 2014-07-08 2014-07-08 情報処理装置、情報処理方法及びプログラム Active JP6350048B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014140127A JP6350048B2 (ja) 2014-07-08 2014-07-08 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014140127A JP6350048B2 (ja) 2014-07-08 2014-07-08 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016018353A JP2016018353A (ja) 2016-02-01
JP6350048B2 true JP6350048B2 (ja) 2018-07-04

Family

ID=55233543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014140127A Active JP6350048B2 (ja) 2014-07-08 2014-07-08 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6350048B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018112839A (ja) 2017-01-10 2018-07-19 富士通株式会社 画像処理プログラム、画像認識プログラム、画像処理装置、画像認識装置、画像認識方法、及び画像処理方法
JP7319011B2 (ja) * 2019-04-24 2023-08-01 株式会社しんきん情報サービス 処理装置、処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3265701B2 (ja) * 1993-04-20 2002-03-18 富士通株式会社 多判定器によるパターン認識装置
JP3421200B2 (ja) * 1996-08-26 2003-06-30 富士通株式会社 文字認識方法および装置

Also Published As

Publication number Publication date
JP2016018353A (ja) 2016-02-01

Similar Documents

Publication Publication Date Title
CN109840588B (zh) 神经网络模型训练方法、装置、计算机设备及存储介质
CN102622335B (zh) 用于根据示例的自动化表格变换的方法和系统
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
JP6010133B2 (ja) 属性データ区間の分類
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
JP2017162306A (ja) 情報処理装置、類似検索プログラム、及び類似検索方法
US11727277B2 (en) Method and apparatus for automatically producing an artificial neural network
US20160098615A1 (en) Apparatus and method for producing image processing filter
CN112990302B (zh) 基于文本生成图像的模型训练方法、设备和图像生成方法
CN111340233B (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
JP2019159836A (ja) 学習プログラム、学習方法および学習装置
JP6350048B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2016095640A (ja) 密度計測装置、密度計測方法、およびプログラム
JP2020060970A (ja) コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
CN113239022A (zh) 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN110704668B (zh) 基于网格的协同注意力vqa方法和装置
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN114399025A (zh) 一种图神经网络解释方法、系统、终端以及存储介质
Gao Density-based approach for fuzzy rule interpolation
JP2022003451A (ja) 最適解獲得プログラム、最適解獲得方法および情報処理装置
KR102306319B1 (ko) 포즈 추정 매핑 데이터를 생성하는 방법, 프로그램 및 컴퓨팅 장치
CN115129590A (zh) 一种测试用例的生成方法及装置、电子设备、存储介质
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置
JP5809663B2 (ja) 分類精度推定装置、分類精度推定方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180521

R150 Certificate of patent or registration of utility model

Ref document number: 6350048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150