1 実施の形態1
1.1 システム検証装置の概略
図1は、実施の形態1のシステム検証装置を図示するブロック図である。
図1に図示されるシステム検証装置100は、システム102を検証する。システム検証装置100は、画像により表現される手書き数字を認識する画像認識システムを検証するのに適する。このため、以下では、システム102が当該画像認識システムである場合が説明される。しかし、システム102は、当該画像認識システム以外の画像認識システムであってもよく、画像認識システム以外の認識システムであってもよく、認識システム以外のシステムであってもよい。例えば、システム102は、制御システム等であってもよい。システム102は、人工知能を備えるシステムである。しかし、システム102は、人工知能を備えないシステムであってもよい。システム102は、具体的には、人工知能を備える自動運転システム、ロボットシステム等である。
システム検証装置100は、定義部110、生成部112及び検証部114を備える。システム検証装置100がこれらの要素以外の要素を備えてもよい。
システム検証装置100は、コンピュータを備える。コンピュータは、プロセッサ及びメモリを備える。プロセッサは、中央演算処理装置(CPU)等である。メモリは、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)等である。定義部110、生成部112及び検証部114は、メモリに記憶されたプログラムをプロセッサが実行することにより構成される。定義部110、生成部112及び検証部114の全部又は一部が、プログラムを実行しないハードウェアにより構成されてもよい。
定義部110は、入力された入力情報120、及び特定事象の抽出結果122に基づいて生成仕様124を定義する。また、定義部110は、定義した生成仕様124を出力する。
入力情報120は、システム102に入力される検証データセット128に含まれる複数の検証データの属性を含む。
特定事象は、システム102により望ましくない出力が生成される原因となる事象である。望ましくない出力は、システム102に期待される出力に反する出力である。
生成仕様124は、検証データセット128を生成するための仕様である。
生成部112は、入力された生成仕様124及び検証用基データ126に基づいて検証データセット128を生成する。また、生成部112は、生成した検証データセット128を出力する。
検証データセット128は、システム102が仕様を満たしているか否かについて検証を行うためのデータセットである。
システム102には、検証データセット128が入力される。システム102は、検証データセット128が入力された場合に出力130を生成する。検証データセット128は、複数の検証データを含む。出力130は、複数の応答を含む。複数の応答は、それぞれ複数の検証データに対する応答である。複数の検証データは、それぞれ複数の画像である。複数の応答は、それぞれ複数の認識結果である。
検証部114は、入力された生成仕様124、検証データセット128及び出力130に基づいてシステム102が仕様を満たしているか否かについて検証を行う。また、検証部114は、検証の結果132を出力する。
システム検証装置100によれば、特定事象の抽出結果122を反映する検証データセット128を用いてシステム102が仕様を満たしているか否かについて検証が行われる。このため、システム102が仕様を満たしているか否かについて、特定事象の抽出結果122を得るために行われた系統的な抽出を反映する系統的な検証が行われる。これにより、出力130の根拠が不明確であるシステム102が仕様を満たしているか否かについて系統的に検証を行うことができる。
1.2 入力情報の例
図2は、実施の形態1のシステム検証装置に入力される入力情報の例を図示する図である。
図2に図示される入力情報120Pは、図1に図示される入力情報120の例である。以下では、図1に図示される入力情報120が図2に図示される入力情報120Pであるとして説明が進められる。
入力情報120Pは、画像サイズ150及びビット数152を含む。画像サイズ150及びビット数152は、それぞれ検証データセット128に含まれる複数の検証データの画像サイズ及びビット数である。入力情報120Pが、画像サイズ150及びビット数152以外の画像の属性を含んでもよく、画像以外のデータの属性を含んでもよい。
検証データセット128に含まれる複数の検証データは、MNISTと呼ばれるデータセットに含まれる、複数の手書き数字をそれぞれ表現する複数の画像を加工することにより作成される。このため、画像サイズ150は、MNISTに含まれる複数の画像の画像サイズである「28×28(pixel)」に一致する。また、ビット数152は、MNISTに含まれる複数の画像のビット数である「8(bit)」に一致する。
1.3 木構造
図3は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果を図示する図である。
特定事象の抽出結果122は、フォルトツリー解析(FTA)により生成される。このため、特定事象の抽出結果122は、図3に図示されるように、木構造200を含む。
木構造200は、ノード210A,210B,210C,210D及び210Eを含む。
ノード210A,210B,210C,210D及び210Eは、特定事象A、特定基本事象B、特定事象C、特定基本事象D及び特定基本事象Eをそれぞれ表す。
木構造200は、分岐のゲート220及び222をさらに含む。
分岐のゲート220は、上位ノード210Aに下位ノード210B及び210Cを連結する。上位ノード210Aにより表される特定事象A、並びに下位ノード210B及び210Cによりそれぞれ表される特定基本事象B及び特定事象Cにおいては、特定事象Aが上位事象である。また、特定基本事象B及び特定事象Cが下位事象である。特定基本事象B及び特定事象Cは、特定事象Aが発生する原因となる。
特定事象Aは、特定基本事象B及び特定事象Cの組み合わせにより表される。特定事象Aは、特定基本事象B及び特定事象Cのいずれかが発生した場合に発生する。このため、特定事象Aは、特定基本事象B及び特定事象Cの論理和により表される。したがって、分岐のゲート220は、ORゲートである。
分岐のゲート222は、上位ノード210Cに下位ノード210D及び210Eを連結する。上位ノード210Cにより表される特定事象C、並びに下位ノード210D及び210Eによりそれぞれ表される特定基本事象D及びEにおいては、特定事象Cが上位事象である。また、特定基本事象D及びEが下位事象である。特定基本事象D及びEは、特定事象Cが発生する原因となる。
特定事象Cは、特定基本事象D及びEの組み合わせにより表される。特定事象Cは、特定基本事象D及びEのすべてが発生した場合に発生する。このため、特定事象Cは、特定基本事象D及びEの論理積により表される。したがって、分岐のゲート222は、ANDゲートである。
ノード210A,210B,210C,210D及び210Eは、特定事象A及びCをそれぞれ表す情報となる内部ノード210A及び210Cを含む。
ノード210A,210B,210C,210D及び210Eは、特定事象Aが発生する原因となる特定基本事象B,D及びEをそれぞれ表す情報となる葉ノード210B,210D及び210Eを含む。葉ノード210B,210D及び210Eは、上位ノードになることはできない。
木構造200の構造が図3に図示される構造から他の構造に変更される場合は、特定事象、特定基本事象、ノード、上位ノード、下位ノード、内部ノード、葉ノード、分岐のゲート、ORゲート及びANDゲートの数も変化しうる。
1.4 フォルトツリー解析
図4は、通常のFTAにより生成される木構造の例を図示する図である。図5は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図である。
通常のFTAにおいては、上位事象が発生する原因となる下位事象が専ら分析される。これに対して、木構造200を生成するために行われるFTAにおいては、上位事象が発生する原因となる下位事象が分析され、上位事象及び下位事象に含まれる各事象に属するデータセットがさらに分析される。このため、木構造200を生成するために行われるFTAにおいては、複数の事象にそれぞれ属する複数のデータセットの共通集合が空集合である場合は、複数の事象の論理積により表される事象に属するデータセットを作成することができず、当該事象を表すノードを作成することができない。
したがって、図4に図示される、通常のFTAにより生成される木構造250においては、ANDゲート260が、「インクがにじむ」という上位事象を表す上位ノード270に、「文字が太くなる」及び「文字が薄くなる」という下位事象をそれぞれ表す下位ノード272及び274を連結することができる。これに対して、図5に図示される、実施の形態1のシステム検証装置100に入力される特定事象の抽出結果122に含まれる木構造300においては、ORゲート310が、「インクがにじむ」という上位事象をあらわす上位ノード320に、「文字が太くなるかつ薄くなる」という下位事象を表す下位ノード322を連結しなければならない。このような相違が生じるのは、「文字が太くなる」及び「文字が薄くなる」という2個の事象にそれぞれ属する2個のデータセットの共通集合が空集合であるため、「文字が太くなる」及び「文字が薄くなる」という2個の事象の論理積により表される事象に属するデータセットを作成することができず、当該事象を表すノードを作成することができないためである。
1.5 発生確率、誤認識率、基本誤認識率及び加工条件
特定事象の抽出結果122は、図3に図示されるように、発生確率pfA及びpfcを含む。
発生確率pfA及びpfcは、それぞれ特定事象A及びCについて定義される。発生確率pfA及びpfcは、それぞれ特定事象A及びCが発生する確率である。
特定事象の抽出結果122は、誤認識率peA及びpeCをさらに含む。
誤認識率peA及びpeCは、それぞれ特定事象A及びCについて定義される。誤認識率peA及びpeCは、それぞれ特定事象A及びCが発生した場合に特定事象A及びCが原因となってシステム102が手書き数字を誤認識する確率である。
特定事象の抽出結果122は、発生確率pfB,pfD及びpfEをさらに含む。
発生確率pfB,pfD及びpfEは、それぞれ特定基本事象B,D及びEについて定義される。発生確率pfB,pfD及びpfEは、それぞれ特定基本事象B,D及びEが発生する確率である。
特定事象の抽出結果122は、基本誤認識率pbB,pbD及びpbEをさらに含む。
基本誤認識率pbB,pbD及びpbEは、それぞれ特定基本事象B,D及びEについて定義される。基本誤認識率pbB,pbD及びpbEは、それぞれ特定基本事象B,D及びEが単独で発生した場合に特定基本事象B,D及びEが原因となってシステム102が手書き数字を誤認識する確率である。
特定事象の抽出結果122は、加工条件PCB,PCD及びPCEをさらに含む。
加工条件PCB,PCD及びPCEは、それぞれ特定基本事象B,D及びEについて定義される。加工条件PCB,PCD及びPCEは、それぞれ特定基本事象B,D及びEに属するデータセットを生成するための加工条件であり、それぞれ特定基本事象B,D及びEについて検証データセットを生成するために検証用基データ126を加工する際にしたがうべき加工条件である。
1.6 データセットの間の関係
全体のデータU、並びに特定事象A、特定基本事象B及び特定事象Cにそれぞれ属するデータセットDA,DB及びDCは、式(1)及び式(2)により表される関係を有する。
式(1)は、データセットDAが全体のデータUに含まれることを示し、データセットDAがデータセットDB及びDCの和集合であることを示す。式(2)は、データセットDB及びDCの積集合が空集合であることを示す。
特定事象C、特定基本事象D及び特定基本事象Eにそれぞれ属するデータセットDC,DD及びDEは、式(3)により表される関係を有する。
式(3)は、データセットDCがデータセットDD及びDEの積集合であることを示す。
特定事象A、特定基本事象B、特定事象C、特定基本事象D及び特定基本事象Eにそれぞれ属する誤認識データセットEA,EB,EC,ED及びEE、並びにデータセットDA,DB,DC,DD及びDEは、式(4)により表される関係を有する。ただし、Xは、A,B,C,D及びEの各々である。
式(4)は、誤認識データセットEXがデータセットDXに含まれることを示す。誤認識データセットEA,EB,EC,ED及びEEに含まれる誤認識データにより表現される手書き数字は、システム102に誤認識される。
誤認識データセットEA,EB及びECは、式(5)により表される関係を有する。
式(5)は、誤認識データセットEAが誤認識データセットEB及びECの和集合であることを示す。
誤認識データセットEC,ED及びEEは、式(6)により表される関係を有する。
式(6)は、誤認識データセットECが誤認識データセットED及びEEの和集合であることを示す。
発生確率pfX、誤認識率peX及び基本誤認識率pbXは、それぞれ式(7)、式(8)及び式(9)により定義される。
基本誤認識率pbXを求める際の母数|DX|が発生確率pfX及び誤認識率peXを求める際の母数|U|と相違するのは、基本誤認識率pbXを求める際の母集団が発生確率pfX及び誤認識率peXを求める際の母集団と相違するためである。
上位ノード210A、並びにORゲート220により上位ノード210Aに連結される下位ノード210B及び210Cに着目した場合は、発生確率pfA,pfB及びpfc、誤認識率peA及びpeC、並びに基本誤認識率pbBは、式(10)及び式(11)により表される関係を有する。
上位ノード210C、並びにANDゲート222により上位ノード210Cに連結される下位ノード210D及び210Eに着目した場合は、発生確率pfc,pfD及びpfE、誤認識率peC、並びに基本誤認識率pbD及びpbEは、式(12)及び式(13)により表される関係を有する。
式(12)は、発生確率pfcが、発生確率pfD及びpfEのうちの最小値以下であることを示す不等式になっている。式(13)は、誤認識率peCが、発生確率pfDと基本誤認識率pbDとの積、及び発生確率pfEと基本誤認識率pbEとの積のうちの最小値以下であることを示す不等式となっている。式(12)及び式(13)が不等式となっているのは、データセットDD及びDEの積集合に含まれるデータの数は、正確には不明であるものの、データセットDDに含まれるデータの数、及びデータセットDEに含まれるデータの数のうちの最小値以下であるためである。
1.7 特定事象の抽出結果の例
図6は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果の例を図示する図である。
図6に図示される特定事象の抽出結果122Pは、図1に図示される特定事象の抽出結果122の例である。以下では、図1に図示される特定事象の抽出結果122が図6に図示される特定事象の抽出結果122Pであるとして説明が進められる。
特定事象の抽出結果122Pは、木構造350を含む。
木構造350は、ノード360A,360B,360C,360D,360E,360F,360G,360H等のノードを含む。
ノード360Aは、「ノイズによって手書き数字を誤認識する」という特定事象Aを表す。ノード360Bは、「インク切れ」という特定事象Bを表す。ノード360Cは、「紙の配置を誤る」という特定事象Cを表す。ノード360Dは、「紙が汚れている」という特定事象Dを表す。ノード360Eは、「文字全体が薄くなる」という特定基本事象Eを表す。ノード360Fは、「文字全体が傾いている」という特定基本事象Fを表す。ノード360Gは、「ドット足し」という特定基本事象Gを表す。ノード360Hは、「ドット欠け」という特定基本事象Hを表す。「ノイズによって手書き数字を誤認識する」、「インク切れ」、「紙の配置を誤る」、「紙が汚れている」、「文字全体が薄くなる」、「文字全体が傾いている」、「ドット足し」及び「ドット欠け」は、それぞれノード360A,360B,360C,360D,360E,360F,360G及び360Hのノード名となっている。
特定事象の抽出結果122Pは、ORゲート370,372,374,376等の分岐のゲートをさらに含む。
ORゲート370は、上位ノード360Aに、下位ノード360B,360C及び360Dを連結する。ORゲート372は、上位ノード360Bに、下位ノード360Eを連結する。ORゲート374は、上位ノード360Cに、下位ノード360Fを連結する。ORゲート376は、上位ノード360Dに、下位ノード360G及び360Hを連結する。
特定事象の抽出結果122Pは、発生確率pfA,pfB,pfc及びpfDをさらに含む。発生確率pfA,pfB,pfC及びpfDは、それぞれ特定事象A,B,C及びDについて定義される。
特定事象の抽出結果122Pは、誤認識率peA,peB,peC及びpeDをさらに含む。誤認識率peA,peB,peC及びpeDは、それぞれ特定事象A,B,C及びDについて定義される。
特定事象の抽出結果122Pは、発生確率pfE,pfF,pfG及びpfHをさらに含む。発生確率pfE,pfF,pfG及びpfHは、それぞれ特定基本事象E,F,G及びHについて定義される。
特定事象の抽出結果122Pは、基本誤認識率pbE,pbF,pbG及びpbHをさらに含む。基本誤認識率pbE,pbF,pbG及びpbHは、それぞれ特定基本事象E,F,G及びHについて定義される。
特定事象の抽出結果122Pは、加工条件PCE,PCF,PCG及びPCHをさらに含む。加工条件PCE,PCF,PCG及びPCHは、それぞれ特定基本事象E,F,G及びHについて定義される。
全体のデータU、上位事象である特定事象Aに属するデータセットDA、及び下位事象である特定事象B,C,D,・・・,Xにそれぞれ属するデータセットDB,DC,DD,・・・,DXは、式(14)及び式(15)により表される関係を有する。
式(14)は、データセットDAが全体のデータUに含まれることを示し、データセットDAがデータセットDB,DC,DD,・・・,DXの和集合であることを示す。式(15)は、データセットDB,DC,DD,・・・,DXの積集合が空集合であることを示す。
上位事象である特定事象Aに属する誤認識データセットEA、並びに下位事象である特定事象B,C,D,・・・,Xにそれぞれ属する誤認識データセットEB,EC,ED,・・・,EXは、式(16)及び式(17)により表される関係を有する。
式(16)は、誤認識データセットEAが誤認識データセットEB,EC,ED,・・・,EXの和集合であることを示す。式(17)は、誤認識データセットEB,EC,ED,・・・,EXの積集合が空集合であることを示す。誤認識データセットEAは、全体のデータUに含まれる。
特定事象の抽出結果122Pが生成される際には、複数の手書き数字をそれぞれ表す複数の画像の全体においてノイズを含む画像の発生確率が50%であると仮定される。また、手書き数字の認識に関する目標値が「手書き数字を95%以上正しく認識すること」であると定義される。これにより、図6に図示されるように、発生確率pfAが0.5に設定され、誤認識率peAが0.05*0.50に設定される。
また、上位事象について定義された発生確率が少なくともひとつの下位事象についてそれぞれ定義された少なくともひとつの発生確率に等分に分配される。これにより、図6に図示されるように、発生確率pfB,pfc,pfD,・・・,pfXが0.5/Xに設定され、誤認識率peB,peC,peD,・・・,peXが0.05*0.5/Xに設定される。また、発生確率pfEが0.5/Xに設定され、基本誤認識率pbEが0.05に設定される。また、発生確率pfFが0.5/Xに設定され、基本誤認識率pbFが0.05に設定される。また、発生確率pfG及びpfHが0.5/X/2に設定され、基本誤認識率pbF及びpbHが0.05に設定される。
上位ノード360A、並びにORゲート370により上位ノード360Aに連結される下位ノード360B,300C,300D,・・・に着目した場合は、発生確率pfA,pfB,pfc,pfD,・・・,pfX、及び誤認識率peA,peB,peC,peD,・・・,peXは、式(18)及び式(19)により表される関係を有する。
上位ノード360B、及びORゲート372により上位ノード360Bに連結される下位ノード360Eに着目した場合は、発生確率pfB及びpfE、誤認識率peB、並びに基本誤認識率pbEは、式(20)及び式(21)により表される関係を有する。
上位ノード360C、及びORゲート374により上位ノード360Cに連結される下位ノード360Fに着目した場合は、発生確率pfc及びpfF、誤認識率peC、並びに基本誤認識率pbFは、式(22)及び式(23)により表される関係を有する。
上位ノード360D、並びにORゲート376により上位ノード360Dに連結される下位ノード360G及び360Hに着目した場合は、発生確率pfD,pfG及びpfH、誤認識率peD、並びに基本誤認識率pbG及びpbHは、式(24)及び式(25)により表される関係を有する。
加工条件PCE,PCF,PCG及びPCHは、それぞれ基本誤認識率pbE,pbF,pbG及びpbHに応じて設定される。加工条件PCE,PCF,PCG及びPCHは、それぞれ「文字領域のみ69%から50%まで1%ずつ薄くする」、「文字領域のみ時計回りに10°から49°まで1°ずつ回転させる」、「文字領域外に1×1から3×3までのノイズを1個から10個まで加える」及び「文字領域内に1×1から3×3までのノイズを1個から10個まで加える」という加工条件に設定される。
1.8 定義部の動作
図7は、実施の形態1のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートである。図8は、実施の形態1のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。
定義部110は、図7に図示されるステップS101において、入力された入力情報120Pを読み込む。
定義部110は、続くステップS102において、入力された特定事象の抽出結果122Pを読み込む。
定義部110は、続くステップS103からS109までのループにおいて、特定基本事象E,F,G及びHのすべてについてそれぞれ図8に図示される生成仕様124E,124F,124G及び124Hを定義するまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについて生成仕様を定義することを繰り返す。生成仕様124E,124F,124G及び124Hの各々は、図1に図示される生成仕様124の例である。定義部110は、ループ内のステップS104からS108までにおいて、ひとつの特定基本事象Xについて生成仕様を定義する。
定義部110は、続くステップS110において、定義した生成仕様124E,124F,124G及び124Hを出力する。
続いて、ステップS104からS108までにおいて行われる、特定基本事象Xについての生成仕様の定義が説明される。
定義部110は、ステップS104において、特定基本事象Xについて認識仕様を決定し、決定した認識仕様を特定基本事象Xについて定義する生成仕様に含める。定義部110は、ステップS104を繰り返し実行することにより、図8に図示される認識仕様400E,400F,400G及び400Hを、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定基本事象Xが発生した場合でも特定基本事象Xについて生成された出力が期待される出力であること、すなわち特定基本事象Xが発生した場合でも手書き数字を正しく認識することを、特定基本事象Xについて決定する認識仕様にする。これにより、「「文字全体が薄くなる」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様400Eにされ、「「文字全体が傾いている」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様400Fにされ、「「ドット足し」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様400Gにされ、「「ドット欠け」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様440Hにされる。
定義部110は、続くステップS105において、特定基本事象検Xについて加工条件を決定し、決定した加工条件を特定基本事象検Xについて定義する生成仕様に含める。定義部110は、ステップS105を繰り返し実行することにより、図8に図示される加工条件402E,402F,402G及び402Hを、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定事象の抽出結果122Pに含まれる、特定基本事象Xについて定義された加工条件PCXを、特定基本事象Xについて決定する加工条件にする。これにより、「文字領域のみ69%から50%まで1%ずつ薄くする」という加工条件PCEが加工条件402Eにされ、「文字領域のみ時計回りに10°から49°まで1°ずつ回転させる」という加工条件PCFが加工条件402Fにされ、「文字領域外に1×1から3×3までのノイズを1個から10個まで加える」という加工条件PCGが加工条件402Gにされ、「文字領域内に1×1から3×3までのノイズを1個から10個まで加える」という加工条件PCHが加工条件402Hにされる。
定義部110は、続くステップS106において、特定基本事象検Xについて検証方法を決定し、決定した検証方法を特定基本事象検Xについて定義する生成仕様に含める。定義部110は、ステップS106を繰り返し実行することにより、図8に図示される検証方法404E,404F,404G及び404Hを、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定基本事象Xについて定義された加工条件PCXにしたがって検証用基データ126を加工することにより作成可能な検証データの数を示す生成可能データ数NXを決定する。作成可能データ数NXは、検証用基データ126に含まれる画像の数N、及び特定基本事象Xについて定義された加工条件PCXにしたがって検証用基データ126に含まれるひとつの画像を加工することにより作成可能な作成可能データ数MXを用いて、式(26)により決定される。
以下では、作成可能データ数NE,NF,NG及びNHがそれぞれ200000,400000,1400000及び1500000であるとする。
また、定義部110は、求めた生成可能データ数NXが最大データ数NMAX以下である場合は、全数検証を特定基本事象Xについて決定する検証方法にする。また、定義部110は、求めた生成可能データ数NXが最大データ数NMAXより多い場合は、統計的検証を特定基本事象Xについて決定する検証方法にする。全数検証が検証方法にされた場合は、作成可能な検証データの全部が検証データセットに含められる。統計的検証が検証方法にされた場合は、作成可能な検証データからランダムに選択された検証データが検証データセットに含められる。最大データ数NMAXは、例えばRAMの容量に基づいて決定される。
以下では、最大データ数NMAXが700000であるとする。このため、検証方法404E,404F,404G及び404Hは、それぞれ全数検証、全数検証、統計的検証及び統計的検証である。
定義部110は、続くステップS107において、特定基本事象Xについて生成される検証データセットに含める検証データの数を示すデータ数N’Xを決定し、決定したデータ数N’Xを特定基本事象Xについて定義する生成仕様に含める。定義部110は、ステップS107を繰り返し実行することにより、図8に図示されるデータ数406E,406F,406G及び406H(データ数N’E,N’F,N’G及びN’H)を、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定基本事象Xについて決定した検証方法に応じて、特定基本事象Xについて決定するデータ数N’Xを変化させる。
定義部110は、特定基本事象Xについて決定した検証方法が全数検証である場合は、特定基本事象Xについて決定した生成可能データ数NXを、特定基本事象Xについて決定するデータ数N’Xにする。このため、データ数406E及び406F(データ数N’E及びN’F)は、それぞれ200000及び400000である。
一方、定義部110は、特定基本事象Xについて決定した検証方法が統計的検証である場合は、特定基本事象Xについて決定した生成可能データ数NXより少ないデータ数を、特定基本事象Xについて決定するデータ数N’Xにする。このため、データ数406G及び406H(データ数N’G及びN’H)は、それぞれ1400000及び1500000より少ないデータ数である。
特定基本事象Xについて決定された検証方法が統計的検証である場合、すなわち作成可能データ数NXが最大データ数NMAXより多い場合は、決定されるデータ数N’Xは、作成可能な検証データの全部を検証データセットに含めた場合に行われる検証の結果を区間推定により設定信頼度以上で推定できるデータ数である。
特定基本事象Xについて決定された検証方法が統計的検証である場合にデータ数N’Xが決定されるときには、ベルヌーイ試行の区間推定が用いられる。
ベルヌーイ試行の区間推定が用いられる場合は、データ数nは、チェルノフ−ヘフディング境界(Chernoff-Hoeffding bound)から、定義部110の内部パラメータε及びδを用いて、式(27)により求められる。内部パラメータεは、誤差である。
図9は、実施の形態1の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図である。
ベルヌーイ試行の区間推定が用いられる場合は、NX個の検証データを含む母集団からp個の検証データを含む標本を取り出し、取り出した標本における認識率を求めることが、q回繰り返される。これにより、q個の認識率が求められる。また、求められたq個の認識率の分布が、図9に図示されるグラフ450により表される正規分布であると仮定される。この場合は、95%から100%までの認識率の区間が信頼区間1−δであるとすると、認識率は(1−δ)×100%の確率で信頼区間に含まれるといえる。このことを検証するためには、式(27)により求められるデータ数nより多いデータ数の検証データにおいて認識率を求め、求めた認識率が97.5%以上であることを確かめればよい。以下では、εが0.025であるとされ、δが0.01であるとされる。このため、データ数406G及び406H(データ数N’G及びN’H)は、4239以上である。以下では、データ数406G及び406H(データ数N’G及びN’H)が4240であるとする。
このように統計的手法を用いてデータ数N’Xを決定することにより、検証の結果132に対する信頼性を定量的に評価することができる。
定義部110は、続くステップS108において、特定基本事象Xについて目標値を決定し、決定した目標値を特定基本事象Xについて定義する生成仕様に含める。定義部110は、ステップS108を繰り返し実行することにより、図8に図示される目標値408E,408F,408G及び408Hを、それぞれ生成仕様124E,124F,124G及び124Hに含める。
定義部110は、特定基本事象Xについて生成された検証データセットがシステム102に入力された場合にシステム102が正しく認識をすることが求められる手書き数字を表現する検証データの数を、特定基本事象Xについて決定する目標値NTXにする。
特定基本事象Xについて決定した検証方法が全数検証である場合は、目標値NTXは、基本誤認識率pbX、及び作成可能データ数NXを用いて、式(28)により決定される。
特定基本事象E及びFについて決定された検証方法は、全数検証である。また、基本誤認識率pbE及びpbFは、0.05である。また、作成可能データ数NE及びNFは、それぞれ200000及び400000である。このため、目標値408E及び408F(目標値NTE及びNTF)は、それぞれ190000及び380000である。
特定基本事象Xについて決定された検証方法が統計的検証である場合は、目標値NTXは、基本誤認識率pbX、誤差ε及びデータ数N’Xを用いて、式(29)により求められる。
特定基本事象G及びHについて決定された検証方法は、統計的検証である。また、基本誤認識率pbg及びpbhは、0.05である。また、誤差εは、0.025である。また、データ数N’G及びN’Hは、それぞれ4240である。このため、目標値408G及び408H(目標値NTG及びNTH)は、4134である。
1.9 検証用基データ
図10は、実施の形態1のシステム検証装置に入力される検証用基データの例を図示する図である。
図10に図示される検証用基データ126Pは、図1に図示される検証用基データ126の例である。以下では、図1に図示される検証用基データ126が図10に図示される検証用基データ126Pであるとして説明が進められる。
検証用基データ126Pは、複数の画像500を含む。複数の画像500は、MNISTに含まれる複数の画像である。
MNISTは、60000枚の学習用の画像、及び10000枚のテスト用の画像を含む。複数の画像500は、MNISTに含まれる10000枚のテスト用の画像である。複数の画像500が、60000枚の学習用の画像のうちの、システム102の学習フェーズにおいて使用されなかった学習用の画像であってもよい。
検証用基データ126Pは、複数のデータ番号502をさらに含む。複数のデータ番号502は、それぞれ複数の画像500に対応づけられる。
検証用基データ126Pは、複数の教師ラベル504をさらに含む。複数の教師ラベル504は、それぞれ複数の画像500に対応づけられる。
1.10 生成部の動作
図11及び図12は、実施の形態1のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。図13は、実施の形態1のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。
生成部112は、図11に図示されるステップS121において、定義された生成仕様124E,124F,124G及び124Hを読み込む。
生成部112は、続くステップS122からS134までのループにおいて、特定基本事象E,F,G及びHのすべてについてそれぞれ図13に図示される検証データセット128E,128F,128G及び128Hを生成するまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについて検証データセットを生成することを繰り返す。検証データセット128E,128F,128G及び128Hの各々は、図1に図示される検証データセット128の例である。生成部112は、ループ内のステップS123からS133までにおいて、ひとつの特定基本事象Xについて検証データセットを生成する。
生成部112は、続くステップS135において、生成した検証データセット128E,128F,128G及び128Hを出力する。
続いて、ステップS123からS133までにおいて行われる、特定基本事象Xについての検証データセットの生成が説明される。
生成部112は、ステップS123において、特定基本事象Xについて定義された生成仕様に含まれる検証方法が、全数検証であるか否かを判定する。
生成部112は、検証方法が全数検証であると判定した場合は、ステップS124からS128までのループにおいて、作成した検証データの数が特定基本事象Xについて定義された生成仕様に含まれるデータ数N’X(作成可能データ数NX)に達するまで、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工することを繰り返す。生成部112は、ループ内のステップS125からS127までにおいて、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工する。生成部112は、ステップS125からS127までを繰り返し実行することにより、当該生成仕様に含まれる加工条件にしたがって検証用基データ126Pを加工することにより特定基本事象XについてN’X個の検証データを含む検証データセットを生成する。
生成部112は、ステップS125において、検証用基データ126Pに含まれる複数の画像500からひとつの画像を順番に選択する。ひとつの画像の選択は、画像に対応づけられたデータ番号の順番で行われる。
生成部112は、続くステップS126において、特定基本事象Xについて定義された生成仕様に含まれる加工条件に含まれる複数の加工方法からひとつの加工方法を順番に選択する。
生成部112は、続くステップS127において、選択したひとつの加工方法にしたがって選択したひとつの画像を加工する。これにより、生成部112は、加工された画像である検証データを作成し、作成した検証データを特定基本事象Xについて生成する検証データセットに含める。
検証方法404Eは、全数検証である。また、加工条件402Eは、「文字領域のみ69%から50%まで1%ずつ薄くする」という加工条件である。このため、生成部112は、まず、文字領域のみ69%薄くするという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Eに含める。生成部112は、続いて、文字領域のみ68%薄くするという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Eに含める。生成部112は、作成した検証データの数がデータ数406E(データ数N’Eすなわち作成可能データ数NE)に達するまで、同様の処理を繰り返す。
検証方法404Fは、全数検証である。また、加工条件402Fは、「文字領域のみ時計回りに10°から49°まで1°ずつ回転させる」という加工条件である。このため、生成部112は、まず、文字領域のみ時計回りに10°回転させるという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Fに含める。生成部112は、続いて、文字領域のみ時計回りに11°回転させるという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Fに含める。生成部112は、作成した検証データの数がデータ数406F(データ数N’Fすなわち作成可能データ数NF)に達するまで、同様の処理を繰り返す。
一方、生成部112は、検証方法が全数検証でないと判定した場合は、ステップS129からS133までのループにおいて、作成した検証データの数が特定基本事象Xについて定義された生成仕様に含まれるデータ数N’Xに達するまで、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工することを繰り返す。生成部112は、ループ内のステップS130からS132までにおいて、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工する。生成部112は、ステップS130からS132までを繰り返し実行することにより、当該生成仕様に含まれる加工条件にしたがって検証用基データ126Pを加工することにより特定基本事象XについてN’X個の加工された画像を含む検証データセットを生成する。
生成部112は、ステップS130において、検証用基データ126Pに含まれる複数の画像500からひとつの画像をランダムに選択する。
生成部112は、続くステップS131において、特定基本事象Xについて定義された生成仕様に含まれる加工条件に含まれる複数の加工方法からひとつの加工方法をランダムに選択する。
生成部112は、続くステップS132において、選択したひとつの加工方法にしたがって選択したひとつの画像を加工する。
生成部112は、ステップS130からS132までを実行することにより、作成可能データ数NXが最大データ数NMAXより多い場合に、作成可能な検証データからランダムに選択された検証データを作成し、作成した検証データを検証データセットに含める。これにより、検証データセットに含まれる複数の検証データの偏りを抑制することができる。
検証方法404Gは、統計的検証である。また、加工条件402Gは、「文字領域外に1×1から3×3までのノイズを1個から10個まで加える」という加工条件である。加工条件402Gは、複数の加工方法を含む。複数の加工方法の各々は、ノイズの大きさとノイズの数との組を含む。このため、生成部112は、まず、加工条件402Gに含まれる複数の加工方法からランダムに選択した第1の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.5897」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Gに含める。生成部112は、続いて、当該加工条件402Gに含まれる複数の加工方法からランダムに選択した第2の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.256」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Gに含める。生成部112は、作成した検証データの数がデータ数406G(データ数N’G)に達するまで、同様の処理を繰り返す。
検証方法404Hは、統計的検証である。また、加工条件402Hは、「文字領域内に1×1から3×3までのノイズを1個から10個まで加える」という加工条件である。加工条件402Hは、複数の加工方法を含む。複数の加工方法の各々は、ノイズの大きさとノイズの数との組を含む。このため、生成部112は、まず、加工条件402Hに含まれる複数の加工方法からランダムに選択した第1の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.1854」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Hに含める。生成部112は、続いて、当該加工条件402Hに含まれる複数の加工方法からランダムに選択した第2の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.9543」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Hに含める。生成部112は、作成した検証データの数がデータ数406H(データ数N’H)に達するまで、同様の処理を繰り返す。
1.11 システム
図14は、実施の形態1のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図である。
図14に図示される出力130Pは、図1に図示される出力130の例である。以下では、図1に図示される出力130が図14に図示される出力130Pであるとして説明が進められる。
出力130Pは、複数のデータ番号600を含む。
出力130Pは、複数の認識結果602をさらに含む。複数の認識結果602は、それぞれ複数のデータ番号600に対応づけられる。複数の認識結果602に含まれる各認識結果は、各認識結果に対応づけられたデータ番号と同じデータ番号に対応づけられた画像により表現される手書き数字の認識結果を表す。
複数の認識結果602に含まれる各認識結果は、10個の確率610を含む。10個の確率610は、それぞれ「0」から「9」までの数字に対応づけられる。10個の確率610に含まれる各確率は、各認識結果に対応づけられたデータ番号と同じデータ番号に対応づけられた画像により表現される手書き数字が、各確率に対応づけられた数字である確率を表す。
図14によれば、例えば、データ番号「No.1」に対応づけられた画像により表現される手書き数字が「0」である確率は、100%であり、当該手書き数字が「1」から「9」までの数字である確率は、0.00%である。また、データ番号「No.2」に対応づけられた画像により表現される手書き数字が「3」である確率は、98.98%であり、当該手書き数字が「0」である確率は、0.01%であり、当該手書き数字が「1」である確率は、0.03%であり、当該手書き数字が「2」である確率は、0.01%であり、当該手書き数字が「4」である確率は、0.00%であり、当該手書き数字が「5」である確率は、0.05%であり、当該手書き数字が「6」である確率は、0.00%であり、当該手書き数字が「7」である確率は、0.00%であり、当該手書き数字が「8」である確率は、0.51%であり、当該手書き数字が「9」である確率は、0.42%である。
1.12 検証部の動作
図15は、実施の形態1のシステム検証装置に備えられる検証部の動作の流れを図示するフローチャートである。図16は、実施の形態1のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。
検証部114は、図15に図示されるステップS141からS146までのループにおいて、特定基本事象E,F,G及びHのすべてについてシステム102が仕様を満たしているか否かについて検証を行うまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについてシステム102が仕様を満たしているか否かについて検証を行うことを繰り返す。検証部114は、ループ内のステップS142からS145までにおいて、ひとつの特定基本事象Xについてシステム102が仕様を満たしているか否かについて検証を行う。
検証部114は、続くステップS147において、特定事象E,F,G及びHについて行った検証の結果をそれぞれ示す検証の結果132E,132F,132G及び132Hを出力する。検証の結果132E,132F,132G及び132Hの各々は、図1に図示される検証の結果132の例である。
続いて、ステップS142からS145までにおいて行われる、特定基本事象Xについての、システム102が仕様を満たしているか否かについての検証が説明される。
検証部114は、ステップS142において、特定基本事象Xについて定義された生成仕様を読み込む。
検証部114は、続くステップS143において、特定基本事象Xについて生成された検証データセットがシステム102に入力された際にシステム102により生成された出力130Pを読み込む。
検証部114は、続くステップS144において、特定基本事象Xについて生成された検証データセットを読み込む。
検証部114は、続くステップS145において、特定基本事象Xについてシステム102が仕様を満たしているか否かについて検証を行う。
検証部114は、読み込んだ出力130Pが読み込んだ生成仕様に含まれる目標値NTXを達成している場合は、システム102が仕様を満たしていると判定する。また、検証部114は、システム102が仕様を満たしていると判定した場合は、特定基本事象Xについて出力する検証の結果に、システム102が仕様を満たしていることを示す情報「○」を含める。一方、検証部114は、読み込んだ出力130Pが読み込んだ生成仕様に含まれる目標値NTXを達成していない場合は、システム102が仕様を満たしていないと判定する。また、検証部114は、システム102が仕様を満たしていないと判定した場合は、特定基本事象Xについて出力する検証の結果に、システム102が仕様を満たしていることを示す情報「×」を含める。
検証部114は、読み込んだ出力130Pに含まれる複数の認識結果602がそれぞれ複数の教師ラベルと一致するか否かを判定する。検証部114は、認識結果に含まれる最大の確率に対応づけられた数字が、認識結果が対応づけられたデータ番号と同じデータ番号に対応づけられた教師ラベルと一致する場合は、認識結果が教師ラベルと一致すると判定し、当該データ番号に対応づけられた画像により表現される手書き数字が正しく認識されたと判定する。一方、検証部114は、当該数字が当該教師ラベルと一致しない場合は、当該認識結果が当該教師ラベルと一致しないと判定し、当該手書き数字が誤認識されたと判定する。また、検証部114は、教師ラベルと一致する認識結果の数を示す認識数を算出する。また、検証部114は、算出した認識数を出力する。検証部114は、ステップS145を繰り返し実行することにより、特定基本事象E,F,G及びHについてそれぞれ認識数652E,652F,652G及び652Hを算出し、算出した認識数652E,652F,652G及び652Hを出力する。また、検証部114は、算出した認識数が目標値NTX以上である場合は、システム102が仕様を満たしていると判定する。一方、検証部114は、算出した認識数が目標値NTXより少ない場合は、システム102が仕様を満たしていないと判定する。
以下では、複数の認識数652E,652F,652G及び652Hが、それぞれ195241,395675,4186及び4060であるとする。
認識数652E,652F及び652Gは、それぞれ195241,395675及び4186である。また、目標値408E,408F及び408Gは、それぞれ190000,380000及び4134である。このため、特定基本事象E,F及びGについて生成された出力は、それぞれ目標値408E,408F及び408Gを達成している。したがって、検証部114は、システム102が仕様を満たしていることを示す情報「○」を検証の結果132E,132F及び132Gに含める。一方、認識数652Hは、4060である。また、目標値408Hは、4134である。このため、特定基本事象Hについて生成された出力は、目標値408Hを達成していない。したがって、検証部114は、システム102が仕様を満たしていないことを示す情報「×」を検証の結果132Hに含める。
1.13 特定事象の抽出結果の別例
図17は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果の別例を図示する図である。
図17に図示される特定事象の抽出結果122Qは、図1に図示されるシステム102が人工知能を備える自動運転システムである場合の図1に図示される特定事象の抽出結果122の例となっている。
特定事象の抽出結果122Qは、「カメラが誤認識する」という特定事象Aを表すノード700A、「雪」という特定事象Bを表すノード700B、「雨」という特定事象Cを表すノード700C、「西日(逆行)」という特定事象Dを表すノード700D、「画像の一部が白飛びする」という特定基本事象Eを表すノード700E等の自動運転システムを検証するために必要な事象を表すノードを含む点で、図6に図示される特定事象の抽出結果122Pと相違する。
この他、特定事象の抽出結果122Qは、分岐のノード710,712,714及び716を含む。
2 実施の形態2
図18は、実施の形態2のシステム検証装置を図示するブロック図である。
図2は、実施の形態2のシステム検証装置に入力される入力情報の例を図示する図でもある。図3は、実施の形態2のシステム検証装置に入力される特定事象の抽出結果を図示する図でもある。図5は、実施の形態2のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図でもある。図6は、実施の形態2のシステム検証装置に入力される特定事象の抽出結果の例を図示する図でもある。図7は、実施の形態2のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートでもある。図8は、実施の形態2のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図でもある。図9は、実施の形態2の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図でもある。図10は、実施の形態2のシステム検証装置に入力される検証用基データの例を図示する図でもある。図11及び図12は、実施の形態2のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートでもある。図13は、実施の形態2のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図でもある。図14は、実施の形態2のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図でもある。図16は、実施の形態2のシステム検証装置に備えられる検証部により出力される検証の結果を図示する図でもある。
図18に図示される実施の形態2のシステム検証装置750は、特定基本事象Xについて決定された検証方法が統計的検証であり、特定基本事象Xについて行われた検証においてシステム102が仕様を満たしていないと判定された場合に、データ数N’Xが増加させられる点で、実施の形態1のシステム検証装置100と相違する。
以下では、上記の相違に関連して実施の形態2のシステム検証装置750において採用された構成が説明される。説明されない点については、実施の形態1のシステム検証装置100において採用された構成が、実施の形態2のシステム検証装置750においても採用される。
システム検証装置750に備えられる検証部114は、特定基本事象Xについて定義された生成仕様に含まれる検証方法が統計的検証であり、特定基本事象Xについて行った検証においてシステム102が仕様を満たしていないと判定した場合に、特定基本事象Xについて行った検証においてシステム102が仕様を満たしていないことを示す情報を定義部110に入力する。
システム検証装置750に備えられる定義部110は、特定基本事象Xについて行った検証においてシステム102が仕様を満たしていないことを示す情報が入力された場合に、特定基本事象Xについて定義する生成仕様に含まれるデータ数N’Xを増加させる。
図19及び図20は、実施の形態2のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。
検証部114は、図19に図示されるステップS161からS171までのループにおいて、特定基本事象E,F,G及びHのすべてについて更新要求のための処理を行うまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについて更新要求のための処理を行うことを繰り返す。検証部114は、ループ内のステップS162からS170までにおいて、ひとつの特定基本事象Xについて更新要求のための処理を行う。
検証部114は、ステップS162からS165までにおいて、それぞれ図15に図示されるステップS142からS146までにおいて行われる処理と同様の処理を行う。
検証部114は、続くステップS166において、特定基本事象Xについて定義された生成仕様に含まれる検証方法が統計的手法であるか否かを判定する。検証部114は、検証方法が統計的手法であると判定した場合は、ステップS167においてさらに処理を行う。検証部114は、検証方法が全数検証であると判定した場合は、さらに処理を行うことなく更新要求のための処理を終了する。
検証部114は、続くステップS167において、特定基本事象Xについて算出された認識数が特定基本事象Xについて定義された生成仕様に含まれる目標値NTXより少ないか否かを判定する。これにより、検証部114は、特定基本事象Xについて行われた検証においてシステム102が仕様を満たしているか否かを判定する。検証部114は、認識数が目標値NTXより少ない場合は、ステップS168においてさらに処理を行う。検証部114は、認識数が目標値NTX以上である場合は、さらに処理を行うことなく更新要求のための処理を終了する。
検証部114は、ステップS168において、特定基本事象Xについて算出された認識数が、特定基本事象Xについて算出された許容認識数NPX以上であるか否かを判定する。許容認識数は、目標値NTXより少ない数であり、式(30)により表される。以下では、ζが0.02であるとする。
これにより、検証部114は、特定基本事象Xについて生成された出力が、目標値NTXにより定義される仕様より緩やかな、許容認識数NPXにより定義される許容条件を満たすか否かを判定する。
検証部114は、認識数が許容認識数NPX以上である場合は、ステップS169においてさらに処理を行う。検証部114は、認識数が許容認識数NPXより小さい場合は、さらに処理を行うことなく更新要求のための処理を終了する。
検証部114は、ステップS169において、区間推定において考慮される誤差εから設定値ηを減じることにより得られる更新後の誤差εが0より大きいか否かを判定する。更新後の誤差εは、式(31)により算出される。以下では、ηが0.005であるとする。
検証部114は、更新後の誤差が0より大きい場合は、ステップS170において誤差εを更新することを定義部110に要求してから更新要求のための処理を終了する。一方、検証部114は、更新後の誤差が0以下である場合は、さらに処理を行うことなく更新要求のための処理を終了する。
したがって、更新要求のための処理においては、下記の条件1から4までが満たされる場合に、誤差εを更新することが要求される。
条件1:検証方法が統計的検証である。
条件2:認識数が目標値NTXより少ない。
条件3:認識数が許容認識数NPX以上である。
条件4:更新後の誤差εが0より大きい。
例えば、図8に図示されるように目標値408Hが4134であり、図16に図示されるように認識数652Hが4060である場合は、許容認識数NPHが3994となり、更新後の誤差εが0.020となる。したがって、条件1から4までが満たされ、誤差εを更新することが要求される。
ステップS172においては、特定基本事象E,F,G及びHのすべてについて誤差εを更新することが要求されなかったか否かが判定される。
特定基本事象E,F,G及びHのすべてについて誤差εを更新することが要求されなかったと判定された場合は、検証部114が、ステップS173において、検証の結果132E,132F,132G及び132Hを出力する。
一方、特定基本事象E,F,G及びHのいずれかについて誤差εを更新することが要求されたと判定された場合は、定義部110が、ステップS174において、誤差εを更新することが要求された特定基本事象について誤差εを更新し、続くステップS175において、誤差εを更新することが要求された特定基本事象について更新後の誤差εを用いて生成仕様を新たに定義する。これにより、定義部110は、システム102が仕様を満たさないが許容条件を満たし、誤差εから設定値ηを減じることにより得られる更新後の誤差εが0より大きい場合に、誤差εを更新後の誤差εに更新することによりデータ数N’Xを増加させる。
図21は、実施の形態2の検証システムにおいて算出される認識率の分布の例を表すグラフを図示する図である。
図21に図示されるグラフ800には、誤差εが0.025である場合の認識率の分布810、及び誤差εが0.020である場合の認識率の分布812が表される。認識率の分布810及び812のいずれからも、認識率が95%であることを99%以上の信頼度で区間推定により推定することができる。誤差εが0.020である場合は、検証データセットに含めるデータ数nは、式(27)により、6623以上となる。したがって、データ数N’Hは、6623である。また、式(29)より、更新後の誤差εに基づいて定義される生成仕様に含まれるデータ数N’Hは、6425であり、6623より増加させられている。
図22は、実施の形態2のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。図23は、実施の形態2のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。図24は、実施の形態2のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。
図22に図示される生成仕様124Sは、更新後の誤差εに基づいて定義された更新後の生成仕様である。図23に図示される検証データセット128Sは、更新後の生成仕様124Sに基づいて生成された更新後の検証データセットである。図24に図示される検証の結果132Sは、更新後の検証データセット128Sがシステム102に入力された場合に検証部114により出力される検証の結果である。検証の結果132Sは、誤差εの更新により、システム102が仕様を満たすことを示す情報「○」を含む。このような検証の結果132Sが得られるのは、認識数652Sが6533であり、認識数652Sが目標値408S以上であるためである。
なお、本発明は、その発明の範囲内において、実施の形態を適宜、変形、省略することが可能である。
この発明は詳細に説明されたが、上記した説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。