JP6952902B2

JP6952902B2 - システム検証装置及びシステム検証方法

Info

Publication number: JP6952902B2
Application number: JP2020531835A
Authority: JP
Inventors: 伸男千田; 大介川上; 利晃青木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2021-10-27
Anticipated expiration: 2038-07-23
Also published as: WO2020021586A1; JPWO2020021586A1

Description

本発明は、システムが仕様を満たしているか否かについて検証を行うシステム検証装置及びシステム検証方法に関する。

近年注目を集めている人工知能は、機能仕様を定義することが難しい問題に対して高い性能を有する。例えば、ニューラルネットワークを活用する手書き数字の認識アルゴリズムは、従来の手書き数字の認識アルゴリズムと比較して、高い認識率を有する。しかし、人工知能は、人工知能により生成される出力の根拠が不明確であるという特徴を有する。このため、人工知能を備えるシステムが満たすべき機能仕様を詳細に定義することは難しい。また、システムが満たすべき機能仕様を詳細に定義することが可能である場合は、そもそもシステムが人工機能を備える必要はない。

特許文献１に記載された知能ロボットにおいては、仮想空間における部品の位置及び姿勢がランダムに変えられ、複数の部品が仮想空間に山積みされる（段落００７２及び００７４）。また、山積みされた部品を含む仮想空間の画像が生成される（段落００７４）。生成された仮想空間の画像は、検証用の画像として使用される。

特開２０１７−１０２７５５号公報

人工知能は、先述したように、それにより生成される出力の根拠が不明確であるという特徴を有する。このため、人工知能を備えるシステムが仕様を満たしているか否かについての検証を、発生しうる多数の事象について系統的に行うことは、困難である。特許文献１に記載された技術も、ランダムに生成された検証用の画像が使用されるため、この問題を解決することはできない。

また、この問題は、人工知能を備えるシステムに固有の問題ではなく、システムにより生成される出力の根拠が不明確であるという特徴を有するシステムに共通する問題である。

本発明は、この問題に鑑みてなされる。本発明が解決しようとする課題は、出力の根拠が不明確であるシステムが仕様を満たしているか否かについて系統的に検証を行うことである。

本発明は、システム検証装置に向けられる。

システム検証装置は、定義部、生成部及び検証部を備える。

定義部は、システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する。

生成部は、生成仕様に基づいて検証データセットを生成する。

検証部は、検証データセット、及び検証データセットがシステムに入力された場合にシステムにより生成される出力に基づいてシステムが仕様を満たしているか否かについて検証を行う。また、定義部は、作成可能な検証データの数を示す作成可能データ数を決定し、作成可能データ数が最大データ数より多い場合は、作成可能な検証データの全部を検証データセットに含めたときに行われる検証の結果を区間推定により設定信頼度以上で推定可能な検証データの数を示すデータ数を決定し、データ数を生成仕様に含める。

本発明は、システム検証方法にも向けられる。

本発明によれば、特定事象の抽出結果を反映する検証データセットを用いてシステムが仕様を満たしているか否かについて検証が行われる。このため、システムが仕様を満たしているか否かについて、特定事象の抽出結果を得るために行われた系統的な抽出を反映する系統的な検証が行われる。これにより、生成する出力の根拠が不明確であるシステムが仕様を満たしているか否かについて系統的に検証を行うことができる。

この発明の目的、特徴、局面及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１のシステム検証装置を図示するブロック図である。実施の形態１及び２のシステム検証装置に入力される入力情報の例を図示する図である。実施の形態１及び２のシステム検証装置に入力される特定事象の抽出結果を図示する図である。通常のフォルトツリー解析（ＦＴＡ）により生成される木構造の例を図示する図である。実施の形態１及び２のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図である。実施の形態１及び２のシステム検証装置に入力される特定事象の抽出結果の例を図示する図である。実施の形態１及び２のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートである。実施の形態１及び２のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。実施の形態１及び２の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図である。実施の形態１及び２のシステム検証装置に入力される検証用基データの例を図示する図である。実施の形態１及び２のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。実施の形態１及び２のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。実施の形態１及び２のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。実施の形態１及び２のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図である。実施の形態１のシステム検証装置に備えられる検証部の動作の流れを図示するフローチャートである。実施の形態１及び２のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。実施の形態１のシステム検証装置に入力される特定事象の抽出結果の別例を図示する図である。実施の形態２のシステム検証装置を図示するブロック図である。実施の形態２のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。実施の形態２のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。実施の形態２の検証システムにおいて算出される認識率の分布の例を表すグラフを図示する図である。実施の形態２のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。実施の形態２のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。実施の形態２のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。

１実施の形態１
１．１システム検証装置の概略
図１は、実施の形態１のシステム検証装置を図示するブロック図である。

図１に図示されるシステム検証装置１００は、システム１０２を検証する。システム検証装置１００は、画像により表現される手書き数字を認識する画像認識システムを検証するのに適する。このため、以下では、システム１０２が当該画像認識システムである場合が説明される。しかし、システム１０２は、当該画像認識システム以外の画像認識システムであってもよく、画像認識システム以外の認識システムであってもよく、認識システム以外のシステムであってもよい。例えば、システム１０２は、制御システム等であってもよい。システム１０２は、人工知能を備えるシステムである。しかし、システム１０２は、人工知能を備えないシステムであってもよい。システム１０２は、具体的には、人工知能を備える自動運転システム、ロボットシステム等である。

システム検証装置１００は、定義部１１０、生成部１１２及び検証部１１４を備える。システム検証装置１００がこれらの要素以外の要素を備えてもよい。

システム検証装置１００は、コンピュータを備える。コンピュータは、プロセッサ及びメモリを備える。プロセッサは、中央演算処理装置（ＣＰＵ）等である。メモリは、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）等である。定義部１１０、生成部１１２及び検証部１１４は、メモリに記憶されたプログラムをプロセッサが実行することにより構成される。定義部１１０、生成部１１２及び検証部１１４の全部又は一部が、プログラムを実行しないハードウェアにより構成されてもよい。

定義部１１０は、入力された入力情報１２０、及び特定事象の抽出結果１２２に基づいて生成仕様１２４を定義する。また、定義部１１０は、定義した生成仕様１２４を出力する。

入力情報１２０は、システム１０２に入力される検証データセット１２８に含まれる複数の検証データの属性を含む。

特定事象は、システム１０２により望ましくない出力が生成される原因となる事象である。望ましくない出力は、システム１０２に期待される出力に反する出力である。

生成仕様１２４は、検証データセット１２８を生成するための仕様である。

生成部１１２は、入力された生成仕様１２４及び検証用基データ１２６に基づいて検証データセット１２８を生成する。また、生成部１１２は、生成した検証データセット１２８を出力する。

検証データセット１２８は、システム１０２が仕様を満たしているか否かについて検証を行うためのデータセットである。

システム１０２には、検証データセット１２８が入力される。システム１０２は、検証データセット１２８が入力された場合に出力１３０を生成する。検証データセット１２８は、複数の検証データを含む。出力１３０は、複数の応答を含む。複数の応答は、それぞれ複数の検証データに対する応答である。複数の検証データは、それぞれ複数の画像である。複数の応答は、それぞれ複数の認識結果である。

検証部１１４は、入力された生成仕様１２４、検証データセット１２８及び出力１３０に基づいてシステム１０２が仕様を満たしているか否かについて検証を行う。また、検証部１１４は、検証の結果１３２を出力する。

システム検証装置１００によれば、特定事象の抽出結果１２２を反映する検証データセット１２８を用いてシステム１０２が仕様を満たしているか否かについて検証が行われる。このため、システム１０２が仕様を満たしているか否かについて、特定事象の抽出結果１２２を得るために行われた系統的な抽出を反映する系統的な検証が行われる。これにより、出力１３０の根拠が不明確であるシステム１０２が仕様を満たしているか否かについて系統的に検証を行うことができる。

１．２入力情報の例
図２は、実施の形態１のシステム検証装置に入力される入力情報の例を図示する図である。

図２に図示される入力情報１２０Ｐは、図１に図示される入力情報１２０の例である。以下では、図１に図示される入力情報１２０が図２に図示される入力情報１２０Ｐであるとして説明が進められる。

入力情報１２０Ｐは、画像サイズ１５０及びビット数１５２を含む。画像サイズ１５０及びビット数１５２は、それぞれ検証データセット１２８に含まれる複数の検証データの画像サイズ及びビット数である。入力情報１２０Ｐが、画像サイズ１５０及びビット数１５２以外の画像の属性を含んでもよく、画像以外のデータの属性を含んでもよい。

検証データセット１２８に含まれる複数の検証データは、ＭＮＩＳＴと呼ばれるデータセットに含まれる、複数の手書き数字をそれぞれ表現する複数の画像を加工することにより作成される。このため、画像サイズ１５０は、ＭＮＩＳＴに含まれる複数の画像の画像サイズである「２８×２８（ｐｉｘｅｌ）」に一致する。また、ビット数１５２は、ＭＮＩＳＴに含まれる複数の画像のビット数である「８（ｂｉｔ）」に一致する。

１．３木構造
図３は、実施の形態１のシステム検証装置に入力される特定事象の抽出結果を図示する図である。

特定事象の抽出結果１２２は、フォルトツリー解析（ＦＴＡ）により生成される。このため、特定事象の抽出結果１２２は、図３に図示されるように、木構造２００を含む。

木構造２００は、ノード２１０Ａ，２１０Ｂ，２１０Ｃ，２１０Ｄ及び２１０Ｅを含む。

ノード２１０Ａ，２１０Ｂ，２１０Ｃ，２１０Ｄ及び２１０Ｅは、特定事象Ａ、特定基本事象Ｂ、特定事象Ｃ、特定基本事象Ｄ及び特定基本事象Ｅをそれぞれ表す。

木構造２００は、分岐のゲート２２０及び２２２をさらに含む。

分岐のゲート２２０は、上位ノード２１０Ａに下位ノード２１０Ｂ及び２１０Ｃを連結する。上位ノード２１０Ａにより表される特定事象Ａ、並びに下位ノード２１０Ｂ及び２１０Ｃによりそれぞれ表される特定基本事象Ｂ及び特定事象Ｃにおいては、特定事象Ａが上位事象である。また、特定基本事象Ｂ及び特定事象Ｃが下位事象である。特定基本事象Ｂ及び特定事象Ｃは、特定事象Ａが発生する原因となる。

特定事象Ａは、特定基本事象Ｂ及び特定事象Ｃの組み合わせにより表される。特定事象Ａは、特定基本事象Ｂ及び特定事象Ｃのいずれかが発生した場合に発生する。このため、特定事象Ａは、特定基本事象Ｂ及び特定事象Ｃの論理和により表される。したがって、分岐のゲート２２０は、ＯＲゲートである。

分岐のゲート２２２は、上位ノード２１０Ｃに下位ノード２１０Ｄ及び２１０Ｅを連結する。上位ノード２１０Ｃにより表される特定事象Ｃ、並びに下位ノード２１０Ｄ及び２１０Ｅによりそれぞれ表される特定基本事象Ｄ及びＥにおいては、特定事象Ｃが上位事象である。また、特定基本事象Ｄ及びＥが下位事象である。特定基本事象Ｄ及びＥは、特定事象Ｃが発生する原因となる。

特定事象Ｃは、特定基本事象Ｄ及びＥの組み合わせにより表される。特定事象Ｃは、特定基本事象Ｄ及びＥのすべてが発生した場合に発生する。このため、特定事象Ｃは、特定基本事象Ｄ及びＥの論理積により表される。したがって、分岐のゲート２２２は、ＡＮＤゲートである。

ノード２１０Ａ，２１０Ｂ，２１０Ｃ，２１０Ｄ及び２１０Ｅは、特定事象Ａ及びＣをそれぞれ表す情報となる内部ノード２１０Ａ及び２１０Ｃを含む。

ノード２１０Ａ，２１０Ｂ，２１０Ｃ，２１０Ｄ及び２１０Ｅは、特定事象Ａが発生する原因となる特定基本事象Ｂ，Ｄ及びＥをそれぞれ表す情報となる葉ノード２１０Ｂ，２１０Ｄ及び２１０Ｅを含む。葉ノード２１０Ｂ，２１０Ｄ及び２１０Ｅは、上位ノードになることはできない。

木構造２００の構造が図３に図示される構造から他の構造に変更される場合は、特定事象、特定基本事象、ノード、上位ノード、下位ノード、内部ノード、葉ノード、分岐のゲート、ＯＲゲート及びＡＮＤゲートの数も変化しうる。

１．４フォルトツリー解析
図４は、通常のＦＴＡにより生成される木構造の例を図示する図である。図５は、実施の形態１のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図である。

通常のＦＴＡにおいては、上位事象が発生する原因となる下位事象が専ら分析される。これに対して、木構造２００を生成するために行われるＦＴＡにおいては、上位事象が発生する原因となる下位事象が分析され、上位事象及び下位事象に含まれる各事象に属するデータセットがさらに分析される。このため、木構造２００を生成するために行われるＦＴＡにおいては、複数の事象にそれぞれ属する複数のデータセットの共通集合が空集合である場合は、複数の事象の論理積により表される事象に属するデータセットを作成することができず、当該事象を表すノードを作成することができない。

したがって、図４に図示される、通常のＦＴＡにより生成される木構造２５０においては、ＡＮＤゲート２６０が、「インクがにじむ」という上位事象を表す上位ノード２７０に、「文字が太くなる」及び「文字が薄くなる」という下位事象をそれぞれ表す下位ノード２７２及び２７４を連結することができる。これに対して、図５に図示される、実施の形態１のシステム検証装置１００に入力される特定事象の抽出結果１２２に含まれる木構造３００においては、ＯＲゲート３１０が、「インクがにじむ」という上位事象をあらわす上位ノード３２０に、「文字が太くなるかつ薄くなる」という下位事象を表す下位ノード３２２を連結しなければならない。このような相違が生じるのは、「文字が太くなる」及び「文字が薄くなる」という２個の事象にそれぞれ属する２個のデータセットの共通集合が空集合であるため、「文字が太くなる」及び「文字が薄くなる」という２個の事象の論理積により表される事象に属するデータセットを作成することができず、当該事象を表すノードを作成することができないためである。

１．５発生確率、誤認識率、基本誤認識率及び加工条件
特定事象の抽出結果１２２は、図３に図示されるように、発生確率ｐｆ_Ａ及びｐｆ_ｃを含む。

発生確率ｐｆ_Ａ及びｐｆ_ｃは、それぞれ特定事象Ａ及びＣについて定義される。発生確率ｐｆ_Ａ及びｐｆ_ｃは、それぞれ特定事象Ａ及びＣが発生する確率である。

特定事象の抽出結果１２２は、誤認識率ｐｅ_Ａ及びｐｅ_Ｃをさらに含む。

誤認識率ｐｅ_Ａ及びｐｅ_Ｃは、それぞれ特定事象Ａ及びＣについて定義される。誤認識率ｐｅ_Ａ及びｐｅ_Ｃは、それぞれ特定事象Ａ及びＣが発生した場合に特定事象Ａ及びＣが原因となってシステム１０２が手書き数字を誤認識する確率である。

特定事象の抽出結果１２２は、発生確率ｐｆ_Ｂ，ｐｆ_Ｄ及びｐｆ_Ｅをさらに含む。

発生確率ｐｆ_Ｂ，ｐｆ_Ｄ及びｐｆ_Ｅは、それぞれ特定基本事象Ｂ，Ｄ及びＥについて定義される。発生確率ｐｆ_Ｂ，ｐｆ_Ｄ及びｐｆ_Ｅは、それぞれ特定基本事象Ｂ，Ｄ及びＥが発生する確率である。

特定事象の抽出結果１２２は、基本誤認識率ｐｂ_Ｂ，ｐｂ_Ｄ及びｐｂ_Ｅをさらに含む。

基本誤認識率ｐｂ_Ｂ，ｐｂ_Ｄ及びｐｂ_Ｅは、それぞれ特定基本事象Ｂ，Ｄ及びＥについて定義される。基本誤認識率ｐｂ_Ｂ，ｐｂ_Ｄ及びｐｂ_Ｅは、それぞれ特定基本事象Ｂ，Ｄ及びＥが単独で発生した場合に特定基本事象Ｂ，Ｄ及びＥが原因となってシステム１０２が手書き数字を誤認識する確率である。

特定事象の抽出結果１２２は、加工条件ＰＣ_Ｂ，ＰＣ_Ｄ及びＰＣ_Ｅをさらに含む。

加工条件ＰＣ_Ｂ，ＰＣ_Ｄ及びＰＣ_Ｅは、それぞれ特定基本事象Ｂ，Ｄ及びＥについて定義される。加工条件ＰＣ_Ｂ，ＰＣ_Ｄ及びＰＣ_Ｅは、それぞれ特定基本事象Ｂ，Ｄ及びＥに属するデータセットを生成するための加工条件であり、それぞれ特定基本事象Ｂ，Ｄ及びＥについて検証データセットを生成するために検証用基データ１２６を加工する際にしたがうべき加工条件である。

１．６データセットの間の関係
全体のデータＵ、並びに特定事象Ａ、特定基本事象Ｂ及び特定事象Ｃにそれぞれ属するデータセットＤ_Ａ，Ｄ_Ｂ及びＤ_Ｃは、式（１）及び式（２）により表される関係を有する。

式（１）は、データセットＤ_Ａが全体のデータＵに含まれることを示し、データセットＤ_ＡがデータセットＤ_Ｂ及びＤ_Ｃの和集合であることを示す。式（２）は、データセットＤ_Ｂ及びＤ_Ｃの積集合が空集合であることを示す。

特定事象Ｃ、特定基本事象Ｄ及び特定基本事象Ｅにそれぞれ属するデータセットＤ_Ｃ，Ｄ_Ｄ及びＤ_Ｅは、式（３）により表される関係を有する。

式（３）は、データセットＤ_ＣがデータセットＤ_Ｄ及びＤ_Ｅの積集合であることを示す。

特定事象Ａ、特定基本事象Ｂ、特定事象Ｃ、特定基本事象Ｄ及び特定基本事象Ｅにそれぞれ属する誤認識データセットＥ_Ａ，Ｅ_Ｂ，Ｅ_Ｃ，Ｅ_Ｄ及びＥ_Ｅ、並びにデータセットＤ_Ａ，Ｄ_Ｂ，Ｄ_Ｃ，Ｄ_Ｄ及びＤ_Ｅは、式（４）により表される関係を有する。ただし、Ｘは、Ａ，Ｂ，Ｃ，Ｄ及びＥの各々である。

式（４）は、誤認識データセットＥ_ＸがデータセットＤ_Ｘに含まれることを示す。誤認識データセットＥ_Ａ，Ｅ_Ｂ，Ｅ_Ｃ，Ｅ_Ｄ及びＥ_Ｅに含まれる誤認識データにより表現される手書き数字は、システム１０２に誤認識される。

誤認識データセットＥ_Ａ，Ｅ_Ｂ及びＥ_Ｃは、式（５）により表される関係を有する。

式（５）は、誤認識データセットＥ_Ａが誤認識データセットＥ_Ｂ及びＥ_Ｃの和集合であることを示す。

誤認識データセットＥ_Ｃ，Ｅ_Ｄ及びＥ_Ｅは、式（６）により表される関係を有する。

式（６）は、誤認識データセットＥ_Ｃが誤認識データセットＥ_Ｄ及びＥ_Ｅの和集合であることを示す。

発生確率ｐｆ_Ｘ、誤認識率ｐｅ_Ｘ及び基本誤認識率ｐｂ_Ｘは、それぞれ式（７）、式（８）及び式（９）により定義される。

基本誤認識率ｐｂ_Ｘを求める際の母数｜Ｄ_Ｘ｜が発生確率ｐｆ_Ｘ及び誤認識率ｐｅ_Ｘを求める際の母数｜Ｕ｜と相違するのは、基本誤認識率ｐｂ_Ｘを求める際の母集団が発生確率ｐｆ_Ｘ及び誤認識率ｐｅ_Ｘを求める際の母集団と相違するためである。

上位ノード２１０Ａ、並びにＯＲゲート２２０により上位ノード２１０Ａに連結される下位ノード２１０Ｂ及び２１０Ｃに着目した場合は、発生確率ｐｆ_Ａ，ｐｆ_Ｂ及びｐｆ_ｃ、誤認識率ｐｅ_Ａ及びｐｅ_Ｃ、並びに基本誤認識率ｐｂ_Ｂは、式（１０）及び式（１１）により表される関係を有する。

上位ノード２１０Ｃ、並びにＡＮＤゲート２２２により上位ノード２１０Ｃに連結される下位ノード２１０Ｄ及び２１０Ｅに着目した場合は、発生確率ｐｆ_ｃ，ｐｆ_Ｄ及びｐｆ_Ｅ、誤認識率ｐｅ_Ｃ、並びに基本誤認識率ｐｂ_Ｄ及びｐｂ_Ｅは、式（１２）及び式（１３）により表される関係を有する。

式（１２）は、発生確率ｐｆ_ｃが、発生確率ｐｆ_Ｄ及びｐｆ_Ｅのうちの最小値以下であることを示す不等式になっている。式（１３）は、誤認識率ｐｅ_Ｃが、発生確率ｐｆ_Ｄと基本誤認識率ｐｂ_Ｄとの積、及び発生確率ｐｆ_Ｅと基本誤認識率ｐｂ_Ｅとの積のうちの最小値以下であることを示す不等式となっている。式（１２）及び式（１３）が不等式となっているのは、データセットＤ_Ｄ及びＤ_Ｅの積集合に含まれるデータの数は、正確には不明であるものの、データセットＤ_Ｄに含まれるデータの数、及びデータセットＤ_Ｅに含まれるデータの数のうちの最小値以下であるためである。

１．７特定事象の抽出結果の例
図６は、実施の形態１のシステム検証装置に入力される特定事象の抽出結果の例を図示する図である。

図６に図示される特定事象の抽出結果１２２Ｐは、図１に図示される特定事象の抽出結果１２２の例である。以下では、図１に図示される特定事象の抽出結果１２２が図６に図示される特定事象の抽出結果１２２Ｐであるとして説明が進められる。

特定事象の抽出結果１２２Ｐは、木構造３５０を含む。

木構造３５０は、ノード３６０Ａ，３６０Ｂ，３６０Ｃ，３６０Ｄ，３６０Ｅ，３６０Ｆ，３６０Ｇ，３６０Ｈ等のノードを含む。

ノード３６０Ａは、「ノイズによって手書き数字を誤認識する」という特定事象Ａを表す。ノード３６０Ｂは、「インク切れ」という特定事象Ｂを表す。ノード３６０Ｃは、「紙の配置を誤る」という特定事象Ｃを表す。ノード３６０Ｄは、「紙が汚れている」という特定事象Ｄを表す。ノード３６０Ｅは、「文字全体が薄くなる」という特定基本事象Ｅを表す。ノード３６０Ｆは、「文字全体が傾いている」という特定基本事象Ｆを表す。ノード３６０Ｇは、「ドット足し」という特定基本事象Ｇを表す。ノード３６０Ｈは、「ドット欠け」という特定基本事象Ｈを表す。「ノイズによって手書き数字を誤認識する」、「インク切れ」、「紙の配置を誤る」、「紙が汚れている」、「文字全体が薄くなる」、「文字全体が傾いている」、「ドット足し」及び「ドット欠け」は、それぞれノード３６０Ａ，３６０Ｂ，３６０Ｃ，３６０Ｄ，３６０Ｅ，３６０Ｆ，３６０Ｇ及び３６０Ｈのノード名となっている。

特定事象の抽出結果１２２Ｐは、ＯＲゲート３７０，３７２，３７４，３７６等の分岐のゲートをさらに含む。

ＯＲゲート３７０は、上位ノード３６０Ａに、下位ノード３６０Ｂ，３６０Ｃ及び３６０Ｄを連結する。ＯＲゲート３７２は、上位ノード３６０Ｂに、下位ノード３６０Ｅを連結する。ＯＲゲート３７４は、上位ノード３６０Ｃに、下位ノード３６０Ｆを連結する。ＯＲゲート３７６は、上位ノード３６０Ｄに、下位ノード３６０Ｇ及び３６０Ｈを連結する。

特定事象の抽出結果１２２Ｐは、発生確率ｐｆ_Ａ，ｐｆ_Ｂ，ｐｆ_ｃ及びｐｆ_Ｄをさらに含む。発生確率ｐｆ_Ａ，ｐｆ_Ｂ，ｐｆ_Ｃ及びｐｆ_Ｄは、それぞれ特定事象Ａ，Ｂ，Ｃ及びＤについて定義される。

特定事象の抽出結果１２２Ｐは、誤認識率ｐｅ_Ａ，ｐｅ_Ｂ，ｐｅ_Ｃ及びｐｅ_Ｄをさらに含む。誤認識率ｐｅ_Ａ，ｐｅ_Ｂ，ｐｅ_Ｃ及びｐｅ_Ｄは、それぞれ特定事象Ａ，Ｂ，Ｃ及びＤについて定義される。

特定事象の抽出結果１２２Ｐは、発生確率ｐｆ_Ｅ，ｐｆ_Ｆ，ｐｆ_Ｇ及びｐｆ_Ｈをさらに含む。発生確率ｐｆ_Ｅ，ｐｆ_Ｆ，ｐｆ_Ｇ及びｐｆ_Ｈは、それぞれ特定基本事象Ｅ，Ｆ，Ｇ及びＨについて定義される。

特定事象の抽出結果１２２Ｐは、基本誤認識率ｐｂ_Ｅ，ｐｂ_Ｆ，ｐｂ_Ｇ及びｐｂ_Ｈをさらに含む。基本誤認識率ｐｂ_Ｅ，ｐｂ_Ｆ，ｐｂ_Ｇ及びｐｂ_Ｈは、それぞれ特定基本事象Ｅ，Ｆ，Ｇ及びＨについて定義される。

特定事象の抽出結果１２２Ｐは、加工条件ＰＣ_Ｅ，ＰＣ_Ｆ，ＰＣ_Ｇ及びＰＣ_Ｈをさらに含む。加工条件ＰＣ_Ｅ，ＰＣ_Ｆ，ＰＣ_Ｇ及びＰＣ_Ｈは、それぞれ特定基本事象Ｅ，Ｆ，Ｇ及びＨについて定義される。

全体のデータＵ、上位事象である特定事象Ａに属するデータセットＤ_Ａ、及び下位事象である特定事象Ｂ，Ｃ，Ｄ，・・・，Ｘにそれぞれ属するデータセットＤ_Ｂ，Ｄ_Ｃ，Ｄ_Ｄ，・・・，Ｄ_Ｘは、式（１４）及び式（１５）により表される関係を有する。

式（１４）は、データセットＤ_Ａが全体のデータＵに含まれることを示し、データセットＤ_ＡがデータセットＤ_Ｂ，Ｄ_Ｃ，Ｄ_Ｄ，・・・，Ｄ_Ｘの和集合であることを示す。式（１５）は、データセットＤ_Ｂ，Ｄ_Ｃ，Ｄ_Ｄ，・・・，Ｄ_Ｘの積集合が空集合であることを示す。

上位事象である特定事象Ａに属する誤認識データセットＥ_Ａ、並びに下位事象である特定事象Ｂ，Ｃ，Ｄ，・・・，Ｘにそれぞれ属する誤認識データセットＥ_Ｂ，Ｅ_Ｃ，Ｅ_Ｄ，・・・，Ｅ_Ｘは、式（１６）及び式（１７）により表される関係を有する。

式（１６）は、誤認識データセットＥ_Ａが誤認識データセットＥ_Ｂ，Ｅ_Ｃ，Ｅ_Ｄ，・・・，Ｅ_Ｘの和集合であることを示す。式（１７）は、誤認識データセットＥ_Ｂ，Ｅ_Ｃ，Ｅ_Ｄ，・・・，Ｅ_Ｘの積集合が空集合であることを示す。誤認識データセットＥ_Ａは、全体のデータＵに含まれる。

特定事象の抽出結果１２２Ｐが生成される際には、複数の手書き数字をそれぞれ表す複数の画像の全体においてノイズを含む画像の発生確率が５０％であると仮定される。また、手書き数字の認識に関する目標値が「手書き数字を９５％以上正しく認識すること」であると定義される。これにより、図６に図示されるように、発生確率ｐｆ_Ａが０．５に設定され、誤認識率ｐｅ_Ａが０．０５＊０．５０に設定される。

また、上位事象について定義された発生確率が少なくともひとつの下位事象についてそれぞれ定義された少なくともひとつの発生確率に等分に分配される。これにより、図６に図示されるように、発生確率ｐｆ_Ｂ，ｐｆ_ｃ，ｐｆ_Ｄ，・・・，ｐｆ_Ｘが０．５／Ｘに設定され、誤認識率ｐｅ_Ｂ，ｐｅ_Ｃ，ｐｅ_Ｄ，・・・，ｐｅ_Ｘが０．０５＊０．５／Ｘに設定される。また、発生確率ｐｆ_Ｅが０．５／Ｘに設定され、基本誤認識率ｐｂ_Ｅが０．０５に設定される。また、発生確率ｐｆ_Ｆが０．５／Ｘに設定され、基本誤認識率ｐｂ_Ｆが０．０５に設定される。また、発生確率ｐｆ_Ｇ及びｐｆ_Ｈが０．５／Ｘ／２に設定され、基本誤認識率ｐｂ_Ｆ及びｐｂ_Ｈが０．０５に設定される。

上位ノード３６０Ａ、並びにＯＲゲート３７０により上位ノード３６０Ａに連結される下位ノード３６０Ｂ，３００Ｃ，３００Ｄ，・・・に着目した場合は、発生確率ｐｆ_Ａ，ｐｆ_Ｂ，ｐｆ_ｃ，ｐｆ_Ｄ，・・・，ｐｆ_Ｘ、及び誤認識率ｐｅ_Ａ，ｐｅ_Ｂ，ｐｅ_Ｃ，ｐｅ_Ｄ，・・・，ｐｅ_Ｘは、式（１８）及び式（１９）により表される関係を有する。

上位ノード３６０Ｂ、及びＯＲゲート３７２により上位ノード３６０Ｂに連結される下位ノード３６０Ｅに着目した場合は、発生確率ｐｆ_Ｂ及びｐｆ_Ｅ、誤認識率ｐｅ_Ｂ、並びに基本誤認識率ｐｂ_Ｅは、式（２０）及び式（２１）により表される関係を有する。

上位ノード３６０Ｃ、及びＯＲゲート３７４により上位ノード３６０Ｃに連結される下位ノード３６０Ｆに着目した場合は、発生確率ｐｆ_ｃ及びｐｆ_Ｆ、誤認識率ｐｅ_Ｃ、並びに基本誤認識率ｐｂ_Ｆは、式（２２）及び式（２３）により表される関係を有する。

上位ノード３６０Ｄ、並びにＯＲゲート３７６により上位ノード３６０Ｄに連結される下位ノード３６０Ｇ及び３６０Ｈに着目した場合は、発生確率ｐｆ_Ｄ，ｐｆ_Ｇ及びｐｆ_Ｈ、誤認識率ｐｅ_Ｄ、並びに基本誤認識率ｐｂ_Ｇ及びｐｂ_Ｈは、式（２４）及び式（２５）により表される関係を有する。

加工条件ＰＣ_Ｅ，ＰＣ_Ｆ，ＰＣ_Ｇ及びＰＣ_Ｈは、それぞれ基本誤認識率ｐｂ_Ｅ，ｐｂ_Ｆ，ｐｂ_Ｇ及びｐｂ_Ｈに応じて設定される。加工条件ＰＣ_Ｅ，ＰＣ_Ｆ，ＰＣ_Ｇ及びＰＣ_Ｈは、それぞれ「文字領域のみ６９％から５０％まで１％ずつ薄くする」、「文字領域のみ時計回りに１０°から４９°まで１°ずつ回転させる」、「文字領域外に１×１から３×３までのノイズを１個から１０個まで加える」及び「文字領域内に１×１から３×３までのノイズを１個から１０個まで加える」という加工条件に設定される。

１．８定義部の動作
図７は、実施の形態１のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートである。図８は、実施の形態１のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。

定義部１１０は、図７に図示されるステップＳ１０１において、入力された入力情報１２０Ｐを読み込む。

定義部１１０は、続くステップＳ１０２において、入力された特定事象の抽出結果１２２Ｐを読み込む。

定義部１１０は、続くステップＳ１０３からＳ１０９までのループにおいて、特定基本事象Ｅ，Ｆ，Ｇ及びＨのすべてについてそれぞれ図８に図示される生成仕様１２４Ｅ，１２４Ｆ，１２４Ｇ及び１２４Ｈを定義するまで、特定基本事象Ｅ，Ｆ，Ｇ及びＨに含まれるひとつの特定基本事象Ｘについて生成仕様を定義することを繰り返す。生成仕様１２４Ｅ，１２４Ｆ，１２４Ｇ及び１２４Ｈの各々は、図１に図示される生成仕様１２４の例である。定義部１１０は、ループ内のステップＳ１０４からＳ１０８までにおいて、ひとつの特定基本事象Ｘについて生成仕様を定義する。

定義部１１０は、続くステップＳ１１０において、定義した生成仕様１２４Ｅ，１２４Ｆ，１２４Ｇ及び１２４Ｈを出力する。

続いて、ステップＳ１０４からＳ１０８までにおいて行われる、特定基本事象Ｘについての生成仕様の定義が説明される。

定義部１１０は、ステップＳ１０４において、特定基本事象Ｘについて認識仕様を決定し、決定した認識仕様を特定基本事象Ｘについて定義する生成仕様に含める。定義部１１０は、ステップＳ１０４を繰り返し実行することにより、図８に図示される認識仕様４００Ｅ，４００Ｆ，４００Ｇ及び４００Ｈを、それぞれ生成仕様１２４Ｅ、１２４Ｆ，１２４Ｇ及び１２４Ｈに含める。

定義部１１０は、特定基本事象Ｘが発生した場合でも特定基本事象Ｘについて生成された出力が期待される出力であること、すなわち特定基本事象Ｘが発生した場合でも手書き数字を正しく認識することを、特定基本事象Ｘについて決定する認識仕様にする。これにより、「「文字全体が薄くなる」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様４００Ｅにされ、「「文字全体が傾いている」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様４００Ｆにされ、「「ドット足し」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様４００Ｇにされ、「「ドット欠け」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様４４０Ｈにされる。

定義部１１０は、続くステップＳ１０５において、特定基本事象検Ｘについて加工条件を決定し、決定した加工条件を特定基本事象検Ｘについて定義する生成仕様に含める。定義部１１０は、ステップＳ１０５を繰り返し実行することにより、図８に図示される加工条件４０２Ｅ，４０２Ｆ，４０２Ｇ及び４０２Ｈを、それぞれ生成仕様１２４Ｅ、１２４Ｆ，１２４Ｇ及び１２４Ｈに含める。

定義部１１０は、特定事象の抽出結果１２２Ｐに含まれる、特定基本事象Ｘについて定義された加工条件ＰＣ_Ｘを、特定基本事象Ｘについて決定する加工条件にする。これにより、「文字領域のみ６９％から５０％まで１％ずつ薄くする」という加工条件ＰＣ_Ｅが加工条件４０２Ｅにされ、「文字領域のみ時計回りに１０°から４９°まで１°ずつ回転させる」という加工条件ＰＣ_Ｆが加工条件４０２Ｆにされ、「文字領域外に１×１から３×３までのノイズを１個から１０個まで加える」という加工条件ＰＣ_Ｇが加工条件４０２Ｇにされ、「文字領域内に１×１から３×３までのノイズを１個から１０個まで加える」という加工条件ＰＣ_Ｈが加工条件４０２Ｈにされる。

定義部１１０は、続くステップＳ１０６において、特定基本事象検Ｘについて検証方法を決定し、決定した検証方法を特定基本事象検Ｘについて定義する生成仕様に含める。定義部１１０は、ステップＳ１０６を繰り返し実行することにより、図８に図示される検証方法４０４Ｅ，４０４Ｆ，４０４Ｇ及び４０４Ｈを、それぞれ生成仕様１２４Ｅ、１２４Ｆ，１２４Ｇ及び１２４Ｈに含める。

定義部１１０は、特定基本事象Ｘについて定義された加工条件ＰＣ_Ｘにしたがって検証用基データ１２６を加工することにより作成可能な検証データの数を示す生成可能データ数Ｎ_Ｘを決定する。作成可能データ数Ｎ_Ｘは、検証用基データ１２６に含まれる画像の数Ｎ、及び特定基本事象Ｘについて定義された加工条件ＰＣ_Ｘにしたがって検証用基データ１２６に含まれるひとつの画像を加工することにより作成可能な作成可能データ数Ｍ_Ｘを用いて、式（２６）により決定される。

以下では、作成可能データ数Ｎ_Ｅ，Ｎ_Ｆ，Ｎ_Ｇ及びＮ_Ｈがそれぞれ２０００００，４０００００，１４０００００及び１５０００００であるとする。

また、定義部１１０は、求めた生成可能データ数Ｎ_Ｘが最大データ数Ｎ_ＭＡＸ以下である場合は、全数検証を特定基本事象Ｘについて決定する検証方法にする。また、定義部１１０は、求めた生成可能データ数Ｎ_Ｘが最大データ数Ｎ_ＭＡＸより多い場合は、統計的検証を特定基本事象Ｘについて決定する検証方法にする。全数検証が検証方法にされた場合は、作成可能な検証データの全部が検証データセットに含められる。統計的検証が検証方法にされた場合は、作成可能な検証データからランダムに選択された検証データが検証データセットに含められる。最大データ数Ｎ_ＭＡＸは、例えばＲＡＭの容量に基づいて決定される。

以下では、最大データ数Ｎ_ＭＡＸが７０００００であるとする。このため、検証方法４０４Ｅ，４０４Ｆ，４０４Ｇ及び４０４Ｈは、それぞれ全数検証、全数検証、統計的検証及び統計的検証である。

定義部１１０は、続くステップＳ１０７において、特定基本事象Ｘについて生成される検証データセットに含める検証データの数を示すデータ数Ｎ’_Ｘを決定し、決定したデータ数Ｎ’_Ｘを特定基本事象Ｘについて定義する生成仕様に含める。定義部１１０は、ステップＳ１０７を繰り返し実行することにより、図８に図示されるデータ数４０６Ｅ，４０６Ｆ，４０６Ｇ及び４０６Ｈ（データ数Ｎ’_Ｅ，Ｎ’_Ｆ，Ｎ’_Ｇ及びＮ’_Ｈ）を、それぞれ生成仕様１２４Ｅ、１２４Ｆ，１２４Ｇ及び１２４Ｈに含める。

定義部１１０は、特定基本事象Ｘについて決定した検証方法に応じて、特定基本事象Ｘについて決定するデータ数Ｎ’_Ｘを変化させる。

定義部１１０は、特定基本事象Ｘについて決定した検証方法が全数検証である場合は、特定基本事象Ｘについて決定した生成可能データ数Ｎ_Ｘを、特定基本事象Ｘについて決定するデータ数Ｎ’_Ｘにする。このため、データ数４０６Ｅ及び４０６Ｆ（データ数Ｎ’_Ｅ及びＮ’_Ｆ）は、それぞれ２０００００及び４０００００である。

一方、定義部１１０は、特定基本事象Ｘについて決定した検証方法が統計的検証である場合は、特定基本事象Ｘについて決定した生成可能データ数Ｎ_Ｘより少ないデータ数を、特定基本事象Ｘについて決定するデータ数Ｎ’_Ｘにする。このため、データ数４０６Ｇ及び４０６Ｈ（データ数Ｎ’_Ｇ及びＮ’_Ｈ）は、それぞれ１４０００００及び１５０００００より少ないデータ数である。

特定基本事象Ｘについて決定された検証方法が統計的検証である場合、すなわち作成可能データ数Ｎ_Ｘが最大データ数Ｎ_ＭＡＸより多い場合は、決定されるデータ数Ｎ’_Ｘは、作成可能な検証データの全部を検証データセットに含めた場合に行われる検証の結果を区間推定により設定信頼度以上で推定できるデータ数である。

特定基本事象Ｘについて決定された検証方法が統計的検証である場合にデータ数Ｎ’_Ｘが決定されるときには、ベルヌーイ試行の区間推定が用いられる。

ベルヌーイ試行の区間推定が用いられる場合は、データ数ｎは、チェルノフ−ヘフディング境界（Chernoff-Hoeffding bound）から、定義部１１０の内部パラメータε及びδを用いて、式（２７）により求められる。内部パラメータεは、誤差である。

図９は、実施の形態１の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図である。

ベルヌーイ試行の区間推定が用いられる場合は、Ｎ_Ｘ個の検証データを含む母集団からｐ個の検証データを含む標本を取り出し、取り出した標本における認識率を求めることが、ｑ回繰り返される。これにより、ｑ個の認識率が求められる。また、求められたｑ個の認識率の分布が、図９に図示されるグラフ４５０により表される正規分布であると仮定される。この場合は、９５％から１００％までの認識率の区間が信頼区間１−δであるとすると、認識率は（１−δ）×１００％の確率で信頼区間に含まれるといえる。このことを検証するためには、式（２７）により求められるデータ数ｎより多いデータ数の検証データにおいて認識率を求め、求めた認識率が９７．５％以上であることを確かめればよい。以下では、εが０．０２５であるとされ、δが０．０１であるとされる。このため、データ数４０６Ｇ及び４０６Ｈ（データ数Ｎ’_Ｇ及びＮ’_Ｈ）は、４２３９以上である。以下では、データ数４０６Ｇ及び４０６Ｈ（データ数Ｎ’_Ｇ及びＮ’_Ｈ）が４２４０であるとする。

このように統計的手法を用いてデータ数Ｎ’_Ｘを決定することにより、検証の結果１３２に対する信頼性を定量的に評価することができる。

定義部１１０は、続くステップＳ１０８において、特定基本事象Ｘについて目標値を決定し、決定した目標値を特定基本事象Ｘについて定義する生成仕様に含める。定義部１１０は、ステップＳ１０８を繰り返し実行することにより、図８に図示される目標値４０８Ｅ，４０８Ｆ，４０８Ｇ及び４０８Ｈを、それぞれ生成仕様１２４Ｅ，１２４Ｆ，１２４Ｇ及び１２４Ｈに含める。

定義部１１０は、特定基本事象Ｘについて生成された検証データセットがシステム１０２に入力された場合にシステム１０２が正しく認識をすることが求められる手書き数字を表現する検証データの数を、特定基本事象Ｘについて決定する目標値ＮＴ_Ｘにする。

特定基本事象Ｘについて決定した検証方法が全数検証である場合は、目標値ＮＴ_Ｘは、基本誤認識率ｐｂ_Ｘ、及び作成可能データ数Ｎ_Ｘを用いて、式（２８）により決定される。

特定基本事象Ｅ及びＦについて決定された検証方法は、全数検証である。また、基本誤認識率ｐｂ_Ｅ及びｐｂ_Ｆは、０．０５である。また、作成可能データ数Ｎ_Ｅ及びＮ_Ｆは、それぞれ２０００００及び４０００００である。このため、目標値４０８Ｅ及び４０８Ｆ（目標値ＮＴ_Ｅ及びＮＴ_Ｆ）は、それぞれ１９００００及び３８００００である。

特定基本事象Ｘについて決定された検証方法が統計的検証である場合は、目標値ＮＴ_Ｘは、基本誤認識率ｐｂ_Ｘ、誤差ε及びデータ数Ｎ’_Ｘを用いて、式（２９）により求められる。

特定基本事象Ｇ及びＨについて決定された検証方法は、統計的検証である。また、基本誤認識率ｐｂ_ｇ及びｐｂ_ｈは、０．０５である。また、誤差εは、０．０２５である。また、データ数Ｎ’_Ｇ及びＮ’_Ｈは、それぞれ４２４０である。このため、目標値４０８Ｇ及び４０８Ｈ（目標値ＮＴ_Ｇ及びＮＴ_Ｈ）は、４１３４である。

１．９検証用基データ
図１０は、実施の形態１のシステム検証装置に入力される検証用基データの例を図示する図である。

図１０に図示される検証用基データ１２６Ｐは、図１に図示される検証用基データ１２６の例である。以下では、図１に図示される検証用基データ１２６が図１０に図示される検証用基データ１２６Ｐであるとして説明が進められる。

検証用基データ１２６Ｐは、複数の画像５００を含む。複数の画像５００は、ＭＮＩＳＴに含まれる複数の画像である。

ＭＮＩＳＴは、６００００枚の学習用の画像、及び１００００枚のテスト用の画像を含む。複数の画像５００は、ＭＮＩＳＴに含まれる１００００枚のテスト用の画像である。複数の画像５００が、６００００枚の学習用の画像のうちの、システム１０２の学習フェーズにおいて使用されなかった学習用の画像であってもよい。

検証用基データ１２６Ｐは、複数のデータ番号５０２をさらに含む。複数のデータ番号５０２は、それぞれ複数の画像５００に対応づけられる。

検証用基データ１２６Ｐは、複数の教師ラベル５０４をさらに含む。複数の教師ラベル５０４は、それぞれ複数の画像５００に対応づけられる。

１．１０生成部の動作
図１１及び図１２は、実施の形態１のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。図１３は、実施の形態１のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。

生成部１１２は、図１１に図示されるステップＳ１２１において、定義された生成仕様１２４Ｅ，１２４Ｆ，１２４Ｇ及び１２４Ｈを読み込む。

生成部１１２は、続くステップＳ１２２からＳ１３４までのループにおいて、特定基本事象Ｅ，Ｆ，Ｇ及びＨのすべてについてそれぞれ図１３に図示される検証データセット１２８Ｅ，１２８Ｆ，１２８Ｇ及び１２８Ｈを生成するまで、特定基本事象Ｅ，Ｆ，Ｇ及びＨに含まれるひとつの特定基本事象Ｘについて検証データセットを生成することを繰り返す。検証データセット１２８Ｅ，１２８Ｆ，１２８Ｇ及び１２８Ｈの各々は、図１に図示される検証データセット１２８の例である。生成部１１２は、ループ内のステップＳ１２３からＳ１３３までにおいて、ひとつの特定基本事象Ｘについて検証データセットを生成する。

生成部１１２は、続くステップＳ１３５において、生成した検証データセット１２８Ｅ，１２８Ｆ，１２８Ｇ及び１２８Ｈを出力する。

続いて、ステップＳ１２３からＳ１３３までにおいて行われる、特定基本事象Ｘについての検証データセットの生成が説明される。

生成部１１２は、ステップＳ１２３において、特定基本事象Ｘについて定義された生成仕様に含まれる検証方法が、全数検証であるか否かを判定する。

生成部１１２は、検証方法が全数検証であると判定した場合は、ステップＳ１２４からＳ１２８までのループにおいて、作成した検証データの数が特定基本事象Ｘについて定義された生成仕様に含まれるデータ数Ｎ’_Ｘ（作成可能データ数Ｎ_Ｘ）に達するまで、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ１２６Ｐに含まれるひとつの画像を加工することを繰り返す。生成部１１２は、ループ内のステップＳ１２５からＳ１２７までにおいて、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ１２６Ｐに含まれるひとつの画像を加工する。生成部１１２は、ステップＳ１２５からＳ１２７までを繰り返し実行することにより、当該生成仕様に含まれる加工条件にしたがって検証用基データ１２６Ｐを加工することにより特定基本事象ＸについてＮ’_Ｘ個の検証データを含む検証データセットを生成する。

生成部１１２は、ステップＳ１２５において、検証用基データ１２６Ｐに含まれる複数の画像５００からひとつの画像を順番に選択する。ひとつの画像の選択は、画像に対応づけられたデータ番号の順番で行われる。

生成部１１２は、続くステップＳ１２６において、特定基本事象Ｘについて定義された生成仕様に含まれる加工条件に含まれる複数の加工方法からひとつの加工方法を順番に選択する。

生成部１１２は、続くステップＳ１２７において、選択したひとつの加工方法にしたがって選択したひとつの画像を加工する。これにより、生成部１１２は、加工された画像である検証データを作成し、作成した検証データを特定基本事象Ｘについて生成する検証データセットに含める。

検証方法４０４Ｅは、全数検証である。また、加工条件４０２Ｅは、「文字領域のみ６９％から５０％まで１％ずつ薄くする」という加工条件である。このため、生成部１１２は、まず、文字領域のみ６９％薄くするという加工方法にしたがって、検証用基データ１２６Ｐに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.1」、及び加工された画像である検証データを検証データセット１２８Ｅに含める。生成部１１２は、続いて、文字領域のみ６８％薄くするという加工方法にしたがって、検証用基データ１２６Ｐに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.2」、及び加工された画像である検証データを検証データセット１２８Ｅに含める。生成部１１２は、作成した検証データの数がデータ数４０６Ｅ（データ数Ｎ’_Ｅすなわち作成可能データ数Ｎ_Ｅ）に達するまで、同様の処理を繰り返す。

検証方法４０４Ｆは、全数検証である。また、加工条件４０２Ｆは、「文字領域のみ時計回りに１０°から４９°まで１°ずつ回転させる」という加工条件である。このため、生成部１１２は、まず、文字領域のみ時計回りに１０°回転させるという加工方法にしたがって、検証用基データ１２６Ｐに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.1」、及び加工された画像である検証データを検証データセット１２８Ｆに含める。生成部１１２は、続いて、文字領域のみ時計回りに１１°回転させるという加工方法にしたがって、検証用基データ１２６Ｐに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.2」、及び加工された画像である検証データを検証データセット１２８Ｆに含める。生成部１１２は、作成した検証データの数がデータ数４０６Ｆ（データ数Ｎ’_Ｆすなわち作成可能データ数Ｎ_Ｆ）に達するまで、同様の処理を繰り返す。

一方、生成部１１２は、検証方法が全数検証でないと判定した場合は、ステップＳ１２９からＳ１３３までのループにおいて、作成した検証データの数が特定基本事象Ｘについて定義された生成仕様に含まれるデータ数Ｎ’_Ｘに達するまで、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ１２６Ｐに含まれるひとつの画像を加工することを繰り返す。生成部１１２は、ループ内のステップＳ１３０からＳ１３２までにおいて、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ１２６Ｐに含まれるひとつの画像を加工する。生成部１１２は、ステップＳ１３０からＳ１３２までを繰り返し実行することにより、当該生成仕様に含まれる加工条件にしたがって検証用基データ１２６Ｐを加工することにより特定基本事象ＸについてＮ’_Ｘ個の加工された画像を含む検証データセットを生成する。

生成部１１２は、ステップＳ１３０において、検証用基データ１２６Ｐに含まれる複数の画像５００からひとつの画像をランダムに選択する。

生成部１１２は、続くステップＳ１３１において、特定基本事象Ｘについて定義された生成仕様に含まれる加工条件に含まれる複数の加工方法からひとつの加工方法をランダムに選択する。

生成部１１２は、続くステップＳ１３２において、選択したひとつの加工方法にしたがって選択したひとつの画像を加工する。

生成部１１２は、ステップＳ１３０からＳ１３２までを実行することにより、作成可能データ数Ｎ_Ｘが最大データ数Ｎ_ＭＡＸより多い場合に、作成可能な検証データからランダムに選択された検証データを作成し、作成した検証データを検証データセットに含める。これにより、検証データセットに含まれる複数の検証データの偏りを抑制することができる。

検証方法４０４Ｇは、統計的検証である。また、加工条件４０２Ｇは、「文字領域外に１×１から３×３までのノイズを１個から１０個まで加える」という加工条件である。加工条件４０２Ｇは、複数の加工方法を含む。複数の加工方法の各々は、ノイズの大きさとノイズの数との組を含む。このため、生成部１１２は、まず、加工条件４０２Ｇに含まれる複数の加工方法からランダムに選択した第１の加工方法にしたがって検証用基データ１２６Ｐに含まれる複数の画像５００からランダムに選択した、データ番号「No.5897」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.1」、及び加工された画像である検証データを検証データセット１２８Ｇに含める。生成部１１２は、続いて、当該加工条件４０２Ｇに含まれる複数の加工方法からランダムに選択した第２の加工方法にしたがって検証用基データ１２６Ｐに含まれる複数の画像５００からランダムに選択した、データ番号「No.256」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.2」、及び加工された画像である検証データを検証データセット１２８Ｇに含める。生成部１１２は、作成した検証データの数がデータ数４０６Ｇ（データ数Ｎ’_Ｇ）に達するまで、同様の処理を繰り返す。

検証方法４０４Ｈは、統計的検証である。また、加工条件４０２Ｈは、「文字領域内に１×１から３×３までのノイズを１個から１０個まで加える」という加工条件である。加工条件４０２Ｈは、複数の加工方法を含む。複数の加工方法の各々は、ノイズの大きさとノイズの数との組を含む。このため、生成部１１２は、まず、加工条件４０２Ｈに含まれる複数の加工方法からランダムに選択した第１の加工方法にしたがって検証用基データ１２６Ｐに含まれる複数の画像５００からランダムに選択した、データ番号「No.1854」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.1」、及び加工された画像である検証データを検証データセット１２８Ｈに含める。生成部１１２は、続いて、当該加工条件４０２Ｈに含まれる複数の加工方法からランダムに選択した第２の加工方法にしたがって検証用基データ１２６Ｐに含まれる複数の画像５００からランダムに選択した、データ番号「No.9543」が対応づけられた画像を加工する。また、生成部１１２は、データ番号「No.2」、及び加工された画像である検証データを検証データセット１２８Ｈに含める。生成部１１２は、作成した検証データの数がデータ数４０６Ｈ（データ数Ｎ’_Ｈ）に達するまで、同様の処理を繰り返す。

１．１１システム
図１４は、実施の形態１のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図である。

図１４に図示される出力１３０Ｐは、図１に図示される出力１３０の例である。以下では、図１に図示される出力１３０が図１４に図示される出力１３０Ｐであるとして説明が進められる。

出力１３０Ｐは、複数のデータ番号６００を含む。

出力１３０Ｐは、複数の認識結果６０２をさらに含む。複数の認識結果６０２は、それぞれ複数のデータ番号６００に対応づけられる。複数の認識結果６０２に含まれる各認識結果は、各認識結果に対応づけられたデータ番号と同じデータ番号に対応づけられた画像により表現される手書き数字の認識結果を表す。

複数の認識結果６０２に含まれる各認識結果は、１０個の確率６１０を含む。１０個の確率６１０は、それぞれ「０」から「９」までの数字に対応づけられる。１０個の確率６１０に含まれる各確率は、各認識結果に対応づけられたデータ番号と同じデータ番号に対応づけられた画像により表現される手書き数字が、各確率に対応づけられた数字である確率を表す。

図１４によれば、例えば、データ番号「No.1」に対応づけられた画像により表現される手書き数字が「０」である確率は、１００％であり、当該手書き数字が「１」から「９」までの数字である確率は、０．００％である。また、データ番号「No.2」に対応づけられた画像により表現される手書き数字が「３」である確率は、９８．９８％であり、当該手書き数字が「０」である確率は、０．０１％であり、当該手書き数字が「１」である確率は、０．０３％であり、当該手書き数字が「２」である確率は、０．０１％であり、当該手書き数字が「４」である確率は、０．００％であり、当該手書き数字が「５」である確率は、０．０５％であり、当該手書き数字が「６」である確率は、０．００％であり、当該手書き数字が「７」である確率は、０．００％であり、当該手書き数字が「８」である確率は、０．５１％であり、当該手書き数字が「９」である確率は、０．４２％である。

１．１２検証部の動作
図１５は、実施の形態１のシステム検証装置に備えられる検証部の動作の流れを図示するフローチャートである。図１６は、実施の形態１のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。

検証部１１４は、図１５に図示されるステップＳ１４１からＳ１４６までのループにおいて、特定基本事象Ｅ，Ｆ，Ｇ及びＨのすべてについてシステム１０２が仕様を満たしているか否かについて検証を行うまで、特定基本事象Ｅ，Ｆ，Ｇ及びＨに含まれるひとつの特定基本事象Ｘについてシステム１０２が仕様を満たしているか否かについて検証を行うことを繰り返す。検証部１１４は、ループ内のステップＳ１４２からＳ１４５までにおいて、ひとつの特定基本事象Ｘについてシステム１０２が仕様を満たしているか否かについて検証を行う。

検証部１１４は、続くステップＳ１４７において、特定事象Ｅ，Ｆ，Ｇ及びＨについて行った検証の結果をそれぞれ示す検証の結果１３２Ｅ，１３２Ｆ，１３２Ｇ及び１３２Ｈを出力する。検証の結果１３２Ｅ，１３２Ｆ，１３２Ｇ及び１３２Ｈの各々は、図１に図示される検証の結果１３２の例である。

続いて、ステップＳ１４２からＳ１４５までにおいて行われる、特定基本事象Ｘについての、システム１０２が仕様を満たしているか否かについての検証が説明される。

検証部１１４は、ステップＳ１４２において、特定基本事象Ｘについて定義された生成仕様を読み込む。

検証部１１４は、続くステップＳ１４３において、特定基本事象Ｘについて生成された検証データセットがシステム１０２に入力された際にシステム１０２により生成された出力１３０Ｐを読み込む。

検証部１１４は、続くステップＳ１４４において、特定基本事象Ｘについて生成された検証データセットを読み込む。

検証部１１４は、続くステップＳ１４５において、特定基本事象Ｘについてシステム１０２が仕様を満たしているか否かについて検証を行う。

検証部１１４は、読み込んだ出力１３０Ｐが読み込んだ生成仕様に含まれる目標値ＮＴ_Ｘを達成している場合は、システム１０２が仕様を満たしていると判定する。また、検証部１１４は、システム１０２が仕様を満たしていると判定した場合は、特定基本事象Ｘについて出力する検証の結果に、システム１０２が仕様を満たしていることを示す情報「○」を含める。一方、検証部１１４は、読み込んだ出力１３０Ｐが読み込んだ生成仕様に含まれる目標値ＮＴ_Ｘを達成していない場合は、システム１０２が仕様を満たしていないと判定する。また、検証部１１４は、システム１０２が仕様を満たしていないと判定した場合は、特定基本事象Ｘについて出力する検証の結果に、システム１０２が仕様を満たしていることを示す情報「×」を含める。

検証部１１４は、読み込んだ出力１３０Ｐに含まれる複数の認識結果６０２がそれぞれ複数の教師ラベルと一致するか否かを判定する。検証部１１４は、認識結果に含まれる最大の確率に対応づけられた数字が、認識結果が対応づけられたデータ番号と同じデータ番号に対応づけられた教師ラベルと一致する場合は、認識結果が教師ラベルと一致すると判定し、当該データ番号に対応づけられた画像により表現される手書き数字が正しく認識されたと判定する。一方、検証部１１４は、当該数字が当該教師ラベルと一致しない場合は、当該認識結果が当該教師ラベルと一致しないと判定し、当該手書き数字が誤認識されたと判定する。また、検証部１１４は、教師ラベルと一致する認識結果の数を示す認識数を算出する。また、検証部１１４は、算出した認識数を出力する。検証部１１４は、ステップＳ１４５を繰り返し実行することにより、特定基本事象Ｅ，Ｆ，Ｇ及びＨについてそれぞれ認識数６５２Ｅ，６５２Ｆ，６５２Ｇ及び６５２Ｈを算出し、算出した認識数６５２Ｅ，６５２Ｆ，６５２Ｇ及び６５２Ｈを出力する。また、検証部１１４は、算出した認識数が目標値ＮＴ_Ｘ以上である場合は、システム１０２が仕様を満たしていると判定する。一方、検証部１１４は、算出した認識数が目標値ＮＴ_Ｘより少ない場合は、システム１０２が仕様を満たしていないと判定する。

以下では、複数の認識数６５２Ｅ，６５２Ｆ，６５２Ｇ及び６５２Ｈが、それぞれ１９５２４１，３９５６７５，４１８６及び４０６０であるとする。

認識数６５２Ｅ，６５２Ｆ及び６５２Ｇは、それぞれ１９５２４１，３９５６７５及び４１８６である。また、目標値４０８Ｅ，４０８Ｆ及び４０８Ｇは、それぞれ１９００００，３８００００及び４１３４である。このため、特定基本事象Ｅ，Ｆ及びＧについて生成された出力は、それぞれ目標値４０８Ｅ，４０８Ｆ及び４０８Ｇを達成している。したがって、検証部１１４は、システム１０２が仕様を満たしていることを示す情報「○」を検証の結果１３２Ｅ，１３２Ｆ及び１３２Ｇに含める。一方、認識数６５２Ｈは、４０６０である。また、目標値４０８Ｈは、４１３４である。このため、特定基本事象Ｈについて生成された出力は、目標値４０８Ｈを達成していない。したがって、検証部１１４は、システム１０２が仕様を満たしていないことを示す情報「×」を検証の結果１３２Ｈに含める。

１．１３特定事象の抽出結果の別例
図１７は、実施の形態１のシステム検証装置に入力される特定事象の抽出結果の別例を図示する図である。

図１７に図示される特定事象の抽出結果１２２Ｑは、図１に図示されるシステム１０２が人工知能を備える自動運転システムである場合の図１に図示される特定事象の抽出結果１２２の例となっている。

特定事象の抽出結果１２２Ｑは、「カメラが誤認識する」という特定事象Ａを表すノード７００Ａ、「雪」という特定事象Ｂを表すノード７００Ｂ、「雨」という特定事象Ｃを表すノード７００Ｃ、「西日（逆行）」という特定事象Ｄを表すノード７００Ｄ、「画像の一部が白飛びする」という特定基本事象Ｅを表すノード７００Ｅ等の自動運転システムを検証するために必要な事象を表すノードを含む点で、図６に図示される特定事象の抽出結果１２２Ｐと相違する。

この他、特定事象の抽出結果１２２Ｑは、分岐のノード７１０，７１２，７１４及び７１６を含む。

２実施の形態２
図１８は、実施の形態２のシステム検証装置を図示するブロック図である。

図２は、実施の形態２のシステム検証装置に入力される入力情報の例を図示する図でもある。図３は、実施の形態２のシステム検証装置に入力される特定事象の抽出結果を図示する図でもある。図５は、実施の形態２のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図でもある。図６は、実施の形態２のシステム検証装置に入力される特定事象の抽出結果の例を図示する図でもある。図７は、実施の形態２のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートでもある。図８は、実施の形態２のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図でもある。図９は、実施の形態２の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図でもある。図１０は、実施の形態２のシステム検証装置に入力される検証用基データの例を図示する図でもある。図１１及び図１２は、実施の形態２のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートでもある。図１３は、実施の形態２のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図でもある。図１４は、実施の形態２のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図でもある。図１６は、実施の形態２のシステム検証装置に備えられる検証部により出力される検証の結果を図示する図でもある。

図１８に図示される実施の形態２のシステム検証装置７５０は、特定基本事象Ｘについて決定された検証方法が統計的検証であり、特定基本事象Ｘについて行われた検証においてシステム１０２が仕様を満たしていないと判定された場合に、データ数Ｎ’_Ｘが増加させられる点で、実施の形態１のシステム検証装置１００と相違する。

以下では、上記の相違に関連して実施の形態２のシステム検証装置７５０において採用された構成が説明される。説明されない点については、実施の形態１のシステム検証装置１００において採用された構成が、実施の形態２のシステム検証装置７５０においても採用される。

システム検証装置７５０に備えられる検証部１１４は、特定基本事象Ｘについて定義された生成仕様に含まれる検証方法が統計的検証であり、特定基本事象Ｘについて行った検証においてシステム１０２が仕様を満たしていないと判定した場合に、特定基本事象Ｘについて行った検証においてシステム１０２が仕様を満たしていないことを示す情報を定義部１１０に入力する。

システム検証装置７５０に備えられる定義部１１０は、特定基本事象Ｘについて行った検証においてシステム１０２が仕様を満たしていないことを示す情報が入力された場合に、特定基本事象Ｘについて定義する生成仕様に含まれるデータ数Ｎ’_Ｘを増加させる。

図１９及び図２０は、実施の形態２のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。

検証部１１４は、図１９に図示されるステップＳ１６１からＳ１７１までのループにおいて、特定基本事象Ｅ，Ｆ，Ｇ及びＨのすべてについて更新要求のための処理を行うまで、特定基本事象Ｅ，Ｆ，Ｇ及びＨに含まれるひとつの特定基本事象Ｘについて更新要求のための処理を行うことを繰り返す。検証部１１４は、ループ内のステップＳ１６２からＳ１７０までにおいて、ひとつの特定基本事象Ｘについて更新要求のための処理を行う。

検証部１１４は、ステップＳ１６２からＳ１６５までにおいて、それぞれ図１５に図示されるステップＳ１４２からＳ１４６までにおいて行われる処理と同様の処理を行う。

検証部１１４は、続くステップＳ１６６において、特定基本事象Ｘについて定義された生成仕様に含まれる検証方法が統計的手法であるか否かを判定する。検証部１１４は、検証方法が統計的手法であると判定した場合は、ステップＳ１６７においてさらに処理を行う。検証部１１４は、検証方法が全数検証であると判定した場合は、さらに処理を行うことなく更新要求のための処理を終了する。

検証部１１４は、続くステップＳ１６７において、特定基本事象Ｘについて算出された認識数が特定基本事象Ｘについて定義された生成仕様に含まれる目標値ＮＴ_Ｘより少ないか否かを判定する。これにより、検証部１１４は、特定基本事象Ｘについて行われた検証においてシステム１０２が仕様を満たしているか否かを判定する。検証部１１４は、認識数が目標値ＮＴ_Ｘより少ない場合は、ステップＳ１６８においてさらに処理を行う。検証部１１４は、認識数が目標値ＮＴ_Ｘ以上である場合は、さらに処理を行うことなく更新要求のための処理を終了する。

検証部１１４は、ステップＳ１６８において、特定基本事象Ｘについて算出された認識数が、特定基本事象Ｘについて算出された許容認識数ＮＰ_Ｘ以上であるか否かを判定する。許容認識数は、目標値ＮＴ_Ｘより少ない数であり、式（３０）により表される。以下では、ζが０．０２であるとする。

これにより、検証部１１４は、特定基本事象Ｘについて生成された出力が、目標値ＮＴ_Ｘにより定義される仕様より緩やかな、許容認識数ＮＰ_Ｘにより定義される許容条件を満たすか否かを判定する。

検証部１１４は、認識数が許容認識数ＮＰ_Ｘ以上である場合は、ステップＳ１６９においてさらに処理を行う。検証部１１４は、認識数が許容認識数ＮＰ_Ｘより小さい場合は、さらに処理を行うことなく更新要求のための処理を終了する。

検証部１１４は、ステップＳ１６９において、区間推定において考慮される誤差εから設定値ηを減じることにより得られる更新後の誤差εが０より大きいか否かを判定する。更新後の誤差εは、式（３１）により算出される。以下では、ηが０．００５であるとする。

検証部１１４は、更新後の誤差が０より大きい場合は、ステップＳ１７０において誤差εを更新することを定義部１１０に要求してから更新要求のための処理を終了する。一方、検証部１１４は、更新後の誤差が０以下である場合は、さらに処理を行うことなく更新要求のための処理を終了する。

したがって、更新要求のための処理においては、下記の条件１から４までが満たされる場合に、誤差εを更新することが要求される。

条件１：検証方法が統計的検証である。

条件２：認識数が目標値ＮＴ_Ｘより少ない。

条件３：認識数が許容認識数ＮＰ_Ｘ以上である。

条件４：更新後の誤差εが０より大きい。

例えば、図８に図示されるように目標値４０８Ｈが４１３４であり、図１６に図示されるように認識数６５２Ｈが４０６０である場合は、許容認識数ＮＰ_Ｈが３９９４となり、更新後の誤差εが０．０２０となる。したがって、条件１から４までが満たされ、誤差εを更新することが要求される。

ステップＳ１７２においては、特定基本事象Ｅ，Ｆ，Ｇ及びＨのすべてについて誤差εを更新することが要求されなかったか否かが判定される。

特定基本事象Ｅ，Ｆ，Ｇ及びＨのすべてについて誤差εを更新することが要求されなかったと判定された場合は、検証部１１４が、ステップＳ１７３において、検証の結果１３２Ｅ，１３２Ｆ，１３２Ｇ及び１３２Ｈを出力する。

一方、特定基本事象Ｅ，Ｆ，Ｇ及びＨのいずれかについて誤差εを更新することが要求されたと判定された場合は、定義部１１０が、ステップＳ１７４において、誤差εを更新することが要求された特定基本事象について誤差εを更新し、続くステップＳ１７５において、誤差εを更新することが要求された特定基本事象について更新後の誤差εを用いて生成仕様を新たに定義する。これにより、定義部１１０は、システム１０２が仕様を満たさないが許容条件を満たし、誤差εから設定値ηを減じることにより得られる更新後の誤差εが０より大きい場合に、誤差εを更新後の誤差εに更新することによりデータ数Ｎ’_Ｘを増加させる。

図２１は、実施の形態２の検証システムにおいて算出される認識率の分布の例を表すグラフを図示する図である。

図２１に図示されるグラフ８００には、誤差εが０．０２５である場合の認識率の分布８１０、及び誤差εが０．０２０である場合の認識率の分布８１２が表される。認識率の分布８１０及び８１２のいずれからも、認識率が９５％であることを９９％以上の信頼度で区間推定により推定することができる。誤差εが０．０２０である場合は、検証データセットに含めるデータ数ｎは、式（２７）により、６６２３以上となる。したがって、データ数Ｎ’_Ｈは、６６２３である。また、式（２９）より、更新後の誤差εに基づいて定義される生成仕様に含まれるデータ数Ｎ’_Ｈは、６４２５であり、６６２３より増加させられている。

図２２は、実施の形態２のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。図２３は、実施の形態２のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。図２４は、実施の形態２のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。

図２２に図示される生成仕様１２４Ｓは、更新後の誤差εに基づいて定義された更新後の生成仕様である。図２３に図示される検証データセット１２８Ｓは、更新後の生成仕様１２４Ｓに基づいて生成された更新後の検証データセットである。図２４に図示される検証の結果１３２Ｓは、更新後の検証データセット１２８Ｓがシステム１０２に入力された場合に検証部１１４により出力される検証の結果である。検証の結果１３２Ｓは、誤差εの更新により、システム１０２が仕様を満たすことを示す情報「○」を含む。このような検証の結果１３２Ｓが得られるのは、認識数６５２Ｓが６５３３であり、認識数６５２Ｓが目標値４０８Ｓ以上であるためである。

なお、本発明は、その発明の範囲内において、実施の形態を適宜、変形、省略することが可能である。

この発明は詳細に説明されたが、上記した説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１００，７５０システム検証装置、１０２システム、１１０定義部、１１２生成部、１１４検証部、１２０，１２０Ｐ入力情報、１２２，１２２Ｐ，１２２Ｑ特定事象の抽出結果、１２４，１２４Ｅ，１２４Ｆ，１２４Ｇ，１２４Ｈ，１２４Ｓ生成仕様、１２６，１２６Ｐ検証用基データ、１２８，１２８Ｅ，１２８Ｆ，１２８Ｇ，１２８Ｈ，１２８Ｓ検証データセット、１３０，１３０Ｐ出力、１３２，１３２Ｅ，１３２Ｆ，１３２Ｇ，１３２Ｈ，１３２Ｓ検証の結果、２００，２５０，３００，３５０木構造、２１０Ａ，２１０Ｂ，２１０Ｃ，２１０Ｄ，２１０Ｅ，２７０，２７２，２７４，３２０，３２２，３６０Ａ，３６０Ｂ，３６０Ｃ，３６０Ｄ，３６０Ｅ，３６０Ｆ，３６０Ｇ，３６０Ｈ，７００Ａ，７００Ｂ，７００Ｃ，７００Ｄ，７００Ｅノード、２２０，２２２，２６０，３１０，３７０，３７２，３７４，３７６、７１０、７１２，７１４，７１６分岐のゲート。

Claims

システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する定義部と、
前記生成仕様に基づいて検証データセットを生成する生成部と、
前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う検証部と、
を備え、
前記定義部は、作成可能な検証データの数を示す作成可能データ数を決定し、前記作成可能データ数が最大データ数より多い場合は、前記作成可能な検証データの全部を前記検証データセットに含めたときに行われる検証の結果を区間推定により設定信頼度以上で推定可能な検証データの数を示すデータ数を決定し、前記データ数を前記生成仕様に含める
システム検証装置。
システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する定義部と、
前記生成仕様に基づいて検証データセットを生成する生成部と、
前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う検証部と、
を備え、
前記システムは、認識システムであり、
前記出力は、複数の認識結果を含み、
前記検証部は、前記複数の認識結果がそれぞれ複数の教師ラベルと一致するか否かを判定し、教師ラベルと一致する認識結果の数を示す認識数を算出し、前記認識数が目標値以上である場合は、前記認識システムが前記仕様を満たしていると判定し、前記認識数が前記目標値より少ない場合は、前記認識システムが前記仕様を満たしていないと判定する
システム検証装置。
前記抽出結果は、前記特定事象が発生する原因となる複数の特定基本事象を表す情報を含み、
前記定義部は、前記複数の特定基本事象に含まれる各特定基本事象について前記生成仕様を定義する
請求項１又は２に記載のシステム検証装置。
前記抽出結果は、木構造を含み、
前記木構造は、
複数の事象をそれぞれ表す複数のノードと、
前記複数のノードに含まれ上位事象を表す上位ノードに、前記複数のノードに含まれ前記上位事象が発生する原因となる下位事象を表す下位ノードを連結する分岐のゲートと、
を含み、
前記複数のノードは、
前記特定事象を表す内部ノードと、
前記複数の特定基本事象をそれぞれ表す複数の葉ノードと、
を含む
請求項３に記載のシステム検証装置。
前記抽出結果は、前記各特定基本事象について定義された加工条件をさらに含み、
前記定義部は、前記加工条件を前記生成仕様に含め、
前記生成部は、前記加工条件にしたがって検証用基データを加工することにより前記検証データセットを生成する
請求項３又は４に記載のシステム検証装置。
前記システムは、認識システムであり、
前記抽出結果は、前記各特定基本事象について定義された基本誤認識率をさらに含み、
前記定義部は、前記基本誤認識率を用いて目標値を決定し、前記目標値を前記生成仕様に含め、
前記検証部は、前記出力が前記目標値を達成している場合は、前記認識システムが前記仕様を満たしていると判定し、前記出力が前記目標値を達成していない場合は、前記システムが前記仕様を満たしていないと判定する
請求項３から５までのいずれか一項に記載のシステム検証装置。
前記システムは、認識システムであり、
前記抽出結果は、
前記特定事象について定義された発生確率と、
前記特定事象について定義された誤認識率と、
前記各特定基本事象について定義された発生確率と、
をさらに含む
請求項３から６までのいずれか一項に記載のシステム検証装置。
前記生成部は、前記作成可能データ数が前記最大データ数より多い場合は、前記作成可能な検証データからランダムに選択された検証データを前記検証データセットに含める
請求項１に記載のシステム検証装置。
前記生成仕様は、複数の加工方法を含み、
前記生成部は、検証用基データに含まれる複数のデータからデータをランダムに選択し、前記複数の加工方法から加工方法をランダムに選択し、前記加工方法にしたがって前記データを加工することにより前記検証データセットを作成する
請求項８に記載のシステム検証装置。
前記定義部は、前記システムが前記仕様を満たさないが前記仕様より緩やかな許容条件を満たす場合に、前記データ数を増加させる
請求項１、８又は９のいずれか一項に記載のシステム検証装置。
前記区間推定は、誤差を考慮し、
前記定義部は、前記システムが前記仕様を満たさないが前記仕様より緩やかな許容条件を満たし、前記誤差から設定値を減じることにより得られる更新後の誤差が０より大きい場合に、前記誤差を前記更新後の誤差に更新することにより前記データ数を増加させる
請求項１０に記載のシステム検証装置。
前記定義部は、前記検証データセットに含まれる検証データの属性を含む入力情報に基づいて前記生成仕様を定義する
請求項１から１１までのいずれか一項に記載のシステム検証装置。
システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する工程と、
前記生成仕様に基づいて検証データセットを生成する工程と、
前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う工程と、
を備え、
前記生成仕様を定義する工程において、作成可能な検証データの数を示す作成可能データ数を決定し、前記作成可能データ数が最大データ数より多い場合は、前記作成可能な検証データの全部を前記検証データセットに含めたときに行われる検証の結果を区間推定により設定信頼度以上で推定可能な検証データの数を示すデータ数を決定し、前記データ数を前記生成仕様に含める
システム検証方法。
システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する工程と、
前記生成仕様に基づいて検証データセットを生成する工程と、
前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う工程と、
を備え、
前記システムは、認識システムであり、
前記出力は、複数の認識結果を含み、
前記検証を行う工程において、前記複数の認識結果がそれぞれ複数の教師ラベルと一致するか否かを判定し、教師ラベルと一致する認識結果の数を示す認識数を算出し、前記認識数が目標値以上である場合は、前記認識システムが前記仕様を満たしていると判定し、前記認識数が前記目標値より少ない場合は、前記認識システムが前記仕様を満たしていないと判定する
システム検証方法。