JP6952902B2 - システム検証装置及びシステム検証方法 - Google Patents

システム検証装置及びシステム検証方法 Download PDF

Info

Publication number
JP6952902B2
JP6952902B2 JP2020531835A JP2020531835A JP6952902B2 JP 6952902 B2 JP6952902 B2 JP 6952902B2 JP 2020531835 A JP2020531835 A JP 2020531835A JP 2020531835 A JP2020531835 A JP 2020531835A JP 6952902 B2 JP6952902 B2 JP 6952902B2
Authority
JP
Japan
Prior art keywords
verification
data
specifications
event
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020531835A
Other languages
English (en)
Other versions
JPWO2020021586A1 (ja
Inventor
伸男 千田
伸男 千田
大介 川上
大介 川上
利晃 青木
利晃 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2020021586A1 publication Critical patent/JPWO2020021586A1/ja
Application granted granted Critical
Publication of JP6952902B2 publication Critical patent/JP6952902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、システムが仕様を満たしているか否かについて検証を行うシステム検証装置及びシステム検証方法に関する。
近年注目を集めている人工知能は、機能仕様を定義することが難しい問題に対して高い性能を有する。例えば、ニューラルネットワークを活用する手書き数字の認識アルゴリズムは、従来の手書き数字の認識アルゴリズムと比較して、高い認識率を有する。しかし、人工知能は、人工知能により生成される出力の根拠が不明確であるという特徴を有する。このため、人工知能を備えるシステムが満たすべき機能仕様を詳細に定義することは難しい。また、システムが満たすべき機能仕様を詳細に定義することが可能である場合は、そもそもシステムが人工機能を備える必要はない。
特許文献1に記載された知能ロボットにおいては、仮想空間における部品の位置及び姿勢がランダムに変えられ、複数の部品が仮想空間に山積みされる(段落0072及び0074)。また、山積みされた部品を含む仮想空間の画像が生成される(段落0074)。生成された仮想空間の画像は、検証用の画像として使用される。
特開2017−102755号公報
人工知能は、先述したように、それにより生成される出力の根拠が不明確であるという特徴を有する。このため、人工知能を備えるシステムが仕様を満たしているか否かについての検証を、発生しうる多数の事象について系統的に行うことは、困難である。特許文献1に記載された技術も、ランダムに生成された検証用の画像が使用されるため、この問題を解決することはできない。
また、この問題は、人工知能を備えるシステムに固有の問題ではなく、システムにより生成される出力の根拠が不明確であるという特徴を有するシステムに共通する問題である。
本発明は、この問題に鑑みてなされる。本発明が解決しようとする課題は、出力の根拠が不明確であるシステムが仕様を満たしているか否かについて系統的に検証を行うことである。
本発明は、システム検証装置に向けられる。
システム検証装置は、定義部、生成部及び検証部を備える。
定義部は、システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する。
生成部は、生成仕様に基づいて検証データセットを生成する。
検証部は、検証データセット、及び検証データセットがシステムに入力された場合にシステムにより生成される出力に基づいてシステムが仕様を満たしているか否かについて検証を行う。また、定義部は、作成可能な検証データの数を示す作成可能データ数を決定し、作成可能データ数が最大データ数より多い場合は、作成可能な検証データの全部を検証データセットに含めたときに行われる検証の結果を区間推定により設定信頼度以上で推定可能な検証データの数を示すデータ数を決定し、データ数を生成仕様に含める。
本発明は、システム検証方法にも向けられる。
本発明によれば、特定事象の抽出結果を反映する検証データセットを用いてシステムが仕様を満たしているか否かについて検証が行われる。このため、システムが仕様を満たしているか否かについて、特定事象の抽出結果を得るために行われた系統的な抽出を反映する系統的な検証が行われる。これにより、生成する出力の根拠が不明確であるシステムが仕様を満たしているか否かについて系統的に検証を行うことができる。
この発明の目的、特徴、局面及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1のシステム検証装置を図示するブロック図である。 実施の形態1及び2のシステム検証装置に入力される入力情報の例を図示する図である。 実施の形態1及び2のシステム検証装置に入力される特定事象の抽出結果を図示する図である。 通常のフォルトツリー解析(FTA)により生成される木構造の例を図示する図である。 実施の形態1及び2のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図である。 実施の形態1及び2のシステム検証装置に入力される特定事象の抽出結果の例を図示する図である。 実施の形態1及び2のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートである。 実施の形態1及び2のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。 実施の形態1及び2の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図である。 実施の形態1及び2のシステム検証装置に入力される検証用基データの例を図示する図である。 実施の形態1及び2のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。 実施の形態1及び2のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。 実施の形態1及び2のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。 実施の形態1及び2のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図である。 実施の形態1のシステム検証装置に備えられる検証部の動作の流れを図示するフローチャートである。 実施の形態1及び2のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。 実施の形態1のシステム検証装置に入力される特定事象の抽出結果の別例を図示する図である。 実施の形態2のシステム検証装置を図示するブロック図である。 実施の形態2のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。 実施の形態2のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。 実施の形態2の検証システムにおいて算出される認識率の分布の例を表すグラフを図示する図である。 実施の形態2のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。 実施の形態2のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。 実施の形態2のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。
1 実施の形態1
1.1 システム検証装置の概略
図1は、実施の形態1のシステム検証装置を図示するブロック図である。
図1に図示されるシステム検証装置100は、システム102を検証する。システム検証装置100は、画像により表現される手書き数字を認識する画像認識システムを検証するのに適する。このため、以下では、システム102が当該画像認識システムである場合が説明される。しかし、システム102は、当該画像認識システム以外の画像認識システムであってもよく、画像認識システム以外の認識システムであってもよく、認識システム以外のシステムであってもよい。例えば、システム102は、制御システム等であってもよい。システム102は、人工知能を備えるシステムである。しかし、システム102は、人工知能を備えないシステムであってもよい。システム102は、具体的には、人工知能を備える自動運転システム、ロボットシステム等である。
システム検証装置100は、定義部110、生成部112及び検証部114を備える。システム検証装置100がこれらの要素以外の要素を備えてもよい。
システム検証装置100は、コンピュータを備える。コンピュータは、プロセッサ及びメモリを備える。プロセッサは、中央演算処理装置(CPU)等である。メモリは、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)等である。定義部110、生成部112及び検証部114は、メモリに記憶されたプログラムをプロセッサが実行することにより構成される。定義部110、生成部112及び検証部114の全部又は一部が、プログラムを実行しないハードウェアにより構成されてもよい。
定義部110は、入力された入力情報120、及び特定事象の抽出結果122に基づいて生成仕様124を定義する。また、定義部110は、定義した生成仕様124を出力する。
入力情報120は、システム102に入力される検証データセット128に含まれる複数の検証データの属性を含む。
特定事象は、システム102により望ましくない出力が生成される原因となる事象である。望ましくない出力は、システム102に期待される出力に反する出力である。
生成仕様124は、検証データセット128を生成するための仕様である。
生成部112は、入力された生成仕様124及び検証用基データ126に基づいて検証データセット128を生成する。また、生成部112は、生成した検証データセット128を出力する。
検証データセット128は、システム102が仕様を満たしているか否かについて検証を行うためのデータセットである。
システム102には、検証データセット128が入力される。システム102は、検証データセット128が入力された場合に出力130を生成する。検証データセット128は、複数の検証データを含む。出力130は、複数の応答を含む。複数の応答は、それぞれ複数の検証データに対する応答である。複数の検証データは、それぞれ複数の画像である。複数の応答は、それぞれ複数の認識結果である。
検証部114は、入力された生成仕様124、検証データセット128及び出力130に基づいてシステム102が仕様を満たしているか否かについて検証を行う。また、検証部114は、検証の結果132を出力する。
システム検証装置100によれば、特定事象の抽出結果122を反映する検証データセット128を用いてシステム102が仕様を満たしているか否かについて検証が行われる。このため、システム102が仕様を満たしているか否かについて、特定事象の抽出結果122を得るために行われた系統的な抽出を反映する系統的な検証が行われる。これにより、出力130の根拠が不明確であるシステム102が仕様を満たしているか否かについて系統的に検証を行うことができる。
1.2 入力情報の例
図2は、実施の形態1のシステム検証装置に入力される入力情報の例を図示する図である。
図2に図示される入力情報120Pは、図1に図示される入力情報120の例である。以下では、図1に図示される入力情報120が図2に図示される入力情報120Pであるとして説明が進められる。
入力情報120Pは、画像サイズ150及びビット数152を含む。画像サイズ150及びビット数152は、それぞれ検証データセット128に含まれる複数の検証データの画像サイズ及びビット数である。入力情報120Pが、画像サイズ150及びビット数152以外の画像の属性を含んでもよく、画像以外のデータの属性を含んでもよい。
検証データセット128に含まれる複数の検証データは、MNISTと呼ばれるデータセットに含まれる、複数の手書き数字をそれぞれ表現する複数の画像を加工することにより作成される。このため、画像サイズ150は、MNISTに含まれる複数の画像の画像サイズである「28×28(pixel)」に一致する。また、ビット数152は、MNISTに含まれる複数の画像のビット数である「8(bit)」に一致する。
1.3 木構造
図3は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果を図示する図である。
特定事象の抽出結果122は、フォルトツリー解析(FTA)により生成される。このため、特定事象の抽出結果122は、図3に図示されるように、木構造200を含む。
木構造200は、ノード210A,210B,210C,210D及び210Eを含む。
ノード210A,210B,210C,210D及び210Eは、特定事象A、特定基本事象B、特定事象C、特定基本事象D及び特定基本事象Eをそれぞれ表す。
木構造200は、分岐のゲート220及び222をさらに含む。
分岐のゲート220は、上位ノード210Aに下位ノード210B及び210Cを連結する。上位ノード210Aにより表される特定事象A、並びに下位ノード210B及び210Cによりそれぞれ表される特定基本事象B及び特定事象Cにおいては、特定事象Aが上位事象である。また、特定基本事象B及び特定事象Cが下位事象である。特定基本事象B及び特定事象Cは、特定事象Aが発生する原因となる。
特定事象Aは、特定基本事象B及び特定事象Cの組み合わせにより表される。特定事象Aは、特定基本事象B及び特定事象Cのいずれかが発生した場合に発生する。このため、特定事象Aは、特定基本事象B及び特定事象Cの論理和により表される。したがって、分岐のゲート220は、ORゲートである。
分岐のゲート222は、上位ノード210Cに下位ノード210D及び210Eを連結する。上位ノード210Cにより表される特定事象C、並びに下位ノード210D及び210Eによりそれぞれ表される特定基本事象D及びEにおいては、特定事象Cが上位事象である。また、特定基本事象D及びEが下位事象である。特定基本事象D及びEは、特定事象Cが発生する原因となる。
特定事象Cは、特定基本事象D及びEの組み合わせにより表される。特定事象Cは、特定基本事象D及びEのすべてが発生した場合に発生する。このため、特定事象Cは、特定基本事象D及びEの論理積により表される。したがって、分岐のゲート222は、ANDゲートである。
ノード210A,210B,210C,210D及び210Eは、特定事象A及びCをそれぞれ表す情報となる内部ノード210A及び210Cを含む。
ノード210A,210B,210C,210D及び210Eは、特定事象Aが発生する原因となる特定基本事象B,D及びEをそれぞれ表す情報となる葉ノード210B,210D及び210Eを含む。葉ノード210B,210D及び210Eは、上位ノードになることはできない。
木構造200の構造が図3に図示される構造から他の構造に変更される場合は、特定事象、特定基本事象、ノード、上位ノード、下位ノード、内部ノード、葉ノード、分岐のゲート、ORゲート及びANDゲートの数も変化しうる。
1.4 フォルトツリー解析
図4は、通常のFTAにより生成される木構造の例を図示する図である。図5は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図である。
通常のFTAにおいては、上位事象が発生する原因となる下位事象が専ら分析される。これに対して、木構造200を生成するために行われるFTAにおいては、上位事象が発生する原因となる下位事象が分析され、上位事象及び下位事象に含まれる各事象に属するデータセットがさらに分析される。このため、木構造200を生成するために行われるFTAにおいては、複数の事象にそれぞれ属する複数のデータセットの共通集合が空集合である場合は、複数の事象の論理積により表される事象に属するデータセットを作成することができず、当該事象を表すノードを作成することができない。
したがって、図4に図示される、通常のFTAにより生成される木構造250においては、ANDゲート260が、「インクがにじむ」という上位事象を表す上位ノード270に、「文字が太くなる」及び「文字が薄くなる」という下位事象をそれぞれ表す下位ノード272及び274を連結することができる。これに対して、図5に図示される、実施の形態1のシステム検証装置100に入力される特定事象の抽出結果122に含まれる木構造300においては、ORゲート310が、「インクがにじむ」という上位事象をあらわす上位ノード320に、「文字が太くなるかつ薄くなる」という下位事象を表す下位ノード322を連結しなければならない。このような相違が生じるのは、「文字が太くなる」及び「文字が薄くなる」という2個の事象にそれぞれ属する2個のデータセットの共通集合が空集合であるため、「文字が太くなる」及び「文字が薄くなる」という2個の事象の論理積により表される事象に属するデータセットを作成することができず、当該事象を表すノードを作成することができないためである。
1.5 発生確率、誤認識率、基本誤認識率及び加工条件
特定事象の抽出結果122は、図3に図示されるように、発生確率pf及びpfを含む。
発生確率pf及びpfは、それぞれ特定事象A及びCについて定義される。発生確率pf及びpfは、それぞれ特定事象A及びCが発生する確率である。
特定事象の抽出結果122は、誤認識率pe及びpeをさらに含む。
誤認識率pe及びpeは、それぞれ特定事象A及びCについて定義される。誤認識率pe及びpeは、それぞれ特定事象A及びCが発生した場合に特定事象A及びCが原因となってシステム102が手書き数字を誤認識する確率である。
特定事象の抽出結果122は、発生確率pf,pf及びpfをさらに含む。
発生確率pf,pf及びpfは、それぞれ特定基本事象B,D及びEについて定義される。発生確率pf,pf及びpfは、それぞれ特定基本事象B,D及びEが発生する確率である。
特定事象の抽出結果122は、基本誤認識率pb,pb及びpbをさらに含む。
基本誤認識率pb,pb及びpbは、それぞれ特定基本事象B,D及びEについて定義される。基本誤認識率pb,pb及びpbは、それぞれ特定基本事象B,D及びEが単独で発生した場合に特定基本事象B,D及びEが原因となってシステム102が手書き数字を誤認識する確率である。
特定事象の抽出結果122は、加工条件PC,PC及びPCをさらに含む。
加工条件PC,PC及びPCは、それぞれ特定基本事象B,D及びEについて定義される。加工条件PC,PC及びPCは、それぞれ特定基本事象B,D及びEに属するデータセットを生成するための加工条件であり、それぞれ特定基本事象B,D及びEについて検証データセットを生成するために検証用基データ126を加工する際にしたがうべき加工条件である。
1.6 データセットの間の関係
全体のデータU、並びに特定事象A、特定基本事象B及び特定事象Cにそれぞれ属するデータセットD,D及びDは、式(1)及び式(2)により表される関係を有する。
Figure 0006952902
式(1)は、データセットDが全体のデータUに含まれることを示し、データセットDがデータセットD及びDの和集合であることを示す。式(2)は、データセットD及びDの積集合が空集合であることを示す。
特定事象C、特定基本事象D及び特定基本事象Eにそれぞれ属するデータセットD,D及びDは、式(3)により表される関係を有する。
Figure 0006952902
式(3)は、データセットDがデータセットD及びDの積集合であることを示す。
特定事象A、特定基本事象B、特定事象C、特定基本事象D及び特定基本事象Eにそれぞれ属する誤認識データセットE,E,E,E及びE、並びにデータセットD,D,D,D及びDは、式(4)により表される関係を有する。ただし、Xは、A,B,C,D及びEの各々である。
Figure 0006952902
式(4)は、誤認識データセットEがデータセットDに含まれることを示す。誤認識データセットE,E,E,E及びEに含まれる誤認識データにより表現される手書き数字は、システム102に誤認識される。
誤認識データセットE,E及びEは、式(5)により表される関係を有する。
Figure 0006952902
式(5)は、誤認識データセットEが誤認識データセットE及びEの和集合であることを示す。
誤認識データセットE,E及びEは、式(6)により表される関係を有する。
Figure 0006952902
式(6)は、誤認識データセットEが誤認識データセットE及びEの和集合であることを示す。
発生確率pf、誤認識率pe及び基本誤認識率pbは、それぞれ式(7)、式(8)及び式(9)により定義される。
Figure 0006952902
基本誤認識率pbを求める際の母数|D|が発生確率pf及び誤認識率peを求める際の母数|U|と相違するのは、基本誤認識率pbを求める際の母集団が発生確率pf及び誤認識率peを求める際の母集団と相違するためである。
上位ノード210A、並びにORゲート220により上位ノード210Aに連結される下位ノード210B及び210Cに着目した場合は、発生確率pf,pf及びpf、誤認識率pe及びpe、並びに基本誤認識率pbは、式(10)及び式(11)により表される関係を有する。
Figure 0006952902
上位ノード210C、並びにANDゲート222により上位ノード210Cに連結される下位ノード210D及び210Eに着目した場合は、発生確率pf,pf及びpf、誤認識率pe、並びに基本誤認識率pb及びpbは、式(12)及び式(13)により表される関係を有する。
Figure 0006952902
式(12)は、発生確率pfが、発生確率pf及びpfのうちの最小値以下であることを示す不等式になっている。式(13)は、誤認識率peが、発生確率pfと基本誤認識率pbとの積、及び発生確率pfと基本誤認識率pbとの積のうちの最小値以下であることを示す不等式となっている。式(12)及び式(13)が不等式となっているのは、データセットD及びDの積集合に含まれるデータの数は、正確には不明であるものの、データセットDに含まれるデータの数、及びデータセットDに含まれるデータの数のうちの最小値以下であるためである。
1.7 特定事象の抽出結果の例
図6は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果の例を図示する図である。
図6に図示される特定事象の抽出結果122Pは、図1に図示される特定事象の抽出結果122の例である。以下では、図1に図示される特定事象の抽出結果122が図6に図示される特定事象の抽出結果122Pであるとして説明が進められる。
特定事象の抽出結果122Pは、木構造350を含む。
木構造350は、ノード360A,360B,360C,360D,360E,360F,360G,360H等のノードを含む。
ノード360Aは、「ノイズによって手書き数字を誤認識する」という特定事象Aを表す。ノード360Bは、「インク切れ」という特定事象Bを表す。ノード360Cは、「紙の配置を誤る」という特定事象Cを表す。ノード360Dは、「紙が汚れている」という特定事象Dを表す。ノード360Eは、「文字全体が薄くなる」という特定基本事象Eを表す。ノード360Fは、「文字全体が傾いている」という特定基本事象Fを表す。ノード360Gは、「ドット足し」という特定基本事象Gを表す。ノード360Hは、「ドット欠け」という特定基本事象Hを表す。「ノイズによって手書き数字を誤認識する」、「インク切れ」、「紙の配置を誤る」、「紙が汚れている」、「文字全体が薄くなる」、「文字全体が傾いている」、「ドット足し」及び「ドット欠け」は、それぞれノード360A,360B,360C,360D,360E,360F,360G及び360Hのノード名となっている。
特定事象の抽出結果122Pは、ORゲート370,372,374,376等の分岐のゲートをさらに含む。
ORゲート370は、上位ノード360Aに、下位ノード360B,360C及び360Dを連結する。ORゲート372は、上位ノード360Bに、下位ノード360Eを連結する。ORゲート374は、上位ノード360Cに、下位ノード360Fを連結する。ORゲート376は、上位ノード360Dに、下位ノード360G及び360Hを連結する。
特定事象の抽出結果122Pは、発生確率pf,pf,pf及びpfをさらに含む。発生確率pf,pf,pf及びpfは、それぞれ特定事象A,B,C及びDについて定義される。
特定事象の抽出結果122Pは、誤認識率pe,pe,pe及びpeをさらに含む。誤認識率pe,pe,pe及びpeは、それぞれ特定事象A,B,C及びDについて定義される。
特定事象の抽出結果122Pは、発生確率pf,pf,pf及びpfをさらに含む。発生確率pf,pf,pf及びpfは、それぞれ特定基本事象E,F,G及びHについて定義される。
特定事象の抽出結果122Pは、基本誤認識率pb,pb,pb及びpbをさらに含む。基本誤認識率pb,pb,pb及びpbは、それぞれ特定基本事象E,F,G及びHについて定義される。
特定事象の抽出結果122Pは、加工条件PC,PC,PC及びPCをさらに含む。加工条件PC,PC,PC及びPCは、それぞれ特定基本事象E,F,G及びHについて定義される。
全体のデータU、上位事象である特定事象Aに属するデータセットD、及び下位事象である特定事象B,C,D,・・・,Xにそれぞれ属するデータセットD,D,D,・・・,Dは、式(14)及び式(15)により表される関係を有する。
Figure 0006952902
式(14)は、データセットDが全体のデータUに含まれることを示し、データセットDがデータセットD,D,D,・・・,Dの和集合であることを示す。式(15)は、データセットD,D,D,・・・,Dの積集合が空集合であることを示す。
上位事象である特定事象Aに属する誤認識データセットE、並びに下位事象である特定事象B,C,D,・・・,Xにそれぞれ属する誤認識データセットE,E,E,・・・,Eは、式(16)及び式(17)により表される関係を有する。
Figure 0006952902
式(16)は、誤認識データセットEが誤認識データセットE,E,E,・・・,Eの和集合であることを示す。式(17)は、誤認識データセットE,E,E,・・・,Eの積集合が空集合であることを示す。誤認識データセットEは、全体のデータUに含まれる。
特定事象の抽出結果122Pが生成される際には、複数の手書き数字をそれぞれ表す複数の画像の全体においてノイズを含む画像の発生確率が50%であると仮定される。また、手書き数字の認識に関する目標値が「手書き数字を95%以上正しく認識すること」であると定義される。これにより、図6に図示されるように、発生確率pfが0.5に設定され、誤認識率peが0.05*0.50に設定される。
また、上位事象について定義された発生確率が少なくともひとつの下位事象についてそれぞれ定義された少なくともひとつの発生確率に等分に分配される。これにより、図6に図示されるように、発生確率pf,pf,pf,・・・,pfが0.5/Xに設定され、誤認識率pe,pe,pe,・・・,peが0.05*0.5/Xに設定される。また、発生確率pfが0.5/Xに設定され、基本誤認識率pbが0.05に設定される。また、発生確率pfが0.5/Xに設定され、基本誤認識率pbが0.05に設定される。また、発生確率pf及びpfが0.5/X/2に設定され、基本誤認識率pb及びpbが0.05に設定される。
上位ノード360A、並びにORゲート370により上位ノード360Aに連結される下位ノード360B,300C,300D,・・・に着目した場合は、発生確率pf,pf,pf,pf,・・・,pf、及び誤認識率pe,pe,pe,pe,・・・,peは、式(18)及び式(19)により表される関係を有する。
Figure 0006952902
上位ノード360B、及びORゲート372により上位ノード360Bに連結される下位ノード360Eに着目した場合は、発生確率pf及びpf、誤認識率pe、並びに基本誤認識率pbは、式(20)及び式(21)により表される関係を有する。
Figure 0006952902
上位ノード360C、及びORゲート374により上位ノード360Cに連結される下位ノード360Fに着目した場合は、発生確率pf及びpf、誤認識率pe、並びに基本誤認識率pbは、式(22)及び式(23)により表される関係を有する。
Figure 0006952902
上位ノード360D、並びにORゲート376により上位ノード360Dに連結される下位ノード360G及び360Hに着目した場合は、発生確率pf,pf及びpf、誤認識率pe、並びに基本誤認識率pb及びpbは、式(24)及び式(25)により表される関係を有する。
Figure 0006952902
加工条件PC,PC,PC及びPCは、それぞれ基本誤認識率pb,pb,pb及びpbに応じて設定される。加工条件PC,PC,PC及びPCは、それぞれ「文字領域のみ69%から50%まで1%ずつ薄くする」、「文字領域のみ時計回りに10°から49°まで1°ずつ回転させる」、「文字領域外に1×1から3×3までのノイズを1個から10個まで加える」及び「文字領域内に1×1から3×3までのノイズを1個から10個まで加える」という加工条件に設定される。
1.8 定義部の動作
図7は、実施の形態1のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートである。図8は、実施の形態1のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。
定義部110は、図7に図示されるステップS101において、入力された入力情報120Pを読み込む。
定義部110は、続くステップS102において、入力された特定事象の抽出結果122Pを読み込む。
定義部110は、続くステップS103からS109までのループにおいて、特定基本事象E,F,G及びHのすべてについてそれぞれ図8に図示される生成仕様124E,124F,124G及び124Hを定義するまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについて生成仕様を定義することを繰り返す。生成仕様124E,124F,124G及び124Hの各々は、図1に図示される生成仕様124の例である。定義部110は、ループ内のステップS104からS108までにおいて、ひとつの特定基本事象Xについて生成仕様を定義する。
定義部110は、続くステップS110において、定義した生成仕様124E,124F,124G及び124Hを出力する。
続いて、ステップS104からS108までにおいて行われる、特定基本事象Xについての生成仕様の定義が説明される。
定義部110は、ステップS104において、特定基本事象Xについて認識仕様を決定し、決定した認識仕様を特定基本事象Xについて定義する生成仕様に含める。定義部110は、ステップS104を繰り返し実行することにより、図8に図示される認識仕様400E,400F,400G及び400Hを、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定基本事象Xが発生した場合でも特定基本事象Xについて生成された出力が期待される出力であること、すなわち特定基本事象Xが発生した場合でも手書き数字を正しく認識することを、特定基本事象Xについて決定する認識仕様にする。これにより、「「文字全体が薄くなる」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様400Eにされ、「「文字全体が傾いている」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様400Fにされ、「「ドット足し」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様400Gにされ、「「ドット欠け」という特定基本事象が発生した場合でも手書き数字を正しく認識すること」が認識仕様440Hにされる。
定義部110は、続くステップS105において、特定基本事象検Xについて加工条件を決定し、決定した加工条件を特定基本事象検Xについて定義する生成仕様に含める。定義部110は、ステップS105を繰り返し実行することにより、図8に図示される加工条件402E,402F,402G及び402Hを、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定事象の抽出結果122Pに含まれる、特定基本事象Xについて定義された加工条件PCを、特定基本事象Xについて決定する加工条件にする。これにより、「文字領域のみ69%から50%まで1%ずつ薄くする」という加工条件PCが加工条件402Eにされ、「文字領域のみ時計回りに10°から49°まで1°ずつ回転させる」という加工条件PCが加工条件402Fにされ、「文字領域外に1×1から3×3までのノイズを1個から10個まで加える」という加工条件PCが加工条件402Gにされ、「文字領域内に1×1から3×3までのノイズを1個から10個まで加える」という加工条件PCが加工条件402Hにされる。
定義部110は、続くステップS106において、特定基本事象検Xについて検証方法を決定し、決定した検証方法を特定基本事象検Xについて定義する生成仕様に含める。定義部110は、ステップS106を繰り返し実行することにより、図8に図示される検証方法404E,404F,404G及び404Hを、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定基本事象Xについて定義された加工条件PCにしたがって検証用基データ126を加工することにより作成可能な検証データの数を示す生成可能データ数Nを決定する。作成可能データ数Nは、検証用基データ126に含まれる画像の数N、及び特定基本事象Xについて定義された加工条件PCにしたがって検証用基データ126に含まれるひとつの画像を加工することにより作成可能な作成可能データ数Mを用いて、式(26)により決定される。
Figure 0006952902
以下では、作成可能データ数N,N,N及びNがそれぞれ200000,400000,1400000及び1500000であるとする。
また、定義部110は、求めた生成可能データ数Nが最大データ数NMAX以下である場合は、全数検証を特定基本事象Xについて決定する検証方法にする。また、定義部110は、求めた生成可能データ数Nが最大データ数NMAXより多い場合は、統計的検証を特定基本事象Xについて決定する検証方法にする。全数検証が検証方法にされた場合は、作成可能な検証データの全部が検証データセットに含められる。統計的検証が検証方法にされた場合は、作成可能な検証データからランダムに選択された検証データが検証データセットに含められる。最大データ数NMAXは、例えばRAMの容量に基づいて決定される。
以下では、最大データ数NMAXが700000であるとする。このため、検証方法404E,404F,404G及び404Hは、それぞれ全数検証、全数検証、統計的検証及び統計的検証である。
定義部110は、続くステップS107において、特定基本事象Xについて生成される検証データセットに含める検証データの数を示すデータ数N’を決定し、決定したデータ数N’を特定基本事象Xについて定義する生成仕様に含める。定義部110は、ステップS107を繰り返し実行することにより、図8に図示されるデータ数406E,406F,406G及び406H(データ数N’,N’,N’及びN’)を、それぞれ生成仕様124E、124F,124G及び124Hに含める。
定義部110は、特定基本事象Xについて決定した検証方法に応じて、特定基本事象Xについて決定するデータ数N’を変化させる。
定義部110は、特定基本事象Xについて決定した検証方法が全数検証である場合は、特定基本事象Xについて決定した生成可能データ数Nを、特定基本事象Xについて決定するデータ数N’にする。このため、データ数406E及び406F(データ数N’及びN’)は、それぞれ200000及び400000である。
一方、定義部110は、特定基本事象Xについて決定した検証方法が統計的検証である場合は、特定基本事象Xについて決定した生成可能データ数Nより少ないデータ数を、特定基本事象Xについて決定するデータ数N’にする。このため、データ数406G及び406H(データ数N’及びN’)は、それぞれ1400000及び1500000より少ないデータ数である。
特定基本事象Xについて決定された検証方法が統計的検証である場合、すなわち作成可能データ数Nが最大データ数NMAXより多い場合は、決定されるデータ数N’は、作成可能な検証データの全部を検証データセットに含めた場合に行われる検証の結果を区間推定により設定信頼度以上で推定できるデータ数である。
特定基本事象Xについて決定された検証方法が統計的検証である場合にデータ数N’が決定されるときには、ベルヌーイ試行の区間推定が用いられる。
ベルヌーイ試行の区間推定が用いられる場合は、データ数nは、チェルノフ−ヘフディング境界(Chernoff-Hoeffding bound)から、定義部110の内部パラメータε及びδを用いて、式(27)により求められる。内部パラメータεは、誤差である。
Figure 0006952902
図9は、実施の形態1の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図である。
ベルヌーイ試行の区間推定が用いられる場合は、N個の検証データを含む母集団からp個の検証データを含む標本を取り出し、取り出した標本における認識率を求めることが、q回繰り返される。これにより、q個の認識率が求められる。また、求められたq個の認識率の分布が、図9に図示されるグラフ450により表される正規分布であると仮定される。この場合は、95%から100%までの認識率の区間が信頼区間1−δであるとすると、認識率は(1−δ)×100%の確率で信頼区間に含まれるといえる。このことを検証するためには、式(27)により求められるデータ数nより多いデータ数の検証データにおいて認識率を求め、求めた認識率が97.5%以上であることを確かめればよい。以下では、εが0.025であるとされ、δが0.01であるとされる。このため、データ数406G及び406H(データ数N’及びN’)は、4239以上である。以下では、データ数406G及び406H(データ数N’及びN’)が4240であるとする。
このように統計的手法を用いてデータ数N’を決定することにより、検証の結果132に対する信頼性を定量的に評価することができる。
定義部110は、続くステップS108において、特定基本事象Xについて目標値を決定し、決定した目標値を特定基本事象Xについて定義する生成仕様に含める。定義部110は、ステップS108を繰り返し実行することにより、図8に図示される目標値408E,408F,408G及び408Hを、それぞれ生成仕様124E,124F,124G及び124Hに含める。
定義部110は、特定基本事象Xについて生成された検証データセットがシステム102に入力された場合にシステム102が正しく認識をすることが求められる手書き数字を表現する検証データの数を、特定基本事象Xについて決定する目標値NTにする。
特定基本事象Xについて決定した検証方法が全数検証である場合は、目標値NTは、基本誤認識率pb、及び作成可能データ数Nを用いて、式(28)により決定される。
Figure 0006952902
特定基本事象E及びFについて決定された検証方法は、全数検証である。また、基本誤認識率pb及びpbは、0.05である。また、作成可能データ数N及びNは、それぞれ200000及び400000である。このため、目標値408E及び408F(目標値NT及びNT)は、それぞれ190000及び380000である。
特定基本事象Xについて決定された検証方法が統計的検証である場合は、目標値NTは、基本誤認識率pb、誤差ε及びデータ数N’を用いて、式(29)により求められる。
Figure 0006952902
特定基本事象G及びHについて決定された検証方法は、統計的検証である。また、基本誤認識率pb及びpbは、0.05である。また、誤差εは、0.025である。また、データ数N’及びN’は、それぞれ4240である。このため、目標値408G及び408H(目標値NT及びNT)は、4134である。
1.9 検証用基データ
図10は、実施の形態1のシステム検証装置に入力される検証用基データの例を図示する図である。
図10に図示される検証用基データ126Pは、図1に図示される検証用基データ126の例である。以下では、図1に図示される検証用基データ126が図10に図示される検証用基データ126Pであるとして説明が進められる。
検証用基データ126Pは、複数の画像500を含む。複数の画像500は、MNISTに含まれる複数の画像である。
MNISTは、60000枚の学習用の画像、及び10000枚のテスト用の画像を含む。複数の画像500は、MNISTに含まれる10000枚のテスト用の画像である。複数の画像500が、60000枚の学習用の画像のうちの、システム102の学習フェーズにおいて使用されなかった学習用の画像であってもよい。
検証用基データ126Pは、複数のデータ番号502をさらに含む。複数のデータ番号502は、それぞれ複数の画像500に対応づけられる。
検証用基データ126Pは、複数の教師ラベル504をさらに含む。複数の教師ラベル504は、それぞれ複数の画像500に対応づけられる。
1.10 生成部の動作
図11及び図12は、実施の形態1のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートである。図13は、実施の形態1のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。
生成部112は、図11に図示されるステップS121において、定義された生成仕様124E,124F,124G及び124Hを読み込む。
生成部112は、続くステップS122からS134までのループにおいて、特定基本事象E,F,G及びHのすべてについてそれぞれ図13に図示される検証データセット128E,128F,128G及び128Hを生成するまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについて検証データセットを生成することを繰り返す。検証データセット128E,128F,128G及び128Hの各々は、図1に図示される検証データセット128の例である。生成部112は、ループ内のステップS123からS133までにおいて、ひとつの特定基本事象Xについて検証データセットを生成する。
生成部112は、続くステップS135において、生成した検証データセット128E,128F,128G及び128Hを出力する。
続いて、ステップS123からS133までにおいて行われる、特定基本事象Xについての検証データセットの生成が説明される。
生成部112は、ステップS123において、特定基本事象Xについて定義された生成仕様に含まれる検証方法が、全数検証であるか否かを判定する。
生成部112は、検証方法が全数検証であると判定した場合は、ステップS124からS128までのループにおいて、作成した検証データの数が特定基本事象Xについて定義された生成仕様に含まれるデータ数N’(作成可能データ数N)に達するまで、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工することを繰り返す。生成部112は、ループ内のステップS125からS127までにおいて、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工する。生成部112は、ステップS125からS127までを繰り返し実行することにより、当該生成仕様に含まれる加工条件にしたがって検証用基データ126Pを加工することにより特定基本事象XについてN’個の検証データを含む検証データセットを生成する。
生成部112は、ステップS125において、検証用基データ126Pに含まれる複数の画像500からひとつの画像を順番に選択する。ひとつの画像の選択は、画像に対応づけられたデータ番号の順番で行われる。
生成部112は、続くステップS126において、特定基本事象Xについて定義された生成仕様に含まれる加工条件に含まれる複数の加工方法からひとつの加工方法を順番に選択する。
生成部112は、続くステップS127において、選択したひとつの加工方法にしたがって選択したひとつの画像を加工する。これにより、生成部112は、加工された画像である検証データを作成し、作成した検証データを特定基本事象Xについて生成する検証データセットに含める。
検証方法404Eは、全数検証である。また、加工条件402Eは、「文字領域のみ69%から50%まで1%ずつ薄くする」という加工条件である。このため、生成部112は、まず、文字領域のみ69%薄くするという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Eに含める。生成部112は、続いて、文字領域のみ68%薄くするという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Eに含める。生成部112は、作成した検証データの数がデータ数406E(データ数N’すなわち作成可能データ数N)に達するまで、同様の処理を繰り返す。
検証方法404Fは、全数検証である。また、加工条件402Fは、「文字領域のみ時計回りに10°から49°まで1°ずつ回転させる」という加工条件である。このため、生成部112は、まず、文字領域のみ時計回りに10°回転させるという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Fに含める。生成部112は、続いて、文字領域のみ時計回りに11°回転させるという加工方法にしたがって、検証用基データ126Pに含まれる、データ番号「No.1」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Fに含める。生成部112は、作成した検証データの数がデータ数406F(データ数N’すなわち作成可能データ数N)に達するまで、同様の処理を繰り返す。
一方、生成部112は、検証方法が全数検証でないと判定した場合は、ステップS129からS133までのループにおいて、作成した検証データの数が特定基本事象Xについて定義された生成仕様に含まれるデータ数N’に達するまで、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工することを繰り返す。生成部112は、ループ内のステップS130からS132までにおいて、当該生成仕様に含まれる加工条件に含まれるひとつの加工方法にしたがって検証用基データ126Pに含まれるひとつの画像を加工する。生成部112は、ステップS130からS132までを繰り返し実行することにより、当該生成仕様に含まれる加工条件にしたがって検証用基データ126Pを加工することにより特定基本事象XについてN’個の加工された画像を含む検証データセットを生成する。
生成部112は、ステップS130において、検証用基データ126Pに含まれる複数の画像500からひとつの画像をランダムに選択する。
生成部112は、続くステップS131において、特定基本事象Xについて定義された生成仕様に含まれる加工条件に含まれる複数の加工方法からひとつの加工方法をランダムに選択する。
生成部112は、続くステップS132において、選択したひとつの加工方法にしたがって選択したひとつの画像を加工する。
生成部112は、ステップS130からS132までを実行することにより、作成可能データ数Nが最大データ数NMAXより多い場合に、作成可能な検証データからランダムに選択された検証データを作成し、作成した検証データを検証データセットに含める。これにより、検証データセットに含まれる複数の検証データの偏りを抑制することができる。
検証方法404Gは、統計的検証である。また、加工条件402Gは、「文字領域外に1×1から3×3までのノイズを1個から10個まで加える」という加工条件である。加工条件402Gは、複数の加工方法を含む。複数の加工方法の各々は、ノイズの大きさとノイズの数との組を含む。このため、生成部112は、まず、加工条件402Gに含まれる複数の加工方法からランダムに選択した第1の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.5897」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Gに含める。生成部112は、続いて、当該加工条件402Gに含まれる複数の加工方法からランダムに選択した第2の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.256」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Gに含める。生成部112は、作成した検証データの数がデータ数406G(データ数N’)に達するまで、同様の処理を繰り返す。
検証方法404Hは、統計的検証である。また、加工条件402Hは、「文字領域内に1×1から3×3までのノイズを1個から10個まで加える」という加工条件である。加工条件402Hは、複数の加工方法を含む。複数の加工方法の各々は、ノイズの大きさとノイズの数との組を含む。このため、生成部112は、まず、加工条件402Hに含まれる複数の加工方法からランダムに選択した第1の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.1854」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.1」、及び加工された画像である検証データを検証データセット128Hに含める。生成部112は、続いて、当該加工条件402Hに含まれる複数の加工方法からランダムに選択した第2の加工方法にしたがって検証用基データ126Pに含まれる複数の画像500からランダムに選択した、データ番号「No.9543」が対応づけられた画像を加工する。また、生成部112は、データ番号「No.2」、及び加工された画像である検証データを検証データセット128Hに含める。生成部112は、作成した検証データの数がデータ数406H(データ数N’)に達するまで、同様の処理を繰り返す。
1.11 システム
図14は、実施の形態1のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図である。
図14に図示される出力130Pは、図1に図示される出力130の例である。以下では、図1に図示される出力130が図14に図示される出力130Pであるとして説明が進められる。
出力130Pは、複数のデータ番号600を含む。
出力130Pは、複数の認識結果602をさらに含む。複数の認識結果602は、それぞれ複数のデータ番号600に対応づけられる。複数の認識結果602に含まれる各認識結果は、各認識結果に対応づけられたデータ番号と同じデータ番号に対応づけられた画像により表現される手書き数字の認識結果を表す。
複数の認識結果602に含まれる各認識結果は、10個の確率610を含む。10個の確率610は、それぞれ「0」から「9」までの数字に対応づけられる。10個の確率610に含まれる各確率は、各認識結果に対応づけられたデータ番号と同じデータ番号に対応づけられた画像により表現される手書き数字が、各確率に対応づけられた数字である確率を表す。
図14によれば、例えば、データ番号「No.1」に対応づけられた画像により表現される手書き数字が「0」である確率は、100%であり、当該手書き数字が「1」から「9」までの数字である確率は、0.00%である。また、データ番号「No.2」に対応づけられた画像により表現される手書き数字が「3」である確率は、98.98%であり、当該手書き数字が「0」である確率は、0.01%であり、当該手書き数字が「1」である確率は、0.03%であり、当該手書き数字が「2」である確率は、0.01%であり、当該手書き数字が「4」である確率は、0.00%であり、当該手書き数字が「5」である確率は、0.05%であり、当該手書き数字が「6」である確率は、0.00%であり、当該手書き数字が「7」である確率は、0.00%であり、当該手書き数字が「8」である確率は、0.51%であり、当該手書き数字が「9」である確率は、0.42%である。
1.12 検証部の動作
図15は、実施の形態1のシステム検証装置に備えられる検証部の動作の流れを図示するフローチャートである。図16は、実施の形態1のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。
検証部114は、図15に図示されるステップS141からS146までのループにおいて、特定基本事象E,F,G及びHのすべてについてシステム102が仕様を満たしているか否かについて検証を行うまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについてシステム102が仕様を満たしているか否かについて検証を行うことを繰り返す。検証部114は、ループ内のステップS142からS145までにおいて、ひとつの特定基本事象Xについてシステム102が仕様を満たしているか否かについて検証を行う。
検証部114は、続くステップS147において、特定事象E,F,G及びHについて行った検証の結果をそれぞれ示す検証の結果132E,132F,132G及び132Hを出力する。検証の結果132E,132F,132G及び132Hの各々は、図1に図示される検証の結果132の例である。
続いて、ステップS142からS145までにおいて行われる、特定基本事象Xについての、システム102が仕様を満たしているか否かについての検証が説明される。
検証部114は、ステップS142において、特定基本事象Xについて定義された生成仕様を読み込む。
検証部114は、続くステップS143において、特定基本事象Xについて生成された検証データセットがシステム102に入力された際にシステム102により生成された出力130Pを読み込む。
検証部114は、続くステップS144において、特定基本事象Xについて生成された検証データセットを読み込む。
検証部114は、続くステップS145において、特定基本事象Xについてシステム102が仕様を満たしているか否かについて検証を行う。
検証部114は、読み込んだ出力130Pが読み込んだ生成仕様に含まれる目標値NTを達成している場合は、システム102が仕様を満たしていると判定する。また、検証部114は、システム102が仕様を満たしていると判定した場合は、特定基本事象Xについて出力する検証の結果に、システム102が仕様を満たしていることを示す情報「○」を含める。一方、検証部114は、読み込んだ出力130Pが読み込んだ生成仕様に含まれる目標値NTを達成していない場合は、システム102が仕様を満たしていないと判定する。また、検証部114は、システム102が仕様を満たしていないと判定した場合は、特定基本事象Xについて出力する検証の結果に、システム102が仕様を満たしていることを示す情報「×」を含める。
検証部114は、読み込んだ出力130Pに含まれる複数の認識結果602がそれぞれ複数の教師ラベルと一致するか否かを判定する。検証部114は、認識結果に含まれる最大の確率に対応づけられた数字が、認識結果が対応づけられたデータ番号と同じデータ番号に対応づけられた教師ラベルと一致する場合は、認識結果が教師ラベルと一致すると判定し、当該データ番号に対応づけられた画像により表現される手書き数字が正しく認識されたと判定する。一方、検証部114は、当該数字が当該教師ラベルと一致しない場合は、当該認識結果が当該教師ラベルと一致しないと判定し、当該手書き数字が誤認識されたと判定する。また、検証部114は、教師ラベルと一致する認識結果の数を示す認識数を算出する。また、検証部114は、算出した認識数を出力する。検証部114は、ステップS145を繰り返し実行することにより、特定基本事象E,F,G及びHについてそれぞれ認識数652E,652F,652G及び652Hを算出し、算出した認識数652E,652F,652G及び652Hを出力する。また、検証部114は、算出した認識数が目標値NT以上である場合は、システム102が仕様を満たしていると判定する。一方、検証部114は、算出した認識数が目標値NTより少ない場合は、システム102が仕様を満たしていないと判定する。
以下では、複数の認識数652E,652F,652G及び652Hが、それぞれ195241,395675,4186及び4060であるとする。
認識数652E,652F及び652Gは、それぞれ195241,395675及び4186である。また、目標値408E,408F及び408Gは、それぞれ190000,380000及び4134である。このため、特定基本事象E,F及びGについて生成された出力は、それぞれ目標値408E,408F及び408Gを達成している。したがって、検証部114は、システム102が仕様を満たしていることを示す情報「○」を検証の結果132E,132F及び132Gに含める。一方、認識数652Hは、4060である。また、目標値408Hは、4134である。このため、特定基本事象Hについて生成された出力は、目標値408Hを達成していない。したがって、検証部114は、システム102が仕様を満たしていないことを示す情報「×」を検証の結果132Hに含める。
1.13 特定事象の抽出結果の別例
図17は、実施の形態1のシステム検証装置に入力される特定事象の抽出結果の別例を図示する図である。
図17に図示される特定事象の抽出結果122Qは、図1に図示されるシステム102が人工知能を備える自動運転システムである場合の図1に図示される特定事象の抽出結果122の例となっている。
特定事象の抽出結果122Qは、「カメラが誤認識する」という特定事象Aを表すノード700A、「雪」という特定事象Bを表すノード700B、「雨」という特定事象Cを表すノード700C、「西日(逆行)」という特定事象Dを表すノード700D、「画像の一部が白飛びする」という特定基本事象Eを表すノード700E等の自動運転システムを検証するために必要な事象を表すノードを含む点で、図6に図示される特定事象の抽出結果122Pと相違する。
この他、特定事象の抽出結果122Qは、分岐のノード710,712,714及び716を含む。
2 実施の形態2
図18は、実施の形態2のシステム検証装置を図示するブロック図である。
図2は、実施の形態2のシステム検証装置に入力される入力情報の例を図示する図でもある。図3は、実施の形態2のシステム検証装置に入力される特定事象の抽出結果を図示する図でもある。図5は、実施の形態2のシステム検証装置に入力される特定事象の抽出結果に含まれる木構造の例を図示する図でもある。図6は、実施の形態2のシステム検証装置に入力される特定事象の抽出結果の例を図示する図でもある。図7は、実施の形態2のシステム検証装置に備えられる定義部の動作の流れを図示するフローチャートでもある。図8は、実施の形態2のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図でもある。図9は、実施の形態2の検証システムにおいてベルヌーイ試行の区間推定が用いられる場合に仮定される認識率の分布を表すグラフを図示する図でもある。図10は、実施の形態2のシステム検証装置に入力される検証用基データの例を図示する図でもある。図11及び図12は、実施の形態2のシステム検証装置に備えられる生成部の動作の流れを図示するフローチャートでもある。図13は、実施の形態2のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図でもある。図14は、実施の形態2のシステム検証装置により検証されるシステムにより生成される出力の例を図示する図でもある。図16は、実施の形態2のシステム検証装置に備えられる検証部により出力される検証の結果を図示する図でもある。
図18に図示される実施の形態2のシステム検証装置750は、特定基本事象Xについて決定された検証方法が統計的検証であり、特定基本事象Xについて行われた検証においてシステム102が仕様を満たしていないと判定された場合に、データ数N’が増加させられる点で、実施の形態1のシステム検証装置100と相違する。
以下では、上記の相違に関連して実施の形態2のシステム検証装置750において採用された構成が説明される。説明されない点については、実施の形態1のシステム検証装置100において採用された構成が、実施の形態2のシステム検証装置750においても採用される。
システム検証装置750に備えられる検証部114は、特定基本事象Xについて定義された生成仕様に含まれる検証方法が統計的検証であり、特定基本事象Xについて行った検証においてシステム102が仕様を満たしていないと判定した場合に、特定基本事象Xについて行った検証においてシステム102が仕様を満たしていないことを示す情報を定義部110に入力する。
システム検証装置750に備えられる定義部110は、特定基本事象Xについて行った検証においてシステム102が仕様を満たしていないことを示す情報が入力された場合に、特定基本事象Xについて定義する生成仕様に含まれるデータ数N’を増加させる。
図19及び図20は、実施の形態2のシステム検証装置に備えられる検証部及び定義部の動作の流れを図示するフローチャートである。
検証部114は、図19に図示されるステップS161からS171までのループにおいて、特定基本事象E,F,G及びHのすべてについて更新要求のための処理を行うまで、特定基本事象E,F,G及びHに含まれるひとつの特定基本事象Xについて更新要求のための処理を行うことを繰り返す。検証部114は、ループ内のステップS162からS170までにおいて、ひとつの特定基本事象Xについて更新要求のための処理を行う。
検証部114は、ステップS162からS165までにおいて、それぞれ図15に図示されるステップS142からS146までにおいて行われる処理と同様の処理を行う。
検証部114は、続くステップS166において、特定基本事象Xについて定義された生成仕様に含まれる検証方法が統計的手法であるか否かを判定する。検証部114は、検証方法が統計的手法であると判定した場合は、ステップS167においてさらに処理を行う。検証部114は、検証方法が全数検証であると判定した場合は、さらに処理を行うことなく更新要求のための処理を終了する。
検証部114は、続くステップS167において、特定基本事象Xについて算出された認識数が特定基本事象Xについて定義された生成仕様に含まれる目標値NTより少ないか否かを判定する。これにより、検証部114は、特定基本事象Xについて行われた検証においてシステム102が仕様を満たしているか否かを判定する。検証部114は、認識数が目標値NTより少ない場合は、ステップS168においてさらに処理を行う。検証部114は、認識数が目標値NT以上である場合は、さらに処理を行うことなく更新要求のための処理を終了する。
検証部114は、ステップS168において、特定基本事象Xについて算出された認識数が、特定基本事象Xについて算出された許容認識数NP以上であるか否かを判定する。許容認識数は、目標値NTより少ない数であり、式(30)により表される。以下では、ζが0.02であるとする。
Figure 0006952902
これにより、検証部114は、特定基本事象Xについて生成された出力が、目標値NTにより定義される仕様より緩やかな、許容認識数NPにより定義される許容条件を満たすか否かを判定する。
検証部114は、認識数が許容認識数NP以上である場合は、ステップS169においてさらに処理を行う。検証部114は、認識数が許容認識数NPより小さい場合は、さらに処理を行うことなく更新要求のための処理を終了する。
検証部114は、ステップS169において、区間推定において考慮される誤差εから設定値ηを減じることにより得られる更新後の誤差εが0より大きいか否かを判定する。更新後の誤差εは、式(31)により算出される。以下では、ηが0.005であるとする。
Figure 0006952902
検証部114は、更新後の誤差が0より大きい場合は、ステップS170において誤差εを更新することを定義部110に要求してから更新要求のための処理を終了する。一方、検証部114は、更新後の誤差が0以下である場合は、さらに処理を行うことなく更新要求のための処理を終了する。
したがって、更新要求のための処理においては、下記の条件1から4までが満たされる場合に、誤差εを更新することが要求される。
条件1:検証方法が統計的検証である。
条件2:認識数が目標値NTより少ない。
条件3:認識数が許容認識数NP以上である。
条件4:更新後の誤差εが0より大きい。
例えば、図8に図示されるように目標値408Hが4134であり、図16に図示されるように認識数652Hが4060である場合は、許容認識数NPが3994となり、更新後の誤差εが0.020となる。したがって、条件1から4までが満たされ、誤差εを更新することが要求される。
ステップS172においては、特定基本事象E,F,G及びHのすべてについて誤差εを更新することが要求されなかったか否かが判定される。
特定基本事象E,F,G及びHのすべてについて誤差εを更新することが要求されなかったと判定された場合は、検証部114が、ステップS173において、検証の結果132E,132F,132G及び132Hを出力する。
一方、特定基本事象E,F,G及びHのいずれかについて誤差εを更新することが要求されたと判定された場合は、定義部110が、ステップS174において、誤差εを更新することが要求された特定基本事象について誤差εを更新し、続くステップS175において、誤差εを更新することが要求された特定基本事象について更新後の誤差εを用いて生成仕様を新たに定義する。これにより、定義部110は、システム102が仕様を満たさないが許容条件を満たし、誤差εから設定値ηを減じることにより得られる更新後の誤差εが0より大きい場合に、誤差εを更新後の誤差εに更新することによりデータ数N’を増加させる。
図21は、実施の形態2の検証システムにおいて算出される認識率の分布の例を表すグラフを図示する図である。
図21に図示されるグラフ800には、誤差εが0.025である場合の認識率の分布810、及び誤差εが0.020である場合の認識率の分布812が表される。認識率の分布810及び812のいずれからも、認識率が95%であることを99%以上の信頼度で区間推定により推定することができる。誤差εが0.020である場合は、検証データセットに含めるデータ数nは、式(27)により、6623以上となる。したがって、データ数N’は、6623である。また、式(29)より、更新後の誤差εに基づいて定義される生成仕様に含まれるデータ数N’は、6425であり、6623より増加させられている。
図22は、実施の形態2のシステム検証装置に備えられる定義部により定義される生成仕様の例を図示する図である。図23は、実施の形態2のシステム検証装置に備えられる生成部により生成される検証データセットの例を図示する図である。図24は、実施の形態2のシステム検証装置に備えられる検証部により出力される検証の結果の例を図示する図である。
図22に図示される生成仕様124Sは、更新後の誤差εに基づいて定義された更新後の生成仕様である。図23に図示される検証データセット128Sは、更新後の生成仕様124Sに基づいて生成された更新後の検証データセットである。図24に図示される検証の結果132Sは、更新後の検証データセット128Sがシステム102に入力された場合に検証部114により出力される検証の結果である。検証の結果132Sは、誤差εの更新により、システム102が仕様を満たすことを示す情報「○」を含む。このような検証の結果132Sが得られるのは、認識数652Sが6533であり、認識数652Sが目標値408S以上であるためである。
なお、本発明は、その発明の範囲内において、実施の形態を適宜、変形、省略することが可能である。
この発明は詳細に説明されたが、上記した説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
100,750 システム検証装置、102 システム、110 定義部、112 生成部、114 検証部、120,120P 入力情報、122,122P,122Q 特定事象の抽出結果、124,124E,124F,124G,124H,124S 生成仕様、126,126P 検証用基データ、128,128E,128F,128G,128H,128S 検証データセット、130,130P 出力、132,132E,132F,132G,132H,132S 検証の結果、200,250,300,350 木構造、210A,210B,210C,210D,210E,270,272,274,320,322,360A,360B,360C,360D,360E,360F,360G,360H,700A,700B,700C,700D,700E ノード、220,222,260,310,370,372,374,376、710、712,714,716 分岐のゲート。

Claims (14)

  1. システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する定義部と、
    前記生成仕様に基づいて検証データセットを生成する生成部と、
    前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う検証部と、
    を備え、
    前記定義部は、作成可能な検証データの数を示す作成可能データ数を決定し、前記作成可能データ数が最大データ数より多い場合は、前記作成可能な検証データの全部を前記検証データセットに含めたときに行われる検証の結果を区間推定により設定信頼度以上で推定可能な検証データの数を示すデータ数を決定し、前記データ数を前記生成仕様に含める
    システム検証装置。
  2. システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する定義部と、
    前記生成仕様に基づいて検証データセットを生成する生成部と、
    前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う検証部と、
    を備え、
    前記システムは、認識システムであり、
    前記出力は、複数の認識結果を含み、
    前記検証部は、前記複数の認識結果がそれぞれ複数の教師ラベルと一致するか否かを判定し、教師ラベルと一致する認識結果の数を示す認識数を算出し、前記認識数が目標値以上である場合は、前記認識システムが前記仕様を満たしていると判定し、前記認識数が前記目標値より少ない場合は、前記認識システムが前記仕様を満たしていないと判定する
    システム検証装置。
  3. 前記抽出結果は、前記特定事象が発生する原因となる複数の特定基本事象を表す情報を含み、
    前記定義部は、前記複数の特定基本事象に含まれる各特定基本事象について前記生成仕様を定義する
    請求項1又は2に記載のシステム検証装置。
  4. 前記抽出結果は、木構造を含み、
    前記木構造は、
    複数の事象をそれぞれ表す複数のノードと、
    前記複数のノードに含まれ上位事象を表す上位ノードに、前記複数のノードに含まれ前記上位事象が発生する原因となる下位事象を表す下位ノードを連結する分岐のゲートと、
    を含み、
    前記複数のノードは、
    前記特定事象を表す内部ノードと、
    前記複数の特定基本事象をそれぞれ表す複数の葉ノードと、
    を含む
    請求項に記載のシステム検証装置。
  5. 前記抽出結果は、前記各特定基本事象について定義された加工条件をさらに含み、
    前記定義部は、前記加工条件を前記生成仕様に含め、
    前記生成部は、前記加工条件にしたがって検証用基データを加工することにより前記検証データセットを生成する
    請求項又はに記載のシステム検証装置。
  6. 前記システムは、認識システムであり、
    前記抽出結果は、前記各特定基本事象について定義された基本誤認識率をさらに含み、
    前記定義部は、前記基本誤認識率を用いて目標値を決定し、前記目標値を前記生成仕様に含め、
    前記検証部は、前記出力が前記目標値を達成している場合は、前記認識システムが前記仕様を満たしていると判定し、前記出力が前記目標値を達成していない場合は、前記システムが前記仕様を満たしていないと判定する
    請求項からまでのいずれか一項に記載のシステム検証装置。
  7. 前記システムは、認識システムであり、
    前記抽出結果は、
    前記特定事象について定義された発生確率と、
    前記特定事象について定義された誤認識率と、
    前記各特定基本事象について定義された発生確率と、
    をさらに含む
    請求項からまでのいずれか一項に記載のシステム検証装置。
  8. 前記生成部は、前記作成可能データ数が前記最大データ数より多い場合は、前記作成可能な検証データからランダムに選択された検証データを前記検証データセットに含める
    請求項に記載のシステム検証装置。
  9. 前記生成仕様は、複数の加工方法を含み、
    前記生成部は、検証用基データに含まれる複数のデータからデータをランダムに選択し、前記複数の加工方法から加工方法をランダムに選択し、前記加工方法にしたがって前記データを加工することにより前記検証データセットを作成する
    請求項に記載のシステム検証装置。
  10. 前記定義部は、前記システムが前記仕様を満たさないが前記仕様より緩やかな許容条件を満たす場合に、前記データ数を増加させる
    請求項又はのいずれか一項に記載のシステム検証装置。
  11. 前記区間推定は、誤差を考慮し、
    前記定義部は、前記システムが前記仕様を満たさないが前記仕様より緩やかな許容条件を満たし、前記誤差から設定値を減じることにより得られる更新後の誤差が0より大きい場合に、前記誤差を前記更新後の誤差に更新することにより前記データ数を増加させる
    請求項10に記載のシステム検証装置。
  12. 前記定義部は、前記検証データセットに含まれる検証データの属性を含む入力情報に基づいて前記生成仕様を定義する
    請求項1から11までのいずれか一項に記載のシステム検証装置。
  13. システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する工程と、
    前記生成仕様に基づいて検証データセットを生成する工程と、
    前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う工程と、
    を備え、
    前記生成仕様を定義する工程において、作成可能な検証データの数を示す作成可能データ数を決定し、前記作成可能データ数が最大データ数より多い場合は、前記作成可能な検証データの全部を前記検証データセットに含めたときに行われる検証の結果を区間推定により設定信頼度以上で推定可能な検証データの数を示すデータ数を決定し、前記データ数を前記生成仕様に含める
    システム検証方法。
  14. システムにより望ましくない出力が生成される原因となる特定事象の抽出結果に基づいて生成仕様を定義する工程と、
    前記生成仕様に基づいて検証データセットを生成する工程と、
    前記検証データセット、及び前記検証データセットが前記システムに入力された場合に前記システムにより生成される出力に基づいて前記システムが仕様を満たしているか否かについて検証を行う工程と、
    を備え、
    前記システムは、認識システムであり、
    前記出力は、複数の認識結果を含み、
    前記検証を行う工程において、前記複数の認識結果がそれぞれ複数の教師ラベルと一致するか否かを判定し、教師ラベルと一致する認識結果の数を示す認識数を算出し、前記認識数が目標値以上である場合は、前記認識システムが前記仕様を満たしていると判定し、前記認識数が前記目標値より少ない場合は、前記認識システムが前記仕様を満たしていないと判定する
    システム検証方法。
JP2020531835A 2018-07-23 2018-07-23 システム検証装置及びシステム検証方法 Active JP6952902B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/027420 WO2020021586A1 (ja) 2018-07-23 2018-07-23 システム検証装置及びシステム検証方法

Publications (2)

Publication Number Publication Date
JPWO2020021586A1 JPWO2020021586A1 (ja) 2021-01-07
JP6952902B2 true JP6952902B2 (ja) 2021-10-27

Family

ID=69181392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020531835A Active JP6952902B2 (ja) 2018-07-23 2018-07-23 システム検証装置及びシステム検証方法

Country Status (2)

Country Link
JP (1) JP6952902B2 (ja)
WO (1) WO2020021586A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184232A (ja) * 1999-12-27 2001-07-06 Toshiba Corp ソフトウェアテストケース評価装置、ソフトウェア故障木装置、ソフトウェアハザード装置、およびソフトウェア振舞い記述装置
JP2002366387A (ja) * 2001-06-13 2002-12-20 Hitachi Ltd ソフトウェアプログラムの自動テストシステム
JP2004280231A (ja) * 2003-03-13 2004-10-07 Fujitsu Ltd ソフトウエアの検証方法
JP2005332098A (ja) * 2004-05-19 2005-12-02 Nec Corp テスト項目抽出システム、テスト項目抽出装置、及びそれに用いるテスト項目抽出方法並びにそのプログラム
JP5140691B2 (ja) * 2010-03-09 2013-02-06 みずほ情報総研株式会社 結合テストシステム、結合テスト方法及び結合テストプログラム
JP6497058B2 (ja) * 2014-12-17 2019-04-10 富士通株式会社 ソフトウェア動作検証プログラム、ソフトウェア動作検証方法、及び、ソフトウェア動作検証装置
JP6623110B2 (ja) * 2016-04-05 2019-12-18 日本電信電話株式会社 訓練画像選択装置、方法、及びプログラム

Also Published As

Publication number Publication date
WO2020021586A1 (ja) 2020-01-30
JPWO2020021586A1 (ja) 2021-01-07

Similar Documents

Publication Publication Date Title
CN107408209B (zh) 用于在半导体工艺中进行缺陷分类的系统和方法
CN108009628B (zh) 一种基于生成对抗网络的异常检测方法
Baró et al. Traffic sign recognition using evolutionary adaboost detection and forest-ECOC classification
US20080075367A1 (en) Object Detection and Recognition System
JP6258560B2 (ja) ニューラルネットワークの学習装置及び学習方法
JP7117934B2 (ja) 画像分類装置及びプログラム
CN113825978B (zh) 用于定义路径的方法和设备、存储装置
US20210216831A1 (en) Efficient Machine Learning (ML) Model for Classification
JP7298223B2 (ja) 画像処理装置及びプログラム
JP7276488B2 (ja) 推定プログラム、推定方法、情報処理装置、再学習プログラムおよび再学習方法
US20210097673A1 (en) Root cause analysis for fabrication processes of semiconductor structures
KR102073361B1 (ko) 뉴럴 네트워크 모델 기반의 웨이퍼 불량 패턴 인식 방법 및 이를 위한 컴퓨터 프로그램
Wu et al. Metagcd: Learning to continually learn in generalized category discovery
JP6952902B2 (ja) システム検証装置及びシステム検証方法
Haase-Schütz et al. Iterative label improvement: Robust training by confidence based filtering and dataset partitioning
JP4121061B2 (ja) 類識別装置及び類識別方法
JP3095069B2 (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
KR20200053254A (ko) 센서 고장 검출 방법 및 센서 고장 검출 장치
US20220012531A1 (en) Method for configuring an image evaluation device and also image evaluation method and image evaluation device
Bozinov Autonomous system for web-based microarray image analysis
US20190361921A1 (en) Method of classifying information, and classification processor
Comas et al. Label-based Type-2 Fuzzy Predicate Classification applied to the design of morphological W-operators for image processing
CN117313900B (zh) 用于数据处理的方法、设备和介质
US20230367849A1 (en) Entropy exclusion of training data for an embedding network
KR102491451B1 (ko) 심층 신경망 기반의 악성코드 탐지 분류체계의 유사도를 반영하는 시그니처 생성 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210928

R150 Certificate of patent or registration of utility model

Ref document number: 6952902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150