JP7460582B2

JP7460582B2 - 学習装置、学習方法、学習プログラム、及び脆弱性テスト装置

Info

Publication number: JP7460582B2
Application number: JP2021133027A
Authority: JP
Inventors: 健人長谷川; 清良披田野; 和英福島
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-04-02
Anticipated expiration: 2041-08-17
Also published as: JP2023027717A

Description

本発明は、Ｗｅｂサイトの反射型クロスサイトスクリプティング脆弱性をテストするために用いるテスト文字列を効率的に生成するための方策を学習するための学習装置、学習方法、学習プログラム、及び脆弱性テスト装置に関する。

インターネットが広く一般に利用されるようになっている。Ｗｅｂサイトにおいてもユーザの利便性を向上させるため様々な技術が利用されており、例えばユーザからの入力を受け付けて動的にページを出力する機能は様々なＷｅｂサイトで実装されている。こうした背景のもと、セキュリティの観点から、Ｗｅｂサイトの機能を悪用して攻撃される危険性が指摘されている。特に、外部からの入力を受け付けて動的にページを出力する機能を悪用し、攻撃者が任意のスクリプトをＷｅｂサイトに注入することで、Ｗｅｂサイトの利用者に意図せず攻撃者のスクリプトを実行させる攻撃が成立する場合がある。このような攻撃が成立してしまう脆弱性はクロスサイトスクリプティング（ＸＳＳ）と呼ばれており、近年報告されているＷｅｂサイト脆弱性の中でも多数を占めている。

ＸＳＳ脆弱性はその特徴から反射型、格納型、及びＤＯＭベースの３つの類型に大別される。中でも反射型ＸＳＳ脆弱性は、外部からの入力を即時的にページに出力する機能において見られる脆弱性であり、最も一般的なＸＳＳ脆弱性である。

ＸＳＳ脆弱性は、Ｗｅｂサイトにおいて外部からの入力値を確認し、スクリプトなど不正な文字列を無効化する処理、例えばサニタイジングなどにより対策することができる。Ｗｅｂサイト管理者は、利用者への不測の攻撃を防ぐため、Ｗｅｂサイトを公開する前にＸＳＳ脆弱性を排除することが求められる。その方法の一つがテストツールを利用した脆弱性の検知である。既存のテストツールにおいては、予め定義された脆弱性を検知するための文字列であるテスト文字列のリストをＷｅｂサイトに対して総当たり的に試行する方法、予め定義された条件に従ってＷｅｂサイトに対してテスト文字列を試行する方法等が採用されている。

非特許文献１では、Ｈｕｍａｎ－ｉｎ－ｔｈｅ－ｌｏｏｐと呼ばれる人間参加型の機械学習システムを活用することで、人間の知識を組み込んだ強化学習に基づく反射型ＸＳＳ脆弱性検知のフレームワークを提案している。そのフレームワークにおいて、学習フェーズでは、既知のテスト文字列を構成する方法を、人間の知識を基に強化学習のＱ学習をアルゴリズムとして用いて学習する。テストフェーズでは、Ｑ学習で学習したエージェントを用いて、テスト対象のＷｅｂサイトへ入力するためのテスト文字列を構成する。

F. Caturano et al., "Discovering reflected cross-site scripting vulnerabilities using a multiobjective reinforcement learning environment," Computers & Security, Volume 103, April, 2021

しかしながら、非特許文献１が提案するフレームワークによるテストでは、Ｈｕｍａｎ－ｉｎ－ｔｈｅ－ｌｏｏｐを前提として手法を設計しているため、テストを実施するユーザに高度な専門的知識が要求され、そのためのユーザの負担が過大となりがちであるという課題があった。

また、複雑なＷｅｂサイトにおける厖大な入力変数を考慮すると、テストにおけるＷｅｂサイトへのリクエスト数も多数必要となる。前記のように、一般的な既存のテストツールには、用意されたリストをもとに総当たり的に対象Ｗｅｂサイトへの入力を試行するものもある。そのため、これらの従来手法ではテスト対象となるＷｅｂサイトへの負担も大きくなるという課題があった。

本発明の目的の一つは、強化学習を用いて、Ｗｅｂサイトの反射型クロスサイトスクリプティング脆弱性をテストするためのテスト文字列を、自動的に、かつ効率的に生成すること、またできるだけ少ない回数でのテスト文字列の試行を可能とする学習装置、学習方法及び学習プログラムを提供することである。本発明の他の目的は、前記学習装置によって求められた方策により自動的に、かつ効率的に生成したテスト文字列によりＷｅｂサイトの反射型クロスサイトスクリプティング脆弱性をテストすることができる脆弱性テスト装置を提供することである。

本発明の一つの態様に係る学習装置は、Ｗｅｂサイトの脆弱性テストに利用される既知のテスト文字列を受け付け、前記テスト文字列を、当該テスト文字列を構成している構成単位に基づいて複数のセクションに分解し、前記テスト文字列の文法構造に基づいて当該テスト文字列について複数の状態を設定するとともに、当該複数の状態について、実行型の構成単位が実行可能である状態を基準として文法構造上どれだけ離れているかに基づいて複数の状態種別を設定し、各前記セクションについて、１のセクション又は複数のセクションの組に対応している前記構成単位にある文字列を、他の文字列で置き換える操作としての行動種別を設定し、当該行動種別とそれに該当する前記セクションに関して前記文字列を置き換える操作との組み合わせとして行動を設定し、前記状態種別に基づいて、前記テスト文字列に対していずれかの前記行動を実行することによって遷移した前記テスト文字列の状態が、実行型の構成単位が実行可能である状態からどれだけ離れているかに応じて報酬の値を設定し、強化学習アルゴリズムのエージェントを用いて、いずれかの前記行動を実行した前記テスト文字列を所定のＷｅｂサイトに与え、その状態を観測して前記報酬を受け取る処理を繰り返すことにより、反射型クロスサイトスクリプティング脆弱性を検知するためのテスト文字列を構成するのに適した方策を学習するように構成されている学習部を備えている。

前記セクションが、前記テスト文字列における、先頭の構成単位、実行型の構成単位、実行型の構成単位の直前、直後の構成単位の４つの部分を含み、前記行動として、前記テスト文字列に含まれているすべての構成単位を用いて、前記テスト文字列における前記４つの部分に対応する構成単位の文字列を置き換える４種の行動が設定され、前記４種の行動のいずれかをランダムに選択して前記テスト文字列に適用して得られた文字列を前記所定のＷｅｂサイトに与えてその状態を観測し、前記実行型の構成単位が実行されうる状態に到達するための前記行動の適用回数が多いほど前記エージェントに与えられる報酬が小となるように設定されているとしてもよい。

前記行動は、各前記構成単位の文字列の表記を他の表記に変換する操作を含むとしてもよい。

前記文字列の前記構成単位は、ハイパーテキストマークアップ言語（ＨＴＭＬ）における文法上の構成単位であるとしてもよい。

本発明の他の態様に係る学習方法は、情報処理装置が、Ｗｅｂサイトの脆弱性テストに利用される既知のテスト文字列を受け付け、前記テスト文字列を、当該テスト文字列を構成している構成単位に基づいて複数のセクションに分解し、前記テスト文字列の文法構造に基づいて当該テスト文字列について複数の状態を設定するとともに、当該複数の状態について、実行型の構成単位が実行可能である状態を基準として文法構造上どれだけ離れているかに基づいて複数の状態種別を設定し、各前記セクションについて、１のセクション又は複数のセクションの組に対応している前記構成単位にある文字列を、他の文字列で置き換える操作としての行動種別を設定し、当該行動種別とそれに該当する前記セクションに関して前記文字列を置き換える操作との組み合わせとして行動を設定し、前記状態種別に基づいて、前記テスト文字列に対していずれかの前記行動を実行することによって遷移した前記テスト文字列の状態が、実行型の構成単位が実行可能である状態からどれだけ離れているかに応じて報酬の値を設定し、強化学習アルゴリズムのエージェントを用いて、いずれかの前記行動を実行した前記テスト文字列を所定のＷｅｂサイトに与え、その状態を観測して前記報酬を受け取る処理を繰り返すことにより、反射型クロスサイトスクリプティング脆弱性を検知するためのテスト文字列を構成するのに適した方策を学習する処理を実行する。

本発明の他の態様に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。

本発明のさらに他の態様は、学習装置によって求められた前記方策を用いてテスト対象であるＷｅｂサイトにリクエストとして与える文字列であるテスト文字列を構成するためのテスト実行部であって、任意の実行型の構成単位を受け取り、前記方策に従って選択した前記行動を前記実行型の構成単位に適用して前記テスト文字列を構成し、当該テスト文字列をテスト対象である前記Ｗｅｂサイトに与えてその状態を観測し、当該出力に含まれる文字列が前記実行型の構成単位が実行されうる状態となるまで前記方策に従って前記行動を当該出力文字列に適用し、前記実行型の構成単位が実行されうる状態となったテスト文字列を前記Ｗｅｂサイトにリクエストとして与え、前記実行型の構成単位が実行されたと判定した場合、前記Ｗｅｂサイトに脆弱性があると判定してその判定結果を出力するように構成されているテスト実行部を備えている脆弱性テスト装置である。

前記テスト実行部が、テスト対象である前記Ｗｅｂサイトに任意の文字列をリクエストとして入力し、そのリクエストに対するレスポンス中でリクエストした文字列が反映される位置である反射位置に前記テスト文字列を適用してその結果を観測し、前記方策に従って前記行動を適用する処理を前記文字列が実行可能な状態となるまで繰り返し、前記実行可能な状態となった前記テスト文字列を前記Ｗｅｂサイトにリクエストとして与えるように構成してもよい。

本発明によれば、強化学習を用いて、Ｗｅｂサイトの反射型クロスサイトスクリプティング脆弱性をテストするためのテスト文字列を、自動的に、かつ効率的に生成することが可能となる。また本発明によれば、前記学習装置によって求められた方策により自動的に、かつ効率的に生成されるテスト文字列によりＷｅｂサイトの脆弱性をテストすることができる。

本発明の一実施形態における脆弱性テスト装置、Ｗｅｂサーバ、及びクライアントコンピュータを含むネットワークの概略構成を例示する図である。本発明の一実施形態における脆弱性テスト装置の機能構成を例示する図である。一実施形態における学習部によるデータ処理例を示すフローチャートである。一実施形態におけるテスト実行部によるデータ処理例を示すフローチャートである。一実施形態におけるテスト実行部による他のデータ処理例を示すフローチャートである。

以下、本発明について、その実施形態に即して添付図面を参照しながら説明する。本実施形態は、Ｗｅｂサイトを対象としてテストを実行し、当該Ｗｅｂサイトに反射型クロスサイトスクリプティング（以下、「反射型ＸＳＳ」と略称する）の脆弱性を存在するか否かを判定するための脆弱性テスト装置である。

図１に、Ｗｅｂサーバが接続されたネットワークと、そのネットワーク上での本実施形態による脆弱性テスト装置（以下「テスト装置」と略称する）のテスト実行環境を模式的に例示している。
図１の例では、テスト装置１と、Ｗｅｂサーバ２と、ユーザコンピュータ３とがネットワーク４を介して相互に通信可能に接続されている。Ｗｅｂサーバ２は、通信機能を備えた一般的なコンピュータの構成を備え、ユーザコンピュータ３からのリクエストに応じて情報や機能を提供するための、Ｗｅｂページデータを作成するソフトウェアが実装されている。ユーザコンピュータ３は、Ｗｅｂサーバ２と同じく通信機能を備えた一般的なコンピュータの構成を備え、Ｗｅｂサーバ２にリクエストを送信し、そのリクエストに対応する情報や機能を受領する。ユーザコンピュータ３には、受信したＷｅｂページデータを解釈して出力する機能を有するＷｅｂブラウザソフトウェアが実装される。Ｗｅｂブラウザでユーザコンピュータ３のディスプレイに描画されるＷｅｂページの集合が、いわゆるＷｅｂサイトである。

Ｗｅｂサイトを構成するＷｅｂページは、一般にＨＴＭＬ（HyperText Markup Language）に代表されるマークアップ言語で記述される。本実施形態でテストの対象とされるＷｅｂサイトは、アクティブにコンテンツを変化させるべくＵＲＬに付与されるパラメータであるＵＲＬパラメータ、又はクライアントからサーバへデータを送信するのに用いられるＰＯＳＴメソッド等の手段によりユーザコンピュータ３からの入力（リクエスト）を受け取り、そのリクエストの内容を用いた出力（レスポンス）をユーザに返す機能を備えたものである。なお、テスト装置１の構成、機能については後述する。
ここでは、マークアップ言語で記述される文字列のうち、構文解析上意味を持つ最小単位（構成単位）の文字列をトークンと呼ぶこととする。またトークン化された文字列が、マークアップ言語の構文解析において対応する状態を、トークン状態と呼ぶこととする。

本実施形態によるテスト装置１が対象としている反射型クロスサイトスクリプティング（ＸＳＳ）は、ユーザコンピュータ３からＷｅｂサーバ２に入力された文字列の一部を含めて返されるレスポンスを用いてユーザコンピュータ３においてＷｅｂサイトを描画する際、入力された文字列に含まれるスクリプトが出力される種類の脆弱性である。Ｗｅｂサイトに存在する反射型ＸＳＳの脆弱性を悪用することで、攻撃者は任意のスクリプト（以下「ペイロード」と呼ぶ）をユーザコンピュータ３に実行させることが可能となる。具体的には、ユーザコンピュータ３からの入力内容がＷｅｂサイトに出力される位置に応じて、ペイロードの前後に文字列を追加することで、ペイロードは実行可能とされる。ペイロードの前後に文字列を追加した入力文字列をテスト文字列と呼ぶこととする。本発明では、後述する行動により、テスト文字列を再構成することで、ペイロードが実行可能となるテスト文字列を生成するための方策を学習する。

図２に、本実施形態によるテスト装置１の構成例を示している。テスト装置１は、サーバ又はパーソナルコンピュータなどの情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイスなどを備える。
制御部１０は、テスト装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態におけるテスト装置１の各機能を実現する。制御部１０は、ＣＰＵ等のプロセッサであってよい。

記憶部２０は、ハードウェア群をテスト装置１として機能させるための各種プログラム、及び各種データなどの記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスク（ＨＤＤ）などであってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（学習プログラム、テスト実行プログラム）、各種パラメータ、構成されたテスト文字列などを記憶する。

制御部１０は、学習部１１と、テスト実行部１２と、データ入出力部１３とを備える。
学習部１１は、強化学習アルゴリズムのエージェントを用いて、テスト文字列の状態と、ある行動を選択、実行することにより遷移したテスト文字列の状態、及びその状態により定まる報酬とに基づいて、反射型ＸＳＳのテスト文字列を構成するための最適な行動を学習する。学習部１１は、既知の反射型ＸＳＳにおけるテスト文字列を複数のセクションに分解して扱い、強化学習アルゴリズムにおける状態、行動、及び報酬を以下のように設定する。
状態については、テスト文字列の文法構造、例えばマークアップ言語の仕様に基づくテスト文字列の構成単位の状態、またはそれをもとに独自に定義された状態などを用いて設定される。この状態についてはさらに、エージェントの行動に対する報酬を設定する際に使用される状態種別が定義され、状態種別により各状態は分類される。具体的には、テスト文字列の状態が、テスト文字列に含まれている実行型の構成単位が実行可能な状態からどれくらい離れているかに基づいて、状態種別が定義される。行動については、まず、テスト文字列の各前記セクションについて、１つのセクション又は複数のセクションの組に対してその文字列を他の文字列で置き換える操作を行動種別として設定する。行動は、各行動種別と、各行動種別に該当するセクションに関して実際に置き換えられる文字列又は変換操作の組み合わせとして設定される。報酬については、前記状態種別に基づいて、いずれかの前記行動を通じて遷移したテスト文字列の状態が、含まれる実行型の構成単位が実行可能な状態からどのくらい離れているかに応じて、複数の対応する値を設定する。なお、状態、行動、及び報酬の詳細については、後述する。

テスト実行部１２は、学習部１１により強化学習を通じて学習済みのエージェントを用いて、テスト対象となるＷｅｂサイトに対して、構成したテスト文字列のリクエストを試行する。テスト実行部１２は、リクエストに対するレスポンスの観測を通じて、反射型ＸＳＳ攻撃が成立したか否かを判定する。

データ入出力部１３は、学習部１１、テスト実行部１２と、記憶部２０、あるいはネットワークを通じた外部装置との間のデータ送受信処理等を行う。具体的には、データ入出力部１３は、例えば記憶部２０、入力デバイスあるいは外部装置から学習部１１への既知のテスト文字列データ、及び各種設定パラメータの取り込み、学習部１１での強化学習アルゴリズムにより生成された学習済みエージェントの記憶部２０への格納、学習部１１から学習済みエージェントの記憶部２０からの読み出し及びテスト実行部１２への転送、学習部１１及びテスト実行部１２とＷｅｂサイトとの間でのテスト文字列の入出力、テスト実行部１２で生成されたテスト文字列の記憶部２０への格納、テスト実行部１２で得られた反射型ＸＳＳ脆弱性テスト結果の出力デバイス等への出力等の処理を行う。
なお、本実施形態のテスト装置１は、自動的に、かつ効率的にテスト文字列を生成するための方策を強化学習のプロセスによって求める学習フェーズを実行する学習装置と、前記学習装置によって求められた方策に従って学習済みのエージェントにより自動的に、かつ効率的にテスト文字列を生成してそれを用いたＷｅｂサイトの脆弱性テストを実行するテスト実行装置とに区分して構成することもできる。

次に、学習部１１において実行される、本実施形態による強化学習のプロセスについて詳細に説明する。
知られているように、強化学習は、ある環境に置かれたエージェントが環境の状態を観測し、行動を選択することで、得られる報酬の合計を最大化するような方策を求めるアルゴリズムである。強化学習のアルゴリズムについては、例えば、C. Szepesvari, “Algorithms for Reinforcement Learning,” https://sites.ualberta.ca
/~szepesva/papers/RLAlgsInMDPs.pdfに記載されている。
強化学習では、マルコフ決定過程を仮定する。マルコフ決定過程は、離散時間における確率制御過程である。その過程は、各時刻においてある状態を取り、意思決定者はその状態において利用可能な行動を任意に選択する。行動選択により過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬を受け取る。本実施形態では、テスト文字列中において、ペイロードが配置されている位置が状態として観測される。行動は、そのテスト文字列に含まれるトークン（構成単位）の文字列を他の文字列によって上書きする操作として定義される。また報酬は、ある状態にあるテスト文字列に対してランダムに選択された行動を実行した結果として観測されるテスト文字列の遷移後の状態に応じて決定される。なお、ペイロードは一般的に、「実行型の構成単位」と定義することもできる。
マルコフ決定過程は、４つの要素の組、(S,A,T,r)で表される。ただし、Sは状態空間、Aは行動空間、Tは状態遷移確率関数T:S×A×S→[0,1]、rは即時報酬関数r:S×A→Rである。ある状態s∈Sにおいてエージェントが出力する行動の確率分布π(・|s)を方策と呼ぶ。時刻tに受け取る報酬をr_tとすると、強化学習アルゴリズムでは、数式(1)で表される割引累積報酬の期待値を最大化することで、テスト文字列を自動的に、かつ効率的に生成するための最適な方策πを求めることができる。

…（１）
ただし、γ^tは累積報酬が発散しないように設定される、時刻tにおける割引率である。
また、強化学習においては、エージェントがある行動を実行することをステップという単位で表し、ある過程が終端状態に到達するまでの一連のステップをエピソードと呼ぶ。

具体的に、本実施形態による学習部１１が実行する強化学習アルゴリズムにおける環境の設定、すなわち状態、行動、及び報酬は、例えば以下のように定義される。
（１）状態
本実施形態による強化学習において環境が取り得る状態は、テスト文字列中でペイロードが現れる位置を表す。すなわち、本実施形態においての状態は、マークアップ言語の仕様（例えば、”HTML Living Standard”, https://html.spec.whatwg.org/を参照されたい。）に基づくトークン状態、又はそのトークン状態をもとに独自に定義された状態である。あるいは、状態は、マークアップ言語内に記述可能な他の言語(例えばスクリプト、スタイルシート等)におけるトークン状態、又はそのトークン状態をもとに独自に定義された状態であってもよい。

本実施形態では、テスト文字列のとる状態を、第１～第３の３つの種別に分類して把握するものとしている。これらの種別を表１に示している。３つの種別は、該当するテスト文字列の状態が、これに含まれるペイロードを実行可能な状態となるために文法上どのくらい離れているかをもとに分類されている。これらの状態種別は、後述する行動に対して与えられる報酬の値を決定するために用いられる。

ここで、状態とその属する種別の例について、テスト文字列がＨＴＭＬで記述されているものとして説明する。なお、ペイロードは「alert(1);」であるものとする。「alert(1);」は、Ｗｅｂページに「アラートメッセージ」の表示を実行させる命令である。ここでは引数が１であるので、メッセージには「１」が表示されるが、引数はこれに限らず適宜定めればよい。またペイロードとして他の実行関数を採用してもよい。

なお、状態の種別は、テスト文字列に含まれるペイロードを実行可能とする状態から文法上どのくらい離れているかを区分できるものであれば、上記に限らず設定可能である。例えば、第３種別を、エージェントが２つの行動を実行すれば第１種別に遷移可能な状態と、それ以外の状態（３つ以上の行動を実行すれば第１種別に遷移可能な状態）に分けてもよい。

（２）行動
次に、本実施形態による強化学習の行動について説明する。
本実施形態ではまず、強化学習の対象となるテスト文字列を、以下の４つのセクションに分割する。

なお、上記はセクションの区分例であり、ペイロードとの位置関係を合理的に区分する他の方法によって、適宜セクションを構成してもよい。

本実施形態では、これら４つのセクション区分を前提として、以下の行動種別を規定している。

なお、文字列の上書きについては、「第１セクションの文字列を大文字に変換する」、「第１セクションの文字列をパーセントエンコーディングでエンコードする」等、各セクションの文字列を別の表記の文字列に変換する操作を定義することも可能である。
各行動は、上記の行動種別の要素と、セクションに区切られたテスト文字列（以下「セクション文字列」と呼ぶ）の要素との組み合わせとして設定される。

ここで、本実施形態における行動について、具体例に即して説明する。対象のテスト文字列の例を表５に示す。

このとき、エージェントの行動は、各セクションに対して行動種別１～４をもとに以下の表６に示すような行動一覧表として設定される。かっこで括られた各組は、行動種別を表す番号と、各セクションを上書きするための文字列とからなる。上書き用文字列には、空文字（“”）を含めている。

ここで、各セクションに配置されている文字列を別の表記の文字列に変換する例について説明する。本例は、Ｗｅｂサイトに入力文字列をサニタイジングする機能が設けられている場合、そのサニタイジング機能に関する脆弱性を検知するために有効な手法である。対象のテスト文字列として、表５の第２の例である「</textarea> <script> alert(1); </script>」を用いる。
いまエージェントがテスト文字列に対して選択する行動として、（３，[パーセントエンコーディングで変換]）が選択されたとする。この行動は、表４の行動種別３に該当し、テスト文字列の第２セクションと第４セクションに現在格納されている文字列（「<script>」と「</script>」）に含まれるＨＴＭＬの特殊文字「<」、「/」、「>」がパーセントエンコーディングで変換される。その結果、「<script>」と「</script>」はそれぞれ「%3C script %3」、「%3C %2F script %3」となり、変換後のテスト文字列全体としては、「</textarea> %3C script %3E alert(1); %3C %2F script %3E」となる。
前記のように、この操作は、テスト対象のＷｅｂサイトに不完全なサニタイジング処理が実装されている場合に有効である。例えば、Ｗｅｂサイトに「scriptタグ（<script>, </script>）を除去する」というサニタイジング処理が実装されていたと仮定した場合、入力文字列「</textarea> <script> alert(1); </script>」からscriptタグが除去される。その結果、Ｗｅｂサイトからのレスポンスとして、「</textarea> alert(1);」が得られる。この場合、ペイロード「alert(1);」はスクリプトとして実行可能な状態とはならない。しかしながら、サニタイジング処理が不完全で、かつＵＲＬエンコードされた入力を通常のエンコードに変換する処理が含まれるＷｅｂサイトでは、「</textarea> %3C script %3E alert %28 1 %29 %3B %3C %2F script %3E」とサニタイズ処理された入力が「</textarea> <script> alert(1); </script>」としてレスポンスに表示され、ペイロードをスクリプトとして実行可能な状態となる。このように、不完全なサニタイジング処理に起因するＸＳＳ脆弱性を検知するために、セクションに配置されている文字列の変換処理が有効となる場合が考えられる。

エージェントの行動の結果、状態がペイロード実行可能な第１種別となったとき、またはエージェントが予め規定したステップ数を実行したとき、エージェントの行動は終了し、１つのエピソードが終了する。

（３）報酬
次に、本実施形態の強化学習における、状態ｓ_ｔにおいて行動ａ_ｔを選択した場合の行動ａ_ｔの報酬について説明する。
報酬は、時刻ｔにおける状態ｓ_ｔから行動ａ_ｔによって到達する状態ｓ_{（ｔ＋１）}をもとに決定される。
本実施形態では、前記したテスト文字列の状態を表す第１種別～第３種別に対する報酬ｒ⁽¹⁾、ｒ⁽²⁾、ｒ⁽³⁾を、それぞれｒ⁽¹⁾＞０、ｒ⁽³⁾＜ｒ⁽²⁾＜０と設定している。この設定は、エージェントが選択する１つの行動の結果、ペイロードが実施可能な第１種別に遷移した場合がもっとも報酬が大きく、第２種別、第３種別と、実施可能な状態から離隔した状態を観測するほど報酬が減少するように決定されている。なお、上記は報酬の設定例であり、状態種別の数等に合わせて報酬も適宜設定することができる。

以上説明した本実施形態による強化学習によれば、エージェントがテスト文字列の初期状態ｓ_０から行動ａ_ｔを（ｔ≧０）を順次選択して、第１種別の状態に至るステップ数が少ないほど受け取る報酬の期待値が増加するため、ペイロード実行可能とするテスト文字列を効率的に作成することができる。

次に、ここまで説明した強化学習の機能を備えたテスト装置１（図２）を実現するためのデータ処理例について説明する。
学習部１１によるデータ処理例
図３に本実施形態のテスト装置１における学習部１１によるデータ処理例を示すフローチャートを示している。なお、図２に関して述べたように、学習部１１の機能は、後述するテスト実行部１２から独立した学習装置として実現してもよい。この場合、学習装置の出力は、以下の強化学習アルゴリズムによって求められた方策によって自動的に、かつ効率的にテスト文字列を生成する機能を備えたエージェントである。
図３を参照すると、ステップＳ１００において、学習部１１は、入力として、１以上の既知のテスト文字列をセクションに分解して得られる情報であるセクション文字列（例えば表５参照）と、学習フェーズにおける脆弱性検知のテスト対象となる１以上のＷｅｂサイト(以下「テストＷｅｂサイト」)を受け付ける。ここで、既知のテスト文字列は、例えばインターネット上のＧｉｔＨｕｂで公開されているオープンソースのテストコード集などから収集して利用することができる。ステップＳ１００では、このようなテスト文字列から前記の表３、表５に関して説明したように、第１セクションから第４セクションまでに分解したセクション文字列を作成して学習部１１に入力する。

次に、ステップＳ１１０において、学習部１１は、学習実行のための前処理として、与えられたすべてのセクション文字列から、表６に例示したような行動一覧表を作成する。
ステップＳ１２０において、学習部１１は、テストＷｅｂサイトを１つ選択し、現在の学習フェーズにおけるテスト対象に設定する。

ステップＳ１３０において、学習部１１はあらかじめ設定した最大学習時間を経過したか判定し、経過したと判定した場合（ＹＥＳの場合）、ステップＳ１７０の未処理のＷｅｂサイトがあるか判定する処理に移る。ステップＳ１３０において、最大学習時間を経過していないと判定した場合（ＮＯの場合）、学習部１１は、ステップＳ１４０に移る。
ステップＳ１４０において、学習部１１は、強化学習のエージェントを用いて、行動一覧表からランダムに１の行動ａを選択し、実行する。
ステップＳ１５０において、学習部１１は、行動ａにより構成されたテスト文字列を、Ｓ１２０で設定したテストＷｅｂサイトに与えてその状態ｓを観測する。
ステップＳ１６０において、学習部１１は、状態ｓが第１種別であるか判定し、第１種別でないと判定した場合（ＮＯの場合）、ステップＳ１３０に戻って最大学習時間を経過したか判定する。すなわち、ステップＳ１６０において状態ｓが第１種別でないと判定された場合、学習部１１は、ステップＳ１３０において最大学習時間が経過したと判定するまで、ステップＳ１４０，Ｓ１５０の処理を繰り返すことによりエージェントの強化学習を実行する。ステップＳ１６０において、状態ｓが第１種別であると判定した場合（ＹＥＳの場合）、学習部１１は、ステップＳ１７０に移る。
ステップＳ１７０において、学習部１１は、未処理のＷｅｂサイトがあるか判定し、未処理のＷｅｂサイトがあると判定した場合（ＹＥＳの場合）、Ｓ１２０に戻って１のＷｅｂサイトを設定する。未処理のＷｅｂサイトがないと判定した場合（ＮＯの場合）、学習部１１は、学習フェーズのデータ処理を終了する。
このような学習フェーズにより、エージェントは、割引累積報酬の期待値が最大となるように強化学習アルゴリズムを用いて方策を学習することができる。学習済みのエージェント（プログラム）は、テスト装置１の記憶部２０に格納しておき、後述のテスト実行部１２によって利用される。

テスト実行部１２によるデータ処理例
次に、以上の学習部１１による学習フェーズのデータ処理により強化学習がなされたエージェントを用いて実行される本実施形態によるテストフェーズのデータ処理について説明する。図４に、本実施形態によるテスト装置１のテスト実行部１２が実行するテストフェーズのデータ処理例をフローチャートで示している。なお、学習部１１と同様に、テスト実行部１２は、学習済みエージェントによってテスト文字列を自動生成してＷｅｂサイトの脆弱性テストを実行するテスト装置として構成することも可能である。
まずステップＳ２００において、テスト実行部１２は、学習フェーズにおいて学習済みのエージェント、１のテスト対象たるテストＷｅｂサイト、及び１のテストＷｅｂサイトに対して試行するテストの最大試行回数を、入力として受け付ける。ここで受け付けるテストＷｅｂサイトは、学習フェーズで利用したＷｅｂサイトとは異なる。

ステップＳ２１０において、テスト実行部１２は、第３セクションにペイロード文字列を配置する。
ステップＳ２２０において、テスト実行部１２は、テストＷｅｂサイトへのテスト試行回数が最大試行回数に達したか判定し、最大試行回数に達していないと判定した場合（ＮＯの場合）、ステップＳ２３０に移る。テストＷｅｂサイトへのテスト試行回数が最大試行回数に達したと判定した場合（ＹＥＳの場合）、ステップＳ２８０において、テスト実行部１２は、テスト対象のテストＷｅｂサイトに脆弱性がないと判定して、データ入出力部１３を通じてその旨を適宜の態様で出力して処理を終了する。
ステップＳ２３０において、テスト実行部１２は、テストＷｅｂサイトにペイロード文字列をリクエストとして与え、テストＷｅｂサイトからのレスポンスにおけるペイロード文字列の状態を観測する。
ステップＳ２４０において、テスト実行部１２は、観測した状態が第１種別であるか判定し、第１種別であると判定した場合（ＹＥＳの場合）、ステップＳ２６０において、さらにペイロードが実行されたか判定する。ステップＳ２６０においてペイロードが実行されたと判定した場合（ＹＥＳの場合）、テスト実行部１２は、ステップＳ２７０において、テスト対象であるテストＷｅｂサイトに反射型ＸＳＳの脆弱性を検知したと判定し、データ入出力部１３を通じてその旨をディスプレイ等の出力デバイス、あるいは外部の端末装置等に、適宜の態様で出力する。
一方、ステップＳ２４０において第１種別でないと判定された場合（ＮＯの場合）、テスト実行部１２は、ステップＳ２５０において学習済みエージェントを用いて次の行動を方策に従って選択、実行させ、ステップＳ２２０の処理へ戻り、テストＷｅｂサイトへのテスト試行回数が最大試行回数に達したと判定されるまで、ステップＳ２３０以降の処理を繰り返す。

なお、あらかじめテスト対象として複数のテストＷｅｂサイトを設定しておき、１のテストＷｅｂサイトについての脆弱性存否が判定されたら他のテストＷｅｂサイトについてのテストを実行するように構成してもよい。
以上説明した本実施形態によるテスト実行部のデータ処理によれば、テスト対象のテストＷｅｂサイトに対して反射型ＸＳＳの脆弱性があるかを判定することができるテスト文字列を自動的に、かつ効率的に生成して与えることができるので、Ｗｅｂサイトが反射型ＸＳＳ脆弱性を有するか否かの判定について、省力化、効率化を実現することができる。

次に、以上説明したテスト実行部１２によるテストフェーズのデータ処理に関する変形例について説明する。この変形例は、テスト対象であるテストＷｅｂサイトへのテスト実行に伴う処理負荷増大を回避することを意図したものである。図５に、本実施形態によるテスト装置１のテスト実行部１２が実行するテストフェーズの変形データ処理例をフローチャートで示している。なお、図４のフローチャートと同一の要素については同一の符号を付している。
まずステップＳ２００において、テスト実行部１２は、図４の例と同様に、学習フェーズにおいて学習済みのエージェント、１のテスト対象たるテストＷｅｂサイト、及び１のテストＷｅｂサイトに対して試行するテストの最大試行回数を、入力として受け付ける。

ステップＳ２０２において、テスト実行部１２は、テスト対象たるテストＷｅｂサイトの内容を一時的に記録すべく、テストＷｅｂサイトに任意の文字列をリクエストとして入力し、ステップＳ２０４においてそのリクエストに対するレスポンスと、そのレスポンス中でリクエストした文字列が反映される位置（反射位置）を記録する。
ステップＳ２２０において、テスト実行部１２は、テストＷｅｂサイトへのテスト試行回数が最大試行回数に達したか判定し、最大試行回数に達していないと判定した場合（ＮＯの場合）、ステップＳ２１０Ａに移る。テストＷｅｂサイトへのテスト試行回数が最大試行回数に達したと判定した場合（ＹＥＳの場合）、図４の場合と同様に、ステップＳ２８０において、テスト実行部１２は、テスト対象のテストＷｅｂサイトに脆弱性がないと判定して、データ入出力部１３を通じてその旨を適宜の態様で出力して処理を終了する。
ステップＳ２１０Ａにおいて、テスト実行部１２は、記録されたレスポンスの反射位置にテスト文字列を当てはめるものとして、ステップＳ２１０Ａ、ステップＳ２５０の処理を最大試行回数の範囲内で実行して第１種別のテスト文字列を得る。この際、テストＷｅｂサイトにリクエストが与えられることはないので、テスト実行による対象テストＷｅｂサイトへの負荷は大幅に抑制可能となる。
ステップＳ２３０において、テスト実行部１２は、得られた第１種別のテスト文字列をテストＷｅｂサイトに対してリクエストとして与え、ステップＳ２６０においてペイロードが実行されたか否かを判定する。以降のデータ処理は、先に説明した図４の基本構成の場合と同様である。

以上説明したテスト実行部１２によるデータ処理の変形例によれば、第１種別のテスト文字列を得るまでの試行を、実際のテストＷｅｂサイトではなく、ローカルにコピーしたテストＷｅｂサイトの疑似構成（疑似レスポンス）を用いて行うことができるので、脆弱性テスト実行に伴ってテスト対象のテストＷｅｂサイトに対する負荷の増大を抑制することができ、テストＷｅｂサイトの可用性をいたずらに損なうことがないという効果を得ることができる。

前記テスト実行部が、テスト対象たる前記Ｗｅｂサイトに任意の文字列を与え、そのレスポンス中で与えた文字列が反映される位置である反射位置を特定し、当該反射位置に各前記テスト文字列を適用してその結果を観測し、観測された状態に応じて前記エージェントを用いて前記行動を適用する処理を繰り返し、前記テスト文字列が実行可能な状態となったと判定した場合、当該テスト文字列を前記Ｗｅｂサイトにリクエストとして与えるように構成することができる。
このようにすれば、テスト対象のテストＷｅｂサイトにテスト文字列をリクエストとして与えることなく、実行可能な状態のテスト文字列を得ることができる。

前記セクションが、前記テスト文字列における、先頭の構成単位、実行型の構成単位、実行型の構成単位の直前、直後の構成単位の４つの部分を含み、前記行動として、前記テスト文字列に含まれているすべての構成単位を用いて、前記テスト文字列における前記４つの部分に対応する構成単位の文字列を置き換える４種の行動が設定され、前記４種の行動のいずれかをランダムに選択して前記テスト文字列に適用して得られた文字列を前記所定のＷｅｂサイトに与えてその状態を観測し、前記実行型の構成単位が実行されうる状態に到達するための前記行動の適用回数が多いほど前記エージェントに与えられる報酬が小となるように設定されているとしてもよい。
このようにすれば、テスト文字列の生成に関する強化学習アルゴリズムの最適化を図ることができる。

前記行動が、各前記構成単位の文字列の表記を他の表記に変換する操作を含むとしてもよい。
このようにすれば、例えばＷｅｂサイトにおける不完全なサニタイジング処理に起因する脆弱性を検知することができる。

前記文字列の前記構成単位は、ハイパーテキストマークアップ言語（ＨＴＭＬ）における文法上の構成単位であってもよい。
このようにすれば、テスト文字列をその構成単位に分解する処理が明確かつ簡易なものとなる。

なお、前述の実施形態により、例えば、Ｗｅｂサイトが有するクロスサイトスクリプティングに関する脆弱性をあらかじめ検知して除去することによりネットワークを介した通信の安全性を向上させることができるので、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標９「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

本発明の実施形態に係る学習方法、脆弱性テスト方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１脆弱性テスト装置
１０制御部
１１学習部
１２テスト実行部
１３データ入出力部
２０記憶部

Claims

Ｗｅｂサイトの脆弱性テストに利用される既知のテスト文字列を受け付け、
前記テスト文字列を、当該テスト文字列を構成している構成単位に基づいて複数のセクションに分解し、
前記テスト文字列の文法構造に基づいて当該テスト文字列について複数の状態を設定するとともに、当該複数の状態について、実行型の構成単位が実行可能である状態を基準として文法構造上どれだけ離れているかに基づいて複数の状態種別を設定し、
各前記セクションについて、１のセクション又は複数のセクションの組に対応している前記構成単位にある文字列を、他の文字列で置き換える操作としての行動種別を設定し、当該行動種別とそれに該当する前記セクションに関して前記文字列を置き換える操作との組み合わせとして行動を設定し、
前記状態種別に基づいて、前記テスト文字列に対していずれかの前記行動を実行することによって遷移した前記テスト文字列の状態が、実行型の構成単位が実行可能である状態からどれだけ離れているかに応じて報酬の値を設定し、
強化学習アルゴリズムのエージェントを用いて、いずれかの前記行動を実行した前記テスト文字列を所定のＷｅｂサイトに与え、その状態を観測して前記報酬を受け取る処理を繰り返すことにより、反射型クロスサイトスクリプティング脆弱性を検知するためのテスト文字列を構成するのに適した方策を学習するように構成されている学習部を
備えている学習装置。
前記セクションが、前記テスト文字列における、先頭の構成単位、実行型の構成単位、実行型の構成単位の直前、直後の構成単位の４つの部分を含み、
前記行動として、前記テスト文字列に含まれているすべての構成単位を用いて、前記テスト文字列における前記４つの部分に対応する構成単位の文字列を置き換える４種の行動が設定され、
前記４種の行動のいずれかをランダムに選択して前記テスト文字列に適用して得られた文字列を前記所定のＷｅｂサイトに与えてその状態を観測し、前記実行型の構成単位が実行されうる状態に到達するための前記行動の適用回数が多いほど前記エージェントに与えられる報酬が小となるように設定されている、請求項１に記載の学習装置。
前記行動が、各前記構成単位の文字列の表記を他の表記に変換する操作を含む、
請求項１又は２に記載の学習装置。
前記文字列の前記構成単位は、ハイパーテキストマークアップ言語（ＨＴＭＬ）における文法構造上の構成単位である、請求項１から３までのいずれか一項に記載の学習装置。
情報処理装置が、
Ｗｅｂサイトの脆弱性テストに利用される既知のテスト文字列を受け付け、
前記テスト文字列を、当該テスト文字列を構成している構成単位に基づいて複数のセクションに分解し、
前記テスト文字列の文法構造に基づいて当該テスト文字列について複数の状態を設定するとともに、当該複数の状態について、実行型の構成単位が実行可能である状態を基準として文法構造上どれだけ離れているかに基づいて複数の状態種別を設定し、
各前記セクションについて、１のセクション又は複数のセクションの組に対応している前記構成単位にある文字列を、他の文字列で置き換える操作としての行動種別を設定し、当該行動種別とそれに該当する前記セクションに関して前記文字列を置き換える操作との組み合わせとして行動を設定し、
前記状態種別に基づいて、前記テスト文字列に対していずれかの前記行動を実行することによって遷移した前記テスト文字列の状態が、実行型の構成単位が実行可能である状態からどれだけ離れているかに応じて報酬の値を設定し、
強化学習アルゴリズムのエージェントを用いて、いずれかの前記行動を実行した前記テスト文字列を所定のＷｅｂサイトに与え、その状態を観測して前記報酬を受け取る処理を繰り返すことにより、反射型クロスサイトスクリプティング脆弱性を検知するためのテスト文字列を構成するのに適した方策を学習する処理を実行する、
学習方法。
前記セクションが、前記テスト文字列における、先頭の構成単位、実行型の構成単位、実行型の構成単位の直前、直後の構成単位の４つの部分を含み、
前記行動として、前記テスト文字列に含まれているすべての構成単位を用いて、前記テスト文字列における前記４つの部分に対応する構成単位の文字列を置き換える４種の行動が設定され、
前記４種の行動のいずれかをランダムに選択して前記テスト文字列に適用して得られた文字列を前記所定のＷｅｂサイトに与えてその状態を観測し、前記実行型の構成単位が実行されうる状態に到達するための前記行動の適用回数が多いほど前記エージェントに与えられる報酬が小となるように設定されている、請求項５に記載の学習方法。
情報処理装置に、
Ｗｅｂサイトの脆弱性テストに利用される既知のテスト文字列を受け付け、
前記テスト文字列を、当該テスト文字列を構成している構成単位に基づいて複数のセクションに分解し、
前記テスト文字列の文法構造に基づいて当該テスト文字列について複数の状態を設定するとともに、当該複数の状態について、実行型の構成単位が実行可能である状態を基準として文法構造上どれだけ離れているかに基づいて複数の状態種別を設定し、
各前記セクションについて、１のセクション又は複数のセクションの組に対応している前記構成単位にある文字列を、他の文字列で置き換える操作としての行動種別を設定し、当該行動種別とそれに該当する前記セクションに関して前記文字列を置き換える操作との組み合わせとして行動を設定し、
前記状態種別に基づいて、前記テスト文字列に対していずれかの前記行動を実行することによって遷移した前記テスト文字列の状態が、実行型の構成単位が実行可能である状態からどれだけ離れているかに応じて報酬の値を設定し、
強化学習アルゴリズムのエージェントを用いて、いずれかの前記行動を実行した前記テスト文字列を所定のＷｅｂサイトに与え、その状態を観測して前記報酬を受け取る処理を繰り返すことにより、反射型クロスサイトスクリプティング脆弱性を検知するためのテスト文字列を構成するのに適した方策を学習する処理を実行させる、
学習プログラム。
請求項１から４までのいずれか一項に記載の学習装置によって求められた前記方策を用いてテスト対象であるＷｅｂサイトにリクエストとして与える文字列であるテスト文字列を構成するためのテスト実行部であって、
任意の実行型の構成単位を受け取り、
前記方策に従って選択した前記行動を前記実行型の構成単位に適用して前記テスト文字列を構成し、当該テスト文字列をテスト対象である前記Ｗｅｂサイトに与えてその状態を観測し、当該出力に含まれる文字列が前記実行型の構成単位が実行されうる状態となるまで前記方策に従って前記行動を当該出力文字列に適用し、前記実行型の構成単位が実行されうる状態となったテスト文字列を前記Ｗｅｂサイトにリクエストとして与えて、前記実行型の構成単位が実行されたと判定した場合、前記Ｗｅｂサイトに脆弱性があると判定してその判定結果を出力するように構成されているテスト実行部を
備えている脆弱性テスト装置。
前記テスト実行部が、
テスト対象である前記Ｗｅｂサイトに任意の文字列をリクエストとして入力し、そのリクエストに対するレスポンス中でリクエストした文字列が反映される位置である反射位置に前記テスト文字列を適用してその結果を観測し、前記方策に従って前記行動を適用する処理を前記文字列が実行可能な状態となるまで繰り返し、前記実行可能な状態となった前記テスト文字列を前記Ｗｅｂサイトにリクエストとして与えるように構成されている、請求項８に記載の脆弱性テスト装置。