JP2023053925A

JP2023053925A - ビッグデータ管理システムに対してストレステストを最適に実行するコンピュータ実装方法、コンピュータプログラム及びシステム（ビッグデータ管理システムの最適なストレステストのためのワークロード生成）

Info

Publication number: JP2023053925A
Application number: JP2022156395A
Authority: JP
Inventors: イルカーエンダー; Ender Ilker; オースティンクリフォード; Clifford Austin; ペドロミゲルバルバス; Miguel Barbas Pedro; パイヴァフェルナンデスマティアスマラエリサデ; Elisa De Paiva Fernandes Matias Mara; へマントアサンダスバティア; Asandas Bhatia Hemant
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-10-01
Filing date: 2022-09-29
Publication date: 2023-04-13
Also published as: CN115934502A; US20230103856A1; US20230333971A1; US11741001B2

Abstract

【課題】ビッグデータ管理システムの最適なストレステストのためのワークロードを生成する方法、プログラム及びシステムを提供する。【解決手段】方法は、ランダムテストクエリのセットを生成し、ランダムテストクエリのセットの特徴（例えば、クエリされるテーブルタイプ）のデータ点を決定するためにコンパイルし、特徴のデータ点と、抽出した特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離（例えば、マハラノビス距離）を測定し、その距離が閾値距離を超える各ランダムテストクエリをランク付けし、ランク付けしたランダムテストクエリを、ランク順に実行する。エラーをもたらした（例えば、システム障害）実行されたランダムテストクエリを、ログに追加し、これを、ビッグデータ管理システムに対してストレステストを実行するためにそれらのクエリを識別するのに使用する。【選択図】図４Ａ

Description

本開示は、概して、ストレステストに関し、より具体的には、ビッグデータ管理システムの最適なストレステストのためのワークロードを生成することに関する。

データベース管理システムのテストにおいて、ストレステストとは、正常な状況下での正しい挙動とみなされるようなものに対してではなく、重い負荷／ストレス条件下での信頼性、耐障害性及び安定性に対してより重きを置くテストを指す。特に、そのようなテストの目標は、データベース管理システムが、不十分な計算リソース（メモリ又はディスクスペース等）、異常に高い同時実行性、又はサービス拒否攻撃の条件においてクラッシュしないことを保証することであり得る。

ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に使用する、ビッグデータ管理システムに対してストレステストする手段は現状存在していない。

本開示の１つの実施形態では、ビッグデータ管理システムに対してストレステストを最適に実行するコンピュータ実装方法は、ランダムテストクエリのセットを生成する段階を備える。前記方法は、前記ランダムテストクエリのセットの特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記ランダムテストクエリのセットをコンパイルする段階を更に備える。前記方法は、加えて、前記ランダムテストクエリのセットの特徴の前記データ点と、抽出された特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離を測定する段階を備える。さらに、前記方法は、その距離が閾値距離を超える各ランダムテストクエリをランク付けする段階を備える。加えて、前記方法は、前記ランク付けされたランダムテストクエリをランク順に実行する段階を備える。加えて、前記方法は、エラーをもたらした実行されたランク付けされたランダムテストクエリをログに追加する段階を備える。前記方法は、前記ログに基づいて、ビッグデータ管理システムに対してストレステストを実行するクエリを識別する段階を更に備える。

上記で説明されたコンピュータ実装方法の実施形態の他の形態は、システムの形態及びコンピュータプログラム製品の形態である。

前述は、以下に続く本開示の詳細な説明がより良好に理解され得るために、本開示の１つ又は複数の実施形態の特徴及び技術的な利点をかなり一般的に概略している。本開示の追加の特徴及び利点は、以降で説明されることになり、本開示の特許請求の範囲の主題を形成し得る。

以下の詳細な説明が以下の図面と併せて考慮されると、本開示のより良好な理解が得られ得る。

本開示の一実施形態に係る、本開示の原理を実践する通信システムを示す図である。

本開示の一実施形態に係る、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システムに対するストレステストにおいて使用されることになるクエリの最適セットを識別するために使用されるテストシステムのソフトウェアコンポーネントの図である。

本開示を実践するためのハードウェア環境を代表するテストシステムのハードウェア構成の本開示の一実施形態を示す図である。

本開示の一実施形態に係る、ビッグデータ管理システムに対してストレステストを最適に実行する方法のフローチャートである。本開示の一実施形態に係る、ビッグデータ管理システムに対してストレステストを最適に実行する方法のフローチャートである。

本開示の一実施形態に係る、ランダムテストクエリの重みを計算する方法のフローチャートである。

本開示の一実施形態に係る、テストクエリに割り当てられた重みに基づいて、その距離が閾値距離を超えるランダムテストクエリをランク付けする方法のフローチャートである。

本開示の一実施形態に係る例示的な決定木を示す図である。

背景技術のセクションにおいて述べたように、データベース管理システムのテストにおいて、ストレステストとは、正常な状況下での正しい挙動とみなされるようなものに対してではなく、重い負荷／ストレス条件下での信頼性、耐障害性及び安定性に対してより重きを置くテストを指す。特に、そのようなテストの目標は、データベース管理システムが、不十分な計算リソース（メモリ又はディスクスペース等）、異常に高い同時実行性、又はサービス拒否攻撃の条件においてクラッシュしないことを保証することであり得る。

データベース管理システムのストレステストは、概して、３つの次元、すなわち、同時実行性（同時のクエリを実行するクライアントの数）、持続時間（連続ワークロード実行の持続時間）及び複雑性（実行されるクエリの複雑性）においてワークロード（例えば、構造化照会言語（ＳＱＬ）ワークロード）によって実行される。

典型的には、テストワークロードスイート（ソフトウェアエラー等の誤った挙動を識別するために現実世界状況をシミュレートすることによってデータベース管理システムをテストするように意図されたワークロードの集合）は、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメントを識別するために等で、データベース管理システムをテストする様々なクエリ（例えば、ＳＱＬステートメント）を実行し得る。クエリのうちの多くは、完了に成功するのに多くの時間（例えば、１２時間）の間実行され得、それによって、ソフトウェアエラーを識別することに関してほとんど価値が与えられず、それと同時に、価値のあるテスト及びシステムリソースが消費される。

データベース管理システムのストレステストは、システム／ランタイムの視点からデータベース管理システムソフトウェアを有効にテストするように徹底的な品質保証（ＱＡ）テストカバレッジ（テストされているソフトウェアの割合）を提供するためのデータの生成、データベースオブジェクトの装入、及び複雑なクエリ（例えば、複雑なＳＱＬクエリ）の生成の観点で、難題であり続けている。

例えば、データベース管理システムをストレステストするクエリを生成することに関して、そのようなクエリは、信頼性、耐障害性及び安定性についてシステムをテストするのに十分に複雑であり、それと同時に、そのクエリを実行するのに多くの時間を要するほど複雑ではない必要がある。

その上、従来的なオンライントランザクション処理（ＯＬＴＰ）／オンライン分析処理（ＯＬＡＰ）システムからビッグデータ管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）によって管理されるビッグデータクラスタ（ビッグデータを記憶するデータストア（例えば、Ｈａｄｏｏｐ（登録商標）分散ファイルシステム）を含むコンテナのクラスタ）への移行とともに、テストが実行する必要があるデータの量は、数桁分大きくなり、これにより、２４時間の期間内で実行され得るテストクエリの数は、大幅に減少した。「ビッグデータ」は、本明細書において使用される場合、一般的に使用されるソフトウェアツールが許容可能な経過時間内で捕捉、キュレート、管理及び処理を行う能力を超えるサイズを有するデータセットを指す。

結果として、ビッグデータ管理システムに対するストレステストは、データベース管理システムソフトウェアの信頼性、耐障害性及び安定性をテストするために長時間にわたって数千個の複雑なクエリを実行する余裕を有していない。したがって、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に使用する、ビッグデータ管理システムに対してストレステストする手段は現状存在していない。

本開示の実施形態は、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）に対するストレステストにおいて使用されることになるクエリの最適セットを識別する手段を提供する。

本開示の幾つかの実施形態では、本開示は、ビッグデータ管理システムに対してストレステストを最適に実行するコンピュータ実装方法、システム及びコンピュータプログラム製品を備える。本開示の１つの実施形態では、ランダムテストクエリのセットが生成される。「テストクエリ」は、本明細書において使用される場合、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメント等の誤った挙動を識別するために現実世界状況をシミュレートすることによってビッグデータ管理システムをテストするのに使用されるクエリを指す。１つの実施形態では、そのようなランダムテストクエリは、テストクエリ内に含めるためにフィールドを含むテーブルを利用することに基づいて生成される。次に、ランダムテストクエリのセットは、当該ランダムテストクエリの当該セットの特徴（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）のデータ点を決定するためにアクセス計画特性を抽出するようにコンパイルされる。「特徴」は、本明細書において使用される場合、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオン（ｔｉｍｅｒｏｎ）（使用されることになるリソースの評価に基づくコスト推定値）バケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等のような、クエリの特性を指す。「アクセス計画」は、本明細書において使用される場合、データにアクセスするための動作の順序を指定することを指す。「アクセス計画特性」は、本明細書において使用される場合、そのようなアクセス計画の特性を指す。次に、ランダムテストクエリのセットの特徴のデータ点と、抽出された特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離（例えば、マハラノビス距離、ユークリッド距離）が測定される。１つの実施形態では、特徴セットは、オプティマイザ計画及びターゲットテーブルメタデータから抽出され、ここで、抽出された特徴セットの各特徴に対応するデータ点の分布の平均が測定される。「オプティマイザ計画」は、本明細書において使用される場合、実行の最適な方法を記述する、オプティマイザの出力を指す。「ターゲットテーブルメタデータ」は、本明細書において使用される場合、クエリ時間統計値（ｑｕｅｒｙｔｉｍｅｓｔａｔｓ）を含む、消費されるソースデータについてのデータ定義を提供するメタデータ（データに関するデータ）を指す。次に、その距離が閾値距離を超える各ランダムテストクエリがランク付けされる。次に、ランク付けされたランダムテストクエリは、ランク順に実行される。エラーをもたらした（例えば、システム障害等のエラーが識別された）実行されたランダムテストクエリは、ログに追加され、これは、ビッグデータ管理システムに対してストレステストを実行するためにそれらのクエリを識別するのに使用される。このようにして、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）に対するストレステストにおいて使用されることになるクエリの最適セットが識別される。

以下の説明において、本開示の深い理解を提供するために多くの具体的な詳細が記載される。しかしながら、そのような具体的な詳細がなくても本開示が実践され得ることが当業者には明らかとなる。他の事例では、不要な詳細で本開示を不明瞭にしないように、周知の回路は、ブロック図の形式で示されている。ほとんどの場合、タイミングの考慮事項等に関する詳細は、そのような詳細が本開示の完全な理解を得るのに必要ではない限り、及び関連技術における当業者の技能の範囲内である限り、省略されている。

ここで図面を詳細に参照すると、図１は、本開示の原理を実践する通信システム１００の本開示の一実施形態を示している。通信システム１００は、ネットワーク１０３を介してビッグデータ管理システム１０２に接続されたテストシステム１０１を備える。

ネットワーク１０３は、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、ワイヤレスワイドエリアネットワーク、回路交換電話網、モバイル通信用グローバルシステム（ＧＳＭ（登録商標）：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）ネットワーク、ワイヤレスアプリケーションプロトコル（ＷＡＰ）ネットワーク、ＷｉＦｉネットワーク、ＩＥＥＥ８０２．１１標準規格ネットワーク、これらの様々な組み合わせ等であってよい。本開示の範囲から逸脱することなく、他のネットワーク（その説明はここでは簡潔性のために省略される）も、図１のシステム１００と併せて使用されてよい。

テストシステム１０１は、システムのその指定された要件への準拠を評価するためにビッグデータ管理システム１０２に対してシステムテストを実行するように構成されている。１つの実施形態では、そのようなシステムテストは、「ストレステスト」を含む。「ストレステスト」は、本明細書において使用される場合、重い負荷／ストレス条件下での信頼性、耐障害性及び安定性の観点でビッグデータ管理システム１０２をテストするためにビッグデータ管理システム１０２によって実行されることになるクエリ（例えば、構造化クエリ言語（ＳＱＬ）クエリ）を各々含む、テストシステム１０１によって生成されるワークロードの集合を指す。１つの実施形態では、そのようなテストは、ビッグデータ管理システム１０２（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）によって管理される（ビッグデータ管理システム１０２に接続された）ビッグデータクラスタ１０４に対して実行される。１つの実施形態では、ビッグデータ管理システム１０２は、ＳＱＬエンジンを含み、これは、ビッグデータクラスタ１０４にアクセスするため、及びデータをインタロゲートするためのＳＱＬコマンドを認識及び解釈するソフトウェアに対応する。

１つの実施形態では、テストシステム１０１は、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム１０２によって管理されるビッグデータクラスタ１０４に対して実行されることになるクエリ（例えば、ＳＱＬクエリ）の最適セットを生成する。そのようなクエリの最適セットを生成することのより詳細な説明が以下で更に提供される。さらに、テストシステム１０１のソフトウェアコンポーネントの説明が、図２に関連して以下で提供され、テストシステム１０１のハードウェア構成の説明が、図３に関連して以下で更に提供される。

ビッグデータ管理システム１０２は、データを捕捉及び分析するために、エンドユーザ、アプリケーション、データベース及びビッグデータクラスタ１０４とインタラクトするように構成されている。ビッグデータクラスタ１０４は、本明細書において使用される場合、ビッグデータを記憶するデータストア（例えば、Ｈａｄｏｏｐ（登録商標）分散ファイルシステム）を含むコンテナのクラスタを指す。「ビッグデータ」は、本明細書において使用される場合、一般的に使用されるソフトウェアツールが許容可能な経過時間内で捕捉、キュレート、管理及び処理を行う能力を超えるサイズを有するデータセットを指す。

１つの実施形態では、クエリは、よく知られたＳＱＬクエリを使用して、Ｈａｄｏｏｐ（登録商標）分散ファイルシステム等のデータストアにクエリするように有効化されるクエリのクラスを含む。そのようなクエリは、本明細書において「ＳＱＬ－ｏｎ－Ｈａｄｏｏｐ」と称される。明確性のために、「クエリ」という用語が本明細書において使用される場合、そのようなクエリは、ＳＱＬクエリ等の従来的なクエリのみではなく、ＳＱＬ－ｏｎ－Ｈａｄｏｏｐクエリ等のＨａｄｏｏｐ（登録商標）環境においてＳＱＬステートメントを実行するクエリも含むことに留意されたい。

システム１００は、いずれの１つの特定のネットワークアーキテクチャにも範囲を限定されない。システム１００は、任意の数のテストシステム１０１、ビッグデータ管理システム１０２、ネットワーク１０３及びビッグデータクラスタ１０４を含んでよい。

ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム１０２に対するストレステストにおいて使用されることになるクエリの最適セットを識別するためにテストシステム１０１によって使用されるソフトウェアコンポーネントに関する論述が、図２に関連して以下で提供される。

図２は、本開示の一実施形態に係る、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム１０２に対するストレステストにおいて使用されることになるクエリの最適セットを識別するために使用されるテストシステム１０１（図１）のソフトウェアコンポーネントの図である。

図１と併せて図２を参照すると、テストシステム１０１は、トレーニングワークロードの成功をもたらすクエリ、アクセス計画／オプティマイザ計画及び環境メタデータから抽出された特徴に対応するデータ点（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）を識別するように構成された特徴抽出部２０１を含む。「特徴」は、本明細書において使用される場合、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオン（使用されることになるリソースの評価に基づくコスト推定値）バケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等のような、クエリの特性を指す。このようにして、クエリの特性は、データセットの特徴として変換される。

「成功をもたらすクエリ」は、本明細書において使用される場合、エラー又は障害（例えば、ソフトウェアエラー）をもたらさない、ビッグデータ管理システム１０２によって実行されるクエリを指す。「ワークロード」は、本明細書において使用される場合、作業をハンドリング及び処理するビッグデータ管理システム１０２の能力を指す。「トレーニングワークロード」は、本明細書において使用される場合、いずれのクエリがビッグデータ管理システム１０２に対してストレステストを実行するのに最適であるかを判断するのに使用されるワークロードを指し、ここで、「最適クエリ」は、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用するクエリを指す。１つの実施形態では、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオンバケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等のような、トレーニングワークロードの成功をもたらすクエリからの特徴は、特徴抽出部２０１によって抽出される。

「オプティマイザ計画」は、本明細書において使用される場合、実行の最適な方法を記述する、テストシステム１０１のオプティマイザ２０２（クエリオプティマイザ）の出力を指す。そのような「出力」は、本明細書において「実行計画」及び「オプティマイザ計画」又は「アクセス計画」と称され得る。クエリオプティマイザ２０２は、本明細書において使用される場合、ＳＱＬステートメント等のクエリを実行する最も効率的な方法を決定するビルトインソフトウェアを指す。１つの実施形態では、クエリオプティマイザ２０２は、利用可能なアクセスパス及びヒントに基づいてＳＱＬステートメントについての潜在的計画のセットを生成する。クエリオプティマイザ２０２は、データディクショナリ内の統計値に基づいて各計画のコストを推定する。統計値は、ステートメントによってアクセスされるテーブル、インデックス及びパーティションのデータ分布及び記憶特性についての情報を含む。１つの実施形態では、コストは、特定の計画を用いてステートメントを実行するのに必要とされる期待されるリソース使用に比例する推定値である。１つの実施形態では、クエリオプティマイザ２０２は、推定されたコンピュータリソース（例えば、入力／出力、処理ユニット、メモリ等）に基づいてアクセスパス及び結合順序のコストを計算する。より高いコストを有する逐次計画は、より小さいコストを有する逐次計画よりも実行するのにより長い時間を要する。並列計画を使用する場合、リソース使用は、経過時間に直接関係しない。

１つの実施形態では、クエリオプティマイザ２０２は、計画同士を比較し、最低コストを有する計画を選択する。そのような分析の出力は、実行の最適な方法を記述する「実行計画」又は「オプティマイザ計画」又は「アクセス計画」である。例えば、計画は、ＳＱＬステートメントを実行するのに使用される段階の組み合わせを示している。

１つの実施形態では、オプティマイザ計画内に、クエリ特性（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオンバケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等）が含まれる。そのような特徴は、特徴抽出部２０１によって抽出される。

さらに、特徴は、「環境メタデータ」から抽出され得、環境メタデータは、ベースロケーション（テーブルを含む）、データプラットフォーム、ＳＱＬツールキットロケーション等のようなシステム全体の特性、及びクエリ時間統計値を記述する。クエリ時間統計値等のそのような特徴は、特徴抽出部２０１によって抽出される。

加えて、１つの実施形態では、特徴抽出部２０１は、オプティマイザ計画及びターゲットテーブルメタデータから特徴セットを抽出するように構成されている。「ターゲットテーブル」は、本明細書において使用される場合、データが向かう場所又はアクションが行われるテーブルを指す。「ターゲットテーブルメタデータ」は、本明細書において使用される場合、クエリ時間統計値を含む、消費されるソースデータについてのデータ定義を提供するメタデータ（データに関するデータ）を指す。そのような特徴は、特徴抽出部２０１によってターゲットテーブルメタデータから抽出される。

１つの実施形態では、特徴抽出部２０１は、抽出されることになる特徴を識別するために自然言語処理を利用する。１つの実施形態では、特徴抽出部２０１は、上述されたそのような特徴を、そのような特徴を示すキーワードを識別することによって抽出し、ここで、そのようなキーワードは、データ構造（例えば、テーブル）内でリストされる。１つの実施形態では、そのようなデータ構造は、テストシステム１０１の記憶デバイス（例えば、メモリ、ディスクドライブ）に記憶される。

１つの実施形態では、特徴抽出部２０１は、ＳＱＬステートメントのアクセス計画をフェッチし、フェッチされたアクセス計画を、それが含む特徴のセットに変換するように構成されている。

テストシステム１０１は、特徴に対応するデータ点の分布の平均を決定するように構成されたデータ分析ツール２０３を更に備える。例えば、特徴抽出部２０１は、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオンバケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等についてのデータ点を抽出する。そのようなデータ点は、データセットの分布の平均を導出するためにデータ分析ツール２０３によって分析されてよい。

さらに、１つの実施形態では、データ分析ツール２０３は、テストスイートのクエリのアクセス計画特性の抽出から得られた各特徴に対応するデータ点と、各そのような特徴に対応するデータ点の分布の平均との間の距離を測定するように構成されている。１つの実施形態では、そのような距離は、ユークリッド距離等の多変量距離に対応する。１つの実施形態では、データ分析ツール２０３は、テストスイートのクエリの実行から得られた各特徴に対応するデータ点と、各そのような特徴に対応するデータ点の分布の平均との間のマハラノビス距離を測定する。「テストスイート」又は「テストワークロードスイート」は、本明細書において使用される場合、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメント等の誤った挙動を識別するために現実世界状況をシミュレートすることによってビッグデータ管理システムをテストするように意図された（クエリを含む）ワークロードの集合を指す。

さらに、１つの実施形態では、データ分析ツール２０３は、特徴（例えば、アクセス計画オペレータタイプ）に対応するデータ点と、特徴のデータ点の分布の平均との間の最も遠い距離を、そのような特徴についての「閾値距離」として設定するように構成されている。そのような閾値は、以下で更に論述されるように、場合によっては、ビッグデータ管理システム１０２に対してストレステストを実行するために利用され得るクエリを識別するのに使用されることになる。

特徴に対応するデータ点の分布の平均を決定するためにデータ分析ツール２０３によって利用されるソフトウェアツールの例としては、限定されないが、Ｍｉｎｉｔａｂ（登録商標）、ＩＢＭ（登録商標）ＳＰＳＳＳｔａｔｉｓｔｉｃｓ、ＲＳｔｕｄｉｏ（登録商標）、ＯｒｉｇｉｎＰｒｏ（登録商標）、ＥＶｉｅｗｓ（登録商標）等が挙げられる。

テストシステム１０１は、加えて、ランダムテストクエリのセットを生成するように構成されたクエリ生成部２０４を備える。「テストクエリ」は、本明細書において使用される場合、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメント等の誤った挙動を識別するために現実世界状況をシミュレートすることによってビッグデータ管理システム（例えば、ビッグデータ管理システム１０２）をテストするのに使用されるクエリを指す。１つの実施形態では、そのようなランダムテストクエリは、テストクエリ内に含めるためにフィールドを含むテーブルを利用することに基づいて生成される。１つの実施形態では、そのようなフィールドは、エキスパートによって装入される。１つの実施形態では、そのようなテーブルは、テストシステム１０１の記憶デバイス（例えば、メモリ、ディスクドライブ）内に存在するデータ構造に対応する。１つの実施形態では、クエリは、クエリ生成部２０４によって、ランダムテストクエリのセットの各クエリ内に含めるために上述されたテーブルからフィールドをランダムに選択することによって、ランダムに生成される。１つの実施形態では、ランダムテストクエリの各々は、同じ数のフィールドを有する。１つの実施形態では、基準（例えば、ユニオンクエリ）は、エキスパートによってフィールドに追加される。

１つの実施形態では、クエリ生成部２０４は、クエリ生成部２０４が例示のエンティティインスタンスに基づいてクエリを作成することを可能にする実例型仕様（ＳＢＥ：ｓｐｅｃｉｆｉｃａｔｉｏｎｂｙｅｘａｍｐｌｅ）方法を介してランダムテストクエリのセットを生成する。例えば、代表的なテストクエリをクエリ生成部２０４に提出することができ、クエリ生成部２０４は、ＳＢＥ方法を使用して大規模データベースに記憶された「類似」のクエリを識別してよい。１つの実施形態では、そのような探索は、クエリベクトル同士を比較することに基づく。そのような一実施形態では、クエリは、ベクトル空間モデルを使用して識別子（インデックス項等）のベクトルとして表されてよい。

さらに、テストシステム１０１は、クエリを実行又はコンパイルするように構成されたクエリ実行部２０５を備える。さらに、１つの実施形態では、クエリ実行部２０５は、アクセス計画特性を抽出するためにランダムテストクエリのセットをコンパイルするように構成されており、アクセス計画特性は、上述されたように特徴（例えば、列タイプ、アクセス計画オペレータ）のデータ点を決定するために特徴抽出部２０１によって使用される。「アクセス計画」は、本明細書において使用される場合、データにアクセスするための動作の順序を指定することを指す。例えば、アクセス計画は、選択されたテーブル、インデックス又は列についての統計値、オペレータについての特性、テーブル空間及び機能統計値等のグローバル情報、並びに最適化に関連する構成パラメータを閲覧することを可能にする。「アクセス計画特性」は、本明細書において使用される場合、そのようなアクセス計画の特性を指す。前述されたように、特徴抽出部２０１は、クエリ特性を含むオプティマイザ計画又はアクセス計画からクエリ特性を抽出するように構成されている。

ランダムテストクエリのセットをコンパイルするためにクエリ実行部２０５によって利用されるソフトウェアツールの例としては、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬｓｅｒｖｅｒｍａｎａｇｅｍｅｎｔｓｔｕｄｉｏ（ＳＳＭＳ）、ＳＱＬＧａｔｅ（登録商標）、Ｐｏｓｔｉｃｏ、ＰｏｐＳＱＬ（登録商標）、ＡｄｍｉｎｅｒＥｄｉｔｏｒ、Ｖａｌｅｎｔｉｎａ、ＤＢｅａｖｅｒ（登録商標）、ＳＱｕｉｒｒｅＬＳＱＬ等が挙げられる。

加えて、テストシステム１０１は、その距離（特徴のデータ点と、そのような特徴に対応するデータ点の分布の平均との間の距離）が閾値距離を超えるランダムテストクエリ等のクエリを優先するように構成されたクエリ優先順位付けエンジン２０６を備える。１つの実施形態では、そのような優先順位付けは、期待されるランタイム持続時間に基づいて等で、ランダムテストクエリをランク付けすることを伴う。１つの実施形態では、ランタイム持続時間は、決定木を使用して予測され、ここで、以下で更に論述されるように、決定木は、変数を含み、変数の要素は、特徴を含む。さらに、１つの実施形態では、変数は、テーブルタイプ、オペレータ、割り込み、列タイプ、テーブルメタデータ等のようなクエリの特性を含む。

１つの実施形態では、クエリ優先順位付けエンジン２０６は、以下で更に論述されるように、ランダムテストクエリの各々に割り当てられた重みに基づいて、ランダムテストクエリをランク付けする。１つの実施形態では、そのような重みは、線形系の解によって決定される。

さらに、テストシステム１０１は、ストレステストを実行するためにビッグデータ管理システム１０２によって管理されるビッグデータクラスタ１０４に対して実行されることになるクエリ（例えば、ＳＱＬクエリ）の最適セットを識別及び選択するように構成されたクエリ選択部２０７を備え、ここで、そのようなクエリは、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する。１つの実施形態では、そのようなクエリの最適セットは、実行時にエラーをもたらしたランク付けされたランダムテストクエリに対応する。１つの実施形態では、そのような実行時にエラーをもたらしたクエリは、ログ（本明細書において「テストログ」と称される）に記憶される。

これらの機能及び他の機能の更なる説明は、ビッグデータ管理システムに対してストレステストを最適に実行する方法の論述に関連して以下で提供される。

ビッグデータ管理システムに対してストレステストを最適に実行する方法の論述に先立って、テストシステム１０１（図１）のハードウェア構成の説明が図３に関連して以下で提供される。

ここで、図１～図２と併せて図３を参照すると、図３は、本開示を実践するためのハードウェア環境を代表するテストシステム１０１（図１）のハードウェア構成の本開示の一実施形態を示している。

テストシステム１０１は、システムバス３０２によって様々な他のコンポーネントに接続されたプロセッサ３０１を有する。オペレーティングシステム３０３が、プロセッサ３０１上で実行され、図３の様々なコンポーネントの制御を提供し、それらの機能を協働させる。本開示の原理に係るアプリケーション３０４は、オペレーティングシステム３０３とともに実行され、オペレーティングシステム３０３に対する呼び出しを提供し、ここで、呼び出しは、アプリケーション３０４によって実行されることになる様々な機能又はサービスを実装する。アプリケーション３０４は、例えば、特徴抽出部２０１、クエリオプティマイザ２０２、データ分析ツール２０３、クエリ生成部２０４、クエリ実行部２０５、クエリ優先順位付けエンジン２０６及びクエリ選択部２０７を含んでよい。さらに、アプリケーション３０４は、例えば、図４Ａ～図４Ｂ及び図５～図７に関連して以下で更に論述されるように、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム１０２によって管理されるビッグデータクラスタ１０４に対して実行されることになるクエリ（例えば、ＳＱＬクエリ）の最適セットを生成するプログラムを含んでよい。

再び図３を参照すると、リードオンリメモリ（「ＲＯＭ」）３０５が、システムバス３０２に接続され、テストシステム１０１の特定の基本機能を制御する基本入力／出力システム（「ＢＩＯＳ」）を含む。ランダムアクセスメモリ（「ＲＡＭ」）３０６及びディスクアダプタ３０７も、システムバス３０２に接続される。オペレーティングシステム３０３及びアプリケーション３０４を含むソフトウェアコンポーネントは、ＲＡＭ３０６にロードされてよく、ＲＡＭ３０６は、実行のためのテストシステム１０１のメインメモリであってよいことが留意されるべきである。ディスクアダプタ３０７は、ディスクユニット３０８、例えば、ディスクドライブと通信するインテグレーテッドドライブエレクトロニクス（「ＩＤＥ」）アダプタであってよい。ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム１０２によって管理されるビッグデータクラスタ１０４に対して実行されることになるクエリ（例えば、ＳＱＬクエリ）の最適セットを生成するプログラムは、図４Ａ～図４Ｂ及び図５～図７に関連して以下で更に論述されるように、ディスクユニット３０８内又はアプリケーション３０４内に存在してよいことに留意されたい。

テストシステム１０１は、バス３０２に接続された通信アダプタ３０９を更に備えてよい。通信アダプタ３０９は、ビッグデータ管理システム１０２等の他のデバイスと通信するためにバス３０２を外部ネットワーク（例えば、図１のネットワーク１０３）と相互接続する。

１つの実施形態では、テストシステム１０１のアプリケーション３０４は、特徴抽出部２０１、クエリオプティマイザ２０２、データ分析ツール２０３、クエリ生成部２０４、クエリ実行部２０５、クエリ優先順位付けエンジン２０６及びクエリ選択部２０７のソフトウェアコンポーネントを含む。１つの実施形態では、そのようなコンポーネントは、ハードウェアにおいて実装されてよく、その場合、そのようなハードウェアコンポーネントは、バス３０２に接続されることになる。そのようなコンポーネントによって実行される上述された機能は、包括的なコンピュータ機能ではない。結果として、テストシステム１０１は、特定の、非包括的なコンピュータ機能を実装する結果である特定の機械である。

１つの実施形態では、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム１０２によって管理されるビッグデータクラスタ１０４に対して実行されることになるクエリ（例えば、ＳＱＬクエリ）の最適セットを生成する機能を含む、テストシステム１０１のそのようなソフトウェアコンポーネント（例えば、特徴抽出部２０１、クエリオプティマイザ２０２、データ分析ツール２０３、クエリ生成部２０４、クエリ実行部２０５、クエリ優先順位付けエンジン２０６及びクエリ選択部２０７）の機能は、特定用途向け集積回路において具現化されてよい。

本発明は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法若しくはコンピュータプログラム製品、又はその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通じて伝送される電気信号等の一時的な信号それ自体とは解釈されるべきではない。

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、或いは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク若しくはワイヤレスネットワーク、又はその組み合わせを介して、外部コンピュータ又は外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ若しくはエッジサーバ、又はその組み合わせを含んでよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、１つ若しくは複数のプログラミング言語の任意の組み合わせで記述されたソースコード若しくはオブジェクトコードのいずれかであってよく、１つ若しくは複数のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は同様のプログラミング言語のような手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、リモートコンピュータ若しくはサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図若しくはブロック図、又はその両方を参照して説明されている。フローチャート図若しくはブロック図、又はその両方の各ブロック、並びに、フローチャート図若しくはブロック図、又はその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

これらのコンピュータ可読プログラム命令をコンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータのプロセッサ又は他のプログラマブルデータ処理装置を介して実行される命令が、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶されてよく、当該命令は、コンピュータ、プログラマブルデータ処理装置若しくは他のデバイス、又はその組み合わせに対し、特定の方式で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を含むようになる。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成してもよく、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作を実装するようになる。

図面におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図面に記載される順序とは異なる順序で行われてよい。例えば、連続して示されている２つのブロックは、実際には、１つの段階として実現されても、同時に、実質的に同時に、部分的に若しくは全体的に時間重複する形で実行されてもよいし、ブロックは、関与する機能に依存して逆の順序で実行される場合もあり得る。ブロック図若しくはフローチャート図、又はその両方の各ブロック、並びにブロック図若しくはフローチャート図、又はその両方におけるブロックの組み合わせは、指定された機能若しくは動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。

上記で述べたように、データベース管理システムのストレステストは、システム／ランタイムの視点からデータベース管理システムソフトウェアを有効にテストするように徹底的な品質保証（ＱＡ）テストカバレッジ（テストされているソフトウェアの割合）を提供するためのデータの生成、データベースオブジェクトの装入、及び複雑なクエリ（例えば、複雑なＳＱＬクエリ）の生成の観点で、難題であり続けている。例えば、データベース管理システムをストレステストするクエリを生成することに関して、そのようなクエリは、信頼性、耐障害性及び安定性についてシステムをテストするのに十分に複雑であり、それと同時に、そのクエリを実行するのに多くの時間を要するほど複雑ではない必要がある。その上、従来的なオンライントランザクション処理（ＯＬＴＰ）／オンライン分析処理（ＯＬＡＰ）システムからデータベース管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）によって管理されるビッグデータクラスタ（ビッグデータを記憶するデータストア（例えば、Ｈａｄｏｏｐ（登録商標）分散ファイルシステム）を含むコンテナのクラスタ）への移行とともに、テストが実行する必要があるデータの量は、数桁分大きくなり、これにより、２４時間の期間内で実行され得るテストクエリの数は、大幅に減少した。「ビッグデータ」は、本明細書において使用される場合、一般的に使用されるソフトウェアツールが許容可能な経過時間内で捕捉、キュレート、管理及び処理を行う能力を超えるサイズを有するデータセットを指す。結果として、ビッグデータ管理システムに対するストレステストは、データベース管理システムソフトウェアの信頼性、耐障害性及び安定性をテストするために長時間にわたって数千個の複雑なクエリを実行する余裕を有していない。したがって、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に使用する、ビッグデータ管理システムに対してストレステストする手段は現状存在しない。

本開示の実施形態は、図４Ａ～図４Ｂ及び図５～図７に関連して以下で論述されるように、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）に対するストレステストにおいて使用されることになるクエリの最適セットを識別する手段を提供する。図４Ａ～図４Ｂは、ビッグデータ管理システムに対してストレステストを最適に実行する方法のフローチャートである。図５は、ランダムテストクエリの重みを計算する方法のフローチャートである。図６は、テストクエリに割り当てられた重みに基づいて、その距離が閾値距離を超えるランダムテストクエリをランク付けする方法のフローチャートである。図７は、例示的な決定木を示している。

上記で述べたように、図４Ａ～図４Ｂは、本開示の一実施形態に係る、ビッグデータ管理システムに対してストレステストを最適に実行する方法４００のフローチャートである。

図１～図３と併せて図４Ａを参照すると、段階４０１において、テストシステム１０１の特徴抽出部２０１は、トレーニングワークロードの成功をもたらすクエリ、オプティマイザ計画及び環境メタデータから抽出された特徴に対応するデータ点（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）を識別する。

上述されたように、「特徴」は、本明細書において使用される場合、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオン（使用されることになるリソースの評価に基づくコスト推定値）バケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等のような、クエリの特性を指す。「成功をもたらすクエリ」は、本明細書において使用される場合、エラー又は障害（例えば、ソフトウェアエラー）をもたらさない、ビッグデータ管理システム１０２によって実行されるクエリを指す。「ワークロード」は、本明細書において使用される場合、作業をハンドリング及び処理するビッグデータ管理システム１０２の能力を指す。「トレーニングワークロード」は、本明細書において使用される場合、いずれのクエリがビッグデータ管理システム１０２に対してストレステストを実行するのに最適であるかを判断するのに使用されるワークロードを指し、ここで、「最適なクエリ」は、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用するクエリを指す。１つの実施形態では、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオンバケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等のような、トレーニングワークロードの成功をもたらすクエリからの特徴は、特徴抽出部２０１によって抽出される。

「オプティマイザ計画」は、本明細書において使用される場合、実行の最適な方法を記述する、オプティマイザ２０２（クエリオプティマイザ）の出力を指す。そのような「出力」は、本明細書において「実行計画」及び「オプティマイザ計画」又は「アクセス計画」と称され得る。クエリオプティマイザ２０２は、本明細書において使用される場合、ＳＱＬステートメント等のクエリを実行する最も効率的な方法を決定するビルトインソフトウェアを指す。１つの実施形態では、クエリオプティマイザ２０２は、利用可能なアクセスパス及びヒントに基づいてＳＱＬステートメントについての潜在的計画のセットを生成する。クエリオプティマイザ２０２は、データディクショナリ内の統計値に基づいて各計画のコストを推定する。統計値は、ステートメントによってアクセスされるテーブル、インデックス及びパーティションのデータ分布及び記憶特性についての情報を含む。１つの実施形態では、コストは、特定の計画を用いてステートメントを実行するのに必要とされる期待されるリソース使用に比例する推定値である。１つの実施形態では、クエリオプティマイザ２０２は、推定されたコンピュータリソース（例えば、入力／出力、処理ユニット、メモリ等）に基づいてアクセスパス及び結合順序のコストを計算する。より高いコストを有する逐次計画は、より小さいコストを有する逐次計画よりも実行するのにより長い時間を要する。並列計画を使用する場合、リソース使用は、経過時間に直接関係しない。

加えて、１つの実施形態では、特徴抽出部２０１は、オプティマイザ計画及びターゲットテーブルメタデータから特徴セットを抽出するように構成されている。「ターゲットテーブル」は、本明細書において使用される場合、データが向かう場所又はアクションが行われるテーブルを指す。「ターゲットテーブルメタデータ」は、本明細書において使用される場合、クエリ時間統計値を含む、消費されるソースデータについてのデータ定義を提供するメタデータ（データに関するデータ）を指す。

１つの実施形態では、特徴抽出部２０１は、抽出されることになる特徴を識別するために自然言語処理を利用する。１つの実施形態では、特徴抽出部２０１は、上述されたそのような特徴を、そのような特徴を示すキーワードを識別することによって抽出し、ここで、そのようなキーワードは、データ構造（例えば、テーブル）内でリストされる。１つの実施形態では、そのようなデータ構造は、テストシステム１０１の記憶デバイス（例えば、メモリ３０５、ディスクドライブ３０８）に記憶される。

段階４０２において、テストシステム１０１のデータ分析ツール２０３は、各特徴に対応するデータ点の分布の平均を決定する。例えば、特徴抽出部２０１は、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオンバケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等についてのデータ点を抽出する。そのようなデータ点は、データセットの分布の平均を導出するためにデータ分析ツール２０３によって分析されてよい。

上記で述べたように、特徴に対応するデータ点の分布の平均を決定するためにデータ分析ツール２０３によって利用されるソフトウェアツールの例としては、限定されないが、Ｍｉｎｉｔａｂ（登録商標）、ＩＢＭ（登録商標）ＳＰＳＳＳｔａｔｉｓｔｉｃｓ、ＲＳｔｕｄｉｏ（登録商標）、ＯｒｉｇｉｎＰｒｏ（登録商標）、ＥＶｉｅｗｓ（登録商標）等が挙げられる。

段階４０３において、テストシステム１０１は、エキスパートから等で、テストスイートのクエリを受信する。「テストスイート」又は「テストワークロードスイート」は、本明細書において使用される場合、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメント等の誤った挙動を識別するために現実世界状況をシミュレートすることによってビッグデータ管理システムをテストするように意図された（クエリを含む）ワークロードの集合を指す。

段階４０４において、テストシステム１０１のクエリ実行部２０５は、アクセス計画特性を抽出するためにテストスイートの受信されたクエリをコンパイルし、これは、特徴（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）のデータ点を決定するために特徴抽出部２０１によって使用され、ここで、テストシステム１０１のデータ分析ツール２０３は、テストスイートのクエリのコンパイルから得られた各特徴に対応するデータ点と、（段階４０２において決定された）各そのような特徴に対応するデータ点の分布の平均との間の距離を測定する。

１つの実施形態では、データ分析ツール２０３は、テストスイートのクエリのコンパイルから得られた各特徴に対応するデータ点と、各そのような特徴に対応するデータ点の分布の平均との間の多変量距離（例えば、マハラノビス距離、ユークリッド距離）を測定する。

上記で述べたように、ランダムテストクエリのセットをコンパイルするためにクエリ実行部２０５によって利用されるソフトウェアツールの例としては、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬｓｅｒｖｅｒｍａｎａｇｅｍｅｎｔｓｔｕｄｉｏ（ＳＳＭＳ）、ＳＱＬＧａｔｅ（登録商標）、Ｐｏｓｔｉｃｏ、ＰｏｐＳＱＬ（登録商標）、ＡｄｍｉｎｅｒＥｄｉｔｏｒ、Ｖａｌｅｎｔｉｎａ、ＤＢｅａｖｅｒ（登録商標）、ＳＱｕｉｒｒｅＬＳＱＬ等が挙げられる。

段階４０５において、テストシステム１０１のデータ分析ツール２０３は、特徴に対応するデータ点（テストスイートの実行されるクエリの特徴のデータ点）と、特徴のデータ点の分布の平均との間の最も遠い距離を、そのような特徴についての「閾値距離」として設定する。そのような閾値は、場合によっては、ビッグデータ管理システム１０２に対してストレステストを実行するために利用され得るクエリを識別するのに使用されることになる。例えば、そのような閾値距離は、以下で更に論述されるように、クエリ又はシステム障害を引き起こす高い確率を有する外れ値クエリを識別するのに使用される。

段階４０６において、テストシステム１０１のクエリ生成部２０４は、ランダムテストクエリのセットを生成する。上記で述べたように、「テストクエリ」は、本明細書において使用される場合、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメント等の誤った挙動を識別するために現実世界状況をシミュレートすることによってビッグデータ管理システム（例えば、ビッグデータ管理システム１０２）をテストするのに使用されるクエリを指す。１つの実施形態では、そのようなランダムテストクエリは、テストクエリ内に含めるためにフィールドを含むテーブルを利用することに基づいて生成される。１つの実施形態では、そのようなフィールドは、エキスパートによって装入される。１つの実施形態では、そのようなテーブルは、テストシステム１０１の記憶デバイス（例えば、メモリ３０５、ディスクドライブ３０８）内に存在するデータ構造に対応する。１つの実施形態では、クエリは、クエリ生成部２０４によって、ランダムテストクエリのセットの各クエリ内に含めるために上述されたテーブルからフィールドをランダムに選択することによって、ランダムに生成される。１つの実施形態では、ランダムテストクエリの各々は、同じ数のフィールドを有する。１つの実施形態では、基準（例えば、ユニオンクエリ）は、エキスパートによってフィールドに追加される。

１つの実施形態では、クエリ生成部２０４は、クエリ生成部２０４が例示のエンティティインスタンスに基づいてクエリを作成することを可能にする実例型仕様（ＳＢＥ）方法を介してランダムテストクエリのセットを生成する。例えば、代表的なテストクエリをクエリ生成部２０４に提出することができ、クエリ生成部２０４は、ＳＢＥ方法を使用して大規模データベースに記憶された「類似」のクエリを識別してよい。１つの実施形態では、そのような探索は、クエリベクトル同士を比較することに基づく。そのような一実施形態では、クエリは、ベクトル空間モデルを使用して識別子（インデックス項等）のベクトルとして表されてよい。

段階４０７において、テストシステム１０１の特徴抽出部２０１は、オプティマイザ計画及びターゲットテーブルメタデータから特徴セットを抽出する。

上述されたように、１つの実施形態では、オプティマイザ計画内に、クエリ特性（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオンバケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等）が含まれる。そのような特徴は、特徴抽出部２０１によって抽出される。

「ターゲットテーブル」は、本明細書において使用される場合、データが向かう場所又はアクションが行われるテーブルを指す。「ターゲットテーブルメタデータ」は、本明細書において使用される場合、クエリ時間統計値を含む、消費されるソースデータについてのデータ定義を提供するメタデータ（データに関するデータ）を指す。そのような特徴は、特徴抽出部２０１によってターゲットテーブルメタデータから抽出される。

段階４０８において、テストシステム１０１のデータ分析ツール２０３は、段階４０２に関連して上述されたように抽出された特徴セットの各特徴に対応するデータ点の分布の平均を測定する。

段階４０９において、テストシステム１０１のクエリ実行部２０５は、アクセス計画特性を抽出するためにランダムテストクエリをコンパイルし、これは、クエリの特徴のデータ点を決定するために特徴抽出部２０１によって使用され、次に、テストシステム１０１のデータ分析ツール２０３に、各そのような特徴（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）に対応するデータ点と、抽出された特徴セットのその同じ特徴に対応するデータ点の分布の平均との間の距離を測定させる。

１つの実施形態では、クエリ実行部２０５は、段階４０４において等で前述されたように、特徴抽出部２０１が特徴（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）のデータ点を決定するためにランダムテストクエリのセットをコンパイルするように構成されている。

さらに、データ分析ツール２０３は、段階４０４に関連して上述された方法と同じ方法で、各そのような特徴（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）に対応するデータ点と、抽出された特徴セットのその同じ特徴に対応するデータ点の分布の平均との間の距離を測定する。１つの実施形態では、そのような距離は、多変量距離（例えば、マハラノビス距離、ユークリッド距離）に対応する。

段階４１０において、測定された距離（例えば、クエリされるテーブルタイプ等の特徴についてのマハラノビス距離）が（段階４０５において決定された）そのような特徴（例えば、クエリされるテーブルタイプ）についての閾値距離を超えているか否かについての判断がテストシステム１０１のデータ分析ツール２０３によって行われる。そのような判断は、クエリ又はシステム障害を引き起こす高い確率を有するクエリを識別するために実行される。

測定された距離がそのような特徴についての閾値距離を超えていない場合、段階４１１において、テストシステム１０１のデータ分析ツール２０３は、テストクエリを破棄する。そのようなクエリは、ストレステストの観点でほとんど価値を与えないので、破棄される。そのようなクエリは、類似のカバレッジ（例えば、品質保証カバレッジ）を提供する他のクエリが実行されることになるので、ストレステストの観点でほとんど価値を与えない。換言すれば、そのようなクエリを破棄することによって、本開示の実施形態は、過多量の観点でほとんど価値を与えない類似のテストクエリの実行を防ぐ。

ここで、図１～図３と併せて図４Ｂを参照すると、他方、測定された距離がそのような特徴についての閾値距離を超えている場合、段階４１２において、テストシステム１０１のデータ分析ツール２０３は、テストクエリをクエリ優先順位付けエンジン２０６に、優先されるようにフィードする。１つの実施形態では、そのようなクエリは、カバレッジ複雑性及び推定クエリ持続時間に従ってクエリ優先順位付けエンジン２０６によってランク付けされることになる。

段階４１３において、追加のランダムテストクエリがコンパイルされることになるか否かについての判断がテストシステム１０１によって行われる。コンパイルされることになる追加のランダムテストクエリが存在する場合、クエリ実行部２０５は、段階４０９において別のランダムテストクエリをコンパイルする。

他方、コンパイルされることになる追加のランダムテストクエリが存在しない場合、段階４１４において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、優先されることになるランダムテストクエリをランク付けする。

１つの実施形態では、クエリ優先順位付けエンジン２０６は、期待されるランタイム持続時間に基づいてランダムテストクエリをランク付けし、期待されるランタイム持続時間は、決定木を使用して（クエリがビッグデータ管理システム１０２によって管理されるビッグデータクラスタ１０４に対して実行されるときのクエリのランタイム持続時間を予測する）クエリの部分について予測され、ここで、決定木は、変数を含み、変数の要素は、特徴を含む。ランダムテストクエリをランク付けするクエリ優先順位付けエンジン２０６の実施形態に関する論述が、図５～図７に関連して以下で論述される。

図５は、本開示の一実施形態に係る、ランダムテストクエリの重みを計算する方法５００のフローチャートである。

１つの実施形態では、クエリ優先順位付けエンジン２０６は、少数の選択されたランダムテストクエリのランタイム持続時間を、他のクエリについてのランタイム持続時間を予測するために、使用する。１つの実施形態では、そのような予測を行うために決定木が利用される。１つの実施形態では、決定木の設計は、特定のクエリの機能仕様に基づく。モデル化分類の場合、入力ドメインは、相互排他的なサブセット（いわゆる分類クラス）に分割される。決定木定義において、クエリは、異なる分類から分類クラスを組み合わせることによって定義される。１つの実施形態では、分類は相互排他的な特徴のみを含むので、クエリは、１つの分類の複数の特徴を含むことができない。

「分類クラス」は、本明細書において使用される場合、「変数」（例えば、クエリされるテーブルタイプ、オペレータ、割り込み等）とも呼ばれ、それらの要素は、「特徴」（例えば、Ａｐａｃｈｅ（登録商標）Ｐａｒｑｕｅｔ、ＴＥＭＰ演算、ＵＮＩＯＮ演算、Ｎ行への限定等）と呼ばれる。「クエリ」は、本明細書において論述される場合、変数ごとに１つずつの、ｎ個の特徴のセットを表す。クエリランタイム予測及びクエリ優先順位付けは、少なくとも１つのクエリを用いてカバレッジメトリックによって指定される特徴の全ての組み合わせをカバーするクエリの可能な最小サブセットを決定するのに使用される。

分類クラスは、クエリ（例えば、ＳＱＬクエリ）の特性と、クエリがビッグデータ管理システムのソフトウェア上で実行されるコードパスとの間の強い相関が存在するため利用される。結果として、クエリの重要な特性（特徴）を制御することは、ビッグデータ管理システムのソフトウェアコードのいずれの部分が行使されるかを制御することも意味する。

データセットの特徴として変換されるＳＱＬ－ｏｎ－Ｈａｄｏｏｐクエリ等のクエリの重要な特性の例としては、次のもの、すなわち、テーブルタイプ（異なるテーブルタイプが異なるコードパスを処理及びカバーするために異なるＳＱＬエンジン入力／出力リーダを呼び出すため、テーブルタイプ間の強い相関）、オペレータ（ＳＱＬクエリ計画オペレータは、クエリを実行する正確な段階を決定し、ここで、各オペレータは、ランタイムエンジン内で異なる機能をカバーする）、割り込み、列タイプ（行演算、述語フィルタリング及び他の低レベル機能は、ＳＱＬクエリ実行及び品質保証カバレッジに非常に相関にさせる列タイプに依存する）、環境／テーブルメタデータ（パーティションデータ及びテーブルの濃度が、ランタイムカバレッジに影響を与え、クエリ複雑性のインジケータである）、複雑性の総コスト及び一時的テーブル使用（オプティマイザ計画のための複雑性及びカバレッジの重要なインジケータが品質保証カバレッジのレベルと相関される）等が挙げられる。

そのような決定木の設計は、図５に関連して以下で論述される。

図１～図３及び図４Ａ～図４Ｂと併せて図５を参照すると、段階５０１において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、テンプレートクエリを選択する。例えば、特徴ｙ１、ｙ２及びｙ３を含むクエリが選択され、ここで、例えば、ｙ１＝「Ｒｅｌａｔｉｏｎａｌ」、ｙ２＝「ＧＲＰＢＹ」及びｙ３＝「ＦｅｔｃｈｆｉｒｓｔＮｒｏｗｓ」である。１つの実施形態では、クエリ優先順位付けエンジン２０６は、エキスパートによって装入されるデータ構造（例えば、テーブル）に記憶されたテンプレートクエリのセットのうちのテンプレートクエリを選択する。１つの実施形態では、データ構造は、テストシステム１０１の記憶デバイス（例えば、メモリ３０５、ディスクドライブ３０８）に記憶される。そのようなテンプレートクエリは、ビッグデータ管理システムのストレステストを実行するために利用される大半のクエリが含む特徴を含むように設計される。

段階５０２において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、テンプレートクエリ内の分類クラス（変数）のクラス重みを１になるように設定する。例えば、クエリ優先順位付けエンジン２０６は、テンプレートクエリ内の分類クラスのクラス重み（ｃｗ）を１になるように設定し、すなわち、ｙ１（ｃｗ＝１）、ｙ２（ｃｗ＝１）、及びｙ３（ｃｗ＝１）である。「クラス重み」は、本明細書において使用される場合、分類クラスの重要度を示す値を指す。例えば、クラス重みが高くなるほど、その分類クラスの重要度が高くなる。１つの実施形態では、クラス重みは、０～１の値の間で正規化される。

段階５０３において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、テンプレートクエリの参照分類クラスを同じモデル化分類の別の分類クラスｃに置き換えることによって、クエリ（本明細書において「シグマクエリ」と称される）を生成する。例えば、参照分類クラス（例えば、ｙ３）は、シグマσクエリ（例えば、δＹ２＝（ｙ１，ｙ２，ｙ４））を生成する同じモデル化分類（例えば、σｃ）の別の分類クラス（例えば、ｙ４）に置き換えられる。

段階５０４において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、テンプレートクエリのクエリランタイムｔ＿ｑｔを測定する。１つの実施形態では、クエリ優先順位付けエンジン２０６は、クエリランタイムを測定するための次のツール、例えば、ＳｏｌａｒＷｉｎｄｓ（登録商標）ＤａｔａｂａｓｅＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｚｅｒ、ＡｐｐＯｐｔｉｃｓ（商標）ＡＰＭ、ＭａｎａｇｅＥｎｇｉｎｅ（登録商標）ＡｐｐｌｉｃａｔｉｏｎｓＭａｎａｇｅｒ、Ｒｅｄｇａｔｅ（登録商標）ＳＱＬＭｏｎｉｔｏｒ、ＥｖｅｒＳＱＬ、Ｉｄｅｒａ（登録商標）ＤＢＯｐｔｉｍｉｚｅｒ、ｄｂＦｏｒｇｅＳｔｕｄｉｏ等のうちの任意のものを利用する。

段階５０５において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、シグマクエリσｃ（例えば、δＹ２＝（ｙ１，ｙ２，ｙ４））ごとに、クエリランタイムｔ＿ｑｃを測定する。上述されたように、１つの実施形態では、クエリ優先順位付けエンジン２０６は、クエリランタイムを測定するための次のツール、例えば、ＳｏｌａｒＷｉｎｄｓ（登録商標）ＤａｔａｂａｓｅＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｚｅｒ、ＡｐｐＯｐｔｉｃｓ（商標）ＡＰＭ、ＭａｎａｇｅＥｎｇｉｎｅ（登録商標）ＡｐｐｌｉｃａｔｉｏｎｓＭａｎａｇｅｒ、Ｒｅｄｇａｔｅ（登録商標）ＳＱＬＭｏｎｉｔｏｒ、ＥｖｅｒＳＱＬ、Ｉｄｅｒａ（登録商標）ＤＢＯｐｔｉｍｉｚｅｒ、ｄｂＦｏｒｇｅＳｔｕｄｉｏ等のうちの任意のものを利用する。

段階５０６において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、ｃの重みを、ｔ＿ｑｃ／ｔ＿ｑｔに等しい値に設定する。例えば、ｔ＿ｑｔ＝４ｓ及びｔ＿Ｙ２（ｔ＿ｑｃ）＝８ｓである場合、ｙ４の重みはｃｗ＝２である。

段階５０７において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、ランダムクエリの総重みを、その分類クラスの重みの積として計算する。結果として、クエリは、それらの総重みに基づいて優先順位付けすることができる。

１つの実施形態では、重みの計算は、Ｎ＝（「総分類クラス」－「総モデル化分類」）個の解を有する線形系の解によって決定される。１つの実施形態では、そのようなＮ個の解は、参照分類クラス外の分類クラスの重みに対応する。そのような方法において重みを計算することに関する論述は、図６に関連して以下で提供される。

図６は、本開示の一実施形態に係る、テストクエリに割り当てられた重みに基づいて、その距離が閾値距離を超えるランダムテストクエリをランク付けする方法６００のフローチャートである。

図１～図３及び図４Ａ～図４Ｂと併せて図６を参照すると、段階６０１において、テストシステム１０１のクエリ生成部２０４は、Ｎ＋１個のクエリを生成する。

１つの実施形態では、そのようなクエリは、クエリ生成部２０４によって、クエリ内に含めるためにフィールドを含むテーブルを利用することに基づいて生成される。１つの実施形態では、そのようなフィールドは、エキスパートによって装入される。１つの実施形態では、そのようなテーブルは、テストシステム１０１の記憶デバイス（例えば、メモリ３０５、ディスクドライブ３０８）内に存在するデータ構造に対応する。１つの実施形態では、クエリは、クエリ生成部２０４によって、Ｎ＋１個のクエリの各クエリ内に含めるために上述されたテーブルからフィールドをランダムに選択することによって、生成される。１つの実施形態では、クエリの各々は、同じ数のフィールドを有する。１つの実施形態では、基準（例えば、ユニオンクエリ）は、エキスパートによってフィールドに追加される。

１つの実施形態では、クエリ生成部２０４は、クエリ生成部２０４が例示のエンティティインスタンスに基づいてクエリを作成することを可能にする実例型仕様（ＳＢＥ）方法を介してＮ＋１個のクエリのセットを生成する。例えば、代表的なテストクエリをクエリ生成部２０４に提出することができ、クエリ生成部２０４は、ＳＢＥ方法を使用して大規模データベースに記憶された「類似」のクエリを識別してよい。１つの実施形態では、そのような探索は、クエリベクトル同士を比較することに基づく。そのような一実施形態では、クエリは、ベクトル空間モデルを使用して識別子（インデックス項等）のベクトルとして表されてよい。

クエリを生成するためにクエリ生成部２０４によって利用されるソフトウェアツールの例としては、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬｓｅｒｖｅｒｍａｎａｇｅｍｅｎｔｓｔｕｄｉｏ（ＳＳＭＳ）、ＳＱＬＧａｔｅ（登録商標）、Ｐｏｓｔｉｃｏ、ＰｏｐＳＱＬ（登録商標）、ＡｄｍｉｎｅｒＥｄｉｔｏｒ、Ｖａｌｅｎｔｉｎａ、ＤＢｅａｖｅｒ（登録商標）、ＳＱｕｉｒｒｅＬＳＱＬ等が挙げられる。

段階６０２において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、第１のクエリをテンプレートクエリになるように設定し、ここで、クエリ内の全ての分類クラスに１の重みが割り当てられる。

段階６０３において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、残りのクエリの重みを、そのクエリランタイム（当該残りのクエリのクエリランタイム）に基づいて得る。１つの実施形態では、クエリランタイムが短くなるほど、重みは高くなる。上述されたように、１つの実施形態では、クエリ優先順位付けエンジン２０６は、クエリランタイムを測定するための次のツール、例えば、ＳｏｌａｒＷｉｎｄｓ（登録商標）ＤａｔａｂａｓｅＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｚｅｒ、ＡｐｐＯｐｔｉｃｓ（商標）ＡＰＭ、ＭａｎａｇｅＥｎｇｉｎｅ（登録商標）ＡｐｐｌｉｃａｔｉｏｎｓＭａｎａｇｅｒ、Ｒｅｄｇａｔｅ（登録商標）ＳＱＬＭｏｎｉｔｏｒ、ＥｖｅｒＳＱＬ、Ｉｄｅｒａ（登録商標）ＤＢＯｐｔｉｍｉｚｅｒ、ｄｂＦｏｒｇｅＳｔｕｄｉｏ等のうちの任意のものを利用する。

段階６０４において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、図７に関連して以下で更に論述されるように、得られた重みを使用して線形系を定義する行列式を計算する。

段階６０５において、図７に関連して以下で更に論述されるように、線形系の一意性が確認されたか否かについての判断がテストシステム１０１のクエリ優先順位付けエンジン２０６によって行われる。

線形系の一意性が確認された場合、段階６０６において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、クエリのリストにクエリを記憶する。１つの実施形態では、そのようなリストは、テストシステム１０１の記憶デバイス（例えば、メモリ３０５、ディスクドライブ３０８）内に保存されるデータ構造（例えば、テーブル）に対応する。

しかしながら、線形系の一意性が確認されなかった場合又はクエリのリストへのクエリの記憶時、段階６０７において、分析されることになる任意の更なるクエリが存在するか否かについての判断がテストシステム１０１のクエリ優先順位付けエンジン２０６によって行われる。

分析されることになる更なるクエリが存在する場合、クエリ優先順位付けエンジン２０６は、段階６０３において、次の残りのクエリの重みを、そのクエリランタイムに基づいて得る。

しかしながら、分析されることになる更なるクエリが存在しない場合、段階６０８において、テストシステム１０１のクエリ優先順位付けエンジン２０６は、クエリランタイムに基づいてクエリのリスト内のクエリをランク付けする。例えば、より小さいランタイム持続時間を有するクエリは、より大きいランタイム持続時間を有するクエリよりも高くランク付けされる。

一例として、ここで、本開示の一実施形態に係る例示的な決定木を示す図７を参照すると、決定木パターンセット７００は、分類クラス（変数）７０１Ａ～７０１Ｃ（それぞれ、「テーブルタイプ変数」、「オペレータ変数」、及び「割り込み変数」として識別される）の層を含む。分類クラス７０１Ａ～７０１Ｃは、それぞれ、まとめて複数の分類クラス７０１、又は個別に分類クラス７０１と称され得る。

さらに、図７において示されているように、各分類クラス７０１は、１つ又は複数の要素（特徴）を含んでよい。例えば、分類クラス７０１Ａは、要素ｙ１７０２Ａ、ｙ６７０２Ｂ及びｙ８７０２Ｃを含む。分類クラス７０１Ｂは、要素ｙ２７０２Ｄ、ｙ７７０２Ｅ及びｙ９７０２Ｆを含む。さらに、分類クラス７０１Ｃは、要素ｙ３７０２Ｇ及びｙ５７０２Ｈを含む。

図６と併せて図７を参照すると、図７の決定木は、次のこと、すなわち、全ペア並べ替えシーケンスセット内の最初の６＝（８－３）＋１個のクエリ（Ｎ＋１個のクエリを生成するのにＮ＝５を仮定する）が、ＱＲ＝（ｙ１，ｙ２，ｙ３）、Ｑ１＝（ｙ１，ｙ４，ｙ５）、Ｑ２＝（ｙ６，ｙ２，ｙ５）、Ｑ３＝（ｙ６，ｙ４，ｙ３）、Ｑ４＝（ｙ８，ｙ９，ｙ３）、及びＱ５＝（ｙ８，ｙ４，ｙ５）によって与えられることを暗示する。

１つの実施形態では、ｙ１についてのクラス重み（ｃｗ）は、ｃｗ＿ｙ１によって与えられ、ｙ２についてのｃｌａｓｓ＿ｗｅｉｇｈｔ（ｃｗ）は、ｃｗ＿ｙ２によって与えられ、以下も同様であり、このクエリ内の全ての分類クラスに１の重みが割り当てられ、例えば、（ｃｗ＿ｙ１＝ｃｗ＿ｙ２＝ｃｗ＿３）＝１である。次に、ｔ＿ＱＲ、ｔ＿Ｑ１、...、ｔ＿Ｑ５としてクエリランタイムを考慮することによって、Ｑ１は、重み（ｃｗ＿ｙ１＊ｃｗ＿ｙ２＊ｃｗ＿ｙ３）＝（ｔ＿Ｑ１／ｔ＿ＱＲ）を得、以下も同様である。指数形式の線形系を解くために、（ｃｗ＿ｙ１＝ｃｗ＿ｙ２＝ｃｗ＿ｙ３）＝１であることを考慮に入れることによって、次式、すなわち、ｌｏｇ（ｃｗ＿ｙ４）＋ｌｏｇ（ｃｗ＿ｙ５）＝ｌｏｇ（ｔ＿Ｑ１／ｔ＿ＱＲ）が得られ、以下も同様である。その場合、線形系は、以下の行列によって定義される：
［
００１０１｜ｌｏｇ（ｔ＿Ｑ１／ｔ＿ＱＲ）
１０００１｜ｌｏｇ（ｔ＿Ｑ２／ｔ＿ＱＲ）
１０１００｜ｌｏｇ（ｔ＿Ｑ３／ｔ＿ＱＲ）
０１０１０｜ｌｏｇ（ｔ＿Ｑ４／ｔ＿ＱＲ）
０１１００｜ｌｏｇ（ｔ＿Ｑ５／ｔ＿ＱＲ）
］

右辺の計算された行列式は２である。結果として、線形系解の一意性が確認される。例えば、ｔ＿ＱＲ＝１ｓ、ｔ＿Ｑ１＝２ｓ、ｔ＿Ｑ２＝１０９ｓ、ｔ＿Ｑ３＝１２ｓ、ｔ＿Ｑ４＝８２ｓ、及びｔ＿Ｑ５＝６０ｓとしてランタイムを測定し、重みについての上記と同じ結果が予測される。次に、クエリの優先順位付けは、最小クエリランタイム値から最高クエリランタイム値まで達成される。

したがって、品質保証（ＱＡ）カバレッジが許すとおり、クエリは、最小クエリランタイムから最高クエリランタイムまで実行することができる。

さらに、図７において示されているように、ランタイム持続時間は、分類木要素の重要度（すなわち、選択されたテストケースの重み）に基づいて予測される。重みは、上述されたように線形系を介して計算される。

図１～図３及び図５～図７と併せて、図４Ｂに戻ると、段階４１５において、テストシステム１０１のクエリ実行部２０５は、テストクエリをランク順に実行する。
クエリを実行するためにクエリ実行部２０５によって利用されるソフトウェアツールの例としては、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬｓｅｒｖｅｒｍａｎａｇｅｍｅｎｔｓｔｕｄｉｏ（ＳＳＭＳ）、ＳＱＬＧａｔｅ（登録商標）、Ｐｏｓｔｉｃｏ、ＰｏｐＳＱＬ（登録商標）、ＡｄｍｉｎｅｒＥｄｉｔｏｒ、Ｖａｌｅｎｔｉｎａ、ＤＢｅａｖｅｒ（登録商標）、ＳＱｕｉｒｒｅＬＳＱＬ等が挙げられる。以下の段階は、そのようなテストクエリのうちの１つのテストクエリの実行を論述する。

段階４１６において、テストクエリの実行が成功であった（すなわち、システム障害等のエラーが識別されなかった）か否かについての判断がテストシステム１０１のクエリ実行部２０５によって行われる。

テストクエリの実行が成功であった場合、段階４１７において、テストシステム１０１のクエリ実行部２０５は、クエリのトレーニングセットを更新する。そのようなトレーニングセットは、エラーが識別されなかったことを反映するように更新され、将来のクエリ生成に影響を与えるのに使用される。上述されたように、本開示の原理は、利用可能な時間及びリソースの使用を最適化しながら、クエリ又はシステム障害を引き起こす高い確率を有するビッグデータ管理システム１０２をテストするためのクエリの最適セットを生成することを対象とする。結果として、成功であるテストクエリは、ランダムテストクエリの後続の生成されるセットにおいて利用される可能性はより低い。

しかしながら、テストクエリの実行が成功ではなかった（すなわち、システム障害等のエラーが識別された）場合、段階４１８において、テストシステム１０１のクエリ実行部２０５は、クエリを、エラーをもたらしたクエリのリストを維持するログ（本明細書において「テストログ」と称される）に追加する。そのようなクエリのリストは、システム又はクエリ障害等のエラーを強制する高い確率を有するクエリを含む。

段階４１９において、追加のテストクエリが実行される必要があるか否かについての判断がテストシステム１０１のクエリ実行部２０５によって行われる。追加のテストクエリが実行される必要がある場合、テストシステム１０１のクエリ実行部２０５は、段階４１５において次のテストクエリをランク順に実行する。

しかしながら、実行されることになる追加のテストクエリが存在しない場合、段階４２０において、テストシステム１０１のクエリ選択部２０７は、テストログに記憶されたクエリのリストを使用してビッグデータ管理システム１０２に対してストレステストを実行するためのクエリの最適セットを識別する。前述されたように、テストログは、ビッグデータ管理システム１０２がビッグデータクラスタ１０４に対してそのようなクエリを実行する際にエラーを強制する高い確率を有するクエリのリストを含む。

エラーを強制する高い確率を有するクエリを利用する等、ビッグデータ管理システムに対してストレステストを実行するためのクエリの数を限定することによって、時間及びリソースは、ストレステストの品質を妥協することなく最適に使用される。

このようにして、クエリの最適セットは、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）に対するストレステストにおいて使用されるために識別される。

前述の結果として、本開示の実施形態は、クエリ又はシステム障害を引き起こす高い確率を有する外れ値クエリのセットを生成する。さらに、本開示の実施形態は、各外れ値クエリのランタイム持続時間を予測し、最短実行クエリが最初に実行され得るように実行を優先し、それによって利用可能な時間及びリソースの使用が最適化される。

さらに、本開示の原理は、ストレステストを含む技術又は技術分野を改善する。
上述されたように、データベース管理システムのストレステストは、システム／ランタイムの視点からデータベース管理システムソフトウェアを有効にテストするように徹底的な品質保証（ＱＡ）テストカバレッジ（テストされているソフトウェアの割合）を提供するためのデータの生成、データベースオブジェクトの装入、及び複雑なクエリ（例えば、複雑なＳＱＬクエリ）の生成の観点で、難題であり続けている。例えば、データベース管理システムをストレステストするクエリを生成することに関して、そのようなクエリは、信頼性、耐障害性及び安定性についてシステムをテストするのに十分に複雑であり、それと同時に、そのクエリを実行するのに多くの時間を要するほど複雑ではない必要がある。その上、従来的なオンライントランザクション処理（ＯＬＴＰ）／オンライン分析処理（ＯＬＡＰ）システムからデータベース管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）によって管理されるビッグデータクラスタ（ビッグデータを記憶するデータストア（例えば、Ｈａｄｏｏｐ（登録商標）分散ファイルシステム）を含むコンテナのクラスタ）への移行とともに、テストが実行する必要があるデータの量は、数桁分大きくなり、これにより、２４時間の期間内で実行され得るテストクエリの数は、大幅に減少した。「ビッグデータ」は、本明細書において使用される場合、一般的に使用されるソフトウェアツールが許容可能な経過時間内で捕捉、キュレート、管理及び処理を行う能力を超えるサイズを有するデータセットを指す。結果として、ビッグデータ管理システムに対するストレステストは、データベース管理システムソフトウェアの信頼性、耐障害性及び安定性をテストするために長時間にわたって数千個の複雑なクエリを実行する余裕を有していない。したがって、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に使用する、ビッグデータ管理システムに対してストレステストする手段は現状存在しない。

本開示の実施形態は、ランダムテストクエリのセットを生成することによってそのような技術を改善する。「テストクエリ」は、本明細書において使用される場合、データベースシステムの特定の特徴におけるコード欠陥に起因する失敗をもたらすＳＱＬステートメント等の誤った挙動を識別するために現実世界状況をシミュレートすることによってビッグデータ管理システムをテストするのに使用されるクエリを指す。１つの実施形態では、そのようなランダムテストクエリは、テストクエリ内に含めるためにフィールドを含むテーブルを利用することに基づいて生成される。次に、ランダムテストクエリのセットは、当該ランダムテストクエリの当該セットの特徴（例えば、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ）のデータ点を決定するためにアクセス計画特性を抽出するようにコンパイルされる。「アクセス計画」は、本明細書において使用される場合、データにアクセスするための動作の順序を指定することを指す。「アクセス計画特性」は、本明細書において使用される場合、そのようなアクセス計画の特性を指す。「特徴」は、本明細書において使用される場合、列タイプ、クエリされるテーブルタイプ、アクセス計画オペレータタイプ、タイマーオン（使用されることになるリソースの評価に基づくコスト推定値）バケットに分割される複雑性の総コスト、一時的テーブル使用、最終統計値等のような、クエリの特性を指す。次に、ランダムテストクエリのセットの特徴のデータ点と、抽出された特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離（例えば、マハラノビス距離、ユークリッド距離）が測定される。１つの実施形態では、特徴セットは、オプティマイザ計画及びターゲットテーブルメタデータから抽出され、ここで、抽出された特徴セットの各特徴に対応するデータ点の分布の平均が測定される。「オプティマイザ計画」は、本明細書において使用される場合、実行の最適な方法を記述する、オプティマイザの出力を指す。「ターゲットテーブルメタデータ」は、本明細書において使用される場合、クエリ時間統計値を含む、消費されるソースデータについてのデータ定義を提供するメタデータ（データに関するデータ）を指す。次に、その距離が閾値距離を超える各ランダムテストクエリがランク付けされる。次に、ランク付けされたランダムテストクエリは、ランク順に実行される。エラーをもたらした（例えば、システム障害等のエラーが識別された）実行されたランダムテストクエリは、ログに追加され、これは、ビッグデータ管理システムに対してストレステストを実行するためにそれらのクエリを識別するのに使用される。このようにして、ストレステストの品質を妥協することなく利用可能な時間及びリソースを最適に利用する、ビッグデータ管理システム（例えば、ＩＢＭ（登録商標）ＤＢ２（登録商標）ＢｉｇＳＱＬ）に対するストレステストにおいて使用されることになるクエリの最適セットが識別される。さらに、このようにして、ストレステストを含む技術分野において改善がなされる。

本開示によって提供される技術的解決策は、人間の精神において、又はペン及び紙を使用する人間によって実行することができない。すなわち、本開示によって提供される技術的解決策は、コンピュータを使用することなく、任意の合理的な時間量において、及び任意の合理的な正確性の期待で、人間の精神において、又はペン及び紙を使用する人間によって実現することができない。

本開示の様々な実施形態の説明は、例示の目的で提示されるが、網羅的であることも、開示される実施形態に限定されることも意図されていない。説明された実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。本明細書において使用される専門用語は、実施形態の原理、市場で見られる技術の実用的な適用若しくはそれに対する技術的改善を最も良好に説明し、又は、本明細書において開示される実施形態を他の当業者が理解することを可能にするように選択されている。

Claims

ビッグデータ管理システムに対してストレステストを最適に実行するコンピュータ実装方法であって、
ランダムテストクエリのセットを生成する段階と、
前記ランダムテストクエリのセットの特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記ランダムテストクエリのセットをコンパイルする段階と、
前記ランダムテストクエリのセットの特徴の前記データ点と、抽出された特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離を測定する段階と、
その距離が閾値距離を超える各ランダムテストクエリをランク付けする段階と、
前記ランク付けされたランダムテストクエリをランク順に実行する段階と、
エラーをもたらした実行されたランク付けされたランダムテストクエリをログに追加する段階と、
前記ログに基づいて、ビッグデータ管理システムに対してストレステストを実行するクエリを識別する段階と
を備える、方法。
その距離が前記閾値距離を超える前記ランダムテストクエリの各々は、期待されるランタイム持続時間に基づいてランク付けされる、請求項１に記載の方法。
前記ランタイム持続時間は、決定木を使用して予測され、前記決定木は、変数を含み、前記変数の要素は、特徴を含む、請求項２に記載の方法。
前記変数は、テーブルタイプ、オペレータ、割り込み、列タイプ、及びテーブルメタデータからなる群から選択されるクエリの１つ又は複数の特性を含む、請求項３に記載の方法。
その距離が前記閾値距離を超える前記ランダムテストクエリの各々は、その距離が前記閾値距離を超える前記ランダムテストクエリの各々に割り当てられた重みに基づいてランク付けされ、前記重みは、線形系の解によって決定される、請求項１から４のいずれか一項に記載の方法。
トレーニングワークロードの成功をもたらすクエリから抽出された特徴に対応するデータ点を識別する段階と、
前記抽出された特徴の各特徴に対応する前記識別されたデータ点からデータ点の分布の平均を決定する段階と、
テストスイートのクエリを受信する段階と、
特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記テストスイートの前記受信されたクエリをコンパイルする段階と、
前記テストスイートの前記コンパイルされたクエリの各特徴の前記データ点と、各そのような特徴に対応する前記識別されたデータ点からのデータ点の前記分布の前記平均との間の距離を測定する段階と、
前記テストスイートの前記コンパイルされたクエリの特徴に対応するデータ点と、前記特徴のデータ点の前記分布の前記平均との間の最も遠い距離を、前記特徴についての閾値距離として設定する段階と
を更に備える、請求項１から４のいずれか一項に記載の方法。
前記距離は、マハラノビス距離を含む、請求項６に記載の方法。
ビッグデータ管理システムに対してストレステストを最適に実行するコンピュータプログラムであって、プロセッサに、
ランダムテストクエリのセットを生成する手順と、
前記ランダムテストクエリのセットの特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記ランダムテストクエリのセットをコンパイルする手順と、
前記ランダムテストクエリのセットの特徴の前記データ点と、抽出された特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離を測定する手順と、
その距離が閾値距離を超える各ランダムテストクエリをランク付けする手順と、
前記ランク付けされたランダムテストクエリをランク順に実行する手順と、
エラーをもたらした実行されたランク付けされたランダムテストクエリをログに追加する手順と、
前記ログに基づいて、ビッグデータ管理システムに対してストレステストを実行するクエリを識別する手順と
を実行させるためのコンピュータプログラム。
その距離が前記閾値距離を超える前記ランダムテストクエリの各々は、期待されるランタイム持続時間に基づいてランク付けされる、請求項８に記載のコンピュータプログラム。
前記ランタイム持続時間は、決定木を使用して予測され、前記決定木は、変数を含み、前記変数の要素は、特徴を含む、請求項９に記載のコンピュータプログラム。
前記変数は、テーブルタイプ、オペレータ、割り込み、列タイプ、及びテーブルメタデータからなる群から選択されるクエリの１つ又は複数の特性を含む、請求項１０に記載のコンピュータプログラム。
その距離が前記閾値距離を超える前記ランダムテストクエリの各々は、その距離が前記閾値距離を超える前記ランダムテストクエリの各々に割り当てられた重みに基づいてランク付けされ、前記重みは、線形系の解によって決定される、請求項８から１１のいずれか一項に記載のコンピュータプログラム。
前記プロセッサに、
トレーニングワークロードの成功をもたらすクエリから抽出された特徴に対応するデータ点を識別する手順と、
前記抽出された特徴の各特徴に対応する前記識別されたデータ点からデータ点の分布の平均を決定する手順と、
テストスイートのクエリを受信する手順と、
特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記テストスイートの前記受信されたクエリをコンパイルする手順と、
前記テストスイートの前記コンパイルされたクエリの各特徴の前記データ点と、各そのような特徴に対応する前記識別されたデータ点からのデータ点の前記分布の前記平均との間の距離を測定する手順と、
前記テストスイートの前記コンパイルされたクエリの特徴に対応するデータ点と、前記特徴のデータ点の前記分布の前記平均との間の最も遠い距離を、前記特徴についての閾値距離として設定する手順と
を更に実行させる、請求項８から１１のいずれか一項に記載のコンピュータプログラム。
前記距離は、マハラノビス距離を含む、請求項１３に記載のコンピュータプログラム。
システムであって、
ビッグデータ管理システムに対してストレステストを最適に実行するコンピュータプログラムを記憶するメモリと、
前記メモリに接続されたプロセッサであって、前記プロセッサは、
ランダムテストクエリのセットを生成することと、
前記ランダムテストクエリのセットの特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記ランダムテストクエリのセットをコンパイルすることと、
前記ランダムテストクエリのセットの特徴の前記データ点と、抽出された特徴セットの各同じ特徴に対応するデータ点の分布の平均との間の距離を測定することと、
その距離が閾値距離を超える各ランダムテストクエリをランク付けすることと、
前記ランク付けされたランダムテストクエリをランク順に実行することと、
エラーをもたらした実行されたランク付けされたランダムテストクエリをログに追加することと、
前記ログに基づいて、ビッグデータ管理システムに対してストレステストを実行するクエリを識別することと
を含む前記コンピュータプログラムのプログラム命令を実行するように構成されている、プロセッサと
を備える、システム。
その距離が前記閾値距離を超える前記ランダムテストクエリの各々は、期待されるランタイム持続時間に基づいてランク付けされる、請求項１５に記載のシステム。
前記ランタイム持続時間は、決定木を使用して予測され、前記決定木は、変数を含み、前記変数の要素は、特徴を含む、請求項１６に記載のシステム。
前記変数は、テーブルタイプ、オペレータ、割り込み、列タイプ、及びテーブルメタデータからなる群から選択されるクエリの１つ又は複数の特性を含む、請求項１７に記載のシステム。
その距離が前記閾値距離を超える前記ランダムテストクエリの各々は、その距離が前記閾値距離を超える前記ランダムテストクエリの各々に割り当てられた重みに基づいてランク付けされ、前記重みは、線形系の解によって決定される、請求項１５から１８のいずれか一項に記載のシステム。
前記コンピュータプログラムの前記プログラム命令は、
トレーニングワークロードの成功をもたらすクエリから抽出された特徴に対応するデータ点を識別することと、
前記抽出された特徴の各特徴に対応する前記識別されたデータ点からデータ点の分布の平均を決定することと、
テストスイートのクエリを受信することと、
特徴のデータ点を決定するために、アクセス計画特性を抽出するように前記テストスイートの前記受信されたクエリをコンパイルすることと、
前記テストスイートの前記コンパイルされたクエリの各特徴の前記データ点と、各そのような特徴に対応する前記識別されたデータ点からのデータ点の前記分布の前記平均との間の距離を測定することと、
前記テストスイートの前記コンパイルされたクエリの特徴に対応するデータ点と、前記特徴のデータ点の前記分布の前記平均との間の最も遠い距離を、前記特徴についての閾値距離として設定することと
を更に備える、請求項１５から１８のいずれか一項に記載のシステム。