JP2023538865A

JP2023538865A - 暗黙のデータ特徴に基づく動的なパフォーマンスチューニング

Info

Publication number: JP2023538865A
Application number: JP2023509827A
Authority: JP
Inventors: ポスナー，ジョセフ・マーク; クニセッティ，スニル・クマール; カマス，モハン; カバンザス，ニコラス; バットカル，サチン; トローシン，セルゲイ; サーケル，スジャイ; ゴビンダラジャプラム，シバクマール・スブラマニアン; クリシュナムルティ，ビジャヤラクシュミ
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2020-08-13
Filing date: 2020-09-04
Publication date: 2023-09-12
Also published as: EP4196886A1; CN116601622A; WO2022035443A1

Abstract

データ特徴に基づいてシステム性能を向上させるための技術が開示される。システムは、第１のデータセットに対する更新を第１の頻度で受信し得る。上記システムは、第１の頻度に基づいて第１のデータセットを格納するための第１のストレージ構成を複数のストレージ構成から選択し、第１のストレージ構成に従って第１のデータセットを格納する。上記システムはさらに、第２のデータセットに対する更新を第２の頻度で受信し得る。上記システムは、第２の頻度に基づいて第２のデータセットを格納するための第２のストレージ構成を複数のストレージ構成から選択し、第２のストレージ構成に従って第２のデータセットを格納する。第２のストレージ構成は、第１のストレージ構成とは異なっている。

Description

技術分野
本開示は、データアナリティクスに関する。特に、本開示は、データ特徴に基づいてシステム性能を向上させるための技術に関する。

背景
モノのインターネット（ＩｏＴ：Internet of Things）デバイスは、３つの異なるカテゴリのデータ、すなわち識別子データ、ユースケースデータおよびランタイムデータを含むデータセットを生成する。当該データは、ＩｏＴデバイスによって生成される。

識別子データは、データを生成するデバイスの、人間が読み取ることができるおよび／または人間が理解することができる特徴を含み得る。特に、識別子データは、デバイス名、シリアル番号、購入データおよび同様の特徴などの側面を含み得る。識別子データは、データを生成するデバイスの多くの異なる識別子を含み得る。一般に、識別子データは、一定のままであるかまたはごく稀にしか変化しないデータを含む。識別子データは、システムの中で最低のカーディナリティ（たとえば、最少の異なるフィールドまたはフィールドの組み合わせ）を有している。ユースケースデータは、一般に、データを提供するデバイスのさまざまな使い方に関するデータである。たとえば、サーモスタットの場合、ユースケースデータは、「加熱」または「冷却」を含み得る。識別子データのように、ユースケースデータは、一般に、１つまたは複数の文字列として表される。ランタイムデータは、フィールドで使用される、デバイスによって測定される情報を含み得る。一例として、サーモスタットの場合、ランタイムデータは、温度測定値と、温度が記録された時刻を示すタイムスタンプとを含み得る。ランタイムデータは、一般に、データの、往々にして桁違いに最大のカテゴリである。

このセクションに記載されているアプローチは、求められるアプローチであるが、必ずしも以前に構想されたり追求されたりしたアプローチではない。したがって、別段の指示がない限り、このセクションに記載されているアプローチはいずれも、単にこのセクションに含まれているという理由で先行技術となり得ると想定されるべきではない。

実施形態は、限定としてではなく例として添付の図面の図に示されている。なお、本開示における「ある」または「１つの」実施形態への言及は、必ずしも同一の実施形態を指すわけではなく、少なくとも１つを意味する。

１つまたは複数の実施形態に係る、システムを示す図である。１つまたは複数の実施形態に係る、データ特徴に基づいてシステム性能を向上させるための例示的な動作セットを示す図である。データ特徴に基づいてシステム性能を向上させるための例示的なシステムを示す図である。データ特徴に基づいてシステム性能を向上させるための例示的なシステムを示す図である。１つまたは複数の実施形態に係る、コンピュータシステムを示すブロック図である。

詳細な説明
以下の説明では、理解の徹底を期すために、多数の具体的な詳細が説明の目的で記載されている。これらの具体的な詳細がなくても、１つまたは複数の実施形態を実施することができる。一実施形態に記載されている特徴は、異なる実施形態に記載されている特徴と組み合わせられてもよい。いくつかの例では、本発明を不必要に曖昧にしないようにするために、周知の構造およびデバイスは、ブロック図形式を参照して記載される。

１．全体の概要
２．アーキテクチャの概要
３．データ特徴に基づくシステム性能の向上
４．例示的な実施形態
５．その他、拡張
６．ハードウェアの概要
１．全体の概要
１つまたは複数の実施形態は、データ特徴に基づくパフォーマンスチューニングのためのシステムを含む。ビッグデータシステムのユーザは、異種のストレージ機構を使用する場合があり、これらの異種のストレージ機構は、インデックス、行数、データカーディナリティ統計および同様のツールのような一般的に使用される特徴を提供しないストレージシステムによってバックアップされるという理由、またはストレージシステムの異種的性質がクロスストレージ最適化を妨げるという理由から、従来のコストベースのクエリチューニングをサポートしない。しかし、時系列ベースのデータでは、データの固有の側面、ストレージパターン、およびクエリ自体に基づくデータの暗黙の側面が、推定されたパターンを推論してクエリの実行を最適化することを手助けするのに使用され得る。データソース同士がどのように関連付けられるかについてのユーザ定義のメタデータは、各システムにおいてどのような種類のデータが格納されるかについての見識を提供し、このメタデータは、格納されたデータについての欠けている統計情報を推論するのに使用され得る。同様に、特定のデータソースについての何らかの情報が分かると、他のデータソースの特徴を想定することができる。

実施形態において、システムは、データをグループ分けすることによって、どのようにデータを格納してアクセスするかを決定し得る。たとえば、１つまたは複数のモノのインターネット（ＩｏＴ）デバイスからのデータを処理する場合、システムは、データを、モノのインターネットのデータの特徴であると考えるデータの３つのファミリのうちの１つにグループ分けし得る。システムは、どのデータが各ファミリにグループ分けされたかについての情報を使用して、どのデータが他のファミリに含まれているべきかについて想定し、それに応じて格納および検索プロセスを調整し得る。

モノのインターネットのデータで使用されるデータの３つのファミリは、たとえば、識別子データ、ユースケースデータおよびランタイムデータであり得る。これらのデータのファミリが効率的で定義可能な分類を可能にするという理由、およびこのような分類がひいてはユースケースの推定を可能にするという理由から、システムはこれらのデータのファミリを使用し得る。

データセット内のデータフィールドは、データの特徴に基づいてグループ分けすることができる。特に、データフィールドは、カーディナリティ（たとえば、データフィールド内の項目数）および／または更新頻度（たとえば、フィールド内のデータが更新される頻度）などの、当該フィールドに格納されたデータの１つまたは複数の特徴に基づいてカテゴリ分けすることができる。

本明細書に記載される、および／または、特許請求の範囲に記載される１つまたは複数の実施形態は、この全体の概要のセクションに含まれなくてもよい。

２．アーキテクチャの概要
図１は、１つまたは複数の実施形態に係る、システム１００を示す図である。図１に示されるように、システム１００は、パフォーマンスチューニングエンジン１０２と、ユーザインターフェイス１１４と、１つまたは複数の外部データソース１１８と、データリポジトリ１２０と、そのさまざまなコンポーネントとを含む。１つまたは複数の実施形態において、システム１００は、図１に示されるコンポーネントよりも多くのコンポーネントまたは少ないコンポーネントを含んでいてもよい。図１に示されるコンポーネントは、互いにローカルであってもよく、または互いにリモートであってもよい。図１に示されるコンポーネントは、ソフトウェアおよび／またはハードウェアで実現されてもよい。各コンポーネントは、複数のアプリケーションおよび／またはマシンに分散されてもよい。複数のコンポーネントは、１つのアプリケーションおよび／またはマシンにまとめられてもよい。１つのコンポーネントに関して記載される動作は、代わりに別のコンポーネントによって実行されてもよい。

１つまたは複数の実施形態において、ユーザインターフェイス１１４は、ユーザとインターフェイス作成エンジン１０２との間の通信を容易にするように構成されたハードウェアおよび／またはソフトウェアを指す。ユーザインターフェイス１１４は、仕事および／または私的活動のためにインターフェイス（たとえば、ダッシュボードインターフェイス）にアクセスするユーザによって使用され得る。ユーザインターフェイス１１４は、モニタ、テレビ、プロジェクタなどを含むディスプレイ１１６などの、ビジュアルメディアを表示するための１つまたは複数のデバイスに関連付けられ得る。ユーザインターフェイス１１４は、ユーザインターフェイス要素をレンダリングして、ユーザインターフェイス要素を介して入力を受信する。インターフェイスの例としては、グラフィカルユーザインターフェイス（ＧＵＩ：Graphical User Interface）、コマンドラインインターフェイス（ＣＬＩ：Command Line Interface）、ハプティックインターフェイスおよび音声コマンドインターフェイスが挙げられる。ユーザインターフェイス要素の例としては、チェックボックス、ラジオボタン、ドロップダウンリスト、リストボックス、ボタン、トグル、テキストフィールド、日付および時刻セレクタ、コマンドライン、スライダ、ページおよび書式が挙げられる。

一実施形態において、ユーザインターフェイス１１４の異なるコンポーネントは、異なる言語で指定される。ユーザインターフェイス要素の挙動は、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔなどの動的プログラミング言語で指定される。ユーザインターフェイス要素の内容は、ハイパーテキストマークアップ言語（ＨＴＭＬ：Hypertext Markup Language）またはＸＭＬユーザインターフェイス言語（ＸＵＬ：XML User Interface Language）などのマークアップ言語で指定される。ユーザインターフェイス要素のレイアウトは、カスケーディングスタイルシート（ＣＳＳ：Cascading Style Sheet）などのスタイルシート言語で指定される。代替的に、ユーザインターフェイス１１４は、Ｊａｖａ、ＣまたはＣ＋＋などの１つまたは複数の他の言語で指定される。

１つまたは複数の実施形態において、パフォーマンスチューニングエンジン１０２は、暗黙のデータ特徴に基づく動的なパフォーマンスチューニングのための、本明細書に記載されている動作を実行するように構成されたハードウェアおよび／またはソフトウェアを指す。暗黙のデータ特徴に基づく動的なパフォーマンスチューニングのための動作の例については、図２を参照して以下で説明する。

一実施形態において、パフォーマンスチューニングエンジン１０２は、データカテゴリ分けコンポーネント１０４を含む。データカテゴリ分けコンポーネント１０４は、ユーザからの入力を認識するための、（引用によって援用されるような動作を含む）本明細書に記載されている動作を実行するように構成されたハードウェアおよび／またはソフトウェアを指し得る。

一実施形態において、パフォーマンスチューニングエンジン１０２は、カテゴリ分析コンポーネント１０６を含む。カテゴリ分析コンポーネント１０６は、クエリ提案の生成および／または識別を実行するように構成されたハードウェアおよび／またはソフトウェアを指し得る。

一実施形態において、パフォーマンスチューニングエンジン１０２は、ストレージ構成マネージャ１０６を含む。ストレージ構成マネージャ１０６は、選択されたクエリのうちの１つの選択を実行するように構成されたハードウェアおよび／またはソフトウェアを指し得る。

一実施形態において、パフォーマンスチューニングエンジン１０２の１つまたは複数のコンポーネントは、機械学習エンジン１１０を使用する。機械学習は、変数入力を有する問題を解くための、コンピュータによって実行される、ユーザから独立したプロセスを処理する人工知能の分野におけるさまざまな技術を含む。

いくつかの実施形態において、機械学習エンジン１１０は、１つまたは複数の動作を実行するように機械学習モデル１１２を訓練する。特に、機械学習エンジン１１０は、データセットの１つまたは複数のレコードを入力として受信してこれらの１つまたは複数のレコードを１つまたは複数のデータフィールドに分割するように機械学習モデル１１２を訓練し得る。１つまたは複数の機械学習エンジン１１０は、機械学習モデル１１２に、各データフィールドに関連付けられた１つまたは複数の特徴を判断して、これらの１つまたは複数の特徴に基づいてデータフィールドのストレージ構成を選択するようにさせ得る。

機械学習モデル１１２の訓練は、訓練データを使用して、機械学習モデル１１２への１つまたは複数の入力が与えられた状態で対応する出力を計算する機能を生成する。少なくともいくつかの実施形態において、機械学習モデル１１２は、二段階プロセスを含み得るので、モデルを出力するアルゴリズムにデータが入力され、このモデルにデータが送り込まれて出力を生成する。この出力は、事前の機械学習に基づく予測に対応し得る。一実施形態において、この出力は、提供された入力に割り当てられたラベル、分類および／またはカテゴリ分けを含む。機械学習モデル１１２は、所望の動作（たとえば、入力のラベル付け、分類および／またはカテゴリ分け）を実行するための学習済みモデルに対応する。パフォーマンスチューニングエンジン１０２は、さまざまな目的で複数の機械学習エンジン１１０および／または複数の機械学習モデル１１２を使用し得る。

一実施形態において、機械学習エンジン１１０は、教師あり学習、半教師あり学習、教師なし学習、強化学習および／または別の訓練方法、またはそれらの組み合わせを使用し得る。教師あり学習では、ラベル付き訓練データは、各入力が監視信号とも称される所望の出力（たとえば、ラベル、分類および／またはカテゴリ分け）でラベル付けされた入力／出力対を含む。半教師あり学習では、いくつかの入力は監視信号に関連付けられ、他の入力は監視信号に関連付けられない。教師なし学習では、訓練データは、監視信号を含まない。強化学習は、機械学習エンジン１１０が特定の問題を解こうとする（たとえば、１つまたは複数の予め規定された性能基準に従って特定のシナリオにおいて性能を最適化しようとする）過程で正および／または負の強化を受信するフィードバックシステムを使用する。一実施形態において、機械学習エンジン１１０は、最初に教師あり学習を使用して機械学習モデル１１２を訓練し、次いで教師なし学習を使用して継続的に機械学習モデル１１２を更新する。

一実施形態において、機械学習エンジン１１０は、入力をラベル付け、分類および／またはカテゴリ分けするのに多くの異なる技術を使用し得る。機械学習エンジン１１０は、入力を、これらの入力の１つまたは複数の特性（「特徴」）を説明する特徴ベクトルに変換し得る。機械学習エンジン１１０は、これらの特徴ベクトルに基づいて入力をラベル付け、分類および／またはカテゴリ分けし得る。代替的にまたは追加的に、機械学習エンジン１１０は、入力における共通性を識別するのにクラスタリング（クラスタ分析とも称される）を使用してもよい。機械学習エンジン１１０は、それらの共通性に基づいて入力をグループ分け（すなわち、クラスタ化）してもよい。機械学習エンジン１１０は、階層的クラスタリング、ｋ平均法クラスタリングおよび／または別のクラスタリング方法、またはそれらの組み合わせを使用してもよい。一実施形態において、機械学習エンジン１１０は、人工ニューラルネットワークを含む。人工ニューラルネットワークは、複数のノード（人工ニューロンとも称される）と、ノード間のエッジとを含む。エッジは、対応する重みに関連付けられ得て、これらの重みは、機械学習が進展するにつれて機械学習エンジン１１０が調整する、ノード間の接続の強さを表す。代替的にまたは追加的に、機械学習エンジン１１０は、サポートベクターマシンを含んでいてもよい。サポートベクターマシンは、入力をベクトルとして表す。機械学習エンジン１１０は、これらのベクトルに基づいて入力をラベル付け、分類および／またはカテゴリ分けしてもよい。代替的にまたは追加的に、機械学習エンジン１１０は、入力をラベル付け、分類および／またはカテゴリ分けするのに単純ベイズ分類器を使用してもよい。代替的にまたは追加的に、特定の入力が与えられた状態で、機械学習モデルは、この与えられた入力に対する出力を予測するのに決定木を適用してもよい。代替的にまたは追加的に、機械学習エンジン１１０は、固定された相互排他的なオプションセットの中の入力をラベル付け、分類および／またはカテゴリ分けすることが不可能または非現実的である状況において、ファジィ論理を適用してもよい。上記の機械学習モデル１１２および技術は、例示の目的でのみ記載されており、１つまたは複数の実施形態を限定するものとして解釈されるべきではない。

一実施形態において、機械学習エンジン１１０はさまざまな入力を機械学習モデル１１２に適用するので、対応する出力は必ずしも正確であるとは限らない。一例として、機械学習エンジン１１０は、教師あり学習を使用して機械学習モデル１１２を訓練し得る。機械学習モデル１１２を訓練した後、後続の入力が、ラベル付き訓練データに含まれていた入力と同一であって、出力が訓練データの中の監視信号と同一である場合には、出力は確実に正確である。入力が、ラベル付き訓練データに含まれていた入力とは異なっている場合、機械学習エンジン１１０は、不正確であるかまたは正確であることが不確実である対応する出力を生成し得る。与えられた入力に対する特定の出力を生成することに加えて、機械学習エンジン１１０は、出力の精度の点での信頼度（または、その欠如）を表すインジケータを生成するように構成され得る。信頼度インジケータは、数値スコア、ブール値、および／または、出力の精度の点での信頼度（または、その欠如）に対応するその他の種類のインジケータを含み得る。

実施形態において、機械学習モデルは、異常検出に使用されてもよい。異常検出技術の３つの広範なカテゴリが存在する。教師なし異常検出技術は、ラベル無しテストデータセットにおける異常を検出し、これは、データセットの残りの部分に最もフィットしないと思われるインスタンスを探すことによってデータセット内のインスタンスの大半が正常であるという想定の下で行われる。教師あり異常検出技術は、「正常」としてラベル付けされた第１のデータセットと、「異常」としてラベル付けされた第２のデータセットとを訓練入力として提供し、これらの第１および第２のデータセットを使用して分類器を訓練して、ラベル無し入力が「正常」としてラベル付けされるべきか「異常」としてラベル付けされるべきであるかを判断し得る。半教師あり異常検出技術は、所与の正常な訓練データセットから正常な挙動を表すモデルを構築し、次いで、このモデルによってテストインスタンスが生成される見込みをテストする。

一実施形態において、パフォーマンスチューニングエンジン１０２は、１つまたは複数の外部データソース１１８からデータを受信するように構成されている。外部データソース１１８は、パフォーマンスチューニングエンジン１０２から独立して動作するハードウェアおよび／またはソフトウェアを指す。たとえば、外部データソース１１８のハードウェアおよび／またはソフトウェアは、クエリ提案エンジンを制御するエンティティとは異なるエンティティ（たとえば、異なる企業または他の種類の組織）の制御下にあってもよい。外部データソース１１８は、１つまたは複数のモノのインターネット（ＩｏＴ）デバイスに関連付けられたデータを供給し得る。

一実施形態において、パフォーマンスチューニングエンジン１０２は、特定の外部データソース１１８に対してユーザが提供したユーザ資格情報を使用して、外部データソース１１８のアプリケーションプログラミングインターフェイス（ＡＰＩ）を介してデータを「引き込む」ことによって、外部データソース１１８からデータを検索するように構成されている。代替的にまたは追加的に、外部データソース１１８は、アクセスキー、パスワード、および／または、ユーザが外部データソース１１８に供給した他の種類の資格情報を使用して、ＡＰＩを介してパフォーマンスチューニングエンジン１０２にデータを「押し込む」ように構成されてもよい。パフォーマンスチューニングエンジン１０２は、多くの異なる方法で外部データソース１１８からデータを受信するように構成され得る。

１つまたは複数の実施形態において、データリポジトリ１２０は、データを格納するための任意のタイプのストレージユニットおよび／またはデバイス（たとえば、ファイルシステム、データベース、テーブルの集合体、またはその他のストレージ機構）である。さらに、データリポジトリ１２０は、複数の異なるストレージユニットおよび／またはデバイスを含んでいてもよい。これらの複数の異なるストレージユニットおよび／またはデバイスは、同一のタイプであってもそうでなくてもよく、または、同一の物理的箇所に位置していてもそうでなくてもよい。さらに、データリポジトリ１２０は、パフォーマンスチューニングエンジン１０２および／または外部データソース１１８と同一のコンピューティングシステム上で実現または実行され得る。代替的にまたは追加的に、データリポジトリ１２０は、パフォーマンスチューニングエンジン１０２および／または外部データソース１１８とは別のコンピューティングシステム上で実現または実行されてもよい。データリポジトリ１２０は、直接接続を介して、またはネットワークを介して、パフォーマンスチューニングエンジン１０２および／または外部データソース１１８に通信可能に結合され得る。いくつかの実施形態において、データリポジトリ１２０は、システム１００が持続的であるが永続的ではない場所にデータを格納することを可能にする１つまたは複数のデータキャッシュを含む。代替的にまたは追加的に、システム１００は、データリポジトリ１２０に含まれる１つまたは複数のデータキャッシュの少なくとも一部を使用して、データセットに関連する要約統計量を格納してもよい。

データリポジトリは、多くのタイプのデータのためのリポジトリとして機能することができる。たとえば、データリポジトリに格納されたデータは、１つまたは複数のＩｏＴデバイスから受信されたデータに相当し得る。このデータは、さまざまな基準に基づいてカテゴリ分けすることができる。カテゴリ分けは、データの効率的で定義可能な分類を可能にし、かつ、ユースケースの推定を提供するように選択され得る。アルゴリズム分類を行わない場合、ディスク上のデータのパーティション化、効率的な検索のためのインデックスの作成、およびキャッシング戦略を最適化するためには、ビジネススペースおよびコンピューティング技術における専門知識を有するユーザによる手動宣言が必要とされる。特定の例として、データは、図１に示される識別子データ１２２、ユースケースデータ１２４またはランタイムデータ１２６のうちの１つとしてカテゴリ分けすることができる。識別子データ１２２は、データを提供する特定のデバイスを識別するデータを含み得る。ユースケースデータ１２４は、データを提供するデバイスの特定の機能に関連付けられたデータを含み得る。ランタイムデータ１２６は、データを提供するデバイスによって実行される活動に関連付けられたデータを含み得る。

識別子データ１２２は、データの、人間が読み取ることができるおよび／または人間が理解することができる特徴であり得る。識別子データ１２２は、デバイス名、シリアル番号、購入データおよび同様の特徴などの側面を含み得る。識別子データ１２２は、データを提供するデバイスの多くの異なる識別子を含み得る。一般に、識別子データ１２２は、一定のままであるかまたはごく稀にしか変化しないデータを含む。システムは、識別子データ１２２がシステムの中で最低のカーディナリティ（たとえば、最少の異なる項目）を有していると想定することができる。システムは、報告および予測分析の多くの形式では識別子データ１２２が一般にグループ分けのルートレベルであると想定することができる。たとえば、走行距離に基づいて車の故障の可能性を予測する機械学習アルゴリズムは、車のメーカーおよびモデルごとにデータをグループ分けし、次いで当該メーカーおよび／またはモデル内のトレンドを探すことから始め得る。格納／検索の観点から、システムは、大半の対話が範囲演算子ではなく「等号」などの演算子を使用すると想定することができる。識別子データ１２２は、ルートレベルデータであるので、ユースケースデータ１２４またはランタイムデータ１２６よりも少ないレコードを有する。識別子データ１２２における任意の値ごとにデータセットをパーティション化することは、読み取り時にはほとんど利益をもたらさないが、データセットの分析時には高い価値を持つであろう。識別子データ１２２のキャッシングは、一般に、識別子データ１２２がめったに編集されないので、非常に効率的である。識別子データ１２２は、文字列値を含む傾向がある。レコードは幅広いがコレクションは大きくないので、一般に、識別子データをルックアップテーブルにハッシュすることによってメモリ空間を節約することができる。ファミリをまたがってデータを結合する場合、識別子データ１２２は、一般に、結合の右辺である。

ユースケースデータ１２４は、一般に、データを提供するデバイスのさまざまな使い方に関するデータである。たとえば、サーモスタットの場合、ユースケースデータ１２４は、「加熱」または「冷却」を含み得る。識別子データ１２２のように、ユースケースデータ１２４は、一般に、１つまたは複数の文字列として表される。しかし、ユースケースデータは、一般に、ハッシングには適用できない。なぜなら、ユースケースレコードの各部分が重要な特徴であり得るからである。さらに、データセットの分析は、ユースケースデータ１２４内でドリルダウンすることに注力し得る。したがって、ユースケースデータ１２４は、往々にして、分析のさまざまな時点でさまざまな方法でアクセスされる。各フィールドごとにパーティション化されたユースケースデータ１２４を順番にキャッシュすることによって、全体的なシステム性能を向上させることができる。このキャッシング手順は、１回のパーティション化よりも多くのデータをキャッシュするが、キャッシュは高価であると思われる。さらに、ユースケースデータ１２４は、比較的少ない行数を有するので、ユースケースデータのキャッシングは、法外にメモリ消費量が多いわけではない。ユースケースデータ１２４をキャッシュすべきであることをシステムが決定するので、ディスクへのユースケースデータの格納は、特に読み取り効率がよくなくてもよい。むしろ、この格納は、スペース効率がよく、ユースケースデータ１２４を積極的に圧縮する。

ランタイムデータ１２６は、フィールドで使用される、識別子データの特定のインスタンスについての情報を含み得る。たとえば、サーモスタットの場合、ランタイムデータは、温度測定値と、温度が記録された時刻を示すタイムスタンプとを含み得る。システムは、ランタイムデータ１２６がデータの、一般に桁違いに最大のファミリであると判断し得る。システムは、ランタイムデータ１２６における少なくとも１つのフィールドがタイムスタンプであると判断し得て、このタイムスタンプを宣言することを要求するか、またはデータの中でそれを探す。セットアップ時のランタイムデータ１２６のサイズにかかわらず、システムは、ランタイムデータ１２６が最終的にいずれの形式のインメモリデータ読み取りにとっても大きすぎるようになると判断し得る。リレーショナルデータベースおよび大容量データストレージを両方とも有する環境のような異種データ環境では、ランタイムデータ１２６は、大容量データストレージに格納されるべきであるとシステムが判断するデータであり得る。ランタイムデータ１２６は、一般に、非常に大きくて、同一の物理的物体（たとえば、現在動作中のデバイス）からのさまざまな報告（往々にして、多くの報告）を含んでいると予測されるので、システムは、ランタイムデータ１２６が一般に時間範囲スキャン（たとえば、この１週間、この１ヶ月間またはこの１年間にわたる全てのレコード）によって、または、ユースケースデータ１２４および／もしくは識別子データ１２２からの特定のキーと組み合わせられた時間範囲スキャン（たとえば、加熱モードのサーモスタットによってグループ分けされたこの１年間の全てのレコード）によってアクセスされると判断し得る。システムは、レコードタイムスタンプに基づいて、ユーザが定義した分析動作によって宣言された頻度に基づく移動速度で古いデータを効率の低いストレージに移動させることができると判断することによって、ストレージをアルゴリズム的に最適化し得る（たとえば、この１週間からのデータの分析を実行するユーザは、分析が長期傾向によって定義されるユーザほどには、５年前のデータを読み取る際の遅さに敏感ではない）。

一実施形態において、システム１００は、１つまたは複数のデジタルデバイス上で実現される。「デジタルデバイス」という語は、一般に、プロセッサを含む任意のハードウェアデバイスを指す。デジタルデバイスは、アプリケーションまたは仮想マシンを実行する物理的デバイスを指し得る。デジタルデバイスの例としては、コンピュータ、タブレット、ラップトップ、デスクトップ、ネットブック、サーバ、ウェブサーバ、ネットワークポリシサーバ、プロキシサーバ、汎用マシン、特定機能ハードウェアデバイス、ハードウェアルータ、ハードウェアスイッチ、ハードウェアファイアウォール、ハードウェアファイアウォール、ハードウェアネットワークアドレストランスレータ（ＮＡＴ：Network Address Translator）、ハードウェアロードバランサ、メインフレーム、テレビ、コンテンツ受信機、セットトップボックス、プリンタ、モバイルハンドセット、スマートフォン、パーソナルデジタルアシスタント（「ＰＤＡ：Personal Digital Assistant」）、ワイヤレス受信機および／もしくは送信機、基地局、通信管理デバイス、ルータ、スイッチ、コントローラ、アクセスポイント、ならびに／または、クライアントデバイスが挙げられる。

３．データ特徴に基づくシステム性能の向上
図２は、１つまたは複数の実施形態に係る、データ特徴に基づいてシステム性能を向上させるための例示的な動作セットを示す図である。図２に示される１つまたは複数の動作は、修正されてもよく、並べ替えられてもよく、または全て省略されてもよい。したがって、図２に示される動作の特定のシーケンスは、１つまたは複数の実施形態の範囲を限定するものとして解釈されるべきではない。

一実施形態において、システム（たとえば、システム１００の１つまたは複数のコンポーネント）は、データセットを受信する（動作２０２）。いくつかの実施形態では、このデータセットは、単一のユニットとして受信され得る。他の実施形態では、このデータセットは、経時的に（たとえば、断続的にまたは定期的に）受信され得る。いくつかの局面において、データは、１つまたは複数の外部デバイスから受信され得る。特に、データは、モノのインターネットデバイスなどの接続されたデバイスから受信され得る。モノのインターネット（ＩｏＴ）は、固有の識別子と、人間同士の対話または人間とコンピュータとの対話を必要とすることなくネットワークを介してデータを転送することができる能力とを備えた、相互に関連のあるコンピューティングデバイス、メカニカルマシンおよびデジタルマシンのシステムである。ＩｏＴデバイスは、たとえば、ビルディングまたはホームオートメーションデバイス、医療用および／またはヘルスケアデバイス、輸送デバイス（たとえば、車両間および／または車両内通信、交通整理、ロジスティクス、車両安全および／または制御）、農業監視デバイスなどを含み得る。多くの種類のデバイスがＩｏＴアーキテクチャを利用することができる。

受信されたデータは、１つまたは複数のデータフィールド（データセットとしても知られている）を含み得る。一例として、受信されたデータは、タイムスタンプ、データをシステムに送信するデバイスを識別する１つまたは複数の識別子、デバイスの使用モードを示す１つまたは複数のデータアイテム、および、デバイスによって実行される１つまたは複数の測定値を含み得る。いくつかの局面では、システムで受信される各データアイテムは、各データフィールドにおける項目を含み得る。他の局面では、システムで受信されるデータアイテムは、以前のデータアイテムが受信されてから変化したフィールドのみを含み得る。

システムは、データセット内のデータフィールドのカテゴリ分け方法を決定し得る（動作２０４）。カテゴリ分け方法は、データセット内のデータフィールドのうちの１つまたは複数で使用され得る。いくつかの実施形態では、同一のカテゴリ分け方法を使用してデータセット内の各データフィールドをカテゴリ分けする。他の実施形態では、異なるカテゴリ分け方法を使用して異なるデータフィールドをカテゴリ分けすることができる。

一例として、データフィールドは、当該フィールド内のデータが受信または更新される頻度に基づいてカテゴリに割り当てられ得る。たとえば、データは、データが受信または更新される絶対頻度（たとえば、１秒当たり、１分当たりまたは１時間当たり受信または更新される、特定のデータフィールドに対応するアイテムの数）に基づいてカテゴリ分けされ得る。別の例として、データは、相対頻度（たとえば、データセットの他のフィールドと比較して受信または更新される、特定のデータフィールドに対応するアイテムの数）に基づいてカテゴリに割り当てられ得る。

別の例として、データフィールドは、当該フィールド内のデータにおけるレコードの数に基づいてカテゴリに割り当てられ得る。たとえば、データは、レコードの絶対数（たとえば、特定のデータフィールドに対応するレコードの数が１００個未満、１０００個未満などであるなど）に基づいてカテゴリ分けされ得る。別の例として、データは、レコードの相対数（たとえば、データセットの他のフィールドと比較した、特定のデータフィールドに対応するレコードの数）に基づいてカテゴリに割り当てられ得る。

受信されたデータの各フィールドは、決定されたカテゴリ分け方法に基づいてカテゴリ分けされ得る（動作２０６）。データフィールドが割り当てられ得るカテゴリは、識別子データ、ユースケースデータまたはランタイムデータを含み得る。識別子データは、データを提供する特定のデバイスを識別するデータを含み得る。ユースケースデータは、データを提供するデバイスの特定の機能または動作モードに関連付けられたデータを含み得る。ランタイムデータは、データを提供するデバイスによって実行される活動および／または測定に関連付けられたデータを含み得る。

いくつかの実施形態において、データをカテゴリ分けすることは、第１の閾値および第２の閾値を選択することを含み得る。第２の閾値は、第１の閾値よりも大きくてもよい。いくつかの実施形態では、これらの閾値は、データセットに含まれるデータに基づいて選択され得る。他の実施形態では、これらの閾値は、予め定められ得る。実施形態において、第２の閾値は、第１の閾値よりも数桁大きい。第１および第２の閾値は、データフィールドをカテゴリ分けするのに使用され得る。

一例として、第１の閾値を超えないデータフィールドは、識別子データとしてカテゴリ分けされ得る。識別子データは、人間レベルのデータの特徴であり得る。識別子データは、デバイス名、シリアル番号、購入データ、および同様の特徴などの側面を含み得る。識別子データは、データを提供するデバイスの多くの異なる識別子を含み得る。一般に、識別子データは、一定のままであるかまたはごく稀にしか変化しないデータを含む。したがって、識別子データは、システムの中で比較的高いカーディナリティ（たとえば、比較的多数の異なる項目）を有しているが、最低の頻度で更新され得る。

別の例として、第１の閾値を超えるが第２の閾値を超えないデータフィールドは、ユースケースデータとしてカテゴリ分けされ得る。ユースケースデータは、一般に、データを提供するデバイスのさまざまな使い方に関するデータである。たとえば、サーモスタットの場合、ユースケースデータは、「加熱」または「冷却」を含み得る。一般に、ユースケースデータは、比較的稀に、しかし識別子データよりも頻繁に変化する。したがって、ユースケースデータは、比較的低いカーディナリティを有している。しかし、ユースケースデータのカーディナリティは、識別子データのカーディナリティよりも大きい。同様に、ユースケースデータは、比較的低い頻度で更新されるが、識別子データよりも頻繁に更新される。

第３の例として、第１の閾値も第２の閾値も超えるデータフィールドは、ランタイムデータとしてカテゴリ分けされ得る。ランタイムデータは、フィールドで使用される識別子データの特定のインスタンスについての情報を含み得る。たとえば、サーモスタットの場合、ランタイムデータは、温度測定値と、温度が記録された時刻を示すタイムスタンプとを含み得る。システムは、ランタイムデータがデータの、一般に桁違いに最大のファミリであると判断し得る。システムは、ランタイムデータにおける少なくとも１つのフィールドがタイムスタンプであると判断し得て、このタイムスタンプを宣言することを要求するか、またはデータの中でそれを探す。セットアップ時のランタイムデータのサイズにかかわらず、システムは、ランタイムデータが、最終的に、読み取られるいかなる形式のインメモリデータにとっても大きすぎるまでになると判断し得る。

システムは、決定されたカテゴリ分けに基づいて、データフィールドを格納するためのストレージ構成を決定し得る（動作２０８）。ストレージを構成することは、データフィールドが格納される記憶媒体を選択することを含み得る。実施形態では、データを構成することはさらに、選択された記憶媒体内のデータの特定のレイアウトを指定することを含む。ストレージを構成することは、データフィールド項目を格納する際に使用される特定のデータ構造を選択することを含み得る。さらに、ストレージ構成は、データベース性能を向上させるためにデータベースの特定のパーティション化を指定し得る。

実施形態において、システムは、データセットの分析に関するユーザ入力を追跡するために機械学習アルゴリズムに依拠し得る。たとえば、システムは、ユーザによって引き起こされるデータアクセス動作（たとえば、結合演算、テーブルスキャン動作、読み取り動作など）を追跡することができる。システムは、データアクセス動作においてパターンを判断し、部分的にこのパターンに基づいてストレージ構成を選択するために機械学習に依拠し得る。たとえば、データアクセス動作の大部分がこの１週間に受信されたデータに対してのものである場合、システムは、スペース効率がよいが読み取り効率が低い方法で１週間以上前のデータを格納することができると判断し得る。

ストレージ構成は、たとえば部分的にデータフィールドのサイズに基づいて選択され得る。また、ストレージ構成は、データフィールドが通常アクセスされる方法に基づいて選択され得る。たとえば、データがアクセスされる頻度および実行されるアクセスのタイプは、選択された構成に影響を及ぼし得る。システムは、特定のアクセスタイプおよび頻度を特定のデータカテゴリに関連付け得て、システムがデータフィールドのカテゴリ分けに基づいてデータフィールドの特定のストレージ構成を選択することを可能にする。いくつかの実施形態において、ストレージを構成することは、複数のストレージ構成からあるストレージ構成を選択することを備え得る。複数のストレージ構成は、１つまたは複数のストレージデバイスの典型的な使用に基づいて予め定められ得る。

特定の例として、多くの形式の報告および予測分析では識別子データは一般にグループ分けのルートレベルである。格納／検索の観点から、識別子データとの対話の大半は、範囲演算子ではなく「等号」などの演算子を使用し得る。識別子データは、ユースケースデータまたはランタイムデータよりも少ないレコードを有する。したがって、識別子データにおける任意の値ごとにデータセットをパーティション化することは、読み取り時にはほとんど利益をもたらさないが、データセットの分析時には高い価値を持つであろう。識別子データのキャッシングは、一般に、識別子データがめったに編集されないので、非常に効率的である。レコードは幅広いがコレクションは大きくないので、一般に、識別子データをルックアップテーブルにハッシュすることによってメモリ空間を節約することができる。ファミリをまたがってデータを結合する場合、識別子データは、一般に、結合の右辺である。

別の例として、ユースケースデータは、一般に、１つまたは複数の文字列として表される。しかし、ユースケースデータは、一般に、ハッシングには適用できない。なぜなら、ユースケースレコードの各部分が重要な特徴であり得るからである。さらに、データセットの分析は、ユースケースデータ内でドリルダウンすることに注力し得る。したがって、ユースケースデータは、往々にして、分析のさまざまな時点でさまざまな方法でアクセスされる。各フィールドごとにパーティション化されたユースケースデータを順番にキャッシュすることによって、全体的なシステム性能を向上させることができる。このキャッシング手順は、１回のパーティション化よりも多くのデータをキャッシュするが、キャッシュは高価であると思われる。さらに、ユースケースデータは、比較的少ない行数を有するので、ユースケースデータのキャッシングは、法外にメモリ消費量が多いわけではない。ユースケースデータをキャッシュすべきであることをシステムが決定するので、ディスクへのユースケースデータの格納は、特に読み取り効率がよくなくてもよい。むしろ、この格納は、スペース効率がよく、ユースケースデータを積極的に圧縮する。

別の例として、ランタイムデータは、大容量データストレージに格納され得る。ランタイムデータは、一般に、同一の物理的物体（たとえば、現在動作中のデバイス）からのさまざまな報告（往々にして、多くの報告）を含む大きなデータセットを含んでいるので、システムは、ランタイムデータが一般に時間範囲スキャン（たとえば、この１週間、この１ヶ月またはこの１年にわたる全てのレコード）によって、または、ユースケースデータもしくは識別子データからのパーティションキーと組み合わせられた時間範囲スキャン（たとえば、加熱モードのサーモスタットによってグループ分けされたこの１年の全てのレコード、シリアル番号に基づいてグループ分けされたこの１年の全てのレコード）によってアクセスされると判断し得る。システムは、レコードタイムスタンプに基づいて、ユーザが定義した分析動作によって宣言された頻度に基づく移動速度で古いデータを読み取り効率の低いストレージに移動させることができると判断することによって、ストレージをアルゴリズム的に最適化し得る（たとえば、この１週間からのデータの分析を実行するユーザは、分析が長期傾向によって定義されるユーザほどには、５年前のデータを読み取る際の遅さに敏感ではない）。

いくつかの実施形態において、ストレージ構成の選択に続いて、システムはデータを格納する（動作２１０）。データを格納することは、データを選択されたストレージデバイスに格納することを含み得る。データを格納することは、選択されたストレージ構成に従ってデータ構造を作成することを含み得る。いくつかの実施形態において、データ格納は、新たなデータ構成を選択することを含み得る。たとえば、ユーザアクセスパターン変化のうちの１つまたは複数に応答して、データ流入パターンは変化し、または、それらのパターンについての見出された知識が増えると、新たなストレージ構成を選択すること（および、新たに選択されたストレージ構成に基づいてデータを格納すること）は、可能なだけでなく見込みあるものにもなる。

４．例示的な実施形態
明確にすることを目的に、詳細な例について以下で説明する。後述のコンポーネントおよび／または動作は、特定の実施形態には適用できない１つの具体例として理解されるべきである。したがって、後述のコンポーネントおよび／または動作は、いずれの請求項の範囲も限定するものとして解釈されるべきではない。

図３Ａは、矢印３０６によって示されるデータを収集のためにシステム３０４に送信する接続されたサーモスタットデバイス３０２を示す。特に、デバイス３０２は、識別子データ３０６ａ、ユースケースデータ３０６ｂおよびランタイムデータ３０６ｃを送信し得る。図３Ａに示されるように、矢印の太さは、各データカテゴリに対する相対的な更新回数に対応する。

図３Ｂに示されるように、データセットは、データフィールド「デバイス識別子」と、データフィールド「デバイスモード」と、データフィールド「温度」と、タイムスタンプとを含む。「タイムスタンプ」および「温度」データフィールドに示されるように、デバイス３０２は、１秒に１回、温度測定値をシステム３０４に送信する。各測定値とともに、デバイスは、識別子（たとえば、「デバイス識別子」データフィールド）も送信する。さらに、デバイスは、その動作モードのインジケータ（たとえば、「デバイスモード」データフィールド）を送信する。図３Ｂに示される例では、デバイス「デバイス＿０１」は、時刻１２：００：００において「冷却」モードから「加熱」モードに遷移する。モードの変更は、モードを変更するためのユーザ対話、スケジュールされたモード変更、またはモード遷移の他の理由を示し得る。

システムは、各データフィールドを識別子データ、ユースケースデータまたはランタイムデータのうちの１つとしてカテゴリ分けする。システムは、第１の閾値を１に設定し、第２の閾値を５に設定する。「デバイス識別子」フィールドは、第１の閾値または第２の閾値を超えない１回の更新を含む。したがって、「デバイス識別子」データフィールドは、識別子データとしてカテゴリ分けされる。「デバイスモード」フィールドは、第１の閾値を超えるが第２の閾値を超えない２回の更新を含む。したがって、「デバイスモード」データフィールドは、ユースケースデータとしてカテゴリ分けされる。「温度」および「タイムスタンプ」フィールドの各々は、第１の閾値も第２の閾値も超える１１回の更新を含む。したがって、「温度」および「タイムスタンプ」データフィールドの各々は、ランタイムデータとしてカテゴリ分けされる。

カテゴリ分けに続いて、システムは、データの各カテゴリのストレージ構成を決定し得る。識別子データ（たとえば、「デバイス識別子」データフィールド）について、システムは、非常に圧縮されたストレージ構成などの、スペース効率がよいストレージ構成を選択することができる。システムはさらに、素早い検索のために識別子データをキャッシュすることを推奨し得る。ユースケースデータ（たとえば、「デバイスモード」データフィールド）について、システムは、非常に圧縮されたストレージ構成などの、スペース効率がよいストレージ構成を選択することができる。ランタイムデータ（たとえば、「温度」および「タイムスタンプ」データフィールド）について、システムは、これらのデータフィールドが急速に増加しそうであることを認識して、大量のデータを効率的に格納することを可能にするストレージ構成を決定することができる。さらに、システムは、データを読み取る際の効率の向上につながる方法でデータストレージを構造化することができる。たとえば、データは、時系列で格納され得る。なぜなら、データの分析が、特定の時間範囲にわたるデータを検索するという結果になると思われるからである。各フィールドからのデータは、選択されたストレージ構成に従って格納することができる。

５．その他、拡張
実施形態は、ハードウェアプロセッサを含み、本明細書に記載されているおよび／または以下のいずれかの請求項に記載されている動作のいずれかを実行するように構成された１つまたは複数のデバイスを有するシステムに向けられる。

一実施形態において、非一時的なコンピュータ読取可能記憶媒体は、命令を備え、これらの命令は、１つまたは複数のハードウェアプロセッサによって実行されると、本明細書に記載されているおよび／またはいずれかの請求項に記載されている動作のいずれかを実行させる。

本明細書に記載されている特徴と機能との任意の組み合わせが、１つまたは複数の実施形態に従って用いられてもよい。前述の明細書では、実施形態は、実現例ごとに異なり得る多くの具体的詳細を参照して説明されてきた。したがって、明細書および図面は、限定的な意味ではなく例示的な意味で考慮されるべきである。本発明の範囲の唯一かつ排他的な指標、および、出願人によって本発明の範囲であることが意図されるものは、任意の後の補正を含めて、そのような特許請求の範囲が生じる特定の形態での、本願から生じる特許請求の範囲のセットの文字通りかつ同等の範囲である。

６．ハードウェアの概要
一実施形態に従って、本明細書に記載されている技術は、１つまたは複数の特別目的コンピューティングデバイスによって実行される。これらの特別目的コンピューティングデバイスは、技術を実行するために物理的に組み込まれていてもよく、または、技術を実行するように持続的にプログラムされた１つもしくは複数の特定用途向け集積回路（ＡＳＩＣ：Application-Specific Integrated Circuit）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Field Programmable Gate Array）もしくはネットワーク処理ユニット（ＮＰＵ：Network Processing Unit）などのデジタル電子デバイスを含んでいてもよく、または、ファームウェア、メモリ、他のストレージもしくは組み合わせにおけるプログラム命令に従って技術を実行するようにプログラムされた１つもしくは複数の汎用ハードウェアプロセッサを含んでいてもよい。また、このような特別目的コンピューティングデバイスは、カスタムハードワイヤード論理、ＡＳＩＣ、ＦＰＧＡまたはＮＰＵと、技術を実現するためのカスタムプログラミングとを組み合わせてもよい。特別目的コンピューティングデバイスは、デスクトップコンピュータシステム、ポータブルコンピュータシステム、手持ち式デバイス、ネットワーキングデバイス、または技術を実行するためにハードワイヤードおよび／またはプログラム論理を組み込むその他のデバイスであってもよい。

たとえば、図４は、本発明の一実施形態が実現され得るコンピュータシステム４００を示すブロック図である。コンピュータシステム４００は、バス４０２または情報を通信するための他の通信機構と、バス４０２と結合された、情報を処理するためのハードウェアプロセッサ４０４とを含む。ハードウェアプロセッサ４０４は、たとえば汎用マイクロプロセッサであってもよい。

コンピュータシステム４００は、バス４０２に結合された、情報およびプロセッサ４０４によって実行される命令を格納するための、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）または他のダイナミックストレージデバイスなどのメインメモリ４０６も含む。メインメモリ４０６は、プロセッサ４０４によって実行される命令の実行中に一時変数または他の中間情報を格納するのにも使用され得る。このような命令は、プロセッサ４０４がアクセス可能な非一時的な記憶媒体に格納されると、コンピュータシステム４００を、命令に指定された動作を実行するようにカスタマイズされた特別目的マシンにする。

コンピュータシステム４００は、バス４０２に結合された、プロセッサ４０４のための静的情報および命令を格納するためのリードオンリメモリ（ＲＯＭ：Read Only Memory）４０８または他のスタティックストレージデバイスをさらに含む。情報および命令を格納するために、磁気ディスクまたは光ディスクなどのストレージデバイス４１０が設けられて、バス４０２に結合される。

コンピュータシステム４００は、情報をコンピュータユーザに表示するために、バス４０２を介して陰極線管（ＣＲＴ：Cathode Ray Tube）などのディスプレイ４１２に結合され得る。英数字キーおよび他のキーを含む入力デバイス４１４が、情報およびコマンド選択をプロセッサ４０４に通信するためにバス４０２に結合される。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ４０４に通信してディスプレイ４１２上でのカーソル移動を制御するための、マウス、トラックボールまたはカーソル方向キーなどのカーソル制御装置４１６である。この入力デバイスは、一般に、２つの軸、すなわち第１の軸（たとえば、ｘ）および第２の軸（たとえば、ｙ）において二自由度を有し、デバイスが平面内の位置を指定することを可能にする。

コンピュータシステム４００は、コンピュータシステムと組み合わせてコンピュータシステム４００を特別目的マシンであるようにするまたはそのようにプログラムするカスタマイズされたハードワイヤード論理、１つまたは複数のＡＳＩＣまたはＦＰＧＡ、ファームウェアおよび／またはプログラム論理を使用して、本明細書に記載されている技術を実行し得る。一実施形態に従って、本明細書における技術は、プロセッサ４０４がメインメモリ４０６に含まれる１つまたは複数の命令の１つまたは複数のシーケンスを実行したことに応答して、コンピュータシステム４００によって実行される。このような命令は、ストレージデバイス４１０などの別の記憶媒体からメインメモリ４０６に読み取られてもよい。メインメモリ４０６に含まれる命令のシーケンスの実行は、プロセッサ４０４に、本明細書に記載されているプロセスステップを実行させる。代替的な実施形態において、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。

本明細書で使用される「記憶媒体」という語は、マシンに特定の態様で動作させるデータおよび／または命令を格納する任意の非一時的な媒体を指す。このような記憶媒体は、不揮発性媒体および／または揮発性媒体を備え得る。不揮発性媒体は、たとえば、ストレージデバイス４１０などの光または磁気ディスクを含む。揮発性媒体は、メインメモリ４０６などのダイナミックメモリを含む。記憶媒体の一般的な形態は、たとえば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、またはその他の磁気データ記憶媒体、ＣＤ－ＲＯＭ、その他の光データ記憶媒体、穴のパターンを有する任意の物理的媒体、ＲＡＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、ＮＶＲＡＭ、その他のメモリチップまたはカートリッジ、連想メモリ（ＣＡＭ：Content-Addressable Memory）、および三値連想メモリ（ＴＣＡＭ：Ternary Content-Addressable Memory）を含む。

記憶媒体は、伝送媒体とは異なっているが、伝送媒体と併用されてもよい。伝送媒体は、記憶媒体同士の間で情報を転送することに関与する。たとえば、伝送媒体は、同軸ケーブル、銅線および光ファイバを含み、バス４０２を備えるワイヤを含む。伝送媒体は、電波および赤外線データ通信中に生成されるものなどの音波または光波の形態をとることもできる。

さまざまな形態の媒体が、１つまたは複数の命令の１つまたは複数のシーケンスを実行のためにプロセッサ４０４に伝えることに関与し得る。たとえば、これらの命令は、最初は、リモートコンピュータの磁気ディスクまたはソリッドステートドライブに記録されていてもよい。リモートコンピュータは、これらの命令をそのダイナミックメモリにロードして、これらの命令をモデムを使用して電話線を介して送信することができる。コンピュータシステム４００にローカルなモデムは、電話線を介してデータを受信し、赤外線送信機を使用してこのデータを赤外線信号に変換することができる。赤外線検出器は、赤外線信号の状態で伝えられたデータを受信することができ、適切な回路がこのデータをバス４０２上に配置することができる。バス４０２は、データをメインメモリ４０６に伝えて、プロセッサ４０４は、メインメモリ４０６から命令を検索して実行する。メインメモリ４０６によって受信された命令は、任意に、プロセッサ４０４による実行前または後にストレージデバイス４１０に格納されてもよい。

コンピュータシステム４００は、バス４０２に結合された通信インターフェイス４１８も含む。通信インターフェイス４１８は、ローカルネットワーク４２２に接続されたネットワークリンク４２０への二方向データ通信結合を提供する。たとえば、通信インターフェイス４１８は、統合サービスデジタルネットワーク（ＩＳＤＮ：Integrated Services Digital Network）カード、ケーブルモデム、衛星モデム、または対応するタイプの電話線へのデータ通信接続を提供するためのモデムであってもよい。別の例として、通信インターフェイス４１８は、互換性があるローカルエリアネットワーク（ＬＡＮ：Local Area Network）へのデータ通信接続を提供するためのＬＡＮカードであってもよい。ワイヤレスリンクも実現されてもよい。任意のこのような実現例において、通信インターフェイス４１８は、さまざまなタイプの情報を表すデジタルデータストリームを伝える電気信号、電磁信号または光信号を送受信する。

ネットワークリンク４２０は、一般に、１つまたは複数のネットワークを介してデータ通信を他のデータデバイスに提供する。たとえば、ネットワークリンク４２０は、ローカルネットワーク４２２を介して、ホストコンピュータ４２４またはインターネットサービスプロバイダ（ＩＳＰ：Internet Service Provider）４２６によって操作されるデータ機器に接続し得る。そして、ＩＳＰ４２６は、現在では一般に「インターネット」４２８と称されるワールドワイドパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク４２２およびインターネット４２８は両方とも、デジタルデータストリームを伝える電気信号、電磁信号または光信号を使用する。コンピュータシステム４００におよびコンピュータシステム４００からデジタルデータを伝える、さまざまなネットワークを介した信号、ならびに、ネットワークリンク４２０および通信インターフェイス４１８を介した信号は、伝送媒体の例示的な形態である。

コンピュータシステム４００は、ネットワーク、ネットワークリンク４２０および通信インターフェイス４１８を介して、メッセージを送信して、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ４３０は、インターネット４２８、ＩＳＰ４２６、ローカルネットワーク４２２および通信インターフェイス４１８を介して、アプリケーションプログラムのための要求されたコードを送信し得る。

受信されたコードは、受信時にプロセッサ４０４によって実行されてもよく、および／または、その後の実行のためにストレージデバイス４１０または他の不揮発性ストレージに格納されてもよい。

前述の明細書では、本発明の実施形態は、実現例ごとに異なり得る多くの具体的詳細を参照して説明されてきた。したがって、明細書および図面は、限定的な意味ではなく例示的な意味で考慮されるべきである。本発明の範囲の唯一かつ排他的な指標、および、出願人によって本発明の範囲であることが意図されるものは、任意の後の補正を含めて、そのような特許請求の範囲が生じる特定の形態での、本願から生じる特許請求の範囲のセットの文字通りかつ同等の範囲である。

Claims

命令を備える１つまたは複数の非一時的なコンピュータ読取可能媒体であって、前記命令は、１つまたは複数のハードウェアプロセッサによって実行されると、動作を実行させ、前記動作は、
第１のデータセットに対する更新を第１の頻度で受信することと、
前記第１の頻度に基づいて前記第１のデータセットを格納するための第１のストレージ構成を複数のストレージ構成から選択することと、
前記第１のストレージ構成に従って前記第１のデータセットを格納することと、
第２のデータセットに対する更新を第２の頻度で受信することと、
前記第２の頻度に基づいて前記第２のデータセットを格納するための第２のストレージ構成を前記複数のストレージ構成から選択することとを備え、前記第２のストレージ構成は、前記第１のストレージ構成とは異なっており、前記動作はさらに、
前記第２のストレージ構成に従って前記第２のデータセットを格納することを備える、媒体。
前記第１の頻度に基づいて前記第１のデータセットを格納するための前記第１のストレージ構成を選択することは、
前記第１の頻度に基づく前記第１のデータセットのために、複数のカテゴリのうちの第１のカテゴリを選択することと、
前記第１のデータセットを格納するための、前記第１のカテゴリに対応する前記第１のストレージ構成を選択することとを備える、請求項１に記載の媒体。
前記動作はさらに、
前記第１の頻度に基づいて、前記第１のデータセットを識別子データとしてカテゴリ分けすることを備え、
前記第１のストレージ構成を選択することは、前記第１のデータセットが識別子データとしてカテゴリ分けされることに基づき、前記動作はさらに、
前記第２の頻度に基づいて、前記第２のデータセットをユースケースデータとしてカテゴリ分けすることを備え、
前記第２のストレージ構成を選択することは、前記第２のデータセットがユースケースデータとしてカテゴリ分けされることに基づき、前記動作はさらに、
第３のデータセットに対する更新が受信される第３の頻度に基づいて、前記第３のデータセットをランタイムデータとしてカテゴリ分けすることと、
前記第３のデータセットがランタイムデータとしてカテゴリ分けされることに基づいて、前記第３のデータセットを格納するための第３のストレージ構成を選択することとを備える、請求項１に記載の媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されると、さらに、
前記第１のデータセットと前記第２のデータセットとの間の関係を判断することと、
前記関係に基づいて、前記第１のデータセットおよび前記第２のデータセットを使用して結合演算を事前計算することとをさせる、請求項１に記載の媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されると、さらに、
前記第１のデータセットに対応する追加データを受信することと、
少なくとも部分的に前記追加データに基づいて新たなストレージ構成を選択することと、
前記新たなストレージ構成に従って前記第１のデータセットを格納することとをさせる、請求項１に記載の媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されると、さらに、
少なくとも部分的に前記第１のストレージ構成に基づいて、前記第１のデータセットに関連付けられたインデックスを作成することをさせる、請求項１に記載の媒体。
方法であって、
第１のデータセットに対する更新を第１の頻度で受信するステップと、
前記第１の頻度に基づいて前記第１のデータセットを格納するための第１のストレージ構成を複数のストレージ構成から選択するステップと、
前記第１のストレージ構成に従って前記第１のデータセットを格納するステップと、
第２のデータセットに対する更新を第２の頻度で受信するステップと、
前記第２の頻度に基づいて前記第２のデータセットを格納するための第２のストレージ構成を前記複数のストレージ構成から選択するステップとを備え、前記第２のストレージ構成は、前記第１のストレージ構成とは異なっており、前記方法はさらに、
前記第２のストレージ構成に従って前記第２のデータセットを格納するステップを備え、
前記方法は、ハードウェアプロセッサを含む少なくとも１つのデバイスによって実行される、方法。
前記第１の頻度に基づいて前記第１のデータセットを格納するための前記第１のストレージ構成を選択するステップは、
前記第１の頻度に基づく前記第１のデータセットのために、複数のカテゴリのうちの第１のカテゴリを選択するステップと、
前記第１のデータセットを格納するための、前記第１のカテゴリに対応する前記第１のストレージ構成を選択するステップとを備える、請求項７に記載の方法。
前記第１の頻度に基づいて、前記第１のデータセットを識別子データとしてカテゴリ分けするステップをさらに備え、
前記第１のストレージ構成を選択するステップは、前記第１のデータセットが識別子データとしてカテゴリ分けされることに基づき、
前記第２の頻度に基づいて、前記第２のデータセットをユースケースデータとしてカテゴリ分けするステップをさらに備え、
前記第２のストレージ構成を選択するステップは、前記第２のデータセットがユースケースデータとしてカテゴリ分けされることに基づき、
第３のデータセットに対する更新が受信される第３の頻度に基づいて、前記第３のデータセットをランタイムデータとしてカテゴリ分けするステップと、
前記第３のデータセットがランタイムデータとしてカテゴリ分けされることに基づいて、前記第３のデータセットを格納するための第３のストレージ構成を選択するステップとをさらに備える、請求項７に記載の方法。
前記第１のデータセットと前記第２のデータセットとの間の関係を判断するステップと、
前記関係に基づいて、前記第１のデータセットおよび前記第２のデータセットを使用して結合演算を事前計算するステップとをさらに備える、請求項７に記載の方法。
前記第１のデータセットに対応する追加データを受信するステップと、
少なくとも部分的に前記追加データに基づいて新たなストレージ構成を選択するステップと、
前記新たなストレージ構成に従って前記第１のデータセットを格納するステップとをさらに備える、請求項７に記載の方法。
システムであって、
ハードウェアプロセッサを含む少なくとも１つのデバイスを備え、
前記システムは、動作を実行するように構成されており、前記動作は、
第１のデータセットに対する更新を第１の頻度で受信することと、
前記第１の頻度に基づいて前記第１のデータセットを格納するための第１のストレージ構成を複数のストレージ構成から選択することと、
前記第１のストレージ構成に従って前記第１のデータセットを格納することと、
第２のデータセットに対する更新を第２の頻度で受信することと、
前記第２の頻度に基づいて前記第２のデータセットを格納するための第２のストレージ構成を前記複数のストレージ構成から選択することとを備え、前記第２のストレージ構成は、前記第１のストレージ構成とは異なっており、前記動作はさらに、
前記第２のストレージ構成に従って前記第２のデータセットを格納することを備え、
前記方法は、ハードウェアプロセッサを含む少なくとも１つのデバイスによって実行される、システム。
前記第１の頻度に基づいて前記第１のデータセットを格納するための前記第１のストレージ構成を選択することは、
前記第１の頻度に基づく前記第１のデータセットのために、複数のカテゴリのうちの第１のカテゴリを選択することと、
前記第１のデータセットを格納するための、前記第１のカテゴリに対応する前記第１のストレージ構成を選択することとを備える、請求項１１に記載のシステム。
前記第１の頻度に基づいて、前記第１のデータセットを識別子データとしてカテゴリ分けすることをさらに備え、
前記第１のストレージ構成を選択することは、前記第１のデータセットが識別子データとしてカテゴリ分けされることに基づき、
前記第２の頻度に基づいて、前記第２のデータセットをユースケースデータとしてカテゴリ分けすることをさらに備え、
前記第２のストレージ構成を選択することは、前記第２のデータセットがユースケースデータとしてカテゴリ分けされることに基づき、
第３のデータセットに対する更新が受信される第３の頻度に基づいて、前記第３のデータセットをランタイムデータとしてカテゴリ分けすることと、
前記第３のデータセットがランタイムデータとしてカテゴリ分けされることに基づいて、前記第３のデータセットを格納するための第３のストレージ構成を選択することとをさらに備える、請求項１１に記載のシステム。
前記第１のデータセットと前記第２のデータセットとの間の関係を判断することと、
前記関係に基づいて、前記第１のデータセットおよび前記第２のデータセットを使用して結合演算を事前計算することとをさらに備える、請求項１１に記載のシステム。