JP2018092576A

JP2018092576A - 離散最適化のための帰納論理プログラミング強化ディープビリーフネットワーク・モデルのトレーニング

Info

Publication number: JP2018092576A
Application number: JP2017101329A
Authority: JP
Inventors: サルミマーラサイキア; Saikia Sarmimala; ロヴェケシュヴィグ; Vig Lovekesh; ガウタムシュロフ; Shroff Gautam; プニートアガルワル; Agarwal Puneet; リチャラワット; Richa Rawat; アシュウィンスリニヴァサン; Srinivasan Ashwin
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2016-12-05
Filing date: 2017-05-23
Publication date: 2018-06-14
Anticipated expiration: 2037-05-23
Also published as: AU2017203299A1; EP3330901A1; CA2967641A1; JP6403834B2; CA2967641C; AU2017203299B2; US20180157977A1; MX2017006853A

Abstract

【課題】離散最適化のために帰納論理プログラミングによって強化されたディープビリーフネットワーク・モデルをトレーニングする。【解決手段】本システムは、（ｉ）値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化し、予め定義された閾値に基づいてこれらの値を第１のセットおよび第２のセットへ区分する。ブール特徴を得るために、帰納論理プログラミング（ＩＬＰ）エンジンおよびデータセットと関連付けられたドメイン知識を用いて、第１のセットおよび第２のセットに関して機械学習モデルを構築する。第１のセットおよび第２のセットの間で最適な値セットを特定するために、データセットに加えられているブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルがトレーニングする。サンプルを生成するために、トレーニングされたＤＢＮモデルを用いて、最適な値セットがサンプリングされる。【選択図】図２

Description

関連出願の相互参照および優先権の主張
本特許出願は、２０１６年１２月５日出願のインド特許出願第２０１６２１０４１５７０号の優先権を主張する。

技術分野
本明細書における開示は、一般に、ニューロシンボリック最適化に関し、より詳しくは、離散最適化のために帰納論理プログラミングによって強化されたディープビリーフネットワーク・モデルをトレーニングすることに関する。

現実の世界にはドメイン知識が定性的であり、数値最適化に適した形式では容易にエンコードされないいくつかの計画問題がある。例として、列車のスケジュールを作成するときにオーストラリア鉄道線路会社によって遵守されるいくつかの指針を列挙すると、（１）健全な列車が遅れていれば、その列車には他の健全な列車と同等の優先度が与えられるべきである、（２）優先度が低い方の列車の遅延が最小限に維持されるという条件で、優先度が高い方の列車は、優先度が低い方の列車より優先されるべきである、などがある。このことから明白なのは、列車が健全か、列車の優先度がどうかなどを知ることが列車のスケジューリングに資するであろうということである。しかし、優先度および列車の健全さは、コンテキストに係わらず一定であろうか。低優先度の列車に許容可能な遅延を構成する値は何であろうか。良い列車スケジュールを生成するには、列車走行時間の定量的な知識と、孤立した、および他の列車と関連した列車についての定性的な知識との組み合わせが必要である。

通常、分布推定アルゴリズム（ＥＤＡ：ＥｓｔｉｍａｔｉｏｎｏｆＤｉｓｔｒｉｂｕｔｉｏｎＡｌｇｏｒｉｔｈｍ）は、ドメイン知識を前の分布および／またはネットワーク・トポロジーへ翻訳する必要がある、ベイジアンネットワークのような、生成的確率モデルを用いてきた。しかしながら、かかる翻訳が一般的に明白でないいくつかの問題がある。最近の研究は、帰納論理プログラミング（ＩＬＰ：ＩｎｄｕｃｔｉｖｅＬｏｇｉｃＰｒｏｇｒａｍｍｉｎｇ）モデルがＥＤＡ反復ごとにより良い解を生成したことを示した。しかしながら、効率的なサンプリングは簡単ではなく、ＩＬＰは、高レベルの特徴の発見を深層生成モデルのように効率的に利用することができない。

本開示の実施形態は、本発明者らによって認識された従来のシステムにおける上述の技術的問題の１つ以上の解決法として技術的改良を提示する。例えば、一態様において、離散最適化のために帰納論理プログラミングによって強化されたディープビリーフネットワーク・モデルをトレーニングするためのプロセッサに実装された方法が提供される。本方法は、（ａ）（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化するステップと、（ｂ）予め定義された閾値に基づいて複数の値を第１の値セットおよび第２の値セットへ区分するステップと、（ｃ）１つ以上のブール特徴（Ｂｏｏｌｅａｎｆｅａｔｕｒｅ）を得るために、（ｉ）帰納論理プログラミング（ＩＬＰ）および（ｉｉ）データセットと関連付けられたドメイン知識を用いて、第１の値セットおよび第２の値セットの各々に関する機械学習モデルを構築するステップと、（ｄ）第１の値セットおよび第２の値セットの間で最適な値セットを特定するために、データセットに加えられている１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするステップと、（ｅ）１つ以上のサンプルを生成するために、トレーニングされたＤＢＮモデルを用いて、最適な値セットをサンプリングするステップとを備える。

ある実施形態において、本方法は、１つ以上の生成されたサンプルを用いて、予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ（ｂ）から（ｅ）までを繰り返すステップをさらに含んでもよい。ある実施形態において、予め定義された閾値に基づいて複数の値を第１の値セットおよび第２の値セットへ区分するステップは、複数の値からの各値と予め定義された閾値との比較を行うステップを備える。ある実施形態において、第１の値セットは、予め定義された閾値以下の値である。ある実施形態において、第２の値セットは、予め定義された閾値より大きい値である。

別の態様では、離散最適化のために帰納論理プログラミングによって強化されたディープビリーフネットワーク・モデルをトレーニングするシステムが提供される。本システムは、命令を記憶するメモリ、１つ以上の通信インターフェース、および１つ以上の通信インターフェースを経由してメモリに通信可能に結合された１つ以上のハードウェアプロセッサを備え、１つ以上のハードウェアプロセッサは、命令によって、（ａ）（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化し、（ｂ）予め定義された閾値に基づいて複数の値を第１の値セットおよび第２の値セットへ区分し、（ｃ）１つ以上のブール特徴を得るために、（ｉ）帰納論理プログラミング（ＩＬＰ）および（ｉｉ）データセットと関連付けられたドメイン知識を用いて、第１の値セットおよび第２の値セットの各々に関する機械学習モデルを構築し、（ｄ）第１の値セットおよび第２の値セットの間で最適な値セットを特定するために、データセットに加えられている１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングして、（ｅ）１つ以上のサンプルを生成するために、トレーニングされたＤＢＮモデルを用いて、最適な値セットをサンプリングするように構成される。

ある実施形態において、１つ以上のハードウェアプロセッサは、１つ以上の生成されたサンプルを用いて、予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ（ｂ）から（ｅ）までを繰り返すようにさらに構成される。ある実施形態において、複数の値は、複数の値からの各値と予め定義された閾値との比較を行うことによって第１の値セットおよび第２の値セットへ区分される。ある実施形態において、第１の値セットは、予め定義された閾値以下の値である。ある実施形態において、第２の値セットは、予め定義された閾値より大きい値である。

さらに別の態様では、１つ以上の命令を備える１つ以上の非一時的機械可読情報記憶媒体が提供される。１つ以上の命令は、１つ以上のハードウェアプロセッサによって実行されたときに、（ａ）（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化するステップと、（ｂ）予め定義された閾値に基づいて複数の値を第１の値セットおよび第２の値セットへ区分するステップと、（ｃ）１つ以上のブール特徴を得るために、帰納論理プログラミング（ＩＬＰ）およびデータセットと関連付けられたドメイン知識を用いて、第１の値セットおよび第２の値セットの各々に関する機械学習モデルを構築するステップと、（ｄ）第１の値セットおよび第２の値セットの間で最適な値セットを特定するために、データセットに加えられている１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするステップと、（ｅ）１つ以上のサンプルを生成するために、トレーニングされたＤＢＮモデルを用いて、最適な値セットをサンプリングするステップとをもたらす。

ある実施形態において、命令は、１つ以上の生成されたサンプルを用いて、予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ（ｂ）から（ｅ）までを繰り返すステップをさらにもたらしてもよい。ある実施形態において、予め定義された閾値に基づいて複数の値を第１の値セットおよび第２の値セットへ区分するステップは、複数の値からの各値と予め定義された閾値との比較を行うステップを備える。ある実施形態において、第１の値セットは、予め定義された閾値以下の値である。ある実施形態において、第２の値セットは、予め定義された閾値より大きい値である。

理解すべきは、前述の一般的な記載および以下の詳細な記載がいずれも例示的かつ説明的であるに過ぎず、請求される、本発明を限定するものではないことである。

本開示に組み込まれてその一部を構成する添付図面は、例示的な実施形態を示し、記載と併せて、開示される原理を説明するのに役立つ。

離散最適化のために帰納論理プログラミング（ＩＬＰ）によって強化されたディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするためのシステムの例示的なブロック図を示す。本開示のある実施形態に対して図１のシステムを用いた、離散最適化のために帰納論理プログラミング（ＩＬＰ）によって強化されたディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするためのプロセッサに実装された方法の例示的なフロー図を示す。本開示のある実施形態による（ａ）セパレータ変数だけ有り（ｂ）ＩＬＰ特徴有りのＤＢＮからのサンプリングを示す。本開示のある実施形態によるジョブショップのためのＥＯＤＳ手順に対するＩＬＰの影響を示す、ＩＬＰ有りおよび無しで反復１、５、１０および１３の際に生成された解エンドタイム（Ｅｎｄｔｉｍｅ）の分布。本開示のある実施形態によるジョブショップのためのＥＯＤＳ手順に対するＩＬＰの影響を示す、１３回の反復にわたってＩＬＰ特徴有りおよび無しで得られた累積的な準最適解。

添付図面を参照して例示的な実施形態が記載される。図中で、参照番号の最上位桁（単数または複数）は、その参照番号が最初に現われる図を特定する。便利であればどこでも、同じかまたは同様の部分を指すために複数の図面を通じて同じ参照番号が用いられる。本明細書では開示される原理の例および特徴が記載されるが、開示される実施形態の精神および範囲から逸脱することなく修正、適合、および他の実装が可能である。以下の詳細な記載は、例示的であるに過ぎないと見做され、真の範囲および精神は、添付の特許請求の範囲によって示されることが意図される。

現実の世界にはドメイン知識が定性的であり、数値最適化に適した形式では容易にエンコードされないいくつかの計画問題がある。例として、列車のスケジュールを作成するときにオーストラリア鉄道線路会社によって遵守されるいくつかの指針を列挙すると、（１）健全な列車が遅れていれば、その列車には他の健全な列車と同等の優先度が与えられるべきである、（２）優先度が低い方の列車の遅延が最小限に維持されるという条件で、優先度が高い方の列車は、優先度が低い方の列車より優先されるべきである、などがある。このことから明白なのは、列車が健全か、列車の優先度がどうかなどを知ることが列車のスケジューリングに資するであろうということである。しかし、優先度および列車の健全さは、コンテキストに係わらず一定であろうか。低優先度の列車に許容可能な遅延を構成する値は何であろうか。良い列車スケジュールを生成するには、列車走行時間の定量的な知識と、孤立したおよび他の列車と関連した列車に関する定性的な知識との組み合わせが必要である。本開示では、分布推定アルゴリズム（ＥＤＡ）の広いカテゴリに入るヒューリスティックな探索方法が提案される。ＥＤＡは、機械構築モデルを用いて最適化問題に対するより良い解を反復的に生成する。通常、ＥＤＡは、ベイジアンネットワークのような、生成的確率モデルを用いてきた。これらのモデルは、ドメイン知識を前の分布および／またはネットワーク・トポロジーへ翻訳する必要がある。本開示では、かかる翻訳が明白ではない問題を実施形態が取り扱う。本開示の実施形態は、特にＩＬＰを扱い、ＩＬＰは、モデルを構築するときにドメイン知識を用いるための最もフレキシブルな方法のうちの１つをおそらく提供する。最近の研究は、背景知識を組み込んだＩＬＰモデルがＥＤＡ反復ごとにより質の高い解を生成できたことを示した。しかしながら、効率的なサンプリングは容易ではなく、ＩＬＰは、高レベルの特徴の発見を深層生成モデルのように効率的に利用することができない。

最適化にはニューラル・モデルが用いられてきたが、本開示の実施形態は、ドメイン知識を必要とする最適化問題に対して、深層生成モデルのサンプリングおよび特徴発見力とＩＬＰによって取り込まれた背景知識とを組み合わせることを試みる。ＩＬＰモデルによって発見された規則ベースの特徴がトレーニング中にディープビリーフネットワーク（ＤＢＮ）の上位層へ加えられる。次に、規則と適合するサンプルを生成するためのサンプリング中に特徴のサブセットがクランプされる。この結果、サンプリングが一貫して改善されて、ＥＤＡベースの最適化手順の継続的な反復に対してプラスの波及効果を及ぼす。

本開示の実施形態は、離散最適化のために帰納論理プログラミングによって強化されたディープビリーフネットワーク・モデルをトレーニングするためのシステムおよび方法を提供する。本開示の実施形態は、ディープビリーフネットワーク（ＤＢＮ）および帰納論理プログラミング（ＩＬＰ）のユニークな組み合わせによって離散最適化問題を「分布推定（ＥＤＡ）」アプローチを用いて解決する検討を可能にする。継続的に「より良い」許容解の構造を学習するためにＤＢＮが用いられる一方で、ＩＬＰは、解の良さに関するドメイン・ベースの背景知識の組み込みを可能にする。最近の研究は、ＩＬＰがＥＤＡシナリオにおいてドメイン知識を用いるための有効な方法でありうることを示した。しかしながら、純粋にＩＬＰベースのＥＤＡでは、継続的な集団のサンプリングが非効率的かまたは簡単でないかのいずれかである。ニューロシンボリックＥＤＡの本開示では、ＩＬＰエンジンがドメイン・ベースの背景知識を用いて良い解のためのモデルを構築するために用いられる。これらの規則は、ブール特徴としてＥＤＡベースの最適化に用いられるＤＢＮモデルの（最後の）隠れ層に導入される。論理的ＩＬＰ特徴のこの組み込みは、トレーニングおよびＤＢＮからのサンプリング中にいくつかの変更を必要とし、すなわち、（ａ）ＤＢＮモデルは、入力層のユニットならびにそれ以外の隠れ層におけるいくつかのユニットに関するデータを用いてトレーニングされる必要があり、（ｂ）本明細書における本開示および実施形態は、論理モデルに伴うインスタンスから生成されたサンプルを引き出す。これらの実施形態は、２つの最適化問題、すなわち、キング対ルーク＋キング（ＫＲＫ：Ｋｉｎｇ−ＲｏｏｋａｎｄＫｉｎｇ）エンドゲームに関する最適なデプス・オブ・ウィン（ｄｅｐｔｈ−ｏｆ−ｗｉｎ）の予測およびジョブショップ・スケジューリングのインスタンスについて、このアプローチの実行可能性を実証する。結果は効果的かつ有望であり、すなわち、（ｉ）分布推定の各反復の際に、ＩＬＰ支援ＤＢＮを用いて得られたサンプルは、ＩＬＰ特徴の無いＤＢＮを用いて生成されたサンプルより実質的に大きい割合の良い解を有し、（ｉｉ）分布推定の終了の際に、ＩＬＰ支援ＤＢＮを用いて得られたサンプルは、ＩＬＰ特徴の無いＤＢＮからのサンプルと比べてより多くの準最適な解を含む。併せて考えると、これらの結果が示唆するのは、ＩＬＰによって構築された理論の使用が、推定分布ベースの手順のために複雑なドメイン知識を深層モデル中に組み込むのに有用でありうるということである。

次に図面、より詳しくは、複数の図にわたって対応する特徴を同様の参照文字が一貫して表す、図１から４を参照すると、好ましい実施形態が示され、これらの実施形態が以下の例示的なシステムおよび／または方法に照らして記載される。

図１は、本開示のある実施形態による離散最適化のために帰納論理プログラミング（ＩＬＰ）によって強化されたディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするためのシステム１００の例示的なブロック図を示す。ある実施形態において、システム１００は、１つ以上のプロセッサ１０４、通信インターフェース・デバイス（単数または複数）もしくは入力／出力（Ｉ／Ｏ）インターフェース（単数または複数）１０６、１つ以上のプロセッサ１０４に作動的に結合された１つ以上のデータ記憶デバイスまたはメモリ１０２、ならびにコントローラ１０８を含む。他の能力のうちでも、プロセッサ（単数または複数）は、メモリに記憶されたコンピュータ可読命令をフェッチして実行するように構成される。ある実施形態では、システム１００を様々なコンピューティングシステム、例えば、ワークステーション、サーバなどに実装できる。

Ｉ／Ｏインターフェース・デバイス（単数または複数）１０６は、様々なソフトウェアおよびハードインターフェース、例えば、ウェブインターフェース、グラフィカルユーザインターフェースなどを含むことができ、有線ネットワーク、例えば、ＬＡＮ、ケーブルなど、およびＷＬＡＮ、セルラまたは衛星のような無線ネットワークを含めて、多種多様なネットワークＮ／Ｗおよびプロトコル・タイプ内で複数の通信を容易にすることができる。ある実施形態において、Ｉ／Ｏインターフェース・デバイス（単数または複数）は、いくつかのデバイスを互いにまたは別のサーバへ接続するための１つ以上のポートを含むことができる。

メモリ１０２は、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）およびダイナミックランダムアクセスメモリ（ＤＲＡＭ：ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）のような揮発性メモリ、および／またはリードオンリメモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光ディスクおよび磁気テープのような不揮発性メモリを含む、当技術分野で知られた任意のコンピュータ可読媒体を含んでもよい。ある実施形態では、システム１００の１つ以上のモジュール（図示されない）をメモリ１０２中に記憶できる。

図２は、図１を参照して、本開示のある実施形態に対してシステム１００を用いた、離散最適化のために帰納論理プログラミング（ＩＬＰ）によって強化されたディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするためのプロセッサに実装された方法の例示的なフロー図を示す。ある実施形態において、システム１００は、１つ以上のハードウェアプロセッサ１０４に作動的に結合された１つ以上のデータ記憶デバイスまたはメモリ１０２を備え、１つ以上のハードウェアプロセッサ１０４は、方法のステップの実行のための命令を記憶するように構成される。次に、図１に示されるシステム１００の構成要素と、このフロー図とを参照して本開示の方法のステップが説明される。本開示のある実施形態において、ステップ２０２では、１つ以上のハードウェアプロセッサ１０４が（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化する。複数の値および予め定義された閾値は、アプリケーション（または、ある実施形態例ではドメイン）に固有である。本開示のある実施形態において、ステップ２０４では、１つ以上のハードウェアプロセッサ１０４が予め定義された閾値に基づいて複数の値を第１の値セットおよび第２の値セットへ区分（または分割）する。本開示のある実施形態では、複数の値からの各値と予め定義された閾値との比較を行うことによって、予め定義された閾値に基づいて複数の値が第１の値セットおよび第２の値セットへ区分される。ある実施形態において、第１の値セットは、予め定義された閾値以下の値である。ある実施形態において、第２の値セットは、予め定義された閾値より大きい値である。

本開示のある実施形態において、ステップ２０６では、１つ以上のハードウェアプロセッサ１０４が１つ以上のブール特徴を得るために、（ｉ）帰納論理プログラミング（ＩＬＰエンジン）および（ｉｉ）データセットと関連付けられたドメイン知識を用いて、第１の値セットおよび第２の値セットの各々に関する機械学習モデルを構築する。本開示のある実施形態において、システム１００は、１つ以上のブール特徴に変換された１つ以上の規則を得るために、（ｉ）帰納論理プログラミング（ＩＬＰエンジン）および（ｉｉ）データセットと関連付けられたドメイン知識を用いて、第１の値セットおよび第２の値セットの各々に関する機械学習モデルを構築する。

本開示のある実施形態において、ステップ２０８では、１つ以上のハードウェアプロセッサ１０４が第１の値セットおよび第２の値セットの間で最適な値セットを特定するために、データセットに加えられている１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングする。本開示のある実施形態において、ＤＢＮモデルをトレーニングすると、ＤＢＮモデルが第１の値セットおよび第２の値セットの間で良いおよび良くない（または悪い）値を特定することが可能になる。本開示のある実施形態において、ＩＬＰエンジンによって得られた規則（Ｔｈｅｒｕｌｅ）ベースのブール特徴は、ある実施形態例では、ディープビリーフネットワーク（ＤＢＮ）モデルの１つ以上の上位層に加えられる。

本開示のある実施形態において、ステップ２１０では、１つ以上のハードウェアプロセッサ１０４が１つ以上のサンプルを生成するために、トレーニングされたＤＢＮモデルを用いて、最適な値セットをサンプリングする。本開示のある実施形態において、１つ以上のハードウェアプロセッサ１０４は、１つ以上の生成されたサンプルを用いて、予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ２０４から（２１０）までが繰り返される。

以下は、本開示の実施形態の実装の詳細に加えて実験データである。

分布推定アプローチ：
本開示の実施形態の目的は、目的関数Ｆ（ｘ）を最小化することであると仮定し、ここでｘは、あるインスタンス空間Ｘからのインスタンスであり、本アプローチは、最初に、低い方および高い方の値、すなわちＦ（ｘ）≦θおよびＦ（ｘ）＞θのサンプルを区別するために然るべき機械学習モデルを構築し、次にこのモデルを用いて、図２の方法の以下の説明的なステップ（ＥＤＯＳ手順）によって、サンプルを生成する：
１．集団を初期化するＰ：＝｛ｘ_ｉ｝；θ：＝θ_０
２．ｗｈｉｌｅｎｏｔｃｏｎｖｅｒｇｅｄｄｏ
ａ．Ｐ中のすべてのｘ_ｉに対してＦ（ｘ_ｉ）≦θならばｌａｂｅｌ（ｘ_ｉ）：＝１、そうでない場合はｌａｂｅｌ（ｘ_ｉ）：＝０
ｂ．１および０ラベルを区別するためにＤＢＮモデルＭをトレーニングする、すなわち、Ｐ（ｘ：ｌａｂｅｌ（ｘ）＝１｜Ｍ）＞Ｐ（ｘ：ｌａｂｅｌ（ｘ）＝０｜Ｍ）
ｃ．モデルＭを用いた繰り返しサンプリングによってＰを再生成する
ｄ．閾値θを減少させる
３．ｒｅｔｕｒｎＰ

ここではデータ分布をモデリングするため、およびＭＩＭＩＣ（相互情報量最大化入力クラスタリング：Ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎｍａｘｉｍｉｚｉｎｇｉｎｐｕｔｃｌｕｓｔｅｒｉｎｇ）の反復ごとにサンプルを生成するために、本開示の実施形態がディープビリーフネットワーク（ＤＢＮ）モデルを実装する。ディープビリーフネットワーク（ＤＢＮ）モデルは、制約ボルツマン機械（ＲＢＭ：ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎＭａｃｈｉｎｅ）と称される複数の潜在変数モデルからなる生成モデルである。特に、提案されるより大きい最適化アルゴリズムの一部として、ＤＢＮモデルは、先の説明的なステップで概説されたように、繰り返してトレーニングされて、その後、次の反復用にサンプル集合を再初期化するために、トレーニングされたＤＢＮモデルから最適値をサンプリングする。これを達成するために、トレーニング中に単一の２進単位（変数）がＤＢＮモデルの最上位の隠れ層に加えられて、サンプルの値がθ未満のときにはそれに値１が割り当てられ、その値がθを上回れば値０が割り当てられる。セパレータ変数と呼ばれるこの変数は、トレーニング中に、良いおよび悪いサンプルを区別することを学習する。典型的なＤＢＮからコントラスティヴ・ダイバージェンスを用いてサンプリングするためには、可視ユニットをあるデータポイントへクランプし、最低レベルのＲＢＭに関して隠れユニット値をサンプリングすることから開始することになろう。これらの値が、その後、次の上位層の隠れユニットをサンプリングするためのデータとして取り扱われることになるなどである。最上位層においてギブス連鎖が実行されて、その後に可視ユニットをサンプリングしながらネットワークを下降し、最終的に元のデータ層でサンプルを得る。本開示によって参照される問題では、良いサンプルを作り出すようにネットワークをバイアスして、事前のＭＩＭＩＣ反復からのＤＢＮ重みを後続の反復のための初期重みとして用いられるように保存するために、セパレータ変数が追加的に１にクランプされる。この技術は、１つの反復のためのトレーニングデータが事前の反復からのサンプルを包含するので、同じデータに対して繰り返して再トレーニングすることを防止する。

以下は、ＩＬＰエンジンがこの目的で構築されたＤＢＮをどのように支援できるかの概要を提供する。

帰納論理プログラミング（ＩＬＰ）の分野は、論理ベースの関係学習の理論、実装およびアプリケーションを発展させる点で数年にわたって着実に進歩してきた。機械学習のこの形式の特徴は、データ、ドメイン知識およびモデルが通常−常にではないが−１次論理、すなわち論理プログラムのサブセットで表現されることである。明白なのは、１次論理のあるバリアントの使用が関係（ここでは真理値のｎタプルへの割り当ての形式的な意味で用いられる）を用いるモデルの自動的な構築を可能にすることである。本開示の実施形態は、そのドメインがデータ中のインスタンスのセットである、関数（この場合もやはり、一意的に定義された関係という意味で形式的に用いられる）の特定に係わる関係学習の形式に関心を示す。一例は、既存の関係（「分子ｍが一緒に縮合された３つ以上のベンゼン環を有すればｆ（ｍ）＝１、そうでない場合はｆ（ｍ）＝０」、ここではベンゼン環および環の結合性のような概念が背景知識において提供される一般的な関係である）に基づくデータ解析のための新しい特徴の構築である。

以下は、帰納論理プログラミング支援ディープビリーフネットワーク・モデルの概要である。
インスタンスＸのセットから引き出されたいくつかのデータインスタンスｘおよびドメイン固有の背景知識を所与として、２つのクラス（簡単にするために、良いおよび悪いと称される）を区別するモデルを構築するためにＩＬＰエンジン（モデル）が用いられると仮定する。ＩＬＰエンジンは、ｈ_ｊ：Ｃｌａｓｓ（ｘ；ｇｏｏｄ）←Ｃｐ_ｊ（ｘ）の形式の規則を用いて良いインスタンスのためのモデルを構築する。Ｃｐ_ｊ：Ｘ→｛０，１｝は、「コンテキスト述語」を表す。コンテキスト述語は、Ｘの任意の要素に関してＴＲＵＥ（１）またはＦＡＬＳＥ（０）に評価されるリテラルの接続詞に対応する。意味のある特徴に対しては、Ｃｐ_ｊが少なくとも１つのリテラルを含むことを必要とし、論理的には、それゆえに、対応するｈ_ｊが少なくとも２つのリテラルをもつ確定節であることを必要とする。規則ｈ_ｊ：Ｃｌａｓｓ（ｘ；ｇｏｏｄ）←Ｃｐ_ｊ（ｘ）は、次のように１対１のマッピングを用いて特徴ｆ_ｊへ変換される、すなわち、Ｃｐ_ｊ（ｘ）＝１であればｆ_ｊ（ｘ）＝１（そうでない場合は０）。この関数は、Ｆｅａｔｕｒｅと表される。従って、Ｆｅａｔｕｒｅ（ｈ_ｊ）＝ｆ_ｊ、Ｆｅａｔｕｒｅ^−１（ｆ_ｊ）＝（ｈ_ｊ）。これは、ときにはＦｅａｔｕｒｅ（Ｈ）＝｛ｆ：ｈ∈Ｈａｎｄｆ＝Ｆｅａｔｕｒｅ（ｈ）｝およびＲｕｌｅｓ（Ｆ）＝｛ｈ：ｆ∈Ｆａｎｄｈ＝Ｆｅａｔｕｒｅ^−１（ｆ）｝と呼ばれる。

ＩＬＰエンジンにおける各規則が単一のブール特徴へこのように変換されて、モデルがブール特徴のセットをもたらす。次に、説明的なステップを参照すると（ステップ１〜３を参照）、Ｆ（ｘ）≦θ（良い）およびＦ（ｘ）＞θ（良くない）を区別するためにＩＬＰモデル（単数または複数）が構築される。概念的には、ＩＬＰ特徴がディープビリーフネットワーク・モデルに関する高レベルの特徴として取り扱われ、図３に示されるように、サンプルごとにＩＬＰ特徴の値が最高レベルのＲＢＭのデータ層に加えられる。より具体的には、図３は、図１〜２と関連して、本開示のある実施形態による（ａ）セパレータ変数だけ有り（ｂ）ＩＬＰ特徴有りのＤＢＮからのサンプリングを示す。

論理モデルからのサンプリング：
先の研究が示唆したのは、サンプルをＩＬＰ構築モデルの成功セットから引き出すことができれば、準最適解を特定する効率を著しく向上できるであろうということである。ＩＬＰ支援ＤＢＮモデル（またはＩＬＰ強化ＤＢＮモデル）を用いてこれを達成する直接的なアプローチは、すべてのＩＬＰ特徴をクランプすることであるように思われるであろうが、その理由は、このことがネットワークからのサンプルを対応規則の成功セットの共通部分からのサンプルの方へバイアスすることになるためである（共通部分中のインスタンスが求められる成功セット内にあることが保証されるのは明白である）。しかしながら、これは、不当に制限的になり、その理由は、求められるサンプルがモデルにおけるすべての規則を満たすサンプルではなく、少なくとも１つの規則を満たすサンプルであるためである。明らかな修正は、特徴のサブセットをクランプすることであろう（ｗｏｕｌｄｂｅｃｌａｍｐ）。しかしながら、特徴のサブセットからのすべてのサンプルが適切というわけではないこともある。

クランプされた（または加えられている）特徴のサブセットを用いると、ＤＢＮの隠れユニット（または層）のストカスティックな特質に起因して生じるさらなる複雑さが存在する。これは、論理特徴ｆ_ｊに対応するＤＢＮのユニットが、背景知識および論理規則ｈ_ｊに伴わないｘ_ｉを除いて、インスタンスｘ_ｉに対して値１を有することを可能にする。

延いては、これが意味するのは、クランプされた値をもつ特徴サブセットに対しては、サンプルを関与する対応規則の成功セットの外部から生成してもよいということである。背景知識Ｂを所与として、Ｂ∧Ｈ＝ｘ（すなわち、ｘがＢおよびＨに伴う）ならば、特徴Ｆのセットをクランプすることによって生成されるサンプル・インスタンスｘは、Ｈ＝Ｒｕｌｅｓ（Ｆ）にアラインされる。ＩＬＰによって構築された論理モデルの成功セットからのインスタンスのサンプリングをバイアスするための手順が以下に例示的なステップによって示される。

Ｇｉｖｅｎ：背景知識Ｂ、規則のセットＨ＝{ｈ_１，ｈ_２，．．．，ｈ_Ｎ}ｌ、高レベルの特徴（ｆ_ｉ＝Ｆｅａｔｕｒｅ（ｈ_ｉ））としてＦ＝{ｆ_１，ｆ_２，．．．，ｆ_Ｎ}をもつＤＢＮ、およびサンプル・サイズＭ

Ｒｅｔｕｒｎ：Ｂ∧Ｈの成功セットから引き出されたサンプルのセット{ｘ_１，ｘ_２，．．．，ｘ_Ｍ}。
１．Ｓ：＝φ，ｋ＝０
２．ｗｈｉｌｅ｜ｋ｜≦Ｎｄｏ
ａ．Ｆからサイズｋの特徴のサブセットＦ_ｋをランダムに選択する
ｂ．Ｆ_ｋ中にＸクランピング特徴の小さいサンプル・セットを生成する
ｃ．ｘ∈Ｘ中のサンプルごとおよび規則ｈ_ｊごとに、ｃｏｕｎｔ_ｋ＝０に設定する
ｉ．ｘ∈ｓｕｃｃｅｓｓ−ｓｅｔ、ここで（ｆ_ｊ（ｘ）＝１）＝＞（ｘ∈ｓｕｃｃｅｓｓ−ｓｅｔ（Ｂａｎｄｈ_ｊ））であればｃｏｕｎｔ_ｋ＝ｃｏｕｎｔ_ｋ＋１
３．ｋ個の特徴をクランプすることによってＳを生成する、ここでｃｏｕｎｔ_ｋ＝ｍａｘ（ｃｏｕｎｔ_１，ｃｏｕｎｔ_２．．．ｃｏｕｎｔ_Ｎ）
４．ＲｅｔｕｒｎＳ

経験的評価
本開示における経験的評価の目的は、以下の推測を検討することである、すなわち、
１）各反復の際に、ＥＯＤＳ手順は、ＩＬＰ特徴有りの方が無しより良いサンプルをもたらす。
２）終了の際に、ＥＯＤＳ手順は、ＩＬＰ特徴有りの方が無しより多くの準最適なインスタンスをもたらす。
３）両方の手順は、初期トレーニング・セットからのランダムサンプリングよりうまく行く。

ここで適切なのは、上記のステートメントにおいて意図された比較を明確にすることである。推測１）は、基本的に、ＩＬＰ特徴を用いることによって得られる精度の増大に関するステートメントである。サンプリングを導くためにＩＬＰ特徴無しで高々θのコストでインスタンスｘを生成する確率をＰｒ（Ｆ（ｘ）≦θ）と表し、いくつかのドメイン知識Ｂを用いた先のＥＯＤＳ手順の反復ｋの際に得られる、ＩＬＰ特徴Ｍ_ｋ，Ｂ有りでかかるインスタンスを得る確率をＰｒ（Ｆ（ｘ）≦θ）｜Ｍ_ｋ，Ｂ）によって表すとしよう。Ｍ_ｋ，Ｂ＝φであれば、Ｐｒ（Ｆ（ｘ）≦θ）｜Ｍ_ｋ，Ｂ）＝Ｐｒ（Ｆ（ｘ）≦θ））を意味することに留意されたい。次に、１）が成り立つためには、いくつかの関連するＢを所与として、ＰｒＦ（ｘ）≦θ_ｋ｜Ｍ_ｋ，Ｂ）＞Ｐｒ（Ｆ（ｘ）≦θ_ｋ）であることが必要とされる。確率は、左辺ではモデルを用いて生成されたサンプルから推定され、右辺の確率は、提供されたデータセットから推定される。推測２）は、モデルを用いることによって得られる再現率の増大に関係するが、しかし、準最適なインスタンスの実際の数（通常の用語法では真陽率）を調べる方がより実用的である。ＤＢＮモデルのみを用いて得られた準最適の数に対する、ＩＬＰ特徴有りのＤＢＮモデルによって生成されたサンプル中の準最適の数。

実験データ：
２つの合成データセットが用いられた。一方は、ＫＲＫチェス・エンドゲーム（ボード上にホワイトキング、ホワイトルーク、およびブラックキングだけのエンドゲーム）から生じ、他方は、制約付きであるが、それでも困難な５×５ジョブショップ・スケジューリング（各々が一度に１つのタスクだけを処理することが可能な、５つの機械上へ様々な長さの時間を要する５つのジョブをスケジュールする）から生じた。

ＫＲＫエンドゲームについてここで調べられる最適化問題は、最適なプレイによるデプス・オブ・ウィンを予測することである。エンドゲームの態様は、「白が動く局面（Ｗｈｉｔｅ−ｔｏ−ｍｏｖｅｐｏｓｉｔｉｏｎ）がイリーガルである」と予測するタスクほどＩＬＰではポピュラーでなかったが、興味深い種類の最適化問題に対するショウジョウバエ（Ｄｒｏｓｏｐｈｉｌａ）として多くの利点を提供する。第１に、チェスの他のエンドゲームと同様に、ＫＲＫ−ｗｉｎは、雑音のない完全なデータがある、複雑な可算ドメインである。第２に、すべてのデータインスタンスについて最適な「コスト」が知られている。第３に、この問題は、少なくともトーレス・イ・ケベード（ＴｏｒｒｅｓｙＱｕｅｖａｄｏ）が、１９１０年に、ＫＲＫエンドゲームをプレイすることが可能な機械を構築して以来、チェスの専門家によって研究されてきた。これによって相当量のドメイン固有の知識がもたらされた。この問題は、最適化の形式で取り扱えば十分であり、ミニマックス最適プレイを仮定すると、コストは、ブラックが動く（Ｂｌａｃｋ−ｔｏ−ｍｏｖｅ）ことによるデプス・オブ・ウィンである。原理的に、ＫＲＫエンドゲームには６４^３≒２６０，０００の可能な局面があり、これらのすべてがリーガルというわけではない。イリーガルな局面、およびボードの対称性から生じる冗長性を除去すると、インスタンス空間のサイズが約２８，０００まで減少し、分布は、下の表１に示される。

ここでのサンプリング・タスクは、デプス・オブ・ウィンが０に等しいインスタンスを生成することである。簡易なランダムサンプリングは、冗長性が除去されたときにかかるインスタンスを生成する約１／１０００の確率を有する。

ジョブショップ・スケジューリング問題は、チェスのエンドゲームより制御が不十分であるが、それでも（列車のスケジューリングのような）多くの実生活のアプリケーションを代表し、一般に、計算が難しいことが知られている。

チェスに関するデータインスタンスは、関与する３つのピースのランクおよびファイル（ＸおよびＹ値）を表す、６タプルの形式である。ＲＢＭのために、これらが４８次元の２進ベクトルとしてエンコードされ、各８ビットがピースのランクまたはファイルのワン・ホット・エンコーディングを表す。ＥＯＤＳ手順の反復ｋごとに、デプス・オブ・ウィン≦θ_ｋのいくつかのインスタンスおよびデプス・オブ・ウィン＞θ_ｋの残りのインスタンスを用いてＩＬＰモデルが構築され、結果として生じた特徴が上記のようにＲＢＭモデルをトレーニングするために加えられる。

ジョブショップに関するデータインスタンスは、スケジュールの総コストとともに機械上のタスクごとに対応付けられた開始および終了時刻を含む、スケジュールの形式である。ＥＯＤＳ手順の反復ｉの際に、スケジュールのコストが≦θ_ｉとなるかまたはそうではないかを予測するためにモデルが構築されることになる。表２は、ジョブショップ・スケジューリングについて示す。

上の表１および２は、コスト値の分布を示す。括弧内の数は、累積度数である。

背景知識：
チェスに関しては、背景述語が以下をエンコードする（ＷＫは白キング（ＷＫｄｅｎｏｔｅｓ）、ＷＲは白ルーク、およびＢＫは黒キングを表す）：（ａ）ピース間距離ＷＫ−ＢＫ、ＷＫ−ＢＫ、ＷＫ−ＷＲ、（ｂ）ファイルおよび距離パターン：ＷＲ−ＢＫ、ＷＫ−ＷＲ、ＷＫ−ＢＫ、（ｃ）「アラインメント距離」：ＷＲ−ＢＫ、（ｄ）隣接パターン：ＷＫ−ＷＲ、ＷＫ−ＢＫ、ＷＲ−ＢＫ、（ｅ）「間」パターン：ＷＫとＢＫとの間のＷＲ、ＷＲとＢＫとの間のＷＫ、ＷＫとＷＲとの間のＢＫ、（ｆ）最近接エッジへの距離：ＢＫ、（ｇ）最近接コーナへの距離：ＢＫ、（ｈ）中心への距離：ＷＫ、および（ｉ）ピース間パターン：オポジション状態のキング、ほぼオポジション状態のキング、Ｌ状パターン。これらの概念を用いる歴史とそれらの定義とを扱う先行研究がなされてきた。デプス＜＝２に対して生成されるサンプル規則は、２つのキングのファイル間の距離がゼロ以上であり、これらのキングのランクが５未満の距離で分離され、白キングおよびルークのランクが３未満の距離で分離されることである。

ジョブショップに関しては、背景述語が以下をエンコードする：（ａ）機械Ｍ上のジョブＪ「早い」をスケジュールする（早いは、最初または２番目を意味する）、（ｂ）機械Ｍ上のジョブＪ「遅い」をスケジュールする（遅いは、最後または最後の１つ前を意味する）、（ｃ）ジョブＪは機械Ｍのための最も速いタスクを有する、（ｄ）ジョブＪは機械Ｍのための最も遅いタスクを有する、（ｅ）ジョブＪは、機械Ｍのための速いタスクを有する（速いは、最も速いかまたは２番目に速いことを意味する）、（ｆ）ジョブＪは機械Ｍのための遅いタスクを有する（遅いは、最も遅いかまたは２番目に遅いことを意味する）、（ｇ）機械Ｍのための待機時間、（ｈ）全待機時間、（ｉ）機械上でタスクを実行する前に要する時間。正確には、（ｇ）〜（ｉ）のための熟語は、標準的な不等式述語≦および≧を用いて、時間に対する上限および下限をエンコードする。

次の詳細が関連する：
チェスに関する閾値のシーケンスは、（８，４，２，０）である。ジョブショップに関しては、このシーケンスは、（９００，８９０，８８０…６００）である。従って、チェスではθ^＊＝０、ジョブショップでは６００であり、これが意味するのは、チェスでは厳密に最適な解が必要なことである。

ここで用いたＩＬＰモデル（Ａｌｅｐｈ）の使用の経験は、最も感度のよいパラメータが許容可能な節の精度に対する下限を定義するパラメータ（Ａｌｅｐｈにおけるｍｉｎａｃｃ設定）であることを示唆する。ｍｉｎａｃｃ＝０：７を用いて得られた実験結果、これがＫＲＫデータセットを用いた前の実験に用いられた。ジョブショップに関する背景知識は、短い節による良い理論の特定を許容するのに十分強力であるようには思われない。すなわち、節当たり４リテラルまで（ｕｐｔｏ）の通常のＡｌｅｐｈ設定は、トレーニングデータの大部分を一般化されないままにしておく。それゆえに、ジョブショップに関しては、１０リテラルまで（ｕｐｔｏ）の上限が許容され（ａｌｌｏｗｅｄｔｏ）、対応する探索ノード数の１００００までの増加を伴う（チェスは、これらのパラメータに４および５０００のデフォルト設定を用いる）。

ＥＯＤＳ手順において、初期サンプルは、すべてのインスタンスにわたる一様分布を用いて得られる。これをＰ_ｏとしよう。ＥＯＤＳの第１の反復（ｋ＝１）の際に、Ｐ_ｏ中のインスタンスについて（実際の）コストを計算することによりデータセットＥ_１ ^＋およびＥ_１ ⁻が得られて、ＩＬＰモデルＭ_１，Ｂ、または単にＭ_１が構築される。ＤＢＮモデルがＩＬＰ特徴有りおよび無しの両方で構築される。サンプルは、ＣＤ_６を用いるか、またはギブス連鎖を６回反復して実行することによってＤＢＮから得られる。各反復ｋの際に、値≦θ_ｋおよび＞θ_ｋをもつインスタンスの経験的な度数分布からＰｒ（Ｆ（ｘ）≦θ_ｋ）の推定値を得ることができる。本明細書における合成問題について、これらの推定値が上の表１および２中にある。Ｐｒ（Ｆ（ｘ）≦θ）｜Ｍ_ｋ，Ｂ）に対して、Ｐ_ｋにおけるＦ（ｘ）≦θ_ｋの度数を得て、用いられる。

Ｐｒ（Ｆ（ｘ）≦θ）｜Ｍ_ｋ，Ｂ）のＰｒ（Ｆ（ｘ）≦θ_ｋ）に対する比は、ＩＬＰモデルを用いることによって得られる、非ＩＬＰモデルに優る精度の増大を計算するのと等価であることがわかるであろう。特に、この比がおよそ１であれば、ＩＬＰモデルを用いる価値はない。計算された確率は、モデルのサンプリング効率を推定する１つの方法も提供する（確率が高いほど、Ｆ（ｘ）≦θ_ｋをもつインスタンスｘを得るためにより少ないサンプルが必要とされるであろう）。

結果：
それぞれチェスおよびジョブショップに関して推測１）および２）に関連する結果が下の表３、４、５および６に表示される。

ＥＯＤＳ手順の反復ｋごとに良いインスタンスｘを得る確率。すなわち、列ｋ＝１は、反復１後のＰ（Ｆ（ｘ）≦θ_１を表し、列ｋ＝２は、反復２後のＰ（Ｆ（ｘ）≦θ_２を表すなどである。実際に、これは、Ｆ（ｘ）≦θ_ｋを予測するときの精度の推定値である。モデル列における「なし」は、簡易なランダムサンプリング（Ｍ_ｋ＝φ）に対応する、インスタンスの確率を表す。

ＥＯＤＳの各反復の際に生成された準最適なインスタンスＦ（ｘ）≦θ^＊の割合。実際に、これは、Ｆ（ｘ）≦θ^＊を予測するときの再現率（真陽性率、または感度）の推定値である。分数ａ／ｂは、ｂ個のインスタンスが生成されることを表す。

結果から引き出すことができる主要な結論が以下に示される、すなわち、ａ）両方の問題、および各閾値の値θ_ｋに関して、ＩＬＰ誘導ＲＢＭサンプリングを用いて高々θ_ｋのコストでインスタンスを得る確率は、ＩＬＰ無しより実質的により高い。これは、ＩＬＰ誘導ＤＢＮサンプリングがＤＢＮサンプリングのみより良いサンプルをもたらすことの証拠を与える（推測１）。

両方の問題および各閾値θ_ｋに関して、ＩＬＰ誘導サンプリングを用いて得られたサンプルは、ＤＢＮのみを用いて得られたサンプルより実質的に多数の準最適なインスタンスを含む（推測２）。

加えて、本開示のある実施形態によれば、図４Ａ〜４Ｂは、ジョブショップ問題に関してＩＬＰの（ａ）得られた良い解の分布および（ｂ）ＤＢＮのみに優る連鎖的な改善への累積的な効果を実証する。ＩＬＰを用いたＤＢＮは、１０回以内の反復で最適解に到達することが可能であった。より具体的には、図４Ａ〜４Ｂは、本開示のある実施形態によるジョブショップのためのＥＯＤＳ手順に対するＩＬＰの影響を示す（ａ）ＩＬＰ有りおよび無しで反復１、５、１０および１３の際に生成された解エンドタイムの分布、（ｂ）１３回の反復にわたってＩＬＰ特徴有りおよび無しで得られた累積的な準最適解。

これらの実施形態を当業者が作製して用いることを可能にするために、文書による記載が本明細書の主題を説明する。本主題の実施形態の範囲は、請求項によって規定され、当業者が想起する他の修正を含んでもよい。かかる他の修正は、請求項の文言と異ならない同様の要素をそれらが有するか、または請求項の文言と非実質的に相違する同等の要素をそれらが含むならば、請求項の範囲内にあることが意図される。

理解すべきは、保護の範囲がかかるプログラムへ、さらに加えてメッセージをその中に有するコンピュータ可読手段へ拡張されることであり、かかるコンピュータ可読記憶手段は、プログラムがサーバもしくはモバイルデバイスまたは任意の適切なプログラマブルデバイス上で作動するときに、方法の１つ以上のステップを実施するためのプログラムコード手段を含む。ハードウェアデバイスは、例えば、サーバもしくはパーソナルコンピュータなど、またはそれらの任意の組み合わせのような任意の種類のコンピュータを含めて、プログラムできる任意の種類のデバイスとすることができる。デバイスは、例えば、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）のような、例えば、ハードウェア手段、あるいは、ハードウェアおよびソフトウェア手段の組み合わせ、例えば、ＡＳＩＣおよびＦＰＧＡ、または少なくとも１つのマイクロプロセッサおよびソフトウェア・モジュールがその中にある少なくとも１つのメモリとすることができる手段も含んでもよい。従って、これらの手段は、ハードウェア手段およびソフトウェア手段の両方を含むことができる。本明細書に記載される方法の実施形態をハードウェアおよびソフトウェアで実装できるであろう。デバイスがソフトウェア手段も含んでもよい。代わりに、例えば、複数のＣＰＵを用いて、これらの実施形態が種々のハードウェアデバイス上に実装されてもよい。

本明細書における実施形態は、ハードウェアおよびソフトウェア要素を備えることができる。ソフトウェアで実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがそれらには限定されない。本明細書に記載される様々なモジュールによって行われる機能が他のモジュールまたは他のモジュールの組み合わせで実装されてもよい。この記載の目的では、コンピュータで利用可能な媒体またはコンピュータ可読媒体は、命令実行システム、機器、もしくはデバイスによって、またはそれらと接続して用いるためのプログラムを備える、記憶する、通信する、伝搬するか、または輸送することができる任意の機器とすることができる。

説明されるステップは、示される例示的な実施形態を説明するために提示され、予想すべきは、進展する技術開発が特定の機能を行う仕方を変化させるであろうということである。本明細書ではこれらの例が、限定ではなく、説明のために提示される。さらにまた、記載の便宜上、本明細書では機能的ビルディングブロックの境界が任意に定義された。指定される機能およびそれらの関係が然るべく行われる限り、代わりの境界を定義できる。（本明細書に記載されるものの等価物、拡張、変形、逸脱などを含む）選択肢は、関連技術分野（単数または複数）の当業者には本明細書に含まれる教示に基づいて明らかであろう。かかる選択肢は、開示される実施形態の範囲および精神の範囲内に入る。さらに、単語「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｃｏｎｔａｉｎｉｎｇ）」および「含む（ｉｎｃｌｕｄｉｎｇ）」、ならびに他の同様の語形は、意味が同等であることが意図され、これらの単語のいずれかに続く項目（単数または複数）がかかる項目（単数または複数）の網羅的なリスティングであることを意味せず、あるいはリストされた項目（単数または複数）のみに限定されることも意味しないという点で非限定的であることが意図される。同様に留意すべきは、本明細書および添付される請求項では、文脈が明らかに別様に指示しない限り、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「該（前記）（ｔｈｅ）」が複数の参照を含むことである。

そのうえ、本開示に適合する実施形態を実装するときに１つ以上のコンピュータ可読記憶媒体が利用されてもよい。コンピュータ可読記憶媒体は、プロセッサによって読むことができる情報またはデータが記憶されてもよい任意のタイプの物理メモリを指す。従って、コンピュータ可読記憶媒体は、本明細書に記載される実施形態に適合するステップまたは段階をプロセッサ（単数または複数）に行わせるための命令を含めて、１つ以上のプロセッサによる実行のための命令を記憶してもよい。用語「コンピュータ可読媒体」は、有形の品目を含み搬送波および過渡信号を除く、すなわち、非一時的であると理解すべきである。例は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ブルーレイ、ＤＶＤ、フラッシュドライブ、ディスクおよび任意の他の既知の物理記憶媒体を含む。

本開示および例は、例示的であるに過ぎないと見なされることが意図され、開示される実施形態の真の範囲および精神は、添付の特許請求の範囲によって示される。

Claims

プロセッサに実装された方法であって、
（ａ）（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化するステップと、
（ｂ）前記予め定義された閾値に基づいて前記複数の値を第１の値セットおよび第２の値セットへ区分するステップと、
（ｃ）１つ以上のブール特徴を得るために、帰納論理プログラミング（ＩＬＰ）および前記データセットと関連付けられたドメイン知識を用いて、前記第１の値セットおよび前記第２の値セットの各々に関する機械学習モデルを構築するステップと、
（ｄ）前記第１の値セットおよび前記第２の値セットの間で最適な値セットを特定するために、前記データセットに加えられている前記１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするステップと、
（ｅ）１つ以上のサンプルを生成するために、前記トレーニングされたＤＢＮモデルを用いて、前記最適な値セットをサンプリングするステップと
を備える、方法。
前記１つ以上の生成されたサンプルを用いて、前記予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ（ｂ）から（ｅ）までを繰り返すステップをさらに備える、請求項１に記載のプロセッサに実装された方法。
前記予め定義された閾値に基づいて前記複数の値を第１の値セットおよび第２の値セットへ区分する前記ステップは、前記複数の値からの各値と前記予め定義された閾値との比較を行うステップを備える、請求項１に記載のプロセッサに実装された方法。
前記第１の値セットは、前記予め定義された閾値以下の値である、請求項１に記載のプロセッサに実装された方法。
前記第２の値セットは、前記予め定義された閾値より大きい値である、請求項１に記載のプロセッサに実装された方法。
システムであって、
命令を記憶するメモリ、
１つ以上の通信インターフェース、および
前記１つ以上の通信インターフェースを経由して前記メモリに通信可能に結合された１つ以上のハードウェアプロセッサを備え、前記１つ以上のハードウェアプロセッサは、前記命令によって、
（ａ）（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化し、
（ｂ）前記予め定義された閾値に基づいて前記複数の値を第１の値セットおよび第２の値セットへ区分し、
（ｃ）１つ以上のブール特徴を得るために、帰納論理プログラミング（ＩＬＰ）および前記データセットと関連付けられたドメイン知識を用いて、前記第１の値セットおよび前記第２の値セットの各々に関する機械学習モデルを構築し、
（ｄ）前記第１の値セットおよび前記第２の値セットの間で最適な値セットを特定するために、前記データセットに加えられている前記１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングして、
（ｅ）１つ以上のサンプルを生成するために、前記トレーニングされたＤＢＮモデルを用いて、前記最適な値セットをサンプリングする
ように構成された、
システム。
前記１つ以上のハードウェアプロセッサは、前記１つ以上の生成されたサンプルを用いて、前記予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ（ｂ）から（ｅ）までを繰り返すようにさら構成された、請求項６に記載のシステム。
前記複数の値は、前記複数の値からの各値と前記予め定義された閾値との比較を行うことによって前記第１の値セットおよび前記第２の値セットへ区分される、請求項６に記載のシステム。
前記第１の値セットは、前記予め定義された閾値以下の値である、請求項６に記載のシステム。
前記第２の値セットは、前記予め定義された閾値より大きい値である、請求項６に記載のシステム。
１つ以上の命令を備える１つ以上の非一時的機械可読情報記憶媒体であって、前記１つ以上の命令は、１つ以上のハードウェアプロセッサによって実行されたときに、
（ａ）（ｉ）複数の値を備えるデータセットおよび（ｉｉ）予め定義された閾値を初期化するステップと、
（ｂ）前記予め定義された閾値に基づいて前記複数の値を第１の値セットおよび第２の値セットへ区分するステップと、
（ｃ）１つ以上のブール特徴を得るために、帰納論理プログラミング（ＩＬＰ）および前記データセットと関連付けられたドメイン知識を用いて、前記第１の値セットおよび前記第２の値セットの各々に関する機械学習モデルを構築するステップと、
（ｄ）前記第１の値セットおよび前記第２の値セットの間で最適な値セットを特定するために、前記データセットに加えられている前記１つ以上のブール特徴を用いて、ディープビリーフネットワーク（ＤＢＮ）モデルをトレーニングするステップと、
（ｅ）１つ以上のサンプルを生成するために、前記トレーニングされたＤＢＮモデルを用いて、前記最適な値セットをサンプリングするステップと
をもたらす、１つ以上の非一時的機械可読情報記憶媒体。
前記命令は、前記１つ以上の生成されたサンプルを用いて、前記予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ（ｂ）から（ｅ）までを繰り返すステップをさらにもたらす、請求項１１に記載の１つ以上の非一時的機械可読情報記憶媒体。
前記予め定義された閾値に基づいて前記複数の値を第１の値セットおよび第２の値セットへ区分する前記ステップは、前記複数の値からの各値と前記予め定義された閾値との比較を行うステップを備える、請求項１１に記載の１つ以上の非一時的機械可読情報記憶媒体。
前記第１の値セットは、前記予め定義された閾値以下の値である、請求項１１に記載の１つ以上の非一時的機械可読情報記憶媒体。
前記第２の値セットは、前記予め定義された閾値より大きい値である、請求項１１に記載の１つ以上の非一時的機械可読情報記憶媒体。