JP7388566B2

JP7388566B2 - データ生成プログラム、方法及び装置

Info

Publication number: JP7388566B2
Application number: JP2022545267A
Authority: JP
Inventors: 理史新宮
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-11-29
Anticipated expiration: 2040-08-31
Also published as: US20230196129A1; WO2022044336A1; EP4207007A1; JPWO2022044336A1; EP4207007A4

Description

本発明は、データ生成技術に関する。

機械学習の進展に伴って高性能の分類器が得られる一方で、分類結果が得られた理由や根拠を人間が検証することが困難になっている側面がある。１つの側面として、結果に対する説明責任が問われるミッションクリティカルな分野にディープラーニング等の機械学習が実行された機械学習モデルを適用するのに妨げになる場合がある。

例えば、分類結果が得られる理由や根拠を説明する技術の例として、機械学習モデルやデータの形式、機械学習モデルの構造に非依存であるＬＩＭＥ（Local Interpretable Model-agnostic Explainations）と呼ばれるアルゴリズムが提案されている。

ＬＩＭＥでは、データｘが入力された機械学習モデルｆが出力する分類結果を説明する際、データｘの近傍において機械学習モデルｆの出力との間で出力が局所的に近似する線形回帰モデルｇが機械学習モデルｆを解釈可能なモデルとして生成される。このような線形回帰モデルｇの生成には、データｘの特徴量の一部を変動させることにより得られる近傍データｚが用いられる。

Marco Tulio Ribeiro， Sameer Singh， Carlos Guestrin "Why Should I Trust You?"Explaining the Predictions of Any Classifier

しかしながら、上記のＬＩＭＥでは、近傍データを生成可能なデータ形式として、表や画像、テキストといった形式のデータしかサポートされていない。それ故、グラフデータの近傍データを作成する場合、オリジナルのグラフデータの特徴が損なわれた近傍データが生成される場合がある。このような近傍データを用いたとしても、線形回帰モデルを生成するのは困難であるので、グラフデータを入力とする機械学習モデルにＬＩＭＥを適用する妨げとなる。

１つの側面では、オリジナルのグラフデータの特徴が損なわれた近傍データが生成されることを低減できるデータ生成プログラム、データ生成方法及びデータ生成装置を提供することを目的とする。

一態様のデータ生成プログラムは、複数のノードと前記複数のノード間を接続する複数のエッジとを含むデータを取得し、前記複数のエッジから第１のエッジを選択し、前記第１のエッジの両端に位置する第１のノードと第２のノードとのうち少なくとも一方に閾値以下の数のエッジを介して接続する第３のノードが、前記第１のエッジの一端に位置するように前記第１のエッジの接続を変更することによって、前記データの前記複数のノード間の第１の接続関係と異なる前記複数のノード間の第２の接続関係を有する新しいデータを生成する、処理をコンピュータに実行させる。

オリジナルのグラフデータの特徴が損なわれた近傍データが生成されることを低減できる。

図１は、実施例１に係るサーバ装置の機能的構成の一例を示すブロック図である。図２は、ＬＩＭＥのアルゴリズムを模式的に示す図である。図３は、近傍データの一例を示す図である。図４は、近傍データの一例を示す図である。図５は、近傍データの生成方法の一例を示す図である。図６は、近傍データ生成の失敗事例を示す図である。図７は、近傍データ生成の具体例を示す図である。図８は、近傍データ生成の具体例を示す図である。図９は、実施例１に係るデータ生成処理の手順を示すフローチャートである。図１０は、コンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係るデータ生成プログラム、データ生成方法及びデータ生成装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

図１は、実施例１に係るサーバ装置１０の機能的構成の一例を示すブロック図である。図１に示すシステム１は、１つの側面として、説明対象とするオリジナルのグラフデータからＬＩＭＥの線形回帰モデルの生成に用いる近傍データを生成するデータ生成機能を提供するものである。なお、図１には、上記のデータ生成機能がクライアントサーバシステムで提供される例を挙げるが、この例に限定されず、スタンドアロンで上記のデータ生成機能が提供されることとしてもよい。

図１に示すように、システム１には、サーバ装置１０と、クライアント端末３０とが含まれ得る。サーバ装置１０及びクライアント端末３０は、ネットワークＮＷを介して通信可能に接続される。例えば、ネットワークＮＷは、有線または無線を問わず、インターネットやＬＡＮ（Local Area Network）などの任意の種類の通信網であってよい。

サーバ装置１０は、上記のデータ生成機能を提供するコンピュータの一例である。サーバ装置１０は、データ生成装置の一例に対応し得る。一実施形態として、サーバ装置１０は、上記のデータ生成機能を実現するデータ生成プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、サーバ装置１０は、上記のデータ生成機能をオンプレミスに提供するサーバとして実装することができる。この他、サーバ装置１０は、ＳａａＳ（Software as a Service）型のアプリケーションとして実装することで、上記のデータ生成機能をクラウドサービスとして提供してもよい。

クライアント端末３０は、上記のデータ生成機能の提供を受けるコンピュータの一例である。例えば、クライアント端末３０には、パーソナルコンピュータなどのデスクトップ型のコンピュータなどが対応し得る。これはあくまで一例に過ぎず、クライアント端末３０は、ラップトップ型のコンピュータや携帯端末装置、ウェアラブル端末などの任意のコンピュータであってよい。

上記の背景技術の欄で説明した通り、ＬＩＭＥでは、データｘが入力された機械学習モデルｆが出力する分類結果を説明する際、データｘの近傍において機械学習モデルｆの出力との間で出力が局所的に近似する線形回帰モデルｇが機械学習モデルｆを解釈可能なモデルとして生成される。

図２は、ＬＩＭＥのアルゴリズムを模式的に示す図である。図２には、あくまで一例として、２次元の特徴量空間が模式的に示されている。さらに、図２には、２次元の特徴量空間のうちクラスＡに対応する領域が白地で示されると共に、クラスＢに対応する領域がハッチングで示されている。さらに、図２には、オリジナルのデータｘが太字の「＋」で示されている。さらに、図２には、オリジナルのデータｘからされた近傍データｚを機械学習モデルｆへ入力することにより得られたラベルがクラスＡである近傍データｚが「＋」で示されている一方でラベルがクラスＢである近傍データｚが「●」で示されている。さらに、図２には、オリジナルのデータｚおよび近傍データｚが距離関数Ｄ（ｘ，ｚ）およびカーネル関数π_ｘ（ｚ）に入力されたサンプル重みπ_ｘが「＋」または「●」の大きさで表現されている。さらに、図２には、機械学習モデルｆに近似された線形回帰モデルの回帰直線ｇ（ｘ）が破線で示されている。

あくまで一例として、ＬＩＭＥのアルゴリズムでは、下記のステップＳ１～下記のステップＳ６の手順にしたがって機械学習モデルｆの出力の説明が行われる。

Ｓ１：近傍データｚの生成
Ｓ２：近傍データｚの機械学習モデルｆへの入力
Ｓ３：距離Ｄの算出
Ｓ４：サンプル重みπ_ｘの算出
Ｓ５：線形回帰モデルｇの生成
Ｓ６：偏回帰係数の計算

これを具体的に説明すると、オリジナルの入力インスタンスであるデータｘの特徴量の一部を変動させることにより、特定のサンプル数、例えば１００～１００００といった規模で近傍データｚが生成される（ステップＳ１）。このように生成された近傍データｚを説明対象とする機械学習モデルｆへ入力することにより機械学習モデルｆの出力を得る（ステップＳ２）。例えば、タスクがクラス分類である場合、機械学習モデルから各クラスの予測確率が出力される。また、タスクがリグレッションである場合、数値に対応する予測値が出力される。その後、オリジナルのデータｘおよび近傍データｚを距離関数Ｄ（ｘ，ｚ）、例えばｃｏｓ類似度やＬ２ノルムなどに入力することにより距離Ｄが得られる（ステップＳ３）。続いて、ステップＳ３で得られた距離Ｄをカーネル関数π_ｘ（ｚ）へ入力することによりサンプル重みπ_ｘを得る（ステップＳ４）。その上で、近傍データの特徴量を説明変数とし、近傍データの出力を目的変数として、線形回帰モデルで近似することにより線形回帰モデルｇが生成される（ステップＳ５）。例えば、Ｒｉｄｇｅ回帰では、データｘの近傍で機械学習モデルｆおよび線形回帰モデルｇの出力についての損失関数Ｌ（ｆ，ｇ，π_ｘ）と線形回帰モデルｇの複雑さΩ（ｇ）との和を最小にする線形回帰モデルｇを求める目的関数ξ（ｘ）が解かれる。その後、線形回帰モデルｇの偏回帰係数を計算することにより機械学習モデルｆの出力への特徴量の寄与度が出力される（ステップＳ６）。

ステップＳ６で出力される特徴量の寄与度は、機械学習モデルの出力の理由や根拠を分析する側面で有用である。例えば、機械学習が実行されることにより得られた訓練済みの機械学習モデルが訓練データの偏りなどが一因となって生成される粗悪な機械学習モデルであるか否かを識別できる。これにより、粗悪な機械学習モデルがミッションクリティカルな領域で利用されるのを抑制できる。また、訓練済みの機械学習モデルの出力に誤りがある場合、当該誤りが出力された理由や根拠を提示できる。他の側面として、ステップＳ６で出力される特徴量の寄与度は、機械学習モデルやデータの形式、あるいは機械学習モデルの構造が異なる機械学習モデル同士を同一のルールで比較できる面で有用である。例えば、同一のタスクに用意された複数の訓練済みの機械学習モデルのうちいずれの訓練済みの機械学習モデルが本質的に優れているのかといった機械学習モデルの選定が可能となる。

ここで、上記の背景技術の欄で説明した通り、ＬＩＭＥでは、近傍データを生成可能なデータ形式として、表や画像、テキストといった形式のデータをサポートするライブラリのＡＰＩ（Application Programming Interface）しか公開されていない。

このため、グラフデータの近傍データを作成する場合、オリジナルのグラフデータの特徴が損なわれた近傍データが生成される場合がある。このような近傍データを用いたとしても、説明対象とする機械学習モデルに近似する線形回帰モデルを生成するのは困難であるので、グラフデータを入力とする機械学習モデルにＬＩＭＥを適用する妨げとなる。

例えば、グラフデータを入力とする機械学習モデルの例として、ＧＮＮ（Graph Neural Network）やグラフカーネル関数などが挙げられるが、これらＧＮＮモデルやグラフカーネルモデルなどにＬＩＭＥを適用することが困難である。これらＧＮＮモデルやグラフカーネルモデルのうち、ＧＮＮモデルには、ＧＮＮモデルへ入力されるグラフの各エッジがＧＮＮモデルの出力に寄与する寄与度を出力するＧＮＮＥｘｐｌａｉｎｅｒを適用することも考えられる。ところが、ＧＮＮＥｘｐｌａｉｎｅｒは、ＧＮＮモデルに特化した技術であるので、グラフカーネルモデルやその他の機械学習モデルへの適用は困難である。あらゆるタスクで決定的に性能が高い機械学習モデルが存在しない現状、適用可能なタスクが限定されるＧＮＮＥｘｐｌａｉｎｅｒは、スタンダードになり得ない。

以上のことから、本実施例に係るデータ生成機能は、グラフデータを入力とする機械学習モデルにも適用可能なＬＩＭＥの拡張を実現する側面から、オリジナルのグラフデータの特徴が損なわれた近傍データの生成の低減を実現する。

図３及び図４は、近傍データの一例を示す図である。図３及び図４には、図２に示す２次元の特徴量空間が示されている。さらに、図３には、線形回帰モデルｇの生成に望ましい近傍データｚが示される一方で、図４には、線形回帰モデルｇの生成に望ましくない近傍データｚが示されている。図３に示す近傍データｚは、機械学習モデルｆが入力を想定しているデータ、例えば機械学習モデルｆの訓練時に用いられた訓練データの中に類似するものが存在するデータである。さらに、オリジナルのデータｘの近傍に分布する近傍データｚの割合も高い。このような近傍データｚは、オリジナルのデータｘの近傍においてクラスＡおよびクラスＢの識別境界を区別しやすいので、線形回帰モデルｇの生成に向いている。一方、図４に示す近傍データｚは、近傍データｚ１、ｚ２およびｚ３に例示される通り、機械学習モデルｆが入力を想定していないデータ、例えば機械学習モデルｆの訓練時に用いられた訓練データの中に類似するものが存在しないデータが含まれる。さらに、オリジナルのデータｘの近傍に分布する近傍データｚの割合も低い。このような近傍データｚは、オリジナルのデータｘの近傍においてクラスＡおよびクラスＢの識別境界を区別しにくいので、線形回帰モデルｇの生成に不向きである。

ＬＩＭＥのＡＰＩがサポートする表や画像、テキストといった形式のデータであれば、図３に示す近傍データｚの生成が可能である。その一方で、ＬＩＭＥのＡＰＩがサポートしないグラフデータから図３に示す近傍データｚを生成するのは困難であり、図４に示す近傍データｚが生成されるのを抑制できない場合がある。

図５は、近傍データｚの生成方法の一例を示す図である。図５には、グラフデータの表現方法のあくまで一例として、隣接行列が示されている。図５に示すように、隣接行列の要素を特徴量としてみなして表データ用のＬＩＭＥのＡＰＩを適用する場合、隣接行列の要素の０または１の値をランダムに反転することにより、元の隣接行列とは異なる隣接行列を作成することはできる。

このようにグラフデータに他のデータ形式向けのＬＩＭＥのＡＰＩを適用する場合、オリジナルのグラフの特徴が損なわれたデータが生成される可能性があり、これらは近傍データとは呼び難い。

図６は、近傍データ生成の失敗事例を示す図である。図６には、グラフデータに対する表データ向けのＬＩＭＥのＡＰＩの適用によりオリジナルのグラフの特徴が損なわれた失敗事例が示されている。例えば、図６に示すグラフｇ１の例で言えば、ＬＩＭＥのＡＰＩの適用によりグラフｇ１からグラフｇ１１が生成される場合、グラフｇ１が有する連結性が損なわれる。このように連結性が損なわれたグラフｇ１１は、連結グラフの入力しか想定していない機械学習モデルにとってイレギュラなインスタンスとなる。例えば、化合物の分子構造を入力として分子のラベルを出力する訓練済みの機械学習モデルである場合、入力とするグラフデータの連結性が損なわれると、訓練データではあり得ない２つのグラフデータが入力されることになる。また、図６に示すグラフｇ２の例で言えば、ＬＩＭＥのＡＰＩの適用によりグラフｇ２からグラフｇ２１が生成された場合、グラフｇ２が有する木構造が維持できなくなる。このように木構造でなくなったグラフｇ２１は、木構造しか想定してしない機械学習モデルにとってイレギュラなインスタンスである。さらに、図６に示すグラフｇ３の例で言えば、ＬＩＭＥのＡＰＩの適用により、グラフｇ３が有するノードのうちハッチングで示された２つのノード間がエッジで接続されたグラフｇ３１が生成される。これにより、グラフｇ３１では、ハッチングで示された２つのノード間の距離が激減する。このようにノード間の距離が激減したグラフｇ３１は、グラフｇ１の近傍データとは言い難い。

このようにオリジナルのグラフデータの特徴が損なわれた近傍データが生成されることを低減できるデータ生成機能を有するサーバ装置１０の機能的構成について説明する。図１には、サーバ装置１０が有する機能に対応するブロックが模式化されている。図１に示すように、サーバ装置１０は、通信インタフェイス部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、上記のデータ生成機能に関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部、例えば既存のコンピュータがデフォルトまたはオプションで装備する機能部がサーバ装置１０に備わることとしてもよい。

通信インタフェイス部１１は、他の装置、例えばクライアント端末３０との間で通信制御を行う通信制御部の一例に対応する。あくまで一例として、通信インタフェイス部１１は、ＬＡＮカードなどのネットワークインターフェイスカードにより実現される。例えば、通信インタフェイス部１１は、クライアント端末３０から近傍データの生成またはＬＩＭＥアルゴリズムの実行に関するリクエストを受け付ける。また、通信インタフェイス部１１は、近傍データやＬＩＭＥアルゴリズムの実行結果である特徴量の寄与度をクライアント端末３０へ出力したりする。

記憶部１３は、各種のデータを記憶する機能部である。あくまで一例として、記憶部１３は、ストレージ、例えば内部、外部または補助のストレージにより実現される。例えば、記憶部１３は、グラフデータ群１３Ｇと、モデルデータ１３Ｍとを記憶する。これらグラフデータ群１３Ｇ及びモデルデータ１３Ｍ以外にも、記憶部１３は、上記のデータ生成機能の提供を受けるユーザのアカウント情報などの各種のデータを記憶することができる。

グラフデータ群１３Ｇは、複数のノードと複数のノード間を接続する複数のエッジとを含むデータの集合である。例えば、グラフデータ群１３Ｇに含まれるグラフデータは、機械学習モデルの訓練時に用いられる訓練データであってもよいし、訓練済みの機械学習モデルに入力される入力データであってもよい。また、グラフデータ群１３Ｇに含まれるグラフデータは、隣接行列やテンソルなどの任意の形式であってよい。

モデルデータ１３Ｍは、機械学習モデルに関するデータである。例えば、機械学習モデルがニューラルネットワークである場合、モデルデータ１３Ｍには、機械学習モデルを形成する入力層、隠れ層及び出力層の各層のニューロンやシナプスなどの機械学習モデルの層構造を始め、各層の重みやバイアスなどの機械学習モデルのパラメータが含まれ得る。なお、モデルの機械学習が実行される前の段階では、機械学習モデルのパラメータの一例として、乱数により初期設定されたパラメータが記憶される一方で、モデルの機械学習が実行された後の段階では、訓練済みのパラメータが保存される。

制御部１５は、サーバ装置１０の全体制御を行う処理部である。例えば、制御部１５は、ハードウェアプロセッサにより実現される。図１に示すように、制御部１５は、取得部１５Ａと、選択部１５Ｂと、生成部１５Ｃと、ＬＩＭＥ実行部１５Ｄとを有する。

取得部１５Ａは、オリジナルのグラフデータを取得する。あくまで一例として、取得部１５Ａは、クライアント端末３０から近傍データの生成またはＬＩＭＥアルゴリズムの実行に関するリクエストを受け付けた場合、処理を起動できる。この際、取得部１５Ａは、説明対象とするオリジナルのグラフデータや機械学習モデルの指定をクライアント端末３０を介して受け付けることができる。この他、取得部１５Ａは、訓練中または訓練済みの機械学習モデルの出力、例えばラベルや数値が不正解である訓練データまたは入力データの中から自動的に選択することもできる。このように取得対象のオリジナルのグラフデータや機械学習モデルが識別された後、取得部１５Ａは、記憶部１３に記憶されたグラフデータ群１３Ｇのうち取得対象のオリジナルのグラフデータやモデルデータ１３Ｍのうち所得対象の機械学習モデルを取得する。

選択部１５Ｂは、オリジナルのグラフデータに含まれる複数のエッジから第１のエッジを選択する。ここで言う「第１のエッジ」とは、オリジナルのグラフデータに含まれる複数のエッジのうち変更対象とされるエッジのことを指す。１つの側面として、選択部１５Ｂは、オリジナルのグラフデータが取得された場合、オリジナルのグラフＧから第１のエッジｅを選択する。その後、選択部１５Ｂは、第１のエッジｅの変更、すなわち削除および再配置が行われる度に、第１のエッジｅの変更回数が閾値に達するまで、第１のエッジｅの変更後の新しいグラフＧから第１のエッジｅを再選択する。このような閾値は、一例として、クライアント端末３０からの指定、クライアント端末３０により行われた設定または上記のデータ生成機能の開発者等により行われたシステム設定により定められる。あくまで一例として、オリジナルのグラフが１０本のエッジを有するグラフであれば、閾値を１～５程度に設定することができる。このとき、上記の閾値が大きいほどオリジナルのグラフからの距離が大きい近傍データが生成されやすい一方で、上記の閾値が小さいほどオリジナルのグラフからの距離が小さい近傍データが生成されやすい。

生成部１５Ｃは、第１のエッジの両端に位置する第１のノードと第２のノードとのうち少なくとも一方に閾値以下の数のエッジを介して接続する第３のノードが、第１のエッジの一端に位置するように第１のエッジの接続を変更する。これにより、オリジナルのグラフデータの複数のノード間の第１の接続関係と異なる複数のノード間の第２の接続関係を有する新しいグラフデータを生成する。

一実施形態として、生成部１５Ｃは、第１のエッジｅの両端の位置する第１のノードおよび第２のノードのうち少なくとも一方から最大でｎ（自然数）－ｈｏｐまでの範囲に含まれる部分グラフＰを作成する。続いて、生成部１５Ｃは、部分グラフＰ内で第１のエッジｅを削除する。そして、生成部１５Ｃは、第１のエッジｅの削除後の部分グラフＰで連結しているノード同士をグルーピングする。その上で、生成部１５Ｃは、部分グラフＰのグループが複数であるか否かを判定する。

ここで、部分グラフＰのグループが複数である場合、部分グラフＰが連結グラフから非連結グラフへ変化したと識別できる。この場合、生成部１５Ｃは、２つのグループに分かれた部分グラフＰから互いを連結するノード同士を選択して当該ノード間に第１のエッジｅを再配置する。一方、部分グラフＰのグループが複数でない場合、部分グラフＰが連結グラフから非連結グラフへ変化しておらず、部分グラフＰのグループが１つのままであると識別できる。この場合、生成部１５Ｃは、部分グラフＰ内に第１のエッジｅをランダムに再配置する。なお、第１のエッジの再配置時には、第１のエッジｅの削除が行われたノード間と同一のノード間への第１のエッジｅの再配置を禁止する制約条件を設定することができる。

このような部分グラフＰの操作が終了した後、生成部１５Ｃは、オリジナルのグラフＧ，あるいはグラフＧ上で第１のエッジｅの変更、すなわち削除および再配置を実行することで、第１のエッジｅの変更後の新しいグラフＧが得られる。このとき、第１のエッジｅの変更回数が閾値に達すると、１つの近傍データｚが完成する。

ここまでの説明では、１つの近傍データｚが生成される例を挙げたが、特定のサンプル数、例えば１００～１００００の近傍データの集合Ｚが生成されるまで近傍データの生成を繰り返すことができる。例えば、オリジナルのグラフが１０本のエッジを有するグラフであるとしたとき、閾値を「１」から「５」まで１つずつインクリメントしながら閾値「１」～「５」ごとに近傍データｚの生成を特定の回数にわたって繰り返す。これにより、目的のサンプル数の近傍データを生成することとしてもよい。

ＬＩＭＥ実行部１５Ｄは、ＬＩＭＥアルゴリズムを実行する。一実施形態として、ＬＩＭＥ実行部１５Ｄは、生成部１５Ｃにより生成された近傍データｚを取得する。これにより、図２を用いて説明したＳ１～Ｓ６のうちＳ１の処理を省略することができる。その後、ＬＩＭＥ実行部１５Ｄは、図２を用いて説明したＳ２～Ｓ６のうちＳ１の処理を実行した後に各特徴量の寄与度をクライアント端末３０へ送信する。なお、ここでは、データ生成機能に対応するモジュールがパッケージ化されたＬＩＭＥのソフトウェアが制御部１５により実行される例を挙げたが、必ずしもデータ生成機能はＬＩＭＥのソフトウェアにパッケージされずともよい。例えば、生成部１５Ｃにより生成された近傍データｚは、ＬＩＭＥアルゴリズムを実行する外部の装置、サービス、あるいはソフトウェアに出力されることとしてもよい。

次に、近傍データｚ生成の具体例を説明する。図７及び図８は、近傍データｚ生成の具体例を示す図である。図７及び図８には、あくまで一例として、オリジナルのグラフに含まれる８本のエッジのうち２本のエッジを変更することにより１つの近傍データｚを生成する例が示されている。さらに、図７及び図８には、ノードを円状で示されるとともに円の中にノードを識別する番号が記入されている。さらに、図７及び図８には、部分グラフに含まれるエッジが実線で示される一方で、部分グラフに含まれないエッジが破線で示されている。さらに、図７には、１回目の変更、すなわち削除および再配置が行われる第１のエッジｅが太線で示されると共に、図８には、２回目の変更、すなわち削除および再配置が行われる第１のエッジｅが太線で示されている。なお、図７及び図８では、部分グラフＰを作成する範囲を探索するｈｏｐ数がｎ＝１であることとして説明を行う。

まず、１回目の変更では、図７に示すように、オリジナルのグラフＧ１の中から、ノード「１」及びノード「４」を接続するエッジが第１のエッジｅとして選択される。この場合、第１のエッジｅの両端に位置するノード「１」及び「４」のうち少なくとも一方から最大で１ｈｏｐまでの範囲に含まれる部分グラフＰ１が作成される（ステップＳ１１）。このような部分グラフＰ１には、第１のエッジｅの一端に位置するノード「１」から１ホップ離れたノード「２」までの範囲が含まれると共に、第１のエッジｅの他端に位置するノード「４」から１ホップ離れたノード「８」までの範囲が含まれる。

その後、部分グラフＰ１内で第１のエッジｅが削除される（ステップＳ１２）。続いて、第１のエッジｅの削除後の部分グラフＰ１で連結しているノード同士がグルーピングされる（ステップＳ１３）。この場合、ノード「１」およびノード「２」がグループＧｒ１としてグループ化されると共に、ノード「４」およびノード「８」がグループＧｒ２としてグループ化される。

ここでは、部分グラフＰ１のグループがＧｒ１およびＧｒ２の複数である。この場合、２つのグループＧｒ１およびＧｒ２に分かれた部分グラフＰ１から互いを連結するノード同士を選択して当該ノード間に第１のエッジｅが再配置される（ステップＳ１４）。例えば、第１のエッジｅの削除が行われたノード「１」およびノード「４」の間と同一でなく、グループがＧｒ１およびグループがＧｒ２を連結するノード「２」およびノード「４」が選択される。そして、ノード「２」およびノード「４」の間に第１のエッジｅが再配置される。

部分グラフＰ１の操作が終了した後、オリジナルのグラフＧ１上でノード「１」及びノード「４」を接続する第１のエッジｅが削除されると共にノード「２」及びノード「４」を接続する第１のエッジｅが再配置される。このように第１のエッジｅの削除および再配置が実行されることで、第１のエッジｅの変更後の新しいグラフＧ２が得られる。

次に、２回目の変更では、図８に示すように、新しいグラフＧ２の中から、ノード「２」及びノード「３」を接続するエッジが第１のエッジｅとして選択される。この場合、第１のエッジｅの両端に位置するノード「２」及び「３」のうち少なくとも一方から最大で１ｈｏｐまでの範囲に含まれる部分グラフＰ２が作成される（ステップＳ２１）。このような部分グラフＰ２には、第１のエッジｅの一端に位置するノード「２」から１ホップ離れたノード「１」、「４」及び「５」までの範囲が含まれると共に、第１のエッジｅの他端に位置するノード「３」から１ホップ離れたノード「６」までの範囲が含まれる。

その後、部分グラフＰ２内で第１のエッジｅが削除される（ステップＳ２２）。続いて、第１のエッジｅの削除後の部分グラフＰ２で連結しているノード同士がグルーピングされる（ステップＳ２３）。この場合、ノード「１」、ノード「２」、ノード「４」およびノード「５」がグループＧｒ１としてグループ化されると共に、ノード「３」およびノード「６」がグループＧｒ２としてグループ化される。

ここでは、部分グラフＰ２のグループがＧｒ１およびＧｒ２の複数である。この場合、２つのグループＧｒ１およびＧｒ２に分かれた部分グラフＰ２から互いを連結するノード同士を選択して当該ノード間に第１のエッジｅが再配置される（ステップＳ２４）。例えば、第１のエッジｅの削除が行われたノード「２」およびノード「３」の間と同一でなく、グループがＧｒ１およびグループがＧｒ２を連結するノード「３」およびノード「５」が選択される。そして、ノード「３」およびノード「５」の間に第１のエッジｅが再配置される。

部分グラフＰ２の操作が終了した後、新しいグラフＧ２上でノード「２」及びノード「３」を接続する第１のエッジｅが削除されると共にノード「３」及びノード「５」を接続する第１のエッジｅが再配置される（ステップＳ２５）。これにより、第１のエッジｅの変更回数が本例の閾値「２」に達するので、新しいグラフＧ３が近傍データＧ３として完成する。

次に、本実施例に係るサーバ装置１０の処理の流れについて説明する。図９は、実施例１に係るデータ生成処理の手順を示すフローチャートである。この処理は、あくまで一例として、クライアント端末３０から近傍データの生成またはＬＩＭＥアルゴリズムの実行に関するリクエストを受け付けた場合、起動できる。

図９に示すように、取得部１５Ａは、オリジナルのグラフデータを取得する（ステップＳ１０１）。その後、第１のエッジｅの変更回数が閾値に達するまで、下記のステップＳ１０２から下記のステップＳ１０９までの処理が繰り返される。

すなわち、選択部１５Ｂは、オリジナルのグラフＧまたは新しいグラフＧから第１のエッジｅを選択する（ステップＳ１０２）。続いて、生成部１５Ｃは、第１のエッジｅの両端の位置する第１のノードおよび第２のノードのうち少なくとも一方から最大でｎ（自然数）－ｈｏｐまでの範囲に含まれる部分グラフＰを作成する（ステップＳ１０３）。

その後、生成部１５Ｃは、部分グラフＰ内で第１のエッジｅを削除する（ステップＳ１０４）。そして、生成部１５Ｃは、第１のエッジｅの削除後の部分グラフＰで連結しているノード同士をグルーピングする（ステップＳ１０５）。その上で、生成部１５Ｃは、部分グラフＰのグループが複数であるか否かを判定する（ステップＳ１０６）。

ここで、部分グラフＰのグループが複数である場合（ステップＳ１０６Ｙｅｓ）、部分グラフＰが連結グラフから非連結グラフへ変化したと識別できる。この場合、生成部１５Ｃは、２つのグループに分かれた部分グラフＰから互いを連結するノード同士を選択して当該ノード間に第１のエッジｅを再配置する（ステップＳ１０７）。

一方、部分グラフＰのグループが複数でない場合（ステップＳ１０６Ｎｏ）、部分グラフＰが連結グラフから非連結グラフへ変化しておらず、部分グラフＰのグループが１つのままであると識別できる。この場合、生成部１５Ｃは、部分グラフＰ内に第１のエッジｅをランダムに再配置する（ステップＳ１０８）。

このような部分グラフＰの操作が終了した後、生成部１５Ｃは、オリジナルのグラフＧ，あるいはグラフＧ上で第１のエッジｅの変更、すなわち削除および再配置を実行する（ステップＳ１０９）。これにより、第１のエッジｅの変更後の新しいグラフＧが得られる。このとき、第１のエッジｅの変更回数が閾値に達すると、１つの近傍データｚが完成する。

上述してきたように、本実施例に係るデータ生成機能は、オリジナルのグラフから１本のエッジを選択し、選択中のエッジの一端のノードと、選択中のエッジの両端のうち一方から閾値以下のホップ数に位置するノードとの接続に選択中のエッジを変更する。このため、連結性の維持、木構造の維持およびノード間の距離の激変を抑制できる。したがって、本実施例に係るデータ生成機能によれば、オリジナルのグラフの特徴が損なわれた近傍データが生成されることを低減できる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部１５Ａ、選択部１５Ｂまたは生成部１５Ｃをサーバ装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部１５Ａ、選択部１５Ｂまたは生成部１５Ｃを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のサーバ装置１０の機能を実現するようにしてもよい。

また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１０を用いて、実施例１及び実施例２と同様の機能を有するデータ生成プログラムを実行するコンピュータの一例について説明する。

図１０は、コンピュータのハードウェア構成例を示す図である。図１０に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１０に示すように、上記の実施例１で示した取得部１５Ａ、選択部１５Ｂ及び生成部１５Ｃと同様の機能を発揮するデータ生成プログラム１７０ａが記憶される。このデータ生成プログラム１７０ａは、図１に示した取得部１５Ａ、選択部１５Ｂ及び生成部１５Ｃの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０からデータ生成プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、データ生成プログラム１７０ａは、図１０に示すように、データ生成プロセス１８０ａとして機能する。このデータ生成プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうちデータ生成プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、データ生成プロセス１８０ａが実行する処理の一例として、図９に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記のデータ生成プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ１００がこれらから各プログラムを取得して実行するようにしてもよい。

１０サーバ装置
１１通信インタフェイス部
１３記憶部
１３Ｇグラフデータ群
１３Ｍモデルデータ
１５制御部
１５Ａ取得部
１５Ｂ選択部
１５Ｃ生成部
１５ＤＬＩＭＥ実行部
３０クライアント端末

Claims

複数のノードと前記複数のノード間を接続する複数のエッジとを含むデータを取得し、
前記複数のエッジから第１のエッジを選択し、
前記第１のエッジの両端に位置する第１のノードと第２のノードとのうち少なくとも一方に閾値以下の数のエッジを介して接続する第３のノードが、前記第１のエッジの一端に位置するように前記第１のエッジの接続を変更することによって、前記データの前記複数のノード間の第１の接続関係と異なる前記複数のノード間の第２の接続関係を有する新しいデータを生成する、
処理をコンピュータに実行させることを特徴とするデータ生成プログラム。
前記生成する処理は、前記第１のエッジの両端に位置する第１のノードと第２のノードとのうち少なくとも一方に前記閾値以下の数のエッジを介して接続する第４のノードが、前記第１のエッジの他端に位置するように前記第１のエッジの接続を変更することによって、前記データの前記複数のノード間の第１の接続関係と異なる前記複数のノード間の第３の接続関係を有する新しいデータを生成する処理を含む、
ことを特徴とする請求項１に記載のデータ生成プログラム。
前記第１の接続関係および前記第２の接続関係は、いずれも連結性を有する、
ことを特徴とする請求項１に記載のデータ生成プログラム。
前記選択する処理は、前記生成する処理で接続が変更された回数が閾値に達するまで、前記新しいデータが生成される度に前記新しいデータに含まれる複数のエッジから新しい第１のエッジを選択する処理を含む、
ことを特徴とする請求項１に記載のデータ生成プログラム。
前記新しいデータは、前記データを入力として推論を実行した機械学習モデルの推論結果を説明するための近似モデルの生成に用いられる、
ことを特徴とする請求項１に記載のデータ生成プログラム。
複数のノードと前記複数のノード間を接続する複数のエッジとを含むデータを取得し、
前記複数のエッジから第１のエッジを選択し、
前記第１のエッジの両端に位置する第１のノードと第２のノードとのうち少なくとも一方に閾値以下の数のエッジを介して接続する第３のノードが、前記第１のエッジの一端に位置するように前記第１のエッジの接続を変更することによって、前記データの前記複数のノード間の第１の接続関係と異なる前記複数のノード間の第２の接続関係を有する新しいデータを生成する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
複数のノードと前記複数のノード間を接続する複数のエッジとを含むデータを取得し、
前記複数のエッジから第１のエッジを選択し、
前記第１のエッジの両端に位置する第１のノードと第２のノードとのうち少なくとも一方に閾値以下の数のエッジを介して接続する第３のノードが、前記第１のエッジの一端に位置するように前記第１のエッジの接続を変更することによって、前記データの前記複数のノード間の第１の接続関係と異なる前記複数のノード間の第２の接続関係を有する新しいデータを生成する、
処理を実行する制御部を含むデータ生成装置。