JP2022072149A

JP2022072149A - 機械学習プログラム、装置、及び方法

Info

Publication number: JP2022072149A
Application number: JP2020181443A
Authority: JP
Inventors: 賢等々力; Masaru Todoroki; 弘治丸橋; Hiroharu Maruhashi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-05-17
Anticipated expiration: 2040-10-29
Also published as: US20220138627A1

Abstract

【課題】グラフ情報のデータ拡張を行ってモデルの機械学習を実行する場合における学習精度の低下を抑制する。【解決手段】機械学習装置は、第１のグラフ情報を取得し、第１のグラフ情報に含まれるノード間に新たなエッジを追加することなく、又、第１のグラフ情報に含まれるノード間の既存のエッジを削除することなく、ノードとノードとの関係を示す重みをランダムに変更する変更処理によって第２のグラフ情報を生成し、第１のグラフ情報と第２のグラフ情報とに基づいて、モデルの機械学習を実行する。【選択図】図７

Description

開示の技術は、機械学習プログラム、機械学習装置、及び機械学習方法に関する。

従来、複数のノードと、ノード間を接続するエッジとを含むグラフ情報で機械学習したモデルを用いて、情報を分析することが行われている。このモデルの機械学習を実行する際に、訓練データとなる手持ちの少量のグラフ情報に基づいて新たなグラフ情報を生成し、訓練データを拡張することが行われている。

例えば、マハラノビス平方距離によるオブジェクト判別分析のための訓練データを生成する訓練データ生成装置が提案されている。この装置は、抽出されたオブジェクト領域とそのオブジェクト領域を構成する画素の濃度に従って領域分割を行い、複数の小領域を生成し、複数の小領域間の隣接関係を表すグラフを生成する。また、この装置は、複数の小領域のうち隣接する小領域の濃度・高さ・幅の差の絶対値の重み付き和であるグラフのエッジの属性値を特徴量として、その全ての特徴量を含む特徴量データを生成する。そして、この装置は、生成された特徴量データをオブジェクト領域のオブジェクト種類毎にまとめる。そして、この装置は、この特徴量データに関し、最大個数の特徴量を有する特徴量データに合わせて特徴量の個数がその最大個数よりも少ない特徴量データにダミーの特徴量を追加して訓練データとする。

また、機械学習フェーズにおいて、従来の因果グラフに対して拡張した因果グラフを構築する状態判定装置が提案されている。この装置は、システムの各構成要素の状態に対応する第１の層とシステムにおける第１の層の各構成要素から出る観測情報の状態に対応する第２の層との関係を示すグラフを第１の因果グラフとする。また、この装置は、第１の因果グラフに対して、第１の層の各構成要素から出る観測情報に対する変換によって得られる第２の観測情報の状態に対応する第３の層を第１の層と第２の層との間に追加した第２の因果グラフを構築する。

特開２００７－３３４７５５号公報特開２０１８－１２４８２９号公報

しかしながら、元のグラフ情報に対してエッジを追加するなどして新たなグラフ情報を生成して訓練データのデータ拡張を行う場合、訓練データの純度が低下し、その結果として機械学習の精度が低下する場合がある、という問題がある。

一つの側面として、開示の技術は、グラフ情報のデータ拡張を行ってモデルの機械学習を実行する場合における学習精度の低下を抑制することを目的とする。

一つの態様として、開示の技術は、第１のグラフ情報を取得し、前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成する。そして、開示の技術は、前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する。

一つの側面として、グラフ情報のデータ拡張を行ってモデルを機械学習する場合における学習精度の低下を抑制することができる、という効果を有する。

機械学習装置の機能ブロック図である。第１のグラフ情報集合に対応するグラフ集合の一例を示す図である。第１のグラフ情報の一例を示す図である。第１のグラフ情報の他の例を示す図である。ローカルインデックス及びグローバルインデックスを説明するための図である。ランダムに重みを変更する方法による第２のグラフ情報の生成を説明するための図である。ランダムに重みを変更する方法による第２のグラフ情報の生成例を概略的に示す図である。ヒストグラムにおける出現頻度の相対比率を説明するための図である。ヒストグラムに応じて重みを変更する方法による第２のグラフ情報の生成を説明するための図である。ヒストグラムに応じて重みを変更する方法による第２のグラフ情報の生成例を概略的に示す図である。機械学習装置として機能するコンピュータの概略構成を示すブロック図である。機械学習処理の一例を示すフローチャートである。ランダムに重みを変更する方法と比較例との評価の比較を示す図である。ランダムに重みを変更する際に適用する確率分布の分散の大小による評価の比較の一例を示す図である。データ拡張によりデータ数を１０倍に増加させた場合の評価の一例を示す図である。種類の異なる複数の化合物データの各々に対する評価の一例を示す図である。ヒストグラムに応じて重みを変更する方法と比較例との評価の比較を示す図である。

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

図１に示すように、本実施形態に係る機械学習装置１０には、入力データとして、モデルの機械学習を行うための訓練データであるグラフ情報集合が入力される。以下では、入力データであるグラフ情報を「第１のグラフ情報」ともいう。図２に、第１のグラフ情報集合に対応するグラフ集合の一例を示す。図２に示すように、グラフ集合には複数のグラフが含まれ、各グラフにはグラフの識別情報であるグラフＩＤが付与されている。各グラフは、複数のノード（図２中の丸印）と、ノード間を接続するエッジとで構成されている。なお、図２では、ノードが持つ情報によって分類される各ノードのカテゴリに応じて、各ノードを示す丸印内の網掛の態様を異ならせている。

本実施形態において、グラフ情報集合は、例えば図３に示すように、各グラフのグラフＩＤとグラフ情報とを対応付けて、複数のグラフ情報をまとめたものである。図３の例では、グラフ情報を、グラフに含まれるノード間の関係を表形式で表した情報としている。具体的には、エッジの一端に接続するノードを「ノード１」とし、エッジの他端に接続するノードを「ノード２」とし、各エッジに対して、ノード１とノード２との間の関係を表す「重み」が対応付けられている。なお、重みは、開示の技術の「ノードとノードとの接続の属性値」の一例である。図３の例では、エッジの種類毎に、グラフ内における該当種類のエッジの出現数を重みとして対応付けてグラフ情報としている。エッジの種類とは、エッジの両端のノードのカテゴリの組合せの各々である。

図４に、グラフ情報集合の他の例を示す。図４の例では、図３に示すグラフ情報のようにエッジの種類毎の情報ではなく、グラフに含まれるエッジ毎に重みを対応付けたグラフ情報となっている。この場合、重みは、ノード１とノード２との接続の強さを表す指標とすればよい。また、図４の例では、図３に示すグラフ情報が持つデータ列に加え、ノード又はエッジの属性情報である「ラベル」のデータ列が含まれている。図４では、「ラベル」列を１列のみ表記しているが、ノード１の属性１を表すラベル、ノード１の属性２を表すラベル、ノード２の属性１を表すラベル、・・・等、複数のラベル列を含んでもよい。なお、ラベルは、開示の技術の「ノードに対応付けられた特定の値」の一例である。

図３の例では、グラフ情報において、ノードを丸印で表しているが、実際の処理においては、各ノードをインデックス化した数値を用いる。他のデータ列についても、値の離散化等のインデックス化を行ってもよい。また、図４に示すグラフ情報では、「ラベル」の値はインデックス化されている。例えば、ノード１が企業名で、ラベルがノード１の業種である場合、各業種を数値で表すことにより、ラベルをインデックス化している。ここで、インデックスの種類には、ローカルインデックスとグローバルインデックスとがある。ローカルインデックスは、グラフ構造が類似している、すなわちトポロジーが近いことを重視し、グラフＩＤ毎に個別に設定されるインデックスである。グローバルインデックスは、ノード間の特定の繋がりを重視し、全グラフ情報に対して共通に設定されるインデックスである。

例えば、図５に示すように、各人物をノード（図５中の楕円）で表し、人物間の繋がりに基づいてノード間をエッジで接続したグラフにおいて、特定のカテゴリのノード（特定の人物）には着目しないが、グラフ間で何らかの共通の挙動又は関係があることに注目したい場合等には、ローカルインデックスが用いられる。一方、特定のカテゴリのノード（特定の人物）に着目して、全グラフに亘る、その特定の人物の挙動を知りたい場合等には、グローバルインデックスが用いられる。

機械学習装置１０は、機能的には、図１に示すように、取得部１２と、生成部１４と、機械学習部１６とを含む。

取得部１２は、入力データとして機械学習装置１０に入力された第１のグラフ情報集合を取得する。また、取得部１２は、ユーザから、データ拡張の要否の指定を受け付ける。取得部１２は、ユーザからデータ拡張要の指定を受け付けた場合、取得した第１のグラフ情報集合を生成部１４へ受け渡す。一方、取得部１２は、ユーザからデータ拡張不要の指定を受け付けた場合、取得した第１のグラフ情報集合を機械学習部１６へ受け渡す。

生成部１４は、取得部１２から第１のグラフ情報集合を受け取る。そして、生成部１４は、第１のグラフ情報集合に含まれる第１のグラフ情報毎に、第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成する。すなわち、生成部１４は、第１のグラフ情報に含まれるノード間に新たなエッジを追加することなく、又、第１のグラフ情報に含まれる既存のエッジを削除することなく、エッジに対応付けられた重みを変更することにより、第２のグラフ情報を生成する。言い換えると、生成部１４は、第１のグラフ情報の構成、すなわち骨格を保持したまま、グラフ情報の特徴である重みを変更した第２のグラフ情報を生成する。

具体的には、生成部１４は、ユーザから、データ拡張の拡張方法の指定を受け付ける。本実施形態では、拡張方法として、重みをランダムに変更する方法と、重みを注目データ列の頻度分布に基づいて変更する方法（以下、「ヒストグラムによる方法」ともいう）とが選択可能である。

ユーザから、ランダムに変更する方法が指定された場合、生成部１４は、重みの変更処理として、第１のグラフ情報の重みをランダムに変更する。例えば、図６に示すように、生成部１４は、所定の確率分布の値を、第１のグラフ情報の重みにランダムに乗算することにより、第２のグラフ情報を生成する。例えば、所定の確率分布として、平均１の正規分布を採用した場合、生成部１４は、ノード間の関係の重みを平均１の正規分布に応じて分散させた新たなグラフ情報を、第２グラフ情報として生成する。重みの変更処理に正規分布を用いることで、自然なデータ拡張が可能となる。なお、所定の確率分布は正規分布の場合に限定されず、分布形状が既知である任意の確率分布を適用可能である。なお、ランダムに変更する方法を適用する場合のグラフ情報のインデックスは、ローカルインデックスであっても、グローバルインデックスであってもよい。

生成部１４は、所定の確率分布の値を、第１のグラフ情報の重みにランダムに乗算するパターンとして、複数の異なるパターンを適用して、１つの第１のグラフ情報から複数の第２のグラフ情報を生成してもよい。図７に、１つの第１のグラフ情報から、３パターンの第２のグラフ情報が生成された例を示す。なお、図７では、エッジの太さで、ノード間の関係の強弱、すなわち重みの大小を表現している。後述する図１０においても同様である。

また、ユーザから、ヒストグラムによる方法が指定された場合、生成部１４は、重みの変更処理として、エッジに対応するラベル又はノードの値の第１のグラフ情報における出現頻度に応じた係数を、該当のエッジに対応付けられた重みに乗算する。これにより、生成部１４は、第１のグラフ情報の重みを変更する。

具体的には、生成部１４は、ユーザから、第１のグラフ情報における注目データ列の指定を受け付ける。注目データ列としては、例えば、与えられたタスクにとって重要であり、グラフ情報全体を通して共通して現れる数値、又はカテゴリ値を含むデータ列が指定される。特に、ラベルを表すデータ列は注目データ列として指定され易い。なお、処理の性質上、ヒストグラムによる方法を適用する場合のグラフ情報のインデックスは、グローバルインデックスが対象となる。

例えば、図４のグラフ情報の例で、グラフ情報が金融取引データを表しており、機械学習によって信頼できる取引先を検知するためのモデルを生成する場合を考える。具体的には、グラフ情報において、ノード１が送金元企業、ノード２が送金先企業であり、ラベルとして、送金元又は送金先企業の業種、規模、組織構造、送金元企業と送金先企業との間の取引期間等が含まれているとする。また、重みは、送金元企業と送金先企業との間の取引額とする。この場合、注目データ列としては、取引先の特徴的な企業情報を示すデータ列が選択される。例えば、ノード１及びノード２が示す企業間の取引関係に特徴的な要素が、送金元企業の業種に関係すると考えた場合に、送金元企業の業種を示すラベル列が注目データ列として指定される。

また、注目データ列として指定されるのは、ラベル列に限定されない。例えば、グラフ情報がインターネットログデータを表しており、機械学習によって不正アクセスを検知するためのモデルを生成する場合を考える。具体的には、グラフ情報において、ノード１が送信元ＩＰアドレス、ノード２が送信先ＩＰアドレスであり、重みが、１回の通信でのパケット量であるとする。ある特定のＩＰアドレスから不正な通信が送信されており、特に頻繁に通信を行っている送信元ＩＰアドレスが不正アクセスの踏み台となっていると考えた場合、ノード１が注目データ列として選択される。したがって、ラベルを含まないグラフ情報であっても、ヒストグラムによる方法を適用することができる。

生成部１４は、図８の上段に示すように、第１のグラフ情報集合において、指定された注目データ列の値（インデックス番号）毎のエッジ（グラフ情報の各行）の出現頻度を示すヒストグラムを計算する。なお、ここでは、各グラフ情報には、与えられたタスクに対して正例となるか負例となるかの情報が付与されているものとし、図８では、正例及び負例毎にヒストグラムが計算された例を示している。

生成部１４は、図８の下段に示すように、計算したヒストグラムに基づいて、所定の基準値に対する各インデックス番号に対応する出現頻度の相対比率を求める。そして、生成部１４は、図９に示すように、求めた相対比率を、注目データ列の各インデックス番号に対応するエッジの重みに乗算することにより、第１のグラフ情報の重みを変更した第２のグラフ情報を生成する。生成部１４は、所定の基準値を、ヒストグラムにおける各インデックス番号に対応する出現頻度の平均値又は中央値としてよい。この場合、重みの変更に偏りが生じることを抑制することができる。また、生成部１４は、各インデックス番号について得られた相対比率を、１を中心とした所定範囲の値となるように調整してもよい。この場合、重みの変更に極端な影響が生じることを抑制することができる。

生成部１４は、求めた相対比率を重みにそのまま乗算して生成した第２のグラフ情報に加え、相対比率を所定倍した値を重みに乗算して第２のグラフ情報を生成することで、１つの第１のグラフ情報から複数の第２のグラフ情報を生成してもよい。図１０に、１つの第１のグラフ情報から、２パターンの第２のグラフ情報が生成された例を示す。図１０の例では、求めた相対比率をそのまま重みに乗算した場合を「基本倍率」、相対比率を１より大きい所定倍（例えば２倍）にした値を重みに乗算した場合を「強倍率」としている。

生成部１４は、第１のグラフ情報集合に含まれる第１のグラフ情報の各々について、第２のグラフ情報の各々を生成し、第２のグラフ情報集合とする。生成部１４は、生成した第２のグラフ情報の各々に、第１のグラフ情報とは異なるグラフＩＤを付与する。例えば、第１のグラフ情報集合にグラフＩＤ＝０，１，・・・，Ｎが使用されている場合、生成部１４は、第２のグラフ情報の各々には、グラフＩＤ＝Ｎ＋１，Ｎ＋２，・・・を付与する。生成部１４は、第１のグラフ情報集合と、生成した第２のグラフ情報集合とを機械学習部１６へ受け渡す。

機械学習部１６は、取得部１２から受け渡された第１のグラフ情報集合、又は、生成部１４から受け渡された第１のグラフ情報集合と第２のグラフ情報集合とに基づいて、モデルの機械学習を実行する。すなわち、データ拡張を行わない場合には、機械学習部１６は、第１のグラフ情報集合のみでモデルを訓練する。また、データ拡張を行う場合には、機械学習部１６は、第１のグラフ情報集合と、拡張された第２のグラフ情報集合とを用いてモデルを訓練する。グラフ情報を用いた機械学習のアルゴリズムとしては、例えば、ＤｅｅｐＴｅｎｓｏｒ、ＧＣＮ（Graph Convolutional Networks）等が挙げられる。機械学習部１６は、訓練済みのモデルを出力する。

機械学習装置１０は、例えば図１１に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力部、表示部等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、機械学習装置１０として機能させるための機械学習プログラム５０が記憶される。機械学習プログラム５０は、取得プロセス５２と、生成プロセス５４と、機械学習プロセス５６とを有する。

ＣＰＵ４１は、機械学習プログラム５０を記憶部４３から読み出してメモリ４２に展開し、機械学習プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、取得プロセス５２を実行することで、図１に示す取得部１２として動作する。また、ＣＰＵ４１は、生成プロセス５４を実行することで、図１に示す生成部１４として動作する。また、ＣＰＵ４１は、機械学習プロセス５６を実行することで、図１に示す機械学習部１６として動作する。これにより、機械学習プログラム５０を実行したコンピュータ４０が、機械学習装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

なお、機械学習プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

次に、本実施形態に係る機械学習装置１０の作用について説明する。機械学習装置１０に入力データとして、第１のグラフ情報集合が入力されると、機械学習装置１０において、図１２に示す機械学習処理が実行される。なお、機械学習処理は、開示の技術の機械学習方法の一例である。

ステップＳ１２で、取得部１２が、入力データとして機械学習装置１０に入力された第１のグラフ情報集合を取得する。

次に、ステップＳ１４で、取得部１２が、ユーザから、データ拡張の要否の指定を受け付け、データ拡張要の指定を受け付けたか否かを判定する。データ拡張要の指定を受け付けた場合、取得部１２が、第１のグラフ情報集合を生成部１４へ受けし、処理はステップＳ１８へ移行する。一方、データ拡張不要の指定を受け付けた場合、取得部１２が、第１のグラフ情報集合を機械学習部１６へ受け渡し、処理はステップＳ１６へ移行する。

ステップＳ１６では、機械学習部１６が、取得部１２から受け渡された第１のグラフ情報集合に基づいて、モデルの機械学習を実行し、訓練済みのモデルを出力して、機械学習処理は終了する。

ステップＳ１８では、生成部１４が、ユーザから、データ拡張の拡張方法の指定を受け付け、受け付けた拡張方法が、重みをランダムに変更する方法か、ヒストグラムによる方法かを判定する。重みをランダムに変更する方法の場合、処理はステップＳ２０へ移行し、ヒストグラムによる方法の場合、処理はステップＳ２２へ移行する。

ステップＳ２０では、生成部１４が、所定の確率分布の値を、第１のグラフ情報の重みにランダムに乗算することにより、第２のグラフ情報を生成する。そして、生成部１４が、第１のグラフ情報集合と、生成した第２のグラフ情報集合とを機械学習部１６へ受け渡し、処理はステップＳ２６へ移行する。

一方、ステップＳ２２では、生成部１４が、ユーザから、第１のグラフ情報における注目データ列の指定を受け付ける。そして、生成部１４が、第１のグラフ情報集合において、指定された注目データ列の値（インデックス番号）毎のエッジ（グラフ情報の各行）の出現頻度を示すヒストグラムを計算する。

次に、ステップＳ２４で、生成部１４が、計算したヒストグラムに基づいて、所定の基準値に対する各インデックス番号に対応する出現頻度の相対比率を求める。そして、生成部１４が、求めた相対比率を、注目データ列の各インデックス番号に対応するエッジの重みに乗算することにより、第１のグラフ情報の重みを変更した第２のグラフ情報を生成する。そして、生成部１４が、第１のグラフ情報集合と、生成した第２のグラフ情報集合とを機械学習部１６へ受け渡し、処理はステップＳ２６へ移行する。

ステップＳ２６では、機械学習部１６が、生成部１４から受け渡された第１のグラフ情報集合と第２のグラフ情報集合とに基づいて、モデルの機械学習を実行し、訓練済みのモデルを出力して、機械学習処理は終了する。

以上説明したように、本実施形態に係る機械学習装置は、第１のグラフ情報を取得し、第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成する。そして、機械学習装置は、第１のグラフ情報と第２のグラフ情報とに基づいて、モデルの訓練を実行する。これにより、グラフ情報の基本構造を変更することなく、グラフ情報のノード間の関係を表す重みのみを変更することにより、第１のグラフ情報の骨格を保持しした訓練データのバリエーションを増加させ、データ拡張を行うことができる。結果として、グラフ情報のデータ拡張を行ってモデルを訓練する場合における学習精度の低下を抑制することができる。

また、ＤｅｅｐＴｅｎｓｏｒのように、局所よりもグラフ全体の特徴抽出が得意な手法では、細かな特徴を目立たなくさせる効果を発揮するランダム性は特に適しているため、本実施形態における、重みをランダムに変更する方法を適用することの効果が高い。

ここで、ある入力データセットを用いてＤｅｅｐＴｅｎｓｏｒのアルゴリズムで機械学習されたモデルに対して、テストデータを用いて評価したモデルの精度について説明する。ここでは、評価指標として、ＡＣＣ（Accuracy）及びＡＵＣ（Area Under the Curve）を用いた。ＡＣＣは、テスト結果全件に対して、モデルによる予測と正解とが一致した件数の割合である。ＡＵＣは、分類器の性能評価の指標であり、ＲＯＣ曲線（Receiver Operating Characteristic Curve）の下側の面積に相当する。ＲＯＣ曲線は、下記に示す真陽性率（True Positive Rate、ＴＰＲ）と偽陽性率（False Positive Rate、ＦＰＲ）とで成り立つ曲線であり、分類器の判別能を計ることに用いられる。ＡＵＣが１に近づけば近づく程、判別能は高く、ＡＵＣ＝０．５ではランダムな予測となる。

ＴＰＲ＝ＴＰ／（ＴＰ＋ＦＮ）

ＦＰＲ＝ＦＰ／（ＦＰ＋ＴＮ）

ＴＰ：予測がＰｏｓｉｔｉｖｅ、かつ正解がＰｏｓｉｔｉｖｅ

ＦＮ：予測がＮｅｇａｔｉｖｅ、かつ正解がＰｏｓｉｔｉｖｅ

ＦＰ：予測がＰｏｓｉｔｉｖｅ、かつ正解がＮｅｇａｔｉｖｅ

ＴＮ：予測がＮｅｇａｔｉｖｅ、かつ正解がＮｅｇａｔｉｖｅ

図１３に、ランダムでの重み変更前後の、学習のエポック毎のＡＣＣ及びＡＵＣの比較の一例を示す。図１３の例では、本実施形態の一例（以下、「本手法」という）として、平均１の正規分布に基づいてランダムで重みを変更し、１つの第１のグラフ情報から１つの第２のグラフ情報を生成した場合を採用した。すなわち、本手法では、第１のグラフ情報＋第２のグラフ情報で、元のデータ数から２倍に拡張して機械学習を実行したモデルを対象とした。また、重み変更前の一例（以下、「比較例」という）として、第１のグラフ情報を単純に２倍にしたデータで機械学習を実行したモデルを対象とした。図１３において、ＡＵＣ（後）及びＡＣＣ（後）は、本手法について評価指標、ＡＵＣ（前）及びＡＣＣ（前）は、比較例について評価指標である。以下の図１４、図１５、及び図１７においても同様である。図１３に示すように、ＡＣＣ及びＡＵＣ共に、比較例に対して本手法の方が全体的に高い値を示しており、機械学習の精度低下が抑制されていることが分かる。

また、図１４に、ランダムに重みを変更する際に適用する確率分布の分散の大小による評価の一例を示す。本手法及び比較例については、図１３の場合と同様である。分散が大きい場合（図１４の下段左）、本手法のＡＣＣ及びＡＵＣは、エポック数の前半で激しく変動し、安定していない。また、全体的にも、比較例と比べて精度が向上したとは言い難い。分散が小さい場合（図１４の下段右）、本手法のＡＵＣがエポック数の前半で他の分散条件よりも高精度となり、最終的にも、本分散条件の範囲では最も高い結果が得られている。なお、図１４の上段は、分散が中間値の場合であり、図１３の場合と同様である。このことから、図１３で示した場合よりも、より高い精度が得られる適切な分散条件が存在することが示唆され、特に、分散が小さい程、その可能性が高くなると予想される。

次に、図１５に、データ拡張によりデータ数を１０倍に増加させた場合の評価の一例を示す。本手法では、１つの第１のグラフ情報から９つの第２のグラフ情報を生成することにより、元のデータ数の１０倍にデータ拡張した。比較例では、第１のグラフ情報を単純に１０倍した。その他の条件は図１３の例と同様である。図１５に示すように、データ数を２倍に拡張した場合よりも過学習に陥り易いため、本手法及び比較例共に、エポック数の増加と共に学習精度が低下する傾向がある。しかし、本手法のＡＣＣ及びＡＵＣは、より高くなり、特にエポック数が２０前後で既に、データ数を２倍に拡張した場合の１００エポック数での精度に到達しており、学習が速いことが分かる。

上記では、機械学習のアルゴリズムがＤｅｅｐＴｅｎｓｏｒの例で説明したが、ＧＣＮのような比較的局所的な特徴抽出が得意な手法であっても、グラフ情報の性質に依っては、重みをランダムに変更する方法が効果的な場合がある。図１６に、種類の異なる複数の化合物に関するグラフ情報（以下、「化合物データ」という）の各々に対する評価の一例を示す。図１６の例では、評価指標として、１０回のテストで得られたＡＵＣの平均（以下、「平均ＡＵＣ」という）を用いている。また、本手法は、図１５と同様で、データ数を１０倍に拡張した場合である。また、比較手法１は、データ拡張を行わず、第１のグラフ情報のみを用いた場合、比較手法２は、第１のグラフ情報を単純に１０倍した場合である。図１６に示すように、本手法の精度が、比較手法１及び２よりも高いケースがあり、機械学習のアルゴリズムに依らず、重みをランダムに変更する方法の効果が期待できる。

また、ヒストグラムによる方法では、注目データ列に関する特徴が強調されるように重みを変更することができるため、タスクに応じた学習精度を向上させることができる。図１０では、黒丸で示されるノード同士の接続が重要であると考えられ、黒丸のノード間のエッジが強調された第２のグラフ情報が生成された例となっている。図１７に、ヒストグラムによる方法で重みを変更した本手法と比較例との評価の一例を示す。本手法の重みを変更する方法以外の条件は、図１３の例と同様である。本手法のＡＣＣ及びＡＵＣは、比較例よりも全体的に安定して、より高精度であることが分かる。また、ランダムに重みを変更する方法において適用する確率分布の適切な分布状態が不明な場合でも、ヒストグラムによる方法を適用することで、精度良くデータ拡張を行うことができる。

なお、上記実施形態では、２ノード間の接続を規定したグラフ情報の例について説明したが、３ノード以上の複数のノード間の接続について重みを規定したハイパーグラフのグラフ情報に対しても開示の技術は適用可能である。

また、上記実施形態では、機械学習プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

（付記２）
前記接続状態を変更しないことは、前記第１のグラフ情報に含まれるノード間に新たな接続を追加しないこと、及び、前記第１のグラフ情報に含まれるノード間の既存の接続を削除しないことである、
ことを特徴とする付記１に記載の機械学習プログラム。

（付記３）
前記変更処理は、前記属性値をランダムに変更する処理を含む、
ことを特徴とする付記１又は付記２に記載の機械学習プログラム。

（付記４）
前記属性値をランダムに変更する処理は、特定の確率分布の値を前記属性値にランダムに乗算する処理を含む、
ことを特徴とする付記３に記載の機械学習プログラム。

（付記５）
前記変更処理は、ノードに対応付けられた特定の値又はカテゴリ毎の前記第１のグラフ情報における出現頻度に応じた係数を、前記特定の値又はカテゴリが対応付けられたノードを含む前記接続の属性値に乗算する処理を含む、
ことを特徴とする付記１～付記４のいずれか１項に記載の機械学習プログラム。

（付記６）
前記係数は、基準値に対する前記出現頻度に応じた相対比率である、
ことを特徴とする付記５に記載の機械学習プログラム。

（付記７）
前記基準値は、前記出現頻度の平均値又は中央値である、
ことを特徴とする付記６に記載の機械学習プログラム。

（付記８）
前記係数は、１を中心とした特定の範囲の値である、
ことを特徴とする付記５～付記７のいずれか１項に記載の機械学習プログラム。

（付記９）
第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理を実行する制御部を含むことを特徴とする機械学習装置。

（付記１０）
前記接続状態を変更しないことは、前記第１のグラフ情報に含まれるノード間に新たな接続を追加しないこと、及び、前記第１のグラフ情報に含まれるノード間の既存の接続を削除しないことである、
ことを特徴とする付記９に記載の機械学習装置。

（付記１１）
前記変更処理は、前記属性値をランダムに変更する処理を含む、
ことを特徴とする付記９又は付記１０に記載の機械学習装置。

（付記１２）
前記属性値をランダムに変更する処理は、特定の確率分布の値を前記属性値にランダムに乗算する処理を含む、
ことを特徴とする付記１１に記載の機械学習装置。

（付記１３）
前記変更処理は、ノードに対応付けられた特定の値又はカテゴリ毎の前記第１のグラフ情報における出現頻度に応じた係数を、前記特定の値又はカテゴリが対応付けられたノードを含む前記接続の属性値に乗算する処理を含む、
ことを特徴とする付記９～付記１２のいずれか１項に記載の機械学習装置。

（付記１４）
前記係数は、基準値に対する前記出現頻度に応じた相対比率である、
ことを特徴とする付記１３に記載の機械学習装置。

（付記１５）
前記基準値は、前記出現頻度の平均値又は中央値である、
ことを特徴とする付記１４に記載の機械学習装置。

（付記１６）
前記係数は、１を中心とした特定の範囲の値である、
ことを特徴とする付記１３～付記１５のいずれか１項に記載の機械学習装置。

（付記１７）
第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理をコンピュータが実行することを特徴とする機械学習方法。

（付記１８）
前記接続状態を変更しないことは、前記第１のグラフ情報に含まれるノード間に新たな接続を追加しないこと、及び、前記第１のグラフ情報に含まれるノード間の既存の接続を削除しないことである、
ことを特徴とする付記１７に記載の機械学習方法。

（付記１９）
前記変更処理は、前記属性値をランダムに変更する処理を含む、
ことを特徴とする付記１７又は付記１８に記載の機械学習方法。

（付記２０）
第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理をコンピュータに実行させることを特徴とする機械学習プログラムを記憶した記憶媒体。

１０機械学習装置
１２取得部
１４生成部
１６機械学習部
４０コンピュータ
４１ＣＰＵ
４２メモリ
４３記憶部
４９記憶媒体
５０機械学習プログラム

Claims

第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記接続状態を変更しないことは、前記第１のグラフ情報に含まれるノード間に新たな接続を追加しないこと、及び、前記第１のグラフ情報に含まれるノード間の既存の接続を削除しないことである、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記変更処理は、前記属性値をランダムに変更する処理を含む、
ことを特徴とする請求項１又は請求項２に記載の機械学習プログラム。
前記属性値をランダムに変更する処理は、特定の確率分布の値を前記属性値にランダムに乗算する処理を含む、
ことを特徴とする請求項３に記載の機械学習プログラム。
前記変更処理は、ノードに対応付けられた特定の値又はカテゴリ毎の前記第１のグラフ情報における出現頻度に応じた係数を、前記特定の値又はカテゴリが対応付けられたノードを含む前記接続の属性値に乗算する処理を含む、
ことを特徴とする請求項１～請求項４のいずれか１項に記載の機械学習プログラム。
前記係数は、基準値に対する前記出現頻度に応じた相対比率である、
ことを特徴とする請求項５に記載の機械学習プログラム。
前記基準値は、前記出現頻度の平均値又は中央値である、
ことを特徴とする請求項６に記載の機械学習プログラム。
前記係数は、１を中心とした特定の範囲の値である、
ことを特徴とする請求項５～請求項７のいずれか１項に記載の機械学習プログラム。
第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理を実行する制御部を含むことを特徴とする機械学習装置。
第１のグラフ情報を取得し、
前記第１のグラフ情報に含まれるノードとノードとの接続状態を変更することなしにノードとノードとの接続の属性値を変更する変更処理によって第２のグラフ情報を生成し、
前記第１のグラフ情報と前記第２のグラフ情報とに基づいて、モデルの機械学習を実行する、
処理をコンピュータが実行することを特徴とする機械学習方法。