JP7235111B2

JP7235111B2 - データ解析装置、データ解析方法、及びプログラム

Info

Publication number: JP7235111B2
Application number: JP2021528631A
Authority: JP
Inventors: 晨暉黄
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2023-03-08
Anticipated expiration: 2039-06-21
Also published as: JPWO2020255413A1; WO2020255413A1; US20220308260A1

Description

本発明は、特定領域の特性、例えば、地表に存在する物質の含有量等を示す地球科学データを解析するための、データ解析装置、及びデータ解析方法に関し、更には、これらを実現するためのプログラムに関する。

地球科学データは、それが取得された箇所における、地質、岩石成分、植生等の特性を表すデータである。具体的には、地球科学データとしては、地球科学データ、土壌水分含有量、土壌元素含有量、バイオマス量、鉱物資源埋蔵量、森林湿度分布等が挙げられる。但し、地球科学データにおいては、人力、財力、設備の制限により、広域に渡って取得することが難しい場合があり、地図上では、欠損データが多数存在する。

従って、広域の地球科学データを獲得するためには、その欠損データを補間する必要がある。すなわち、未知領域の地球科学データを取得する必要がある。このため、従来から、特定のエリアで取得された地球科学データを用いて、地球科学データが取得されていない箇所の特性を推測することが行なわれている。

例えば、特許文献１は、複数箇所で取得されたボーリングデータを用いて、ボーリングが行なわれていない箇所の地層分布及び地質性状を推定する地盤推定方法を開示している。具体的には、特許文献１に開示された地盤推定方法では、まず、各ボーリングデータが含む各地層に関する地質特性値に基づいて、推定対象となるエリアの地層毎に、地質特性値の等高線図が生成される。このとき推定対象となるエリアは、ボーリングが行なわれた箇所を含むエリアである。言い換えると、ボーリングは、推定対象となるエリアの複数箇所において行なわれている。次に、地盤推定箇所の位置を、各地層の等高線図中に照合して、そこでの地質特性値が推定される。その後、推定された各地層の地質特性値が表示される。

このように、特許文献１に開示された地盤推定方法では、推定対象となるエリアにおいて、ボーリングが行なわれていない箇所の地質特性値を推定することができる。但し、特許文献１に開示された地盤推定方法では、地質特性値の等高線図を作成する必要がある。このため、特許文献１に開示された地盤推定方法には、推定できる箇所が、ボーリングが行なわれた箇所の周辺に限られてしまうという問題がある。

これに対して、現在、地球科学データが取得されていない箇所の特性を推測する手法としては、機械学習による推定方法も多く提案されている。この推定方法では、まず、特定種類の地球科学データが取得されていない箇所の特性を推定するために、取得済みの他種類の地球科学データを学習データとして学習モデルが構築される。例えば、十数種類のリモートセンシングデータ、地磁気データ、重力データや等高線データ等が学習データとして用いられる。

そして、機械学習による推定方法では、学習データによって構築された学習モデルによって、地球科学データが取得されていない箇所における特性が推定できる。従って、機械学習による推定方法では、上記特許文献１における問題は解消できると考えられる。

ここで、機械学習による推定方法について詳細に説明する。特許文献２は、リモートセンシングデータを学習データとして機械学習を行い、機械学習によって得られたモデルを利用してバイオマスを推定する推定方法を開示している。特許文献２に開示された推定方法は、分析対象となる地域を、地図上で予め定めた所定サイズのメッシュに分割し、分割されたメッシュ毎に、実際に測定した資源情報をモデルに適用して、そのメッシュ内に存在するバイオマスを推定する。

特開２０１２－３７４２７号公報特開２００４－８９０３２号公報

ところで、このような地球科学データには、ダイナミックスケールが非常に大きいという特徴がある。このため、地球科学データにおいては、同じ指標であるにも係わらず、その数値が１０のマイナス数乗から１０のプラス数乗までの広い範囲にわたることがある（後述の図３（ａ）参照）。但し、数値が広範囲にわたったとしても、地球科学データの値は、対象となるエリアのマップ全体において、殆どの領域では低くなり、局所的に高くなるだけである。つまり、値が高い領域と値が低い領域との間の勾配は急であり、地球科学データの値が高い領域は、特異的に分布している。

しかしながら、地球科学データ全体の中で、特異的に分布している領域は、有意義な情報として処理する必要があるが、上述の特許文献２に開示された機械学習による推定方法においては、このような処理が行われることはない。このため、上述の特許文献２に開示された機械学習による推定方法では、学習データとなる地球科学データの中の重要な情報が無視されるので、推定精度が低いという問題が発生している。

具体的には、特許文献２に開示された機械学習による推定方法では、値が高い領域のデータが教師データ中の応答変数として用いられる場合、データの前処理の段階で、値が高い領域のデータは、特異点として認識され、その後、除去される。又は、値が高い領域のデータは、データ量が少ないため、機械学習モデルの中で無視される。この結果、上述したように、推定精度が低いという問題が発生する。

本発明の目的の一例は、上記問題を解消し、機械学習を用いたデータの推定において、推定精度の向上を図り得る、データ解析装置、データ解析方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面におけるデータ解析装置は、
特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、整列部と、
前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成部と、
前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部と、
を備えている、ことを特徴とする。

また、上記目的を達成するため、本発明の一側面におけるデータ解析方法は、
（ａ）特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、ステップと、
（ｂ）前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
（ｃ）前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、ステップと、
を有する、ことを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、ステップと、
（ｂ）前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
（ｃ）前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させることを特徴とする。

以上のように、本発明によれば、機械学習を用いたデータの推定において、推定精度の向上を図ることができる。

図１は、本発明の実施の形態１におけるデータ解析装置の構成を概略的に示すブロック図である。図２は、本発明の実施の形態１におけるデータ解析装置の構成を具体的に示すブロック図である。図３（ａ）は地球科学データの整列前の分布を示し、図３（ｂ）は地球科学データの整列後の分布を示している。図３（ｂ）に示す分布が順序分布である。図４は、本発明の実施の形態１におけるデータ解析装置のキャリブレーション動作を示すフロー図である。図５は、本発明の実施の形態１におけるデータ解析装置の推定動作を示すフロー図である。図６は、本発明の実施の形態２におけるデータ解析装置の閾値設定動作を示すフロー図である。図７（ａ）は、地球科学データの整列後の分布を示し、図７（ｂ）は、本発明の実施の形態２において図７（ａ）に示す分布の縦軸を対数化した状態を示している。図８は、本発明の実施の形態において対数化された地球科学データにおける中位数及び標準偏差の一例を示す図である。図９は、本発明の実施の形態２におけるグルーピング結果の一例を示す図である。図１０は、本発明の実施の形態３におけるデータ解析装置の閾値設定動作を示すフロー図である。図１１は、本発明の実施の形態３において行われる決定係数と閾値とのフィッティングの一例を示す図である。図１２は、本発明の実施の形態１～３におけるデータ解析装置を実現するコンピュータの一例を示すブロック図である。図１３は、本発明の実施例で用いられる特定の地点のサンプルデータの一例を示す図である。図１４は、本発明の実施例で用いられる衛星データの一例を示す図である。図１４（ａ）は、赤外領域の光の反射率の分布を示し、図１４（ｂ）は標高データを示し、図１４（ｃ）は地磁気測定データを示している。図１５は、本発明の実施例で用いられるサンプルデータのデータ群の一例を示す図である。図１６は、地球科学データが取得されている特定領域とそれ以外の領域との一例を示す図である。図１７は、予測値と真値との関係を示す図であり、図１７（ａ）は従来からの手法が用いられた場合を示し、図１７（ｂ）は本発明が用いられた場合を示している。

（実施の形態１）
以下、本発明の実施の形態１における、データ解析装置、データ解析方法、及びプログラムについて、図１～図５を参照しながら説明する。

［装置構成］
最初に、本実施の形態１におけるデータ解析装置の構成について説明する。図１は、本発明の実施の形態１におけるデータ解析装置の構成を概略的に示すブロック図である。
図１に示す本実施の形態１におけるデータ解析装置１０は、特定領域の特性を示すデータを解析するための装置である。図１に示すように、データ解析装置１０は、整列部１１と、分類モデル作成部１２と、回帰モデル作成部１３とを備えている。

整列部１１は、特定領域の特性を示す第１のデータと、第２のデータとの、組データを取得し、第１のデータをその大きさの順に整列させる。また、第２のデータは、第１のデータに対応し、且つ、特定領域の別の特性を示す、データである。

分類モデル作成部１２は、組データのデータ群に対して、整列後の第１のデータの順序分布の特性に基づいて、グルーピングを行って、組データのデータ群を複数のグループに分類する。また、分類モデル作成部１２は、分類の結果を用いて、組データを分類するための分類モデルを作成する。

回帰モデル作成部１３は、グループ毎に、組データを構成する第１のデータを応答変数とし、同じ組データを構成する第２のデータを説明変数として、機械学習を行って、第１のデータと第２のデータとの関係を示す回帰モデルを作成する。

このように、本実施の形態１では、組データは、第１のデータの大きさに応じてグルーピングされ、グループ毎に、回帰モデルが作成される。このため、地球科学データのように、特異的な分布を持つデータであっても、特異的な部分が除去されたり、無視されたりすることはなく、データ全体が学習モデルに包括される。従って、本実施の形態１によれば、機械学習を用いたデータの推定において、推定精度の向上が図られる。

続いて、図２～図３を用いて、本実施の形態１におけるデータ解析装置１０の構成をより具体的に説明する。図２は、本発明の実施の形態１におけるデータ解析装置の構成を具体的に示すブロック図である。

まず、本実施の形態１では、整列部１１は、第１のデータとして、特定領域の特性を示す地球科学データを取得し、第２のデータとして、特定領域の別の特性を示す衛星データを取得する。ここで、地球科学データとしては、特定領域の特性として資源の存在を示すデータ、例えば、地表に存在する物質、元素の種類、成分比、含有量等を示すデータが挙げられる。具体的には、ある領域において銅の含有量の予測が求められているとすると、地球科学データとしては、特定領域の特性である単位面積当たりの銅の含有量（ppm）を示すデータが挙げられる。

また、その他の地球科学データとしては、重力値、二酸化炭素の濃度プロファイル、気温、湿度、風向、風速、気圧、全天日射、分光放射、光合成有効放射、地温、土壌水分、地流熱量、直達放射スペクトル、地盤安定性、地層年代、断層情報、地下水脈情報、植物種類の分布、蒸発散情報、鉱物産量等を示すデータも挙げられる。

また、特定の資源の探査又は存在の把握を目的とする場合は、資源の存在に関連のあるデータを用いることが好適である。例えば、地殻に存在する特定の元素の存在の把握を目的とする場合、鉱脈の存在確率の算出を目的とする場合は、地球科学データとしては、把握対象となる元素の存在比率を示すデータが挙げられる。

衛星データは、地球の上空から得られたデータであり、特定領域の特性を示すデータである。衛星データは、衛星が取得したデータ、航空機等の飛行体が取得したデータを含む。また、本実施の形態１において用いることができる衛星データとしては、取得対象の領域から反射または放射される電磁波の強度を示すデータ、特定波長の光の反射率の分布を示すデータ、地磁気を示すデータ、標高を示すデータ、標高傾斜を示すデータ等が挙げられる。

具体的には、特定波長の光の反射率の分布を示すデータとしては、アスター(ASTER: Advanced Spaceborne Thermal Emission and Reflection Radiometer)によって測定されたデータが挙げられる。アスターは、米国ＮＡＳＡのテラ(Terra)衛星に搭載された観測用の光学センサであり、可視から熱赤外にわたる１４バンドを観測することができる。また、この１４バンドは、鉱物に関する特徴的なスペクトルを捉えるのに適した波長である。なお、衛星データは上記のものに限定されずリモートセンシングによって得られたデータを含む。

また、図２に示すように、本実施の形態１では、データ解析装置１０は、上述した整列部１１、分類モデル作成部１２及び回帰モデル作成部１３に加えて、データ推定部１４と、表示部１８と、記憶部１５とを備えている。また、データ解析装置１０には、表示装置２０が接続されている。更に、データ解析装置１０は、ネットワーク等を介して、データベース３０にも接続されている。

データベース３０は、特定領域における地球科学データ及び衛星データを格納している。例えば、地球科学データが、地点毎の単位面積当たりの銅の含有量（ppm）を示すデータであり、衛星データが、特定波長の光の反射率の分布を示すデータ、標高データ、及び標高傾斜データであるとする。

この場合、データベース３０は、地点（緯度及び経度）毎に、地球科学データとして、単位面積当たりの銅の含有量（ppm）を示すデータを格納し、衛星データとして、特定波長の光の反射率、標高値、及び傾斜値を格納する。また、この場合、地球科学データ及び衛星データが取得されている地点を中心とした設定範囲を重ね合わせて得られた領域を、特定領域とすることができる。

また、データベース３０では、地点毎の地球科学データの値と衛星データの値とは、１つの組として互いに紐付けられる。更に、１つの組を構成する地球科学データの値と衛星データの値とは、１つのサンプルデータ（組データ）として扱われる。なお、衛星データは、地球科学データに比べて広範囲にわたって取得できるため、地球科学データが取得されている特定領域以外の領域までもカバーしていても良い。

整列部１１は、本実施の形態１では、データベース３０から、第１のデータと第２のデータとの組データとして、地球科学データと衛星データとの組データを取得する。そして、整列部１１は、図３（ａ）に示す地球科学データを、図３（ｂ）に示すように、その大きさの順に整列させる。図３（ａ）は地球科学データの整列前の分布を示し、図３（ｂ）は地球科学データの整列後の分布を示している。図３（ｂ）に示す分布が順序分布である。

更に、整列部１１は、対応する地球科学データの順番に合わせて、衛星データも整列させる。なお、ここでいう整列は、並べ替えと同義である。また、整列部１１は、整列させた地球科学データ及び衛星データを、分類モデル作成部１２と回帰モデル作成部１３とに渡す。

分類モデル作成部１２は、本実施の形態１では、まず、整列部１１によって整列されたサンプルデータのデータ群（複数のサンプルデータ）を受け取る。また、図３（ｂ）に示すように、地球科学データでは、値が低い領域（以下「低数値領域」と表記する。）が殆どであり、値が高い領域（以下「高数値領域」と表記する。）は局所的に存在するのみである。このため、本実施の形態１では、分類モデル作成部１２は、閾値Ｓに基づいて、受け取ったサンプルデータのデータ群を、高数値領域と低数値領域との２つのグループに分ける。なお、本実施の形態１において、グループ数は特に限定されるものではない。

具体的には、分類モデル作成部１２は、グルーピング用のサポートベクトルマシンに、各サンプルデータを与えて、各サンプルデータが所属するグループを判定することができる。例えば、サンプルデータが、銅の含有量（ppm）と衛星データとの組データであるとする。そして、サポートベクトルマシンは、銅の含有量のデータ分布の特長を学習して、銅の含有量を２つのグループに分けるための閾値を決定し、その閾値に基づいて、サンプルデータを２つに分割する。なお、閾値は、予め設定された固定値であっても良い。

そして、分類モデル作成部１２は、サンプルデータに、グループ分けに応じてラベリングを行い、ラベリング後のサンプルデータを教師データとして、機械学習を実行し、地球科学データと衛星データとの組データを分類するための分類モデル１６を構築する。また、この場合に用いられる機械学習の方式としては、決定木、サポートベクトルマシン、ニューラルネットワーク、ロジスティック回帰、最近傍分類法（K-NN: k-nearest neighbor algorithm）、アンサンブル分類学習法、判別分析等が挙げられる。更に、分類モデル作成部１２は、作成した分類モデル１６を、記憶部１５に格納させる。

また、分類モデル作成部１２は、各サンプルデータを用いて、地球科学データにおける高数値領域及び低数値領域と衛星データ（特定波長の光の反射率、標高値、及び傾斜値）との関係をディープラーニングによって学習することもできる。この場合、衛星データの値に応じて、サンプルグループを決定する分類器が作成されるので、この作成された分類器を分類モデル１６とすることもできる。

回帰モデル作成部１３は、本実施の形態１では、まず、分類モデル作成部１２によってグルーピングされたサンプルデータのデータ群を取得する。そして、回帰モデル作成部１３は、取得した各サンプルデータを教師データとして機械学習を実行する。これにより、回帰モデル１７が作成される。ここで用いられる機械学習の方式としても、ガウス過程回帰、決定木、サポートベクトルマシン、ニューラルネットワーク、ロジスティック回帰、最近傍分類法（K-NN: k-nearest neighbor algorithm）、アンサンブル回帰学習法、判別分析等が挙げられる。

具体的には、回帰モデル作成部１３は、グループ毎に、サポートベクトルマシンに、そのグループを構成するサンプルデータを与えて、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係、例えば、銅の含有量（ppm）と、特定波長の光の反射率、標高値、及び傾斜値との関係を学習する。そして、回帰モデル作成部１３は、学習の結果、例えば、特定波長の光の反射率、標高値、及び傾斜値が入力されると、入力値に応じて、銅の含有量を出力する回帰モデル１７を作成する。また、この場合、サンプルデータは予めグルーピングされており、グループ毎に、回帰モデルが作成される。その後、回帰モデル作成部１３は、作成した毎期モデル１７も記憶部１５に格納させる。なお、グループ毎の回帰モデルは、それぞれ同一の回帰モデルであっても良いし、異なる回帰モデルであっても良い。

また、回帰モデル作成部１３は、各サンプルデータを用いて、ディープラーニングを行うことによって、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係を学習することもできる。この場合は、ディープラーニングよって学習されたモデルが、衛星データである特定波長の光の反射率、標高値、及び傾斜値等に応じて、銅の含有量を決定する回帰モデル１７となる。

データ推定部１４は、特定領域以外の領域における第２のデータを、分類モデル１６及び回帰モデル１７に適用して、特定領域以外の領域における第１のデータを推定する。本実施の形態１では、データ推定部１４は、まず、分類モデル作成部１２によって作成された分類モデル１６に、特定領域以外の領域（以下「推定領域」と表記する。）における衛星データを入力して、この衛星データを複数のグループに分類する。次いで、データ推定部１４は、回帰モデル作成部１３によってグループ毎に作成された回帰モデルそれぞれに、対応するグループの衛星データを入力し、推定領域における地球科学データを推定する。

具体的には、データ推定部１４は、まず、外部から推定領域が指定されると、指定された推定領域上から複数の地点（緯度及び経度）を選出する。次いで、データ推定部１４は、データベース３０に格納されている衛星データから、選出した地点に対応する、特定波長の光の反射率、標高値、及び傾斜値を特定する。更に、データ推定部１４は、特定したデータを分類モデル１６に適用して、これらのデータが、低数値領域と高数値領域との２つのグループのいずれに属するかを判定する。その後、データ推定部１４は、衛星データを、属すると判定されたグループに対応する回帰モデル１７に適用して、推定領域の銅の含有量を算出する。

表示部１８は、特定領域における第１のデータと、推定された推定領域における第１のデータとを、画面上に重ねて表示する。表示部１８は、本実施の形態１では、表示装置２０の画面上において、特定領域における地球科学データと、推定領域における地球科学データとを、地図データ上に重ねて表示する。具体的には、例えば、地球科学データが地点毎の単位面積当たりの銅の含有量（ppm）であるとする。この場合、表示部１８は、表示装置２０の画面上に、銅の含有量が特定されていない地点についても、銅の含有量（予測値）を表示する。このため、データ解析装置１０のユーザは、効率の良い採掘計画を策定することができる。

［装置動作］
次に、図４及び図５を用いて、本発明の実施の形態１におけるデータ解析装置１０の動作について説明する。また、後述するように、本実施の形態１において、データ解析装置１０は、キャリブレーション動作と推定動作とを行う。また、以下の説明においては、適宜図１～図３を参照する。また、本実施の形態１では、データ解析装置１０を動作させることによって、データ解析方法が実施される。従って、本実施の形態におけるデータ解析方法の説明は、以下のデータ解析装置１０の動作説明に代える。

最初に、図４を用いて、キャリブレーション動作、即ち、分類モデル及び回帰モデルの作成処理について説明する。図４は、本発明の実施の形態１におけるデータ解析装置のキャリブレーション動作を示すフロー図である。

図４に示すように、最初に、整列部１１は、データベース３０から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部１１は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる（ステップＡ１）。

具体的には、ステップＡ１では、整列部１１は、データベース３０から、特定領域に含まれる地点毎に、地球科学データと衛星データとの組データを、サンプルデータとして取得し、取得した地点毎のサンプルデータのデータ群を整列させる。また、整列部１１は、整列後のサンプルデータのデータ群を分類モデル作成部１２に渡す。

次に、分類モデル作成部１２は、地球科学データの特性に応じて一定の法則に基づいて、グルーピングのための閾値Ｓ（基準値）を決定する（ステップＡ２）。具体的には、ステップＡ２では、分類モデル作成部１２は、ステップＡ１で整列された地点毎のサンプルデータを受け取ると、サポートベクトルマシンを用いて閾値Ｓを決定する。

次に、分類モデル作成部１２は、ステップＡ２で決定した閾値Ｓに基づいて、ステップＡ１で整列された地球科学データ及び衛星データのグルーピングを行う（ステップＡ３）。

具体的には、ステップＡ３では、分類モデル作成部１２は、決定した閾値Ｓに基づいて、サンプルデータのデータ群を、高数値領域と低数値領域との２つのグループに分ける。つまり、分類モデル作成部１２は、閾値Ｓより大きい地球科学データ及びその地点に対応する衛星データをＨグループに分類し、閾値Ｓより小さい地球科学データ及びその地点に対応する衛星データをＬグループに分類する。なお、分類モデル作成部１２は、後述の実施の形態２に示すように、地球科学データに応じて閾値Ｓを決定することもできる。

次に、分類モデル作成部１２は、ステップＡ３のグルーピング結果を用いて、組データを分類する分類モデル１６（Ｃ１）を作成する（ステップＡ４）。

具体的には、分類モデル作成部１２は、グルーピングされたサンプルデータの衛星データにラベルを付与し、サンプルデータの衛星データとそれに付与されたラベルとでデータセットを構成する。次いで、分類モデル作成部１２は、このデータセットを教師データとして、分類学習を実行し、それによって、地球科学データと衛星データとの組データを分類するための分類モデルを構築する。

次に、分類モデル作成部１２は、ステップＡ４で作成した分類モデル１６（分類モデルＣ１）を記憶部１５に格納する（ステップＡ５）。

次に、回帰モデル作成部１３は、ステップＡ２でグルーピングされたサンプルデータのデータ群を取得し、各サンプルデータを教師データとして、グループ毎に、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との相関関係を学習して、回帰モデル１７を作成する（ステップＡ６）。また、ステップＡ６は、ステップＡ３でサンプルデータがグルーピングされた後であれば、分類モデル作成部１２による分類モデル１６の作成と同時に実行されても良い。

具体的には、回帰モデル作成部１３は、ステップＡ２でグルーピングされた地点毎のサンプルデータを取得し、取得した各サンプルデータを教師データとして、グループ毎に回帰学習を実行し、それによって、回帰モデル１７を作成する。また、回帰モデル作成部１３は、グループ毎に回帰モデルを作成しており、即ち、Ｈグループについて回帰モデルＲ１を作成し、Ｌグループについて回帰モデルＲ２を作成する。

その後、回帰モデル作成部１３は、ステップＡ６で作成した回帰モデル１７（回帰モデルＲ１及びＲ２）を記憶部１５に格納する（ステップＡ７）。ステップＡ７の実行により、キャリブレーション動作は終了する。

続いて、図５を用いて、推定動作、即ち、分類モデル１６及び回帰モデル１７を用いた推定処理について説明する。図５は、本発明の実施の形態１におけるデータ解析装置の推定動作を示すフロー図である。

図５に示すように、最初に、データ推定部１４は、外部からの推定領域の指定を受け付ける（ステップＢ１）。次に、データ推定部１４は、受け付けた推定領域から、複数の地点（緯度及び経度）を選出し、データベース３０から、選出した地点の衛星データを取得する（ステップＢ２）。

次に、データ推定部１４は、ステップＢ２で取得した衛星データを、分類モデル１６（Ｃ１）に入力して、この衛星データをグルーピングする（ステップＢ３）。次いで、データ推定部１４は、ステップＢ１のグルーピング結果に基づいて、ステップＢ２で取得された衛星データにラベルを付与する（ステップＢ４）。

具体的には、ステップＢ３におけるグルーピングにより、ステップＢ１で指定された推定領域が、Ｈグループ及びＬグループのいずれに属するかを判定できるので、データ推定部１４、判定結果に基づいて、ステップＢ２で取得された衛星データに、ラベルとして、「Ｈ」又は「Ｌ」を付与する。

次に、データ推定部１４は、ステップＢ４でラベルが付与された衛星データを、そのラベルが対応する回帰モデル１７に適用して、推定領域における地球科学データを推定する（ステップＢ５）。例えば、衛星データに付与されたラベルがＨである場合は、データ推定部１４は、衛星データを回帰モデルＲ１に適用する。一方、衛星データに付与されたラベルがＬである場合は、データ推定部１４は、衛星データを回帰モデルＲ２に適用する。

次に、データ推定部１４は、ステップＢ５の結果を、その地点の経度及び緯度に基づいて、地図データ上で、既に取得されている他の領域における地球科学データに合体させて、地球科学データが付加された地図データを構築する（ステップＢ６）。また、データ推定部１４は、構築した地図データを表示部１８に出力する。

次に、表示部１８は、出力されてきた地図データを受取、表示装置２０の画面上において、ステップＢ６で構築された地図データを表示する（ステップＢ７）。これにより、画面上には、推定領域における地球科学データと、推定領域以外の領域（特定領域を含む）における地球科学データとが、地図データ上に重ねて表示される。

［実施の形態１における効果］
以上のように、本実施の形態１では、地球科学データをグルーピングする分類モデルと、グループ毎に衛星データとの関係を規定する回帰モデルとが作成される。このため、本実施の形態１によれば、特異的な分布を持つ地球科学データであっても、衛星データから高精度に推定することが可能となる。

［プログラム］
本実施の形態１におけるプログラムは、コンピュータに、図４に示すステップＡ１～Ａ７、及び図５に示すステップＢ１～Ｂ７を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態１におけるデータ解析装置１０とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部１１、分類モデル作成部１２、回帰モデル作成部１３、データ推定部１４及び表示部１８として機能し、処理を行なう。

また、本実施の形態１におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部１１、分類モデル作成部１２、回帰モデル作成部１３、データ推定部１４、及び表示部１８のいずれかとして機能しても良い。

（実施形態２）
次に、本発明の実施の形態２における、データ解析装置、データ解析方法、及びプログラムについて説明する。

まず、本実施の形態２におけるデータ解析装置は、図１及び図２に示した実施の形態１におけるデータ解析装置１０と同様の構成を有している。このため、以下の説明では、図１～図３を参照する。但し、本実施の形態２におけるデータ解析装置は、分類モデル作成部１２の機能の点で、実施の形態１におけるデータ解析装置１０と異なっている。以下においては、実施の形態１との相違点を中心に説明する。

本実施の形態２においては、分類モデル作成部１２は、分類モデル１６の作成の前に、適切なグルーピングのための閾値Ｓを決定する。分類モデル作成部１２は、整列後の地球科学データの順序分布に基づき、地球科学データの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、グルーピングのための閾値Ｓを設定する。そして、分類モデル作成部１２は、設定した閾値Ｓを用いてグルーピングを行う。

上述したように、地球科学データは、種々のデータの総称であり、データの種類によって、その数値範囲は異なっている。このため、グルーピングのための閾値Ｓは、データの特徴に応じて決定する必要があり、実際地球科学データの高精度推定を実現するためには、閾値Ｓを適切に設定することは非常に重要である。

また、閾値の適切な設定が重要となる理由は、学習モデルの作成においては、特性が近い教師データ群を用いた方が、学習精度が高いためである。一方、地球科学データは、図３（ａ）に示したように、その数値は１０のマイナス数乗から１０のプラス数乗までのレンジを持ち、その分布において、殆どの領域は低数値であり、局所だけが高数値となる。また、図３（ｂ）に示したように、地球科学データを小から大の順で整列させると、最後の順位の１％の数値だけが、急激に上昇し、それ以外の約９９％のデータより、数オーダー大きく変化している。従って、数値的に大きくことなる部分を分離するため、グルーピングする際、できるだけ適切な閾値を設定し、各グループのデータ特性を揃える必要がある。

ここで、図６～図９を用いて、本実施の形態２におけるデータ解析装置の動作について説明する。図６は、本発明の実施の形態２におけるデータ解析装置の閾値設定動作を示すフロー図である。また、図６に示す各ステップは、整列部１１による図３（ａ）及び図３（ｂ）に示した処理の実行後に行われる。

図６に示すように、最初に、整列部１１は、データベース３０から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部１１は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる（ステップＣ１）。ステップＣ１は、図４に示したステップＡ１と同様のステップである。

次に、分類モデル作成部１２は、ステップＣ１で大きさの順に整列された地球科学データ（図３（ｂ）参照）、即ち、応答変数に対して、対数を取る（ステップＣ２）。具体的には、図７（ａ）及び図７（ｂ）に示すように、大きさの順に配列された地球科学データのグラフにおいて、縦軸を対数化する。図７（ａ）は、地球科学データの整列後の分布を示し、図７（ｂ）は、本発明の実施の形態２において図７（ａ）に示す分布の縦軸を対数化した状態を示している。

次に、分類モデル作成部１２は、図８に示すように、対数化された地球科学データ（総数Ｑ）の点群における中位数を特定する（ステップＣ３）。次に、分類モデル作成部１２は、図８に示すように、総数Ｑの点群の中位数の順位を特定し、特定した中位数の前後Ｎ％（合計２Ｎ％%）の点群を用いて線形回帰を実行して、近似直線を算出する（ステップＣ４）。図８は、本発明の実施の形態２において対数化された地球科学データにおける中位数及び標準偏差の一例を示す図である。

次に、分類モデル作成部１２は、図８に示すように、中位数の前後Ｎ％（合計２Ｎ％%）の点群における、ステップＣ４で算出した近似直線に対する標準偏差ＳＤを算出する（ステップＣ５）。更に、分類モデル作成部１２は、地球科学データのバンドＬ±２ＳＤを算出する（ステップＣ６）。

次に、分類モデル作成部１２は、点群の最大値から最小値に向けて順に、各データが、ステップＣ２で算出したバンドに収まるかどうかを判定する（ステップＣ７）。ステップＣ７の判定の結果、対象となっている点がバンド内に収まっていない場合は、次の点を選択し（ステップＣ８）、再度ステップＣ７を実行する。

一方、ステップＣ７の判定の結果、対象となっている点がバンド内に収まっている場合は、この最初にバンドに収まった点の値を閾値Ｓとする（ステップＣ９）。ステップＣ９によって、閾値Ｓが決定されると、分類モデル作成部１２は、閾値Ｓとなった点を境目として、グループ分けを実行する。

具体的には、分類モデル作成部１２は、図９に示すように、閾値Ｓ以下の点群をグループＬに分類し、閾値Ｓ以上の点群をグループＨに分類する。図９は、本発明の実施の形態２におけるグルーピング結果の一例を示す図である。

また、本実施の形態２においては、図８に示すステップＣ１～Ｃ９の実行後、データ解析装置において、図４に示すステップＡ３～Ａ７、及び図５に示すステップＢ１～Ｂ７が実行される。

［実施の形態２における効果］
以上のように、本実施の形態２では、組データをグルーピングするための閾値が精度良く自動的に設定される。よって、本実施の形態２によれば、精度の高い分類モデルが作成されるので、推定精度の向上が図られる。

［プログラム］
本実施の形態２におけるプログラムは、コンピュータに、図６に示すステップＣ１～Ｃ１０、図４に示すステップＡ３～Ａ７、及び図５に示すステップＢ１～Ｂ７を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態２におけるデータ解析装置１０とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部１１、分類モデル作成部１２、回帰モデル作成部１３、データ推定部１４、及び表示部１８として機能し、処理を行なう。

また、本実施の形態２におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部１１、分類モデル作成部１２、回帰モデル作成部１３、データ推定部１４、及び表示部１８のいずれかとして機能しても良い。

（実施の形態３）
次に、本発明の実施の形態３における、データ解析装置、データ解析方法、及びプログラムについて説明する。

まず、本実施の形態３におけるデータ解析装置も、図１及び図２に示した実施の形態１におけるデータ解析装置１０と同様の構成を有している。このため、以下の説明では、図１～図３を参照する。但し、本実施の形態３におけるデータ解析装置は、分類モデル作成部１２及び回帰モデル作成部１３の機能の点で、実施の形態１及び２におけるデータ解析装置１０と異なっている。以下においては、実施の形態１及び２との相違点を中心に説明する。

本実施の形態３では、分類モデル作成部１２は、複数の閾値Ｓを設定し、設定した閾値毎に、グルーピングを行って、分類モデル１６を作成する。そして、分類モデル作成部１２は、回帰モデル作成部１３に、閾値Ｓ毎に、グルーピングで得られたグループそれぞれについての回帰モデル１７を作成させる。続いて、分類モデル作成部１２は、データ推定部１４に、閾値Ｓ毎に、作成された分類モデル及び回帰モデルに、衛星データのサンプルデータを適用して、特定領域以外の領域における地球科学データの推定を行わせる。その後、分類モデル作成部１２は、閾値Ｓ毎に、地球科学データの推定の結果から、作成された回帰モデル１７の性能を評価する評価指標を求める。更に、分類モデル作成部１２は、求めた閾値毎の評価指標を用いて、閾値Ｓの最適値を決定する。

つまり、本実施の形態３におけるデータ解析装置においては、推定動作に入る前に、閾値Ｓが複数回設定され、その上で、再帰的に、回帰モデル１７の作成及び交差検定によるデータの推定が実行され、回帰モデル１７を評価する評価指標が複数回求められる。そして、閾値Ｓと評価指標との関係性から、最適な閾値Ｓが決定される。地球科学データの推定精度を最大限上げるために、このフローは必要となる。

また、本実施の形態３では、評価指標としては、交差検定によって得られた決定係数Ｒ^２が用いられる。決定係数Ｒ^２は、応答変数の真値を横軸、予測値を縦軸として、両者に対応する点をプロットすることで得られるグラフの線形性を評価することによって、求められる。この決定係数Ｒ^２は、構築されたモデルにおいて、何パーセントのデータが有効に説明できたかを示す評価指標であり、１は１００％のデータが有効に説明できたことを意味し、０はこのモデルが全くデータを有効に説明できていないことを意味する。

ここで、図１０及び図１１を用いて、本実施の形態３におけるデータ解析装置の動作について説明する。図１０は、本発明の実施の形態３におけるデータ解析装置の閾値設定動作を示すフロー図である。

最初に、整列部１１は、データベース３０から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部１１は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる（ステップＤ１）。ステップＤ１は、図４に示したステップＡ１と同様のステップである。

ステップＤ１の実行後、本実施の形態３では、以下に示すように、分類モデル作成部１２と回帰モデル作成部１３とは、再帰的に処理を実行することになる。そして、この再帰的な処理の中で、整列後の分布特徴に関わらず、グルーピング基準である閾値Ｓを変化させながら、別々のパターンのグルーピングが行われる。例えば、閾値がｋパターンあるときは、以下のフローは再帰的にｋ回実行される。

次に、ステップＤ１の実行後、分類モデル作成部１２は、整列されたサンプルデータを受取、任意の閾値Ｓ_ｉ（ｉ≦ｋ）を設定し、設定した閾値Ｓ_ｉを用いて、ステップＤ１で整列されたサンプルデータのグルーピングを行う（ステップＤ２）。

次に、回帰モデル作成部１３は、ステップＤ２でグルーピングされたサンプルデータのデータ群を取得し、各サンプルデータを教師データとして、グループ毎に、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との相関関係を学習して、回帰モデル１７を作成する（ステップＤ３）。

次に、データ推定部１４は、交差検定を行い、サンプルデータの一部の衛星データを、各グループの回帰モデル１７に適用して、グループ毎に地球科学データの予測値を取得する（ステップＤ４）。

次に、回帰モデル作成部１３は、ステップＤ４で得られたグループ毎の予測値をまとめ、まとめた各予測値と、予め用意されたサンプルデータの真値との対応関係を求め、求めた対応関係に基づいて、決定係数Ｒ_ｉ ^２を算出する（ステップＤ５）。

次に、分類モデル作成部１２は、既に設定された閾値Ｓの数ｉがｋより大きいかどうかを判定する（ステップＤ６）。ステップＤ６の判定の結果、既に設定された閾値Ｓの数ｉがｋより大きくない場合は、分類モデル作成部１２は、再度ステップＤ２を実行する。

一方、ステップＣ６の判定の結果、既に設定された閾値Ｓの数ｉがｋより大きい場合は、再帰的な処理は終了するので、分類モデル作成部１２は、ステップＤ５で算出した各決定係数Ｒ_ｉ ^２とステップＤ２で設定した各閾値Ｓ_ｉとの関係をフィッティングによって求める（ステップＤ７）。

次に、分類モデル作成部１２は、図１１に示すように、フィッティングによって得られた曲線から決定係数Ｒ_ｉ ^２が最大値となる分割点を検出し、検出した分割点を基準にして、最適な閾値Ｓ_０を特定する（ステップＤ８）。図１１は、本発明の実施の形態３において行われる決定係数と閾値とのフィッティングの一例を示す図である。

図１１に示すように、最適な閾値Ｓ_０を特定するため、縦軸の座標を決定係数Ｒ_ｉ ^２、横軸の座標を閾値Ｓ_ｉとする、ｋ個の点に対して、フィッティングが行われ、曲線が求められる。このとき、決定係数Ｒ_ｉ ^２の最大値を求める必要があるため、曲線は、少なくとも２次関数である必要があるので、ｋは３以上が必要となる。曲線を求めることができれば、決定係数Ｒ_ｉ ^２の最大値が求まるので、最適な閾値Ｓ_０も特定される。

また、本実施の形態３では、図１０に示すステップＤ１～Ｄ８が実行され、閾値Ｓ_０が特定されると、データ解析装置において、図４に示すステップＡ３～Ａ７、及び図５に示すステップＢ１～Ｂ７が実行される。

［実施の形態３における効果］
以上のように、本実施の形態３でも、実施の形態２と同様に、組データをグルーピングするための閾値が精度良く自動的に設定される。よって、本実施の形態３による場合も、精度の高い分類モデルが作成されるので、推定精度の向上が図られる。

［プログラム］
本実施の形態３におけるプログラムは、コンピュータに、図１０に示すステップＤ１～Ｄ８、図４に示すステップＡ３～Ａ７、及び図５に示すステップＢ１～Ｂ７を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態３におけるデータ解析装置とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部１１、分類モデル作成部１２、回帰モデル作成部１３、データ推定部１４、及び表示部１８として機能し、処理を行なう。

また、本実施の形態３におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部１１、分類モデル作成部１２、回帰モデル作成部１３、データ推定部１４及び表示部１８のいずれかとして機能しても良い。

（物理構成）
ここで、実施の形態１～３におけるプログラムを実行することによって、データ解析装置を実現するコンピュータについて図１２を用いて説明する。図１２は、本発明の実施の形態１～３におけるデータ解析装置を実現するコンピュータの一例を示すブロック図である。

図１２に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。また、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていても良い。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

なお、本実施の形態１～３におけるデータ解析装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、データ解析装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

続いて、実施の形態１～３におけるデータ解析装置の実施例について、図１３～図１７を用いて説明する。図１３は、本発明の実施例で用いられる特定の地点のサンプルデータの一例を示す図である。図１４は、本発明の実施例で用いられる衛星データの一例を示す図である。具体的には、図１４（ａ）は、赤外領域の光の反射率の分布を示し、図１４（ｂ）は標高データを示し、図１４（ｃ）は地磁気測定データを示している。

図１５は、本発明の実施例で用いられるサンプルデータのデータ群の一例を示す図である。図１６は、地球科学データが取得されている特定領域とそれ以外の領域との一例を示す図である。図１７は、予測値と真値との関係を示す図であり、図１７（ａ）は従来からの手法が用いられた場合を示し、図１７（ｂ）は本発明が用いられた場合を示している。

まず、図１５に示すように、本実施例では、データベース３０は、複数のサンプルデータを登録している。そして、図１３に示すように、サンプルデータは、地点（緯度及び経度）と、それに対応する地球科学データと衛星データとを含む。図１３の例では、地球科学データは、単位面積当たりの銅の含有量（ppm）を含み、衛星データは、特定波長の光の反射率（Asterバンドデータ Band 1、AsterバンドデータBand 14、Asterバンド逆数データ Band 1^-1）、標高値、及び傾斜値を含む。また、図１４（ａ）～（ｃ）に示すように、衛星データは、広範な範囲において取得されている。

また、図１６に示すように、データベース３０に登録されている複数のサンプルデータの中には、地球科学データ（銅の含有量）が欠損しているものがある。つまり、図１６に示すように、特定領域上であっても、地球科学データが取得されていない地点が存在している。言い換えると、白点の地点では地球科学データとして銅の含有量が取得されているが、白点が無い地点では銅の含有量は取得されていない。このため、データ推定部１４は、分類モデル１６および回帰モデル１７を用いて、地球科学データの値が欠損している特定領域のサンプルデータにおいて、地球科学データの値を推定する。

データ推定部１４による推定の結果は、図１７（ａ）に示す通りである。図１７（ａ）に示すように、従来からの手法（特許文献２参照）の推定手法を用いれば、その決定係数Ｒ^２は、わずか０．０６である。これに対して、本発明の手法を用いれば、その決定係数Ｒ^２は０．５６まで上昇する。

すなわち、従来の推定手法により作成した回帰モデルでは、６％のデータしか有効に説明できないが、本発明の推定手法により作成した回帰モデルでは、５６％のデータが有効に説明できる。

また、図１７（ａ）及び（ｂ）においては、推定値と真値との偏差を説明するために、二乗平均平方根誤差（ＲＭＳＥ：Root Mean Squared Error）が指標として利用されている。図１７（ａ）に示すように、従来の推定方法によって作成された回帰モデルを用いた推定結果では、ＲＭＳＥは３１８である。これに対して、図１７（ｂ）に示すように、本発明の推定手法では、ＲＭＳＥは２３４まで降下している。つまり、本発明の推定手法を用いれば、ある領域で取得された地球科学データを用いて、他の領域の地球科学データを高精度に推定することができる。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記２１）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、整列部と、
前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成部と、
前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部と、
を備えている、ことを特徴とするデータ解析装置。

（付記２）
付記１に記載のデータ解析装置であって、
前記特定領域以外の領域における前記第２のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第１のデータを推定する、データ推定部を、更に備えている、
ことを特徴とするデータ解析装置。

（付記３）
付記１または２に記載のデータ解析装置であって、
前記分類モデル作成部が、整列後の前記第１のデータの順序分布に基づき、前記第１のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析装置。

（付記４）
付記３に記載のデータ解析装置であって、
前記分類モデル作成部が、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
前記回帰モデル作成部に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
前記データ推定部に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第２のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第１のデータの推定を行わせ、
その後、複数の前記閾値それぞれ毎に、前記第１のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析装置。

（付記５）
付記２に記載のデータ解析装置であって、
前記特定領域における第１のデータと、推定された前記特定領域以外の領域における前記第１のデータとを、画面上に重ねて表示する、表示部を、更に備えている、
ことを特徴とするデータ解析装置。

（付記６）
付記１～５のいずれかに記載のデータ解析装置であって、
前記整列部が、前記第１のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第２のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析装置。

（付記７）
付記６に記載のデータ解析装置であって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析装置。

（付記８）
（ａ）特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、ステップと、
（ｂ）前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
（ｃ）前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、ステップと、
を有する、ことを特徴とするデータ解析方法。

（付記９）
付記８に記載のデータ解析方法であって、
（ｄ）前記特定領域以外の領域における前記第２のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第１のデータを推定する、ステップを、更に有する、
ことを特徴とするデータ解析方法。

（付記１０）
付記８または９に記載のデータ解析方法であって、
前記（ｂ）のステップにおいて、整列後の前記第１のデータの順序分布に基づき、前記第１のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析方法。

（付記１１）
付記１０に記載のデータ解析方法であって、
前記（ｂ）のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第２のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第１のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第１のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析方法。

（付記１２）
付記９に記載のデータ解析方法であって、
（ｅ）前記特定領域における第１のデータと、推定された前記特定領域以外の領域における前記第１のデータとを、画面上に重ねて表示する、ステップを、更に有する、
ことを特徴とするデータ解析方法。

（付記１３）
付記８～１２のいずれかに記載のデータ解析方法であって、
前記（ａ）のステップにおいて、前記第１のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第２のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析方法。

（付記１４）
付記１３に記載のデータ解析方法であって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析方法。

（付記１５）
コンピュータに、
（ａ）特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、ステップと、
（ｂ）前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
（ｃ）前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる、プログラム。

（付記１６）
付記１５に記載のプログラムであって、
前記コンピュータに、
（ｄ）前記特定領域以外の領域における前記第２のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第１のデータを推定する、ステップを更に実行させる、
ことを特徴とするプログラム。

（付記１７）
付記１５または１６に記載のプログラムであって、
前記（ｂ）のステップにおいて、整列後の前記第１のデータの順序分布に基づき、前記第１のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするプログラム。

（付記１８）
付記１７に記載のプログラムであって、
前記（ｂ）のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第２のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第１のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第１のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするプログラム。

（付記１９）
付記１６に記載のプログラムであって、
前記コンピュータに、
（ｅ）前記特定領域における第１のデータと、推定された前記特定領域以外の領域における前記第１のデータとを、画面上に重ねて表示する、ステップを更に実行させる、
ことを特徴とするプログラム。

（付記２０）
付記１５～１９のいずれかに記載のプログラムであって、
前記（ａ）のステップにおいて、前記第１のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第２のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするプログラム。

（付記２１）
付記２０に記載のプログラムであって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするプログラム。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

以上のように、本発明によれば、ある領域で取得された地球科学データを用いて、他の領域の地球科学データを推定することができる。本発明は、例えば、鉱物資源の採掘、地盤調査、植生調査、農地の評価、農作物の成長評価、自然災害の予測等に有用である。

１０データ解析装置
１１整列部
１２分類モデル作成部
１３回帰モデル作成部
１４データ推定部
１５記憶部
１６分類モデル
１７回帰モデル
１８表示部
３０データベース
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、整列手段と、
前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成手段と、
前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、回帰モデル作成手段と、
を備えている、ことを特徴とするデータ解析装置。
請求項１に記載のデータ解析装置であって、
前記特定領域以外の領域における前記第２のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第１のデータを推定する、データ推定手段を、更に備えている、
ことを特徴とするデータ解析装置。
請求項２に記載のデータ解析装置であって、
前記分類モデル作成手段が、整列後の前記第１のデータの順序分布に基づき、前記第１のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析装置。
請求項３に記載のデータ解析装置であって、
前記分類モデル作成手段が、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
前記回帰モデル作成手段に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
前記データ推定手段に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第２のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第１のデータの推定を行わせ、
その後、複数の前記閾値それぞれ毎に、前記第１のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析装置。
請求項２に記載のデータ解析装置であって、
前記特定領域における第１のデータと、推定された前記特定領域以外の領域における前記第１のデータとを、画面上に重ねて表示する、表示手段を、更に備えている、
ことを特徴とするデータ解析装置。
請求項１～５のいずれかに記載のデータ解析装置であって、
前記整列手段が、前記第１のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第２のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析装置。
請求項６に記載のデータ解析装置であって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析装置。
（ａ）特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させ、
（ｂ）前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成し、
（ｃ）前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、
ことを特徴とするデータ解析方法。
コンピュータに、
（ａ）特定領域の特性を示す第１のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第２のデータとの、組データを取得し、前記第１のデータをその大きさの順に整列させる、ステップと、
（ｂ）前記組データのデータ群に対して、整列後の前記第１のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
（ｃ）前記グループ毎に、前記組データを構成する前記第１のデータを応答変数とし、同じ前記組データを構成する前記第２のデータを説明変数として、機械学習を行って、前記第１のデータと前記第２のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる、プログラム。