JP7235111B2 - データ解析装置、データ解析方法、及びプログラム - Google Patents

データ解析装置、データ解析方法、及びプログラム Download PDF

Info

Publication number
JP7235111B2
JP7235111B2 JP2021528631A JP2021528631A JP7235111B2 JP 7235111 B2 JP7235111 B2 JP 7235111B2 JP 2021528631 A JP2021528631 A JP 2021528631A JP 2021528631 A JP2021528631 A JP 2021528631A JP 7235111 B2 JP7235111 B2 JP 7235111B2
Authority
JP
Japan
Prior art keywords
data
group
analysis device
classification model
specific region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021528631A
Other languages
English (en)
Other versions
JPWO2020255413A1 (ja
JPWO2020255413A5 (ja
Inventor
晨暉 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020255413A1 publication Critical patent/JPWO2020255413A1/ja
Publication of JPWO2020255413A5 publication Critical patent/JPWO2020255413A5/ja
Application granted granted Critical
Publication of JP7235111B2 publication Critical patent/JP7235111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V20/00Geomodelling in general
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V9/00Prospecting or detecting by methods not provided for in groups G01V1/00 - G01V8/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Geophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特定領域の特性、例えば、地表に存在する物質の含有量等を示す地球科学データを解析するための、データ解析装置、及びデータ解析方法に関し、更には、これらを実現するためのプログラムに関する。
地球科学データは、それが取得された箇所における、地質、岩石成分、植生等の特性を表すデータである。具体的には、地球科学データとしては、地球科学データ、土壌水分含有量、土壌元素含有量、バイオマス量、鉱物資源埋蔵量、森林湿度分布等が挙げられる。但し、地球科学データにおいては、人力、財力、設備の制限により、広域に渡って取得することが難しい場合があり、地図上では、欠損データが多数存在する。
従って、広域の地球科学データを獲得するためには、その欠損データを補間する必要がある。すなわち、未知領域の地球科学データを取得する必要がある。このため、従来から、特定のエリアで取得された地球科学データを用いて、地球科学データが取得されていない箇所の特性を推測することが行なわれている。
例えば、特許文献1は、複数箇所で取得されたボーリングデータを用いて、ボーリングが行なわれていない箇所の地層分布及び地質性状を推定する地盤推定方法を開示している。具体的には、特許文献1に開示された地盤推定方法では、まず、各ボーリングデータが含む各地層に関する地質特性値に基づいて、推定対象となるエリアの地層毎に、地質特性値の等高線図が生成される。このとき推定対象となるエリアは、ボーリングが行なわれた箇所を含むエリアである。言い換えると、ボーリングは、推定対象となるエリアの複数箇所において行なわれている。次に、地盤推定箇所の位置を、各地層の等高線図中に照合して、そこでの地質特性値が推定される。その後、推定された各地層の地質特性値が表示される。
このように、特許文献1に開示された地盤推定方法では、推定対象となるエリアにおいて、ボーリングが行なわれていない箇所の地質特性値を推定することができる。但し、特許文献1に開示された地盤推定方法では、地質特性値の等高線図を作成する必要がある。このため、特許文献1に開示された地盤推定方法には、推定できる箇所が、ボーリングが行なわれた箇所の周辺に限られてしまうという問題がある。
これに対して、現在、地球科学データが取得されていない箇所の特性を推測する手法としては、機械学習による推定方法も多く提案されている。この推定方法では、まず、特定種類の地球科学データが取得されていない箇所の特性を推定するために、取得済みの他種類の地球科学データを学習データとして学習モデルが構築される。例えば、十数種類のリモートセンシングデータ、地磁気データ、重力データや等高線データ等が学習データとして用いられる。
そして、機械学習による推定方法では、学習データによって構築された学習モデルによって、地球科学データが取得されていない箇所における特性が推定できる。従って、機械学習による推定方法では、上記特許文献1における問題は解消できると考えられる。
ここで、機械学習による推定方法について詳細に説明する。特許文献2は、リモートセンシングデータを学習データとして機械学習を行い、機械学習によって得られたモデルを利用してバイオマスを推定する推定方法を開示している。特許文献2に開示された推定方法は、分析対象となる地域を、地図上で予め定めた所定サイズのメッシュに分割し、分割されたメッシュ毎に、実際に測定した資源情報をモデルに適用して、そのメッシュ内に存在するバイオマスを推定する。
特開2012-37427号公報 特開2004-89032号公報
ところで、このような地球科学データには、ダイナミックスケールが非常に大きいという特徴ある。このため、地球科学データにおいては、同じ指標であるにも係わらず、その数値が10のマイナス数乗から10のプラス数乗までの広い範囲にわたることがある(後述の図3(a)参照)。但し、数値が広範囲にわたったとしても、地球科学データの値は、対象となるエリアのマップ全体において、殆どの領域では低くなり、局所的に高くなるだけである。つまり、値が高い領域と値が低い領域との間の勾配は急であり、地球科学データの値が高い領域は、特異的に分布している
しかしながら、地球科学データ全体の中で、特異的に分布している領域は、有意義な情報として処理する必要があるが、上述の特許文献2に開示された機械学習による推定方法においては、このような処理が行われることはない。このため、上述の特許文献2に開示された機械学習による推定方法では、学習データとなる地球科学データの中の重要な情報が無視されるので、推定精度が低いという問題が発生している。
具体的には、特許文献2に開示された機械学習による推定方法では、値が高い領域のデータが教師データ中の応答変数として用いられる場合、データの前処理の段階で、値が高い領域のデータは、特異点として認識され、その後、除去される。又は、値が高い領域のデータは、データ量が少ないため、機械学習モデルの中で無視される。この結果、上述したように、推定精度が低いという問題が発生する。
本発明の目的の一例は、上記問題を解消し、機械学習を用いたデータの推定において、推定精度の向上を図り得る、データ解析装置、データ解析方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面におけるデータ解析装置は、
特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列部と、
前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成部と、
前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部と、
を備えている、ことを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるデータ解析方法は、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を有する、ことを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させることを特徴とする。
以上のように、本発明によれば、機械学習を用いたデータの推定において、推定精度の向上を図ることができる。
図1は、本発明の実施の形態1におけるデータ解析装置の構成を概略的に示すブロック図である。 図2は、本発明の実施の形態1におけるデータ解析装置の構成を具体的に示すブロック図である。 図3(a)は地球科学データの整列前の分布を示し、図3(b)は地球科学データの整列後の分布を示している。図3(b)に示す分布が順序分布である。 図4は、本発明の実施の形態1におけるデータ解析装置のキャリブレーション動作を示すフロー図である。 図5は、本発明の実施の形態1におけるデータ解析装置の推定動作を示すフロー図である。 図6は、本発明の実施の形態2におけるデータ解析装置の閾値設定動作を示すフロー図である。 図7(a)は、地球科学データの整列後の分布を示し、図7(b)は、本発明の実施の形態2において図7(a)に示す分布の縦軸を対数化した状態を示している。 図8は、本発明の実施の形態において対数化された地球科学データにおける中位数及び標準偏差の一例を示す図である。 図9は、本発明の実施の形態2におけるグルーピング結果の一例を示す図である。 図10は、本発明の実施の形態3におけるデータ解析装置の閾値設定動作を示すフロー図である。 図11は、本発明の実施の形態3において行われる決定係数と閾値とのフィッティングの一例を示す図である。 図12は、本発明の実施の形態1~3におけるデータ解析装置を実現するコンピュータの一例を示すブロック図である。 図13は、本発明の実施例で用いられる特定の地点のサンプルデータの一例を示す図である。 図14は、本発明の実施例で用いられる衛星データの一例を示す図である。図14(a)は、赤外領域の光の反射率の分布を示し、図14(b)は標高データを示し、図14(c)は地磁気測定データを示している。 図15は、本発明の実施例で用いられるサンプルデータのデータ群の一例を示す図である。 図16は、地球科学データが取得されている特定領域とそれ以外の領域との一例を示す図である。 図17は、予測値と真値との関係を示す図であり、図17(a)は従来からの手法が用いられた場合を示し、図17(b)は本発明が用いられた場合を示している。
(実施の形態1)
以下、本発明の実施の形態1における、データ解析装置、データ解析方法、及びプログラムについて、図1~図5を参照しながら説明する。
[装置構成]
最初に、本実施の形態1におけるデータ解析装置の構成について説明する。図1は、本発明の実施の形態1におけるデータ解析装置の構成を概略的に示すブロック図である。
図1に示す本実施の形態1におけるデータ解析装置10は、特定領域の特性を示すデータを解析するための装置である。図1に示すように、データ解析装置10は、整列部11と、分類モデル作成部12と、回帰モデル作成部13とを備えている。
整列部11は、特定領域の特性を示す第1のデータと、第2のデータとの、組データを取得し、第1のデータをその大きさの順に整列させる。また、第2のデータは、第1のデータに対応し、且つ、特定領域の別の特性を示す、データである。
分類モデル作成部12は、組データのデータ群に対して、整列後の第1のデータの順序分布の特性に基づいて、グルーピングを行って、組データのデータ群を複数のグループに分類する。また、分類モデル作成部12は、分類の結果を用いて、組データを分類するための分類モデルを作成する。
回帰モデル作成部13は、グループ毎に、組データを構成する第1のデータを応答変数とし、同じ組データを構成する第2のデータを説明変数として、機械学習を行って、第1のデータと第2のデータとの関係を示す回帰モデルを作成する。
このように、本実施の形態1では、組データは、第1のデータの大きさに応じてグルーピングされ、グループ毎に、回帰モデルが作成される。このため、地球科学データのように、特異的な分布を持つデータであっても、特異的な部分が除去されたり、無視されたりすることはなく、データ全体が学習モデルに包括される。従って、本実施の形態1によれば、機械学習を用いたデータの推定において、推定精度の向上が図られる。
続いて、図2~図3を用いて、本実施の形態1におけるデータ解析装置10の構成をより具体的に説明する。図2は、本発明の実施の形態1におけるデータ解析装置の構成を具体的に示すブロック図である。
まず、本実施の形態1では、整列部11は、第1のデータとして、特定領域の特性を示す地球科学データを取得し、第2のデータとして、特定領域の別の特性を示す衛星データを取得する。ここで、地球科学データとしては、特定領域の特性として資源の存在を示すデータ、例えば、地表に存在する物質、元素の種類、成分比、含有量等を示すデータが挙げられる。具体的には、ある領域において銅の含有量の予測が求められているとすると、地球科学データとしては、特定領域の特性である単位面積当たりの銅の含有量(ppm)を示すデータが挙げられる。
また、その他の地球科学データとしては、重力値、二酸化炭素の濃度プロファイル、気温、湿度、風向、風速、気圧、全天日射、分光放射、光合成有効放射、地温、土壌水分、地流熱量、直達放射スペクトル、地盤安定性、地層年代、断層情報、地下水脈情報、植物種類の分布、蒸発散情報、鉱物産量等を示すデータも挙げられる。
また、特定の資源の探査又は存在の把握を目的とする場合は、資源の存在に関連のあるデータを用いることが好適である。例えば、地殻に存在する特定の元素の存在の把握を目的とする場合、鉱脈の存在確率の算出を目的とする場合は、地球科学データとしては、把握対象となる元素の存在比率を示すデータが挙げられる。
衛星データは、地球の上空から得られたデータであり、特定領域の特性を示すデータである。衛星データは、衛星が取得したデータ、航空機等の飛行体が取得したデータを含む。また、本実施の形態1において用いることができる衛星データとしては、取得対象の領域から反射または放射される電磁波の強度を示すデータ、特定波長の光の反射率の分布を示すデータ、地磁気を示すデータ、標高を示すデータ、標高傾斜を示すデータ等が挙げられる。
具体的には、特定波長の光の反射率の分布を示すデータとしては、アスター(ASTER: Advanced Spaceborne Thermal Emission and Reflection Radiometer)によって測定されたデータが挙げられる。アスターは、米国NASAのテラ(Terra)衛星に搭載された観測用の光学センサであり、可視から熱赤外にわたる14バンドを観測することができる。また、この14バンドは、鉱物に関する特徴的なスペクトルを捉えるのに適した波長である。なお、衛星データは上記のものに限定されずリモートセンシングによって得られたデータを含む。
また、図2に示すように、本実施の形態1では、データ解析装置10は、上述した整列部11、分類モデル作成部12及び回帰モデル作成部13に加えて、データ推定部14と、表示部18と、記憶部15とを備えている。また、データ解析装置10には、表示装置20が接続されている。更に、データ解析装置10は、ネットワーク等を介して、データベース30にも接続されている。
データベース30は、特定領域における地球科学データ及び衛星データを格納している。例えば、地球科学データが、地点毎の単位面積当たりの銅の含有量(ppm)を示すデータであり、衛星データが、特定波長の光の反射率の分布を示すデータ、標高データ、及び標高傾斜データであるとする。
この場合、データベース30は、地点(緯度及び経度)毎に、地球科学データとして、単位面積当たりの銅の含有量(ppm)を示すデータを格納し、衛星データとして、特定波長の光の反射率、標高値、及び傾斜値を格納する。また、この場合、地球科学データ及び衛星データが取得されている地点を中心とした設定範囲を重ね合わせて得られた領域を、特定領域とすることができる。
また、データベース30では、地点毎の地球科学データの値と衛星データの値とは、1つの組として互いに紐付けられる。更に、1つの組を構成する地球科学データの値と衛星データの値とは、1つのサンプルデータ(組データ)として扱われる。なお、衛星データは、地球科学データに比べて広範囲にわたって取得できるため、地球科学データが取得されている特定領域以外の領域までもカバーしていても良い。
整列部11は、本実施の形態1では、データベース30から、第1のデータと第2のデータとの組データとして、地球科学データと衛星データとの組データを取得する。そして、整列部11は、図3(a)に示す地球科学データを、図3(b)に示すように、その大きさの順に整列させる。図3(a)は地球科学データの整列前の分布を示し、図3(b)は地球科学データの整列後の分布を示している。図3(b)に示す分布が順序分布である。
更に、整列部11は、対応する地球科学データの順番に合わせて、衛星データも整列させる。なお、ここでいう整列は、並べ替えと同義である。また、整列部11は、整列させた地球科学データ及び衛星データを、分類モデル作成部12と回帰モデル作成部13とに渡す。
分類モデル作成部12は、本実施の形態1では、まず、整列部11によって整列されたサンプルデータのデータ群(複数のサンプルデータ)を受け取る。また、図3(b)に示すように、地球科学データでは、値が低い領域(以下「低数値領域」と表記する。)が殆どであり、値が高い領域(以下「高数値領域」と表記する。)は局所的に存在するのみである。このため、本実施の形態1では、分類モデル作成部12は、閾値Sに基づいて、受け取ったサンプルデータのデータ群を、高数値領域と低数値領域との2つのグループに分ける。なお、本実施の形態1において、グループ数は特に限定されるものではない。
具体的には、分類モデル作成部12は、グルーピング用のサポートベクトルマシンに、各サンプルデータを与えて、各サンプルデータが所属するグループを判定することができる。例えば、サンプルデータが、銅の含有量(ppm)と衛星データとの組データであるとする。そして、サポートベクトルマシンは、銅の含有量のデータ分布の特長を学習して、銅の含有量を2つのグループに分けるための閾値を決定し、その閾値に基づいて、サンプルデータを2つに分割する。なお、閾値は、予め設定された固定値であっても良い。
そして、分類モデル作成部12は、サンプルデータに、グループ分けに応じてラベリングを行い、ラベリング後のサンプルデータを教師データとして、機械学習を実行し、地球科学データと衛星データとの組データを分類するための分類モデル16を構築する。また、この場合に用いられる機械学習の方式としては、決定木、サポートベクトルマシン、ニューラルネットワーク、ロジスティック回帰、最近傍分類法(K-NN: k-nearest neighbor algorithm)、アンサンブル分類学習法、判別分析等が挙げられる。更に、分類モデル作成部12は、作成した分類モデル16を、記憶部15に格納させる。
また、分類モデル作成部12は、各サンプルデータを用いて、地球科学データにおける高数値領域及び低数値領域と衛星データ(特定波長の光の反射率、標高値、及び傾斜値)との関係をディープラーニングによって学習することもできる。この場合、衛星データの値に応じて、サンプルグループを決定する分類器が作成されるので、この作成された分類器を分類モデル16とすることもできる。
回帰モデル作成部13は、本実施の形態1では、まず、分類モデル作成部12によってグルーピングされたサンプルデータのデータ群を取得する。そして、回帰モデル作成部13は、取得した各サンプルデータを教師データとして機械学習を実行する。これにより、回帰モデル17が作成される。ここで用いられる機械学習の方式としても、ガウス過程回帰、決定木、サポートベクトルマシン、ニューラルネットワーク、ロジスティック回帰、最近傍分類法(K-NN: k-nearest neighbor algorithm)、アンサンブル回帰学習法、判別分析等が挙げられる。
具体的には、回帰モデル作成部13は、グループ毎に、サポートベクトルマシンに、そのグループを構成するサンプルデータを与えて、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係、例えば、銅の含有量(ppm)と、特定波長の光の反射率、標高値、及び傾斜値との関係を学習する。そして、回帰モデル作成部13は、学習の結果、例えば、特定波長の光の反射率、標高値、及び傾斜値が入力されると、入力値に応じて、銅の含有量を出力する回帰モデル17を作成する。また、この場合、サンプルデータは予めグルーピングされており、グループ毎に、回帰モデルが作成される。その後、回帰モデル作成部13は、作成した毎期モデル17も記憶部15に格納させる。なお、グループ毎の回帰モデルは、それぞれ同一の回帰モデルであっても良いし、異なる回帰モデルであっても良い。
また、回帰モデル作成部13は、各サンプルデータを用いて、ディープラーニングを行うことによって、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係を学習することもできる。この場合は、ディープラーニングよって学習されたモデルが、衛星データである特定波長の光の反射率、標高値、及び傾斜値等に応じて、銅の含有量を決定する回帰モデル17となる。
データ推定部14は、特定領域以外の領域における第2のデータを、分類モデル16及び回帰モデル17に適用して、特定領域以外の領域における第1のデータを推定する。本実施の形態1では、データ推定部14は、まず、分類モデル作成部12によって作成された分類モデル16に、特定領域以外の領域(以下「推定領域」と表記する。)における衛星データを入力して、この衛星データを複数のグループに分類する。次いで、データ推定部14は、回帰モデル作成部13によってグループ毎に作成された回帰モデルそれぞれに、対応するグループの衛星データを入力し、推定領域における地球科学データを推定する。
具体的には、データ推定部14は、まず、外部から推定領域が指定されると、指定された推定領域上から複数の地点(緯度及び経度)を選出する。次いで、データ推定部14は、データベース30に格納されている衛星データから、選出した地点に対応する、特定波長の光の反射率、標高値、及び傾斜値を特定する。更に、データ推定部14は、特定したデータを分類モデル16に適用して、これらのデータが、低数値領域と高数値領域との2つのグループのいずれに属するかを判定する。その後、データ推定部14は、衛星データを、属すると判定されたグループに対応する回帰モデル17に適用して、推定領域の銅の含有量を算出する。
表示部18は、特定領域における第1のデータと、推定された推定領域における第1のデータとを、画面上に重ねて表示する。表示部18は、本実施の形態1では、表示装置20の画面上において、特定領域における地球科学データと、推定領域における地球科学データとを、地図データ上に重ねて表示する。具体的には、例えば、地球科学データが地点毎の単位面積当たりの銅の含有量(ppm)であるとする。この場合、表示部18は、表示装置20の画面上に、銅の含有量が特定されていない地点についても、銅の含有量(予測値)を表示する。このため、データ解析装置10のユーザは、効率の良い採掘計画を策定することができる。
[装置動作]
次に、図4及び図5を用いて、本発明の実施の形態1におけるデータ解析装置10の動作について説明する。また、後述するように、本実施の形態1において、データ解析装置10は、キャリブレーション動作と推定動作とを行う。また、以下の説明においては、適宜図1~図3を参照する。また、本実施の形態1では、データ解析装置10を動作させることによって、データ解析方法が実施される。従って、本実施の形態におけるデータ解析方法の説明は、以下のデータ解析装置10の動作説明に代える。
最初に、図4を用いて、キャリブレーション動作、即ち、分類モデル及び回帰モデルの作成処理について説明する。図4は、本発明の実施の形態1におけるデータ解析装置のキャリブレーション動作を示すフロー図である。
図4に示すように、最初に、整列部11は、データベース30から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部11は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる(ステップA1)。
具体的には、ステップA1では、整列部11は、データベース30から、特定領域に含まれる地点毎に、地球科学データと衛星データとの組データを、サンプルデータとして取得し、取得した地点毎のサンプルデータのデータ群を整列させる。また、整列部11は、整列後のサンプルデータのデータ群を分類モデル作成部12に渡す。
次に、分類モデル作成部12は、地球科学データの特性に応じて一定の法則に基づいて、グルーピングのための閾値S(基準値)を決定する(ステップA2)。具体的には、ステップA2では、分類モデル作成部12は、ステップA1で整列された地点毎のサンプルデータを受け取ると、サポートベクトルマシンを用いて閾値Sを決定する。
次に、分類モデル作成部12は、ステップA2で決定した閾値Sに基づいて、ステップA1で整列された地球科学データ及び衛星データのグルーピングを行う(ステップA3)。
具体的には、ステップA3では、分類モデル作成部12は、決定した閾値Sに基づいて、サンプルデータのデータ群を、高数値領域と低数値領域との2つのグループに分ける。つまり、分類モデル作成部12は、閾値Sより大きい地球科学データ及びその地点に対応する衛星データをHグループに分類し、閾値Sより小さい地球科学データ及びその地点に対応する衛星データをLグループに分類する。なお、分類モデル作成部12は、後述の実施の形態2に示すように、地球科学データに応じて閾値Sを決定することもできる。
次に、分類モデル作成部12は、ステップA3のグルーピング結果を用いて、組データを分類する分類モデル16(C1)を作成する(ステップA4)。
具体的には、分類モデル作成部12は、グルーピングされたサンプルデータの衛星データにラベルを付与し、サンプルデータの衛星データとそれに付与されたラベルとでデータセットを構成する。次いで、分類モデル作成部12は、このデータセットを教師データとして、分類学習を実行し、それによって、地球科学データと衛星データとの組データを分類するための分類モデルを構築する。
次に、分類モデル作成部12は、ステップA4で作成した分類モデル16(分類モデルC1)を記憶部15に格納する(ステップA5)。
次に、回帰モデル作成部13は、ステップA2でグルーピングされたサンプルデータのデータ群を取得し、各サンプルデータを教師データとして、グループ毎に、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との相関関係を学習して、回帰モデル17を作成する(ステップA6)。また、ステップA6は、ステップA3でサンプルデータがグルーピングされた後であれば、分類モデル作成部12による分類モデル16の作成と同時に実行されても良い。
具体的には、回帰モデル作成部13は、ステップA2でグルーピングされた地点毎のサンプルデータを取得し、取得した各サンプルデータを教師データとして、グループ毎に回帰学習を実行し、それによって、回帰モデル17を作成する。また、回帰モデル作成部13は、グループ毎に回帰モデルを作成しており、即ち、Hグループについて回帰モデルR1を作成し、Lグループについて回帰モデルR2を作成する。
その後、回帰モデル作成部13は、ステップA6で作成した回帰モデル17(回帰モデルR1及びR2)を記憶部15に格納する(ステップA7)。ステップA7の実行により、キャリブレーション動作は終了する。
続いて、図5を用いて、推定動作、即ち、分類モデル16及び回帰モデル17を用いた推定処理について説明する。図5は、本発明の実施の形態1におけるデータ解析装置の推定動作を示すフロー図である。
図5に示すように、最初に、データ推定部14は、外部からの推定領域の指定を受け付ける(ステップB1)。次に、データ推定部14は、受け付けた推定領域から、複数の地点(緯度及び経度)を選出し、データベース30から、選出した地点の衛星データを取得する(ステップB2)。
次に、データ推定部14は、ステップB2で取得した衛星データを、分類モデル16(C1)に入力して、この衛星データをグルーピングする(ステップB3)。次いで、データ推定部14は、ステップB1のグルーピング結果に基づいて、ステップB2で取得された衛星データにラベルを付与する(ステップB4)。
具体的には、ステップB3におけるグルーピングにより、ステップB1で指定された推定領域が、Hグループ及びLグループのいずれに属するかを判定できるので、データ推定部14、判定結果に基づいて、ステップB2で取得された衛星データに、ラベルとして、「H」又は「L」を付与する。
次に、データ推定部14は、ステップB4でラベルが付与された衛星データを、そのラベルが対応する回帰モデル17に適用して、推定領域における地球科学データを推定する(ステップB5)。例えば、衛星データに付与されたラベルがHである場合は、データ推定部14は、衛星データを回帰モデルR1に適用する。一方、衛星データに付与されたラベルがLである場合は、データ推定部14は、衛星データを回帰モデルR2に適用する。
次に、データ推定部14は、ステップB5の結果を、その地点の経度及び緯度に基づいて、地図データ上で、既に取得されている他の領域における地球科学データに合体させて、地球科学データが付加された地図データを構築する(ステップB6)。また、データ推定部14は、構築した地図データを表示部18に出力する。
次に、表示部18は、出力されてきた地図データを受取、表示装置20の画面上において、ステップB6で構築された地図データを表示する(ステップB7)。これにより、画面上には、推定領域における地球科学データと、推定領域以外の領域(特定領域を含む)における地球科学データとが、地図データ上に重ねて表示される。
[実施の形態1における効果]
以上のように、本実施の形態1では、地球科学データをグルーピングする分類モデルと、グループ毎に衛星データとの関係を規定する回帰モデルとが作成される。このため、本実施の形態1によれば、特異的な分布を持つ地球科学データであっても、衛星データから高精度に推定することが可能となる。
[プログラム]
本実施の形態1におけるプログラムは、コンピュータに、図4に示すステップA1~A7、及び図5に示すステップB1~B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1におけるデータ解析装置10とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14及び表示部18として機能し、処理を行なう。
また、本実施の形態1におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18のいずれかとして機能しても良い。
(実施形態2)
次に、本発明の実施の形態2における、データ解析装置、データ解析方法、及びプログラムについて説明する。
まず、本実施の形態2におけるデータ解析装置は、図1及び図2に示した実施の形態1におけるデータ解析装置10と同様の構成を有している。このため、以下の説明では、図1~図3を参照する。但し、本実施の形態2におけるデータ解析装置は、分類モデル作成部12の機能の点で、実施の形態1におけるデータ解析装置10と異なっている。以下においては、実施の形態1との相違点を中心に説明する。
本実施の形態2においては、分類モデル作成部12は、分類モデル16の作成の前に、適切なグルーピングのための閾値Sを決定する。分類モデル作成部12は、整列後の地球科学データの順序分布に基づき、地球科学データの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、グルーピングのための閾値Sを設定する。そして、分類モデル作成部12は、設定した閾値Sを用いてグルーピングを行う。
上述したように、地球科学データは、種々のデータの総称であり、データの種類によって、その数値範囲は異なっている。このため、グルーピングのための閾値Sは、データの特徴に応じて決定する必要があり、実際地球科学データの高精度推定を実現するためには、閾値Sを適切に設定することは非常に重要である。
また、閾値の適切な設定が重要となる理由は、学習モデルの作成においては、特性が近い教師データ群を用いた方が、学習精度が高いためである。一方、地球科学データは、図3(a)に示したように、その数値は10のマイナス数乗から10のプラス数乗までのレンジを持ち、その分布において、殆どの領域は低数値であり、局所だけが高数値となる。また、図3(b)に示したように、地球科学データを小から大の順で整列させると、最後の順位の1%の数値だけが、急激に上昇し、それ以外の約99%のデータより、数オーダー大きく変化している。従って、数値的に大きくことなる部分を分離するため、グルーピングする際、できるだけ適切な閾値を設定し、各グループのデータ特性を揃える必要がある。
ここで、図6~図9を用いて、本実施の形態2におけるデータ解析装置の動作について説明する。図6は、本発明の実施の形態2におけるデータ解析装置の閾値設定動作を示すフロー図である。また、図6に示す各ステップは、整列部11による図3(a)及び図3(b)に示した処理の実行後に行われる。
図6に示すように、最初に、整列部11は、データベース30から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部11は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる(ステップC1)。ステップC1は、図4に示したステップA1と同様のステップである。
次に、分類モデル作成部12は、ステップC1で大きさの順に整列された地球科学データ(図3(b)参照)、即ち、応答変数に対して、対数を取る(ステップC2)。具体的には、図7(a)及び図7(b)に示すように、大きさの順に配列された地球科学データのグラフにおいて、縦軸を対数化する。図7(a)は、地球科学データの整列後の分布を示し、図7(b)は、本発明の実施の形態2において図7(a)に示す分布の縦軸を対数化した状態を示している。
次に、分類モデル作成部12は、図8に示すように、対数化された地球科学データ(総数Q)の点群における中位数を特定する(ステップC3)。次に、分類モデル作成部12は、図8に示すように、総数Qの点群の中位数の順位を特定し、特定した中位数の前後N%(合計2N%%)の点群を用いて線形回帰を実行して、近似直線を算出する(ステップC4)。図8は、本発明の実施の形態2において対数化された地球科学データにおける中位数及び標準偏差の一例を示す図である。
次に、分類モデル作成部12は、図8に示すように、中位数の前後N%(合計2N%%)の点群における、ステップC4で算出した近似直線に対する標準偏差SDを算出する(ステップC5)。更に、分類モデル作成部12は、地球科学データのバンドL±2SDを算出する(ステップC6)。
次に、分類モデル作成部12は、点群の最大値から最小値に向けて順に、各データが、ステップC2で算出したバンドに収まるかどうかを判定する(ステップC7)。ステップC7の判定の結果、対象となっている点がバンド内に収まっていない場合は、次の点を選択し(ステップC8)、再度ステップC7を実行する。
一方、ステップC7の判定の結果、対象となっている点がバンド内に収まっている場合は、この最初にバンドに収まった点の値を閾値Sとする(ステップC9)。ステップC9によって、閾値Sが決定されると、分類モデル作成部12は、閾値Sとなった点を境目として、グループ分けを実行する。
具体的には、分類モデル作成部12は、図9に示すように、閾値S以下の点群をグループLに分類し、閾値S以上の点群をグループHに分類する。図9は、本発明の実施の形態2におけるグルーピング結果の一例を示す図である。
また、本実施の形態2においては、図8に示すステップC1~C9の実行後、データ解析装置において、図4に示すステップA3~A7、及び図5に示すステップB1~B7が実行される。
[実施の形態2における効果]
以上のように、本実施の形態2では、組データをグルーピングするための閾値が精度良く自動的に設定される。よって、本実施の形態2によれば、精度の高い分類モデルが作成されるので、推定精度の向上が図られる。
[プログラム]
本実施の形態2におけるプログラムは、コンピュータに、図6に示すステップC1~C10、図4に示すステップA3~A7、及び図5に示すステップB1~B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるデータ解析装置10とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18として機能し、処理を行なう。
また、本実施の形態2におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18のいずれかとして機能しても良い。
(実施の形態3)
次に、本発明の実施の形態3における、データ解析装置、データ解析方法、及びプログラムについて説明する。
まず、本実施の形態3におけるデータ解析装置も、図1及び図2に示した実施の形態1におけるデータ解析装置10と同様の構成を有している。このため、以下の説明では、図1~図3を参照する。但し、本実施の形態3におけるデータ解析装置は、分類モデル作成部12及び回帰モデル作成部13の機能の点で、実施の形態1及び2におけるデータ解析装置10と異なっている。以下においては、実施の形態1及び2との相違点を中心に説明する。
本実施の形態3では、分類モデル作成部12は、複数の閾値Sを設定し、設定した閾値毎に、グルーピングを行って、分類モデル16を作成する。そして、分類モデル作成部12は、回帰モデル作成部13に、閾値S毎に、グルーピングで得られたグループそれぞれについての回帰モデル17を作成させる。続いて、分類モデル作成部12は、データ推定部14に、閾値S毎に、作成された分類モデル及び回帰モデルに、衛星データのサンプルデータを適用して、特定領域以外の領域における地球科学データの推定を行わせる。その後、分類モデル作成部12は、閾値S毎に、地球科学データの推定の結果から、作成された回帰モデル17の性能を評価する評価指標を求める。更に、分類モデル作成部12は、求めた閾値毎の評価指標を用いて、閾値Sの最適値を決定する。
つまり、本実施の形態3におけるデータ解析装置においては、推定動作に入る前に、閾値Sが複数回設定され、その上で、再帰的に、回帰モデル17の作成及び交差検定によるデータの推定が実行され、回帰モデル17を評価する評価指標が複数回求められる。そして、閾値Sと評価指標との関係性から、最適な閾値Sが決定される。地球科学データの推定精度を最大限上げるために、このフローは必要となる。
また、本実施の形態3では、評価指標としては、交差検定によって得られた決定係数Rが用いられる。決定係数Rは、応答変数の真値を横軸、予測値を縦軸として、両者に対応する点をプロットすることで得られるグラフの線形性を評価することによって、求められる。この決定係数Rは、構築されたモデルにおいて、何パーセントのデータが有効に説明できたかを示す評価指標であり、1は100%のデータが有効に説明できたことを意味し、0はこのモデルが全くデータを有効に説明できていないことを意味する。
ここで、図10及び図11を用いて、本実施の形態3におけるデータ解析装置の動作について説明する。図10は、本発明の実施の形態3におけるデータ解析装置の閾値設定動作を示すフロー図である。
最初に、整列部11は、データベース30から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部11は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる(ステップD1)。ステップD1は、図4に示したステップA1と同様のステップである。
ステップD1の実行後、本実施の形態3では、以下に示すように、分類モデル作成部12と回帰モデル作成部13とは、再帰的に処理を実行することになる。そして、この再帰的な処理の中で、整列後の分布特徴に関わらず、グルーピング基準である閾値Sを変化させながら、別々のパターンのグルーピングが行われる。例えば、閾値がkパターンあるときは、以下のフローは再帰的にk回実行される。
次に、ステップD1の実行後、分類モデル作成部12は、整列されたサンプルデータを受取、任意の閾値S(i≦k)を設定し、設定した閾値Sを用いて、ステップD1で整列されたサンプルデータのグルーピングを行う(ステップD2)。
次に、回帰モデル作成部13は、ステップD2でグルーピングされたサンプルデータのデータ群を取得し、各サンプルデータを教師データとして、グループ毎に、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との相関関係を学習して、回帰モデル17を作成する(ステップD3)。
次に、データ推定部14は、交差検定を行い、サンプルデータの一部の衛星データを、各グループの回帰モデル17に適用して、グループ毎に地球科学データの予測値を取得する(ステップD4)。
次に、回帰モデル作成部13は、ステップD4で得られたグループ毎の予測値をまとめ、まとめた各予測値と、予め用意されたサンプルデータの真値との対応関係を求め、求めた対応関係に基づいて、決定係数R を算出する(ステップD5)。
次に、分類モデル作成部12は、既に設定された閾値Sの数iがkより大きいかどうかを判定する(ステップ6)。ステップ6の判定の結果、既に設定された閾値Sの数iがkより大きくない場合は、分類モデル作成部12は、再度ステップD2を実行する。
一方、ステップC6の判定の結果、既に設定された閾値Sの数iがkより大きい場合は、再帰的な処理は終了するので、分類モデル作成部12は、ステップD5で算出した各決定係数R とステップD2で設定した各閾値Sとの関係をフィッティングによって求める(ステップD7)。
次に、分類モデル作成部12は、図11に示すように、フィッティングによって得られた曲線から決定係数R が最大値となる分割点を検出し、検出した分割点を基準にして、最適な閾値Sを特定する(ステップD8)。図11は、本発明の実施の形態3において行われる決定係数と閾値とのフィッティングの一例を示す図である。
図11に示すように、最適な閾値Sを特定するため、縦軸の座標を決定係数R 、横軸の座標を閾値Sとする、k個の点に対して、フィッティングが行われ、曲線が求められる。このとき、決定係数R の最大値を求める必要があるため、曲線は、少なくとも2次関数である必要があるので、kは3以上が必要となる。曲線を求めることができれば、決定係数R の最大値が求まるので、最適な閾値Sも特定される。
また、本実施の形態3では、図10に示すステップD1~D8が実行され、閾値Sが特定されると、データ解析装置において、図4に示すステップA3~A7、及び図5に示すステップB1~B7が実行される。
[実施の形態3における効果]
以上のように、本実施の形態3でも、実施の形態2と同様に、組データをグルーピングするための閾値が精度良く自動的に設定される。よって、本実施の形態3による場合も、精度の高い分類モデルが作成されるので、推定精度の向上が図られる。
[プログラム]
本実施の形態3におけるプログラムは、コンピュータに、図10に示すステップD1~D8、図4に示すステップA3~A7、及び図5に示すステップB1~B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態3におけるデータ解析装置とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18として機能し、処理を行なう。
また、本実施の形態3におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14及び表示部18のいずれかとして機能しても良い。
(物理構成)
ここで、実施の形態1~3におけるプログラムを実行することによって、データ解析装置を実現するコンピュータについて図12を用いて説明する。図12は、本発明の実施の形態1~3におけるデータ解析装置を実現するコンピュータの一例を示すブロック図である。
図12に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
なお、本実施の形態1~3におけるデータ解析装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、データ解析装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
続いて、実施の形態1~3におけるデータ解析装置の実施例について、図13~図17を用いて説明する。図13は、本発明の実施例で用いられる特定の地点のサンプルデータの一例を示す図である。図14は、本発明の実施例で用いられる衛星データの一例を示す図である。具体的には、図14(a)は、赤外領域の光の反射率の分布を示し、図14(b)は標高データを示し、図14(c)は地磁気測定データを示している。
図15は、本発明の実施例で用いられるサンプルデータのデータ群の一例を示す図である。図16は、地球科学データが取得されている特定領域とそれ以外の領域との一例を示す図である。図17は、予測値と真値との関係を示す図であり、図17(a)は従来からの手法が用いられた場合を示し、図17(b)は本発明が用いられた場合を示している。
まず、図15に示すように、本実施例では、データベース30は、複数のサンプルデータを登録している。そして、図13に示すように、サンプルデータは、地点(緯度及び経度)と、それに対応する地球科学データと衛星データとを含む。図13の例では、地球科学データは、単位面積当たりの銅の含有量(ppm)を含み、衛星データは、特定波長の光の反射率(Asterバンドデータ Band 1、AsterバンドデータBand 14、Asterバンド逆数データ Band 1^-1)、標高値、及び傾斜値を含む。また、図14(a)~(c)に示すように、衛星データは、広範な範囲において取得されている。
また、図16に示すように、データベース30に登録されている複数のサンプルデータの中には、地球科学データ(銅の含有量)が欠損しているものがある。つまり、図16に示すように、特定領域上であっても、地球科学データが取得されていない地点が存在している。言い換えると、白点の地点では地球科学データとして銅の含有量が取得されているが、白点が無い地点では銅の含有量は取得されていない。このため、データ推定部14は、分類モデル16および回帰モデル17を用いて、地球科学データの値が欠損している特定領域のサンプルデータにおいて、地球科学データの値を推定する。
データ推定部14による推定の結果は、図17(a)に示す通りである。図17(a)に示すように、従来からの手法(特許文献2参照)の推定手法を用いれば、その決定係数Rは、わずか0.06である。これに対して、本発明の手法を用いれば、その決定係数Rは0.56まで上昇する。
すなわち、従来の推定手法により作成した回帰モデルでは、6%のデータしか有効に説明できないが、本発明の推定手法により作成した回帰モデルでは、56%のデータが有効に説明できる。
また、図17(a)及び(b)においては、推定値と真値との偏差を説明するために、二乗平均平方根誤差(RMSE:Root Mean Squared Error)が指標として利用されている。図17(a)に示すように、従来の推定方法によって作成された回帰モデルを用いた推定結果では、RMSEは318である。これに対して、図17(b)に示すように、本発明の推定手法では、RMSEは234まで降下している。つまり、本発明の推定手法を用いれば、ある領域で取得された地球科学データを用いて、他の領域の地球科学データを高精度に推定することができる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記21)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列部と、
前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成部と、
前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部と、
を備えている、ことを特徴とするデータ解析装置。
(付記2)
付記1に記載のデータ解析装置であって、
前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、データ推定部を、更に備えている、
ことを特徴とするデータ解析装置。
(付記3)
付記1または2に記載のデータ解析装置であって、
前記分類モデル作成部が、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析装置。
(付記4)
付記3に記載のデータ解析装置であって、
前記分類モデル作成部が、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
前記回帰モデル作成部に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
前記データ推定部に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行わせ、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析装置。
(付記5)
付記2に記載のデータ解析装置であって、
前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、表示部を、更に備えている、
ことを特徴とするデータ解析装置。
(付記6)
付記1~5のいずれかに記載のデータ解析装置であって、
前記整列部が、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析装置。
(付記7)
付記6に記載のデータ解析装置であって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析装置。
(付記8)
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を有する、ことを特徴とするデータ解析方法。
(付記9)
付記8に記載のデータ解析方法であって、
(d)前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、ステップを、更に有する、
ことを特徴とするデータ解析方法。
(付記10)
付記8または9に記載のデータ解析方法であって、
前記(b)のステップにおいて、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析方法。
(付記11)
付記10に記載のデータ解析方法であって、
前記(b)のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析方法。
(付記12)
付記9に記載のデータ解析方法であって、
(e)前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、ステップを、更に有する、
ことを特徴とするデータ解析方法。
(付記13)
付記8~12のいずれかに記載のデータ解析方法であって、
前記(a)のステップにおいて、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析方法。
(付記14)
付記13に記載のデータ解析方法であって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析方法。
(付記15)
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる、プログラム。
(付記16)
付記15に記載のプログラムであって、
記コンピュータに、
(d)前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、ステップを更に実行させる、
ことを特徴とするプログラム
(付記17)
付記15または16に記載のプログラムであって、
前記(b)のステップにおいて、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするプログラム
(付記18)
付記17に記載のプログラムであって、
前記(b)のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするプログラム
(付記19)
付記16に記載のプログラムであって、
記コンピュータに、
(e)前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、ステップを更に実行させる、
ことを特徴とするプログラム
(付記20)
付記15~19のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするプログラム
(付記21)
付記20に記載のプログラムであって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするプログラム
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
以上のように、本発明によれば、ある領域で取得された地球科学データを用いて、他の領域の地球科学データを推定することができる。本発明は、例えば、鉱物資源の採掘、地盤調査、植生調査、農地の評価、農作物の成長評価、自然災害の予測等に有用である。
10 データ解析装置
11 整列部
12 分類モデル作成部
13 回帰モデル作成部
14 データ推定部
15 記憶部
16 分類モデル
17 回帰モデル
18 表示部
30 データベース
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (9)

  1. 特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列手段と、
    前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成手段と、
    前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成手段と、
    を備えている、ことを特徴とするデータ解析装置。
  2. 請求項1に記載のデータ解析装置であって、
    前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、データ推定手段を、更に備えている、
    ことを特徴とするデータ解析装置。
  3. 請求項2に記載のデータ解析装置であって、
    前記分類モデル作成手段が、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
    ことを特徴とするデータ解析装置。
  4. 請求項3に記載のデータ解析装置であって、
    前記分類モデル作成手段が、
    複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
    前記回帰モデル作成手段に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
    前記データ推定手段に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行わせ、
    その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
    ことを特徴とするデータ解析装置。
  5. 請求項2に記載のデータ解析装置であって、
    前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、表示手段を、更に備えている、
    ことを特徴とするデータ解析装置。
  6. 請求項1~5のいずれかに記載のデータ解析装置であって、
    前記整列手段が、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
    ことを特徴とするデータ解析装置。
  7. 請求項6に記載のデータ解析装置であって、
    前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
    前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
    ことを特徴とするデータ解析装置。
  8. (a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させ、
    (b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成し、
    (c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、
    ことを特徴とするデータ解析方法。
  9. コンピュータに、
    (a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
    (b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
    (c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
    を実行させる、プログラム。
JP2021528631A 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びプログラム Active JP7235111B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024831 WO2020255413A1 (ja) 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体

Publications (3)

Publication Number Publication Date
JPWO2020255413A1 JPWO2020255413A1 (ja) 2020-12-24
JPWO2020255413A5 JPWO2020255413A5 (ja) 2022-03-15
JP7235111B2 true JP7235111B2 (ja) 2023-03-08

Family

ID=74040173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021528631A Active JP7235111B2 (ja) 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びプログラム

Country Status (3)

Country Link
US (1) US20220308260A1 (ja)
JP (1) JP7235111B2 (ja)
WO (1) WO2020255413A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11946921B2 (en) * 2018-11-09 2024-04-02 Stefan Metzger Systems and methods for improving the performance of environmental measurements
CN113378473B (zh) * 2021-06-23 2024-01-12 中国地质科学院水文地质环境地质研究所 一种基于机器学习模型的地下水砷风险预测方法
CN115170694B (zh) * 2022-06-27 2023-06-16 西安中科天塔科技股份有限公司 一种面源碳通量分布图的生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000002769A (ja) 1998-06-17 2000-01-07 Nippon Koei Co Ltd 地質構造の空間分布を予測して地質図を作成する方法及び装置
WO2012086443A1 (ja) 2010-12-24 2012-06-28 日本電気株式会社 監視データ分析装置、監視データ分析方法および監視データ分析プログラム
WO2018216623A1 (ja) 2017-05-25 2018-11-29 日本電気株式会社 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000002769A (ja) 1998-06-17 2000-01-07 Nippon Koei Co Ltd 地質構造の空間分布を予測して地質図を作成する方法及び装置
WO2012086443A1 (ja) 2010-12-24 2012-06-28 日本電気株式会社 監視データ分析装置、監視データ分析方法および監視データ分析プログラム
WO2018216623A1 (ja) 2017-05-25 2018-11-29 日本電気株式会社 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JPWO2020255413A1 (ja) 2020-12-24
WO2020255413A1 (ja) 2020-12-24
US20220308260A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
US10664702B2 (en) Method and system for crop recognition and boundary delineation
Prins et al. Crop type mapping using LiDAR, Sentinel-2 and aerial imagery with machine learning algorithms
Halme et al. Utility of hyperspectral compared to multispectral remote sensing data in estimating forest biomass and structure variables in Finnish boreal forest
Collins et al. Change detection using the Gramm-Schmidt transformation applied to mapping forest mortality
Van Niekerk A comparison of land unit delineation techniques for land evaluation in the Western Cape, South Africa
JP7235111B2 (ja) データ解析装置、データ解析方法、及びプログラム
dos Santos Luciano et al. Empirical model for forecasting sugarcane yield on a local scale in Brazil using Landsat imagery and random forest algorithm
Berendes et al. Convective cloud identification and classification in daytime satellite imagery using standard deviation limited adaptive clustering
Shahi et al. Road condition assessment by OBIA and feature selection techniques using very high-resolution WorldView-2 imagery
Savin et al. Modern trends and problems of soil mapping
Peters et al. Synergy of very high resolution optical and radar data for object-based olive grove mapping
Munyati Optimising multiresolution segmentation: delineating savannah vegetation boundaries in the Kruger National Park, South Africa, using Sentinel 2 MSI imagery
Hamedianfar et al. Large-scale urban mapping using integrated geographic object-based image analysis and artificial bee colony optimization from worldview-3 data
Ayanlade Remote sensing approaches for land use and land surface temperature assessment: a review of methods
CN117075138A (zh) 一种区域30米森林冠层高度遥感测算方法、系统及介质
CN117710833B (zh) 基于云计算的测绘地理信息数据采集方法及相关装置
Sameh et al. Automated mapping of urban heat Island to predict land surface temperature and land use/cover change using machine learning algorithms: Mansoura city
Putri Analysis of land cover classification results using ann, svm, and rf methods with r programming language (case research: Surabaya, Indonesia)
KR102239393B1 (ko) 원격탐사 기반 수종 분류 시스템 및 방법
WO2018216623A1 (ja) 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体
CN116579521A (zh) 产量预测时间窗口确定方法、装置、设备及可读存储介质
Álvarez-Martínez et al. Can training data counteract topographic effects in supervised image classification? A sensitivity analysis in the Cantabrian Mountains (Spain)
Osei et al. Long term monitoring of Ghana’s forest reserves Using Google Earth Engine
CN115062815A (zh) 一种利用热辐射数据测度企业生产经营状况的方法及系统
Xu et al. A stratified environmental reference system for better understanding of the relationship between remote sensing observations and ground monitoring of karst rocky desertification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R151 Written notification of patent or utility model registration

Ref document number: 7235111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151