JP6623119B2 - データ対応付け装置及び方法 - Google Patents

データ対応付け装置及び方法 Download PDF

Info

Publication number
JP6623119B2
JP6623119B2 JP2016106688A JP2016106688A JP6623119B2 JP 6623119 B2 JP6623119 B2 JP 6623119B2 JP 2016106688 A JP2016106688 A JP 2016106688A JP 2016106688 A JP2016106688 A JP 2016106688A JP 6623119 B2 JP6623119 B2 JP 6623119B2
Authority
JP
Japan
Prior art keywords
data
vector
correlation
series
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016106688A
Other languages
English (en)
Other versions
JP2017211950A (ja
Inventor
真 岩山
真 岩山
彬 童
彬 童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016106688A priority Critical patent/JP6623119B2/ja
Publication of JP2017211950A publication Critical patent/JP2017211950A/ja
Application granted granted Critical
Publication of JP6623119B2 publication Critical patent/JP6623119B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、データ対応付け装置及び方法に関し、例えば、シェールオイル・ガスの採掘の際に得られたセンサデータと、レポートのテキストデータとを対応付けるデータ対応付け装置に適用して好適なものである。
従来、シェールオイル・ガスの採掘では、採掘中にドリルに先端に取り付けられた各種センサによってガンマ線量等の様々な数値を定期的に測定する一方で、ある一定の間隔で石を採取し、その特徴(色、硬度、オイル染みの有無など)をテキストでレポートしている。そしてオペレータは、これらの情報に基づいて次のオペレーションを決定している。
センサデータは、数値データであるため解釈が難しいという欠点を有するものの、全自動で収集できるという利点を有する。一方、レポートはテキストデータであるため解釈が容易であるという利点を有するものの、レポートの作成にはコストがかかるという欠点がある。このためセンサデータは存在するもののレポートが存在しない地点もある。
そこで、レポートが存在しない地点のセンサデータに対して、既存のレポートのテキストデータの中から適切なレポートのテキストデータを対応付けることができれば、お互いの欠点が補完でき、オペレータが次のオペレーションを決定する際の有力な資料となり得るものと考えられる。
この場合において、従来、異なる種類のデータを対応付ける技術が特許文献1及び2に開示されている。特許文献1に開示された技術は、人の移動に対し、センサから得られる数値データとテキスト(例えば「ゆっくり歩く」)を対応付けるものである。また特許文献2に開示された技術は、料理の写真とそのレシピから、料理の写真と素材を対応付けるものである。
特開2013−250862号公報 特開2015−41225号公報
ところで、一般的に、異なる種類のデータを対応付けるデータ対応付け装置は、同じデータ源から得られる2つの系列データからデータ間の対応関係を学習し、一方の系列の新たなデータが与えられた場合に、学習した対応関係を用いて、その新たなデータに対応する他方の系列のデータを出力する。
そしてデータ対応付け装置が2つの系列データ間の対応関係を学習する際は、同じデータ源から得られたデータ間の距離を最小化するよう、これら2つの系列データを対応付ける計算式を決定するが、その他にも考慮すべき距離がある。
例えば、シェールオイル・ガス掘削では、上述のテキストデータ及び数値データといった2つの系列データが物理的に近い地層で取得された場合、それらのデータ間の距離も近くなるべきである。従来の対応関係の計算方法には、このようなデータ源間の距離が考慮されておらず、精度の高いデータの対応付けを行い得ない問題があった。
本発明は以上の点を考慮してなされたもので、精度の高いデータの対応付けを行い得るデータ対応付け装置及び方法を提案しようとするものである。
かかる課題を解決するため本発明においては、同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において、同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化するベクトル化部と、前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する対応モデル学習部と設け、前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、前記対応モデル学習部が、前記相関度を利用して前記対応モデルを学習するようにした。
また本発明においては、同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において実行されるデータ対応付け方法であって、前記データ対応付け装置が、同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化する第1のステップと、前記データ対応付け装置が、前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する第2のステップとを設け、前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、前記第2のステップにおいて、前記データ対応付け装置は、前記相関度を利用して前記対応モデルを学習するようにした。
本データ対応付け装置及び方法によれば、データ源間の相関度を考慮して、より精度の高い対応モデルを学習することができる。
本発明によれば、より精度良くデータの対応付けを行うことができる。
第1及び第2の実施の形態によるデータ対応付け装置のハードウェア構成を示すブロック図である。 第1及び第2の実施の形態によるデータ対応付け装置の論理構成を示すブロック図である。 シェールオイル・ガス掘削の概要説明に供する概念図である。 テキストデータの構造例を示す概念図である。 第1の実施の形態におけるベクトル化されたテキストデータの構造例を示す概念図である。 第1の実施の形態によるテキストデータベクトル化処理の処理手順を示すフローチャートである。 数値データの構造例を示す概念図である。 第1の実施の形態におけるベクトル化された数値データの構造例を示す概念図である。 第1の実施の形態による数値データベクトル化処理の処理手順を示すフローチャートである。 第1の実施の形態における対応モデル学習部の処理概要の説明に供する概念図である。 物理的距離による相関度の説明に供する概念図である。 第1の実施の形態による対応モデル学習処理の処理手順を示すフローチャートである。 対応データ検索部による対応データ検索処理の処理手順を示すフローチャートである。 第2の実施の形態におけるベクトル化されたテキストデータの構造例を示す概念図である。 第2の実施の形態におけるベクトル化された数値データの構造例を示す概念図である。 第2の実施の形態よる対応モデル学習部の処理概要の説明に供するフロー図である。
以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
(1−1)本実施の形態によるデータ対応付け装置の構成
図1において、1は全体として本実施の形態によるデータ対応付け装置のハードウェア構成を示す。本データ対応付け装置1は、プロセッサ2、メモリ3、補助記憶装置4及び入出力インタフェース5を備えて構成される。
プロセッサ2は、データ対応付け装置1全体の動作制御を司る機能を有するデバイスである。またメモリ3は、例えば半導体メモリから構成され、主としてプログラムやデータを一時的に保持するために利用される。後述するデータベクトル化プログラム10、対応モデル学習プログラム11及び対応データ検索プログラム12もこのメモリ3に格納されて保持される。
補助記憶装置4は、例えばハードディスク装置やSDD(Solid State Drive)などの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。補助記憶装置4に格納されたプログラムが起動時又は必要時にメモリ3にロードされ、このプログラムをプロセッサ2が実行することにより、データ対応付け装置1全体としての各種処理が実行される。
入出力インタフェース5は、データ対応付け装置1に周辺機器を接続するためのインタフェースであり、キーボード及びマウスなどの入力装置13と、液晶ディスプレイ又は有機ELディスプレイなどの表示装置14となどが接続される。入力装置13は、ユーザがデータ対応付け装置1に指示や情報などを入力するためのハードウェアデバイスであり、表示装置14は、入出力用の各種画面を表示するハードウェアデバイスである。
図2は、本実施の形態によるデータ対応付け装置1の論理構成を示す。本データ対応付け装置1は、データベクトル化部20、対応モデル学習部21、対応データ検索部22、データ蓄積部23及び対応モデル蓄積部24を備えて構成される。
データベクトル化部20は、プロセッサ2がメモリ3にロードされたデータベクトル化プログラム10(図1)を実行することにより具現化される機能部であり、本実施の形態の場合、テキストデータベクトル化部25及び数値データベクトル化部26から構成される。
テキストデータベクトル化部25は、テキストデータ27をベクトル化する機能を有する機能部である。テキストデータベクトル化部25は、後述する学習モード時には、ベクトル化したテキストデータ27(以下、これをテキストデータベクトルと呼ぶ)と、そのテキストデータ27とをデータ蓄積部23に格納し、後述する対応データ検索モード時には、テキストデータ及びそのテキストデータベクトルを対応データ検索部22に出力する。
また数値データベクトル化部26は、数値データ28をベクトル化する機能を有する機能部である。数値データベクトル化部26は、ベクトル化した数値データ28(以下、これを数値データベクトルと呼ぶ)と、その数値データ28とをデータ蓄積部23に格納し、対応データ検索モード時には、数値データ28及びその数値データベクトルを対応データ検索部22に出力する。
対応モデル学習部21は、プロセッサ2がメモリ3にロードされた対応モデル学習プログラム11(図1)を実行することにより具現化される機能部であり、データ蓄積部23に蓄積されたテキストデータベクトル及び数値データベクトルに基づいて、テキストデータ27及び数値データ28の対応関係を学習する機能を有する。対応モデル学習部21は、かかる学習により得られたテキストデータ27及び数値データ28の対応モデルを対応モデル蓄積部24に格納する。
対応データ検索部22は、対応データ検索モード時に対象データ29として与えられ、データベクトル化部20によりベクトル化されたテキストデータ27に対応する数値データ、又は、データベクトル化部20によりベクトル化された数値データ28に対応するテキストデータを、対応モデル蓄積部24に蓄積された対応モデルを参照してデータ蓄積部23に格納された数値データ28又はテキストデータ27の中から検索する機能を有する機能部である。
なおデータ蓄積部23及び対応モデル蓄積部24は、メモリ3(図1)又は補助記憶装置4(図1)内に予め確保された記憶領域である。
かかる構成を有する本データ対応付け装置1では、テキストデータ27と数値データ28との対応モデルを学習する学習モード時、既に対応付けられている複数対のテキストデータ27及び数値データ28が訓練データとして順次与えられる。
そしてデータ対応付け装置1は、かかる訓練データが与えられると、テキストデータ27をテキストデータベクトル化部25においてベクトル化すると共に、数値データ28を数値データベクトル化部26においてベクトル化し、かくして得られたテキストデータベクトル及び数値データベクトルと、元のテキストデータ27及び数値データ28とをデータ蓄積部23に格納する。
また対応モデル学習部21は、データ蓄積部23に蓄積された既に対応付けられているテキストデータベクトル及び数値データベクトルのベクトル対に基づいて、テキストデータ27及び数値データ28の対応モデルを生成し、生成した対応モデルを対応モデル蓄積部24に格納する。
以上により、データ対応付け装置1は、テキストデータ又は数値データが対象データ29として与えられたときに、そのテキストデータ又は数値データに対応する数値データ又はテキストデータをデータ蓄積部23に蓄積された数値データ又はテキストデータの中から検索する対応データ検索処理を実行可能となる。
そしてデータ対応付け装置1は、この後、動作モードがかかる対応データ検索処理を実行する対応データ検索モードに切り替えられ、対応付けの対象となる対象データ29が与えられると、その対象データ29がテキストデータであった場合には、テキストデータベクトル化部25においてその対象データ29をベクトル化する一方、当該対象データ29が数値データであった場合には数値データベクトル化部26においてその対象データ29をベクトル化する。そして、このようにしてベクトル化された対象データ29(以下、これを対象データベクトルと呼ぶ)は、この後、対応データ検索部22に与えられる。
対応データ検索部22は、データベクトル化部20から上述の対象データベクトルが与えられると、対応モデル蓄積部24に蓄積されている対応モデルを読み出し、読み出した対応モデルを用いて対象データベクトルに対応付けるべきテキストデータベクトル又は数値データベクトルとして最も適切なテキストデータベクトル又は数値データベクトルをデータ蓄積部23上で検索する。そして対応データ検索部22は、この検索により検出した、対象データベクトルに対応付けるべきテキストデータベクトル又は数値データベクトルを検出すると、そのテキストデータベクトル又は数値データベクトルに対応する元のテキストデータ又は数値データを対応データ30として出力する。かくして、この対応データ30に関する所定情報が、対象データ29に対応するデータの検索結果として表示装置14に表示される。
(1−2)本実施の形態の対象データ
図3は、本実施例が対象とする、シェールオイル・ガス掘削の概要を示す。シェールオイル・ガス掘削では、油井40を下方向に掘り進め、シェール層に達したら、掘削方向を横に変える。41は掘削経路を示す。シェール層では、水圧破砕により岩盤に裂け目42を形成し、形成した裂け目42からオイル・ガスを抽出する。
かかるシェールオイル・ガスの掘削中は、2種類の情報をログとして収集する。1つ目は、ドリルに配設されたセンサから収集した数値データである。例えば、含有炭素量を調べるためにガンマ線量を測定する。2つ目は、サンプリングした石の特徴を記述したテキストデータである。テキストデータには、サンプリングされた石の色、硬さ、油染みの有無などの情報を所定フォーマットで記述する。両者は、掘削経路41に沿って一定の間隔で取得する。オペレータは、二種類のログ情報から、どこで水平掘りに変えるか、どこで水圧破砕を行うかを決定する。
テキストデータは、オペレータに内容が理解しやすい反面で、サンプリングや作成にコストを要する。よってその取得間隔は比較的長い。一方、数値データは自動で取得できるため、データの取得間隔は短い。しかし、数値データの解釈には専門知識を要する。
そこで本実施の形態においては、掘削経路41内の同一地点において得られたテキストデータ及び数値データに基づき図1及び図2について上述した本実施の形態のデータ対応付け装置1により両者の対応関係を学習し、一方から他方を自動生成する(正確には、それまでに得られたテキストデータ又は数値データの中から最も適切と推定されるものを対応付ける)ことで、お互いの欠点を補い合うようにする。これにより、石がサンプリングされていない地点に対しても、学習した対応関係を用いて、数値データから既存のテキストデータの中から最も近いと推定されるテキストデータを選択してその数値データに対応付けることができる。
(1−3)テキストデータベクトル化部の処理
図4は、本実施の形態によるテキストデータ27の構造例を示す。この図4の例の場合、テキストデータ27は、石を採取(サンプリング)した地点の深さの範囲(以下、これを第1の深さ範囲と呼ぶ)を表す文字列のデータからなる深さ範囲データ部50と、その第1の深さ範囲内の深さの地層においてサンプリングされた石の詳細説明のテキストのデータからなる詳細説明データ部51とから構成される。なお、ここでの「深さ」とは、油井40の入り口からの掘削経路長である。
詳細説明データ部51には、対応する第1の深さ範囲でサンプリングされた石の特徴の詳細説明がある一定のルールの下で記述される。なお図4は、『「色」、「硬さ」、「表面の滑らかさ」、「油染みの有無」、……の順番にカンマで区切って順次記述する』というルールに従って石の特徴が記述されている例を示している。この詳細説明データ部51は、人手により入力される。このようにテキストデータ27は、個々の第1の深さ範囲ごとの石の特徴が記述された系列データである。
図5は、このようなテキストデータ27をテキストデータベクトル化部25(図2)においてベクトル化することにより得られたテキストデータベクトル52の構造例を示す。本実施の形態においては、テキストデータベクトル化部25がテキストデータ27を第1の深さ範囲を複数含む一定の深さごと(例えば図4において500〔m〕ごと)に区分して、区分(以下、これを深さ範囲区分と呼ぶ)ごとに、その深さ範囲区分に属する各第1の深さ範囲の各テキストデータをまとめてベクトル化する。
テキストデータベクトル52の要素は、対応する深さ範囲区分に属する各第1の深さ範囲と対応する各テキストデータ27に基づく各テキストにおける、サンプリングされた石の属性(特徴)ごとの各属性値の出現頻度である。図5の例の場合、石の属性として、「色」、「硬さ」及び「表面の滑らかさ」などが挙げられており、これらの属性ごとにそれぞれ属性値の頻度が羅列されている。例えば、「色」という属性については、対応する深さ範囲区分に含まれる各第1の深さ範囲のテキストデータ27の詳細説明データ部51内に「red(赤色)」という属性値が「10」回、「yellow(黄色)」という属性値が「0」回、「brown(茶色)」という属性値が「5」回出現し、連続する3つの第1の深さ範囲において「red-red-red」という石の色の組合せが出現した回数が「0」、「red-red-yellow」という石の色の組合せが出現した回数が「2」回、「brown-brown-brown」という石の色の組合せが出現した回数が「3」回であったことが示されている。
図6は、学習モード時に、訓練データとして、それぞれ数値データ28との対応付けがなされている系列の複数のテキストデータ27が順番に与えられたときにテキストデータベクトル化部25により実行されるテキストデータベクトル化処理の処理手順を示す。テキストデータベクトル化部25は、この図6に示す処理手順に従って、これらのテキストデータ27をベクトル化する。
実際上、テキストデータベクトル化部25は、テキストデータ27が与えられるとこの図6に示すテキストデータベクトル化処理を開始し、まず、そのとき与えられたテキストデータ27が文書画像(文書をスキャンした画像)であるか否かを判断する(SP1)。
そしてテキストデータベクトル化部25は、この判断で否定結果を得るとステップSP3に進み、これに対して肯定結果を得ると、その文書画像に対してOCR(Optical Character Recognition)処理を実行することにより、その文書画像に記載されている各文字列をそれぞれ認識する(SP2)。
続いて、テキストデータベクトル化部25は、テキストデータ27からテキストの各ブロックをそれぞれ抽出するレイアウト処理を実行する(SP3)。例えば、図4の例の場合、テキストデータベクトル化部25は、各深さ範囲データ部50と、各詳細説明データ部51とをそれぞれテキストのブロックとして抽出する。この際、テキストデータベクトル化部25は、深さ範囲データ部50と、これに対応する詳細説明データ部51とを対応付けておく。
次いで、テキストデータベクトル化部25は、ステップSP3で抽出した各深さ範囲データ部50及び各詳細説明データ部51を、0〜500〔m〕、500〜1000〔m〕、1000〜1500〔m〕、……といったように、上述の深さ範囲区分に対応するものごとに分割する(SP4)。
またテキストデータベクトル化部25は、深さ範囲区分ごとに、その深さ範囲区分に含まれる第1の深さ範囲ごとの詳細説明データ部51のテキストデータに基づくテキストを句ごとに分割する(SP5)。例えば、図4の例では、上述のように詳細説明データ部51に石の特徴が『「色」、「硬さ」、「表面の滑らかさ」、「油染みの有無」、……の順番にカンマで区切って順次記述する』というルールの下で記述されているため、カンマごとに文字列を区切ることによりテキストを句ごとに分割することができる。この場合、各句は、それぞれ石の何らかの属性の属性値を表すことになる。
次いで、テキストデータベクトル化部25は、深さ範囲区分ごとに、ステップSP5で分割した各句を属性値の所定の辞書と符合することにより、各句が表す属性値をそれぞれ抽出し(SP6)、この後、ステップSP6で抽出した属性値の出現頻度を属性ごとに集計した後(SP7)、このテキストデータベクトル化処理を終了する。
(1−4)数値データベクトル化部の処理
一方、図7は、数値データ28の一例を示す。この図7は、ドリルに配設されたセンサにより計測された所定深さごとのガンマ線量を表す。数値データベクトル化部26は、このような数値データ28を上述のテキストデータ27の深さ範囲区分と同じ深さ範囲(例えば、0〜500〔m〕、500〜1000〔m〕、1000〜1500〔m〕、……)ごとに区分して、深さ範囲区分ごとに、その深さ範囲区分に属する複数の数値データ28をまとめてベクトル化する。
図8は、図7の数値データ28のうち0〜500〔m〕の深さ範囲区分に属する複数の数値データ28をまとめて数値データベクトル化部26によりベクトル化した結果(数値データベクトル)53の一例を示す。このベクトル化により得られる数値データベクトル53の要素には2種類ある。1つ目の要素は、対応する深さ範囲区分内での数値の平均値53Aであり、2つ目の要素は、記号化した数値データ系列の頻度53Bである。数値データの記号化には、例えばSAX(Symbolic Aggregate Approximation)法を用いる。SAX法では、各数値を一文字に変換する。変換後の数値データ28は文字列になる。本実施の形態では、連続する3文字の頻度を数値データ系列の頻度とする。例えば、図8において「35」は、「aaa」という記号の頻度である。
図9は、数値データベクトル化部26が、訓練データとして、それぞれテキストデータ27との対応付けがなされている系列の数値データ28が与えられたときに実行する数値データベクトル化処理の処理手順を示す。数値データベクトル化部26は、この図9に示す処理手順に従って、これらの数値データ28をベクトル化する。
実際上、数値データベクトル化部26は、数値データ28が与えられるとこの図9に示す数値データベクトル化処理を開始し、まず、数値データ28を上述の深さ範囲区分ごとに分割する(SP10)。
続いて、数値データベクトル化部26は、深さ範囲区分ごとに、その深さ範囲区分に属する各数値データ28の平均値を算出し(SP11)、その後、深さ範囲区分ごとに、その深さ範囲区分に属する各数値データ28をSAX法により記号化する(SP12)。
次いで、数値データベクトル化部26は、深さ範囲区分ごとに、ステップSP12の記号化により得られた各記号の出現頻度を集計し(SP13)、この後、この数値データベクトル化処理を終了する。
(1−5)対応モデル学習部の処理
図10は、対応モデル学習部21の処理の概要を示す。図中、60はテキストデータ27のベクトル空間(以下、これをテキストベクトル空間と呼ぶ)、61は数値データ28のベクトル空間(以下、これを数値ベクトル空間と呼ぶ)をそれぞれ示す。テキストデータ27及び数値データ28の対応モデルを学習するために、テキストベクトル空間60上のテキストデータ27のベクトル(テキストデータベクトル)と、数値ベクトル空間61上の数値データ28のベクトル(数値データベクトル)とを共通のベクトル空間(以下、これを共通空間と呼ぶ)62に射影する。63及び64は、それぞれかかるテキストデータベクトルや数値データベクトルに対するかかる射影を行うための変換行列L,Lである。
対応モデル学習部21では、共通空間62内での各ベクトルの配置が、以下の2つの特徴を持つような変換行列L,Lを学習する。1つ目の特徴は、共通空間62における任意の2つのベクトル対(図10では、テキストデータベクトルL 及び数値データベクトルL からなるベクトル対と、テキストデータベクトルL 及び数値データベクトルL からなるベクトル対)に関して、同じベクトル対内のテキストデータベクトル及び数値データベクトル(例えば、L 及びL i)間の距離を最小化し、かつ、一方のベクトル対の数値データベクトル及び他方のベクトル対のテキストデータベクトル(例えば、L 及びL )間の距離を最大化する特徴である。これは次式で与えられるAを最小化することに相当する。
なお(1)式において、xは、テキストベクトル空間60における「i」という地点で取得したテキストデータ27のテキストデータベクトル、yは、その地点で取得した数値データ28の数値データベクトルをそれぞれ示し、xは、テキストベクトル空間60における「j」という地点で取得したテキストデータ27のテキストデータベクトル、yは、その地点で取得した数値データ28の数値データベクトルを示す。さらにx ,x ,L ,L は、それぞれ対応するテキストデータベクトルx,x又は変換行列L,Lの置換行列を示す。
従って、対応モデル学習部21は、この(1)式で与えられるAを最小化するような、つまり対応しているデータ対(i=j)については共通空間62内での内積をより大きくし、対応していないデータ対(i≠j)については共通空間62内での内積をより小さくするような変換行列L,Lを学習することになる。
2つ目の特徴は、地層中で物理的に近い「i」という地点で取得したデータと、「j」という地点で取得したデータとからなるデータ対が、共通空間62内でも近くなるような特徴である。これは、次式で与えられるBを最小化することに相当する。
(2)式において、右辺第1項の「L −L 」は、一方のテキストデータ27のテキストデータベクトルxを共通空間62に射影したベクトルL と、他方のテキストデータ27のテキストデータベクトルxを共通空間62に射影したベクトルL との共通空間62上での距離を表す。また右辺第2項の「L −L 」は、かかる一方のテキストデータ27に対応する数値データ28の数値データベクトルyを共通空間62に射影したベクトルL と、かかる他方のテキストデータ27に対応する数値データ28の数値データベクトルyを共通空間62に射影したベクトルL との共通空間62上での距離表す。
また(2)式において、Wijは、「i」という地点と、「j」という地点との地層中での距離をパラメータとした行列であり、この行列の各要素は、これら2つの地点が近い場合に「1」に近い値を、遠い場合は「0」に近い値をとる。つまり、行列Wijは、「i」という地点から取得されたテキストデータ27及び数値データ28と、「j」という地点から取得されたテキストデータ27及び数値データ28との相関の度合い(より正確にはテキストデータ27及び数値データ28の類似の度合いであり、以下、これを相関度と呼ぶ)を表しており、これら2つの地点が物理的(地理的)に近いほど、共通空間62内でのユークリッド距離をより強く考慮する。
かかる行列Wijは、かかる2つの地点の垂直距離及び水平距離を考慮して定義する。シェールオイル・ガスの掘削では、垂直距離(深さ)が異なれば、地層が異なる可能性が高い。地層が異なれば、石の性質も異なるため、まずは垂直距離がある閾値を超えた場合は、かかる2つの地点の相関度を「0」にする。例えば、図11において、油井71の符号71Aで示された地点と、これと異なる油井72の符号72Aで示された地点とでは垂直距離(深さ)が大きく異なるため、(2)式において行列Wijの値を「0」にする。
またこれ以外の場合(垂直距離が大きくは異ならない)には、上述の「i」という地点と、「j」という地点との間の水平距離に応じてこれら2つの地点間の相関度を決める。例えば、図11において、油井70の符号70Aで示された地点と、これと異なる油井71の符号71Aで示す地点については、これら2つの場所の水平距離に応じて行列Wijを決定する。この際、水平距離が「0」の場合は、相関度が最大の「1」に、水平距離が無限大の場合は、影響度が最小の「0」となるように行列Wijを決定する。行列Wijの設定例を次式に示す。
なお、(3)式において、「dist(i,j)」は、「i」という地点と、「j」という地点との緯度及び経度上の距離を表す。
以上の点を考慮し、本実施の形態において、対応モデル学習部21は、上述の(1)式で与えられるAと、(2)式で与えられるBとの和(A+B)が最小となる変換行列L及びLを繰り返し法で求めることにより、対応モデルを学習する。
図12は、このような対応モデルの学習の処理手順を示す。対応モデル学習部21は、この図12に示す処理手順に従って、上述のAとBとの和を最小とする変換行列L及び変換行列Lを求める。
実際上、対応モデル学習部21は、学習モード時、テキストデータベクトル化部25によるテキストデータ27の系列データのベクトル化と、数値データベクトル化部26による数値データ28の系列データのベクトル化とがすべて完了するとこの図12に示す対応モデル学習処理を開始し、まず、変換行列L及びLを初期設定する。この場合、これら変換行列L及びLの初期値は、どのようなものであっても良い。このため本実施の形態においては、対応モデル学習部21が、乱数を発生させて変換行列L及びLの各要素の値をそれぞれ決定することにより変換行列L及びLを初期設定するものとする(SP20)。
続いて、対応モデル学習部21は、一方の変換行列Lを固定して、最小化の対象式を最小とする行列を求め、他方の変換行列Lをその行列に更新する(SP21)。本実施の形態においては、最小化の対象式が(1)式で算出されるAと、(2)式で算出されるBとの和であるため、この対象式を変換行列Lで偏微分した結果の式がゼロであるような方程式を解くことにより、更新後の変換行列Lを求めることができる。また対応モデル学習部21は、これと同様にして、更新後の変換行列Lを求める(SP22)。
次いで、対応モデル学習部21は、更新前の変換行列L及び変換行列Lと、更新後の変換行列L及び変換行列Lとの差(例えば、対応する行列要素の差(絶対値および差の二乗)の総和)を計算し、この差を予め設定されている閾値(以下、これを学習終了判定閾値と呼ぶ)と比較する(SP23)。そして対応モデル学習部21は、ステップSP23の比較結果に基づいて、かかる差が学習終了判定閾値以上であるか否かを判断する(S24)。
対応モデル学習部21は、この判断で否定結果を得るとステップSP21に戻り、この後、ステップSP24で肯定結果を得るまでステップSP21〜ステップSP24の処理を繰り返す。そして対応モデル学習部21は、やがて更新前の変換行列L及び変換行列Lと、更新後の変換行列L及び変換行列Lとの差がかかる学習終了判定閾値以上となることによりステップSP24で肯定結果を得ると、この対応モデル学習処理を終了する。
(1−6)対応データ検索部の処理
以上のようにして学習した対応モデルを用いることで、任意の対象データ29(図2)に対応する対応データ30(図2)を取得することができる。例えば、数値データ28からテキストデータ27を取得することができる。本実施の形態では、共通空間62で最も近いデータを検索し、その検索結果を対応データ30として出力する。
図13は、このような対応データ検索部22により実行される対応データ検索処理の処理手順を示す。対応データ検索部22は、この図13に示す処理手順に従って、データベクトル化部20(図2)によりベクトル化された対象データ29に対応付けるべきデータ(テキストデータ27又は数値データ28)を検索する。
実際上、対応データ検索部22は、データベクトル化部20によりベクトル化された対象データ29(つまり対象データベクトル)を当該データベクトル化部20から与えられると、この図13に示す対応データ検索処理を開始し、まず、その対象データベクトルを対応モデル蓄積部24に蓄積されている対応モデルの変換行列L又はLにより共通空間62(図10)に射影する(SP30)。
続いて、対応データ検索部22は、共通空間62上で(1)式及び(2)式の和が最小となるデータ(対象データ29がテキストデータであれば数値データ、対象データ29が数値データであればテキストデータ)をデータ蓄積部23に蓄積されたテキストデータ27又は数値データ28の中から検索し(SP31)、当該検索により検出したテキストデータ27又は数値データ28を対応データ30として出力する(SP32)。そして対応データ検索部22は、この後、この対応データ検索処理を終了する。
(1−7)本実施の形態の効果
以上のように本実施の形態のデータ対応付け装置1において、対応モデル学習部21は、2つの地点が物理的に近いほど各要素が「1」に近づくような相関度(行列)を定義し、その相関度を利用して(2)式のように定義されたBと、(1)式のように定義されたAとの和が最小となるような対応モデルを学習する。
この場合、地層内の物理的に近い2つの地点からそれぞれ取得されるテキストデータ27及び数値データ28は、これら2つの地点が物理的に近ければ近いほど類似すると考えることができる。従って、本実施の形態の(2)式のように、物理的(地理的)に近い任意の2つの地点からそれぞれ取得されたテキストデータ27のテキストデータベクトルの共通空間62上での距離と、これら2つの地点からそれぞれ取得された数値データ28の数値データベクトルの共通空間62上での距離との和が最小となるような対応モデルを学習することによって、より精度の高い対応モデルを学習することができ、かくしてより精度良くデータの対応付けを行うことができる。
(2)第2の実施の形態
図1及び図2において、80は本実施の形態によるデータ対応付け装置を示す。本データ対応付け装置80は、プロセッサ2がデータベクトル化プログラム81を実行することにより具現化されるデータベクトル化部90のテキストデータベクトル化部91及び数値データベクトル化部92によるテキストデータ27や数値データ28のベクトル化方法が異なる点と、プロセッサ2が対応モデル学習プログラム82を実行することにより具現化される対応モデル学習部93が深層学習により対応モデルを学習する点とを除いて第1の実施の形態のデータ対応付け装置1と同様に構成されている。
実際上、本実施の形態のデータ対応付け装置80の場合、テキストデータベクトル化部91は、テキストデータ27を図14で示すような構成を有する2次元ベクトルに変換する。この2次元ベクトルの1つ目の次元は「深さ範囲区分」である。この「深さ範囲区分」は、第1の実施の形態の深さ範囲の区分と同じものである。
各深さ範囲区分に含まれる各第1の深さ範囲のテキストデータ27に基づいて、石の属性(「色」、「硬さ」、……)ごとに1次元ベクトルでなる「頻度ベクトル」を構築し、同じ深さ範囲区分の各属性の頻度ベクトルを結合した1次元ベクトルを生成する。これが上述したテキストデータ27の2次元ベクトルの2つ目の次元である。なお、頻度ベクトルは、図5と同様のベクトルであるが、図14では系列情報は含めない。単純な頻度ベクトルではなく、文章の分散表現(phrase2vec)を用いてもよい。分散表現は既存の手法で生成する。
一方、数値データベクトル化部92は、数値データ28を図15で示す2次元ベクトルに変換する。この2次元ベクトルの1つ目の次元は深さ範囲区分である。この深さ範囲区分は、第1の実施の形態の深さ範囲区分と同じものである。それぞれの深さ範囲区分において、フーリエ変換により周波数毎の強さを要素とするベクトル(図15の「長さMの1次元ベクトル」)を構築する。これが上述した数値データ28の2次元ベクトルの2つ目の次元である。
図16は、本実施の形態の対応モデル学習部93(図2)により実行される対応モデル学習処理の流れを示す。上述のように本実施の形態の場合対応モデル学習部93は、対応モデルを深層学習する。この図15において、文書2次元ベクトル100は、図14で説明した深さ範囲区分ごとのテキストデータ27の2次元ベクトルである。また数値2次元ベクトル101は、図15で説明した深さ範囲区分ごとの数値データ28の2次元ベクトルである。これらを独立に複数段の畳込み層102,103に入力する。
各畳込み層102,103では、文書2次元ベクトル及び数値2次元ベクトル、又は、前段の畳込み層102,103の処理結果をそれぞれその畳込み層102,103に応じた所定個数ずつ深さの方向で畳み込む。例えば、文書2次元ベクトル100が1000個ある場合、図16で「畳込み層1」と記述された畳込み層102では、文書2次元ベクトル100を5個ずつ合計200個の文書2次元ベクトルに統合し、次の「畳込み層2」と記述された畳込み層102では、200個の文書2次元ベクトル100を5個ずつ40個の文書2次元ベクトル100に統合し、……という処理を行う。よって、文書2次元ベクトル100及び数値2次元ベクトル101の両者とも深さの系列情報を考慮していることになる。そして、文書2次元ベクトル100及び数値2次元ベクトル101の双方共に、最後に全結合層104,105を通す。全結合層104,105は、文書の学習系列(図16の左側)と数値の学習系列(図16の右側)の次元を揃えることが目的である。
この後、全結合層104,105を通した文書2次元ベクトル100及び数値2次元ベクトル101を、深層学習で最適化する次式
で定義された評価関数Eに当てはめ、この評価関数Eを最小とする全層のパラメータ(重み行列とバイアス)を求めるようにして対応モデルを学習する。
なお(4)式において、xは文書2次元ベクトル100、yは数値2次元ベクトル101を示す。また(4)式の右辺第1項は、対応付いているxとyの距離を反映する評価尺度である。ここで、「y−」は対応付いていないyのことで、ランダムに選択する。(4)式の第1項の一例を以下に示す。
(5)式において、φは畳込み層102,103と全結合層104,105による変換関数であり、出力は共通の次元数のベクトルとなる。(5)式を最小化することは、対応付いているxとyの距離を最小化(内積を最大化)し、対応付いていないxとyの距離を最大化(内積を最小化)することに相当する。
(4)式の右辺第2項及び右辺第3項は、地層中での距離を反映した評価尺度であり、一例を以下に示す。
(6)式のWijは、第1の実施の形態について上述した(3)式のWijと同じものである。(6)式を最小化することは、地理的な相関度(Wij)と類似度の差を最小化することに相当する。
深層学習では、(4)式の評価関数を最小化することで、図15のネットワーク構造のパラメータを決める。具体的な方法については、既存の深層学習の方法を用いる。
以上のように本実施の形態のデータ対応付け装置80では、対応モデル学習部93が深層学習により対応モデルを学習する。この際、対応モデル学習部93は、(4)式で定義された評価関数Eを最小化する全層のパラメータを求めるようにして対応モデルを学習するが、(4)式は地層中での距離を反映した項を含んでおり、従って、本実施の形態のデータ対応付け装置80によれば、第1の実施の形態と同様に、精度の高い対応モデルを学習することができ、かくしてより精度良くデータの対応付けを行うことができる。
(3)他の実施の形態
なお上述の第1及び第2の実施の形態においては、任意の2つのデータ源(「i」という地点及び「j」という地点)の相関度として、これら2つのデータ源の物理的な距離を考慮するようにした場合について述べたが、本発明はこれに限らず、これらデータ源の距離に加えて又は代えて、これら2つのデータ源の掘削時期の差を考慮してこれらデータ源間の相関度を定義するようにしてもよい。任意の2つのデータ源の距離に代えてこれら2つのデータ源の掘削磁気の差を考慮した場合の相関度Wijの式の例を以下に示す。
ここで、(7)式において「dist」は、掘削時期の差とする。従って、(7)式により定義される相関度Wijは、「i」という地点の掘削時期と、「j」という地点の掘削時期とが近ければ近いほど大きな値となる。なお任意の2つのデータ源は、同一の油井の掘削経路上のものであっても、異なる油井の掘削経路上のものであってもよい。
また上述の第1の形態においては、(1)式で算出されるAと、(2)式で算出されるBとの和(A+B)が最小となる変換行列Lx,Lyを求めるようにして対応モデルを学習するようにした場合について述べたが、本発明はこれに限らず、例えば、Bにある定数αを乗算した乗算結果とAとの和(A+αB)が最小となる変換行列Lx,Lyを求めるようにして対応モデルを学習するようにしてもよい。
本発明はシェールオイル・ガスの採掘の際に得られたセンサデータと、レポートのテキストデータとを対応付けるデータ対応付け装置のほか、種々のデータ対応付け装置に適用することができる。
1,80……データ対応付け装置、2……プロセッサ、3……メモリ、10,81……データベクトル化プログラム、11,82……対応モデル学習プログラム、12……対応データ検索プログラム、21,93……対応モデル学習部、22……対応データ検索部、25,91……テキストデータベクトル化部、26,92……数値データベクトル化部、27……テキストデータ、28……数値データ、29……対象データ、30……対応データ、60……テキストベクトル空間、61……数値ベクトル空間、62……共通空間、63,64,L,L……変換行列。

Claims (10)

  1. 同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において、
    同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化するベクトル化部と、
    前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する対応モデル学習部と
    を備え、
    前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、
    前記対応モデル学習部は、
    前記相関度を利用して前記対応モデルを学習する
    ことを特徴とするデータ対応付け装置。
  2. 前記相関度は、
    任意の2つの異なる前記データ源間の距離に応じて、当該距離が近くなるほど大きくなるように定義された
    ことを特徴とする請求項1に記載のデータ対応付け装置。
  3. 前記対応モデル学習部は、
    任意の2つの前記データ源からそれぞれ得られた前記第1及び第2の系列データのベクトルを射影した共通空間において、一方の前記データ源から得られた前記第1の系列データのベクトル及び他方の前記データ源から得られた前記第1の系列データのベクトル間の距離に前記相関度を乗算した値と、一方の前記データ源から得られた前記第2の系列データのベクトル及び他方の前記データ源から得られた前記第2の系列データのベクトル間の距離に前記相関度を乗算した値との和が最小となるように前記対応モデルを学習する
    ことを特徴とする請求項2に記載のデータ対応付け装置。
  4. 前記距離は、前記データ源間の垂直方向及び水平方向の距離である
    ことを特徴とする請求項3に記載のデータ対応付け装置。
  5. 前記相関度は、
    任意の2つの異なる前記データ源の掘削時期に応じて、当該掘削時期が近いほど大きくなるように定義された
    ことを特徴とする請求項1に記載のデータ対応付け装置。
  6. 同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において実行されるデータ対応付け方法であって、
    前記データ対応付け装置が、同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化する第1のステップと、
    前記データ対応付け装置が、前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する第2のステップと
    を備え、
    前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、
    前記第2のステップにおいて、前記データ対応付け装置は、
    前記相関度を利用して前記対応モデルを学習する
    ことを特徴とするデータ対応付け方法。
  7. 前記相関度は、
    任意の2つの異なる前記データ源間の距離に応じて、当該距離が近くなるほど大きくなるように定義された
    ことを特徴とする請求項6に記載のデータ対応付け方法。
  8. 前記対応モデル学習部は、
    任意の2つの前記データ源からそれぞれ得られた前記第1及び第2の系列データのベクトルを射影した共通空間において、一方の前記データ源から得られた前記第1の系列データのベクトル及び他方の前記データ源から得られた前記第1の系列データのベクトル間の距離に前記相関度を乗算した値と、一方の前記データ源から得られた前記第2の系列データのベクトル及び他方の前記データ源から得られた前記第2の系列データのベクトル間の距離に前記相関度を乗算した値との和が最小となるように前記対応モデルを学習する
    ことを特徴とする請求項7に記載のデータ対応付け方法。
  9. 各前記データ源は、それぞれ地層内に存在し、
    前記距離は、前記データ源間の垂直方向の距離である
    ことを特徴とする請求項8に記載のデータ対応付け方法。
  10. 前記相関度は、
    任意の2つの異なる前記データ源の掘削時期に応じて、当該掘削時期が近ければ近いほど大きくなるように定義された
    ことを特徴とする請求項6に記載のデータ対応付け方法。
JP2016106688A 2016-05-27 2016-05-27 データ対応付け装置及び方法 Expired - Fee Related JP6623119B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016106688A JP6623119B2 (ja) 2016-05-27 2016-05-27 データ対応付け装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106688A JP6623119B2 (ja) 2016-05-27 2016-05-27 データ対応付け装置及び方法

Publications (2)

Publication Number Publication Date
JP2017211950A JP2017211950A (ja) 2017-11-30
JP6623119B2 true JP6623119B2 (ja) 2019-12-18

Family

ID=60475468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106688A Expired - Fee Related JP6623119B2 (ja) 2016-05-27 2016-05-27 データ対応付け装置及び方法

Country Status (1)

Country Link
JP (1) JP6623119B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7109004B2 (ja) * 2018-12-06 2022-07-29 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP7230086B2 (ja) * 2021-03-18 2023-02-28 三菱電機インフォメーションネットワーク株式会社 多形式データ解析システムおよび多形式データ解析プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US8190543B2 (en) * 2008-03-08 2012-05-29 Tokyo Electron Limited Autonomous biologically based learning tool
CA3020551C (en) * 2010-06-24 2022-06-07 Arbitron Mobile Oy Network server arrangement for processing non-parametric, multi-dimensional, spatial and temporal human behavior or technical observations measured pervasively, and related method for the same

Also Published As

Publication number Publication date
JP2017211950A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
US10036820B2 (en) Expert guided knowledge acquisition system for analyzing seismic data
CN109416769B (zh) 生成用于开采油气储藏的油田开发计划(fdp)的计算机实施的方法
JP6791780B2 (ja) 文章作成装置
Al-Mudhafar et al. Performance evaluation of boosting machine learning algorithms for lithofacies classification in heterogeneous carbonate reservoirs
US20220004919A1 (en) Probability distribution assessment for classifying subterranean formations using machine learning
Dawson et al. Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification
US8364442B2 (en) Automated structural interpretation
Younis et al. Detection and annotation of plant organs from digitised herbarium scans using deep learning
US11428835B2 (en) Facilitating hydrocarbon exploration and extraction by applying a machine-learning model to seismic data
Chen et al. A seismic fault recognition method based on ant colony optimization
JP6623119B2 (ja) データ対応付け装置及び方法
US20230194750A1 (en) Subsurface lithological model with machine learning
NO20190214A1 (en) Classifying well data using a support vector machine
CN113762320A (zh) 通过学习测井记录来估计岩相的方法和设备
Wang et al. Automated gamma-ray log pattern alignment and depth matching by machine learning
Shi et al. Finding an optimal well-log correlation sequence using coherence-weighted graphs
CN109583371A (zh) 基于深度学习的陆标信息提取与匹配方法
US20200308934A1 (en) Automatic calibration of forward depositional models
US20150095279A1 (en) Data analytics for oilfield data repositories
CA3106006C (en) Facilitating hydrocarbon exploration and extraction by applying a machine-learning model to seismic data
Misra et al. Fracture Monitoring and Characterization Using Unsupervised Microseismic Data Analysis
CN105467447B (zh) 相控趋势能量匹配的地震保幅评价方法
CN115220100B (zh) 一种碳酸盐岩水窜通道的分析方法及系统
Al Ibrahim Uncertainty in Automated Well-Log Correlation Using Stochastic Dynamic Time Warping
Ivlev Expert-Independent Generalization of Well and Seismic Data Using Machine Learning Methods for Complex Reservoirs Predicting During Early-Stage Geological Exploration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191125

R150 Certificate of patent or registration of utility model

Ref document number: 6623119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees