JP2017211950A - Data correlating device and method - Google Patents

Data correlating device and method Download PDF

Info

Publication number
JP2017211950A
JP2017211950A JP2016106688A JP2016106688A JP2017211950A JP 2017211950 A JP2017211950 A JP 2017211950A JP 2016106688 A JP2016106688 A JP 2016106688A JP 2016106688 A JP2016106688 A JP 2016106688A JP 2017211950 A JP2017211950 A JP 2017211950A
Authority
JP
Japan
Prior art keywords
data
correlation
series
vector
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016106688A
Other languages
Japanese (ja)
Other versions
JP6623119B2 (en
Inventor
真 岩山
Makoto Iwayama
真 岩山
彬 童
Bin Tong
彬 童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016106688A priority Critical patent/JP6623119B2/en
Publication of JP2017211950A publication Critical patent/JP2017211950A/en
Application granted granted Critical
Publication of JP6623119B2 publication Critical patent/JP6623119B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data correlating device and method with which it is possible to correlate data with high accuracy.SOLUTION: Provided is a data correlating device and method for learning a correlation model of first and second series data obtained from the same data source and correlating, on the basis of the learned correlation model, object data that belongs to one first or second series data with data that belongs to the other second or first series data, wherein each of the first and second series data obtained from the same data source is vectorized, the correlation model of the first and second series data is learned on the basis of the vectorized first and second series data, and a correlation degree is predefined that is the degree of mutual correlation of data, among the first and second series data that are acquired from two discretionary data sources, with the correlation model learned utilizing the correlation degree.SELECTED DRAWING: Figure 10

Description

本発明は、データ対応付け装置及び方法に関し、例えば、シェールオイル・ガスの採掘の際に得られたセンサデータと、レポートのテキストデータとを対応付けるデータ対応付け装置に適用して好適なものである。   The present invention relates to a data association apparatus and method, and is suitable for application to, for example, a data association apparatus that associates sensor data obtained during mining of shale oil and gas with text data of a report. .

従来、シェールオイル・ガスの採掘では、採掘中にドリルに先端に取り付けられた各種センサによってガンマ線量等の様々な数値を定期的に測定する一方で、ある一定の間隔で石を採取し、その特徴(色、硬度、オイル染みの有無など)をテキストでレポートしている。そしてオペレータは、これらの情報に基づいて次のオペレーションを決定している。   Conventionally, in shale oil and gas mining, various numerical values such as gamma dose are periodically measured by various sensors attached to the tip of the drill during mining, while stones are collected at certain intervals. Features (text, hardness, oil stains, etc.) are reported in text. The operator determines the next operation based on these pieces of information.

センサデータは、数値データであるため解釈が難しいという欠点を有するものの、全自動で収集できるという利点を有する。一方、レポートはテキストデータであるため解釈が容易であるという利点を有するものの、レポートの作成にはコストがかかるという欠点がある。このためセンサデータは存在するもののレポートが存在しない地点もある。   Although sensor data is numerical data, it has a disadvantage that it is difficult to interpret, but has an advantage that it can be collected automatically. On the other hand, since the report is text data, it has an advantage that it is easy to interpret, but there is a drawback that the report is expensive. For this reason, there is a point where sensor data exists but no report exists.

そこで、レポートが存在しない地点のセンサデータに対して、既存のレポートのテキストデータの中から適切なレポートのテキストデータを対応付けることができれば、お互いの欠点が補完でき、オペレータが次のオペレーションを決定する際の有力な資料となり得るものと考えられる。   Therefore, if it is possible to associate the text data of the appropriate report from the text data of the existing report with the sensor data at the point where the report does not exist, the mutual disadvantages can be complemented, and the operator determines the next operation. It is thought that it can be a powerful material for the occasion.

この場合において、従来、異なる種類のデータを対応付ける技術が特許文献1及び2に開示されている。特許文献1に開示された技術は、人の移動に対し、センサから得られる数値データとテキスト(例えば「ゆっくり歩く」)を対応付けるものである。また特許文献2に開示された技術は、料理の写真とそのレシピから、料理の写真と素材を対応付けるものである。   Conventionally, techniques for associating different types of data in this case are disclosed in Patent Documents 1 and 2. The technique disclosed in Patent Document 1 associates numerical data obtained from a sensor with text (for example, “slow walking”) with respect to human movement. The technique disclosed in Patent Document 2 associates a dish photo with a material from a dish photo and its recipe.

特開2013−250862号公報JP 2013-250862 A 特開2015−41225号公報JP2015-41225A

ところで、一般的に、異なる種類のデータを対応付けるデータ対応付け装置は、同じデータ源から得られる2つの系列データからデータ間の対応関係を学習し、一方の系列の新たなデータが与えられた場合に、学習した対応関係を用いて、その新たなデータに対応する他方の系列のデータを出力する。   By the way, in general, a data association device that associates different types of data learns correspondence between data from two series data obtained from the same data source, and is given new data of one series Then, using the learned correspondence, the other series of data corresponding to the new data is output.

そしてデータ対応付け装置が2つの系列データ間の対応関係を学習する際は、同じデータ源から得られたデータ間の距離を最小化するよう、これら2つの系列データを対応付ける計算式を決定するが、その他にも考慮すべき距離がある。   When the data association apparatus learns the correspondence between two series data, a calculation formula that associates these two series data is determined so as to minimize the distance between the data obtained from the same data source. There are other distances to consider.

例えば、シェールオイル・ガス掘削では、上述のテキストデータ及び数値データといった2つの系列データが物理的に近い地層で取得された場合、それらのデータ間の距離も近くなるべきである。従来の対応関係の計算方法には、このようなデータ源間の距離が考慮されておらず、精度の高いデータの対応付けを行い得ない問題があった。   For example, in shale oil and gas drilling, when two series of data such as the text data and numerical data described above are acquired in a physically close formation, the distance between the data should be close. The conventional correspondence calculation method does not take into account such a distance between data sources, and has a problem that data cannot be associated with high accuracy.

本発明は以上の点を考慮してなされたもので、精度の高いデータの対応付けを行い得るデータ対応付け装置及び方法を提案しようとするものである。   The present invention has been made in view of the above points, and intends to propose a data association apparatus and method capable of performing highly accurate data association.

かかる課題を解決するため本発明においては、同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において、同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化するベクトル化部と、前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する対応モデル学習部と設け、前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、前記対応モデル学習部が、前記相関度を利用して前記対応モデルを学習するようにした。   In order to solve such a problem, in the present invention, a correspondence model of the first and second series data obtained from the same data source is learned, and one of the first or first ones is based on the learned correspondence model. The first and second series data obtained from the same data source in a data association apparatus for associating target data belonging to two series data with data belonging to the other second or first series data And a corresponding model learning unit for learning the corresponding model of the first and second series data based on the vectorized first and second series data, respectively. A correlation degree that is a degree of correlation between data acquired from any two different data sources among the first and second series data is defined in advance, Model learning unit, and adapted to learn the correspondence model by using the correlation.

また本発明においては、同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において実行されるデータ対応付け方法であって、前記データ対応付け装置が、同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化する第1のステップと、前記データ対応付け装置が、前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する第2のステップとを設け、前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、前記第2のステップにおいて、前記データ対応付け装置は、前記相関度を利用して前記対応モデルを学習するようにした。   In the present invention, the correspondence model of the first and second series data obtained from the same data source is learned, and one of the first or second series data is obtained based on the learned correspondence model. A data association method executed in a data association apparatus for associating target data belonging to data belonging to the other second or first series data, the data association apparatus from the same data source A first step of vectorizing the obtained first and second sequence data, respectively, and the data association apparatus, based on the vectorized first and second sequence data, A second step of learning the correspondence model of the first and second series data, and any two different data sources of the first and second series data Defined correlation is the degree of correlation of the acquired data with each other in advance, in the second step, the data associating apparatus was configured to learn the correspondence model by using the correlation.

本データ対応付け装置及び方法によれば、データ源間の相関度を考慮して、より精度の高い対応モデルを学習することができる。   According to this data association apparatus and method, it is possible to learn a correspondence model with higher accuracy in consideration of the degree of correlation between data sources.

本発明によれば、より精度良くデータの対応付けを行うことができる。   According to the present invention, data can be associated with higher accuracy.

第1及び第2の実施の形態によるデータ対応付け装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the data matching apparatus by 1st and 2nd embodiment. 第1及び第2の実施の形態によるデータ対応付け装置の論理構成を示すブロック図である。It is a block diagram which shows the logic structure of the data matching apparatus by 1st and 2nd embodiment. シェールオイル・ガス掘削の概要説明に供する概念図である。It is a conceptual diagram with which it uses for the outline | summary description of shale oil and gas drilling. テキストデータの構造例を示す概念図である。It is a conceptual diagram which shows the structural example of text data. 第1の実施の形態におけるベクトル化されたテキストデータの構造例を示す概念図である。It is a conceptual diagram which shows the structural example of the vectorized text data in 1st Embodiment. 第1の実施の形態によるテキストデータベクトル化処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the text data vectorization process by 1st Embodiment. 数値データの構造例を示す概念図である。It is a conceptual diagram which shows the structural example of numerical data. 第1の実施の形態におけるベクトル化された数値データの構造例を示す概念図である。It is a conceptual diagram which shows the structural example of the vectorized numerical data in 1st Embodiment. 第1の実施の形態による数値データベクトル化処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the numerical data vectorization process by 1st Embodiment. 第1の実施の形態における対応モデル学習部の処理概要の説明に供する概念図である。It is a conceptual diagram with which it uses for description of the process outline | summary of the corresponding model learning part in 1st Embodiment. 物理的距離による相関度の説明に供する概念図である。It is a conceptual diagram with which it uses for description of the correlation degree by physical distance. 第1の実施の形態による対応モデル学習処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the corresponding model learning process by 1st Embodiment. 対応データ検索部による対応データ検索処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the corresponding data search process by a corresponding data search part. 第2の実施の形態におけるベクトル化されたテキストデータの構造例を示す概念図である。It is a conceptual diagram which shows the structural example of the vectorized text data in 2nd Embodiment. 第2の実施の形態におけるベクトル化された数値データの構造例を示す概念図である。It is a conceptual diagram which shows the structural example of the vectorized numerical data in 2nd Embodiment. 第2の実施の形態よる対応モデル学習部の処理概要の説明に供するフロー図である。It is a flowchart with which it uses for description of the process outline | summary of the corresponding model learning part by 2nd Embodiment.

以下図面について、本発明の一実施の形態を詳述する。   Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.

(1)第1の実施の形態
(1−1)本実施の形態によるデータ対応付け装置の構成
図1において、1は全体として本実施の形態によるデータ対応付け装置のハードウェア構成を示す。本データ対応付け装置1は、プロセッサ2、メモリ3、補助記憶装置4及び入出力インタフェース5を備えて構成される。
(1) First Embodiment (1-1) Configuration of Data Correlation Device According to this Embodiment In FIG. 1, 1 indicates the hardware configuration of a data association device according to this embodiment as a whole. The data association apparatus 1 includes a processor 2, a memory 3, an auxiliary storage device 4, and an input / output interface 5.

プロセッサ2は、データ対応付け装置1全体の動作制御を司る機能を有するデバイスである。またメモリ3は、例えば半導体メモリから構成され、主としてプログラムやデータを一時的に保持するために利用される。後述するデータベクトル化プログラム10、対応モデル学習プログラム11及び対応データ検索プログラム12もこのメモリ3に格納されて保持される。   The processor 2 is a device having a function for controlling operation of the entire data association apparatus 1. The memory 3 is composed of, for example, a semiconductor memory, and is mainly used for temporarily storing programs and data. A data vectorization program 10, a corresponding model learning program 11, and a corresponding data search program 12 described later are also stored and held in the memory 3.

補助記憶装置4は、例えばハードディスク装置やSDD(Solid State Drive)などの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。補助記憶装置4に格納されたプログラムが起動時又は必要時にメモリ3にロードされ、このプログラムをプロセッサ2が実行することにより、データ対応付け装置1全体としての各種処理が実行される。   The auxiliary storage device 4 is composed of a large-capacity storage device such as a hard disk device or an SDD (Solid State Drive), and is used to hold programs and data for a long period of time. A program stored in the auxiliary storage device 4 is loaded into the memory 3 at the time of activation or when necessary, and the processor 2 executes the program, whereby various processes as the entire data association device 1 are executed.

入出力インタフェース5は、データ対応付け装置1に周辺機器を接続するためのインタフェースであり、キーボード及びマウスなどの入力装置13と、液晶ディスプレイ又は有機ELディスプレイなどの表示装置14となどが接続される。入力装置13は、ユーザがデータ対応付け装置1に指示や情報などを入力するためのハードウェアデバイスであり、表示装置14は、入出力用の各種画面を表示するハードウェアデバイスである。   The input / output interface 5 is an interface for connecting peripheral devices to the data association device 1 and is connected to an input device 13 such as a keyboard and a mouse and a display device 14 such as a liquid crystal display or an organic EL display. . The input device 13 is a hardware device for a user to input instructions and information to the data association device 1, and the display device 14 is a hardware device for displaying various screens for input / output.

図2は、本実施の形態によるデータ対応付け装置1の論理構成を示す。本データ対応付け装置1は、データベクトル化部20、対応モデル学習部21、対応データ検索部22、データ蓄積部23及び対応モデル蓄積部24を備えて構成される。   FIG. 2 shows a logical configuration of the data association apparatus 1 according to the present embodiment. The data association apparatus 1 includes a data vectorization unit 20, a correspondence model learning unit 21, a correspondence data search unit 22, a data storage unit 23, and a correspondence model storage unit 24.

データベクトル化部20は、プロセッサ2がメモリ3にロードされたデータベクトル化プログラム10(図1)を実行することにより具現化される機能部であり、本実施の形態の場合、テキストデータベクトル化部25及び数値データベクトル化部26から構成される。   The data vectorization unit 20 is a functional unit embodied by the processor 2 executing the data vectorization program 10 (FIG. 1) loaded in the memory 3, and in the case of the present embodiment, text data vectorization is performed. And a numerical data vectorization unit 26.

テキストデータベクトル化部25は、テキストデータ27をベクトル化する機能を有する機能部である。テキストデータベクトル化部25は、後述する学習モード時には、ベクトル化したテキストデータ27(以下、これをテキストデータベクトルと呼ぶ)と、そのテキストデータ27とをデータ蓄積部23に格納し、後述する対応データ検索モード時には、テキストデータ及びそのテキストデータベクトルを対応データ検索部22に出力する。   The text data vectorization unit 25 is a functional unit having a function of vectorizing the text data 27. The text data vectorization unit 25 stores the vectorized text data 27 (hereinafter referred to as a text data vector) and the text data 27 in the data storage unit 23 in the learning mode to be described later. In the data search mode, the text data and the text data vector are output to the corresponding data search unit 22.

また数値データベクトル化部26は、数値データ28をベクトル化する機能を有する機能部である。数値データベクトル化部26は、ベクトル化した数値データ28(以下、これを数値データベクトルと呼ぶ)と、その数値データ28とをデータ蓄積部23に格納し、対応データ検索モード時には、数値データ28及びその数値データベクトルを対応データ検索部22に出力する。   The numerical data vectorization unit 26 is a functional unit having a function of vectorizing the numerical data 28. The numeric data vectorization unit 26 stores the vectorized numeric data 28 (hereinafter referred to as numeric data vector) and the numeric data 28 in the data storage unit 23. In the corresponding data search mode, the numeric data 28 And the numerical data vector thereof are output to the corresponding data search unit 22.

対応モデル学習部21は、プロセッサ2がメモリ3にロードされた対応モデル学習プログラム11(図1)を実行することにより具現化される機能部であり、データ蓄積部23に蓄積されたテキストデータベクトル及び数値データベクトルに基づいて、テキストデータ27及び数値データ28の対応関係を学習する機能を有する。対応モデル学習部21は、かかる学習により得られたテキストデータ27及び数値データ28の対応モデルを対応モデル蓄積部24に格納する。   The correspondence model learning unit 21 is a functional unit that is realized by the processor 2 executing the correspondence model learning program 11 (FIG. 1) loaded in the memory 3, and the text data vector stored in the data storage unit 23. And the function of learning the correspondence between the text data 27 and the numerical data 28 based on the numerical data vector. The correspondence model learning unit 21 stores the correspondence model of the text data 27 and the numerical data 28 obtained by the learning in the correspondence model accumulation unit 24.

対応データ検索部22は、対応データ検索モード時に対象データ29として与えられ、データベクトル化部20によりベクトル化されたテキストデータ27に対応する数値データ、又は、データベクトル化部20によりベクトル化された数値データ28に対応するテキストデータを、対応モデル蓄積部24に蓄積された対応モデルを参照してデータ蓄積部23に格納された数値データ28又はテキストデータ27の中から検索する機能を有する機能部である。   Corresponding data search unit 22 is given as target data 29 in the corresponding data search mode, and numerical data corresponding to text data 27 vectorized by data vectorization unit 20 or vectorized by data vectorization unit 20 A functional unit having a function of searching text data corresponding to the numerical data 28 from the numerical data 28 or the text data 27 stored in the data storage unit 23 with reference to the corresponding model stored in the corresponding model storage unit 24 It is.

なおデータ蓄積部23及び対応モデル蓄積部24は、メモリ3(図1)又は補助記憶装置4(図1)内に予め確保された記憶領域である。   The data storage unit 23 and the corresponding model storage unit 24 are storage areas secured in advance in the memory 3 (FIG. 1) or the auxiliary storage device 4 (FIG. 1).

かかる構成を有する本データ対応付け装置1では、テキストデータ27と数値データ28との対応モデルを学習する学習モード時、既に対応付けられている複数対のテキストデータ27及び数値データ28が訓練データとして順次与えられる。   In the data association apparatus 1 having such a configuration, in a learning mode in which a correspondence model between the text data 27 and the numerical data 28 is learned, a plurality of pairs of text data 27 and numerical data 28 that are already associated are used as training data. Given sequentially.

そしてデータ対応付け装置1は、かかる訓練データが与えられると、テキストデータ27をテキストデータベクトル化部25においてベクトル化すると共に、数値データ28を数値データベクトル化部26においてベクトル化し、かくして得られたテキストデータベクトル及び数値データベクトルと、元のテキストデータ27及び数値データ28とをデータ蓄積部23に格納する。   When such training data is given, the data association apparatus 1 vectorizes the text data 27 in the text data vectorization unit 25 and vectorizes the numeric data 28 in the numeric data vectorization unit 26, thus obtained. The text data vector and numerical data vector, and the original text data 27 and numerical data 28 are stored in the data storage unit 23.

また対応モデル学習部21は、データ蓄積部23に蓄積された既に対応付けられているテキストデータベクトル及び数値データベクトルのベクトル対に基づいて、テキストデータ27及び数値データ28の対応モデルを生成し、生成した対応モデルを対応モデル蓄積部24に格納する。   Further, the correspondence model learning unit 21 generates a correspondence model of the text data 27 and the numerical data 28 based on the vector pair of the text data vector and the numerical data vector already associated stored in the data storage unit 23, The generated corresponding model is stored in the corresponding model storage unit 24.

以上により、データ対応付け装置1は、テキストデータ又は数値データが対象データ29として与えられたときに、そのテキストデータ又は数値データに対応する数値データ又はテキストデータをデータ蓄積部23に蓄積された数値データ又はテキストデータの中から検索する対応データ検索処理を実行可能となる。   As described above, when the text data or numerical data is given as the target data 29, the data association device 1 stores the numerical data or text data corresponding to the text data or numerical data stored in the data storage unit 23. Corresponding data search processing for searching from data or text data can be executed.

そしてデータ対応付け装置1は、この後、動作モードがかかる対応データ検索処理を実行する対応データ検索モードに切り替えられ、対応付けの対象となる対象データ29が与えられると、その対象データ29がテキストデータであった場合には、テキストデータベクトル化部25においてその対象データ29をベクトル化する一方、当該対象データ29が数値データであった場合には数値データベクトル化部26においてその対象データ29をベクトル化する。そして、このようにしてベクトル化された対象データ29(以下、これを対象データベクトルと呼ぶ)は、この後、対応データ検索部22に与えられる。   After that, the data association apparatus 1 is switched to the correspondence data search mode for executing the correspondence data search processing with the operation mode, and when the target data 29 to be associated is given, the target data 29 is converted into the text. If the target data 29 is numeric data, the text data vectorization unit 25 vectorizes the target data 29. If the target data 29 is numeric data, the numeric data vectorization unit 26 converts the target data 29 into vector data. Vectorize. The target data 29 vectorized in this way (hereinafter referred to as the target data vector) is then given to the corresponding data search unit 22.

対応データ検索部22は、データベクトル化部20から上述の対象データベクトルが与えられると、対応モデル蓄積部24に蓄積されている対応モデルを読み出し、読み出した対応モデルを用いて対象データベクトルに対応付けるべきテキストデータベクトル又は数値データベクトルとして最も適切なテキストデータベクトル又は数値データベクトルをデータ蓄積部23上で検索する。そして対応データ検索部22は、この検索により検出した、対象データベクトルに対応付けるべきテキストデータベクトル又は数値データベクトルを検出すると、そのテキストデータベクトル又は数値データベクトルに対応する元のテキストデータ又は数値データを対応データ30として出力する。かくして、この対応データ30に関する所定情報が、対象データ29に対応するデータの検索結果として表示装置14に表示される。   When the corresponding data search unit 22 is given the above-described target data vector from the data vectorization unit 20, the corresponding data search unit 22 reads the corresponding model stored in the corresponding model storage unit 24, and associates it with the target data vector using the read corresponding model. The most suitable text data vector or numeric data vector as the power text data vector or numeric data vector is searched on the data storage unit 23. Then, when the corresponding data search unit 22 detects the text data vector or numerical data vector to be associated with the target data vector detected by the search, the corresponding data search unit 22 determines the original text data or numerical data corresponding to the text data vector or numerical data vector. Output as correspondence data 30. Thus, the predetermined information related to the correspondence data 30 is displayed on the display device 14 as a search result of data corresponding to the target data 29.

(1−2)本実施の形態の対象データ
図3は、本実施例が対象とする、シェールオイル・ガス掘削の概要を示す。シェールオイル・ガス掘削では、油井40を下方向に掘り進め、シェール層に達したら、掘削方向を横に変える。41は掘削経路を示す。シェール層では、水圧破砕により岩盤に裂け目42を形成し、形成した裂け目42からオイル・ガスを抽出する。
(1-2) Target Data of the Present Embodiment FIG. 3 shows an outline of shale oil / gas drilling targeted by the present embodiment. In shale oil / gas drilling, the oil well 40 is drilled downward, and when the shale layer is reached, the drilling direction is changed to the side. Reference numeral 41 denotes an excavation route. In the shale layer, a fissure 42 is formed in the rock by hydraulic fracturing, and oil and gas are extracted from the formed fissure 42.

かかるシェールオイル・ガスの掘削中は、2種類の情報をログとして収集する。1つ目は、ドリルに配設されたセンサから収集した数値データである。例えば、含有炭素量を調べるためにガンマ線量を測定する。2つ目は、サンプリングした石の特徴を記述したテキストデータである。テキストデータには、サンプリングされた石の色、硬さ、油染みの有無などの情報を所定フォーマットで記述する。両者は、掘削経路41に沿って一定の間隔で取得する。オペレータは、二種類のログ情報から、どこで水平掘りに変えるか、どこで水圧破砕を行うかを決定する。   During excavation of such shale oil and gas, two types of information are collected as logs. The first is numerical data collected from sensors arranged on the drill. For example, gamma dose is measured in order to check the carbon content. The second is text data describing the characteristics of the sampled stone. In the text data, information such as the color of the sampled stone, hardness, and the presence or absence of oil stain is described in a predetermined format. Both are acquired at regular intervals along the excavation path 41. The operator decides where to change to horizontal digging and where to perform hydraulic fracturing from the two types of log information.

テキストデータは、オペレータに内容が理解しやすい反面で、サンプリングや作成にコストを要する。よってその取得間隔は比較的長い。一方、数値データは自動で取得できるため、データの取得間隔は短い。しかし、数値データの解釈には専門知識を要する。   Text data is easy for the operator to understand, but requires cost for sampling and creation. Therefore, the acquisition interval is relatively long. On the other hand, since numerical data can be acquired automatically, the data acquisition interval is short. However, interpretation of numerical data requires specialized knowledge.

そこで本実施の形態においては、掘削経路41内の同一地点において得られたテキストデータ及び数値データに基づき図1及び図2について上述した本実施の形態のデータ対応付け装置1により両者の対応関係を学習し、一方から他方を自動生成する(正確には、それまでに得られたテキストデータ又は数値データの中から最も適切と推定されるものを対応付ける)ことで、お互いの欠点を補い合うようにする。これにより、石がサンプリングされていない地点に対しても、学習した対応関係を用いて、数値データから既存のテキストデータの中から最も近いと推定されるテキストデータを選択してその数値データに対応付けることができる。   Therefore, in the present embodiment, the correspondence between the two is determined by the data association apparatus 1 of the present embodiment described above with reference to FIGS. 1 and 2 based on the text data and the numerical data obtained at the same point in the excavation route 41. Learn and automatically generate one to the other (to be exact, associate the most likely estimate of text or numerical data obtained so far) to compensate for each other's deficiencies . As a result, even for a point where no stone is sampled, the learned correspondence is used to select the text data that is estimated to be the closest from the existing text data from the numerical data and associate it with the numerical data. be able to.

(1−3)テキストデータベクトル化部の処理
図4は、本実施の形態によるテキストデータ27の構造例を示す。この図4の例の場合、テキストデータ27は、石を採取(サンプリング)した地点の深さの範囲(以下、これを第1の深さ範囲と呼ぶ)を表す文字列のデータからなる深さ範囲データ部50と、その第1の深さ範囲内の深さの地層においてサンプリングされた石の詳細説明のテキストのデータからなる詳細説明データ部51とから構成される。なお、ここでの「深さ」とは、油井40の入り口からの掘削経路長である。
(1-3) Processing of Text Data Vectorization Unit FIG. 4 shows a structural example of the text data 27 according to this embodiment. In the case of the example of FIG. 4, the text data 27 is a depth composed of character string data representing a depth range (hereinafter referred to as a first depth range) where a stone is collected (sampled). The range data part 50 and the detailed description data part 51 including the text data of the detailed description of the stone sampled in the formation of the depth within the first depth range are configured. Here, the “depth” is the excavation path length from the entrance of the oil well 40.

詳細説明データ部51には、対応する第1の深さ範囲でサンプリングされた石の特徴の詳細説明がある一定のルールの下で記述される。なお図4は、『「色」、「硬さ」、「表面の滑らかさ」、「油染みの有無」、……の順番にカンマで区切って順次記述する』というルールに従って石の特徴が記述されている例を示している。この詳細説明データ部51は、人手により入力される。このようにテキストデータ27は、個々の第1の深さ範囲ごとの石の特徴が記述された系列データである。   The detailed description data portion 51 is described under a certain rule with a detailed description of the characteristics of the stone sampled in the corresponding first depth range. In FIG. 4, the characteristics of the stone are described according to the rule of “describe sequentially in the order of“ color ”,“ hardness ”,“ smoothness of the surface ”,“ presence / absence of oil stain ”,... An example is shown. The detailed explanation data portion 51 is manually input. As described above, the text data 27 is series data in which the characteristics of stones for each first depth range are described.

図5は、このようなテキストデータ27をテキストデータベクトル化部25(図2)においてベクトル化することにより得られたテキストデータベクトル52の構造例を示す。本実施の形態においては、テキストデータベクトル化部25がテキストデータ27を第1の深さ範囲を複数含む一定の深さごと(例えば図4において500〔m〕ごと)に区分して、区分(以下、これを深さ範囲区分と呼ぶ)ごとに、その深さ範囲区分に属する各第1の深さ範囲の各テキストデータをまとめてベクトル化する。   FIG. 5 shows an example of the structure of the text data vector 52 obtained by vectorizing such text data 27 in the text data vectorization unit 25 (FIG. 2). In the present embodiment, the text data vectorization unit 25 divides the text data 27 into certain depths including a plurality of first depth ranges (for example, every 500 [m] in FIG. 4), and classifies ( Hereinafter, each text data of each first depth range belonging to the depth range section is vectorized together for each time).

テキストデータベクトル52の要素は、対応する深さ範囲区分に属する各第1の深さ範囲と対応する各テキストデータ27に基づく各テキストにおける、サンプリングされた石の属性(特徴)ごとの各属性値の出現頻度である。図5の例の場合、石の属性として、「色」、「硬さ」及び「表面の滑らかさ」などが挙げられており、これらの属性ごとにそれぞれ属性値の頻度が羅列されている。例えば、「色」という属性については、対応する深さ範囲区分に含まれる各第1の深さ範囲のテキストデータ27の詳細説明データ部51内に「red(赤色)」という属性値が「10」回、「yellow(黄色)」という属性値が「0」回、「brown(茶色)」という属性値が「5」回出現し、連続する3つの第1の深さ範囲において「red-red-red」という石の色の組合せが出現した回数が「0」、「red-red-yellow」という石の色の組合せが出現した回数が「2」回、「brown-brown-brown」という石の色の組合せが出現した回数が「3」回であったことが示されている。   The elements of the text data vector 52 are attribute values for each sampled stone attribute (feature) in each text based on each text data 27 corresponding to each first depth range belonging to the corresponding depth range section. Frequency of occurrence. In the example of FIG. 5, “color”, “hardness”, “smoothness of surface”, and the like are listed as stone attributes, and the frequency of attribute values is listed for each of these attributes. For example, for the attribute “color”, the attribute value “red (red)” is set to “10” in the detailed description data portion 51 of the text data 27 of each first depth range included in the corresponding depth range section. ”Times, the attribute value“ yellow ”appears“ 0 ”times, the attribute value“ brown ”appears“ 5 ”times, and“ red-red ”appears in three consecutive first depth ranges. -red "stone color combination appeared" 0 "," red-red-yellow "stone color combination appeared" 2 "times," brown-brown-brown "stone It is shown that the number of times that the color combination of “3” appeared was “3”.

図6は、学習モード時に、訓練データとして、それぞれ数値データ28との対応付けがなされている系列の複数のテキストデータ27が順番に与えられたときにテキストデータベクトル化部25により実行されるテキストデータベクトル化処理の処理手順を示す。テキストデータベクトル化部25は、この図6に示す処理手順に従って、これらのテキストデータ27をベクトル化する。   FIG. 6 shows the text executed by the text data vectorization unit 25 when a plurality of text data 27 in a series each associated with the numerical data 28 is sequentially given as training data in the learning mode. The processing procedure of data vectorization processing is shown. The text data vectorization unit 25 vectorizes these text data 27 according to the processing procedure shown in FIG.

実際上、テキストデータベクトル化部25は、テキストデータ27が与えられるとこの図6に示すテキストデータベクトル化処理を開始し、まず、そのとき与えられたテキストデータ27が文書画像(文書をスキャンした画像)であるか否かを判断する(SP1)。   In practice, the text data vectorization unit 25 starts the text data vectorization processing shown in FIG. 6 when the text data 27 is given. First, the text data 27 given at that time is converted into a document image (scanned document). (SP1).

そしてテキストデータベクトル化部25は、この判断で否定結果を得るとステップSP3に進み、これに対して肯定結果を得ると、その文書画像に対してOCR(Optical Character Recognition)処理を実行することにより、その文書画像に記載されている各文字列をそれぞれ認識する(SP2)。   If the text data vectorization unit 25 obtains a negative result in this determination, it proceeds to step SP3, and if it obtains a positive result, it performs OCR (Optical Character Recognition) processing on the document image. Each character string described in the document image is recognized (SP2).

続いて、テキストデータベクトル化部25は、テキストデータ27からテキストの各ブロックをそれぞれ抽出するレイアウト処理を実行する(SP3)。例えば、図4の例の場合、テキストデータベクトル化部25は、各深さ範囲データ部50と、各詳細説明データ部51とをそれぞれテキストのブロックとして抽出する。この際、テキストデータベクトル化部25は、深さ範囲データ部50と、これに対応する詳細説明データ部51とを対応付けておく。   Subsequently, the text data vectorization unit 25 executes a layout process for extracting each block of text from the text data 27 (SP3). For example, in the case of the example of FIG. 4, the text data vectorization unit 25 extracts each depth range data unit 50 and each detailed explanation data unit 51 as a text block. At this time, the text data vectorization unit 25 associates the depth range data unit 50 with the corresponding detailed explanation data unit 51.

次いで、テキストデータベクトル化部25は、ステップSP3で抽出した各深さ範囲データ部50及び各詳細説明データ部51を、0〜500〔m〕、500〜1000〔m〕、1000〜1500〔m〕、……といったように、上述の深さ範囲区分に対応するものごとに分割する(SP4)。   Next, the text data vectorization unit 25 converts each depth range data unit 50 and each detailed explanation data unit 51 extracted in step SP3 into 0-500 [m], 500-1000 [m], 1000-1500 [m]. ],..., And so on (SP4).

またテキストデータベクトル化部25は、深さ範囲区分ごとに、その深さ範囲区分に含まれる第1の深さ範囲ごとの詳細説明データ部51のテキストデータに基づくテキストを句ごとに分割する(SP5)。例えば、図4の例では、上述のように詳細説明データ部51に石の特徴が『「色」、「硬さ」、「表面の滑らかさ」、「油染みの有無」、……の順番にカンマで区切って順次記述する』というルールの下で記述されているため、カンマごとに文字列を区切ることによりテキストを句ごとに分割することができる。この場合、各句は、それぞれ石の何らかの属性の属性値を表すことになる。   Further, the text data vectorization unit 25 divides the text based on the text data of the detailed explanation data unit 51 for each first depth range included in the depth range segment for each depth range segment for each phrase ( SP5). For example, in the example of FIG. 4, as described above, in the detailed description data unit 51, the stone features are “color”, “hardness”, “surface smoothness”, “presence / absence of oil stain”, and so on. Since it is described under the rule of “describe sequentially with commas”, the text can be divided into phrases by separating character strings for each comma. In this case, each phrase represents an attribute value of some attribute of the stone.

次いで、テキストデータベクトル化部25は、深さ範囲区分ごとに、ステップSP5で分割した各句を属性値の所定の辞書と符合することにより、各句が表す属性値をそれぞれ抽出し(SP6)、この後、ステップSP6で抽出した属性値の出現頻度を属性ごとに集計した後(SP7)、このテキストデータベクトル化処理を終了する。   Next, the text data vectorization unit 25 extracts each attribute value represented by each phrase by matching each phrase divided in step SP5 with a predetermined dictionary of attribute values for each depth range section (SP6). Thereafter, the appearance frequency of the attribute value extracted in step SP6 is tabulated for each attribute (SP7), and then the text data vectorization process is terminated.

(1−4)数値データベクトル化部の処理
一方、図7は、数値データ28の一例を示す。この図7は、ドリルに配設されたセンサにより計測された所定深さごとのガンマ線量を表す。数値データベクトル化部26は、このような数値データ28を上述のテキストデータ27の深さ範囲区分と同じ深さ範囲(例えば、0〜500〔m〕、500〜1000〔m〕、1000〜1500〔m〕、……)ごとに区分して、深さ範囲区分ごとに、その深さ範囲区分に属する複数の数値データ28をまとめてベクトル化する。
(1-4) Processing of Numerical Data Vectorization Unit On the other hand, FIG. FIG. 7 shows the gamma dose for each predetermined depth measured by a sensor disposed on the drill. The numerical data vectorization unit 26 converts the numerical data 28 into the same depth range (for example, 0 to 500 [m], 500 to 1000 [m], 1000 to 1500) as the depth range section of the text data 27 described above. [M],...), And for each depth range segment, a plurality of numerical data 28 belonging to the depth range segment are collectively vectorized.

図8は、図7の数値データ28のうち0〜500〔m〕の深さ範囲区分に属する複数の数値データ28をまとめて数値データベクトル化部26によりベクトル化した結果(数値データベクトル)53の一例を示す。このベクトル化により得られる数値データベクトル53の要素には2種類ある。1つ目の要素は、対応する深さ範囲区分内での数値の平均値53Aであり、2つ目の要素は、記号化した数値データ系列の頻度53Bである。数値データの記号化には、例えばSAX(Symbolic Aggregate Approximation)法を用いる。SAX法では、各数値を一文字に変換する。変換後の数値データ28は文字列になる。本実施の形態では、連続する3文字の頻度を数値データ系列の頻度とする。例えば、図8において「35」は、「aaa」という記号の頻度である。   FIG. 8 shows a result (numerical data vector) 53 of the numerical data vectorization unit 26 that combines a plurality of numerical data 28 belonging to the depth range of 0 to 500 [m] among the numerical data 28 of FIG. An example is shown. There are two types of elements of the numerical data vector 53 obtained by this vectorization. The first element is the average value 53A of the numerical values in the corresponding depth range section, and the second element is the frequency 53B of the symbolized numerical data series. For example, the SAX (Symbolic Aggregate Approximation) method is used for the symbolization of numerical data. In the SAX method, each numerical value is converted into one character. The converted numeric data 28 is a character string. In the present embodiment, the frequency of three consecutive characters is set as the frequency of the numerical data series. For example, in FIG. 8, “35” is the frequency of the symbol “aaa”.

図9は、数値データベクトル化部26が、訓練データとして、それぞれテキストデータ27との対応付けがなされている系列の数値データ28が与えられたときに実行する数値データベクトル化処理の処理手順を示す。数値データベクトル化部26は、この図9に示す処理手順に従って、これらの数値データ28をベクトル化する。   FIG. 9 shows the processing procedure of the numerical data vectorization processing that is executed when the numerical data vectorization unit 26 is provided with a series of numerical data 28 each associated with the text data 27 as training data. Show. The numerical data vectorization unit 26 vectorizes these numerical data 28 according to the processing procedure shown in FIG.

実際上、数値データベクトル化部26は、数値データ28が与えられるとこの図9に示す数値データベクトル化処理を開始し、まず、数値データ28を上述の深さ範囲区分ごとに分割する(SP10)。   Actually, the numerical data vectorization unit 26 starts the numerical data vectorization processing shown in FIG. 9 when the numerical data 28 is given, and first divides the numerical data 28 into the above-described depth range sections (SP10). ).

続いて、数値データベクトル化部26は、深さ範囲区分ごとに、その深さ範囲区分に属する各数値データ28の平均値を算出し(SP11)、その後、深さ範囲区分ごとに、その深さ範囲区分に属する各数値データ28をSAX法により記号化する(SP12)。   Subsequently, the numerical data vectorization unit 26 calculates an average value of the numerical data 28 belonging to the depth range section for each depth range section (SP11), and then the depth range section for each depth range section. Each numerical data 28 belonging to the range section is symbolized by the SAX method (SP12).

次いで、数値データベクトル化部26は、深さ範囲区分ごとに、ステップSP12の記号化により得られた各記号の出現頻度を集計し(SP13)、この後、この数値データベクトル化処理を終了する。   Next, the numerical data vectorization unit 26 totals the appearance frequency of each symbol obtained by the symbolization of step SP12 for each depth range section (SP13), and thereafter ends this numerical data vectorization processing. .

(1−5)対応モデル学習部の処理
図10は、対応モデル学習部21の処理の概要を示す。図中、60はテキストデータ27のベクトル空間(以下、これをテキストベクトル空間と呼ぶ)、61は数値データ28のベクトル空間(以下、これを数値ベクトル空間と呼ぶ)をそれぞれ示す。テキストデータ27及び数値データ28の対応モデルを学習するために、テキストベクトル空間60上のテキストデータ27のベクトル(テキストデータベクトル)と、数値ベクトル空間61上の数値データ28のベクトル(数値データベクトル)とを共通のベクトル空間(以下、これを共通空間と呼ぶ)62に射影する。63及び64は、それぞれかかるテキストデータベクトルや数値データベクトルに対するかかる射影を行うための変換行列L,Lである。
(1-5) Processing of Corresponding Model Learning Unit FIG. 10 shows an outline of processing of the corresponding model learning unit 21. In the figure, reference numeral 60 denotes a vector space of the text data 27 (hereinafter referred to as a text vector space), and 61 denotes a vector space of the numerical data 28 (hereinafter referred to as a numerical vector space). In order to learn a correspondence model between the text data 27 and the numerical data 28, a vector of the text data 27 in the text vector space 60 (text data vector) and a vector of the numerical data 28 in the numerical vector space 61 (numerical data vector) Are projected onto a common vector space (hereinafter referred to as a common space) 62. Reference numerals 63 and 64 denote transformation matrices L x and L y for performing such projection on the text data vector and the numerical data vector, respectively.

対応モデル学習部21では、共通空間62内での各ベクトルの配置が、以下の2つの特徴を持つような変換行列L,Lを学習する。1つ目の特徴は、共通空間62における任意の2つのベクトル対(図10では、テキストデータベクトルL 及び数値データベクトルL からなるベクトル対と、テキストデータベクトルL 及び数値データベクトルL からなるベクトル対)に関して、同じベクトル対内のテキストデータベクトル及び数値データベクトル(例えば、L 及びL i)間の距離を最小化し、かつ、一方のベクトル対の数値データベクトル及び他方のベクトル対のテキストデータベクトル(例えば、L 及びL )間の距離を最大化する特徴である。これは次式で与えられるAを最小化することに相当する。
The corresponding model learning unit 21 learns transformation matrices L x and L y in which the arrangement of each vector in the common space 62 has the following two features. The first feature is that any two vector pairs in the common space 62 (in FIG. 10, a vector pair composed of a text data vector L x T x i and a numeric data vector L y T y i and a text data vector L x For a vector pair consisting of T x j and numeric data vector L y T y j , minimize the distance between the text data vector and numeric data vector (eg, L x T x i and L y T y i ) within the same vector pair And the distance between the numerical data vector of one vector pair and the text data vector (for example, L y T y i and L x T x j ) of the other vector pair is maximized. This is equivalent to minimizing A given by the following equation.

なお(1)式において、xは、テキストベクトル空間60における「i」という地点で取得したテキストデータ27のテキストデータベクトル、yは、その地点で取得した数値データ28の数値データベクトルをそれぞれ示し、xは、テキストベクトル空間60における「j」という地点で取得したテキストデータ27のテキストデータベクトル、yは、その地点で取得した数値データ28の数値データベクトルを示す。さらにx ,x ,L ,L は、それぞれ対応するテキストデータベクトルx,x又は変換行列L,Lの置換行列を示す。 In equation (1), x i is the text data vector of the text data 27 acquired at the point “i” in the text vector space 60, and y i is the numerical data vector of the numerical data 28 acquired at the point. X j is a text data vector of the text data 27 acquired at the point “j” in the text vector space 60, and y j is a numerical data vector of the numerical data 28 acquired at the point. Further, x i T , x j T , L x T , and L y T indicate the permutation matrixes of the corresponding text data vectors x i , x j or transformation matrices L x , L y , respectively.

従って、対応モデル学習部21は、この(1)式で与えられるAを最小化するような、つまり対応しているデータ対(i=j)については共通空間62内での内積をより大きくし、対応していないデータ対(i≠j)については共通空間62内での内積をより小さくするような変換行列L,Lを学習することになる。 Therefore, the correspondence model learning unit 21 minimizes A given by the equation (1), that is, increases the inner product in the common space 62 for the corresponding data pair (i = j). For the data pairs that do not correspond (i ≠ j), the transformation matrices L x and L y that make the inner product in the common space 62 smaller are learned.

2つ目の特徴は、地層中で物理的に近い「i」という地点で取得したデータと、「j」という地点で取得したデータとからなるデータ対が、共通空間62内でも近くなるような特徴である。これは、次式で与えられるBを最小化することに相当する。
The second feature is that a data pair consisting of data acquired at a point “i” physically close in the formation and data acquired at a point “j” is also close in the common space 62. It is a feature. This is equivalent to minimizing B given by the following equation.

(2)式において、右辺第1項の「L −L 」は、一方のテキストデータ27のテキストデータベクトルxを共通空間62に射影したベクトルL と、他方のテキストデータ27のテキストデータベクトルxを共通空間62に射影したベクトルL との共通空間62上での距離を表す。また右辺第2項の「L −L 」は、かかる一方のテキストデータ27に対応する数値データ28の数値データベクトルyを共通空間62に射影したベクトルL と、かかる他方のテキストデータ27に対応する数値データ28の数値データベクトルyを共通空間62に射影したベクトルL との共通空間62上での距離表す。 (2) In the formula, "L x T x i -L x T x j 'of the first term on the right side, the vector L x T x i obtained by projecting the text data vector x i of one of the text data 27 to the common space 62 And the distance on the common space 62 to the vector L x T x j obtained by projecting the text data vector x j of the other text data 27 onto the common space 62. The second term “L y T y i -L y T y j ” on the right side is a vector L y T obtained by projecting the numeric data vector y i of the numeric data 28 corresponding to the one text data 27 onto the common space 62. expressed distance on the common space 62 between y i and the vector L y T y j of the numerical data vector y j by projecting the common space 62 of the numerical data 28 corresponding to such other text data 27.

また(2)式において、Wijは、「i」という地点と、「j」という地点との地層中での距離をパラメータとした行列であり、この行列の各要素は、これら2つの地点が近い場合に「1」に近い値を、遠い場合は「0」に近い値をとる。つまり、行列Wijは、「i」という地点から取得されたテキストデータ27及び数値データ28と、「j」という地点から取得されたテキストデータ27及び数値データ28との相関の度合い(より正確にはテキストデータ27及び数値データ28の類似の度合いであり、以下、これを相関度と呼ぶ)を表しており、これら2つの地点が物理的(地理的)に近いほど、共通空間62内でのユークリッド距離をより強く考慮する。 In equation (2), W ij is a matrix whose parameter is the distance between the point “i” and the point “j” in the formation, and each element of this matrix has the following two points: A value close to “1” is taken when the distance is close, and a value close to “0” is taken when the distance is far. That is, the matrix W ij indicates the degree of correlation between the text data 27 and the numerical data 28 acquired from the point “i” and the text data 27 and the numerical data 28 acquired from the point “j” (more accurately Represents the degree of similarity between the text data 27 and the numerical data 28, which is hereinafter referred to as a correlation), and the closer these two points are to physical (geographic), Consider Euclidean distance more strongly.

かかる行列Wijは、かかる2つの地点の垂直距離及び水平距離を考慮して定義する。シェールオイル・ガスの掘削では、垂直距離(深さ)が異なれば、地層が異なる可能性が高い。地層が異なれば、石の性質も異なるため、まずは垂直距離がある閾値を超えた場合は、かかる2つの地点の相関度を「0」にする。例えば、図11において、油井71の符号71Aで示された地点と、これと異なる油井72の符号72Aで示された地点とでは垂直距離(深さ)が大きく異なるため、(2)式において行列Wijの値を「0」にする。 The matrix W ij is defined in consideration of the vertical distance and the horizontal distance between the two points. When drilling shale oil and gas, if the vertical distance (depth) is different, the formation is likely to be different. If the strata are different, the nature of the stone will also be different. First, when the vertical distance exceeds a certain threshold, the correlation between these two points is set to “0”. For example, in FIG. 11, the vertical distance (depth) differs greatly between a point indicated by reference numeral 71A of the oil well 71 and a point indicated by reference numeral 72A of a different oil well 72. The value of W ij is set to “0”.

またこれ以外の場合(垂直距離が大きくは異ならない)には、上述の「i」という地点と、「j」という地点との間の水平距離に応じてこれら2つの地点間の相関度を決める。例えば、図11において、油井70の符号70Aで示された地点と、これと異なる油井71の符号71Aで示す地点については、これら2つの場所の水平距離に応じて行列Wijを決定する。この際、水平距離が「0」の場合は、相関度が最大の「1」に、水平距離が無限大の場合は、影響度が最小の「0」となるように行列Wijを決定する。行列Wijの設定例を次式に示す。 In other cases (the vertical distance is not significantly different), the degree of correlation between the two points is determined according to the horizontal distance between the point “i” and the point “j”. . For example, in FIG. 11, for a point indicated by reference numeral 70A of the oil well 70 and a point indicated by reference numeral 71A of a different well 71, the matrix W ij is determined according to the horizontal distance between these two locations. At this time, when the horizontal distance is “0”, the matrix W ij is determined so that the correlation degree is “1” that is the maximum, and when the horizontal distance is infinite, the influence degree is the minimum “0”. . An example of setting the matrix W ij is shown in the following equation.

なお、(3)式において、「dist(i,j)」は、「i」という地点と、「j」という地点との緯度及び経度上の距離を表す。   In Expression (3), “dist (i, j)” represents the latitude and longitude distance between the point “i” and the point “j”.

以上の点を考慮し、本実施の形態において、対応モデル学習部21は、上述の(1)式で与えられるAと、(2)式で与えられるBとの和(A+B)が最小となる変換行列L及びLを繰り返し法で求めることにより、対応モデルを学習する。 Considering the above points, in the present embodiment, the correspondence model learning unit 21 minimizes the sum (A + B) of A given by the above equation (1) and B given by the equation (2). The correspondence model is learned by obtaining the transformation matrices L x and L y by an iterative method.

図12は、このような対応モデルの学習の処理手順を示す。対応モデル学習部21は、この図12に示す処理手順に従って、上述のAとBとの和を最小とする変換行列L及び変換行列Lを求める。 FIG. 12 shows a processing procedure for learning such a correspondence model. The correspondence model learning unit 21 obtains the transformation matrix L x and the transformation matrix L y that minimize the sum of the above A and B according to the processing procedure shown in FIG.

実際上、対応モデル学習部21は、学習モード時、テキストデータベクトル化部25によるテキストデータ27の系列データのベクトル化と、数値データベクトル化部26による数値データ28の系列データのベクトル化とがすべて完了するとこの図12に示す対応モデル学習処理を開始し、まず、変換行列L及びLを初期設定する。この場合、これら変換行列L及びLの初期値は、どのようなものであっても良い。このため本実施の形態においては、対応モデル学習部21が、乱数を発生させて変換行列L及びLの各要素の値をそれぞれ決定することにより変換行列L及びLを初期設定するものとする(SP20)。 Actually, the correspondence model learning unit 21 performs vectorization of the sequence data of the text data 27 by the text data vectorization unit 25 and vectorization of the sequence data of the numerical data 28 by the numerical data vectorization unit 26 in the learning mode. When all the processes are completed, the correspondence model learning process shown in FIG. 12 is started. First, the transformation matrices L x and L y are initialized. In this case, the initial values of these transformation matrices L x and L y may be anything. In Therefore the present embodiment, corresponding model learning unit 21 initializes the transformation matrix L x and L y by a random number is generated to determine the respective values of the elements of the transformation matrix L x and L y are It shall be (SP20).

続いて、対応モデル学習部21は、一方の変換行列Lを固定して、最小化の対象式を最小とする行列を求め、他方の変換行列Lをその行列に更新する(SP21)。本実施の形態においては、最小化の対象式が(1)式で算出されるAと、(2)式で算出されるBとの和であるため、この対象式を変換行列Lで偏微分した結果の式がゼロであるような方程式を解くことにより、更新後の変換行列Lを求めることができる。また対応モデル学習部21は、これと同様にして、更新後の変換行列Lを求める(SP22)。 Subsequently, the corresponding model learning unit 21 fixes one transformation matrix L y , obtains a matrix that minimizes the target expression for minimization, and updates the other transformation matrix L x to that matrix (SP21). In the present embodiment, since the target expression for minimization is the sum of A calculated by Expression (1) and B calculated by Expression (2), this target expression is biased by the transformation matrix L x . The updated transformation matrix L x can be obtained by solving an equation in which the differentiated expression is zero. The corresponding model learning unit 21, in the similar manner to obtain the transformation matrix L y after update (SP22).

次いで、対応モデル学習部21は、更新前の変換行列L及び変換行列Lと、更新後の変換行列L及び変換行列Lとの差(例えば、対応する行列要素の差(絶対値および差の二乗)の総和)を計算し、この差を予め設定されている閾値(以下、これを学習終了判定閾値と呼ぶ)と比較する(SP23)。そして対応モデル学習部21は、ステップSP23の比較結果に基づいて、かかる差が学習終了判定閾値以上であるか否かを判断する(S24)。 Then, the corresponding model learning unit 21, a transformation matrix L x and the transformation matrix L y before update, the difference between the conversion of the updated matrix L x and the transformation matrix L y (e.g., the difference between the corresponding matrix element (absolute value And the square of the difference) is calculated, and the difference is compared with a preset threshold value (hereinafter referred to as a learning end determination threshold value) (SP23). Then, the correspondence model learning unit 21 determines whether or not the difference is equal to or greater than the learning end determination threshold value based on the comparison result in step SP23 (S24).

対応モデル学習部21は、この判断で否定結果を得るとステップSP21に戻り、この後、ステップSP24で肯定結果を得るまでステップSP21〜ステップSP24の処理を繰り返す。そして対応モデル学習部21は、やがて更新前の変換行列L及び変換行列Lと、更新後の変換行列L及び変換行列Lとの差がかかる学習終了判定閾値以上となることによりステップSP24で肯定結果を得ると、この対応モデル学習処理を終了する。 If the corresponding model learning unit 21 obtains a negative result in this determination, it returns to step SP21, and thereafter repeats the processing of step SP21 to step SP24 until an affirmative result is obtained in step SP24. The corresponding model learning unit 21, the step by which the eventually the transformation matrix L x and the transformation matrix L y before update, the difference between the transformation matrix updated L x and the transformation matrix L y takes learning termination determination threshold value or higher If a positive result is obtained in SP24, this correspondence model learning process is terminated.

(1−6)対応データ検索部の処理
以上のようにして学習した対応モデルを用いることで、任意の対象データ29(図2)に対応する対応データ30(図2)を取得することができる。例えば、数値データ28からテキストデータ27を取得することができる。本実施の形態では、共通空間62で最も近いデータを検索し、その検索結果を対応データ30として出力する。
(1-6) Processing of Corresponding Data Search Unit By using the correspondence model learned as described above, correspondence data 30 (FIG. 2) corresponding to arbitrary target data 29 (FIG. 2) can be acquired. . For example, the text data 27 can be acquired from the numerical data 28. In the present embodiment, the closest data in the common space 62 is searched, and the search result is output as the correspondence data 30.

図13は、このような対応データ検索部22により実行される対応データ検索処理の処理手順を示す。対応データ検索部22は、この図13に示す処理手順に従って、データベクトル化部20(図2)によりベクトル化された対象データ29に対応付けるべきデータ(テキストデータ27又は数値データ28)を検索する。   FIG. 13 shows a processing procedure of corresponding data search processing executed by the corresponding data search unit 22. The correspondence data search unit 22 searches for data (text data 27 or numerical data 28) to be associated with the target data 29 vectorized by the data vectorization unit 20 (FIG. 2) according to the processing procedure shown in FIG.

実際上、対応データ検索部22は、データベクトル化部20によりベクトル化された対象データ29(つまり対象データベクトル)を当該データベクトル化部20から与えられると、この図13に示す対応データ検索処理を開始し、まず、その対象データベクトルを対応モデル蓄積部24に蓄積されている対応モデルの変換行列L又はLにより共通空間62(図10)に射影する(SP30)。 In practice, when the corresponding data search unit 22 receives the target data 29 (that is, the target data vector) vectorized by the data vectorization unit 20 from the data vectorization unit 20, the corresponding data search processing shown in FIG. It was started, first, projected onto the common space 62 (FIG. 10) by the transformation matrix L x or L y of the corresponding model stored the target data vector to the corresponding model storage unit 24 (SP30).

続いて、対応データ検索部22は、共通空間62上で(1)式及び(2)式の和が最小となるデータ(対象データ29がテキストデータであれば数値データ、対象データ29が数値データであればテキストデータ)をデータ蓄積部23に蓄積されたテキストデータ27又は数値データ28の中から検索し(SP31)、当該検索により検出したテキストデータ27又は数値データ28を対応データ30として出力する(SP32)。そして対応データ検索部22は、この後、この対応データ検索処理を終了する。   Subsequently, the corresponding data search unit 22 performs data that minimizes the sum of the expressions (1) and (2) on the common space 62 (numerical data if the target data 29 is text data, and numerical data for the target data 29). Text data) is retrieved from the text data 27 or numerical data 28 stored in the data storage unit 23 (SP31), and the text data 27 or numerical data 28 detected by the search is output as the corresponding data 30. (SP32). Then, the correspondence data search unit 22 ends this correspondence data search processing.

(1−7)本実施の形態の効果
以上のように本実施の形態のデータ対応付け装置1において、対応モデル学習部21は、2つの地点が物理的に近いほど各要素が「1」に近づくような相関度(行列)を定義し、その相関度を利用して(2)式のように定義されたBと、(1)式のように定義されたAとの和が最小となるような対応モデルを学習する。
(1-7) Effect of this Embodiment As described above, in the data association apparatus 1 of this embodiment, the correspondence model learning unit 21 sets each element to “1” as the two points are physically closer to each other. The degree of correlation (matrix) that approaches is defined, and the sum of B defined as in equation (2) and A defined as in equation (1) is minimized by using the degree of correlation. Learn the corresponding model.

この場合、地層内の物理的に近い2つの地点からそれぞれ取得されるテキストデータ27及び数値データ28は、これら2つの地点が物理的に近ければ近いほど類似すると考えることができる。従って、本実施の形態の(2)式のように、物理的(地理的)に近い任意の2つの地点からそれぞれ取得されたテキストデータ27のテキストデータベクトルの共通空間62上での距離と、これら2つの地点からそれぞれ取得された数値データ28の数値データベクトルの共通空間62上での距離との和が最小となるような対応モデルを学習することによって、より精度の高い対応モデルを学習することができ、かくしてより精度良くデータの対応付けを行うことができる。   In this case, it can be considered that the text data 27 and the numerical data 28 acquired from two physically close points in the formation are more similar as the two points are physically close. Therefore, as in the equation (2) of the present embodiment, the distance on the common space 62 of the text data vector of the text data 27 respectively obtained from any two points close to physical (geographic), A correspondence model with higher accuracy is learned by learning a correspondence model that minimizes the sum of the numerical data vector of the numerical data 28 acquired from each of these two points and the distance on the common space 62. Thus, data can be associated with higher accuracy.

(2)第2の実施の形態
図1及び図2において、80は本実施の形態によるデータ対応付け装置を示す。本データ対応付け装置80は、プロセッサ2がデータベクトル化プログラム81を実行することにより具現化されるデータベクトル化部90のテキストデータベクトル化部91及び数値データベクトル化部92によるテキストデータ27や数値データ28のベクトル化方法が異なる点と、プロセッサ2が対応モデル学習プログラム82を実行することにより具現化される対応モデル学習部93が深層学習により対応モデルを学習する点とを除いて第1の実施の形態のデータ対応付け装置1と同様に構成されている。
(2) Second Embodiment In FIGS. 1 and 2, reference numeral 80 denotes a data association apparatus according to this embodiment. The data association apparatus 80 is configured such that the text data 27 and numerical values by the text data vectorization unit 91 and the numerical data vectorization unit 92 of the data vectorization unit 90 that are realized by the processor 2 executing the data vectorization program 81. Except for the point that the vectorization method of the data 28 is different and the point that the correspondence model learning unit 93 embodied by the processor 2 executing the correspondence model learning program 82 learns the correspondence model by deep learning. The configuration is the same as that of the data association apparatus 1 of the embodiment.

実際上、本実施の形態のデータ対応付け装置80の場合、テキストデータベクトル化部91は、テキストデータ27を図14で示すような構成を有する2次元ベクトルに変換する。この2次元ベクトルの1つ目の次元は「深さ範囲区分」である。この「深さ範囲区分」は、第1の実施の形態の深さ範囲の区分と同じものである。   In practice, in the case of the data association apparatus 80 of the present embodiment, the text data vectorization unit 91 converts the text data 27 into a two-dimensional vector having a configuration as shown in FIG. The first dimension of the two-dimensional vector is “depth range division”. This “depth range section” is the same as the depth range section of the first embodiment.

各深さ範囲区分に含まれる各第1の深さ範囲のテキストデータ27に基づいて、石の属性(「色」、「硬さ」、……)ごとに1次元ベクトルでなる「頻度ベクトル」を構築し、同じ深さ範囲区分の各属性の頻度ベクトルを結合した1次元ベクトルを生成する。これが上述したテキストデータ27の2次元ベクトルの2つ目の次元である。なお、頻度ベクトルは、図5と同様のベクトルであるが、図14では系列情報は含めない。単純な頻度ベクトルではなく、文章の分散表現(phrase2vec)を用いてもよい。分散表現は既存の手法で生成する。   Based on the text data 27 of each first depth range included in each depth range section, a “frequency vector” that is a one-dimensional vector for each stone attribute (“color”, “hardness”,...). To generate a one-dimensional vector that combines the frequency vectors of the attributes of the same depth range section. This is the second dimension of the two-dimensional vector of the text data 27 described above. Note that the frequency vector is the same vector as in FIG. 5, but the sequence information is not included in FIG. 14. Instead of a simple frequency vector, a distributed representation of a sentence (phrase2vec) may be used. A distributed representation is generated by an existing method.

一方、数値データベクトル化部92は、数値データ28を図15で示す2次元ベクトルに変換する。この2次元ベクトルの1つ目の次元は深さ範囲区分である。この深さ範囲区分は、第1の実施の形態の深さ範囲区分と同じものである。それぞれの深さ範囲区分において、フーリエ変換により周波数毎の強さを要素とするベクトル(図15の「長さMの1次元ベクトル」)を構築する。これが上述した数値データ28の2次元ベクトルの2つ目の次元である。   On the other hand, the numerical data vectorization unit 92 converts the numerical data 28 into a two-dimensional vector shown in FIG. The first dimension of the two-dimensional vector is a depth range section. This depth range section is the same as the depth range section of the first embodiment. In each depth range section, a vector (“one-dimensional vector of length M” in FIG. 15) having the strength for each frequency as an element is constructed by Fourier transform. This is the second dimension of the two-dimensional vector of the numerical data 28 described above.

図16は、本実施の形態の対応モデル学習部93(図2)により実行される対応モデル学習処理の流れを示す。上述のように本実施の形態の場合対応モデル学習部93は、対応モデルを深層学習する。この図15において、文書2次元ベクトル100は、図14で説明した深さ範囲区分ごとのテキストデータ27の2次元ベクトルである。また数値2次元ベクトル101は、図15で説明した深さ範囲区分ごとの数値データ28の2次元ベクトルである。これらを独立に複数段の畳込み層102,103に入力する。   FIG. 16 shows the flow of the correspondence model learning process executed by the correspondence model learning unit 93 (FIG. 2) of the present embodiment. As described above, in the case of the present embodiment, the correspondence model learning unit 93 deeply learns the correspondence model. In FIG. 15, a document two-dimensional vector 100 is a two-dimensional vector of text data 27 for each depth range section described in FIG. The numerical two-dimensional vector 101 is a two-dimensional vector of the numerical data 28 for each depth range section described with reference to FIG. These are independently input to a plurality of convolution layers 102 and 103.

各畳込み層102,103では、文書2次元ベクトル及び数値2次元ベクトル、又は、前段の畳込み層102,103の処理結果をそれぞれその畳込み層102,103に応じた所定個数ずつ深さの方向で畳み込む。例えば、文書2次元ベクトル100が1000個ある場合、図16で「畳込み層1」と記述された畳込み層102では、文書2次元ベクトル100を5個ずつ合計200個の文書2次元ベクトルに統合し、次の「畳込み層2」と記述された畳込み層102では、200個の文書2次元ベクトル100を5個ずつ40個の文書2次元ベクトル100に統合し、……という処理を行う。よって、文書2次元ベクトル100及び数値2次元ベクトル101の両者とも深さの系列情報を考慮していることになる。そして、文書2次元ベクトル100及び数値2次元ベクトル101の双方共に、最後に全結合層104,105を通す。全結合層104,105は、文書の学習系列(図16の左側)と数値の学習系列(図16の右側)の次元を揃えることが目的である。   In each of the convolution layers 102 and 103, the document two-dimensional vector and the numerical two-dimensional vector, or the processing results of the previous convolution layers 102 and 103 are respectively given a predetermined number of depths according to the convolution layers 102 and 103. Fold in the direction. For example, when there are 1000 document two-dimensional vectors 100, the convolution layer 102 described as “convolution layer 1” in FIG. 16 converts the document two-dimensional vectors 100 into five document two-dimensional vectors of five each. In the convolution layer 102 described as “convolution layer 2”, the 200 document two-dimensional vectors 100 are integrated into 40 document two-dimensional vectors 100 in units of five, and so on. Do. Therefore, both the document two-dimensional vector 100 and the numerical two-dimensional vector 101 consider depth series information. Then, both the two-dimensional document vector 100 and the numerical two-dimensional vector 101 are finally passed through all the coupling layers 104 and 105. The purpose of all the connected layers 104 and 105 is to align the dimensions of the document learning series (left side in FIG. 16) and the numerical learning series (right side in FIG. 16).

この後、全結合層104,105を通した文書2次元ベクトル100及び数値2次元ベクトル101を、深層学習で最適化する次式
で定義された評価関数Eに当てはめ、この評価関数Eを最小とする全層のパラメータ(重み行列とバイアス)を求めるようにして対応モデルを学習する。
Thereafter, the following expression is used to optimize the document two-dimensional vector 100 and the numerical two-dimensional vector 101 that have passed through all the connected layers 104 and 105 by deep learning.
Is applied to the evaluation function E defined in (1), and the corresponding model is learned by obtaining the parameters (weight matrix and bias) of all layers that minimize the evaluation function E.

なお(4)式において、xは文書2次元ベクトル100、yは数値2次元ベクトル101を示す。また(4)式の右辺第1項は、対応付いているxとyの距離を反映する評価尺度である。ここで、「y−」は対応付いていないyのことで、ランダムに選択する。(4)式の第1項の一例を以下に示す。
In equation (4), x represents a document two-dimensional vector 100, and y represents a numerical two-dimensional vector 101. Further, the first term on the right side of the equation (4) is an evaluation scale that reflects the distance between x and y associated with each other. Here, “y−” is y which is not associated, and is selected at random. An example of the first term of equation (4) is shown below.

(5)式において、φは畳込み層102,103と全結合層104,105による変換関数であり、出力は共通の次元数のベクトルとなる。(5)式を最小化することは、対応付いているxとyの距離を最小化(内積を最大化)し、対応付いていないxとyの距離を最大化(内積を最小化)することに相当する。   In the equation (5), φ is a conversion function by the convolution layers 102 and 103 and all the coupling layers 104 and 105, and the output is a vector having a common number of dimensions. Minimizing the expression (5) minimizes the distance between the corresponding x and y (maximizes the inner product) and maximizes the distance between the uncorresponding x and y (minimizes the inner product). It corresponds to that.

(4)式の右辺第2項及び右辺第3項は、地層中での距離を反映した評価尺度であり、一例を以下に示す。
The second term on the right side and the third term on the right side of the equation (4) are evaluation scales reflecting the distance in the formation, and an example is shown below.

(6)式のWijは、第1の実施の形態について上述した(3)式のWijと同じものである。(6)式を最小化することは、地理的な相関度(Wij)と類似度の差を最小化することに相当する。 W ij in the equation (6) is the same as W ij in the equation (3) described above for the first embodiment. Minimizing the expression (6) corresponds to minimizing the difference between the geographical correlation (W ij ) and the similarity.

深層学習では、(4)式の評価関数を最小化することで、図15のネットワーク構造のパラメータを決める。具体的な方法については、既存の深層学習の方法を用いる。   In deep learning, the network structure parameters in FIG. 15 are determined by minimizing the evaluation function of equation (4). As a specific method, an existing deep learning method is used.

以上のように本実施の形態のデータ対応付け装置80では、対応モデル学習部93が深層学習により対応モデルを学習する。この際、対応モデル学習部93は、(4)式で定義された評価関数Eを最小化する全層のパラメータを求めるようにして対応モデルを学習するが、(4)式は地層中での距離を反映した項を含んでおり、従って、本実施の形態のデータ対応付け装置80によれば、第1の実施の形態と同様に、精度の高い対応モデルを学習することができ、かくしてより精度良くデータの対応付けを行うことができる。   As described above, in the data association apparatus 80 according to the present embodiment, the correspondence model learning unit 93 learns the correspondence model by deep learning. At this time, the correspondence model learning unit 93 learns the correspondence model by obtaining parameters of all layers that minimize the evaluation function E defined by the equation (4), but the equation (4) Therefore, according to the data association apparatus 80 of the present embodiment, it is possible to learn a correspondence model with high accuracy as in the first embodiment. Data can be associated with high accuracy.

(3)他の実施の形態
なお上述の第1及び第2の実施の形態においては、任意の2つのデータ源(「i」という地点及び「j」という地点)の相関度として、これら2つのデータ源の物理的な距離を考慮するようにした場合について述べたが、本発明はこれに限らず、これらデータ源の距離に加えて又は代えて、これら2つのデータ源の掘削時期の差を考慮してこれらデータ源間の相関度を定義するようにしてもよい。任意の2つのデータ源の距離に代えてこれら2つのデータ源の掘削磁気の差を考慮した場合の相関度Wijの式の例を以下に示す。
(3) Other Embodiments In the first and second embodiments described above, as the degree of correlation between any two data sources (point “i” and point “j”), these two Although the case where the physical distance between the data sources is considered has been described, the present invention is not limited to this, and in addition to or instead of the distance between these data sources, the difference in the excavation timing between these two data sources is determined. The degree of correlation between these data sources may be defined in consideration. An example of the expression of the correlation degree W ij in the case of considering the excavation magnetic difference between these two data sources instead of the distance between any two data sources is shown below.

ここで、(7)式において「dist」は、掘削時期の差とする。従って、(7)式により定義される相関度Wijは、「i」という地点の掘削時期と、「j」という地点の掘削時期とが近ければ近いほど大きな値となる。なお任意の2つのデータ源は、同一の油井の掘削経路上のものであっても、異なる油井の掘削経路上のものであってもよい。 Here, “dist” in equation (7) is the difference in excavation time. Accordingly, the correlation degree W ij defined by the equation (7) becomes a larger value as the excavation time at the point “i” is closer to the excavation time at the point “j”. Any two data sources may be on the same oil well drilling path or on different oil well drilling paths.

また上述の第1の形態においては、(1)式で算出されるAと、(2)式で算出されるBとの和(A+B)が最小となる変換行列Lx,Lyを求めるようにして対応モデルを学習するようにした場合について述べたが、本発明はこれに限らず、例えば、Bにある定数αを乗算した乗算結果とAとの和(A+αB)が最小となる変換行列Lx,Lyを求めるようにして対応モデルを学習するようにしてもよい。   In the first embodiment described above, conversion matrices Lx and Ly that minimize the sum (A + B) of A calculated by equation (1) and B calculated by equation (2) are obtained. Although the case where the corresponding model is learned has been described, the present invention is not limited to this. For example, the transformation matrix Lx, which minimizes the sum (A + αB) of the multiplication result obtained by multiplying the constant α in B and A The correspondence model may be learned by obtaining Ly.

本発明はシェールオイル・ガスの採掘の際に得られたセンサデータと、レポートのテキストデータとを対応付けるデータ対応付け装置のほか、種々のデータ対応付け装置に適用することができる。   The present invention can be applied to various data association devices in addition to a data association device for associating sensor data obtained during mining of shale oil and gas with text data of a report.

1,80……データ対応付け装置、2……プロセッサ、3……メモリ、10,81……データベクトル化プログラム、11,82……対応モデル学習プログラム、12……対応データ検索プログラム、21,93……対応モデル学習部、22……対応データ検索部、25,91……テキストデータベクトル化部、26,92……数値データベクトル化部、27……テキストデータ、28……数値データ、29……対象データ、30……対応データ、60……テキストベクトル空間、61……数値ベクトル空間、62……共通空間、63,64,L,L……変換行列。 DESCRIPTION OF SYMBOLS 1,80 ... Data matching apparatus, 2 ... Processor, 3 ... Memory, 10, 81 ... Data vectorization program, 11, 82 ... Corresponding model learning program, 12 ... Corresponding data search program, 21, 93 ... Corresponding model learning unit, 22 ... Corresponding data search unit, 25, 91 ... Text data vectorization unit, 26, 92 ... Numeric data vectorization unit, 27 ... Text data, 28 ... Numeric data, 29 ...... target data, 30 ...... corresponding data, 60 ...... text vector space, 61 ...... numeric vector space, 62 ...... common space, 63, 64, L x, L y ...... transformation matrix.

Claims (10)

同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において、
同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化するベクトル化部と、
前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する対応モデル学習部と
を備え、
前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、
前記対応モデル学習部は、
前記相関度を利用して前記対応モデルを学習する
ことを特徴とするデータ対応付け装置。
A correspondence model of first and second series data obtained from the same data source is learned, and based on the learned correspondence model, target data belonging to one of the first or second series data is changed to the other In the data association apparatus for associating with the data belonging to the second or first series data,
A vectorization unit for vectorizing each of the first and second series data obtained from the same data source;
A correspondence model learning unit that learns the correspondence model of the first and second series data based on the vectorized first and second series data; and
Of the first and second series data, a correlation degree that is a degree of correlation between data acquired from any two different data sources is predefined,
The correspondence model learning unit
A data association apparatus that learns the correspondence model by using the degree of correlation.
前記相関度は、
任意の2つの異なる前記データ源間の距離に応じて、当該距離が近くなるほど大きくなるように定義された
ことを特徴とする請求項1に記載のデータ対応付け装置。
The degree of correlation is
The data association apparatus according to claim 1, wherein the data association apparatus is defined so as to increase as the distance decreases in accordance with a distance between any two different data sources.
前記対応モデル学習部は、
任意の2つの前記データ源からそれぞれ得られた前記第1及び第2の系列データのベクトルを射影した共通空間において、一方の前記データ源から得られた前記第1の系列データのベクトル及び他方の前記データ源から得られた前記第1の系列データのベクトル間の距離に前記相関度を乗算した値と、一方の前記データ源から得られた前記第2の系列データのベクトル及び他方の前記データ源から得られた前記第2の系列データのベクトル間の距離に前記相関度を乗算した値との和が最小となるように前記対応モデルを学習する
ことを特徴とする請求項2に記載のデータ対応付け装置。
The correspondence model learning unit
In a common space obtained by projecting the vectors of the first and second series data obtained from any two of the data sources, the vector of the first series data obtained from one of the data sources and the other A value obtained by multiplying the distance between the vectors of the first series data obtained from the data source by the degree of correlation, the vector of the second series data obtained from one of the data sources, and the other data The correspondence model is learned so that a sum of a distance between vectors of the second series data obtained from a source and a value obtained by multiplying the correlation degree is minimized. Data association device.
前記距離は、前記データ源間の垂直方向及び水平方向の距離である
ことを特徴とする請求項3に記載のデータ対応付け装置。
The data association apparatus according to claim 3, wherein the distance is a distance between the data sources in a vertical direction and a horizontal direction.
前記相関度は、
任意の2つの異なる前記データ源の掘削時期に応じて、当該掘削時期が近いほど大きくなるように定義された
ことを特徴とする請求項1に記載のデータ対応付け装置。
The degree of correlation is
The data association apparatus according to claim 1, wherein the data association apparatus is defined so as to become larger as the excavation time is closer according to the excavation time of any two different data sources.
同一のデータ源から得られた第1及び第2の系列データの対応モデルを学習し、学習した前記対応モデルに基づいて、一方の前記第1又は第2の系列データに属する対象データを、他方の前記第2又は第1の系列データに属するデータと対応付けるデータ対応付け装置において実行されるデータ対応付け方法であって、
前記データ対応付け装置が、同一の前記データ源から得られた前記第1及び第2の系列データをそれぞれベクトル化する第1のステップと、
前記データ対応付け装置が、前記ベクトル化された前記第1及び第2の系列データに基づいて、前記第1及び第2の系列データの前記対応モデルを学習する第2のステップと
を備え、
前記第1及び第2の系列データのうち、任意の2つの異なる前記データ源から取得されたデータ同士の相関の度合いである相関度が予め定義され、
前記第2のステップにおいて、前記データ対応付け装置は、
前記相関度を利用して前記対応モデルを学習する
ことを特徴とするデータ対応付け方法。
A correspondence model of first and second series data obtained from the same data source is learned, and based on the learned correspondence model, target data belonging to one of the first or second series data is changed to the other A data association method executed in a data association apparatus for associating with data belonging to the second or first series data,
A first step in which the data associating device vectorizes the first and second series data obtained from the same data source;
The data association apparatus comprises a second step of learning the correspondence model of the first and second series data based on the vectorized first and second series data; and
Of the first and second series data, a correlation degree that is a degree of correlation between data acquired from any two different data sources is predefined,
In the second step, the data association device includes:
A data association method, wherein the correspondence model is learned using the degree of correlation.
前記相関度は、
任意の2つの異なる前記データ源間の距離に応じて、当該距離が近くなるほど大きくなるように定義された
ことを特徴とする請求項6に記載のデータ対応付け方法。
The degree of correlation is
The data association method according to claim 6, wherein the data association method is defined so as to increase as the distance decreases in accordance with a distance between any two different data sources.
前記対応モデル学習部は、
任意の2つの前記データ源からそれぞれ得られた前記第1及び第2の系列データのベクトルを射影した共通空間において、一方の前記データ源から得られた前記第1の系列データのベクトル及び他方の前記データ源から得られた前記第1の系列データのベクトル間の距離に前記相関度を乗算した値と、一方の前記データ源から得られた前記第2の系列データのベクトル及び他方の前記データ源から得られた前記第2の系列データのベクトル間の距離に前記相関度を乗算した値との和が最小となるように前記対応モデルを学習する
ことを特徴とする請求項7に記載のデータ対応付け方法。
The correspondence model learning unit
In a common space obtained by projecting the vectors of the first and second series data obtained from any two of the data sources, the vector of the first series data obtained from one of the data sources and the other A value obtained by multiplying the distance between the vectors of the first series data obtained from the data source by the degree of correlation, the vector of the second series data obtained from one of the data sources, and the other data The correspondence model is learned so that a sum of a distance between vectors of the second series data obtained from a source and a value obtained by multiplying the correlation degree is minimized. Data mapping method.
各前記データ源は、それぞれ地層内に存在し、
前記距離は、前記データ源間の垂直方向の距離である
ことを特徴とする請求項8に記載のデータ対応付け方法。
Each of the data sources exists within the formation,
The data association method according to claim 8, wherein the distance is a vertical distance between the data sources.
前記相関度は、
任意の2つの異なる前記データ源の掘削時期に応じて、当該掘削時期が近ければ近いほど大きくなるように定義された
ことを特徴とする請求項6に記載のデータ対応付け方法。
The degree of correlation is
The data association method according to claim 6, wherein the data association method is defined such that the closer the excavation time is, the greater the excavation time of any two different data sources is.
JP2016106688A 2016-05-27 2016-05-27 Data association apparatus and method Expired - Fee Related JP6623119B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016106688A JP6623119B2 (en) 2016-05-27 2016-05-27 Data association apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106688A JP6623119B2 (en) 2016-05-27 2016-05-27 Data association apparatus and method

Publications (2)

Publication Number Publication Date
JP2017211950A true JP2017211950A (en) 2017-11-30
JP6623119B2 JP6623119B2 (en) 2019-12-18

Family

ID=60475468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106688A Expired - Fee Related JP6623119B2 (en) 2016-05-27 2016-05-27 Data association apparatus and method

Country Status (1)

Country Link
JP (1) JP6623119B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091728A (en) * 2018-12-06 2020-06-11 日本電信電話株式会社 Estimating device, estimating method, program, and onomatopoeic word generating device
JP2022143610A (en) * 2021-03-18 2022-10-03 三菱電機インフォメーションネットワーク株式会社 Multi-format data analysis system and multi-format data analysis program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003526142A (en) * 1999-10-14 2003-09-02 ザ・サルク・インスティチュート Unsupervised adaptation and classification of multi-source data using generalized Gaussian mixture model
JP2013536488A (en) * 2010-06-24 2013-09-19 ゾケム・オイ Network server equipment configuration and related methods for handling non-parametric, multi-dimensional, spatial and temporal human behavior or a wide range of technical observations
JP2014013581A (en) * 2008-03-08 2014-01-23 Tokyo Electron Ltd Autonomous learning tool based on biology

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003526142A (en) * 1999-10-14 2003-09-02 ザ・サルク・インスティチュート Unsupervised adaptation and classification of multi-source data using generalized Gaussian mixture model
JP2014013581A (en) * 2008-03-08 2014-01-23 Tokyo Electron Ltd Autonomous learning tool based on biology
JP2013536488A (en) * 2010-06-24 2013-09-19 ゾケム・オイ Network server equipment configuration and related methods for handling non-parametric, multi-dimensional, spatial and temporal human behavior or a wide range of technical observations

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091728A (en) * 2018-12-06 2020-06-11 日本電信電話株式会社 Estimating device, estimating method, program, and onomatopoeic word generating device
JP7109004B2 (en) 2018-12-06 2022-07-29 日本電信電話株式会社 Estimation device, estimation method, and program
JP2022143610A (en) * 2021-03-18 2022-10-03 三菱電機インフォメーションネットワーク株式会社 Multi-format data analysis system and multi-format data analysis program
JP7230086B2 (en) 2021-03-18 2023-02-28 三菱電機インフォメーションネットワーク株式会社 Polymorphic data analysis system and polymorphic data analysis program

Also Published As

Publication number Publication date
JP6623119B2 (en) 2019-12-18

Similar Documents

Publication Publication Date Title
US10036820B2 (en) Expert guided knowledge acquisition system for analyzing seismic data
Dawson et al. Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification
JP6791780B2 (en) Sentence writing device
CN112463976B (en) Knowledge graph construction method taking crowd sensing task as center
US11954567B2 (en) Probability distribution assessment for classifying subterranean formations using machine learning
US11428835B2 (en) Facilitating hydrocarbon exploration and extraction by applying a machine-learning model to seismic data
AU2021254725B2 (en) Subsurface lithological model with machine learning
JP6623119B2 (en) Data association apparatus and method
CN109345007A (en) A kind of Favorable Reservoir development area prediction technique based on XGBoost feature selecting
US20140156217A1 (en) Systems and methods for determining position of marker depth coordinates for construction of geological model of deposit
US20190219716A1 (en) Classifying Well Data Using A Support Vector Machine
CN113762320A (en) Method and apparatus for estimating lithofacies by learning well logs
CA2693029A1 (en) Automated structural interpretation
Wang et al. Automated gamma-ray log pattern alignment and depth matching by machine learning
CN117524353B (en) Molecular large model based on multidimensional molecular information, construction method and application
Wang et al. Using DTW to measure trajectory distance in grid space
CN109583371A (en) Landmark information based on deep learning extracts and matching process
US20200308934A1 (en) Automatic calibration of forward depositional models
US20150095279A1 (en) Data analytics for oilfield data repositories
Misra et al. Fracture Monitoring and Characterization Using Unsupervised Microseismic Data Analysis
CA3106006C (en) Facilitating hydrocarbon exploration and extraction by applying a machine-learning model to seismic data
CN105467447B (en) Width evaluation method is protected in the earthquake of phased trend energy match
CN115220100B (en) Analysis method and system for carbonate rock water channeling channel
Grant et al. Leveraging spatial metadata in machine learning for improved objective quantification of geological drill core
CN109212610A (en) Well based on Euclidean distance approximate match shakes data extraction method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191125

R150 Certificate of patent or registration of utility model

Ref document number: 6623119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees