JP7030485B2 - 抽出装置、抽出方法、及び抽出プログラム - Google Patents

抽出装置、抽出方法、及び抽出プログラム Download PDF

Info

Publication number
JP7030485B2
JP7030485B2 JP2017221966A JP2017221966A JP7030485B2 JP 7030485 B2 JP7030485 B2 JP 7030485B2 JP 2017221966 A JP2017221966 A JP 2017221966A JP 2017221966 A JP2017221966 A JP 2017221966A JP 7030485 B2 JP7030485 B2 JP 7030485B2
Authority
JP
Japan
Prior art keywords
information
area
extraction device
node
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017221966A
Other languages
English (en)
Other versions
JP2019095831A (ja
Inventor
博基 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017221966A priority Critical patent/JP7030485B2/ja
Publication of JP2019095831A publication Critical patent/JP2019095831A/ja
Application granted granted Critical
Publication of JP7030485B2 publication Critical patent/JP7030485B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、抽出装置、抽出方法、及び抽出プログラムに関する。
従来、種々の情報を抽出する技術が提供されている。例えば、他のカテゴリーに属する概念間の相対的な関係を考慮した上で、概念間の類似性を推定する技術が提供されている。
特開2007-213151号公報
岩崎雅二郎 "木構造型インデックスを利用した近似k最近傍グラフによる近傍検索", 情報処理学会論文誌, 2011/2, Vol. 52, No. 2. pp.817-828.
しかしながら、上記の従来技術では、類似の地域を適切に抽出することが難しい場合がある。例えば、他のカテゴリーに属する概念間の類似性を推定するだけでは、所望の情報を抽出することが難しい。例えば、同じカテゴリーに属する情報の類似性を推定することができるとは限らず、このような場合、所望の情報を抽出することが難しい。
本願は、上記に鑑みてなされたものであって、類似の地域を適切に抽出する抽出装置、抽出方法、及び抽出プログラムを提供することを目的とする。
本願に係る抽出装置は、複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の地域に関する地域情報を取得する取得部と、前記取得部により取得された前記グラフ情報の前記複数のベクトルのうち、所定の基準に基づいて決定された前記グラフ情報の検索の起点となる起点ベクトルを起点として前記グラフ情報を検索することにより、前記複数の地域のうち、前記一の地域に類似する地域である類似地域を抽出する抽出部と、を備えたことを特徴とする。
実施形態の一態様によれば、類似の地域を適切に抽出することができるという効果を奏する。
図1は、実施形態に係る抽出処理の一例を示す図である。 図2は、実施形態に係る抽出システムの構成例を示す図である。 図3は、実施形態に係る抽出装置の構成例を示す図である。 図4は、実施形態に係る地域情報記憶部の一例を示す図である。 図5は、実施形態に係るインデックス情報記憶部の一例を示す図である。 図6は、実施形態に係るグラフ情報記憶部の一例を示す図である。 図7は、実施形態に係るモデル情報記憶部の一例を示す図である。 図8は、実施形態に係る抽出処理の一例を示すフローチャートである。 図9は、実施形態に係る生成処理の一例を示すフローチャートである。 図10は、実施形態に係る特徴量の抽出の一例を示す図である。 図11は、グラフ情報を用いた検索処理の一例を示すフローチャートである。 図12は、地域のグラフ情報を概念的に示す図である。 図13は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る抽出装置、抽出方法、及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法、及び抽出プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.抽出処理〕
図1を用いて、実施形態に係る抽出処理の一例について説明する。図1は、実施形態に係る抽出処理の一例を示す図である。図1では、抽出装置100が作物の一例として、ぶどう(葡萄)の生産が行われている地域をグラフ構造化したグラフデータ(グラフ情報)を検索することにより、類似する地域(以下、「類似地域」ともいう)を抽出する場合を示す。なお、作物は、ぶどうに限らず、田畑につくる植物(農作物)等であってもよい。例えば、作物は、リンゴ等の果物や小麦等の穀類やトマト等の野菜等の種々の作物であってもよい。図1では、抽出装置100は、各地域に対応するベクトルデータ(「ベクトル情報」や、単に「ベクトル」ともいう)を用いて地域をグラフ構造化したグラフ情報を用いる。なお、図1の例では、地域としてぶどう生産に適した地域を対象とする場合を一例として示すが、地域はぶどう生産に適した地域に限らず、鉱山の開発に適した地域など、どのような用途を対象とする地域であってもよい。すなわち、対象とする地域(オブジェクト)は、ベクトルとして表現可能であれば、どのような地域(情報)であってもよい。
〔1-1.グラフ情報について〕
また、抽出装置100は、図1中のグラフ情報GR11に示すように、各ベクトル(ノード)が有向エッジにより連結されたグラフデータを対象に抽出処理を行う。なお、図1中のグラフ情報GR11に示すようなグラフ情報は、抽出装置100が生成してもよいし、抽出装置100は、図1中のグラフ情報GR11に示すようなグラフ情報を情報提供装置50(図2参照)等の他の外部装置から取得してもよい。
また、ここでいう、有向エッジとは、一方向にしかデータを辿れないエッジを意味する。以下では、エッジにより辿る元、すなわち始点となるノードを参照元とし、エッジにより辿る先、すなわち終点となるノードを参照先とする。例えば、所定のノード「A」から所定のノード「B」に連結される有向エッジとは、参照元をノード「A」とし、参照先をノード「B」とするエッジであることを示す。なお、各ノードを連結するエッジは、有向エッジに限らず、種々のエッジであってもよい。例えば、各ノードを連結するエッジは、ノードを連結する方向のないエッジであってもよい。例えば、各ノードを連結するエッジは、相互に参照可能なエッジであってもよい。例えば、各ノードを連結するエッジは、全て双方向エッジであってもよい。
例えば、このようにノード「A」を参照元とするエッジをノード「A」の出力エッジという。また、例えば、このようにノード「B」を参照先とするエッジをノード「B」の入力エッジという。すなわち、ここでいう出力エッジ及び入力エッジとは、一の有向エッジをその有向エッジが連結する2つのノードのうち、いずれのノードを中心として捉えるかの相違であり、一の有向エッジが出力エッジ及び入力エッジになる。すなわち、出力エッジ及び入力エッジは、相対的な概念であって、一の有向エッジについて、参照元となるノードを中心として捉えた場合に出力エッジとなり、参照先となるノードを中心として捉えた場合に入力エッジとなる。なお、本実施形態においては、エッジについては、出力エッジや入力エッジ等の有向エッジを対象とするため、以下では、有向エッジを単に「エッジ」と記載する場合がある。
例えば、抽出装置100は、数百万~数億単位の地域に対応するノードを対象に処理を行うが、図面においてはその一部のみを図示する。図1の例では、説明を簡単にするために、8個のノードを図示して処理の概要を説明する。例えば、抽出装置100は、図1中のグラフ情報GR11に示すように、ノードN1、N2、N3等に示すような複数のノード(ベクトル)を含むグラフ情報を取得する。また、図1の例では、グラフ情報GR11における各ノードは、そのノードとの間の距離が近い方から所定数のノードへのエッジ(出力エッジ)が連結される。例えば、所定数は、目的や用途等に応じて、2や5や10や100等の種々の値であってもよい。例えば、所定数が2である場合、ノードN1からは、ノードN1からの距離が最も近いノード及び2番目に距離が近い2つノードに出力エッジが連結される。なお、類似度を示す指標としての距離は、ベクトル(N次元ベクトル)間の距離として適用可能であれば、どのような距離であってもよく、例えば、ユークリッド距離やマハラノビス距離やコサイン距離等の種々の距離が用いられてもよい。
また、このように「ノードN*(*は任意の数値)」と記載した場合、そのノードはノードID「N*」により識別されるノードであることを示す。例えば、「ノードN1」と記載した場合、そのノードはノードID「N1」により識別されるノードである。
また、図1中のグラフ情報GR11では、ノードN10は、ノードN7へ向かう有向エッジであるエッジE7が連結される。すなわち、ノードN10は、ノードN7とエッジE7により連結される。このように「エッジE*(*は任意の数値)」と記載した場合、そのエッジはエッジID「E*」により識別されるエッジであることを示す。例えば、「エッジE11」と記載した場合、そのエッジはエッジID「E11」により識別されるエッジである。例えば、ノードN10を参照元とし、ノードN7を参照先として連結されるエッジE7により、ノードN10からノードN7に辿ることが可能となる。この場合、有向エッジであるエッジE7は、ノードN10を中心として識別される場合、出力エッジとなり、ノードN7を中心として識別される場合、入力エッジとなる。また、図1のグラフ情報GR11中の双方向矢印は、両方のノードから他方のノードへの有向エッジが連結されることを示す。例えば、グラフ情報GR11中のノードN2とノードN451との間の双方向矢印は、ノードN2からノードN451へ向かう有向エッジと、ノードN451からノードN2へ向かう有向エッジとの2つのエッジが連結されることを示す。
また、図1中のグラフ情報GR11は、ユークリッド空間であってもよい。また、図1に示すグラフ情報GR11は、各ベクトル間の距離等の説明のための概念的な図であり、グラフ情報GR11は、多次元空間である。例えば、図1に示すグラフ情報GR11は、平面上に図示するため2次元の態様にて図示されるが、例えば100次元や1000次元等の多次元空間であるものとする。
ここで、ベクトルデータ間の距離は、地域の類似性を示し、距離が近いほど類似している。本実施形態においては、グラフ情報GR11における各ノードの距離を対応する各オブジェクト間の類似度とする。例えば、各ノードに対応する対象(地域)の類似性が、グラフ情報GR11内におけるノード間の距離として写像されているものとする。例えば、各ノードに対応する概念間の類似度が各ノード間の距離に写像されているものとする。ここで、図1に示す例においては、グラフ情報GR11における各ノード間の距離が短いオブジェクト同士の類似度が高く、グラフ情報GR11における各ノード間の距離が長いオブジェクト同士の類似度が低い。例えば、図1中のグラフ情報GR11において、ノードID「N35」により識別されるノードと、ノードID「N693」により識別されるノードとは近接している、すなわち距離が短い。そのため、ノードID「N35」により識別されるノードに対応するオブジェクトと、ノードID「N693」により識別されるノードに対応するオブジェクトとは類似度が高いことを示す。
また、例えば、図1中のグラフ情報GR11において、ノードID「N7」により識別されるノードと、ノードID「N2」により識別されるノードとは遠隔にある、すなわち距離が長い。そのため、ノードID「N7」により識別されるノードに対応するオブジェクトと、ノードID「N2」により識別されるノードに対応するオブジェクトとは類似度が低いことを示す。
〔1-2.ベクトルの生成例〕
また、ここでいう、各ノード(ベクトル)は、各オブジェクト(地域)に対応する。地域情報が様々な地域の状態を示す数値データであれば、それをベクトルデータとして、そのまま扱うことも可能である。しかし、システムのログデータが、テキスト、画像、または、音声であったりする場合には、ベクトルデータへの変換が必要となる。そこで、図1の例では、各地域の地域データ(地域情報)から抽出された特徴量により生成された多次元(N次元)のベクトルがオブジェクトであってもよい。
例えば、抽出装置100は、地域データの特徴を抽出するモデルを用いて各地域の地域データからN次元ベクトルを生成してもよい。図1の例では、抽出装置100は、モデル情報記憶部124(図7参照)に示すように、モデルID「M1」により識別されるモデル(モデルM1)を用いて、各地域の地域データからベクトルを生成する。上記のように、「モデルM*(*は任意の数値)」と記載した場合、そのモデルはモデルID「M*」により識別されるモデルであることを示す。例えば、「モデルM1」と記載した場合、そのモデルはモデルID「M1」により識別されるモデルである。また、モデル情報記憶部124に示すように、モデルM1は用途「特徴抽出(地域)」、すなわち地域のデータからの特徴抽出のために用いられるモデルであり、その具体的なモデルデータが「モデルデータMDT1」であることを示す。
例えば、抽出装置100は、モデルM1に任意の地域の地域データを入力することにより、モデルM1中の各要素(ニューロン)の値を演算し、入力した地域データと同様の情報を出力する。例えば、抽出装置100は、中間層の各要素(ニューロン)の値を特徴量として抽出し、各地域に対応するN次元のベクトルデータを生成してもよい。
ここで、図10を用いて、各地域に対応するベクトルデータの生成の一例を示す。図10は、実施形態に係る特徴量の抽出の一例を示す図である。図10は、モデルM1の概念図である。なお、図10では、各要素(ニューロン)の各接続関係を示す線の図示を省略する。図10に示すように、モデルM1は、入力層ILと、中間層CLと、出力層OLとを含む。例えば、モデルM1の入力層ILは、地域データが入力される層である。また、出力層OLは、入力層ILへの入力に応じて、入力された地域データと同様の情報を出力される層である。
また、例えば、中間層CLの中央部の最も圧縮された圧縮層RPは、入力された地域データの特徴を表現する層である。例えば、モデルM1の中間層CLにおいて、入力層ILから圧縮層RPまでの間は、エンコードの処理を行う部分に対応する。モデルM1の中間層CLにおいて、入力層ILから圧縮層RPまでの間は、入力された地域データの特徴を圧縮する処理を行う部分に対応する。例えば、モデルM1の中間層CLにおいて、圧縮層RPから出力層OLまでの間は、デコードの処理を行う部分に対応する。モデルM1の中間層CLにおいて、圧縮層RPから出力層OLまでの間は、圧縮された地域データを復元する処理を行う部分に対応する。
例えば、抽出装置100は、圧縮層RPに含まれるニューロンNL1やニューロンNL2等の情報をベクトルに用いてもよい。例えば、抽出装置100は、ある地域の地域データが入力された場合に、算出されるニューロンNL1に対応する値VE1やニューロンNL2に対応する値VE2をベクトルの要素(一の次元の値)として抽出してもよい。例えば、抽出装置100は、ある地域の地域データが入力された場合に、算出されるニューロンNL1に対応する値VE1をその地域のベクトルの1次元目の要素として抽出してもよい。また、例えば、抽出装置100は、ある地域の地域データが入力された場合に、算出されるニューロンNL2に対応する値VE2をその地域のベクトルの2次元目の要素として抽出してもよい。このように、抽出装置100は、各地域の地域データをモデルM1に入力することにより、各地域に対応するベクトルを生成してもよい。なお、抽出装置100は、各地域に対応するベクトルを情報提供装置50等の他の外部装置から取得してもよい。なお、抽出装置100は、ベクトルの各要素として、各ニューロンに対応する値自体を用いてもよいし、各ニューロンに対応する値に所定の係数を乗算した値を用いてもよい。また、図1の例では説明を簡単にするために、ベクトルの各要素(値)が整数である場合を示すが、ベクトルの各要素(値)は、小数点以下の数値を含む実数であってもよい。
なお、抽出装置100は、圧縮層RPの要素(ニューロン)に限らず、中間層CL中の他の要素(ニューロン)の情報をベクトルに用いてもよい。例えば、抽出装置100は、エンコード部分のニューロンNL3やデコード部分のニューロンNL4等の情報をベクトルに用いてもよい。例えば、抽出装置100は、ある地域の地域データが入力された場合に、算出されるニューロンNL3に対応する値VE3やニューロンNL4に対応する値VE4をベクトルの要素(一の次元の値)として抽出してもよい。なお、上記は、一例であり、抽出装置100は、オートエンコーダに限らず、種々のモデルを用いて、地域データからの特徴抽出を行ってもよい。例えば、作物生産等の所定の用途に適した地域と適さない地域を識別するように学習させたモデルを生成して、その中間層をベクトルデータとして抽出しても良い。また、例えば、トリプレットロス(triplet loss)といった類似性を学習する方法によりモデルを生成しても良い。また、抽出装置100は、モデルを用いずに、特徴抽出を行ってもよい。例えば、抽出装置100は、抽出装置100の管理者等が設定して特徴(素性)に対応する情報を地域データから抽出し、ベクトルを生成してもよい。例えば、抽出装置100は、地盤、地形、海域、土壌、及び天候等の特徴(素性)に対応する情報を地域データから抽出し、ベクトルを生成してもよい。
また、例えば、抽出装置100は、情報提供装置50等の他の外部装置からモデルM1を取得してもよい。なお、抽出装置100は、地域情報記憶部121(図4参照)に記憶された各地域の地域情報ADT1、ADT2、ADT451等を入力として、モデルM1を生成してもよい。例えば、端末装置10は、各地域の地域情報ADT1、ADT2、ADT451等を入力として、モデルM1を生成してもよい。例えば、地域情報ADT1、ADT2、ADT451等は、地盤、地形、海域、土壌、及び天候等を含んでもよい。例えば、地域情報ADT1、ADT2、ADT451等の地域情報は、対応する地域の地盤が軟弱地盤であるかどうかを示す情報や、その地域の地層に関する情報を含んでもよい。また、例えば、地域情報は、対応する地域の地形が、風成地形や侵食地形や河成地形や火山地形等であることを示す情報を含んでもよい。例えば、地域情報は、対応する地域の土壌を構成する材料(砂や粘土)の情報や各材料の割合を示す情報を含んでもよい。例えば、地域情報は、対応する地域が、どの海域の地域の属するかを示す情報を含んでもよい。例えば、地域情報は、対応する地域がどの気候(温暖湿潤気候等)に属するかを示す情報や、対応する地域の年間の降水量を示す情報や、対応する地域の年間の晴天の割合や、対応する地域の日照率を示す情報を含んでもよい。
抽出装置100は、地域の地域情報(地域データ)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された地域情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力するモデルM1を生成してもよい。なお、抽出装置100は、ベクトル生成に用いるモデルを情報提供装置50等の他の外部装置から取得してもよい。
〔1-3.処理例〕
ここから、抽出装置100は、ユーザから一の地域の地域データを取得し、一の地域に類似する地域に関する情報提供を行う場合を一例として説明する。図1の例では、端末装置10は、所定の管理者であるユーザU1により利用される。例えば、ユーザU1は、ぶどうの生産を行う事業者であってもよい。図1の例では、ユーザU1が地域Xがどのぶどう生産の地域に類似するかの情報を所望する場合を示す。
まず、地域Xの地域データを取得した端末装置10は、地域Xの地域情報ADT11を抽出装置100へ送信する。例えば、ぶどう生産を行うユーザU1は、どのぶどう生産の地域に類似するかの情報を所望する地域である地域Xの地域情報ADT11を収集した後、地域Xの地域情報ADT11を抽出装置100へ送信するように端末装置10を操作する。例えば、端末装置10は、オープンデータを提供する所定の情報処理装置から収集した地域Xの地域情報ADT11を抽出装置100へ送信する。図1の例では、地域情報ADT11等は、地盤、地形、海域、土壌、及び天候等に関する情報を含む。
そして、抽出装置100は、一の地域に関する地域情報(地域データ)を取得する(ステップS11)。図1の例では、抽出装置100は、端末装置10から地域Xに関する地域情報ADT11を取得する。
そして、抽出装置100は、一の地域に対応する地域データからグラフ情報の探索に用いるベクトルを生成する。図1の例では、抽出装置100は、処理群PS11に示すような処理により、地域Xに対応するベクトルを生成する。抽出装置100は、地域Xに関する地域情報ADT11をモデルM1に入力する(ステップS12)。具体的には、抽出装置100は、地域Xの地域情報ADT11をモデルM1に入力する。そして、抽出装置100は、地域情報ADT11の入力後のモデルM1中の情報を用いて、ベクトルを生成する(ステップS13)。例えば、抽出装置100は、地域情報ADT11が入力されたモデルM1中の各要素を用いて、ベクトルデータを生成する。
図1の例では、抽出装置100は、地域情報ADT11が入力されたモデルM1中の各要素の値を用いて、ベクトルデータVD11(単に「ベクトルVD11」ともいう)を生成する。例えば、抽出装置100は、地域Xの地域情報ADT11が入力された場合における、モデルM1のニューロンNL1に対応する値VE1(図10参照)やニューロンNL2に対応する値VE2(図10参照)を用いて、ベクトルを生成する。例えば、抽出装置100は、地域Xの地域情報ADT11が入力された場合に、算出されるニューロンNL1に対応する値VE1をベクトルVD11の1次元目の要素として抽出してもよい。また、例えば、抽出装置100は、ある地域の地域データが入力された場合に、算出されるニューロンNL2に対応する値VE2をベクトルVD11の2次元目の要素として、ベクトルVD11を生成する。図1の例では、抽出装置100は、1次元目の要素が「35」であり、2次元目の要素が「63」であるようなベクトルVD11を生成する。
そして、抽出装置100は、地域Xに類似する地域(類似地域)を検索する(ステップS14)。例えば、抽出装置100は、非特許文献1に開示されるような近傍検索の技術等の種々の従来技術を適宜用いて、地域Xの類似地域を検索してもよい。
図1の例では、抽出装置100は、情報群INF11に示すように、グラフ情報GR11やインデックス情報IND11を用いて地域Xの類似地域を検索する。例えば、抽出装置100は、グラフ情報記憶部123(図6参照)から地域に関するグラフ情報GR11を取得する。また、例えば、抽出装置100は、インデックス情報記憶部122(図5参照)から、グラフ情報GR11における検索の起点となるノード(以下、「起点ベクトル」ともいう)の決定に用いるインデックス情報IND11を取得する。なお、インデックス情報IND11は、抽出装置100が生成してもよいし、抽出装置100は、インデックス情報IND11を情報提供装置50等の他の外部装置から取得してもよい。
そして、抽出装置100は、一の地域(クエリ)に対応する起点ベクトルを決定(特定)するために、インデックス情報IND11を用いる。図1の例では、抽出装置100は、地域XのベクトルVD11に対応する起点ベクトルを決定(特定)するために、インデックス情報IND11を用いる。すなわち、抽出装置100は、ベクトルVD11とインデックス情報IND11とを用いて、グラフ情報GR11における起点ベクトルを決定する。
図1中のインデックス情報IND11は、図5中のインデックス情報記憶部122に示す階層構造を有する。例えば、インデックス情報IND11は、ルートRTの直下に位置する第1階層のノード(ベクトル)が、節点VT1、VT2等であることを示す。また、例えば、インデックス情報IND11は、節点VT2の直下の第2階層のノードが、節点VT2-1~VT2-4(図示せず)であることを示す。また、例えば、インデックス情報IND11は、節点VT2-2の直下の第3階層のノードが、ノードN35、ノードN451、ノードN693、すなわちグラフ情報GR11中のノード(ベクトル)であることを示す。
例えば、抽出装置100は、図1中のインデックス情報IND11に示すような木構造型のインデックス情報を用いて、グラフ情報GR11における起点ベクトルを決定する(ステップS15)。図1の例では、抽出装置100は、ベクトルVD11を生成した後、インデックス情報IND11を上から下へ辿ることにより、インデックス情報IND11の近傍候補となる起点ベクトルを特定することにより、効率的に検索クエリ(一の地域)に対応する起点ベクトルを決定することができる。
例えば、抽出装置100は、インデックス情報IND11をルートRTからリーフノード(グラフ情報GR11中のノード(ベクトル))まで辿ることにより、ベクトルVD11に対応する起点ベクトルを決定してもよい。図1の例では、例えば、抽出装置100は、インデックス情報IND11をルートRTからノードN451まで辿ることにより、ノードN451を起点ベクトルとして決定する。例えば、抽出装置100は、木構造に関する種々の従来技術を適宜用いて、インデックス情報IND11をルートRTからリーフノードまで辿ることにより、辿りついたリーフノードを起点ベクトルとして決定してもよい。例えば、抽出装置100は、ベクトルVD11との類似度に基づいて、インデックス情報IND11を下へ辿ることにより、起点ベクトルを決定してもよい。例えば、抽出装置100は、ルートRTから節点VT1、VT2等のいずれの節点に辿るかを、ベクトルVD11と節点VT1、VT2との類似度に基づいて決定してもよい。例えば、抽出装置100は、ルートRTから節点VT1、VT2等のうち、ベクトルVD11との類似度が最も高い節点VT2へ辿ると決定してもよい。また、例えば、抽出装置100は、節点VT2から節点VT2-1~VT2-4等のうち、ベクトルVD11との類似度が最も高い節点VT2-2へ辿ると決定してもよい。また、例えば、抽出装置100は、節点VT2-2からノードN35、N451、N693等のうち、ベクトルVD11との類似度が最も高い節点ノードN451へ辿ると決定してもよい。なお、図1の例では、説明を簡単にするために、起点ベクトルを1つ決定する場合を示すが、抽出装置100は、複数個の起点ベクトルを決定してもよい。例えば、抽出装置100は、ノードN451、N35、N693、N2等の複数個のベクトル(ノード)を起点ベクトルとして決定してもよい。なお、インデックス情報IND11を用いずに、検索開始時にグラフ情報GR11からランダムに1つ以上のノードを選択し、それを起点ベクトルとしてもよいし、または、予め指定された1つ以上のノードを起点ベクトルとしても良い。
そして、抽出装置100は、グラフ情報GR11を検索することにより、地域Xの類似地域を抽出する(ステップS16)。例えば、抽出装置100は、ノードN451の近傍に位置するノードを類似地域として抽出する。例えば、抽出装置100は、ノードN451からの距離が近いノードを類似地域として抽出する。例えば、抽出装置100は、ノードN451を起点として、エッジを辿ることにより、ノードN451から到達可能なノードを類似地域として抽出する。例えば、抽出装置100は、所定数(例えば、2個や10個等)のノードを類似地域として抽出する。例えば、抽出装置100は、図11に示すような検索処理により、地域Xの類似地域を抽出してもよいが、詳細は後述する。図1の例では、抽出装置100は、ノードN451を起点として、グラフ情報GR11を探索することにより、ノードN451やノードN35を類似地域として抽出する。
そして、抽出装置100は、抽出した類似地域に関する情報を提供する(ステップS17)。図1の例では、抽出装置100は、ノードN451に対応する地域#451や、ノードN35に対応する地域#35を地域Xに類似する地域としてユーザU1が利用する端末装置10に提供する。
上述したように、抽出装置100は、グラフ情報GR11やインデックス情報IND11を用いて、ユーザU1から取得した地域Xの類似地域を抽出する。例えば、抽出装置100は、インデックス情報IND11を用いて、地域Xの類似地域を抽出する際のグラフ情報GR11における起点ベクトルを決定する。そして、抽出装置100は、決定した起点ベクトルを起点としてグラフ情報GR11を探索することにより、地域Xの類似地域を抽出する。これにより、抽出装置100は、類似の地域を適切に抽出することができる。例えば、抽出装置100は、AA国の良いワインの産地、すなわちぶどう生産に適した地域と類似する地域(土地)が、例えばBB国の奥地等に存在する場合であっても、類似の地域を適切に抽出することができる。例えば、ディープラーニングといった手法で、作物生産等の所定の用途に適した地域を識別するという方法もあるが、所定の用途に適するかに影響する多種多様な要素が存在する場合においては、各要素の事例が少ないので、学習ができずに識別精度を向上させることが難しいという問題がある。例えば、ディープラーニングといった学習手法で生成したモデルを用いて、そのモデルに地域の情報を入力し、出力されたスコアからその地域が所定の用途に適するかを識別するという方法もあるが、多種多様な要素が存在する場合においては、各要素の事例が少ないため、モデルの精度を向上させることが難しく、識別精度を向上させることが難しい。一方で、抽出装置100は、各要素から抽出した特徴を基に生成した複数のベクトルのグラフ構造化したグラフ情報を用いて検索を行うことにより、ある地域に類似する類似地域を適切に抽出することができる。そのため、抽出装置100は、ある地域がどのような用途に適した地域に類似するかを精度よく識別することができる。
〔1-4.地域の用途〕
図1の例では、地域の一例として、ぶどう生産の地域を示したが、地域は、ぶどう生産の地域に限らず、種々の用途の地域であってもよい。例えば、抽出装置100は、地域として、鉱山開発の地域や工場立地の地域を対象として、類似地域を抽出してもよい。
例えば、抽出装置100は、鉱山開発の地域を対象として、類似情報を抽出してもよい。例えば、抽出装置100は、鉱山開発の地域を対象として、類似情報を抽出する場合、各鉱山開発の地域に関する地盤、地形、地下形状等を特徴として用いてもよい。例えば、抽出装置100は、地域データから生成されるベクトルデータをグラフ構造化したグラフ情報を用いて、鉱山開発に関する類似地域を抽出してもよい。例えば、抽出装置100は、グラフ情報GR11と同様に、鉱山開発の地域のモデルM2を用いて生成されたベクトルをグラフ構造化したグラフ情報を用いて、類似地域を抽出してもよい。例えば、抽出装置100は、各鉱山開発の地域をノードが類似性に応じてエッジにより連結されたグラフ情報を用いて、類似地域を抽出してもよい。例えば、抽出装置100は、図12に示すようなグラフ情報GR21を用いて、鉱山開発の地域を対象として、類似情報を抽出してもよい。図12は、地域のグラフ情報を概念的に示す図である。
例えば、抽出装置100は、一の鉱山開発の地域の地域(地域Y)に関する地域データを取得した場合、その地域Yに類似する地域の情報をグラフ情報GR21から抽出してもよい。例えば、抽出装置100は、地域Yに関する地域情報(地域データYLD)を取得する。例えば、抽出装置100は、グラフ情報記憶部123から鉱山開発の地域に関するグラフ情報GR21を取得する。そして、抽出装置100は、モデル情報記憶部124に記憶されたモデルM2を用いて、地域Yの地域データYADTからベクトルYVDを生成する。
そして、抽出装置100は、生成したベクトルYVDとインデックス情報を用いて起点ベクトルをノードYNE(図12中の地域WEに対応)に決定する。そして、抽出装置100は、起点ベクトルであるノードYNEを起点としてグラフ情報GR21を検索することにより、地域Yの類似地域を抽出する。例えば、抽出装置100は、ノードYNEを起点として、グラフ情報GR21を探索することにより、所定数(例えば2個など)のノードを類似地域として抽出する。図12の例では、抽出装置100は、類似地域範囲SAR11に含まれる地域WA(ノードYNA)や地域WE(ノードYNE)を類似地域として抽出する。
そして、抽出装置100は、抽出した類似地域に関する情報を提供する。例えば、抽出装置100は、類似地域として抽出されたノードに対応する地域WAや地域WE等を地域Yに類似する地域としてユーザU1が利用する端末装置10に提供する。
〔1-5.用途に応じた地域情報〕
なお、図1の例では、地盤、地形、海域、土壌、及び天候等を地域情報として用いる場合を示したが、例えば、地域情報は、各用途に応じて、各種別の情報が選択的に用いられてもよい。例えば、抽出装置100は、地域情報のうち、対象とする用途における地域の類似性において有用な情報を用いてもよい。
例えば、抽出装置100は、ぶどう生産に関する類似地域を抽出する場合は、海域等の陸地以外の情報を除く、地盤、地形、土壌、及び天候等を地域情報として用いてもよい。この場合、モデルM1は、海域に関する情報を除く、地盤、地形、土壌、及び天候等の地域情報を用いて生成されてもよい。そして、抽出装置100は、地域Xの海域に関する情報を除く、地盤、地形、土壌、及び天候等の地域情報をモデルM1に入力することにより生成したベクトルを用いて、類似地域を抽出してもよい。
また、例えば、抽出装置100は、鉱山開発に関する類似地域を抽出する場合は、海域や天候等の情報を除く、地盤、地形、及び土壌等を地域情報として用いてもよい。この場合、モデルM1は、海域や天候に関する情報を除く、地盤、地形、及び土壌等の地域情報を用いて生成されてもよい。なお、上記は例示であり、各用途に応じて種々の種別の地域情報が用いられてもよい。
〔1-6.インデックス情報〕
図1の例に示すインデックス情報(インデックスデータ)は一例であり、抽出装置100は、種々のインデックス情報を用いて、グラフ情報を検索してもよい。また、例えば、抽出装置100は、検索時に用いるインデックスデータを生成してもよい。例えば、抽出装置100は、高次元ベクトルを検索する検索インデックスをインデックスデータとして生成する。ここでいう高次元ベクトルとは、例えば、数百次元から数千次元のベクトルであってもよいし、それ以上の次元のベクトルであってもよい。
例えば、抽出装置100は、図1に示すようなツリー構造(木構造)に関する検索インデックスをインデックスデータとして生成してもよい。例えば、抽出装置100は、kd木(k-dimensional tree)に関する検索インデックスをインデックスデータとして生成してもよい。例えば、抽出装置100は、VP木(Vantage-Point tree)に関する検索インデックスをインデックスデータとして生成してもよい。
また、例えば、抽出装置100は、その他の木構造を有するインデックスデータとして生成してもよい。例えば、抽出装置100は、木構造のインデックスデータのリーフがグラフデータに接続する種々のインデックスデータを生成してもよい。例えば、抽出装置100は、木構造のインデックスデータのリーフがグラフデータ中のノードに対応する種々のインデックスデータを生成してもよい。また、抽出装置100は、このようなインデックスデータを用いて検索を行う場合、インデックスデータを辿って到達したリーフ(ノード)からグラフデータを探索してもよい。
なお、上述したようなインデックスデータは一例であり、抽出装置100は、グラフデータ中のクエリを高速に特定することが可能であれば、どのようなデータ構造のインデックスデータを生成してもよい。例えば、抽出装置100は、クエリに対応するグラフ情報中のノードを高速に特定することが可能であれば、バイナリ空間分割に関する技術等の種々の従来技術を適宜用いて、インデックスデータを生成してもよい。例えば、抽出装置100は、高次元ベクトルの検索に対応可能なインデックスであれば、どのようなデータ構造のインデックスデータを生成してもよい。例えば、抽出装置100は、非特許文献1に記載されるようなグラフ型の検索インデックスに関する情報をインデックス情報として用いてもよい。抽出装置100は、上述のようなインデックスデータとグラフデータとを用いることにより、所定の対象に関するより効率的な検索を可能にすることができる。
〔2.抽出システムの構成〕
図2に示すように、抽出システム1は、端末装置10と、情報提供装置50と、抽出装置100とが含まれる。端末装置10と、情報提供装置50と、抽出装置100とは所定のネットワークNを介して、有線または無線により通信可能に接続される。図2は、実施形態に係る抽出システムの構成例を示す図である。なお、図2に示した抽出システム1には、複数台の端末装置10や、複数台の情報提供装置50や、複数台の抽出装置100が含まれてもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、ユーザによる種々の操作を受け付ける。なお、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。なお、上述した端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。例えば、端末装置10は、所定のサーバシステムを管理者が利用する情報処理装置であってもよい。例えば、端末装置10は、地域データを収集し、地域データを抽出装置100へ送信する。
抽出装置100は、起点ベクトルを起点としてグラフ情報を検索することにより、複数の地域のうち、一の地域に類似する地域である類似地域を抽出する情報処理装置である。例えば、抽出装置100は、一の地域に関する地域情報を取得し、地域情報と、グラフ情報の検索の起点となる起点ベクトルに関する情報とに基づいて、起点ベクトルを決定する。
抽出装置100は、ユーザ等に種々の情報提供を行うための情報が格納された情報処理装置である。例えば、抽出装置100は、端末装置10から一の地域の地域データ(以下、「クエリ情報」や「クエリ」ともいう)を取得すると、クエリに類似する地域(ベクトル情報等)を検索し、検索結果を端末装置10に提供する。図1の例では、抽出装置100は、端末装置10から一の地域の地域データを取得すると、一の地域に類似する地域を検索し、検索結果を類似の地域として端末装置10に提供する。また、例えば、抽出装置100が端末装置10に提供するデータは、地域の名称や地域の地域データ自体であってもよいし、URL(Uniform Resource Locator)等の対応するデータを参照するための情報であってもよい。
情報提供装置50は、抽出装置100に種々の情報提供を行うための情報が格納された情報処理装置である。例えば、情報提供装置50は、ウェブサーバ等の種々の外部装置から収集した地域情報等が格納されてもよい。例えば、情報提供装置50は、グラフ情報やインデックス情報やモデル等の種々の情報を抽出装置100に提供する情報処理装置である。
〔3.抽出装置の構成〕
次に、図3を用いて、実施形態に係る抽出装置100の構成について説明する。図3は、実施形態に係る抽出装置の構成例を示す図である。図3に示すように、抽出装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、抽出装置100は、抽出装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワーク(例えば図2中のネットワークN)と有線または無線で接続され、端末装置10や情報提供装置50との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、地域情報記憶部121と、インデックス情報記憶部122と、グラフ情報記憶部123と、モデル情報記憶部124とを有する。
(地域情報記憶部121)
実施形態に係る地域情報記憶部121は、地域(オブジェクト)に関する各種情報を記憶する。例えば、地域情報記憶部121は、地域IDやベクトルデータを記憶する。図4は、実施形態に係る地域情報記憶部の一例を示す図である。図4に示す地域情報記憶部121は、「地域ID」、「地域」、「地域情報」、「ベクトル情報」といった項目が含まれる。
「地域ID」は、地域(オブジェクト)を識別するための識別情報を示す。また、「地域」は、地域IDにより識別される地域の具体的な名称や内容等を示す。なお、図4の例では、地域を「地域#1」といった抽象的な符号で示すが、各地域は、どのような地域であるかを示す情報や住所や緯度経度等の位置情報等が含まれてもよい。
「地域情報」は、地域IDにより識別される地域に関する情報を示す。なお、図4の例では、地域情報を「ADT1」といった抽象的な符号で示すが、各地域情報は、地域IDにより識別される地域の地盤、地形、海域、土壌、及び天候等の種々の地域に関する情報を含む。「ベクトル情報」とは、地域IDにより識別される地域(オブジェクト)に対応するベクトル情報を示す。すなわち、図4の例では、地域(オブジェクト)を識別する地域IDに対して、オブジェクトに対応するベクトルデータ(ベクトル情報)が対応付けられて登録されている。
例えば、図4の例では、地域ID「AR1」により識別される地域(オブジェクト)は、「10,24,54,2...」の多次元(N次元)のベクトル情報が対応付けられることを示す。例えば、地域#1については、モデルM1等により、地域#1の特徴を示す「10,24,54,2...」の多次元(N次元)のベクトル情報が地域情報ADT1から抽出されたことを示す。
なお、地域情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
(インデックス情報記憶部122)
実施形態に係るインデックス情報記憶部122は、インデックスに関する各種情報を記憶する。図5は、実施形態に係るインデックス情報記憶部の一例を示す図である。具体的には、図5の例では、インデックス情報記憶部122は、ツリー構造のインデックス情報を示す。図5の例では、インデックス情報記憶部122は、「ルート階層」、「第1階層」、「第2階層」、「第3階層」等といった項目が含まれる。なお、「第1階層」~「第3階層」に限らず、インデックスの階層数に応じて、「第4階層」、「第5階層」、「第6階層」等が含まれてもよい。
「ルート階層」は、インデックスを用いた起点ノードの決定の開始点となるルート(最上位)の階層を示す。「第1階層」は、インデックスの第1階層に属するノード(節点またはグラフ情報中のベクトル)を識別(特定)する情報が格納される。「第1階層」に格納されるノードは、インデックスの根(ルート)に直接結ばれる階層に対応するノードとなる。
「第2階層」は、インデックスの第2階層に属するノード(節点またはグラフ情報中のベクトル)を識別(特定)する情報が格納される。「第2階層」に格納されるノードは、第1階層のノードに結ばれる直下の階層に対応するノードとなる。「第3階層」は、インデックスの第3階層に属するノード(節点またはグラフ情報中のベクトル)を識別(特定)する情報が格納される。「第3階層」に格納されるノードは、第2階層のノードに結ばれる直下の階層に対応するノードとなる。
例えば、図5に示す例においては、インデックス情報記憶部122には、図1中のインデックス情報IND11に対応する情報が記憶される。例えば、インデックス情報記憶部122は、第1階層のノードが、節点VT1~VT3等であることを示す。また、各節点の下の括弧内の数値は、各節点に対応するベクトルの値を示す。
また、例えば、インデックス情報記憶部122は、節点VT2の直下の第2階層のノードが、節点VT2-1~VT2-4であることを示す。また、例えば、インデックス情報記憶部122は、節点VT2-2の直下の第3階層のノードが、ノードN35、ノードN451、ノードN693のグラフ情報GR11中のノード(ベクトル)であることを示す。
なお、インデックス情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
(グラフ情報記憶部123)
実施形態に係るグラフ情報記憶部123は、グラフ情報に関する各種情報を記憶する。図6は、実施形態に係るグラフ情報記憶部の一例を示す図である。図6の例では、グラフ情報記憶部123は、「ノードID」、「地域ID」、および「エッジ情報」といった項目を有する。また、「エッジ情報」には、「エッジID」や「参照先」といった情報が含まれる。
「ノードID」は、グラフデータにおける各ノード(対象)を識別するための識別情報を示す。また、「地域ID」は、地域(オブジェクト)を識別するための識別情報を示す。
また、「エッジ情報」は、対応するノードに接続されるエッジに関する情報を示す。図6の例では、「エッジ情報」は、エッジが有向エッジである場合を示し、対応するノードから出力される出力エッジに関する情報を示す。また、「エッジID」は、ノード間を連結するエッジを識別するための識別情報を示す。また、「参照先」は、エッジにより連結された参照先(ノード)を示す情報を示す。すなわち、図6の例では、ノードを識別するノードIDに対して、そのノードに対応するオブジェクト(対象)を識別する情報やそのノードからの有向エッジ(出力エッジ)が連結される参照先(ノード)が対応付けられて登録されている。
例えば、図6の例では、ノードID「N1」により識別されるノード(ベクトル)は、地域ID「AR1」により識別される地域(オブジェクト)に対応することを示す。また、ノードID「N1」により識別されるノードからは、エッジID「E11」により識別されるエッジが、ノードID「N25」により識別されるノード(ベクトル)に連結されることを示す。すなわち、図6の例では、ノードID「N1」により識別されるノード(ベクトル)からはノードID「N25」により識別されるノード(ベクトル)に辿ることができることを示す。
なお、グラフ情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、グラフ情報記憶部123は、各ノード(ベクトル)間を連結するエッジの長さが記憶されてもよい。すなわち、グラフ情報記憶部123は、各ノード(ベクトル)間の距離を示す情報が記憶されてもよい。
(モデル情報記憶部124)
実施形態に係るモデル情報記憶部124は、モデルに関する情報を記憶する。例えば、モデル情報記憶部124は、生成処理により生成されたモデル情報(モデルデータ)を記憶する。図7は、実施形態に係るモデル情報記憶部の一例を示す図である。図7に示すモデル情報記憶部124は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。なお、図7では、モデルM1、M2のみを図示するが、M21、M22等、各用途(予測の対象)に応じて多数のモデル情報が記憶されてもよい。
「モデルID」は、モデルを識別するための識別情報を示す。例えば、モデルID「M1」により識別されるモデルは、図1の例に示したモデルM1に対応する。「用途」は、対応するモデルの用途を示す。また、「モデルデータ」は、対応付けられた対応するモデルのデータを示す。例えば、「モデルデータ」には、各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。
例えば、図7に示す例において、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「特徴抽出(地域:ぶどう生産)」であり、入力された地域情報からの特徴の抽出に用いられることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。
モデルM1(モデルデータMDT1)は、所定の地域の地域情報(地域データ)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された地域情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力するよう、コンピュータを機能させるためのモデルである。
また、モデルM1、M2等がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、例えば、モデルM1、M2が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
ここで、モデルM21、M22等が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、例えば、モデルM21、M22が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
なお、モデル情報記憶部124は、上記に限らず、目的に応じて種々のモデル情報を記憶してもよい。
(制御部130)
図3の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、抽出装置100内部の記憶装置に記憶されている各種プログラム(抽出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。制御部130は、モデル情報記憶部124に記憶されているモデルM1、M2等に従った情報処理により、地域の地域情報(地域データ)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された地域情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力する。
図3に示すように、制御部130は、取得部131と、生成部132と、決定部133と、抽出部134と、提供部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部131)
取得部131は、各種情報を取得する。例えば、取得部131は、記憶部120から各種情報を取得する。例えば、取得部131は、地域情報記憶部121や、インデックス情報記憶部122や、グラフ情報記憶部123や、モデル情報記憶部124等から各種情報を取得する。また、取得部131は、各種情報を外部の情報処理装置から取得する。取得部131は、端末装置10や情報提供装置50から各種情報を取得する。
取得部131は、複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の地域に関する地域情報を取得する。また、取得部131は、複数の地域の各々の特徴を示す複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。また、取得部131は、所定のモデルを用いて複数の地域の各々から抽出された特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得する。
また、取得部131は、複数の地域に関する情報を所定のモデルに入力することにより、抽出される複数の地域の各々の特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得する。また、取得部131は、工場立地の地域における複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。
また、取得部131は、複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。また、取得部131は、鉱山開発の地域における複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。
例えば、取得部131は、データ検索の対象となる複数のノード(ベクトル)を取得する。例えば、取得部131は、複数のノードと、複数のノードの各々を連結する複数の有向エッジを含む有向エッジ群を取得する。
例えば、取得部131は、外部の情報処理装置からグラフ情報(グラフデータ)を取得する。例えば、取得部131は、グラフ情報記憶部123からグラフ情報を取得する。例えば、取得部131は、グラフ情報を取得する。図1の例では、取得部131は、グラフ情報GR11を取得する。
例えば、取得部131は、外部の情報処理装置からインデックス情報(インデックスデータ)を取得する。例えば、取得部131は、インデックス情報記憶部122からインデックス情報を取得する。例えば、取得部131は、木構造型のインデックス情報を取得する。図1の例では、取得部131は、インデックス情報IND11を取得する。
また、取得部131は、ユーザが利用する端末装置10から一の地域に関する地域情報を取得する。例えば、取得部131は、検索クエリとして、一の地域の地域データを取得する。例えば、取得部131は、地域に関する検索クエリを取得する。取得部131は、ユーザU1が利用する端末装置10から地域Xに関する地域情報ADT11を取得する。
例えば、取得部131は、一の地域に関する地域情報(地域データ)を取得する。例えば、取得部131は、端末装置10から地域Xに関する地域情報ADT11を取得する。例えば、取得部131は、グラフ情報記憶部123から地域に関するグラフ情報GR11を取得する。また、例えば、取得部131は、インデックス情報記憶部122(図5参照)から、グラフ情報GR11における検索の起点となるノード(起点ベクトル)の決定に用いるインデックス情報IND11を取得する。
(生成部132)
生成部132は、各種情報を生成する。例えば、生成部132は、地域情報記憶部121に記憶された学習データ(地域情報)を用いて、モデル情報記憶部124に示すようなモデルを生成する。例えば、生成部132は、取得部131により取得された学習データに基づいて、入力した地域情報と同様の情報を出力するモデル(オートエンコーダ)を生成する。例えば、生成部132は、入力する地域情報自体を正解情報として、入力した地域情報と同様の情報を出力するモデル(オートエンコーダ)を生成する。
例えば、生成部132は、モデルM1等を生成し、生成したモデルM1等をモデル情報記憶部124に格納する。なお、生成部132は、いかなる学習アルゴリズムを用いてモデルM1を生成してもよい。例えば、生成部132は、ニューラルネットワーク(neural network)等の学習アルゴリズムを用いてモデルM1を生成する。一例として、生成部132がニューラルネットワークを用いてモデルM1等を生成する場合、モデルM1等は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
生成部132は、地域の地域情報(地域データ)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された地域情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力するモデルを生成する。
例えば、生成部132は、学習データに基づいてモデルを生成する。例えば、生成部132は、学習データに基づいてモデルを生成する。例えば、生成部132は、地域情報記憶部121中の地域情報ADT1、ADT2等を学習データ(教師データ)として、学習を行なうことにより、モデルを生成する。
例えば、生成部132は、地域情報ADT1が入力された場合に、モデルM1が地域情報ADT1と同様の情報を出力するように、学習処理を行う。例えば、生成部132は、地域情報ADT2が入力された場合に、モデルM1が地域情報ADT2と同様の情報を出力するように、学習処理を行う。
なお、生成部132は、オートエンコーダとしてのM1に限らず、種々の学習アルゴリズムを用いてぶどう生産の地域に対応するモデルM21や鉱山開発の地域に対応するM22等を生成してもよい。例えば、生成部132は、ニューラルネットワーク(neural network)、サポートベクターマシン(SVM)、クラスタリング、強化学習等の学習アルゴリズムを用いてモデルM21、M22等を生成する。一例として、生成部132がニューラルネットワークを用いてモデルM21、M22等を生成する場合、モデルM21、M22等は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
生成部132は、モデルを生成し、生成したモデルをモデル情報記憶部124に格納する。具体的には、生成部132は、地域の地域情報(地域データ)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された地域情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、所定の用途に適した地域かどうかの予測に用いられるスコアの値を出力層から出力するモデルを生成する。例えば、生成部132は、ある地域の地域情報(地域データ)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された地域情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、その地域が所定の用途に適した地域かどうかの予測に用いられるスコアの値を出力層から出力するモデルM21を生成する。例えば、生成部132は、ぶどう生産に適した地域の地域情報が入力された場合に、スコア「1」を出力するようにモデルM21を生成する。例えば、生成部132は、ぶどう生産に適さない地域の地域情報が入力された場合に、スコア「0」を出力するようにモデルM21を生成する。なお、抽出装置100は、情報提供装置50等の他の外部装置からモデルを取得する場合、生成部132を有しなくてもよい。
図1の例では、生成部132は、地域データの特徴を抽出するモデルを用いて各地域の地域データからN次元ベクトルを生成する。生成部132は、モデル情報記憶部124(図7)に示すモデルM1を用いて、各地域の地域データからベクトルを生成する。
また、生成部132は、一の地域に対応する地域データからグラフ情報の探索に用いるベクトルを生成する。図1の例では、生成部132は、処理群PS11に示すような処理により、地域Xに対応するベクトルを生成する。生成部132は、地域Xに関する地域情報ADT11をモデルM1に入力する。具体的には、生成部132は、地域Xの地盤、地形、海域、土壌、及び天候等の情報を含む地域情報ADT11をモデルM1に入力する。そして、生成部132は、地域情報ADT11の入力後のモデルM1中の情報を用いて、ベクトルを生成する。例えば、生成部132は、地域情報ADT11が入力されたモデルM1中の各要素を用いて、ベクトルデータを生成する。
図1の例では、生成部132は、地域情報ADT11が入力されたモデルM1中の各要素の値を用いて、ベクトルVD11を生成する。例えば、生成部132は、地域Xの地域情報ADT11が入力された場合における、モデルM1のニューロンNL1に対応する値VE1(図10参照)やニューロンNL2に対応する値VE2(図10参照)を用いて、ベクトルを生成する。例えば、生成部132は、地域Xの地域情報ADT11が入力された場合に、算出されるニューロンNL1に対応する値VE1をベクトルVD11の1次元目の要素として抽出してもよい。また、例えば、生成部132は、地域の地域データが入力された場合に、算出されるニューロンNL2に対応する値VE2をベクトルVD11の2次元目の要素として、ベクトルVD11を生成する。図1の例では、生成部132は、1次元目の要素が「35」であり、2次元目の要素が「63」であるようなベクトルVD11を生成する。
例えば、生成部132は、モデルM21を用いて各地域の地域データからN次元ベクトルを生成してもよい。例えば、生成部132は、地域に対応する地域データをモデルM21に入力し、各地域の地域データからベクトルを生成する。例えば、生成部132は、モデルM21に地域の地域データを入力することにより、モデルM21中の各要素(ニューロン)の値を演算し、入力した地域データに対応するスコアを出力する。例えば、生成部132は、モデルM21の中間層の各要素(ニューロン)の値を特徴量として抽出し、各地域に対応するN次元のベクトルデータを生成してもよい。
(決定部133)
決定部133は、各種情報を決定する。例えば、決定部133は、取得部131により取得された地域情報と、グラフ情報の検索の起点となる起点ベクトルに関する情報とに基づいて、起点ベクトルを決定する。例えば、決定部133は、地域情報と、グラフ情報の検索の起点ベクトルの決定の基準となる情報とに基づいて、起点ベクトルを決定する。また、決定部133は、起点ベクトルの決定に用いるインデックス情報に基づいて、起点ベクトルを決定する。また、決定部133は、木構造型のインデックス情報に基づいて、起点ベクトルを決定する。
図1の例では、決定部133は、一の地域(クエリ)に対応する起点ベクトルを決定(特定)するために、インデックス情報IND11を用いる。例えば、決定部133は、地域XのベクトルVD11に対応する起点ベクトルを決定(特定)するために、インデックス情報IND11を用いる。決定部133は、ベクトルVD11とインデックス情報IND11とを用いて、グラフ情報GR11における起点ベクトルを決定する。
例えば、決定部133は、図1中のインデックス情報IND11に示すような木構造型のインデックス情報を用いて、グラフ情報GR11における起点ベクトルを決定する。図1の例では、決定部133は、ベクトルVD11を生成した後、インデックス情報IND11を上から下へ辿ることにより、インデックス情報IND11の近傍候補となる起点ベクトルを特定することにより、効率的に検索クエリ(一の地域)に対応する起点ベクトルを決定する。
例えば、決定部133は、インデックス情報IND11をルートRTからリーフノード(グラフ情報GR11中のノード(ベクトル))まで辿ることにより、ベクトルVD11に対応する起点ベクトルを決定する。図1の例では、決定部133は、インデックス情報IND11をルートRTからノードN451まで辿ることにより、ノードN451を起点ベクトルとして決定する。
(抽出部134)
抽出部134は、取得部131により取得されたグラフ情報の複数のベクトルのうち、所定の基準に基づいて決定されたグラフ情報の検索の起点となる起点ベクトルを起点としてグラフ情報を検索することにより、複数の地域のうち、一の地域に類似する地域である類似地域を抽出する。抽出部134は、各種情報を抽出する。例えば、抽出部134は、決定部133により決定された起点ベクトルを起点としてグラフ情報を検索することにより、複数の地域のうち、一の地域に類似する地域である類似地域を抽出する。例えば、抽出部134は、グラフ情報記憶部123に記憶された各ノード(ベクトル)間を連結するエッジの長さ(距離)の情報を用いてもよいし、各ノードのベクトル情報から各ノード(ベクトル)間を連結するエッジの長さ(距離)の情報を算出し、算出した長さ(距離)の情報を用いてもよい。
図1の例では、抽出部134は、地域Xに類似する地域を検索する。例えば、抽出部134は、グラフ情報GR11を検索することにより、地域Xの類似地域を抽出する。抽出部134は、ノードN451の近傍に位置するノードを類似地域として抽出する。例えば、抽出部134は、ノードN451からの距離が近いノードを類似地域として抽出する。例えば、抽出部134は、ノードN451を起点として、エッジを辿ることにより、ノードN451から到達可能なノードを類似地域として抽出する。例えば、抽出部134は、所定数(例えば、2個や10個等)のノードを類似地域として抽出する。例えば、抽出部134は、図11に示すような検索処理により、地域Xの類似地域を抽出する。図1の例では、抽出部134は、ノードN451を起点として、グラフ情報GR11を探索することにより、ノードN451やノードN35を類似地域として抽出する。
(提供部135)
提供部135は、各種情報を提供する。例えば、提供部135は、端末装置10や情報提供装置50に各種情報を送信する。例えば、提供部135は、端末装置10や情報提供装置50に各種情報を配信する。例えば、提供部135は、端末装置10や情報提供装置50に各種情報を提供する。提供部135は、抽出部134により抽出された類似地域に基づいて、所定のサービスを提供する。また、提供部135は、類似地域に関する情報提供サービスを提供する。提供部135は、端末装置10に類似地域に関する情報を提供する。
例えば、提供部135は、クエリに対応するオブジェクトIDを検索結果として提供する。例えば、提供部135は、抽出部134により選択されたオブジェクトIDを情報提供装置50へ提供する。提供部135は、抽出部134により選択されたオブジェクトIDをクエリに対応するベクトルを示す情報として情報提供装置50に提供する。また、提供部135は、生成部132により生成されたモデルを外部の情報処理装置へ提供してもよい。
図1の例では、提供部135は、抽出部134により抽出された類似地域に関する情報を提供する。例えば、提供部135は、ノードN451に対応する地域#451や、ノードN35に対応する地域#35を地域Xに類似する地域としてユーザU1が利用する端末装置10に提供する。
〔4.抽出処理のフロー〕
次に、図8を用いて、実施形態に係る抽出システム1による抽出処理の手順について説明する。図8は、実施形態に係る抽出処理の一例を示すフローチャートである。
図8に示すように、抽出装置100は、一の地域に関する地域情報(地域データ)を取得する(ステップS101)。図1の例では、抽出装置100は、端末装置10から地域Xに関する地域情報ADT11を取得する。
抽出装置100は、地域に関するグラフ情報を取得する(ステップS102)。例えば、抽出装置100は、グラフ情報記憶部123から地域に関するグラフ情報GR11を取得する。
そして、抽出装置100は、モデルを用いて一の地域に関する地域データからベクトルを生成する(ステップS103)。図1の例では、抽出装置100は、モデル情報記憶部124に記憶されたモデルM1を用いて、地域情報ADT11からベクトルVD11を生成する。
そして、抽出装置100は、生成したベクトルとインデックス情報を用いて起点ベクトルを決定する(ステップS104)。図1の例では、抽出装置100は、ベクトルVD11と、インデックス情報記憶部122に記憶されたインデックス情報IND11とを用いて、起点ベクトルをノードN451に決定する。
そして、抽出装置100は、グラフ情報を検索することにより、一の地域の類似地域を抽出する(ステップS105)。図1の例では、抽出装置100は、ノードN451を起点として、グラフ情報GR11を探索することにより、ノードN451やノードN35を類似地域として抽出する。
そして、抽出装置100は、抽出した類似地域に関する情報を提供する(ステップS106)。図1の例では、抽出装置100は、ノードN451に対応する地域#451や、ノードN35に対応する地域#35を地域Xに類似する地域としてユーザU1が利用する端末装置10に提供する。
〔5.生成処理のフロー〕
次に、図9を用いて、実施形態に係る抽出システム1による生成処理の手順について説明する。図9は、実施形態に係る生成処理の一例を示すフローチャートである。
図9に示すように、抽出装置100は、学習データを取得する(ステップS201)。例えば、抽出装置100は、地域情報記憶部121から学習データを取得する。例えば、抽出装置100は、地域情報記憶部121から地域情報ADT1、ADT2等を学習データとして取得する。
その後、抽出装置100は、学習データに基づきモデルを生成する(ステップS202)。例えば、抽出装置100は、地域情報記憶部121から学習データを用いてモデルM1を生成する。例えば、抽出装置100は、入力層に入力される情報(地域データ)と同様の情報(地域データ)を出力層から出力するようにモデルM1を生成する。例えば、抽出装置100は、地域の地域データを入力とするオートエンコーダとしてのモデルM1を生成する。
〔6.検索例〕
ここで、上述したグラフ情報を用いた検索の一例を示す。なお、グラフ情報(グラフデータ)を用いた検索は下記に限らず、種々の手順により行われてもよい。この点について、図11を一例として説明する。図11は、グラフデータ(グラフ情報)を用いた検索処理の一例を示すフローチャートである。また、以下でいうオブジェクトは、ベクトルやノードと読み替えてもよい。なお、以下では、抽出装置100が検索処理を行うものとして説明するが、検索処理は他の装置により行われてもよい。例えば、抽出装置100は、検索クエリとして、一の地域の地域データから生成されたベクトルデータを用いる。例えば、抽出装置100は、一の地域の地域データから生成されたベクトルデータとインデックス情報とに基づいて決定された起点ベクトルを起点としてグラフデータを検索する。図1の例では、抽出装置100は、地域XのベクトルVG11とインデックス情報IND11とに基づいて決定された起点ベクトルであるノードN451を起点としてグラフ情報GR11を検索する。
ここでは、近傍オブジェクト集合N(G,y)は、ノードyに付与されているエッジにより関連付けられている近傍のオブジェクトの集合である。「G」は、所定のグラフデータ(例えば、グラフ情報GR11等)であってもよい。例えば、抽出装置100は、k近傍検索処理を実行する。
例えば、抽出装置100は、超球の半径rを∞(無限大)に設定し(ステップS300)、既存のオブジェクト集合から部分集合Sを抽出する(ステップS301)。例えば、抽出装置100は、ルートノード(起点ベクトル)として選択されたオブジェクト(ノード)を部分集合Sとして抽出してもよい。図1の例では、抽出装置100は、起点ベクトルであるノードN451等を部分集合Sとして抽出してもよい。また、例えば、超球とは、検索範囲を示す仮想的な球である。なお、ステップS301において抽出されたオブジェクト集合Sに含まれるオブジェクトは、同時に検索結果のオブジェクト集合Rの初期集合にも含められる。
次に、抽出装置100は、オブジェクト集合Sに含まれるオブジェクトの中で、検索クエリオブジェクトをyとするとオブジェクトyとの距離が最も短いオブジェクトを抽出し、オブジェクトsとする(ステップS302)。図1の例では、抽出装置100は、オブジェクト集合Sに含まれるオブジェクトの中で、検索クエリオブジェクトであるベクトルVD11との距離が最も短いオブジェクトを抽出し、オブジェクトsとする。例えば、抽出装置100は、オブジェクト集合Sに含まれるオブジェクトの中で、ベクトルVD11との距離が最も短いノードN451を抽出し、オブジェクトsとする。例えば、抽出装置100は、ルートノード(起点ベクトル)として選択されたオブジェクト(ノード)のみがオブジェクト集合Sの要素の場合には、結果的にルートノード(起点ベクトル)がオブジェクトsとして抽出される。次に、抽出装置100は、オブジェクトsをオブジェクト集合Sから除外する(ステップS303)。
次に、抽出装置100は、オブジェクトsとオブジェクトyとの距離d(s,y)がr(1+ε)を超えるか否かを判定する(ステップS304)。ここで、εは拡張要素であり、r(1+ε)は、探索範囲(この範囲内のノードのみを探索する。検索範囲よりも大きくすることで精度を高めることができる)の半径を示す値である。オブジェクトsとオブジェクトyとの距離d(s,y)がr(1+ε)を超える場合(ステップS304:Yes)、抽出装置100は、オブジェクト集合Rをオブジェクトyの近傍オブジェクト集合として出力し(ステップS305)、処理を終了する。
オブジェクトsと検索クエリオブジェクトyとの距離d(s,y)がr(1+ε)を超えない場合(ステップS304:No)、抽出装置100は、オブジェクトsの近傍オブジェクト集合N(G,s)の要素であるオブジェクトの中からオブジェクト集合Cに含まれないオブジェクトを一つ選択し、選択したオブジェクトuを、オブジェクト集合Cに格納する(ステップS306)。オブジェクト集合Cは、重複検索を回避するために便宜上設けられるものであり、処理開始時には空集合に設定される。
次に、抽出装置100は、オブジェクトuとオブジェクトyとの距離d(u,y)がr(1+ε)以下であるか否かを判定する(ステップS307)。オブジェクトuとオブジェクトyとの距離d(u,y)がr(1+ε)以下である場合(ステップS307:Yes)、抽出装置100は、オブジェクトuをオブジェクト集合Sに追加する(ステップS308)。
次に、抽出装置100は、オブジェクトuとオブジェクトyとの距離d(u,y)がr以下であるか否かを判定する(ステップS309)。オブジェクトuとオブジェクトyとの距離d(u,y)がrを超える場合(ステップS309:No)、抽出装置100は、ステップS315の判定(処理)を行う。
オブジェクトuとオブジェクトyとの距離d(u,y)がr以下である場合(ステップS309:Yes)、抽出装置100は、オブジェクトuをオブジェクト集合Rに追加する(ステップS310)。そして、抽出装置100は、オブジェクト集合Rに含まれるオブジェクト数がksを超えるか否かを判定する(ステップS311)。所定数ksは、任意に定められる自然数である。例えば、ks=2やks=10等の種々の設定であってもよい。
オブジェクト集合Rに含まれるオブジェクト数がksを超える場合(ステップS311:Yes)、抽出装置100は、オブジェクト集合Rに含まれるオブジェクトの中でオブジェクトyとの距離が最も長い(遠い)オブジェクトを、オブジェクト集合Rから除外する(ステップS312)。
次に、抽出装置100は、オブジェクト集合Rに含まれるオブジェクト数がksと一致するか否かを判定する(ステップS313)。オブジェクト集合Rに含まれるオブジェクト数がksと一致する場合(ステップS313:Yes)、抽出装置100は、オブジェクト集合Rに含まれるオブジェクトの中でオブジェクトyとの距離が最も長い(遠い)オブジェクトと、オブジェクトyとの距離を、新たなrに設定する(ステップS314)。
そして、抽出装置100は、オブジェクトsの近傍オブジェクト集合N(G,s)の要素であるオブジェクトから全てのオブジェクトを選択してオブジェクト集合Cに格納し終えたか否かを判定する(ステップS315)。オブジェクトsの近傍オブジェクト集合N(G,s)の要素であるオブジェクトから全てのオブジェクトを選択してオブジェクト集合Cに格納し終えていない場合(ステップS315:No)、抽出装置100は、ステップS306に戻って処理を繰り返す。
オブジェクトsの近傍オブジェクト集合N(G,s)の要素であるオブジェクトから全てのオブジェクトを選択してオブジェクト集合Cに格納し終えた場合(ステップS315:Yes)、抽出装置100は、オブジェクト集合Sが空集合であるか否かを判定する(ステップS316)。オブジェクト集合Sが空集合でない場合(ステップS316:No)、抽出装置100は、ステップS302に戻って処理を繰り返す。また、オブジェクト集合Sが空集合である場合(ステップS316:Yes)、抽出装置100は、オブジェクト集合Rを出力し、処理を終了する(ステップS317)。例えば、抽出装置100は、オブジェクト集合Rに含まれるオブジェクト(ノード)を検索クエリ(入力オブジェクトy)に対応する検索結果として、検索を行った端末装置10等へ提供してもよい。図1の例では、抽出装置100は、オブジェクト集合Rに含まれるノードN451やノードN35を検索クエリ(地域XのベクトルVD11)に対応する検索結果として、検索を行った端末装置10等へ提供してもよい。例えば、抽出装置100は、ノードN451に対応する地域#451や、ノードN35に対応する地域#35を地域Xに類似する地域としてユーザU1が利用する端末装置10に提供する。
〔7.効果〕
上述してきたように、実施形態に係る抽出装置100は、取得部131と、抽出部134とを有する。取得部131は、複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の地域に関する地域情報を取得する。抽出部134は、取得部131により取得されたグラフ情報の複数のベクトルのうち、所定の基準に基づいて決定されたグラフ情報の検索の起点となる起点ベクトルを起点としてグラフ情報を検索することにより、複数の地域のうち、一の地域に類似する地域である類似地域を抽出する。
このように、実施形態に係る抽出装置100は、起点ベクトルを起点としてグラフ情報を検索し、複数の地域のうち、一の地域に類似する地域である類似地域を抽出することにより、類似の地域を適切に抽出することができる。
また、実施形態に係る抽出装置100は、決定部133を有する。決定部133は、起点ベクトルの決定に用いるインデックス情報に基づいて、起点ベクトルを決定する。抽出部134は、決定部133により決定された起点ベクトルを起点として、類似地域を抽出する。
このように、実施形態に係る抽出装置100は、起点ベクトルの決定に用いるインデックス情報に基づいて、起点ベクトルを決定することにより、類似の地域を適切に抽出することができる。
また、実施形態に係る抽出装置100において、決定部133は、木構造型のインデックス情報に基づいて、起点ベクトルを決定する。
このように、実施形態に係る抽出装置100は、木構造型のインデックス情報に基づいて、起点ベクトルを決定することにより、類似の地域を適切に抽出することができる。
また、実施形態に係る抽出装置100において、取得部131は、複数の地域の各々の特徴を示す複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。
このように、実施形態に係る抽出装置100は、複数の地域の各々の特徴を示す複数のベクトルが類似性に応じて連結されたグラフ情報を取得することにより、類似の地域を適切に抽出することができる。
また、実施形態に係る抽出装置100において、取得部131は、所定のモデルを用いて複数の地域の各々から抽出された特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得する。
このように、実施形態に係る抽出装置100は、所定のモデルを用いて複数の地域の各々から抽出された特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得することにより、類似の地域を適切に抽出することができる。
また、実施形態に係る抽出装置100において、取得部131は、複数の地域に関する情報を所定のモデルに入力することにより、抽出される複数の地域の各々の特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得する。
このように、実施形態に係る抽出装置100は、複数の地域に関する情報を所定のモデルに入力することにより、抽出される複数の地域の各々の特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得することにより、類似の地域を適切に抽出することができる。
また、実施形態に係る抽出装置100は、提供部135を有する。提供部135は、抽出部134により抽出された類似地域に基づいて、所定のサービスを提供する。
このように、実施形態に係る抽出装置100は、抽出した類似地域に基づいて、所定のサービスを提供することにより、類似の地域に関する情報を用いたサービスを適切に提供することができる。
また、実施形態に係る抽出装置100において、提供部135は、類似地域に関する情報提供サービスを提供する。
このように、実施形態に係る抽出装置100は、類似地域に関する情報提供サービスを提供することにより、類似の地域に関する情報を用いたサービスを適切に提供することができる。
また、実施形態に係る抽出装置100において、取得部131は、ユーザが利用する端末装置10から一の地域に関する地域情報を取得する。提供部135は、端末装置10に類似地域に関する情報を提供する。
このように、実施形態に係る抽出装置100は、ユーザが利用する端末装置10から一の地域に関する地域情報を取得し、端末装置10に類似地域に関する情報を提供することにより、類似の地域に関する情報を用いたサービスを適切に提供することができる。
また、実施形態に係る抽出装置100において、取得部131は、作物生産、鉱山開発、または工場立地における複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。
このように、実施形態に係る抽出装置100は、作物生産、鉱山開発、または工場立地における複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を取得することにより、作物生産、鉱山開発、または工場立地の地域における類似の地域を適切に抽出することができる。
〔8.ハードウェア構成〕
上述してきた実施形態に係る抽出装置100は、例えば図13に示すような構成のコンピュータ1000によって実現される。図13は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る抽出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムまたはデータ(例えば、モデルM1(モデルデータMDT1))を実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムまたはデータ(例えば、モデルM1(モデルデータMDT1))を記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔9.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態に記載された各処理は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 抽出システム
100 抽出装置
121 地域情報記憶部
122 インデックス情報記憶部
123 グラフ情報記憶部
124 モデル情報記憶部
130 制御部
131 取得部
132 生成部
133 決定部
134 抽出部
135 提供部
10 端末装置
50 情報提供装置
N ネットワーク

Claims (11)

  1. 複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の地域に関する地域情報であって、前記一の地域の地盤、地形、海域、土壌、及び天候のうち、対象とする用途に応じて選択される特徴の情報を含む地域情報を取得する取得部と、
    前記取得部により取得された前記グラフ情報の前記複数のベクトルのうち、記憶部に記憶されたインデックス情報と、前記一の地域に関する前記地域情報に基づくベクトルとの類似性に基づいて、前記グラフ情報の検索の起点となる起点ベクトルを決定する決定部と、
    前記決定部により決定された前記起点ベクトルを起点として前記グラフ情報を検索することにより、前記複数の地域のうち、前記一の地域に類似する地域である類似地域を抽出する抽出部と、
    を備えたことを特徴とする抽出装置。
  2. 前記決定部は、
    木構造型の前記インデックス情報に基づいて、前記起点ベクトルを決定する
    ことを特徴とする請求項1に記載の抽出装置。
  3. 前記取得部は、
    前記複数の地域の各々の特徴を示す前記複数のベクトルが類似性に応じて連結された前記グラフ情報を取得する
    ことを特徴とする請求項1または請求項2に記載の抽出装置。
  4. 前記取得部は、
    所定のモデルを用いて前記複数の地域の各々から抽出された特徴量を要素とする前記複数のベクトルが、類似性に応じて連結された前記グラフ情報を取得する
    ことを特徴とする請求項1~3のいずれか1項に記載の抽出装置。
  5. 前記取得部は、
    前記複数の地域に関する情報を所定のモデルに入力することにより、抽出される前記複数の地域の各々の特徴量を要素とする前記複数のベクトルが、類似性に応じて連結された前記グラフ情報を取得する
    ことを特徴とする請求項1~4のいずれか1項に記載の抽出装置。
  6. 前記抽出部により抽出された前記類似地域に基づいて、所定のサービスを提供する提供部、
    をさらに備えたことを特徴とする請求項1~5のいずれか1項に記載の抽出装置。
  7. 前記提供部は、
    前記類似地域に関する情報提供サービスを提供する
    ことを特徴とする請求項6に記載の抽出装置。
  8. 前記取得部は、
    ユーザが利用する端末装置から前記一の地域に関する前記地域情報を取得し、
    前記提供部は、
    前記端末装置に前記類似地域に関する情報を提供する
    ことを特徴とする請求項6または請求項7に記載の抽出装置。
  9. 前記取得部は、
    作物生産、鉱山開発、または工場立地における前記複数の地域の各々に対応する前記複数のベクトルが類似性に応じて連結された前記グラフ情報を取得する
    ことを特徴とする請求項1~8のいずれか1項に記載の抽出装置。
  10. コンピュータが実行する抽出方法であって、
    複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の地域に関する地域情報であって、前記一の地域の地盤、地形、海域、土壌、及び天候のうち、対象とする用途に応じて選択される特徴の情報を含む地域情報を取得する取得工程と、
    前記取得工程により取得された前記グラフ情報の前記複数のベクトルのうち、記憶部に記憶されたインデックス情報と、前記一の地域に関する前記地域情報に基づくベクトルとの類似性に基づいて、前記グラフ情報の検索の起点となる起点ベクトルを決定する決定工程と、
    前記決定工程により決定された前記起点ベクトルを起点として前記グラフ情報を検索することにより、前記複数の地域のうち、前記一の地域に類似する地域である類似地域を抽出する抽出工程と、
    を含んだことを特徴とする抽出方法。
  11. 複数の地域の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の地域に関する地域情報であって、前記一の地域の地盤、地形、海域、土壌、及び天候のうち、対象とする用途に応じて選択される特徴の情報を含む地域情報を取得する取得手順と、
    前記取得手順により取得された前記グラフ情報の前記複数のベクトルのうち、記憶部に記憶されたインデックス情報と、前記一の地域に関する前記地域情報に基づくベクトルとの類似性に基づいて、前記グラフ情報の検索の起点となる起点ベクトルを決定する決定手順と、
    前記決定手順により決定された前記起点ベクトルを起点として前記グラフ情報を検索することにより、前記複数の地域のうち、前記一の地域に類似する地域である類似地域を抽出する抽出手順と、
    をコンピュータに実行させることを特徴とする抽出プログラム。
JP2017221966A 2017-11-17 2017-11-17 抽出装置、抽出方法、及び抽出プログラム Active JP7030485B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017221966A JP7030485B2 (ja) 2017-11-17 2017-11-17 抽出装置、抽出方法、及び抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017221966A JP7030485B2 (ja) 2017-11-17 2017-11-17 抽出装置、抽出方法、及び抽出プログラム

Publications (2)

Publication Number Publication Date
JP2019095831A JP2019095831A (ja) 2019-06-20
JP7030485B2 true JP7030485B2 (ja) 2022-03-07

Family

ID=66971640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017221966A Active JP7030485B2 (ja) 2017-11-17 2017-11-17 抽出装置、抽出方法、及び抽出プログラム

Country Status (1)

Country Link
JP (1) JP7030485B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7177023B2 (ja) * 2019-09-17 2022-11-22 ヤフー株式会社 特定装置、特定方法及び特定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079871A (ja) 2008-06-09 2010-04-08 Yahoo Japan Corp ベクトルデータ検索装置
JP2010198281A (ja) 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム
JP2012068860A (ja) 2010-09-22 2012-04-05 Fujitsu Ltd 因果関係検出方法、該装置、及び該プログラム
JP2016085704A (ja) 2014-10-29 2016-05-19 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079871A (ja) 2008-06-09 2010-04-08 Yahoo Japan Corp ベクトルデータ検索装置
JP2010198281A (ja) 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム
JP2012068860A (ja) 2010-09-22 2012-04-05 Fujitsu Ltd 因果関係検出方法、該装置、及び該プログラム
JP2016085704A (ja) 2014-10-29 2016-05-19 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2019095831A (ja) 2019-06-20

Similar Documents

Publication Publication Date Title
Suruliandi et al. Crop prediction based on soil and environmental characteristics using feature selection techniques
CN103886048B (zh) 一种基于聚类的增量数字图书推荐方法
JP7122120B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Zou et al. Reinforcement learning to diversify top-n recommendation
Isaac et al. Urban landcover classification from multispectral image data using optimized AdaBoosted random forests
EP4131026A1 (en) System and method for multi-modal transformer-based catagorization
JP6311000B1 (ja) 生成装置、生成方法、及び生成プログラム
JP2021033602A (ja) 情報処理装置、ベクトル生成方法及びプログラム
JP7030485B2 (ja) 抽出装置、抽出方法、及び抽出プログラム
JP6976178B2 (ja) 抽出装置、抽出方法、及び抽出プログラム
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
Sanjana Rao et al. Machine learning based restaurant revenue prediction
JP7067946B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7041530B2 (ja) 表示プログラム、表示方法、及び表示装置
JP6865706B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Fushimi et al. Accelerating Greedy K-Medoids Clustering Algorithm with Distance by Pivot Generation
JP6960361B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7221590B2 (ja) 抽出装置、抽出方法、及び抽出プログラム
JP6856567B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7414906B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7171196B2 (ja) 認証装置、認証方法、及び認証プログラム
Wang et al. Bit selection via walks on graph for hash-based nearest neighbor search
JP6976183B2 (ja) 抽出装置、抽出方法、及び抽出プログラム
KR20210086137A (ko) 화장품 마케팅을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
Rungta et al. Two-phase multimodal neural network for app categorization using APK resources

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220222

R150 Certificate of patent or registration of utility model

Ref document number: 7030485

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350