JP7261710B2 - データ仲介装置およびデータ仲介方法 - Google Patents

データ仲介装置およびデータ仲介方法 Download PDF

Info

Publication number
JP7261710B2
JP7261710B2 JP2019167132A JP2019167132A JP7261710B2 JP 7261710 B2 JP7261710 B2 JP 7261710B2 JP 2019167132 A JP2019167132 A JP 2019167132A JP 2019167132 A JP2019167132 A JP 2019167132A JP 7261710 B2 JP7261710 B2 JP 7261710B2
Authority
JP
Japan
Prior art keywords
data
catalog
metadata
evaluation value
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019167132A
Other languages
English (en)
Other versions
JP2021043859A (ja
Inventor
淳 栖川
直一 根本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019167132A priority Critical patent/JP7261710B2/ja
Priority to SG10202007475XA priority patent/SG10202007475XA/en
Publication of JP2021043859A publication Critical patent/JP2021043859A/ja
Application granted granted Critical
Publication of JP7261710B2 publication Critical patent/JP7261710B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ提供者とデータ利用者との間のデータ仲介に関する。
近年、データを提供する人(データ提供者)と、データが欲しい人(データ利用者)とを仲介するプラットホームを活用したデータ流通サービスが提供されている。このプラットホームでは、データ需要者は登録されたデータの概要情報を閲覧および検索することができ、欲しいデータについては注文し購入することができる。また、データ提供者は保有しているデータをデータ流通のプラットホームに登録し、データを販売または貸し出すことができる。また、データ流通サービスでは、データ提供者とデータ需要者との間のマッチングに対する手数料を収益としているところもある。これまでは、特定の分野において(例えば農業分野)、関連するデータが取引されてきたが、今後、分野を横断してデータの取引が進むと考えられる。
データ流通のプラットホームでは、データ利用者がデータを検索したり、データを理解したりする際には、データの概要情報や利用条件などが記載されたデータカタログが用いられる。多様な分野および多様な種類の膨大なデータの取引を促すには、データ利用者にとって、データの見つけやすさおよびデータの理解しやすさの向上が必要であり、そのためには、データカタログに掲載される項目名とその値の量や質を向上させていくことが重要となる。
一方で、データカタログの作成は、一般的にはデータ提供者が実施することが多く、データ提供者の立場からは、データカタログ作成の工数を削減したいニーズが存在する。特に、データカタログの項目名とその値の量や質を向上させる場合には、データカタログ作成の工数がさらに増えてしまうと考えられる。
そのため、データ提供者のデータカタログ作成にかかわる工数を減らし、かつ、データカタログの量および質を向上させることが可能なデータカタログの作成を支援するシステムが望まれる。
メタデータを生成する技術として、演算負荷を軽減してセンサのメタデータを生成することができるメタデータ生成装置、メタデータ生成方法及びメタデータ生成プログラムの技術が特許文献1に開示されている。特許文献1では、学習用データのクラスタのうち入力データの属するクラスタを代表する学習用データの属性情報に基づいてセンサのメタデータを生成することで、新たなセンシングデータを入力データとした場合であっても、メタデータの生成に要する演算負荷が低く抑えられ、また、メタデータの統一性が確保されるため、センサとアプリケーションのマッチングに要する演算負荷および通信負荷が低く抑えられることが開示されている。
特開2018-151859号公報
特許文献1には、学習に用いる学習用データの品質を計測または算出する構成が開示されていない。特許文献1の技術をデータ仲介システムに単純に適用した場合、機械学習によってメタデータを生成することは可能だが、機械学習に用いるデータの質が低い、あるいは、低いものが混ざっている場合に、生成されるメタデータの質も低くなってしまう。また、メタデータの生成用に用いる学習データの質を算出・計測する方法についても開示されていない。
従って、既存の技術では、データカタログの生成装置が用いる学習データの質を計測または算出し、また、それに基づいて、高い質のデータカタログを生成または推論することができない。したがって、本発明では、データカタログを生成する装置において、利用するデータカタログ推論用の学習データの質を計測または算出し、それに基づいて、高い質のデータカタログを生成または推論することが目的である。
上記課題の少なくとも一つを解決するため、本発明の代表的な一例を示せば、プロセッサと、記憶装置と、を有するデータ仲介装置であって、前記記憶装置は、仲介の対象である複数のデータセットの各々の概要及び利用条件の少なくともいずれかを示す1以上の項目のメタデータを含むデータカタログと、前記各データセットの分野を示す情報と、前記各データセットの利用者が属する分野を示す情報と、を保持し、前記各データセットの利用履歴を保持し、前記プロセッサは、前記利用履歴に基づいて、前記各データセットの利用履歴のうち、前記各データセットの分野と同一の分野に属する利用者に関するものに基づく第1の評価値と、前記各データセットの分野と異なる分野に属する利用者に関するものに基づく第2の評価値とを、それぞれが異なる重みを持つように計算し、前記第1の評価値と前記第2の評価値とを合成することによって、前記各データカタログの品質の高さを示す評価値を計算し、前記評価値に基づいて、前記データカタログに含まれるいずれかの項目の前記メタデータの値を、他の項目の前記メタデータの値及び前記各データセットの少なくともいずれかから推論する推論モデルを生成することを特徴とする。
本発明の一態様によれば、データ仲介システムにおいて、データ提供者のデータカタログ登録作業の工数を削減するとともに、より品質の高いデータカタログを作成することが可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明によって明らかにされる。
実施例1によるデータ仲介システムの構成を示すブロック図である。 実施例1の学習データ生成部の動作を示すフローチャートである。 実施例1の学習データ生成部が評価スコアを算出する動作を示すフローチャートである。 実施例1におけるユーザ登録のシーケンス図である。 実施例1のデータ仲介装置が保持するユーザ管理テーブルの説明図である。 実施例1におけるデータ提供者によるデータ登録のシーケンス図である。 実施例1のデータ仲介装置が保持するデータカタログ管理テーブルの説明図である。 実施例1におけるデータ利用者によるデータ閲覧、購入及び取得のシーケンス図である。 実施例1のデータ仲介装置が保持するデータ利用履歴管理テーブルの説明図である。 実施例2によるデータ仲介システムの構成を示すブロック図である。 実施例3のデータ仲介装置10による既存のデータカタログの更新のシーケンス図である。 実施例4における学習データ生成部の動作を示すフローチャートである。 実施例1によるデータ仲介装置のハードウェア構成を示すブロック図である。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、各図において共通する部分には、同一の符号が付与されている。
(データ仲介システムの構成)
本発明の対象であるデータ仲介システムの構成に関して説明する。
図1は、実施例1によるデータ仲介システムの構成を示すブロック図である。
実施例1のデータ仲介システムは、データ仲介装置10、データ提供者情報処理装置20(20-1~20-N)、およびデータ利用者情報処理装置30(30-1~30-M)から構成される。データ提供者情報処理装置20およびデータ利用者情報処理装置30は、ネットワークを介してデータ仲介装置10に接続される。
データ提供者情報処理装置20は、データ提供者が使用する情報処理装置であり、データ提供者がデータ利用者に対して有償または無償で提供するデータを保持している。このデータは、データ仲介装置10による仲介の対象となる。一方、データ利用者情報処理装置30は、提供されるデータの利用者が使用する情報処理装置であり、例えば、提供されたデータを使用した種々の処理を実行する。
一般には、データ仲介システムは複数のデータ提供者情報処理装置20(図1の例ではデータ提供者情報処理装置20-1~20-N)および複数のデータ利用者情報処理装置30(図1の例ではデータ利用者情報処理装置30-1~30-M)を有する。以下の説明において複数の情報処理装置に共通する説明をする場合には、これらを総称して、単にデータ提供者情報処理装置20及びデータ利用者情報処理装置30と記載する。また、後述するように、実際のシステムにおいては、一つの情報処理装置がデータ提供者情報処理装置20及びデータ利用者情報処理装置30のいずれにも該当する場合がある。
データ仲介装置10は、データカタログ登録処理部101、データカタログ記憶部102、データ検索/カタログ閲覧処理部103、データ購入処理部104、データ取得処理部105、データ利用履歴ログ記憶部106、データカタログ生成支援処理部110、およびその他処理部107から構成される。データカタログ生成支援処理部110は、さらに、データカタログ推論部111、学習データ生成部112、学習データ記憶部113、モデル学習部114、推論モデル記憶部115から構成される。
まず、データ仲介装置10における、データカタログ登録の処理について説明する。
データカタログ登録処理部101は、データ提供者情報処理装置からのデータカタログ登録要求メッセージを受信して、メッセージに含まれるデータカタログの項目と値を確認したのちに、当該メッセージをデータカタログ記憶部102に格納する。また、データ提供者情報処理装置20から、メタデータ推論要求メッセージを受信して、メッセージに含まれるメタデータ項目および値の一部と推論対象のメタデータ項目とをデータカタログ推論部111に渡す。
データカタログ推論部111は、データカタログ登録処理部101からメタデータ推論要求メッセージを受信すると、受信したメタデータの一部に基づいて、推論対象のメタデータ項目の値を推論し、その結果をデータカタログ登録処理部に返す。例えば、推論対象のメタデータ項目がデータセットの分類カテゴリである場合には、データ提供者が入力したデータカタログのタイトル及び説明文を入力とし、推論される結果として分類カテゴリの候補値が出力される。
次に、データ仲介装置10における、データ検索/カタログ閲覧処理について説明する。
データ検索/カタログ閲覧処理部103は、データ利用者情報処理装置30からデータ検索のメッセージを受信すると、そのクエリを解析し、該当するデータの有無をデータカタログ記憶部102に問い合わせる。データ検索/カタログ閲覧処理部103は、該当するデータの有無の結果と、該当するデータが有りの場合には、その検索結果とを含むメッセージを作成して、データ利用者情報処理装置30に返信する。
データ検索/カタログ閲覧処理部103は、データ利用者情報処理装置30からデータカタログ要求のメッセージを受信すると、そのメッセージに含まれるデータカタログのIDから該当するデータカタログのメタデータを取得し、取得したメタデータの項目及び値を含むメッセージを作成して、データ利用者情報処理装置30に返信する。
次に、データ仲介装置10における、データ購入処理について説明する。
データ購入処理部104は、データ利用者情報処理装置30からデータ購入要求処理を受信すると、該当データの金額をデータカタログ記憶部102に問い合わせたのちに、該当データの課金処理をその他処理部107に依頼する。また、データ購入処理部104は、該当データに関して、データ利用者のアクセス権限を付与する要求をその他処理部107に依頼し、発行されたアクセストークンを取得し、データ利用者情報処理装置30に返信する。
次に、データ仲介装置10における、データ取得処理について説明する。
データ取得処理部105は、データ利用者情報処理装置30からデータ取得要求処理を受信すると、要求処理に含まれているアクセストークンを確認する。アクセスOKである場合には、データ取得処理部105は、該当データを保持するデータ提供者情報処理装置20にデータ取得要求を送信し、データ提供者情報処理装置20からデータを一時的に取得する。そして、データ利用者情報処理装置30からの応答を返す。なお、取得したデータは応答のメッセージに含めてもよいし、メッセージにはデータにアクセス可能なURLを含めて、データ利用者情報処理装置30が後でそのURLにアクセスしてダウンロード可能としてもよい。
次に、データ仲介装置10における、データカタログ推論モデルの作成処理について説明する。データカタログの推論モデルは、データカタログ記憶部102に保持されているデータカタログ数に一定数以上変化があった場合、または、一定期間ごとに定期的に、データカタログ推論モデルを作成及び更新する。ここでは、一定期間ごとに更新するとして説明する。
学習データ生成部112は、一定期間ごとに、データカタログ記憶部102からデータカタログ推論に用いるデータを収集する。収集したデータを必要に応じて加工または取捨選択したのちに学習データ記憶部113に格納する。学習データ生成部112は、データの加工または取捨選択をする際に、データ利用履歴ログを用い、所定の計算式に基づいて各データカタログをスコアリングし、そのスコアに基づいてデータの取捨選択をする。モデル学習部114は、格納された学習データ記憶部113のデータを用いて、モデルの学習を行い、作成されたモデルを推論モデル記憶部115に格納する。格納した推論モデルは、データカタログ推論部111が呼び出して利用する。
ここで、推論モデルは、推論する対象のデータカタログ項目ごとに作成され、格納される。また、推論モデルの入力としてはデータカタログの一部を想定しているが、それ以外を含めてもよい。例えば、データ自体の内容から抽出したキーワードまたは形式等の情報を推論モデルの入力としてもよい。
以上にのべた構成によれば、データ仲介装置10を介して、データ提供者が登録したデータを、データ利用者がデータを検索、閲覧、購入、データ取得することができる。また、データ提供者がデータカタログを登録する際に、データカタログの推論機能を用いることができる。また、データカタログ推論で用いる学習データの品質をデータ利用履歴ログに基づいて評価し、取捨選択することができる。このようにすることで、利用するデータカタログ推論用の学習データの質を計測または算出し、高い質のデータカタログを生成または推論することができる。
図13は、実施例1によるデータ仲介装置10のハードウェア構成を示すブロック図である。
実施例1のデータ仲介装置10は、プロセッサ1301、メモリ1302、記憶装置1303、入力装置1304、出力装置1305および通信装置1306からなる。
プロセッサ1301は、メモリ1302に格納されたプログラムに従って、データ仲介装置10を制御する。
メモリ1302は、例えば半導体メモリであり、プロセッサ1301によって実行されるプログラム、プロセッサ1301によって参照されるデータ、およびプロセッサ1301が実行する処理の結果として取得されたデータ等を格納する。記憶装置1303に格納されたプログラム及びデータの少なくとも一部が、必要に応じてメモリ1302にコピーされてもよいし、取得されたデータが必要に応じてメモリ1302から記憶装置1303にコピーされてもよい。
図13の例では、メモリ1302に処理プログラム1307が格納される。これは、図1に示したデータカタログ登録処理部101、データ検索/カタログ閲覧処理部103、データ購入処理部104、データ取得処理部105、その他処理部107、データカタログ推論部111、学習データ生成部112およびモデル学習部114の処理を実現するためのプログラムである。本実施例において上記の各部が実行する処理は、実際には処理プログラム1307に記述された命令に従って、プロセッサ1301が実行する。
記憶装置1303は、例えばフラッシュメモリまたはハードディスクのような不揮発性の記憶媒体を有する。図1に示したデータカタログ記憶部102、データ利用履歴ログ記憶部106、学習データ記憶部113および推論モデル記憶部115は、記憶装置1303の記憶領域に相当する。
入力装置1304は、データ仲介装置10の操作者からの入力を受ける。具体的には、入力装置1304は、例えばキーボード、ボタンまたはポインティングデバイス等を含んでもよい。例えば記憶装置1303に格納される情報の少なくとも一部が入力装置1304を介して入力されてもよい。
出力装置1305は、データ仲介装置10の操作者に情報を出力する。具体的には、出力装置135は、例えば画像表示装置等を含んでもよい。
通信装置1306は、有線又は無線のネットワークを介してデータ仲介装置10と外部の装置(例えばデータ提供者情報処理装置20またはデータ利用者情報処理装置30)とのデータのやり取りを可能とするための装置であり、例えばLAN(Local Area Network)アダプタ等を含んでもよい。例えば記憶装置1303に格納される情報の少なくとも一部が通信装置1306を介して入力されてもよいし、処理プログラム1307に従う処理の結果として生成された情報の少なくとも一部が通信装置1306を介して出力されてもよい。
以上の説明においては、データカタログが集中的に管理されていたが、分散して管理してもよい。また、データ提供者情報処理装置20とデータ利用者情報処理装置30とを分けて記載したが、あるヒトまたは組織がデータ提供者とデータ利用者の両方を兼ねることもある。例えば、あるデータを提供するデータ提供者情報処理装置20が、別のデータに関しては、データ利用者情報処理装置30として動作する場合がある。また、この例では、データ仲介装置10がデータ提供者情報処理装置20からのデータ取得を代行していたが、データ仲介装置10を介さずに、データ提供者情報処理装置20とデータ利用者情報処理装置30との間で直接やりとしてデータ取得してもよい。また、データ提供者がデータカタログを作成し、登録する例を示したが、データ利用者が要求するデータのデータカタログを作成し、データ提供者がそのデータカタログにあったデータをデータ仲介装置10を介してデータ利用者に提供してもよい。
(学習データ生成部の動作の説明)
本発明の学習データ生成部112の動作について説明する。
図2は、実施例1の学習データ生成部112の動作を示すフローチャートである。
学習データ生成部112の処理の開始のトリガーは、例えば、一定期間ごとに定期的に生じてもよいし、一定量以上のデータカタログ登録数に変化があった場合に発生してもよい。開始のトリガーが発生すると、以下の順で処理が実行される。
まず、学習データ生成部112は、データカタログ記憶部102から、メタデータ推論のモデルに必要なデータカタログ一式のデータを取得する(S101)。例えば、分類カテゴリの推論にデータカタログのタイトルおよび記述を用いるのであれば、それらに対応する分類カテゴリを取得する。
次に、学習データ生成部112は、データ利用履歴ログ記憶部106からすべてのデータセットに関するデータ利用履歴を取得する(S102)。データ利用履歴のデータ構造については後述する(図9参照)。
次に、学習データ生成部112は、各データに対応するデータ利用履歴および各データに対応するデータカタログの閲覧履歴等に基づいて、データカタログの品質の高さを示す評価スコアを算出する(S103)。評価スコアの算出フローについては後述する(図3等参照)。学習データ生成部112は、この処理をすべてのデータに対して実施する。この一連の処理によって、各データとそれに対応する評価スコアとの対応表が作成される。
次に、学習データ生成部112は、目標データ数に達するまで評価スコア順にデータを取得する(S104)。この際には、評価スコアの高い順に(すなわちデータカタログの品質の高さの順に)データを取得する。これによって、品質の高いデータカタログに含まれるデータが学習データとして選別される。ここで、単純に評価スコア順に取得すると、取得するデータのターゲット(分類カテゴリまたはタグ等、推論する対象のメタデータ)に偏りが生じるため、元の全データにおけるターゲットの比率と、取得する学習データにおけるターゲットの比率が近づく(望ましくは、ほぼ同じになる)ように調整して取得する。
具体的には、後述するように(図7参照)、データカタログは、データセットタイトル、データセット説明、分類カテゴリ、タグといった項目ごとに1以上の値を含んでいる。例えば、保持している全てのデータカタログに含まれる分類カテゴリの値が「農業」、「金融」、「旅行」のいずれかであり、それぞれの出現率がA%、B%、C%であるとする。これは、全データカタログのうちA%のデータカタログは、分類カテゴリのメタデータの値として「農業」を含み、B%のデータカタログは、分類カテゴリのメタデータの値として「金融」を含み、C%のデータカタログは、分類カテゴリのメタデータの値として「旅行」を含んでいることを意味する。
この場合、学習データ生成部112は、S104においてデータを取得するときに、取得後のデータにおける分類カテゴリの値の出現率が上記のA%、B%、C%に近付くように取得する。例えば、評価スコアに忠実に従ってデータを取得した場合に特定の値の出現率が高くなった場合には、その値に対応するデータのうち評価スコアが低いものを取得せずに、別の値に対応する残りのデータから評価スコアの高いものを追加して取得してもよい。分類カテゴリ以外の項目のメタデータについても同様である。これによって、学習データの偏りが軽減され、精度の高い推論モデルを生成することが可能になる。
なお、上記の例では、目標データ数を設定して、評価スコア順にデータを取得したが、評価スコアに閾値を設定して閾値以上のデータを取得してもよい。
最後に、学習データ生成部112は、該当するデータカタログデータを学習データ記憶部に格納する(S105)。
この後、モデル学習部114は、データカタログのいずれかの項目のメタデータの値を推論するための推論モデルを学習によって生成する。例えば、モデル学習部114は、データカタログに含まれる「データセットタイトル」および「データセット説明」といった項目のメタデータの値から「分類カテゴリ」の項目のメタデータの値を推論するための推論モデルを学習してもよい。このとき、モデル学習部114は、「データセットタイトル」および「データセット説明」といった項目のメタデータの値の代わりに(またはそれらに加えて)データセットそのものの内容を説明変数として含む学習データを使用して推論モデルを学習してもよい。同様にして、「分類カテゴリ」だけでなく任意の項目をターゲットとした推論モデルを学習することができる。
また、モデル学習部114は、上記のように計算された評価スコアに基づいて推論モデルを学習する。具体的には、本実施例のモデル学習部114は、上記のように、評価スコアに基づいて選別されたデータカタログ及びそれに対応するデータセットの少なくとも一部を学習データとして使用して推論モデルを学習する。一方、別の例として、モデル学習部114は、評価スコアを説明変数として含む学習データを使用して推論モデルを学習してもよい(実施例4参照)。
以上の処理によって、学習データ生成部112が、データカタログ記憶部102からデータを取得し、データ利用履歴を用いて算出した評価スコアに基づいて、データを選別して、評価スコアが良好な学習データを取得し、格納することができる。
(学習データ生成部での評価スコア算出動作の説明)
学習データ生成部112の処理S103において、各データの評価スコアを算出するが、ここでは、評価スコア算出の動作について説明する。
図3は、実施例1の学習データ生成部112が評価スコアを算出する動作を示すフローチャートである。
まず、学習データ生成部112は、該当するデータの提供者の属する組織の分野を取得する(S201)。該当するデータの提供者の識別情報はデータカタログから取得する。学習データ生成部112は、該当するデータ提供者のユーザIDを特定し、ユーザ管理テーブルを参照しそのユーザIDに合致するユーザ管理情報のうち、所属分野(ここでは分野aとする)を取得する。ユーザ管理テーブルに関しては後述する(図5参照)。
次に、学習データ生成部112は、データ利用履歴ログ記憶部106から、所属分野x(x=1,・・・, L)ごとの検索リスト表示数S_x、データ閲覧数R_x、およびデータ購入数B_xを取得する(S202)。ここで、データ購入数B_xは、各データセットが利用者によって購入された回数である。データ閲覧数R_xは、各データセットに対応するデータカタログが利用者によって閲覧された回数である。検索リスト表示数S_xは、各データセットが利用者の検索結果として表示された回数である。例えば利用者がデータセットを検索して、検索結果として表示されたものからいずれかを選択するとそれに対応するデータカタログが表示されて、利用者がそれを閲覧して自分のニーズに合っていると判断すれば購入する、といったことが行われると、それぞれの動作が履歴として記録される。これらの値は、該当データのデータ利用履歴ログ記憶部から収集および集計することで算出できる。
次に、学習データ生成部112は、処理S202で算出した検索リスト表示数S_x、データ閲覧数R_x、データ購入数B_x(x = 1, 2, ・・・, L)に基づいて、所定のアルゴリズムまたは関数に従って評価スコアを算出する。ここでは、同一分野の利用者からの評価(すなわち同一分野の利用者のデータ利用履歴から算出された評価)に基づくスコア算出関数をF1、異分野の利用者からの評価(すなわち異分野の利用者のデータ利用履歴から算出された評価)に基づくスコア算出関数をF2とすると、該当データのスコアは、次の式(1)によって算出できる。
F1(S_a, R_a, B_a) + F2(S_x, R_x, B_x)(x≠a) ・・・(1)
ここでスコア算出関数を同一分野の利用者からの評価に基づくF1と異分野の利用者からの評価に基づくF2に分けており、それらを合成することで総合的な評価スコアが算出される。このとき、F2の重みを大きくすることで異分野の利用者からの評価を重視することができる。これは、同一分野の利用者であればカタログの品質が低くても事前の知識及び経験によって適切なデータを取得しやすいと考えられるのに対して、異分野の利用者が適切なデータを取得できるか否かはカタログの品質に影響されやすいと考えられることから、異分野の利用者の利用履歴に基づく評価の方が実際のデータカタログの品質を強く反映していると考えられるためである。
ただし、このような考え方は一例であり、別の例としては同一分野の利用者からの評価を重視したい場合にF1の重みを大きくすることも可能である。あるいは、学習データ生成部112は、利用者の分野にかかわらず、評価スコアを算出してもよい。
また、スコア算出関数F1およびF2の内容は限定しないが、一般には、検索リスト表示数S_xが大きいほど評価が高くなり、データ閲覧数R_xが大きいほど評価が高くなり、データ購入数B_xが大きいほど評価が高くなるように設定される。これは、それらの値が大きいほど、データカタログが有用であった(すなわち品質が高い)との推定に基づく。これによって、データカタログの品質が客観的に評価される。また、スコア算出関数F1およびF2において、必ずしも検索リスト表示数S_x、データ閲覧数R_x、およびデータ購入数B_xの全てを利用しなくてもよい。例えば評価スコアがそれらのうちいずれか一つまたは二つに基づいて算出されてもよい。
以上の処理によって、データ利用履歴ログを用いて、各データの評価スコアを算出することができる。
(ほかの評価スコア算出方法)
上記のスコア算出方法はあくまで一例であり、データカタログの”品質”につながるのであれば、他のスコア算出方法を採用してもよい。例えば、データ利用者がデータを評価するシステムを備えているのであれば、その評価値(すなわちデータ利用者によって入力された評価値)も使って、データの評価スコアを算出してもよい。ただし、データ利用者による評価は、カタログの品質に関する評価だけでなく取得したデータそのものの品質に対する評価を含んでいる場合がある。このため、例えばデータの品質に対する評価とカタログの品質に対する評価とを区別してデータ利用者に入力させてもよい。これによって、データ利用者の感覚が推論モデルの生成に反映される。
あるいは、データカタログの内容も用いてスコアを算出してもよい。例えば、データカタログの項目のうち、任意入力項目に値が記入されている割合、または、複数の値を入力可能なデータカタログの項目(例えば、タグ)であれば、付与されているタグの個数を用いてスコアを算出してもよい。具体的には、例えば、データ提供者が任意の数の値を入力することができるタグ等の項目に、多数の値が入力されているほど、そのデータ提供者がデータカタログの生成に熱心であり、生成されたデータカタログの品質も高いであろうと推定して、入力された値の数が多いほど高くなるように評価スコアを計算してもよい。
(ユーザ登録のシーケンス)
実施例1では、該当するデータに対応するデータカタログの品質を評価するために、同一分野と異分野の利用者の利用履歴を用いて、各利用者からの評価値を算出する。ここで利用者が提供者と同一分野に属するか、異分野に属するかを特定するためには、提供者および利用者がそれぞれどの分野の所属であるかの情報を取得する必要がある。本実施例では、ユーザ登録の際の登録情報に組織の関連分野を追加することでこれを実現する。以下では、ユーザ登録のシーケンスを説明する。
図4は、実施例1におけるユーザ登録のシーケンス図である。
データ提供者またはデータ利用者がユーザ登録する際には、データ提供者情報処理装置20またはデータ利用者情報処理装置30からデータ仲介装置10にユーザ登録要求メッセージを送信する(S401)。ユーザ登録メッセージには、ユーザ名、連絡先情報、所属組織、および組織の関連分野を含む。
データ仲介装置10は、ユーザ登録要求メッセージを確認し、登録情報に不備がなく登録可能であればSuccess, 登録情報に不備があり登録不可である場合にはFailとして、そのステータスを含むユーザ登録完了通知メッセージをユーザ登録メッセージの送信元に送る(S402)。ユーザ登録完了通知メッセージには、確認のためユーザ名や連絡先情報、所属組織、組織の関連分野のエコー情報を含める。また、登録可能である場合には、データ仲介装置10は、受信した登録情報をユーザ管理テーブル(後述する)に追加する。
(ユーザ管理テーブル)
データ仲介装置10によるサービスを利用するユーザー(データ提供者、データ利用者)を管理するためのユーザ管理テーブルについて説明する。
図5は、実施例1のデータ仲介装置10が保持するユーザ管理テーブル500の説明図である。
ユーザ管理テーブル500は、データ仲介装置10の記憶装置1303に保持される。例えば、ユーザ管理テーブル500は、その他処理部107に含まれてもよい。
ユーザ管理テーブル500は、ユーザ名501、所属組織502、連絡先情報503および所属組織の関連分野504の列からなる。所属組織の関連分野504は、各ユーザが所属する分野を特定するために参照される。各列には、ユーザ登録シーケンスの際に受信した情報が格納される。この実施例では、データ利用者とデータ提供者とを区別せずにともにユーザとして同一のテーブルで管理する。このため、本実施例のユーザ管理テーブル500は、データ利用者とデータ提供者とで共通の形式を有している。しかし、ユーザ管理テーブル500の形式は必ずしもこれに限定されない。例えば、データ提供者とデータ利用者で取得する情報に差異がある場合には、データ提供者用とデータ利用者用のユーザ管理テーブルに分けて管理してもよい。
以上のユーザ登録のシーケンス処理、および、ユーザ管理テーブルによって、データ仲介者はデータ提供者およびデータ利用者の所属組織の関連分野を取得し、活用することができる。
(データ登録のシーケンス)
次に、実施例1におけるデータ登録のシーケンスについて説明する。ここでは、データカタログの項目値の推論機能を用いて、項目Aから項目Lの値を決めて、データを登録する場合について述べる。
図6は、実施例1におけるデータ提供者によるデータ登録のシーケンス図である。
まず、データ提供者情報処理装置20は、データカタログメタデータ推論要求メッセージ(A)をデータ仲介装置に送信する(S601)。データカタログメタデータ推論要求メッセージには、推論のターゲットの項目の指定と、推論に用いる入力情報である項目名と、項目の値とのセットを含む。
例えば、データセットのタイトルとデータセットの説明からデータセットの分類カテゴリを推論する場合、データカタログメタデータ推論要求メッセージは、推論のターゲットの項目として「分類カテゴリ」を指定し、入力情報として「データセットタイトル」および「データセット説明」の項目とそれぞれの値とを含む。
データ仲介装置10がデータカタログメタデータ推論要求メッセージを受信すると、データ仲介装置10内のデータカタログ登録処理部101が、データカタログ推論部111に推論要求を出す。データカタログ推論部111は、ターゲット項目を推論するモデル(上記の例の場合、「データセットタイトル」および「データセット説明」の値から「分類カテゴリ」の値を推論するモデル)を用いて、ターゲット項目の推論される値の候補を出力し、その結果をデータカタログ登録処理部101に返す。データカタログ登録処理部101は、推論ターゲットとなる項目Aとその候補値を含むデータカタログメタデータ推論応答メッセージ(A)を生成し、データ提供者装置に送信する(S602)。
データ仲介装置10は、このデータカタログメタデータ推論要求と応答のやりとりを項目Aから項目Lについて実施する(S603、S604)。例えば、最初に「データセットタイトル」および「データセット説明」の値から「分類カテゴリ」の値を推論し、次に「データセットタイトル」および「データセット説明」の値から「タグ」の値を推論するなど、所望のターゲットに対する推論が順次行われる。なお、項目ごとにデータカタログメタデータ推論要求メッセージ内の項目と値のセットは異なっていてもよい。例えば、項目Aの推論には項目1:値1、項目2:値2を用い、項目Lの推論には項目1:値1、項目2:値2、項目3:値3を用いてもよい。
また、この実施例のように複数の項目に関してメタデータ推論要求およびそれぞれに対する応答をする場合には、既に取得した推論の応答結果を、別の項目のメタデータ推論の要求に用いてもよい。例えば、項目Bのデータカタログメタデータ推論要求を出す際に、項目Aの推論値Aを入力に用いてもよい。また、図6では記載しなかったが、データカタログメタデータ推論応答メッセージにおいて、モデルで推論した値に加えて、その推定確率を含めてもよい。そうすることで、データ提供者情報処理装置20において、その推定確率を用いて自動的に推論値を受け入れるか否かを判断することが可能となる。
データ提供者情報処理装置20は、項目Aから項目Lに関して、推論値を取得し、推論機能がない、または、推論機能を用いない項目についてもデータカタログのメタデータを生成すると、データカタログ登録要求メッセージを生成し、データ仲介装置10に送信する(S605)。
データ仲介装置10は、受信したデータカタログ登録要求メッセージの内容を確認し、内容に問題があるか否かを判定し、データカタログ登録応答メッセージをデータ提供者情報処理装置20に送信する(S606)。データカタログ登録応答メッセージには、登録可否と、登録可の場合には、その登録内容とを含める。また、登録可の場合には、データ仲介装置10は、受信したデータカタログの内容を、後述するデータカタログ管理テーブルに追加する。
以上の処理によって、データ仲介装置10は、データカタログのメタデータ推論機能を用いて、データ提供者情報処理装置20に推論結果を提示し、データ提供者情報処理装置20はその推論結果を用いて、データカタログを登録要求を出すことができ、データ仲介装置10はデータカタログを登録することができる。
(データカタログ管理テーブル)
次に、データカタログ管理テーブルについて説明する。
図7は、実施例1のデータ仲介装置10が保持するデータカタログ管理テーブル700の説明図である。
データカタログ管理テーブル700は、データ仲介装置10の記憶装置1303に保持される。例えば、データカタログ管理テーブル700は、データカタログ記憶部102に含まれてもよい。
データカタログ管理テーブル700は、データ登録のシーケンスに従って取得したデータカタログのメタデータの項目名と値とを用いて追加および更新がなされる。メタデータは、例えば、データカタログに対応するデータセットの概要および利用条件の少なくともいずれかに関する情報を含む。データカタログはそれ以外のデータセットに関する情報を含んでもよい。
データカタログ管理テーブル700は、データセットID701、データ提供者ID702、データセットタイトル703、データセット説明704、分類カテゴリ705、タグ706およびデータセットアクセスURL707から構成される。なお、ここでは、7つの項目からなるものとして説明するが、これ以外の項目を追加したテーブルを用いてもよい。
データセットID701は、データ仲介システムで一意となるように付与されたIDであり、データセットを識別するのに用いられる。データセットID701は、データセットをデータカタログ管理テーブル700に登録する際にデータ仲介装置10が決定し、付与される。データセットID701はデータ仲介システムで重複を避けられるのであればどのようなものでもよい。例えば、追加されるたびに1ずつカウントアップしてもよいし、ハッシュ値を用いてもよい。
データ提供者ID702は、対応するデータを提供するデータ提供者の識別子を表す。データ提供者ID702は、例えば、ユーザ名でもよい。データセットタイトル703は、登録するデータのタイトル名を表す。データセット説明704は、登録するデータの説明テキストを表す。分類カテゴリ705は、データ仲介システムにおいてデータを複数に分類するための項目であり、例えば、登録するデータがどの分野または業種に該当するかを表す。タグ706は、データに関連するキーワードを表し、複数の値を登録することが可能である。データセットアクセスURL707は、該当するデータセットのアクセスURLである。
以上に述べたデータカタログ管理テーブル700によって、データ仲介システムに登録されるデータを管理することができる。また、後述するように、このデータカタログ管理テーブル700を用いて、データ利用者がデータの検索および閲覧することが可能となる。
(データ検索・閲覧・購入・評価のシーケンス)
次に、データ利用者が、データ仲介システムを用いてデータを検索し、データカタログを閲覧し、データを購入し、データを取得する際のシーケンスについて説明する。
図8は、実施例1におけるデータ利用者によるデータ閲覧、購入及び取得のシーケンス図である。
まず、データ利用者はデータ利用者情報処理装置30を介して、キーワード等を入力してデータカタログの検索を要求するデータカタログ検索メッセージをデータ仲介装置10に送信する(S801)。
データ仲介装置10は、データカタログ検索メッセージを受けて、データカタログ管理テーブル700を用いて該当するデータを抽出し、その結果をデータカタログ検索結果メッセージとしてデータ利用者情報処理装置300に送信する(S802)。検索結果メッセージは、抽出されたデータセットに対応するデータカタログ情報の一部または全部を含む。
データ利用者は、データカタログ検索結果を閲覧して、関心のあるデータを抽出する。ここでは、例として、関心のあるデータが2件抽出された場合について説明する。データ利用者は、データ利用者情報処理装置を介して、関心のあるデータの一つを対象として、データカタログ閲覧要求メッセージを送信する(S803)。データ閲覧要求メッセージは、検索結果メッセージで入手した当該関心のあるデータのデータセットIDを含む。
データ仲介装置10は、データカタログ閲覧要求メッセージを受信すると、メッセージ内容を確認し、データセットIDを取得し、データカタログ管理テーブル700を用いて該当するデータセットIDに対応するデータカタログ情報を取得し、その情報をデータ利用者装置に送信する(S804)。このやりとりを、関心のあるデータの数だけ繰り返す(S805、S806)。
データ利用者は、データカタログを閲覧したのちに、購入を希望するデータがあった場合には、データ利用者情報処理装置30を介してデータ購入要求メッセージをデータ仲介装置に送信する(S807)。データ購入要求メッセージには、決済に関する情報を含める。
データ仲介装置10は、データ購入要求メッセージを受信すると、購入可否を判定し、購入可である場合には、決済に関する情報を用いて決済の処理を実行する。決済の処理が完了すると、データ仲介装置10は、データ利用者情報処理装置30に決済処理の結果を通知する(S808)。決済が問題なく実施された場合には、該当するデータの取得に必要なアクセストークンを発行し、そのアクセストークンを通知に含める。
なお、この実施例では、データの購入可否判定およびデータ取得のアクセス制御はデータ仲介装置10が実施するものとして記載したが、データ提供者情報処理装置20が実施してもよい。その場合には、データ購入要求メッセージはデータ提供者情報処理装置20に転送され、データ提供者情報処理装置20が購入可否を決定し、その結果をデータ仲介装置10に送信し、それをデータ利用者に転送してもよい。
データ利用者情報処理装置30は、取得対象のデータセットIDとアクセストークンとを含むデータ取得要求メッセージをデータ仲介装置10に送信する(S809)。
データ仲介装置10は、データ取得要求を受信すると、アクセストークンを確認して、アクセス可であれば、該当するデータを保有するデータ提供者情報処理装置20にデータ取得要求を送信する(S810)。その後、データ仲介装置10は、データ提供者情報処理装置20からデータ取得要求応答(データを含む)を取得すると(S811)、取得したデータを含むデータ取得要求応答をデータ利用者情報処理装置30に送信する(S812)。
以上の処理によって、データ利用者は、データ仲介システムを使用して、データを検索し、データカタログを閲覧し、データカタログを閲覧し、データを購入し、データを取得することができる。
なお、データ仲介システムにおいて、データ利用者が購入したデータに関する評価を投稿する仕組みがある場合には、データ利用者がそのデータの取得および利用等での評価(例えば定量的なスコアまたは定性的な評価結果)をデータ仲介装置10に投稿してもよい(S813)。その場合、データ仲介装置10は、その評価結果をデータごとに管理し、それをデータカタログに含めてもよい。また、その場合には、その評価値を図3で述べた評価スコア算出に用いてもよい。
また、データ仲介システムは、以上の処理の過程でのログを後述するデータ利用履歴管理テーブルに反映する。
(データ利用履歴管理テーブル)
データ利用履歴管理テーブルについて、その一例を説明する。
図9は、実施例1のデータ仲介装置10が保持するデータ利用履歴管理テーブル900の説明図である。
データ利用履歴管理テーブル900は、データ仲介装置10の記憶装置1303に保持される。例えば、データ利用履歴管理テーブル900は、データ利用履歴ログ記憶部106に含まれてもよい。
データ利用履歴管理テーブル900は、データセットごとに、検索、カタログ閲覧、購入、取得、評価の各種イベントのログを記録および管理するものである。
データ利用履歴管理テーブル900は、データセットID901、イベントログ種別902、ユーザ名903、アクセスユーザ所属分野904、イベント発生時刻905および詳細情報906からなる。
データセットID901は、データセットを識別するIDである。図9では、例として、データセットID901がDataset00001であるデータセットについて表示している。
イベントログ種別902は、発生したイベントの種別を表す。例えば、イベントログ種別902には、検索リスト表示、カタログ閲覧、データ購入、データ取得、またはデータ評価等の値が入る。ユーザ名903は、該当するデータにアクセスしたユーザの名前である。
アクセスユーザ所属分野904は、該当するデータにアクセスしたユーザの所属組織の分野を表す。
イベント発生時刻905は、データ利用にかかわるイベントが発生した時刻を表す。
詳細情報906は、各種イベントに対する詳細な情報を表す。例えば、該当するデータセットが検索リストに表示された場合には、詳細情報906は、検索に用いた検索式(キーワード等)、および、検索結果として表示されたリストにおける、該当するデータセットの順位を含んでもよい。あるいは、例えば、イベントがカタログ閲覧の場合には、詳細情報906は閲覧時間を含んでもよい。
データ利用履歴管理テーブル900は、各種イベントが発生するたびに更新がなされる。このデータ利用履歴を用いて、データセットに関して評価スコアが算出される。評価スコアの算出には、主にアクセスユーザ所属分野別に、各種イベントログの回数を集計した集計値(検索された数、カタログ閲覧された数、購入された数)に基づいて実施される。
本実施例では評価スコアの算出に、回数を集計した値を用いたが、本データ利用履歴の詳細情報を用いてもよい。例えば、検索リストでの順位を加味したり、カタログの閲覧時間を加味したり、データ評価値を加味したりしてもよい。
以上のデータ利用履歴管理テーブル900によって、データ仲介装置10で発生したデータ利用に関するイベントの履歴を管理するとともに、データの評価をすることが可能となる。
以上述べた実施例1によれば、データの利用履歴を用いて、データカタログの項目値の推論に用いるデータを選別することができ、選別したデータを用いてデータカタログ項目値推論のモデルを構築できるため、より高品質にデータカタログ項目値の推論が可能となる。
(実施例1の変形例)
実施例1では、学習データを生成する際に、各データの評価スコアを算出し、評価スコアが上位のデータを選別して、上位のデータのみを学習用データとして用い、教師あり学習によってモデルを構築していた。しかし、この場合、選別することによって学習用のデータ数が減少してしまうため、それに伴い推論精度が低下することが懸念される。
その代わりに、半教師あり学習によって下位のデータも用いてモデルを構築することも可能である。例えば、データ仲介装置10は、評価スコアが上位のデータについては、推論のターゲットとなるメタデータを付与した教師ありデータとし、評価スコアが下位のデータについては、推論のターゲットとなるメタデータを付与しない教師なしデータとし、教師ありデータと教師なしデータを用いて半教師あり学習によってモデルを構築してもよい。このようにすることで、全体のデータ数が少ない場合においても、精度の高いモデルを構築することが可能となる。
次に、本発明の実施例2について説明する。以下に説明する相違点を除き、実施例2のシステムの各部は、実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
実施例1では、データ仲介システム内に登録されているデータカタログを用いて、学習データを生成・選別していたが、データ仲介システム外部から学習データを収集してもよい。実施例2では、データ仲介システム内のデータカタログに加えて、他のデータ仲介システムにあるデータカタログ等を収集して、学習データを生成・選別する。
図10は、実施例2によるデータ仲介システムの構成を示すブロック図である。
実施例1との違いは、データ仲介装置10が外部学習データ取得部116を備えている点、および、ネットワークを介して他のデータ仲介装置11と通信が可能である点である。
なお、実施例2のデータ仲介装置10は、実施例1のものと同様に、図13に示した計算機システムによって実現することができる。ただし、実施例2の処理プログラム1307は、外部学習データ取得部116の処理を実現するためのプログラムを含む。また、データ仲介装置10と他のデータ仲介装置11との間の通信は、通信装置1306に接続されたネットワークを経由して行われる。
学習データ生成部112は、データカタログ記憶部102が保持しているデータカタログ一式を取得し、データ利用履歴ログ記憶部106が保持しているデータカタログごとの利用履歴ログを取得し、更に、外部学習データ取得部116を介して、他のデータ仲介装置11が保持しているデータカタログ一式およびデータ利用履歴を取得する。なお、ここで他のデータ仲介装置11は、複数あってもよい。また、他のデータ仲介装置11は、オープンデータカタログサイトであってもよいし、特定の分野のデータを取り扱うデータ仲介装置であってもよい。
学習データ生成部112が学習データを選別する際の評価スコアの算出の方法は、自データ仲介装置10が保持している学習データを対象とする場合と他のデータ仲介装置11から取得する学習データを対象とする場合とで同じでもよいし、異なっていてもよい。例えば、他のデータ仲介装置11から取得できるデータ利用履歴がデータの閲覧数のみだった場合には、他のデータ仲介装置11が保有するデータカタログのスコアリングはデータの閲覧数のみを用いて算出する。
学習データ生成部112は、自データ仲介装置10および他のデータ仲介装置11から取得した学習したデータを選別すると、それらを学習データ記憶部113に格納する。以後、学習データを用いてモデルを学習し、推論モデルを推論モデル記憶部に格納し、その推論モデルを用いてデータカタログ推論する動作は、実施例1と同様である。
実施例2によれば、自データ仲介装置に制限されない、より多くの多様なデータカタログの学習データを収集し選別することができる。さらに、その学習データを用いることでより多様なデータに対応したデータカタログ推論が可能であり、また、学習データ数が増すことによってデータカタログ推論の精度を向上させることも可能である。
次に、本発明の実施例3について説明する。以下に説明する相違点を除き、実施例3のシステムの各部は、実施例1または2の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
データ仲介システムに登録されるデータ数が増加したり、登録されたデータの利用が増加したりするのに伴い、データカタログ推論機能で用いるモデルの性能が向上する。例えば、同じデータセットに関してでも、データ登録時は1種類のタグを推薦していたが、現在は3種類のタグを推薦することもありうる。したがって、データ仲介システムにおいて、データカタログを適宜更新していくことが望ましい。
実施例1では、データカタログ推論機能は、データ提供者がデータを登録するときにのみ動作させていた。実施例3では、データ登録時だけでなく、定期的にモデルを更新した際に、既存のデータカタログにおいて、データカタログ推論機能を動作させる。
実施例3では、データカタログ推論のモデルを更新した際に、既存のデータカタログの項目・値についても推論を行う。
図11は、実施例3のデータ仲介装置10による既存のデータカタログの更新のシーケンス図である。
データ仲介装置10のデータカタログ推論部111は、モデルが更新されたタイミングで、データカタログ記憶部102に格納されている既存のデータカタログに対して推論処理をおこなう。推論された値と既存のデータカタログの値とが異なるも場合には、データ仲介装置10はデータカタログメタデータ推薦メッセージを発行し、データ提供者情報処理装置20に送信する(S1101)。データカタログメタデータ推薦メッセージには、対象となるデータセットID、変更対象となるメタデータの項目と当該項目の既存の値とのペア(例えば項目A:推論値A)、および、当該項目の推薦される値(例えば項目A:推論値A’)を含める。
データ提供者情報処理装置20は、データカタログメタデータ推薦メッセージを受信すると、その推薦を受け入れるか否かを判定する。推薦を受け入れる場合には、データ提供者情報処理装置20はデータカタログ変更要求メッセージをデータ仲介装置10に送信する(S1102)。データカタログ変更要求メッセージには、対象となるデータセットID、変更前の項目と値とのペア(項目A:推論値A)、および、変更後の項目と値とのペア(例えば項目A:推論値A’)を含める。
データ仲介装置10がデータカタログ要求メッセージを受信すると、該当するデータセットID701に対応するデータカタログ管理テーブル700の値を更新する。データ仲介装置10は、データカタログ管理テーブル700を更新すると、データカタログ変更応答を生成し、データカタログ変更応答メッセージを送信する(S1103)。
以上に述べたデータカタログ更新のシーケンスは、データカタログ推論部111で用いるモデルを更新するたびに実行してもよい。このように処理を実行することで、既存のデータカタログについてもデータカタログ推論部を用いて更新することができる。
実施例3によれば、データ仲介システムにおいて、データカタログをより高い品質のものに更新することができる。
次に、本発明の実施例4について説明する。以下に説明する相違点を除き、実施例4のシステムの各部は、実施例1ないし3の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
実施例1では、データ利用履歴を用いて各データセットの評価スコアを算出し、その評価スコアを用いて学習に用いるデータを選別していた。実施例4では、各データセットの評価スコアも特徴量に用いて、データカタログの項目名と値を推論するモデルを構築する。
図12は、実施例4における学習データ生成部112の動作を示すフローチャートである。
実施例4の学習データ生成部112は、データカタログ記憶部102からデータを取得し(S1201)、次に、データ利用履歴ログ記憶部106からデータ利用履歴を取得し(S1202)、次に、各データセットの評価スコアを算出する(S1203)。その後、学習データ生成部112は、その評価スコアも特徴量として扱い、学習データ記憶部113に格納する(S1204)。評価スコアの算出については、実施例1と同様である。
モデル学習部114は、実施例1と同様の説明変数に評価スコアを加えて、モデルを学習する。
データカタログ推論部111は、メタデータの一部および評価スコアが入力されると、ターゲットとなるメタデータ推薦値を出力する。新規に登録するデータについては、評価スコアは未知であるため、ここでは、既存のデータカタログの評価スコアの平均値より高い値を設定する。平均値より高い値を設定することで、評価の高いデータを反映し、良質なメタデータが推薦されると考えられる。
以上の処理によって、評価スコアを用いて学習データに用いるデータカタログを選別する代わりに、評価スコアを特徴量に用いた推論モデルを構築することができ、また、新たに登録するデータカタログについても高い品質のメタデータを推論することができる。
なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
10 データ仲介装置
20(20-1~20-N) データ提供者情報処理装置
30(30-1~30-M) データ利用者情報処理装置
101 データカタログ登録処理部
102 データカタログ記憶部
103 データ検索/カタログ閲覧処理部
104 データ購入処理部
105 データ取得処理部
106 データ利用履歴ログ記憶部
110 データカタログ生成支援処理部
111 データカタログ推論部
112、117 学習データ生成部
113 学習データ記憶部
114 モデル学習部
115 推論モデル記憶部
116 外部学習データ取得部

Claims (12)

  1. プロセッサと、記憶装置と、を有するデータ仲介装置であって、
    前記記憶装置は、
    仲介の対象である複数のデータセットの各々の概要及び利用条件の少なくともいずれかを示す1以上の項目のメタデータを含むデータカタログと、前記各データセットの分野を示す情報と、前記各データセットの利用者が属する分野を示す情報と、を保持し、
    前記各データセットの利用履歴を保持し、
    前記プロセッサは、
    前記利用履歴に基づいて、前記各データセットの利用履歴のうち、前記各データセットの分野と同一の分野に属する利用者に関するものに基づく第1の評価値と、前記各データセットの分野と異なる分野に属する利用者に関するものに基づく第2の評価値とを、それぞれが異なる重みを持つように計算し、前記第1の評価値と前記第2の評価値とを合成することによって、前記各データカタログの品質の高さを示す評価値を計算し、
    前記評価値に基づいて、前記データカタログに含まれるいずれかの項目の前記メタデータの値を、他の項目の前記メタデータの値及び前記各データセットの少なくともいずれかから推論する推論モデルを生成することを特徴とするデータ仲介装置。
  2. 請求項1に記載のデータ仲介装置であって、
    前記第2の評価値の重みが前記第1の評価値の重みより大きいことを特徴とするデータ仲介装置。
  3. プロセッサと、記憶装置と、を有するデータ仲介装置であって、
    前記記憶装置は、
    仲介の対象である複数のデータセットの各々の概要及び利用条件の少なくともいずれかを示す1以上の項目のメタデータを含むデータカタログを保持し、
    前記各データセットの利用履歴を保持し、
    前記プロセッサは、
    前記利用履歴に基づいて、前記各データカタログの品質の高さを示す評価値を計算し、
    前記評価値に基づいて、前記データカタログに含まれるいずれかの項目の前記メタデータの値を、他の項目の前記メタデータの値及び前記各データセットの少なくともいずれかから推論する推論モデルを生成し、
    前記評価値は、前記データセットの利用者によって入力された、前記データセットに対応する前記データカタログの品質の評価を含むことを特徴とするデータ仲介装置。
  4. 請求項1又は3に記載のデータ仲介装置であって、
    ネットワークに接続される通信装置をさらに有し、
    前記プロセッサは、前記記憶装置に保持された前記データカタログと、前記通信装置を介して取得したデータカタログと、を含む学習データを使用することによって、前記推論モデルを生成することを特徴とするデータ仲介装置。
  5. 請求項1又は3に記載のデータ仲介装置であって、
    前記プロセッサは、
    生成した前記推論モデルを使用して、前記記憶装置に保持されている前記データカタログに含まれる前記メタデータの値を推論し、
    推論された前記メタデータの値が前記記憶装置に保持されている前記データカタログに含まれていない場合、前記推論されたメタデータの値を出力し、
    前記推論されたメタデータの値を前記データカタログに追加する指示が入力された場合、前記推論されたメタデータの値を前記データカタログに追加することを特徴とするデータ仲介装置。
  6. 請求項5に記載のデータ仲介装置であって、
    前記プロセッサは、定期的に、又は、前回の前記推論モデルの生成の後に前記記憶装置に保持された前記データカタログの量に所定の変化があった場合に、前記推論モデルを生成することを特徴とするデータ仲介装置。
  7. 請求項1又は3に記載のデータ仲介装置であって、
    前記プロセッサは、前記評価値に基づいて品質が高いと判定される前記データカタログを選別し、前記選別されたデータカタログ及びそれに対応するデータセットの少なくとも一部を学習データとして使用することによって、前記推論モデルを生成することを特徴とするデータ仲介装置。
  8. 請求項7に記載のデータ仲介装置であって、
    前記プロセッサは、前記選別されたデータカタログに含まれる前記メタデータの値の出現率が、選別される前の全てのデータカタログに含まれる前記メタデータの値の出現率に近づくように、前記データカタログを選別することを特徴とするデータ仲介装置。
  9. 請求項7に記載のデータ仲介装置であって、
    前記プロセッサは、選別された前記データカタログ及びそれに対応するデータセットを、前記推論の対象のメタデータが付与された教師あり学習データとして使用し、選別されなかった前記データカタログ及びそれに対応するデータセットを、前記推論の対象のメタデータが付与されていない教師なし学習データとして使用して、半教師あり学習を行うことによって、前記推論モデルを生成することを特徴とするデータ仲介装置。
  10. 請求項1又は3に記載のデータ仲介装置であって、
    前記プロセッサは、前記評価値を説明変数として含む学習データを使用することによって、前記推論モデルを生成することを特徴とするデータ仲介装置。
  11. プロセッサと、記憶装置と、を有する計算機システムが実行するデータ仲介方法であって、
    前記記憶装置は、
    仲介の対象である複数のデータセットの各々の概要及び利用条件の少なくともいずれかを示す1以上の項目のメタデータを含むデータカタログと、前記各データセットの分野を示す情報と、前記各データセットの利用者が属する分野を示す情報と、を保持し、
    前記各データセットの利用履歴を保持し、
    前記データ仲介方法は、
    前記プロセッサが、前記利用履歴に基づいて、前記各データセットの利用履歴のうち、前記各データセットの分野と同一の分野に属する利用者に関するものに基づく第1の評価値と、前記各データセットの分野と異なる分野に属する利用者に関するものに基づく第2の評価値とを、それぞれが異なる重みを持つように計算し、前記第1の評価値と前記第2の評価値とを合成することによって、前記各データカタログの品質の高さを示す評価値を計算する手順と、
    前記プロセッサが、前記評価値に基づいて、前記データカタログに含まれるいずれかの項目の前記メタデータの値を、他の項目の前記メタデータの値及び前記各データセットの少なくともいずれかから推論する推論モデルを生成する手順と、を含むことを特徴とするデータ仲介方法。
  12. プロセッサと、記憶装置と、を有する計算機システムが実行するデータ仲介方法であって、
    前記記憶装置は、
    仲介の対象である複数のデータセットの各々の概要及び利用条件の少なくともいずれかを示す1以上の項目のメタデータを含むデータカタログを保持し、
    前記各データセットの利用履歴を保持し、
    前記データ仲介方法は、
    前記プロセッサが、前記利用履歴に基づいて、前記各データカタログの品質の高さを示す評価値を計算する手順と、
    前記プロセッサが、前記評価値に基づいて、前記データカタログに含まれるいずれかの項目の前記メタデータの値を、他の項目の前記メタデータの値及び前記各データセットの少なくともいずれかから推論する推論モデルを生成する手順と、を含み、
    前記評価値は、前記データセットの利用者によって入力された、前記データセットに対応する前記データカタログの品質の評価を含むことを特徴とするデータ仲介方法。
JP2019167132A 2019-09-13 2019-09-13 データ仲介装置およびデータ仲介方法 Active JP7261710B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019167132A JP7261710B2 (ja) 2019-09-13 2019-09-13 データ仲介装置およびデータ仲介方法
SG10202007475XA SG10202007475XA (en) 2019-09-13 2020-08-05 Data mediation apparatus and data mediation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019167132A JP7261710B2 (ja) 2019-09-13 2019-09-13 データ仲介装置およびデータ仲介方法

Publications (2)

Publication Number Publication Date
JP2021043859A JP2021043859A (ja) 2021-03-18
JP7261710B2 true JP7261710B2 (ja) 2023-04-20

Family

ID=74862397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019167132A Active JP7261710B2 (ja) 2019-09-13 2019-09-13 データ仲介装置およびデータ仲介方法

Country Status (2)

Country Link
JP (1) JP7261710B2 (ja)
SG (1) SG10202007475XA (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067177A (ja) 2008-09-12 2010-03-25 Fujitsu Ltd 支援プログラム、支援装置および支援方法
JP2016146039A (ja) 2015-02-06 2016-08-12 株式会社Jsol 情報処理装置、プログラム及び情報処理方法
US20170372232A1 (en) 2016-06-27 2017-12-28 Purepredictive, Inc. Data quality detection and compensation for machine learning
WO2018100679A1 (ja) 2016-11-30 2018-06-07 株式会社オプティム コンピュータシステム、教師データ取引方法及びプログラム
JP2019148243A (ja) 2018-02-28 2019-09-05 トヨタ自動車株式会社 内燃機関の制御装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202553A (ja) * 1995-01-25 1996-08-09 Nippon Telegr & Teleph Corp <Ntt> 知識学習システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067177A (ja) 2008-09-12 2010-03-25 Fujitsu Ltd 支援プログラム、支援装置および支援方法
JP2016146039A (ja) 2015-02-06 2016-08-12 株式会社Jsol 情報処理装置、プログラム及び情報処理方法
US20170372232A1 (en) 2016-06-27 2017-12-28 Purepredictive, Inc. Data quality detection and compensation for machine learning
WO2018100679A1 (ja) 2016-11-30 2018-06-07 株式会社オプティム コンピュータシステム、教師データ取引方法及びプログラム
JP2019148243A (ja) 2018-02-28 2019-09-05 トヨタ自動車株式会社 内燃機関の制御装置

Also Published As

Publication number Publication date
JP2021043859A (ja) 2021-03-18
SG10202007475XA (en) 2021-04-29

Similar Documents

Publication Publication Date Title
US10963541B2 (en) Systems, methods, and apparatuses for implementing a related command with a predictive query interface
JP4911536B2 (ja) 地域情報検索装置、地域情報検索装置の制御方法、地域情報検索システム、および地域情報検索システムの制御方法
JP6061309B2 (ja) 関連商品情報を表示する方法及びシステム
KR20190006383A (ko) 사용자 행동 순서에 기반한 구매 확률 예측 방법 및 이를 위한 장치
US9165075B2 (en) Managing user ratings in a web services environment
US11379523B2 (en) Method and apparatus for implementing a search index generator
Hao et al. Mobile cloud services recommendation: a soft set-based approach
Yan et al. A practical deep online ranking system in e-commerce recommendation
Huang et al. Multi-scale interest dynamic hierarchical transformer for sequential recommendation
Dong et al. Improving sequential recommendation with attribute-augmented graph neural networks
JP5841323B2 (ja) 推薦アイテム検索サーバ、および推薦アイテム検索プログラム
JP7261710B2 (ja) データ仲介装置およびデータ仲介方法
KR100361773B1 (ko) 인터넷 웹사이트 검색엔진의 구축방법
KR20220125443A (ko) 마케팅 데이터베이스를 포함한 온라인 쇼핑몰 중개 시스템
JP7217096B2 (ja) 広告オプション割当装置、広告オプション割当プログラム、広告オプション割当方法、及び情報提供システム
Kim et al. Music recommendation with temporal dynamics in multiple types of user feedback
Gwadabe et al. SimGNN: simplified graph neural networks for session-based recommendation
JP6327950B2 (ja) 予測値演算装置、予測値演算方法および予測値演算プログラム
KR20050099157A (ko) 온라인 쇼핑몰 중개 방법 및 온라인 쇼핑몰 중개 시스템
KR100727518B1 (ko) 상품정보 데이터베이스를 이용한 서브도메인 쇼핑몰 시스템
KR20180044028A (ko) 단어 정보 제공 방법 및 시스템
KR20220109046A (ko) 온라인 쇼핑몰 중개 방법 및 중개 시스템
CN113591986A (zh) 用于生成推荐模型的对象权值的方法和个性化推荐方法
JP2003337829A (ja) 端末装置、サーバ、および、プログラム
CN117455563A (zh) 资源配置方案推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230410

R150 Certificate of patent or registration of utility model

Ref document number: 7261710

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150