JP7366763B2 - データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム - Google Patents

データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム Download PDF

Info

Publication number
JP7366763B2
JP7366763B2 JP2020005914A JP2020005914A JP7366763B2 JP 7366763 B2 JP7366763 B2 JP 7366763B2 JP 2020005914 A JP2020005914 A JP 2020005914A JP 2020005914 A JP2020005914 A JP 2020005914A JP 7366763 B2 JP7366763 B2 JP 7366763B2
Authority
JP
Japan
Prior art keywords
data
reliability
provider
user
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020005914A
Other languages
English (en)
Other versions
JP2021114077A (ja
JP2021114077A5 (ja
Inventor
夏樹 塚野
暖 山本
俊二 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020005914A priority Critical patent/JP7366763B2/ja
Priority to US17/792,214 priority patent/US20220382724A1/en
Priority to EP21741788.0A priority patent/EP4092542A4/en
Priority to PCT/JP2021/001366 priority patent/WO2021145453A1/ja
Publication of JP2021114077A publication Critical patent/JP2021114077A/ja
Publication of JP2021114077A5 publication Critical patent/JP2021114077A5/ja
Application granted granted Critical
Publication of JP7366763B2 publication Critical patent/JP7366763B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Description

本発明は、データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラムに係り、特に、データを外部から取り込むデータ連携システムに関して、ユーザにデータ信頼性を即時に提示し、データの流通を促進するのに好適なデータ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラムに関する。
近年、オープンデータやビッグデータなどのデータ活用に関する期待の高まりに伴い、データの流通、取引、連携に関する枠組みや情報処理システムによりデータを取り扱う技術の整備が進んでいる。また、インターネットの急速な普及に伴って公開されるデータの種類や量も年々増加している。
データ流通においては、データを提供するデータ提供者、提供されるデータを利用するデータ利用者と、それらのデータ利用者とデータ提供者のやり取りを支援するデータ連携システムからなる仕組みが考えられている。
このようなデータ連携システムの仕組みにおいて、データ利用者は、データを利用する前にデータを選定する。このとき、開発しようとしているアプリケーション等の要件に合致するかなどの基準に基づいて、データ提供者が公開しているデータ項目やデータ来歴などの品質について確認する。
情報処理システムにより、データ選定を支援する従来技術としては、例えば、特許文献1がある。この特許文献1によると、データフロ制御装置が、デバイスが提供するデータの来歴を示したデバイス側メタデータと、アプリケーションが要求するデータの来歴を示したアプリ側メタデータをマッチングすることによって、複数のデバイスのなかからアプリケーションの要求する仕様としてデータを提供した来歴を有するデータを提供可能なデバイスを抽出し、これにより利用者が要求するデータの精度やデータ品質を保証することができるとしている。
特開2017-111501号公報
特許文献1に記載した従来技術は、IoT(Internet of Things)などの潮流を背景に、複数のセンサから出力されるセンシングデータを、アプリケーション側で最適なデータを選出するということに着目している。
しかしながら、特許文献1では、データ利用者は、アプリ側メタデータとして、データ項目だけでなく、アプリケーションが要求するデータの来歴も含めて設定する必要があり、これを実行しようとすると、データの統計手法や加工手法、データのドメイン知識などの専門知識が必要になり、容易にデータを探索できない可能性がある。
また、特許文献1は、データ利用者があるデータについてどの程度の信頼度をもって、データを利用してよいかという定量的な指標を示すことについて開示されていない。
本発明の目的は、専門知識が少なくデータ来歴を記入できない、または提供データのデータ来歴の理解が難しいデータ利用者においても、使用しようとするデータがどの程度信頼できるかという定量的な指標を提示することできるデータ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラムを提供することにある。
本発明のデータ信頼度算出装置の構成は、好ましくは、データを利用するにあたってのデータ信頼度を算出するデータ信頼度算出装置であって、データのデータ利用者ごとのデータ利用者スコアと、データのデータ提供者ごとのデータ提供者スコアと、データごとのデータ信頼度とを保持し、あるデータのデータ信頼度を算出する際に、そのデータを利用したデータ利用者のデータ利用者スコアと、そのデータのデータ提供者のデータ提供者スコアと、そのデータの元データのデータ信頼度に基づいて、そのデータのデータ信頼度を算出するようにしたものである。
本発明によれば、専門知識が少なくデータ来歴を記入できない、または提供データのデータ来歴の理解が難しいデータ利用者においても、使用しようとするデータがどの程度信頼できるかという定量的な指標を提示できるデータ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラムを提供することができる。
データ信頼度算出システムの全体構成図である。 データ信頼度算出装置の機能構成図である。 データ連携装置の機能構成図である。 データ信頼度算出装置のハードウェア・ソフトウェア構成図である。 データ連携装置のハードウェア・ソフトウェア構成図である。 データカタログの一例を示す図である。 来歴者情報テーブルの一例を示す図である。 データ連携記録テーブルの一例を示す図である。 利用者情報テーブルの一例を示す図である。 データ信頼算出システムがデータ信頼度を算出し、表示する一連の処理を示すシーケンスである。 データ信頼度算出の処理を示すフローチャートである。 データ信頼度算出処理の際に算出のデータ関連モデルを示すグラフである(その一)。 データ信頼度算出処理の際に算出のデータ関連モデルを示すグラフである(その二)。
本実施形態では、データの利用履歴やデータの来歴を利用してデータの信頼度を算出し、データ利用者に提示するシステムを説明する。
先ず、図1ないし図5を用いてデータ信頼度算出システムの構成を説明する。
データ信頼度算出システムは、図1に示されるように、インターネット等のネットワーク105に接続された、複数台の端末装置101と、データ信頼度算出装置100と、データ連携装置103と、複数台のデータ提供装置104から構成されるサービスシステムである。
端末装置101(図では、端末装置1011…nと表記)は、データ利用者が、使用可能なデータを探索したり、他のサーバ装置のデータをアプリケーションソフトウェアで利用するための装置である。端末装置101では、データ利用者が、端末装置101にインストールされたWebブラウザ等を用いて使用可能なデータを探索したり、データ連携装置103または、データ提供装置104から取得したデータを、クライアントサイドまたはサーバサイドにおけるアプリケーションソフトウェアで利用することができる。端末装置101は、一般的なパーソナルコンピュータなどの情報処理装置により実現することができる。
データ信頼度算出装置100は、データ連携装置103からの要請に基づいてデータの信頼度を算出する装置である。
データ連携装置103は、データ提供者とデータ利用者の連携を支援する装置である。
データ提供装置104(図1では、データ提供装置1041…mと表記)は、データ利用者の端末装置101からの要求に応じてデータを提供する装置である。
データ信頼度算出装置100、データ連携装置103、データ提供装置104は、共に、サーバ装置などの一般的な情報処理装置により実現することができる。
また、端末装置101、データ信頼度算出装置100、データ連携装置103、データ提供装置104は、複数の装置の機能を一つのサーバ上に構築することも実現可能であり、また、それぞれの装置が保有する機能の一部を他の装置が担うことも可能である。例えば、データ信頼度算出装置100と、データ連携装置103は同一のサーバ上に構築してもよく、データ連携装置103のデータ連携機能部307のデータの送受信に関わる機能を、端末装置101およびデータ提供装置104に実現することもできる。
次に、図2を用いてデータ信頼度算出装置の機能構成について説明する。
データ信頼度算出装置100は、図2に示されるように、機能構成として、データ処理部201、記憶部202、通信部203、入出力部204からなる。
データ処理部201は、データ信頼度算出装置100で取扱うデータの演算や各種処理を行う機能部である。データ処理部201は、サブコンポーネントして、連携結果取得部205、データカタログ取得部206、利用者情報取得部207、データ信頼度算出部208、データ信頼度登録部209を備える。
連携結果取得部205は、データ連携装置103から、データの連携結果を取得する機能部である。データカタログ取得部206は、データカタログ(後述)を取得する機能部である。利用者情報取得部207は、データ提供者およびデータ利用者の情報を取得する機能部である。データ信頼度算出部208は、外部から取得したデータに基づいてデータ信頼度を算出する機能部である。データ信頼度登録部209は、算出したデータ信頼度をデータ連携装置103のデータカタログに登録する機能部である。
記憶部202は、データ信頼度算出装置100で取扱うデータを記憶する機能部である。記憶部202は、データカタログ401、データ来歴情報テーブル402、データ連携記録テーブル403、利用者情報テーブル404を保持する。なお、各種テーブルの詳細は、後述する。
通信部203は、ネットワーク105を介して、データ連携装置103と通信を行う機能部である。入出力部204は、入出力装置により、管理者からデータやコマンドを外部から入力したり、管理者に情報の出力を行う機能部である。
次に、図3を用いてデータ連携装置の機能構成について説明する。
データ連携装置103は、図2に示されるように、機能構成として、データ処理部301、記憶部302、通信部303、入出力部304からなる。
データ処理部301は、サブコンポーネントとして、利用者管理部305、データカタログ管理部306、データ連携機能部307を備える。
利用者管理部305は、データ提供者やデータ利用者などのアカウントの登録、更新、削除したり、パスワードや電子証明書等の認証情報の管理を行う機能部である。データカタログ管理部306は、データの識別子、タイトル、作成者、来歴情報等の情報を管理する機能部である。データ連携機能部307は、データ利用者とデータ提供者とのデータのやり取りを支援する機能部である。
記憶部302は、データ連携装置103で取扱うデータを記憶する機能部である。記憶部302は、データカタログ401、データ来歴情報テーブル402、データ連携記録テーブル403、利用者情報テーブル404を保持する。なお、各種テーブルの詳細は、後述する。
通信部303は、ネットワーク105を介して、端末装置101、データ提供装置104、データ信頼度算出装置100と通信を行う機能部である。入出力部204は、入出力装置により、管理者からデータやコマンドを外部から入力したり、管理者に情報の出力を行う機能部である。
データ利用者とデータ提供者とのデータのやり取りの際には、データ連携装置103を経由してデータのやり取りを行う場合と、データ連携装置103を経由せずに、データ利用者とデータ提供者とが直接データのやり取りを行う場合とが考えられる。いずれの場合も、データ連携の結果は、データ連携装置103に記録される。例えば、データ連携装置103を経由する場合、データ連携機能部307は、データ利用者のデータ要求に応じてデータ提供した結果を、データ連携記録テーブル403として、記憶部302に記録する。データ連携装置103を経由しない場合は、端末装置101にインストールされたアプリケーションまたはデータ提供装置104にインストールされたアプリケーションから、データ連携装置103に対して、データの連携結果が送信され、データ連携結果を受信したデータ連携装置103は、データ連携記録テーブル403に連携結果を登録する。
次に、図4を用いてデータ信頼度算出装置のハードウェア・ソフトウェア構成について説明する。
データ信頼度算出装置100のハードウェア構成としては、例えば、図4に示されるサーバ装置のような一般的な情報処理装置で実現される。
データ信頼度算出装置100は、CPU(Central Processing Unit)502、主記憶装置504、ネットワークI/F(InterFace)506、表示I/F508、入出力I/F510、補助記憶I/F512がバスにより結合された形態になっている。
CPU502は、データ信頼度算出装置100の各部を制御し、主記憶装置504に必要なプログラムをロードして実行する。
主記憶装置504は、通常、RAMなどの揮発メモリで構成され、CPU502が実行するプログラム、参照するデータが記憶される。
ネットワークI/F506は、ネットワーク105と接続するためのインタフェースである。
表示I/F508は、LCD(Liquid Crystal Display)などの表示装置520を接続するためのインタフェースである。
入出力I/F510は、入出力装置を接続するためのインタフェースである。図4の例では、キーボード530とポインティングデバイスのマウス532が接続されている。
補助記憶I/F512は、HDD(Hard Disk Drive)550やSSD(Solid State Drive)などの補助記憶装置を接続するためのインタフェースである。
HDD550は、大容量の記憶容量を有しており、本実施形態を実行するためのプログラムが格納されている。データ信頼度算出装置100のHDD550には、連携結果取得プログラム560、データカタログ取得プログラム561、利用者情報取得プログラム562、データ信頼度算出プログラム563、データ信頼度登録プログラム564がインストールされている。
連携結果取得プログラム560、データカタログ取得プログラム561、利用者情報取得プログラム562、データ信頼度算出プログラム563、データ信頼度登録プログラム564は、それぞれ、連携結果取得部205、データカタログ取得部206、利用者情報取得部207、データ信頼度算出部208、データ信頼度登録部209の各機能を実現するプログラムである。
また、データ信頼度算出装置100のHDD550には、データカタログ401、データ来歴情報テーブル402、データ連携記録テーブル403、利用者情報テーブル404が格納されている。
次に、図5を用いてデータ信頼度算出装置のハードウェア・ソフトウェア構成について説明する。
データ連携装置103も、データ信頼度算出装置100と同様に、ハードウェア構成としては、例えば、図5に示されるサーバ装置のような一般的な情報処理装置で実現され、そのハードウェア構成も同様である。
データ連携装置103のHDD650には、利用者管理プログラム660、データカタログ管理プログラム661、データ連携機能プログラム662がインストールされている。
利用者管理プログラム660、データカタログ管理プログラム661、データ連携機能プログラム662は、それぞれ利用者管理部305、データカタログ管理部306、データ連携機能部307の各機能を実現するプログラムである。
また、データ連携装置103のHDD650には、データカタログ401、データ来歴情報テーブル402、データ連携記録テーブル403、利用者情報テーブル404が格納されている。
次に、図6ないし図9を用いて本実施形態のデータ信頼算出システムで用いられるデータ構造について説明する。
データカタログ401は、データに関するデータに関する基本的な情報を保持するテーブルであり、図6示されるように、[DataID]401a、[Title]401b、[Trust_Score]401c、[Sub_Score]401d、[Provider]401fの各項目を保持する。
[DataID]401aは、データの一意的な識別子が格納される項目である。[Title]401bは、データ提供者がデータにつけた名称が格納される項目である。例えば、[DataID]401aに感応されるデータIDとして、D001、D002、D003などシリアル番号を使うことが考えられるが、[Title]401bに格納されるデータにつけた名称としては、利用者がデータの中身を想像できるものが望ましく、例えば、図6に示されるように、Weather、Temperature、Traffic jamなどの値が一例として挙げられる。
[Trust_Score]401cには、データ信頼度算出装置により算出されたデータの信頼度であり定量的な値が格納される。データ信頼度の算出処理は、後に詳述する。[Sub_Score]401dには、[Trust_Score]401cに対しての補助的なデータ信頼度が格納される。例えば、[Sub_Score]401dとして、当該データのデータ提供者のスコア、データの来歴をもとにした前データのスコア、データの使用頻度等を設定することができる。また、[Sub_Score]401dの補助的なデータ信頼度としては、Webで情報公開を行ったときのそのデータに関する評価などを参酌して定めてもよい。
[Provider]401eには、当該データを提供しているデータ提供者の情報を保持する。例えば、データ提供者のUserIDが設定される。
なお、データカタログ401の項目としては、上記に限定されず、データの作成者、データの更新頻度、データの精度、最終更新日、権利などの項目を有してもよく、それらについても、データ信頼度の算出に用いることができる。
次に、データ来歴情報テーブル402は、データの来歴を保持するテーブルとあり、図7に示されるように、[DataID]402a、[Input_Data_Info]402b、[Relation]402cの項目を保持する。
[DataID]402aは、データの一意的な識別子が格納される項目である。[Input_Data_Info]402bは、該当するデータの加工前のデータあるいは由来となるデータとなるデータIDが保持される。[Relation]402cには、[Input_Data_Info]402bのデータIDの示すデータと、[DataID]402aの示すデータとの関係が示される。
データ来歴情報テーブル402に保持される来歴情報としては、データを作成する際に使用したデータの情報や、センサ情報、加工方法を管理することが考えられる。例えば、図7ではD004で示されるデータは、作成する際に、D003で示されるデータが使用され、加工処理としては分析処理1(Anlysis1)の処理が行われたことが例示されている。また、D005で示されるデータは、作成する際に、D003で示されるデータが使用され、加工処理としては抜粋処理(Extract)が行われたことが例示されている。
次に、データ連携記録テーブル403は、データの提供・使用に関する情報を保持するテーブルであり、図8に示されるように、[DataID]403a、[UserID]403b、[Relation]403d、[Date]403eの項目を保持する。
[DataID]403aは、データの一意的な識別子が格納される項目である。[UserID]403bは、そのデータを提供または利用したユーザの一意的な識別子が格納される項目である。[Relation]403dには、そのデータを提供か使用したかを示す情報が格納される。[Date]403eには、そのデータを提供または使用した日付を示す情報が格納される。
これらの情報により、[DataID]403aのデータIDで示されるデータが、[UserID]403のユーザIDで示される利用者によって、提供された、または利用されたことが示される。例えば、図8では、D001で示されるデータが、P001で示されるユーザ(提供者)によって、2019-9-1に提供されたこと。および、D001で示されるデータが、U002で示されるユーザ(利用者)によって、2019-9-4に利用されたことが例示されている。
次に、利用者情報テーブル404は、データ提供者およびデータ利用者に関する基本的な情報を保持するテーブルであり、図8に示されるように、[UserID]402a、[Name]402b、[Organization]402cの項目を保持する。[UserID]402aは、そのデータを利用したユーザの一意的な識別子が格納される項目である。[Name]402bは、そのデータを利用したユーザの名前が格納される。なお、[Name]402bには、利用者個人の名前が設定される場合、部署名等が設定される場合などが考えられる。[Organization]402cには、[Name]402bに格納された個人の属する機関の情報、また、[Name]402bに格納された部署名等が属する会社名などの情報が格納される。
次に、図10を用いて、データ信頼算出システムがデータ信頼度を算出し、表示する一連の処理について説明する。
この処理は大きく、三つのフェーズに分割することができる。具体的には、(I)データ提供者がデータカタログを登録するフェーズ、(II)データ利用者がデータを利用するフェーズ、(III)データ信頼度が算出され、表示されるフェーズである。
(I)データ提供者がデータカタログを登録するフェーズ
先ず、データ利用者が、データ提供装置104とデータ連携装置103に利用者情報の登録を行う(S500a、S500b)。
次に、データ提供装置104は、データ連携装置103にデータカタログの情報および来歴情報を登録し(S501)、データ連携装置103は、データ提供者の情報とそれらを合わせて記録する。
次に、データ信頼度算出装置100は、データ連携装置103のデータカタログが登録されたタイミングまたは日次などの所定のタイミングでデータ連携装置103からデータカタログを取得する(S502)。
(II)データ利用者がデータを利用するフェーズ
次に、データ利用者は、自身が利用したいデータを保持するデータ提供者を特定し、データ信頼度を確認したうえで、データ提供装置104からデータを取得する(S503)。データを取得した端末装置101は、データの取得結果をデータ連携装置103に送信する(S504)。一方で、データを提供したデータ提供装置104もデータの提供結果をデータ連携装置103に送信する(S505)。データ連携装置103は、端末装置101と、データ提供装置104から受信したデータをもとに、データの連携結果を記録する(S506)。データ信頼度算出装置100は、データ連携結果が記録されたタイミングまたは定められた日時などの所定のタイミングで、データ連携装置103からデータ連携記録を取得する(S507)。
なお、データ利用者がデータを取得する場合に、端末装置101がデータ提供装置104から直接データを取得する以外にも、データ提供者がデータ提供装置104からデータ連携装置103にデータを送信し、データ連携装置103からデータを取得するような場合も考えられる。なお、端末装置101にデータ連携の結果を送信するアプリケーションがインストールされていない場合は、データ連携装置103は、データ提供装置104から受信した情報を用いてデータ連携記録を作成する。
(III)データ信頼度が算出され、表示されるフェーズ
次に、データ信頼度算出装置100は、取得済みのデータカタログと、データの連携結果とをもとに、データ信頼度を算出し(S508)、算出したデータ信頼度をデータ連携装置103に登録する(S509)。データ利用者は、端末装置101を用いてデータ連携装置103からデータカタログの情報を表示し、それぞれのデータのデータ信頼度を確認する。(S509)。
次に、図11ないし図12Bを用いて、データ信頼度算出装置が、データ信頼度を算出する処理について説明する。
データ信頼度算出の処理は、図10に示したように、データ信頼度算出装置100が、各種テーブルを参照して行う処理であり、図10のS508に該当する処理である。
本実施形態では、データ信頼度を算出するために、データ信頼度に関する以下の前提を設ける。
1)多くの利用者に使用されているデータは信頼性が高い。
2)信頼性が高いデータを作成したデータ提供者が提供する他のデータは、ある程度信頼性が高い。
3)信頼性が高いデータから加工されたデータは、ある程度信頼性が高い。
データ信頼度を算出する処理は、データ提供者およびデータ利用者のスコア算出にデータの信頼度を用い、データの信頼度の算出にデータ利用者およびデータ提供者のスコアを用いるため、データの相互参照が再帰的に行われる処理である。処理の終了の判定には、データ更新前とデータ更新後のデータ信頼度、および、それに関連するデータ提供者スコア、データ利用者スコアを比較し、一定の閾値以下になった場合に、それらの値が収束したと判定し、処理を終了する。
先ず、データ信頼度算出装置は、記憶部202に記憶されたデータを取得し(S601)、図12Aに示すような、データ関連グラフ700を作成する(S602)。具体的には、データカタログ401からデータの一覧と、利用者情報テーブル404から取得したデータ利用者およびデータ提供者一覧とから、データに対応するノード、データ利用者に対応するノード、データ提供者に対応するノードを配置する。図12AのDXXXとしたノード(Dノード)がデータに対応するノードであり、PXXXとしたノードがデータ提供者に対応するノード(Pノード)であり、UXXXとしたノード(Uノード)がデータ利用者に対応するノードである。各々のノードの外周に記載した数値は、それぞれ、データ信頼度、データ提供者スコア、データ利用者スコアである。また、以下ではノードDXXXのノードが表すデータを単に、「データDXXX」のように表現する。
次に、データ連携記録テーブル403の情報に基づいて、データを利用したデータ利用者と当該データとを全てエッジでつなぐ。例えば、データD001を使用しているデータ利用者U001をつなぐ。次に、データを提供したデータ提供者と当該データを全てエッジでつなぐ。例えば、データD001を提供したデータ提供者P001とを全てエッジでつなぐ。次に、データ来歴情報テーブル402の記録をもとに、あるデータの元データと当該データとを全てエッジでつなぐ。例えば、あるデータD004とその元となったデータD003をエッジでつなぐ。
次に、全てのノードについて、S604~S606の処理を繰り返す(S603~S607)
ループでは、先ず、作成したデータ関連グラフ700に基づきデータ利用者スコアを算出する(S604)。
データ利用者スコアの例としては、利用している全データのデータ信頼度の相加平均とすることが考えられる。
次に、データ提供者スコアを算出する(S605)。データ提供者スコアの例としては、データ提供者が作成した全データのデータ信頼度の平均とすることが考えられる。
次に、データの信頼度を算出する(S606)。データの信頼度の例としては、当該データを利用しているデータ利用者のデータ利用者スコアの総和と、当該データのデータ提供者のデータ提供者スコアと、来歴から取得した元データの信頼度の相加平均とを足し合わせることが考えられる。
すなわち、データdの信頼度は、以下の(式1)で表される。
Figure 0007366763000001
ここで、Su(d)(i=1,…,n)は、データdを利用しているデータ利用者のデータ利用者スコアであり、Sp(d)は、データdの提供者のデータ提供者スコア、d(i=1,…,m)は、データdの元データ、T(d)は、データdの元データのデータ信頼度である。これは、そのデータを利用した者が多いデータには、データ信頼度が高い、また、信頼度が高い(データ提供者スコアが高い)データ提供者のデータには、そのデータ信頼度が高いとみなせるということを参酌したものである。また、元データのデータ信頼度が高いデータは、そのデータ信頼度が高いとみなせるということを参酌したものである。なお、元データが複数ある場合があること(データをマージして一つのデータとすることなど)を考慮して、ここでは、元データのデータ信頼度の相加平均をとっている。
このとき、来歴情報として加工履歴がない、初めて作られたデータの場合には、所定の初期値を設定する。また、加工方法が信頼度に影響すると考え、加工方法ごとに異なる係数a(0<a<1)を、元データの信頼度に乗算する。例えば、データをマージした場合には、それぞれの係数をa=0.9とし、データにほとんど手を加えず抜粋処理のみ場合には、その係数をa=0.8とし、データを何らかの統計手法で変更した結果には、その係数をa=0.3とするなどが考えられる。
次に、S603ないしS607で得られたそれぞれのデータ利用者スコア、データ提供者スコアおよびデータ信頼度について、データ利用者スコア、データ提供者スコアおよびデータ信頼度ごとに正規化する(S608)。
ここで、正規化とは、各々の足し合わせた数を1になるように、各々の値を配分することであり、以下の(式2)~(式4)で表される。
Figure 0007366763000002
ここで、T’(d)は、正規化後のデータdのデータ信頼度、T(d)は、正規化前のデータdのデータ信頼度であり、(式2)の分母のΣは、全てのDノードに対して和をとることを意味する。同様に、Su’(u)は、正規化後のデータ利用者uのデータ利用者スコア、Su(u)は、正規化前のデータ利用者uのデータ利用者スコアであり、(式3)の分母のΣは、全てのUノードに対して和をとることを意味する。また同様に、Sp’(p)は、正規化後のデータ提供者pのデータ提供者スコア、Sp(p)は、正規化前のデータ提供者pのデータ提供者スコアであり、(式4)の分母のΣは、全てのPノードに対して和をとることを意味する。
次に、全てのデータ利用者スコア、データ提供者スコアおよびデータ信頼度について、更新前(前回の更新時の値)と更新後の差分を計算し、全ての差分が閾値未満であるとき(S609:YES)。データ利用者スコア、データ提供者スコアおよびデータ信頼度を、データカタログ401に記録して終了する(S610)。
なお、S609で一つのデータ利用者スコア、データ提供者スコアおよびデータ信頼度の差分でも閾値以上である場合には(S609:NO)、各々のノードにおけるデータ利用者スコア、データ提供者スコアおよびデータ信頼度を更新し(S611)、ステップ603に戻る。
図12Bの各ノードIDの外周に、全ての差分が閾値未満であったときのそれぞれのデータ利用者スコア、データ提供者スコアおよびデータ信頼度が記載されている。例えば、データD001のデータ信頼度は0.428と算出され、データD002のデータ信頼度は0.168となる。D002とD004は、共にデータ利用者がいないが、データD002は、P001を介してD001とつながっており、信頼度の高いデータD001を提供しているP001が同じく提供しているD002も信頼度を高くなっている。
なお、S606においてデータの信頼度を算出する際に、データ連携記録テーブル403を用い、データの使用日によって、ユーザスコアを増減することが考えられる。例えば、データの使用日が一年以上前の場合にデータ信頼度に加算するユーザのスコアを半減することなどが考えられる。
また、S604、S604のデータ利用者スコアを算出する処理、データ提供者スコアを算出する処理において、データ利用者またはデータ提供者の所属を考慮することが考えられる。例えば、利用者情報テーブル404において、AliceはAAA Ltd.に所属していることに基づいて、AAA Ltd.がどの程度信頼できるかをデータ利用者スコアに反映するなどとすることができる。データ提供者の所属する情報を示すテーブルは、図示しなかったが、利用者情報テーブル404と同様のデータ提供者情報テーブルを用意し、データ提供者ごとに所属を示せばよい。
以上、本実施形態によれば、全てのデータ利用者は、データの利用頻度やデータとデータ提供者の関係、データとデータ利用者との関係を模したグラフに基づいて算出されたデータ信頼度によって、データがどの程度信頼できるかを簡易に判断することができる。
100…データ信頼度算出装置、101…端末装置、103…データ連携装置、104…データ提供装置、105…ネットワーク、201…データ処理部、202…記憶部、203…通信部、204…入出力部、205…連携結果取得部、206…データカタログ取得部、207…利用者情報取得部、208…データ信頼度算出部、209…データ信頼度登録部、
301…データ処理部、302…記憶部、303…通信部、304…入出力部、305…利用者管理部、306…データカタログ管理部、307…データ連携機能部、401…データカタログ、402…データ来歴情報テーブル、403…データ連携記録テーブル、404…利用者情報テーブル、700…データ関連グラフ

Claims (8)

  1. データを利用するにあたってのデータ信頼度を算出するデータ信頼度算出装置であって、
    データのデータ利用者ごとのデータ利用者スコアと、
    データのデータ提供者ごとのデータ提供者スコアと、
    データごとのデータ信頼度とを保持し、
    あるデータのデータ信頼度を算出する際に、そのデータを利用したデータ利用者のデータ利用者スコアと、そのデータのデータ提供者のデータ提供者スコアと、そのデータの元データのデータ信頼度に基づいて、そのデータのデータ信頼度を算出することを特徴とするデータ信頼度算出装置。
  2. あるデータのデータ信頼度を算出する際に、そのデータを利用しているデータ利用者のデータ利用者スコアの総和と、そのデータのデータ提供者のデータ提供者スコアと、元データの信頼度の相加平均とを足し合わせた値を、そのデータのデータ信頼度として算出とすることを特徴とする請求項1記載のデータ信頼度算出装置。
  3. 元データのデータIDと、加工後データのデータIDと、データ加工の種別とを含むデータの来歴情報を保持し、
    前記データ加工の種別ごと定まる係数を、各々の元データの信頼度に乗じて、元データの信頼度の相加平均をとることを特徴とする請求項2記載のデータ信頼度算出装置。
  4. 前記データ提供者スコアは、データ提供者が作成した全データのデータ信頼度の相加平均とし、
    前記データ利用者スコアは、利用している全データのデータ信頼度の相加平均とし、
    データ信頼度として、データごとに初期値を与え、
    与えられたデータのデータ信頼度からデータ利用者スコアを求める処理と、
    与えられたデータのデータ信頼度からデータ提供者スコアを求める処理と、
    前記データ利用者スコアと前記データ提供者スコアと前記元データの信頼度とに基づいて、データ信頼度を求める処理とを、
    前記データ利用者スコアと前記データ提供者スコアと前記データ信頼度の全ての変化が一定の閾値に収まるまで、繰り返し行なうことを特徴とする請求項2記載のデータ信頼度算出装置。
  5. さらに、データ利用者の所属情報、または、データ提供者の所属情報を保持し、
    前記データ利用者の所属情報に基づいて、前記データ利用者スコアを、データ提供者の所属情報に基づいて、前記データ提供者スコアをそれぞれ定めることを特徴とする請求項1記載のデータ信頼度算出装置。
  6. さらに、データが利用された日付情報、または、データが提供された日付情報を保持し、
    前記データが利用された日付情報、または、データが提供された日付情報に基づいて、データ信頼度を定めることを特徴とする請求項1記載のデータ信頼度算出装置。
  7. データ信頼度算出装置により、データを利用するにあたってのデータ信頼度を算出するデータ信頼度算出方法であって、
    前記データ信頼度算出装置は、
    データのデータ利用者ごとのデータ利用者スコアと、
    データのデータ提供者ごとのデータ提供者スコアと、
    データごとのデータ信頼度とを保持し、
    あるデータのデータ信頼度を算出する際に、そのデータを利用しているデータ利用者のデータ利用者スコアの総和と、そのデータのデータ提供者のデータ提供者スコアと、元データの信頼度の相加平均とを足し合わせた値を、そのデータのデータ信頼度として算出するステップを有することを特徴とするデータ信頼度算出方法。
  8. データ信頼度算出装置により実行され、データを利用するにあたってのデータ信頼度を算出するデータ信頼度算出プログラムであって、
    前記データ信頼度算出装置は、
    データのデータ利用者ごとのデータ利用者スコアと、
    データのデータ提供者ごとのデータ提供者スコアと、
    データごとのデータ信頼度とを保持し、
    あるデータのデータ信頼度を算出する際に、そのデータを利用しているデータ利用者のデータ利用者スコアの総和と、そのデータのデータ提供者のデータ提供者スコアと、元データの信頼度の相加平均とを足し合わせた値を、そのデータのデータ信頼度として算出するステップを実行することを特徴とするデータ信頼度算出プログラム。
JP2020005914A 2020-01-17 2020-01-17 データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム Active JP7366763B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020005914A JP7366763B2 (ja) 2020-01-17 2020-01-17 データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム
US17/792,214 US20220382724A1 (en) 2020-01-17 2021-01-15 Data reliability calculation device, data reliability calculation method, and data reliability calculation program
EP21741788.0A EP4092542A4 (en) 2020-01-17 2021-01-15 APPARATUS, METHOD AND PROGRAM FOR CALCULATION OF DATA RELIABILITY
PCT/JP2021/001366 WO2021145453A1 (ja) 2020-01-17 2021-01-15 データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020005914A JP7366763B2 (ja) 2020-01-17 2020-01-17 データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム

Publications (3)

Publication Number Publication Date
JP2021114077A JP2021114077A (ja) 2021-08-05
JP2021114077A5 JP2021114077A5 (ja) 2022-06-17
JP7366763B2 true JP7366763B2 (ja) 2023-10-23

Family

ID=76864448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020005914A Active JP7366763B2 (ja) 2020-01-17 2020-01-17 データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム

Country Status (4)

Country Link
US (1) US20220382724A1 (ja)
EP (1) EP4092542A4 (ja)
JP (1) JP7366763B2 (ja)
WO (1) WO2021145453A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002077134A (ja) 2000-08-31 2002-03-15 Toshiba Corp サーバ・クライアント・システム、データサーバ、データクライアント及びデータ提供・利用方法並びに記録媒体
JP2003316686A (ja) 2002-04-18 2003-11-07 Nec Corp 情報提供システム
JP2006266760A (ja) 2005-03-22 2006-10-05 Hitachi Ltd ナビゲーション装置、ナビゲーション方法、ナビゲーションプログラム、サーバ装置およびナビゲーション情報配信システム
JP2007183825A (ja) 2006-01-06 2007-07-19 Yafoo Japan Corp スコア導出システム
JP2018054503A (ja) 2016-09-29 2018-04-05 富士通株式会社 情報処理装置、情報処理プログラム、情報処理システム及び情報処理方法
WO2019239456A1 (ja) 2018-06-11 2019-12-19 三菱電機株式会社 環境情報管理システム、環境情報管理方法および環境情報管理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4878844B2 (ja) * 2006-01-06 2012-02-15 株式会社リコー プレゼンス情報管理装置、コンピュータが実行可能なプログラム、および記録媒体
JP6465012B2 (ja) 2015-12-14 2019-02-06 オムロン株式会社 データフロー制御装置およびデータフロー制御方法
US10565229B2 (en) * 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002077134A (ja) 2000-08-31 2002-03-15 Toshiba Corp サーバ・クライアント・システム、データサーバ、データクライアント及びデータ提供・利用方法並びに記録媒体
JP2003316686A (ja) 2002-04-18 2003-11-07 Nec Corp 情報提供システム
JP2006266760A (ja) 2005-03-22 2006-10-05 Hitachi Ltd ナビゲーション装置、ナビゲーション方法、ナビゲーションプログラム、サーバ装置およびナビゲーション情報配信システム
JP2007183825A (ja) 2006-01-06 2007-07-19 Yafoo Japan Corp スコア導出システム
JP2018054503A (ja) 2016-09-29 2018-04-05 富士通株式会社 情報処理装置、情報処理プログラム、情報処理システム及び情報処理方法
WO2019239456A1 (ja) 2018-06-11 2019-12-19 三菱電機株式会社 環境情報管理システム、環境情報管理方法および環境情報管理プログラム

Also Published As

Publication number Publication date
JP2021114077A (ja) 2021-08-05
EP4092542A1 (en) 2022-11-23
US20220382724A1 (en) 2022-12-01
WO2021145453A1 (ja) 2021-07-22
EP4092542A4 (en) 2023-12-06

Similar Documents

Publication Publication Date Title
JP5161267B2 (ja) 画面カスタマイズ支援システム、画面カスタマイズ支援方法、および画面カスタマイズ支援プログラム
US20180246886A1 (en) Data migration for platform integration
US8788617B2 (en) Cookies stored in a cloud computing environment
US20150081431A1 (en) Posterior probability calculating apparatus, posterior probability calculating method, and non-transitory computer-readable recording medium
US10892057B2 (en) Medical risk factors evaluation
US20050192841A1 (en) Method and system for collecting information before user registration
US20160246994A1 (en) Information collection apparatus and method
JP6095919B2 (ja) 電子カルテスクリーニング結果出力装置、電子カルテスクリーニング結果出力方法及び電子カルテスクリーニング結果出力プログラム
KR102194683B1 (ko) 법률 상담 스케쥴 관리 방법 및 장치
JP2017068547A (ja) 情報提供装置、プログラム及び情報提供方法
JP2002117215A (ja) 特許管理システム
JP2002366838A (ja) リコメンデーション方法及びサーバ・システム並びにプログラム
JP7366763B2 (ja) データ信頼度算出装置、データ信頼度算出方法およびデータ信頼度算出プログラム
JP6023520B2 (ja) 電子カルテスクリーニングシステム、電子カルテスクリーニング装置、電子カルテスクリーニング方法及び電子カルテスクリーニングプログラム
JP2019061541A (ja) 仲介装置、仲介方法及びプログラム
JP2015069588A (ja) サーバ装置、プログラム、及び、情報提供方法
JP6383284B2 (ja) サーバ装置、システム、情報処理方法、及びプログラム
Xu Implementation of an electronic resource assessment system in an academic library
US20210257098A1 (en) Method and apparatus for generating medical information of object
Aivalis et al. Future proof analytics techniques for web 2.0 applications
JP2001101212A (ja) コンテンツ評価装置、及び記録媒体
JP7014025B2 (ja) 情報処理装置、及び、プログラム
JP2000222329A (ja) 情報通信システム、情報提供装置、ユーザ属性情報収集方法及び記録媒体
EP3664058A1 (en) Sensor management unit, sensor apparatus, sensing data provision method, and sensing data provision program
US20170171030A1 (en) System and method for digital optimization of electronic discovery

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220609

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231011

R150 Certificate of patent or registration of utility model

Ref document number: 7366763

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150