JP2024011617A - データベース管理装置、及びデータベース管理方法 - Google Patents

データベース管理装置、及びデータベース管理方法 Download PDF

Info

Publication number
JP2024011617A
JP2024011617A JP2022113783A JP2022113783A JP2024011617A JP 2024011617 A JP2024011617 A JP 2024011617A JP 2022113783 A JP2022113783 A JP 2022113783A JP 2022113783 A JP2022113783 A JP 2022113783A JP 2024011617 A JP2024011617 A JP 2024011617A
Authority
JP
Japan
Prior art keywords
column
database
confidentiality
data
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022113783A
Other languages
English (en)
Inventor
常之 今木
Tsuneyuki Imaki
匡通 坂田
Tadamichi Sakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022113783A priority Critical patent/JP2024011617A/ja
Priority to US18/114,521 priority patent/US20240020286A1/en
Publication of JP2024011617A publication Critical patent/JP2024011617A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のデータベースの各データに対してその内容に応じた適切なアクセス制御を行うための情報を容易に設定するデータベース管理装置及び方法を提供する。【解決手段】データベース管理装置による機密度伝搬処理であって、データベースの起点カラムの指定を受け付け、起点カラムに格納されているデータの内容と起点カラムに係るデータベース以外の他のデータベースのカラムに格納されているデータの内容との類似度及び起点カラムの機密度に基づき、他のデータベースのカラムの機密度を算出し、算出した機密度と、他のデータベースのカラムのデータの照合容易性を示す値とに基づき、他のデータベースの機密度を算出し、他のデータベースの機密度及び他のデータベースの選択カラムのデータの照合容易性を示す値に基づき、選択カラムの機密度を算出し、選択カラムを新たな起点カラムとして設定し、算出した機密度を新たな起点カラムの機密度として設定する。【選択図】図6

Description

本発明は、データベース管理装置、及びデータベース管理方法に関する。
AI/ML(Artificial Intelligence: Machine Learning)の発達によって、大量のデータの運用管理が必要となっている。そのようなデータには、機密性の高いデータも多く含まれている。しかし、このようなデータに要求される機密性の程度は常に一定ではなく、社会情勢の変化、法令遵守の要請、又はビジネス手法の変化等により、常に変動する可能性を有している。したがって、これらのデータを記憶しているデータベースの機密度(アクセス制限)の設定を変更することで、機密度の高い情報には特定のユーザのみがアクセスできるようにする必要が生じる。
しかしながら、機密度の変更を行うべきデータを有するデータベースは通常大量に存在し、またデータベース間でもデータが複雑に対応づけられているため、あるデータの機密性の設定を変更する場合には、その機密性と連動する他のデータやデータベースの機密性の設定も変更しなければならない。そして、このような作業の多くは、人手に頼っているのが現状である。そこで、このような処理を自動化するための技術が提案されている。
特許文献1には、複合的な構造を持つデータを複数のテーブル/カラムで管理するオブジェクトデータベースにおいて、該データの構造に基づいてアクセス制御用のメタデータを決定し、クエリが発行された際には、該メタデータを参照し、必要ならばクエリを書き換えることでアクセス制御を実現することが記載されている。
特許文献2には、ユーザが定義したセキュアなテーブルに対してクエリが発行された際に、該クエリの結果に基づいて、クエリのスコア(ユーザ定義のセキュリティに対する遵守度)を算出し、閾値との比較によってアクセス可否を決定することが記載されている。
特許文献3には、複数のSQLクエリの組合せを、データ変換のパイプラインと見做し、
各SQLクエリにおいて、カラムに対して定義される条件(例えば、Join条件のカラム同士
、Projectionの変換元/先カラム)に基いて、カラム間の“derivation”関係を抽出し、
該関係をエッジ(辺)とするグラフ構造を構築し、可視化することが記載されている。
米国特許出願公開第2019/0155794号明細書 米国特許出願公開第2016/0171235号明細書 米国特許出願公開第2020/0026790号明細書
特許文献1の技術は、各データベースのデータ構造に基づいてアクセス制御を行うが、機密性のようなデータ内容の実質に基づいたアクセス制御やデータ間の関連性は充分に考慮されていない。
特許文献2では、複数のデータベース間でのデータの連携について充分に考慮されておらず、各データベースのカラム間の機密度の関連性を特定していくことが難しい。
特許文献3では、カラム間の接続関係を特定しているが、データ内容に基づく接続関係は考慮されない。
このように、複数のデータベースが関連しあっている場合に、そのデータ内容に基づいて適切なアクセス権限設定ができるようにするための技術は充分に開発されていない。
本発明は、このような事情に鑑みてなされたものであり、その目的は、複数のデータベースの各データに対してその内容に応じた適切なアクセス制御を行うための情報を容易に設定することが可能なデータベース管理装置、及びデータベース管理方法を提供することを目的とする。
上記課題を解決するための本発明の一つは、1以上のカラムを有する複数のデータベースを記憶する記憶装置、及び、前記データベースのカラムを起点カラムとしてその指定を受け付け、前記指定された起点カラムに格納されているデータの内容と前記指定された起点カラムに係るデータベース以外の他のデータベースのカラムに格納されているデータの内容との類似度、及び前記起点カラムの機密度に基づき、前記他のデータベースのカラムの機密度を算出し、前記算出した機密度と、前記他のデータベースのカラムのデータの照合容易性を示す値とに基づき、前記他のデータベースの機密度を算出し、前記算出した他のデータベースの機密度、及び前記他のデータベースにおける選択されたカラムのデータの照合容易性を示す値に基づき、前記選択されたカラムの機密度を算出し、前記選択されたカラムを新たな前記起点カラムとして設定し、前記算出した機密度を前記新たな起点カラムの機密度として設定する処理装置を備えるデータベース管理装置である。
本発明によれば、複数のデータベースの各データに対してその内容に応じた適切なアクセス制御を行うための情報を容易に設定することができる。
上記した以外の構成及び効果等は、以下の実施形態の説明により明らかにされる。
本実施形態に係るデータベース管理システムの構成の一例を示す図である。 算出方法データの一例を示す図である。 データベース管理装置が備えるハードウェアの一例を示す図である。 機密度設定処理の一例を説明するフロー図である。 機密度設定処理に基づく各テーブルの機密度等の変化の一例を説明する図である。 機密度伝搬処理の一例を説明するフロー図である。 グラフ画面の一例を示す図である。
以下、図面を参照して、本発明の実施形態について詳細に説明する。
図1は、本実施形態に係るデータベース管理システム1の構成の一例を示す図である。データベース管理システム1は、カラム(列)及びレコード(行)からなる、秘匿性を有するデータを記憶したデータベース(以下、テーブルともいう)を複数記憶している情報処理システムである。そして、データベース管理システム1は、これらのデータベースのうち指定されたデータベースのカラムに対して管理者が機密設定を行った場合に、そのデータベースを含む各データベースの各カラムに対しても適切なレベルの機密設定を行う。
具体的には、データベース管理システム1は、データアクセス装置752、機密度設定
装置751、機密度算出方法設定装置750、及びデータベース管理装置701の各情報処理装置を含んで構成される。
データアクセス装置752、機密度設定装置751、機密度算出方法設定装置750、及びデータベース管理装置701の間は、例えば、インターネット、LAN(Local Area
Network)、WAN(Wide Area Network)、又は専用線等の有線又は無線の通信ネット
ワークにより接続される。
機密度設定装置751は、管理者から、機密度の初期設定を行うデータベースのカラム(以下、起点カラムという)の指定を受け付け、指定された起点カラムの情報をデータベース管理装置701に送信する。機密度は、アクセス制限の程度を示す値であり、後述するデータアクセス装置752のユーザは、その機密度の値に応じた内容のアクセス制限を受ける。
機密度算出方法設定装置750は、管理者から、機密度の算出方法に関する情報(以下、算出方法情報という)を受け付け、入力された算出方法情報をデータベース管理装置701の算出方法データ200に記憶する。
データベース管理装置701は、データ格納部703及びデータカタログ部702の各機能部を有する。
データ格納部703は、各データベースのデータ710と、テーブルスキーマ711とを記憶している。テーブルスキーマ711は、データベースのデータ構造を定義した情報である。
データカタログ部702は、メタデータ算出部712、メタデータグラフ分析部705、メタデータ格納部704を備える。
メタデータ算出部712は、データ格納部703からデータベースのデータ710を受信し、受信したデータに基づき、データベース又はカラムに対するパラメータ(次述)を算出する。メタデータ算出部712は、算出した各パラメータを、メタデータ格納部704のテーブルカラムメタデータ720、カラム間類似度721、及び信頼度722に記憶する。
メタデータ格納部704におけるテーブルカラムメタデータ720は、データ格納部703における各テーブルのデータ及び、後述する類似度及び信頼度を算出するために用いられた、各テーブル及び各カラムに関するデータを含む。
カラム間類似度721は、カラム間(異なるテーブル間のカラム間の場合と、同じテーブル内でのカラム間の場合がある)のデータの類似度のデータである。類似度の詳細は後述する。
信頼度722は、各カラムにおけるデータの照合容易性(機密性の確度)を示す数値データである。例えば、あるカラムにおけるデータのとりうる値の種類が少ない場合又はデータのばらつきが小さい場合(例えば、「男」又は「女」)には、そのカラムのデータによってレコードの主体(例えば、個人)を特定しにくいため、照合容易性(機密性の確度)が低い。
次に、メタデータグラフ分析部705は、機密度算出部713、及びグラフデータ構築部714を備える。
機密度算出部713は、機密度算出方法設定装置750から受信した機密度パラメータ、機密度設定装置751から受信した起点カラムとその機密度、及びメタデータ格納部704の情報等に基づき、算出方法データ200に従って、各データベースの各カラムの機密度を算出する。機密度算出部713は、算出した機密度を、メタデータ格納部704のテーブルカラム機密度725に記憶する。
グラフデータ構築部714は、メタデータ格納部704のテーブルカラムメタデータ720、カラム間類似度721、信頼度722、及び機密度724と、データ格納部703のテーブルスキーマ711とに基づき、後述するグラフ画面300を作成するためのデータ(以下、グラフデータという)を作成する。
データアクセス装置752は、ユーザから、指定されたテーブルのカラムに対するアクセス要求を受け付け、アクセス要求をデータベース管理装置701に送信する。データベース管理装置701は、アクセス要求が示すカラムの機密度(機密度算出部713が算出した機密度)に従って、アクセス要求に対応するカラムのデータ(例えば、アクセス指示で指定されたデータの全部、一部、又は送信するデータ無し)をデータアクセス装置752に送信する。データアクセス装置752は、受信したデータを画面等に出力する。
(算出方法データ)
ここで、図2は、算出方法データ200の一例を示す図である。算出方法データ200は、カラムの機密度の第1算出方法201、テーブルの機密度の算出方法202、及びカラムの機密度の第2算出方法203を有する。
カラムの機密度の第1算出方法201は、起点カラムの機密度に基づき他のカラムの機密度を算出する方法である。例えば、他のカラムの機密度は、起点カラムの機密度と、類似度との積により求まるとする。また、例えば、他のカラムの機密度は、起点カラムの機密度が所定の閾値より高ければ100とし、起点カラムの機密度が所定の閾値以下であれば0とする。なお、本実施形態では、前者が選択されているものとする。
テーブルの機密度の算出方法202は、カラムの機密度に基づきテーブルの機密度を算出する方法である。例えば、テーブルの機密度は、カラムの機密度と、そのカラムのデータの信頼度との積により求まるとする。また、例えば、テーブルの機密度は、カラムの機密度が所定の閾値より高ければそのカラムのデータの信頼度の値とし、カラムの機密度が所定の閾値以下であれば0とする。なお、本実施形態では、前者が選択されているものとする。
カラムの機密度の第2算出方法203は、カラムの機密度に基づき他のカラムの機密度を算出する方法である。例えば、他のカラムの機密度は、カラムの機密度と、そのカラムの信頼性との積により求まるとする。また、例えば、他のカラムの機密度は、カラムの機密度が所定の閾値より高ければそのカラムの信頼度の値とし、カラムの機密度が所定の閾値以下であれば0とする。なお、本実施形態では、前者が選択されているものとする。
管理者は、機密度算出方法設定装置750を介して、このような機密度の算出方法を自由に設定することができる。
なお、ここで説明した機密度の算出方法は一例であり、その他の任意の算出方法があり得る。例えば、機密度を算出する対象となるカラム又はテーブルを指定又は限定してもよいし、あるカラムの機密度を算出する場合には、そのカラムと対応づけられた他のカラムの機密度(例えば、類似する項目又は内容のカラム)を用いることにより、機密度を算出
するようにしてもよい。
次に、図3は、データベース管理装置701が備えるハードウェアの一例を示す図である。データベース管理装置701は、CPU(Central Processing Unit)などの処理装
置91と、RAM(Random Access Memory)、ROM(Read Only Memory)等の主記憶装置92と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の補助記憶装置93と、ディスプレイ又はタッチパネル等の表示装置94と、キーボード、マウス、又はタッチパネル等の入力装置95と、NIC(Network Interface Card)、無線通信モジュール、USB (Universal Serial Interface)モジュール、又はシリアル通信モジュール等で構成される通信装置96とを備える。なお、機密度算出方法設定装置750、データアクセス装置752、及び機密度設定装置751も同様のハードウェア構成を備える。
以上に説明したデータベース管理装置701の各機能部の機能は、処理装置91が、主記憶装置92又は補助記憶装置93から各機能部を実現する所定のプログラムを読み出すことにより実現される。また各プログラムは、例えば、可搬性の又は固定された記録媒体に記録して配布することができる。なお、これらのプログラムは、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、これらのプログラムの全部または一部は、例えば、クラウドシステムがAPI (Application Programming Interface)等を介して提供するサービスによって実現してもよい。
次に、データベース管理システム1で行われる処理について説明する。
<機密度設定処理>
図4は、機密度設定処理の一例を説明するフロー図である。
また、図5は、機密度設定処理に基づく各テーブルの機密度等の変化の一例を説明する図である。
以下、これらの図に従って、機密度設定処理を説明する。なお、機密度設定処理は、例えば、データベース管理装置701が機密度算出方法設定装置750又は機密度設定装置751から所定の開始情報を受信したことを契機に実行される。
まず、図4に示すように、メタデータ算出部712は、データ格納部703における各テーブルのデータ710を読み込んでテーブルカラムメタデータ720に読み込みつつ、カラム間類似度721及び信頼度722を算出する(s801)。
信頼度722については、本実施形態では、メタデータ算出部712は、各テーブルの各カラムについて、そのデータ値の分散又は標準偏差等の、データのばらつきを示すパラメータ値を算出することで、信頼度を算出するものとする。なお、このような信頼度の算出方法は一例である。
また、カラム間類似度721については、本実施形態では、メタデータ算出部712は、各テーブルの各カラムから2つのカラムを抽出し、抽出した2つのカラム間のデータの内容(値)の分布(確率分布)の類似度を算出するものとする。なお、このような類似度の算出方法は一例である。例えば、類似度は、2つのカラム間のデータ値の共通度(リニエージ:Lineage。例えば、2つのカラムの間で共通する値があるデータ数を共通度とす
る。)であってもよいし、これと前記の類似度との組み合わせとしてもよい。
なお、メタデータ算出部712は、s801の処理を、後述する機密度伝搬処理s803における、類似度又は信頼度の算出が必要になったタイミングで行ってもよい。
まず、図4に示すように、機密度算出部713は、機密度算出方法設定装置750から、起点カラムの指定を受け付ける(s802)。
具体的には、機密度算出部713は、管理者が機密度算出方法設定装置750に入力した、テーブル及びカラム(すなわち起点カラム)の情報を機密度算出方法設定装置750から受信する。そして、機密度算出部713は、起点カラムに機密度の値を対応付けて記憶する。なお、機密度算出部713は、この起点カラムの機密度の値を自動的に設定してもよいし(例えば、100)、管理者から機密度の指定を受け付けてもよい。
図5の例では、管理者は、第1テーブル100、第2テーブル110、第3テーブル130、及び第4テーブル140のうち第1テーブル100の氏名カラム102(又は第1テーブル100そのものでもよい)に、「Cov」という名称のCov機密度101を設定し、その値に「100」を設定する。
次に、機密度算出部713は、機密度伝搬処理s803を呼び出す。機密度伝搬処理s803の詳細は後述する。
その後、グラフデータ構築部714は、機密度伝搬処理s803により算出した各テーブル及び各カラムの機密性の伝搬の状況を画面に表示するグラフ表示処理s804を実行する。グラフ表示処理s804の詳細は後述する。以上で機密度設定処理は終了する。
<機密度伝搬処理>
図6は、機密度伝搬処理s803の一例を説明するフロー図である。
まず、メタデータ算出部712は、起点カラムとの類似度が算出されている、起点テーブル以外の他のテーブル(ただし、これまでに選択されていない他のテーブル)のカラムを全て特定する(s903)。
メタデータ算出部712は、s903で特定したカラムの一つを選択する(s904)。本実施形態では、メタデータ算出部712は、起点カラムと同名のカラム(起点カラムに直接対応づけられているカラム)を選択するものとする。
メタデータ算出部712は、s904で選択したカラム(以下、選択カラムという)と起点カラムとの間の類似性を特定し、特定した類似性及び起点カラムの機密度に基づき、選択カラムの機密度を算出する(s905)。
具体的には、メタデータ算出部712は、算出方法データ200により、起点カラムの機密度から選択カラムの機密度を算出する。
図5の例では、メタデータ算出部712は、算出方法データ200におけるカラムの機密度の第1算出方法201に従い、氏名カラム102のCov機密度である「100」に、氏名カラム102及び、選択カラムである第2テーブル110の氏名カラム112の間の類似度151「50%」を乗算することで、第2テーブル110の氏名カラム112のCov-接種者機密度114「50」を算出する。
メタデータ算出部712は、s905で算出した選択カラムの機密度と、選択カラムの信頼性に基づき、選択カラムに属するテーブルの機密度を算出する(s906)。
具体的には、メタデータ算出部712は、算出方法データ200により、選択カラムの機密度から選択カラムに属するテーブルの機密度を算出する。
図5の例では、メタデータ算出部712は、算出方法データ200におけるテーブルの機密度の算出方法202に従い、第2テーブル110の氏名カラム112のCov-接種者機密度114「50」に、氏名カラム112の信頼度113を乗算することで、第2テーブル110の機密度111「50」を算出する。
メタデータ算出部712は、s906で機密度を算出したテーブルの他のカラムのうち、機密度を算出していないカラムを全て特定する(s907)。
図5の例では、メタデータ算出部712は、第2テーブル110の種別カラム115及び体温カラム118を特定する。
メタデータ算出部712は、s907で特定したカラムの一つを選択する(s908)。
図5の例では、メタデータ算出部712は、第2テーブル110の種別カラム115又は体温カラム118を選択する。
メタデータ算出部712は、s906で算出したテーブルの機密度と、s908で選択したカラムの信頼性とに基づき、s908で選択したカラムの機密度を算出する(s910)。
具体的には、メタデータ算出部712は、算出方法データ200により、テーブルの機密度からs908で選択したカラムの機密度を算出する。
図5の例では、メタデータ算出部712は、算出方法データ200におけるカラムの機密度の第2算出方法203に従い、第2テーブル110の機密度111「50」に、種別カラム115の信頼度116「80%」(又は体温カラム118の信頼度119「100%」)を乗算することで、種別カラム115のCov-種別機密度117「40」(又は体温カラム118のCov-体温機密度120「50」)を算出する。
メタデータ算出部712は、s908で選択したカラムを新たな起点カラムとして記憶し(s910)、その起点カラムに基づいて、機密度伝搬処理s803を呼び出す(再帰呼び出しs911)。
図5の例では、メタデータ算出部712は、第2テーブル110の種別カラム115を起点カラムとして、第4テーブル140のカラム(例えば、種別カラム142)を全て特定する。もしくは、メタデータ算出部712は、第2テーブル110の体温カラム118を起点カラムとして、第3テーブル130のカラム(例えば、体温カラム132)を全て特定する。
なお、メタデータ算出部712は、再帰呼び出しs911において、第4テーブル140の種別カラム142との類似度152に基づき、第4テーブル140の種別カラム142のCov-種別機密度144を算出し、種別カラム142の信頼度143に基づき第4テーブル140のCov機密度141を算出する。また、メタデータ算出部712は、再帰呼び出しs911において、第3テーブル130の体温カラム132との類似度153に基づき、第3テーブル130の体温カラム132のCov-体温機密度134を算出し、体温カラム132の信頼度133に基づき第3テーブル130のCov機密度131を算出する。
メタデータ算出部712は、再帰呼び出しs911から復帰後、s907で特定したカ
ラムのうち選択していないカラムがあるか否かを確認する(s912)。メタデータ算出部712は、選択していないカラムがある場合は、そのカラムを選択すべくs908の処理を実行し、選択していないカラムがない場合は、メタデータ算出部712は、s913の処理を実行する。
s913においてメタデータ算出部712は、s903で特定したカラムのうち選択していないカラムがあるか否かを確認する。メタデータ算出部712は、選択していないカラムがある場合は、そのカラムを選択すべくs904の処理を実行し、選択していないカラムがない場合は、機密度伝搬処理s803は終了する。
以上の処理により、メタデータ算出部712は、全てのテーブル及びカラムについて、機密度を連鎖的に設定することができる。
<グラフ表示処理>
図7は、グラフ表示処理s804において表示されるグラフ画面300の一例を示す図である。同図に示すように、このグラフ画面300におけるグラフは、機密度が対応づけられているテーブル及びカラムをノードとし、類似度又は信頼度(例えば、テーブルとカラムの間の類似度、カラム間の類似度、カラム又はテーブルの機密度の算出根拠であるカラム又はテーブルの信頼度又は類似度)をエッジとするグラフである。同図では、ノードは円で表され、エッジは2つの円の間を結合する矢印で表される。そして、ノードを表す円内には、そのノードの機密度の値が表示され、エッジを表す矢印の近傍には、そのエッジの信頼度又は類似度の値が表示される。なお、ここで示した図形の種類(ノードは円、エッジは矢印)は一例であり、他の任意の図形に変更可能である。
同図の例では、第1テーブル100の氏名カラム102(起点カラム)のCov接種者機密度104を表す第1の円(機密度の値は100)と、第2テーブル110の氏名カラム112のCov接種者機密度114を表す第2の円(機密度の値は50)と、第2テーブル110のCov機密度111を表す第3の円(機密度の値は50)と、第2テーブル110の種別カラム115のCov種別機密度117を表す第4の円(機密度の値は40)と、第4テーブル140の種別カラム142のCov種別機密度144を表す第5の円(機密度の値は30)と、第4テーブル140のCov機密度141を表す第6の円(機密度の値は30)とが順に表示される。第1の円と第2の円の間は、類似度151を表す矢印(類似度の値は50)で結合され、第2の円と第3の円の間は、信頼度113を表す矢印(類似度の値は100%)で結合され、第3の円と第4の円の間は、信頼度116を表す矢印(類似度の値は80%)で結合され、第4の円と第5の円の間は、類似度152を表す矢印(類似度の値は75%)で結合され、第5の円と第6の円の間は、信頼度143を表す矢印(類似度の値は10%)で結合される。
第3の円からは、さらに、第2テーブル110の体温カラム118のCov-体温機密度120を表す第7の円(機密度の値は50)と、第3テーブル130の体温カラム132のCov体温機密度134を表す第8の円(機密度の値は40)と、第3テーブル130のCov機密度131を表す第9の円(機密度の値は40)とが順に表示される。第3の円と第7の円の間は、信頼度119を表す矢印(信頼度の値は100%)で結合され、第7の円と第8の円の間は、類似度153を表す矢印(類似度の値は80%)で結合され、第8の円と第9の円の間は、信頼度133を表す矢印(信頼度の値は100%)で結合される。
なお、グラフ画面300には、機密度が所定値以上のテーブル及びカラムの情報のみを表示してもよい。
以上のグラフ画面300により、管理者等は、機密度の初期設定を行った起点カラムを起点として、他のテーブルの各カラムに機密度が伝搬した過程を確認することができる。
以上説明したように、本実施形態のデータベース管理装置701は、データベースの起点カラムに格納されているデータの内容と、その起点カラムに係るデータベース以外の他のデータベースのカラムに格納されているデータの内容との類似度、及び、起点カラムの機密度に基づき、当該他のデータベースのカラムの機密度を算出し、算出した機密度と、上記他のデータベースのカラムのデータの信頼度とに基づき、上記他のデータベースの機密度を算出し、算出した他のデータベースの機密度、及び上記他のデータベースの選択されたカラムのデータの信頼度に基づき、上記選択されたカラムの機密度を算出し、選択されたカラムを新たな起点カラムとし、上記算出した機密度を新たな起点カラムの機密度として設定する。
すなわち、データベース管理装置701は、あるデータベースの起点カラムの初期機密度を基準として、他のデータベースに、データ内容の類似度及び信頼度に応じた機密度を設定し、その他のデータベースにおける他のカラムの機密度を、データの信頼度に応じて設定する。そして、そのカラムを新たな起点カラムとして前記の起点カラムの処理を繰り返す。
したがって、起点カラムの機密度を最初に決定しておけば、関連する他のデータベースの各カラムに、データの類似性及び照合容易性に応じた高さの機密度が設定される。
このように、本実施形態のデータベース管理装置701によれば、複数のデータベースの各データに対してその内容に応じた適切なアクセス制御を行うための情報を容易に設定することができる。
また、データベース管理装置701は、類似度を、起点カラムに格納されている各データの分布と、他のデータベースのカラムに格納されている各データの分布との類似度に基づいて算出する。
これにより、カラム間の類似性をそのデータ内容に基づいて合理的な基準で算出することができる。
また、データベース管理装置701は、起点カラムのデータベース以外の他のデータベースのカラムの機密度の算出方法を算出方法データ200に記憶し、その算出方法に従って、当該他のデータベースのカラムの機密度を算出する。
また、本実施形態のデータベース管理装置701は、起点カラム以外の他のデータベースの機密度の算出方法を算出方法データ200に記憶し、その算出方法に従って当該他のデータベースの機密度を算出する。
また、本実施形態のデータベース管理装置701は、上記他のデータベースにおける選択されたカラムの機密度の算出方法データ200に記憶し、その算出方法に従ってその選択されたカラムの機密度を算出する。
このように、各機密度の算出方法を予め記憶しておき、それらに基づいて各機密度を算出できるようにすることで、管理者は、データベースやカラムの特性に基づいた適切な機密度の算出方法を設定することができる。
さらに、本実施形態のデータベース管理装置701は、各起点カラムの機密度、起点カ
ラムのテーブル以外の他のデータベースのカラムの機密度、その他のデータベースの機密度、及びその他のデータベースの選択されたカラムの機密度をそれぞれノードとし、上記他のデータベースのカラムの算出根拠である類似度、上記他のデータベースの機密度の算出根拠である信頼度、及び上記他のデータベースのカラムの選択されたカラムの機密度の算出根拠である信頼度をエッジとし、ノード間をエッジで結合するグラフを出力する。
このようなグラフを出力することで、管理者は、起点カラムを起点として他のテーブルやカラムに機密度が連鎖的に設定されていることを確認することができる。
また、本実施形態のデータベース管理装置701は、データアクセス装置752から、複数のデータベースのうちいずれかのデータベースのカラムに対するアクセス要求を受信し、受信したアクセス要求が示すカラムの機密度に応じたデータを、データアクセス装置752に送信する。
このように、ユーザからのアクセス要求に対して、各データベースの各カラムに設定された機密度に応じたアクセス制御を行うことで、機密データが多数のデータベースに存在している場合であっても、各ユーザに対する適切なアクセスコントロールを行うことができる。
本発明は、上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲内で、任意の構成要素を用いて実施可能である。以上説明した実施形態や変形例はあくまで一例であり、発明の特徴が損なわれない限り、本発明はこれらの内容に限定されるものではない。また、上記では種々の実施形態や変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
例えば、本実施形態の各装置が備えるハードウェアの一部は、他の装置に設けてもよい。
また、各装置の各プログラムは他の装置に設けてもよいし、あるプログラムを複数のプログラムからなるものとしてもよいし、複数のプログラムを一つのプログラムに統合してもよい。
1 データベース管理システム、701 データベース管理装置、703 データ格納部、712 メタデータ算出部、713 機密度算出部、714 グラフデータ構築部、

Claims (9)

  1. 1以上のカラムを有する複数のデータベースを記憶する記憶装置、及び、
    前記データベースのカラムを起点カラムとしてその指定を受け付け、
    前記指定された起点カラムに格納されているデータの内容と前記指定された起点カラムに係るデータベース以外の他のデータベースのカラムに格納されているデータの内容との類似度、及び前記起点カラムの機密度に基づき、前記他のデータベースのカラムの機密度を算出し、
    前記算出した機密度と、前記他のデータベースのカラムのデータの照合容易性を示す値とに基づき、前記他のデータベースの機密度を算出し、
    前記算出した他のデータベースの機密度、及び前記他のデータベースにおける選択されたカラムのデータの照合容易性を示す値に基づき、前記選択されたカラムの機密度を算出し、前記選択されたカラムを新たな前記起点カラムとして設定し、前記算出した機密度を前記新たな起点カラムの機密度として設定する処理装置
    を備えるデータベース管理装置。
  2. 前記処理装置は、前記類似度を、前記起点カラムに格納されている各データの分布と、前記他のデータベースのカラムに格納されている各データの分布との類似度に基づいて算出する、請求項1に記載のデータベース管理装置。
  3. 前記処理装置は、前記類似度を、前記起点カラムに格納されている各データの値と、前記他のデータベースのカラムに格納されている各データの値との共通度に基づいて算出する、請求項1に記載のデータベース管理装置。
  4. 前記処理装置は、前記他のデータベースのカラムの機密度の算出方法を記憶し、前記処理装置は、前記記憶した算出方法に従って、前記他のデータベースのカラムの機密度を算出する、請求項1に記載のデータベース管理装置。
  5. 前記記憶装置は、前記他のデータベースの機密度の算出方法を記憶し、前記処理装置は、前記記憶した算出方法に従って、前記他のデータベースの機密度を算出する、請求項1に記載のデータベース管理装置。
  6. 前記記憶装置は、前記選択されたカラムの機密度の算出方法を記憶し、前記処理装置は、前記記憶した算出方法に従って、前記選択されたカラムの機密度を算出する、請求項1に記載のデータベース管理装置。
  7. 前記処理装置は、前記起点カラムの機密度、前記他のデータベースのカラムの機密度、前記他のデータベースの機密度、及び前記他のデータベースの前記選択されたカラムの機密度をそれぞれノードとし、前記他のデータベースのカラムの算出根拠である類似度、前記他のデータベースの機密度の算出根拠である信頼度、及び前記他のデータベースのカラムの前記選択されたカラムの機密度の算出根拠である信頼度をそれぞれエッジとし、前記ノードを示す図形間を前記エッジを示す図形により結合したグラフを出力する、請求項1に記載のデータベース管理装置。
  8. 前記処理装置は、情報処理装置から、前記複数のデータベースのうちいずれかのデータベースのカラムに対するアクセス要求を受信し、受信したアクセス要求が示すカラムの前記機密度に応じたデータを、前記情報処理装置に送信する、請求項1に記載のデータベース管理装置。
  9. 情報処理装置が、
    1以上のカラムを有する複数のデータベースを記憶し、
    前記データベースのカラムを起点カラムとしてその指定を受け付け、
    前記指定された起点カラムに格納されているデータの内容と前記指定された起点カラムに係るデータベース以外の他のデータベースのカラムに格納されているデータの内容との類似度、及び前記起点カラムの機密度に基づき、前記他のデータベースのカラムの機密度を算出し、
    前記算出した機密度と、前記他のデータベースのカラムのデータの照合容易性を示す値とに基づき、前記他のデータベースの機密度を算出し、
    前記算出した他のデータベースの機密度、及び前記他のデータベースにおける選択されたカラムのデータの照合容易性を示す値に基づき、前記選択されたカラムの機密度を算出し、前記選択されたカラムを新たな前記起点カラムとして設定し、前記算出した機密度を前記新たな起点カラムの機密度として設定する
    データベース管理方法。
JP2022113783A 2022-07-15 2022-07-15 データベース管理装置、及びデータベース管理方法 Pending JP2024011617A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022113783A JP2024011617A (ja) 2022-07-15 2022-07-15 データベース管理装置、及びデータベース管理方法
US18/114,521 US20240020286A1 (en) 2022-07-15 2023-02-27 Database management apparatus and database management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022113783A JP2024011617A (ja) 2022-07-15 2022-07-15 データベース管理装置、及びデータベース管理方法

Publications (1)

Publication Number Publication Date
JP2024011617A true JP2024011617A (ja) 2024-01-25

Family

ID=89509925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022113783A Pending JP2024011617A (ja) 2022-07-15 2022-07-15 データベース管理装置、及びデータベース管理方法

Country Status (2)

Country Link
US (1) US20240020286A1 (ja)
JP (1) JP2024011617A (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720824B2 (en) * 2003-12-11 2010-05-18 International Business Machines Corporation Database range constraint that is dynamically limited by data in the database
US11468049B2 (en) * 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US10643135B2 (en) * 2016-08-22 2020-05-05 International Business Machines Corporation Linkage prediction through similarity analysis
US10810317B2 (en) * 2017-02-13 2020-10-20 Protegrity Corporation Sensitive data classification
US10942926B2 (en) * 2018-09-05 2021-03-09 Sap Se Identification, and query, of semantically-related database tables
US11226970B2 (en) * 2018-09-28 2022-01-18 Hitachi Vantara Llc System and method for tagging database properties
US20220222233A1 (en) * 2021-01-13 2022-07-14 Bigid Inc Clustering of structured and semi-structured data
US11914553B2 (en) * 2021-10-07 2024-02-27 T-Mobile Innovations Llc Methods and systems for analyzing similarities across tables and databases to perform de-duplication in a storage server

Also Published As

Publication number Publication date
US20240020286A1 (en) 2024-01-18

Similar Documents

Publication Publication Date Title
US11709827B2 (en) Using stored execution plans for efficient execution of natural language questions
US11599337B2 (en) Dataflow graph configuration
US20210026613A1 (en) Data model api for live applications in a cloud collaboration platform
Banker et al. MongoDB in action: covers MongoDB version 3.0
US7743071B2 (en) Efficient data handling representations
US7720831B2 (en) Handling multi-dimensional data including writeback data
CN112860777A (zh) 数据处理方法、装置及设备
Krosing et al. PostgreSQL server programming
US20210097054A1 (en) Enforcing path consistency in graph database path query evaluation
US11520924B2 (en) Identifying that an item of information potentially includes an item of sensitive information
US11966489B2 (en) Data certification process for cloud database platform
JP2024011617A (ja) データベース管理装置、及びデータベース管理方法
JP2024505238A (ja) 論理データセットグループの操作を伴うデータ処理システム
US12067018B2 (en) Data certification process for updates to data in cloud database platform
US11392587B1 (en) Rule generation and data certification onboarding process for cloud database platform
CN104298698B (zh) 数据管理设备及数据管理方法
US20230153450A1 (en) Privacy data management in distributed computing systems
WO2023189440A1 (ja) 情報処理装置及び情報処理方法
Spiliotopoulos et al. An Interface for User-Centred Process and Correlation Between Large Datasets
WO2023086142A1 (en) Privacy data management in distributed computing systems
CN118235129A (zh) 分布式计算系统中的隐私数据管理
WO2023114164A1 (en) Data certification process for cloud database platform
US9436727B1 (en) Method for providing an integrated macro module
Mills Borrowing from Nature: A Hybrid Bridge to a New Data Paradigm