JP6456162B2 - 匿名化処理装置、匿名化処理方法及びプログラム - Google Patents

匿名化処理装置、匿名化処理方法及びプログラム Download PDF

Info

Publication number
JP6456162B2
JP6456162B2 JP2015013504A JP2015013504A JP6456162B2 JP 6456162 B2 JP6456162 B2 JP 6456162B2 JP 2015013504 A JP2015013504 A JP 2015013504A JP 2015013504 A JP2015013504 A JP 2015013504A JP 6456162 B2 JP6456162 B2 JP 6456162B2
Authority
JP
Japan
Prior art keywords
data
anonymization
anonymized
output
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015013504A
Other languages
English (en)
Other versions
JP2016139261A (ja
Inventor
敬祐 ▲高▼橋
敬祐 ▲高▼橋
光佑 矢葺
光佑 矢葺
祐亮 組橋
祐亮 組橋
Original Assignee
株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ
株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ, 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ filed Critical 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ
Priority to JP2015013504A priority Critical patent/JP6456162B2/ja
Priority to DK16743097.4T priority patent/DK3252650T3/da
Priority to PCT/JP2016/050737 priority patent/WO2016121493A1/ja
Priority to EP16743097.4A priority patent/EP3252650B1/en
Priority to US15/545,834 priority patent/US10817621B2/en
Publication of JP2016139261A publication Critical patent/JP2016139261A/ja
Application granted granted Critical
Publication of JP6456162B2 publication Critical patent/JP6456162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work

Description

本発明は、匿名化処理装置、匿名化処理方法及びプログラムに関する。
近年、レコメンド技術のように、大量の個人情報を分析し、分析結果から得られる情報を様々に活用する技術が発達してきている。また、個人情報を分析するにあたり、個人のプライバシーを保護しつつデータ分析を行うことを可能にする匿名化技術が知られている。
従来の匿名化技術は、大量の個人情報を格納したデータベースに対して、個人情報のうち予め決められた特定のカラムをバッチ処理で削除することで、匿名化処理を行っていた。
特開2014−153943号公報
しかしながら、従来の匿名化技術はバッチ処理にて匿名化処理を行うことから、継続的にデータが入力されるリアルタイム処理システムに匿名化技術を適用することは困難であった。
開示の技術は上記に鑑みてなされたものであって、継続的に入力されるデータに対してリアルタイム性を保ちつつ匿名化することができる技術を提供することを目的とする。
開示の技術の匿名化処理装置は、入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、
前記入力データを受け付ける入力部と、
前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、
匿名化済みデータを記憶する第一の記憶部と、
前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、
匿名性を判断するための匿名化パターンを記憶する第二の記憶部と、を有し、
前記出力部は、前記複数の匿名化済みデータに基づいて前記匿名化パターンを生成して前記第二の記憶部に格納し、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々と、前記匿名化パターンに含まれる情報項目の各々とが一致する場合、匿名化済みデータから出力データを生成して出力する
開示の技術によれば、継続的に入力されるデータに対してリアルタイム性を保ちつつ匿名化することができる技術を提供することができる。
実施の形態に係る匿名化処理装置の概要を示す図である。 実施の形態に係る匿名化処理装置のハードウェア構成の一例を示す図である。 実施の形態に係る匿名化処理装置のソフトウェア構成の一例を示す図である。 設定情報の一例を示す図である。 入力データ格納処理の処理手順の一例を示す図である。 匿名化前データ及び匿名化処理管理情報の一例を示す図である。 匿名化方法及び匿名化レベルを設定する処理手順の一例を示す図である。 匿名化方法及び匿名化レベルが設定された匿名化処理管理情報の一例を示す図である。 匿名化処理の処理手順の一例を示す図である。 匿名化後データ及び匿名化処理管理情報の一例を示す図である。 出力処理の処理手順の一例を示す図である。 出力判断部の処理で入出力される各種データの一例を示す図である。 教師データの一例を示す図である。 匿名化処理における一般化の度合いを変更する場合の処理手順の一例を示す図である。
以下、図面を参照して実施の形態について説明する。各図面において、同一構成部分には同一符号を付し、重複した説明を省略する場合がある。
<概要>
図1は、実施の形態に係る匿名化処理装置の概要を示す図である。匿名化処理装置10は、外部システム等から、個人情報が含まれた入力データを受け付け、受け付けた入力データに対して匿名化処理を行う。また、匿名化処理装置10は、匿名化されたデータ(出力データ)を外部システム等に対して出力する。
ここで、匿名化とは、個人情報から個人を特定する情報を取り除いたり(除去)、個人を特定する情報を確率的に変化させたり(ランダム化)、又は、個人を特定する情報の精度を落としたりする(一般化)ことで、個人を特定しにくくするデータ加工方法をいう。また、匿名性を評価する指標(匿名性指標)として、k−匿名性が知られている。k−匿名性とは、同じような属性の人が必ずk人以上存在する状態のことをいう。例えば、年齢が「30台」であると共に住所が「東京都港区」である人が10人存在する場合、このデータの匿名性は「k=10」と表現される。すなわち、kの値が大きいほど同じような属性を有する人が多いことになり、個人を特定しにくくなる(匿名性が高まる)。
匿名化処理装置10は、入力されたデータに対してリアルタイムに匿名化を行うために、入力されたデータ及び匿名化されたデータを一旦インメモリデータベースに格納し、匿名化されたデータがk−匿名性を満たす場合に、匿名化されたデータを外部システム等に対して出力する。
また、匿名化処理装置10は、入力されたデータを全てデータベースに蓄積し、適宜バッチ処理にて匿名化を行うシステムとは異なり、リアルタイム性を保ちつつ匿名化することを目的としている。そのため、匿名化処理装置10は、匿名化されたデータがすぐに出力できない場合(例えば、匿名化されたデータが所定の時間内にk−匿名性を満たせない場合、又は、インメモリデータベース内に蓄積されたレコード数が所定の閾値を超えた場合など)は、データの鮮度が落ちるため、匿名化されたデータを外部システム等に対して出力せずにインメモリデータベースから消去するようにする。
また、匿名化処理装置10は、入力されたデータに対して、どのような匿名化方法(除去、ランダム化又は一般化)で匿名化を行うのかを示す情報、及び、匿名化方法ごとの匿名化の程度を示す情報に基づいて匿名化を行う。また、匿名化処理装置10は、匿名化されたデータが匿名性指標を満たせているのか、又は、匿名化されたデータが匿名性指標を満たせていないのかという評価結果(教師データ)を学習することで、個人を特定する情報を一般化する場合に、どの程度の一般化(以下、「一般化の度合い」ということがある)を行うのかを調整するオンライン機械学習フレームワークの機能を有する。
なお、本実施の形態において、匿名化処理装置10に入力されるデータは、病院等で扱われる個人情報である前提で説明するが、本実施の形態に係る匿名化処理装置10は、他の個人情報を扱うシステムに対しても適用することが可能である。
なお、本実施の形態において、匿名化処理装置10は、処理速度を向上させるためにインメモリデータベースを用いているが、他のデータベースを用いるようにしてもよい。
なお、本実施の形態において、匿名化処理装置10は、匿名性指標としてk−匿名性を用いているが、他の匿名性指標を用いるようにしてもよい。
なお、本実施の形態において、匿名化処理装置10は、匿名化方法として、除去、ランダム化、及び一般化を用いているが、これらの匿名化方法に限られず、他の匿名化方法を用いるようにしてもよい。
<ハードウェア構成>
図2は、実施の形態に係る匿名化処理装置のハードウェア構成の一例を示す図である。実施の形態に係る匿名化処理装置10は、CPU101と、ROM102と、RAM103と、HDD104と、操作部105と、表示部106と、ドライブ装置107と、NIC(Network Interface card)108とを有する。
CPU101は、匿名化処理装置10の全体制御を行うプロセッサである。CPU101は、HDD104等に記憶されたオペレーティングシステム、アプリケーション、各種サービス等のプログラムを実行し、匿名化処理装置10の各種機能を実現する。ROM102には、各種のプログラムやプログラムによって利用されるデータ等が記憶される。RAM103は、プログラムをロードするための記憶領域や、ロードされたプログラムのワーク領域等として用いられる。また、RAM103は、匿名化処理を行う際に用いるインメモリデータベースを保持する。HDD104には、各種情報及びプログラム等が記憶される。
操作部105は、ユーザからの入力操作を受け付けるためのハードウェアであり、例えばキーボード又はマウスである。表示部106は、利用者に向けた表示を行うハードウェアである。
ドライブ装置107は、プログラムを記録した記憶媒体109からプログラムを読み取る。ドライブ装置107によって読み取られたプログラムは、例えば、HDD104にインストールされる。NIC108は、匿名化処理装置10をネットワークに接続し、データの送受信を行うための通信インタフェースである。
なお、記憶媒体109とは、非一時的(non-transitory)な記憶媒体を言う。記憶媒体109の例としては、磁気記憶媒体、光ディスク、光磁気記憶媒体、不揮発性メモリなどがある。
<ソフトウェア構成>
図3は、実施の形態に係る匿名化処理装置のソフトウェア構成の一例を示す図である。実施の形態に係る匿名化処理装置10は、一時記憶部201と、設定情報記憶部202と、入力部203と、機械学習部204と、匿名化処理部205と、出力判断部206と、匿名化パターンDB記憶部207とを有する。これら各手段は、匿名化処理装置10にインストールされた1以上のプログラムが、CPU101に実行させる処理により実現され得る。
一時記憶部201は、匿名化前データDB(Database)と、匿名化後データDBと、匿名化処理管理情報DBとを有する。匿名化前データDBは、匿名化前データ(匿名化処理される前のデータ)を格納するDBであり、レコード毎に1つの匿名化前データを格納する。匿名化後データDBは、匿名化後データ(匿名化処理された後のデータ)を格納するDBであり、レコード毎に1つの匿名化後データを格納する。匿名化処理管理情報DBは、レコード毎に1つの匿名化処理管理情報を格納する。匿名化処理管理情報は、匿名化前データと匿名化後データとを対応づけると共に、匿名化処理の進行状況と、匿名化方法及び匿名化レベルを示す情報とを含む。一時記憶部201は、RAM103に構築されるインメモリデータベースにより実現される。なお、一時記憶部201は、RAM103ではなく、HDD104等に構築される一般的なデータベースにより実現されるようにしてもよい。
設定情報記憶部202は、匿名化処理装置10の動作に係る各種設定情報を格納する。入力部203、機械学習部204、匿名化処理部205及び出力判断部206は、設定情報記憶部202に格納される各種設定情報を必要に応じて参照することができる。
入力部203は、外部システム等から入力データを受け付け、匿名化前データDBに新たなレコードを追加して、追加したレコードに受け付けた入力データを格納する。また、生成したレコードに対応する匿名化処理管理情報DBに新たなレコードを追加する。
機械学習部204は、教師データによる学習結果に基づき、匿名化前データに対してどのように匿名化を行うのかを示す匿名化方法と、匿名化方法ごとの匿名化レベルとを示す情報を、匿名化処理管理情報に格納する。また、機械学習部204は、外部から受け取った教師データ又は出力判断部206から受け取った教師データに基づき、一般化の度合いを調整する。機械学習部204は、一般化の度合いを調整した場合、その旨をRPC(Remote Procedure Call)にて匿名化処理部205に通知する。
匿名化処理部205は、匿名化前データに対応する匿名化処理管理情報に基づいて、匿名化前データを匿名化処理すると共に、匿名化後データDBに新たなレコードを追加し、追加したレコードに匿名化したデータを格納する。また、匿名化処理部205は、機械学習部204から一般化の度合いを変更した旨の通知を受けた場合、既に匿名化処理されたデータに対して再度匿名化処理を行う。
また、匿名化処理部205は、匿名化後データが所定の時間内にk−匿名性を満たせない場合、又は、一時記憶部201に蓄積されたレコード数が所定の閾値を超えた場合、後述する生成日時が古い順に、匿名化前データと匿名化後データと匿名化処理管理情報とを一時記憶部201から削除する。
出力判断部206は、匿名化後データDBに格納されている匿名化後データを検索し、匿名化後データがk−匿名性を満たすかどうか、又は、匿名化パターンDB記憶部207に格納されている匿名化パターンと匿名化後データとが一致するかどうかを判断する。匿名化後データがk−匿名性を満たす場合、又は、匿名化パターンと匿名化後データとが一致する場合、出力判断部206は、匿名化後データは匿名性指標を満たしていると判断し、匿名化後データを出力データとして出力する。また、出力判断部206は、出力データに対応する匿名化前データ、匿名化後データ及び匿名化処理管理情報を、一時記憶部201から削除する。
また、匿名化後データがk−匿名性を満たさない場合、又は、匿名化パターンと匿名化後データとが一致しない場合、出力判断部206は、匿名化後データは匿名性指標を満たしていないと判断し、匿名化後データを出力データとして出力せずに匿名化後データDBに残しておく。
また、出力判断部206は、匿名性指標を満たしているか又は満たしていないかの判断結果を、教師データとして機械学習部204に通知する。
匿名化パターンDB記憶部207は、1又は複数の匿名化パターンを格納する。匿名化パターンDBは、過去に匿名性指標を満たすと判断された匿名化後データから生成される。言い換えると、匿名化パターンDBは、匿名性指標を満たすパターンをデータベース化したものである。出力判断部206は、匿名化パターンDBを用いて当該匿名化後データと匿名化パターンとが一致するかを確認するだけで、当該匿名化後データが匿名性指標を満たすか否かの判断を行うことができる。
図4は、設定情報の一例を示す図である。実施の形態に係る匿名化処理装置10は、設定情報として、k−匿名性指標値、リアルタイム性定義情報、匿名性判定情報、及び出力対象情報を有する。これらの設定情報は、設定情報記憶部202に格納される。
k−匿名性指標値は、k−匿名性の判断に用いる「k」の具体的な数である。リアルタイム性定義情報は、匿名化前データDB及び匿名化後データDBに格納されている、匿名化前データ及び匿名化後データの保持期限(生存期限)を定義する情報である。匿名性判定情報は、出力判断部206が、匿名化後データに含まれる各種カラムのうち、どのカラムを用いて匿名性を判断すればよいのかを示す情報である。出力対象情報は、匿名化後データに含まれる各種カラムのうち、どのカラムを出力データとして出力するかを示す情報である。出力判断部206は、匿名化後データのうち、出力対象情報に示されるカラムを抽出することで出力データを生成する。
<処理手順>
(入力データ格納処理)
図5は、入力データ格納処理の処理手順の一例を示す図である。図6は、匿名化前データ及び匿名化処理管理情報の一例を示す図である。図5及び図6を用いて、入力部203に入力データが入力され、一時記憶部201に格納されるまでの処理手順について説明する。
ステップS301で、入力部203は、外部システム等から入力データを受け付けると、匿名化前データDBに新たなレコードを生成し、匿名化前データDBの中でレコードを一意に識別するためのレコードIDを格納する。また、入力データを当該新たなレコードに格納する。図6(a)は、入力部203により匿名化前データDBに追加された匿名化前データの一例である。匿名化前データは、複数のカラム(レコードID、氏名、年齢、現住所、性別、受信年月日、診療科、担当医ID、症状)を有する。
ステップS302で、入力部203は、匿名化処理管理情報DBに新たなレコードを生成し、匿名化処理管理情報DBの中でレコードを一意に識別するためのレコードIDを格納する。入力部203は、当該新たなレコードに、ステップS301の処理手順にて生成した匿名化前データのレコードID及び、ステップS301の処理手順にて匿名化前データを生成した日時を格納する。図6(b)は、入力部203により匿名化処理管理情報DBに追加された匿名化処理管理情報の一例である。匿名化処理管理情報は、複数のカラム(レコードID、匿名化前データレコードID、匿名化後データレコードID、匿名化方法設定フラグ、匿名化方法、匿名化レベル、匿名化済フラグ、生成日時)を有する。匿名化後データレコードID、匿名化方法設定フラグ、匿名化方法、匿名化レベル、及び匿名化済フラグは、機械学習部204、匿名化処理部205及び出力判断部206にて処理を行う際に利用されるカラムであるため、「NULL」又は「FALSE」が設定される。生成日時カラムは、匿名化前データが生成された日時を格納するカラムである。
入力部203は、入力データが入力される度にステップS301及びステップS302の処理手順を繰り返し行うことで、入力データを一時記憶部201に順次格納する。
(匿名化方法及び匿名化レベルの設定処理)
図7は、匿名化方法及び匿名化レベルを設定する処理手順の一例を示す図である。図8は、匿名化方法及び匿名化レベルが設定された匿名化処理管理情報の一例を示す図である。図7及び図8を用いて、機械学習部204が匿名化処理管理情報に匿名化方法及び匿名化レベルを設定する処理手順について説明する。
ステップS401で、機械学習部204は、匿名化処理情報DBを検索し、「匿名化方法設定フラグ」がFALSEであるレコードを全て抽出する。ここで、匿名化方法設定フラグとは、機械学習部204が匿名化方法及び匿名化レベルを設定済みであるかを示すフラグである。「匿名化方法設定フラグ」が「FALSE」である場合、機械学習部204が匿名化方法及び匿名化レベルを設定していない状態であることを示し、匿名化方法設定フラグが「TRUE」である場合、機械学習部204が匿名化方法及び匿名化レベルを設定済みであることを示す。
ステップS402で、機械学習部204は、ステップS401の処理手順で抽出したレコードの「匿名化方法」及び「匿名化レベル」カラムに、匿名化方法及び匿名化レベルを設定する。ここで、「匿名化方法」カラムには、匿名化前データの各カラムのうち、どのカラムをどのような匿名化方法で匿名化するのかを示す情報が格納される。また、「匿名化レベル」カラムには、ランダム化を行う場合にどのような比率でランダム化を行うのか、又は、一般化を行う場合に個人を特定する情報をどの程度一般化するのかを示す情報が格納される。図8に示す匿名化処理管理情報は、機械学習部204により「匿名化方法」及び「匿名化レベル」カラムが設定された匿名化処理管理情報の一例である。図8の匿名化処理管理情報は、「匿名化前データレコードID」カラムが示す匿名化前データに対して、「氏名」カラムを除去し、「年齢」の1の位を0に変更するように一般化し、「現住所」カラムの市区町村以降を削除するように一般化し、「性別」カラムを男女比が103:100になるようにランダム化し、「受信年月日」カラムの日付を削除するように一般化し、「担当医ID」カラムを除去し、「診療科」カラム及び「症状」カラムをそのまま残すように匿名化処理が行われるようにすることを示している。
なお、ステップS401の処理手順で複数のレコードが抽出された場合、機械学習部204は、全てのレコードに対してステップS402の処理を行う。
(匿名化処理)
図9は、匿名化処理の処理手順の一例を示す図である。図10は、匿名化後データ及び匿名化処理管理情報の一例を示す図である。図9及び図10を用いて、匿名化処理部205が、匿名化処理管理情報に基づいて匿名化処理を行う処理手順について説明する。
ステップS501で、匿名化処理部205は、匿名化処理情報DBから、「匿名化方法設定フラグ」カラムがTRUEであるレコードを全て抽出する。
ステップS502で、匿名化処理部205は、ステップS501の処理手順で抽出したレコードに対応する匿名化前データを、匿名化前データDBから検索する。
ステップS503で、匿名化処理部205は、ステップS502で検索された匿名化前データに対して、当該匿名化前データに対応する匿名化処理情報の「匿名化方法」及び「匿名化レベル」カラムの設定内容に従って匿名化処理し、匿名化後データDBに新たなレコードを生成して格納する。図10(a)に、匿名化後データDBに格納された匿名化後データの具体例を示す。ステップS502の処理手順で検索された匿名化前データが図6(a)に示す匿名化前データであり、当該匿名化前データに対応する匿名化処理情報が図8に示す匿名化処理情報である場合、匿名化前データは、図10(a)のように匿名化されることになる。
ステップS504で、匿名化処理部205は、匿名化処理情報の「匿名化済フラグ」カラムをTRUEに変更し、ステップS503の処理手順で匿名化後データDBに格納された匿名化後データのレコードIDを「匿名化後データレコードID」カラムに格納する。
なお、ステップS501の処理手順で複数のレコードが抽出された場合、匿名化処理部205は、全てのレコードに対してステップS502乃至ステップS504の処理手順を行う。
(出力処理)
図11は、出力処理の処理手順の一例を示す図である。図12は、出力判断部の処理で入出力される各種データの一例を示す図である。図13は、教師データの一例を示す図である。図11乃至図13を用いて、匿名化後データに基づいて出力データを出力する処理手順について説明する。
ステップS601で、出力判断部206は、匿名化処理部205は、匿名化処理情報DBから、「匿名化済フラグ」カラムがTRUEであるレコードを全て抽出する。
ステップS602で、出力判断部206は、ステップS601の処理手順で抽出したレコードに対応する匿名化後データを、匿名化後データDBから検索する。
ステップS603で、出力判断部206は、設定情報記憶部202から匿名性判定情報を取得する。
ステップS604で、出力判断部206は、ステップS602の処理手順で検索された匿名化後データ(以下、「出力判断される匿名化後データ」という)の各カラムのうち、匿名性判定情報に設定されているカラム(以下、「匿名性判定するカラム」という)を選択し、選択した全てのカラムの内容と一致するレコードが、匿名化パターンDBに存在するか否かを確認する。選択した全てのカラムの内容と一致するレコードが匿名化パターンDBに存在する場合、出力判断される匿名化後データはk−匿名性を満たしていると判断してステップS612の処理手順に進む。選択した全てのカラムの内容と一致するレコードが匿名化パターンDBに存在しない場合、ステップS605の処理手順に進む。
ここで、図12を用いて具体例を説明する。出力判断される匿名化後データが図12(b1)に示す匿名化後データであり、匿名化パターンDBに、図12(a4)に示す匿名化パターンが含まれていると仮定する。また、匿名性判定情報には図4(c)に示すカラム(「氏名」、「年齢」、「現住所」、「性別」、「受信年月日」及び「担当医ID」)が設定されていると仮定する。
出力判断部206は、図12(a1)に示す出力判断される匿名化後データに含まれるカラムのうち、匿名性判定するカラムを選択し、これらのカラムの設定値と同一の設定値を有するレコードが匿名化パターンDBに存在するかを確認する。図12(a1)の出力判断される匿名化後データの匿名性判定するカラムの設定値は、図12(a4)に示す匿名化パターンのカラムの設定値と同一である。従って、出力判断部206は、出力判断される匿名化後データはk−匿名性を満たしていると判断してステップS612の処理手順に進む。
図11に戻り説明を続ける。ステップS605で、出力判断部206は、設定情報記憶部202からk−匿名性指標値を取得する。
ステップS606で、出力判断部206は、出力判断される匿名化後データの各カラムのうち、匿名性判定するカラムを選択し、選択した全てのカラムの内容と一致するレコードが、匿名化後データDBにk件以上存在するかを確認する。k件以上存在する場合、出力判断される匿名化後データはk−匿名性を満たしていると判断してステップS608の処理手順に進み、k件以上存在しない場合、出力判断される匿名化後データはk−匿名性を満たしていないと判断してステップS607の処理手順に進む。
ここで、図12を用いて具体例を説明する。出力判断される匿名化後データが図12(a1)に示す匿名化後データであり、匿名化後データDBに図12(a2)に示す3件の匿名化後データが存在していると仮定する。また、k−匿名性指標値は「3」であり、匿名性判定情報には図4(c)に示すカラムが設定されていると仮定する。
出力判断部206は、図12(a1)に示す出力判断される匿名化後データに含まれるカラムのうち、匿名性判定するカラムを選択し、これらのカラムの設定値と同一の設定値を有するレコードが匿名化後データDBに存在するかを確認する。図12(a2)の3件の匿名化後データは、いずれも、匿名性判定するカラムの設定値が、出力判断される匿名化後データのカラムの設定値と同一である。従って、出力判断部206は、出力判断される匿名化後データはk−匿名性を満たしていると判断してステップS608の処理手順に進む。
仮に、図12(a2)のうち、レコードIDがB95であるレコードが匿名化後データDBに存在しないとした場合、出力判断される匿名化後データの各カラムのうち、匿名性判定するカラムの内容と一致するレコードは、匿名化後データDBに2件しか存在しないことになる。従って、出力判断部206は、出力判断される匿名化後データはk−匿名性を満たしていないと判断してステップS607の処理手順に進む。
図11に戻り説明を続ける。ステップS607で、出力判断部206は、出力判断される匿名化後データに対応する匿名化前データ及び匿名化処理管理情報から教師データを生成し、生成した教師データを機械学習部204に通知する。図13(a)は、ステップS607の処理手順で生成される教師データの一例である。教師データは、「k−匿名性基準適合フラグ」カラムが付加された匿名性判定情報と匿名化前データとを有するデータである。「k−匿名性基準適合フラグ」は、匿名化後データがk−匿名性を満たしているか否かを示すフラグである。匿名化後データがk−匿名性を満たしていると判断された場合、教師データの「k−匿名性基準適合フラグ」にはTRUEが設定され、k−匿名性を満たしていないと判断された場合、教師データの「k−匿名性基準適合フラグ」にはFALSEが設定される。出力判断部206は、ステップS607の処理手順で教師データを生成する際、「k−匿名性基準適合フラグ」カラムをFALSEに設定する。ステップS606の処理手順で、出力判断される匿名化後データはk−匿名性を満たしていないと判断されているためである。
ステップS608で、出力判断部206は、設定情報記憶部202から出力対象情報を取得する。続いて、出力判断部206は、k件の匿名化後データの各々及び出力判断される匿名化後データから出力データを生成し、生成した出力データを外部システム等に出力する。なお、出力判断部206は、匿名化後データの各カラムから、出力対象情報に設定されているカラムを抽出することで出力データを生成する。
ここで、図12を用いて具体例を説明する。出力判断される匿名化後データが図12(a1)に示す匿名化後データであり、匿名化後データDBに図12(a2)に示す3件の匿名化後データが存在していると仮定する。また、k−匿名性指標値は「3」であり、出力対象情報には図4(d)に示すカラム(「レコードID」、「年齢」、「現住所」、「性別」、「受信年月日」、「診療科」、「症状」)が設定されていると仮定する。この場合、ステップS608の処理手順により出力される出力データは、図12(a3)に示される4件の出力データになる。
図11に戻り説明を続ける。ステップS609で、出力判断部206は、k件の匿名化後データのうち、いずれか1件の匿名化後データを選択し、選択した匿名化後データに対応する匿名化前データ及び匿名化処理管理情報から教師データを生成し、生成した教師データを機械学習部204に通知する。図13(b)は、ステップS609の処理手順で生成される教師データの具体例である。出力判断部206は、ステップS609の処理手順で教師データを生成する際、「k−匿名性基準適合フラグ」カラムをTRUEに設定する。ステップS606の処理手順で、出力判断される匿名化後データはk−匿名性を満たしていると判断されているためである。
ステップS610で、出力判断部206は、k件の匿名化後データのうち、いずれか1件の匿名化後データを選択し、選択した匿名化後データから匿名性判定するカラムを抽出する。また、出力判断部206は、抽出したカラムから匿名化パターンを生成し、匿名化パターンに新たなレコードを追加して格納する。例えば、ステップS608で出力される出力データが図12(a3)の4件であると仮定した場合、図12(a4)に示す匿名化パターンが生成される。
ステップS611で、出力判断部206は、ステップS608で出力したk件の出力データの各々に対応する匿名化前データ、匿名化後データ、及び匿名化処理管理情報を、匿名化前データDB、匿名化後データDB、及び匿名化処理管理情報DBから削除する。
ステップS612で、出力判断部206は、設定情報記憶部202から出力対象情報を取得する。続いて、出力判断部206は、匿名化パターンDBに存在すると判断された匿名化後データの各カラムから、出力対象情報に設定されているカラムを抽出することで出力データを生成する。続いて、出力判断部206は、生成した出力データを外部システム等に出力する。
ここで、図12を用いて具体例を説明する。出力判断される匿名化後データが図12(b1)に示す匿名化後データであり、出力対象情報には図4(d)に示すカラムが設定されていると仮定する。この場合、ステップS612の処理手順により出力される出力データは、図12(b2)に示す出力データになる。
図11に戻り説明を続ける。ステップS613で、出力判断部206は、ステップS612で出力した出力データに対応する匿名化前データ、匿名化後データ、及び匿名化処理管理情報を、匿名化前データDB、匿名化後データDB、及び匿名化処理管理情報DBから削除する。
なお、図11の処理手順において、ステップS601の処理手順で複数のレコードが抽出された場合、出力判断部206は、全てのレコードに対してステップS602乃至ステップS613の処理手順を行う。
(再処理手順)
図14は、匿名化処理における一般化の度合いを変更する場合の処理手順の一例を示す図である。図14を用いて、機械学習部204が教師データに基づいて一般化の度合いを調整した場合に、匿名化処理部205が再度匿名化処理をやり直す場合の処理手順について説明する。
ステップS701で、機械学習部204は、匿名化処理管理情報DBから、「匿名化方法設定フラグ」カラムがTRUEであるレコードを全て抽出する。
ステップS702で、機械学習部204は、抽出された全てのレコードの「匿名化レベル」カラムの内容を、調整後の一般化の度合いに対応する内容に変更する。また、機械学習部204は、「匿名化レベル」カラムの内容を変更したことを、匿名化処理部205に通知する。
ステップS703で、匿名化処理部205は、匿名化処理管理情報DBから、「匿名化済フラグ」がTRUEであるレコードを全て抽出する。
ステップS704で、匿名化処理部205は、匿名化前データDBから、ステップS703で抽出した全てのレコードの各々に対応する全ての匿名化前データを抽出する。
ステップS705で、匿名化処理部205は、ステップS704で検索された全ての匿名化前データの各々に対して、当該匿名化前データの各々に対応する匿名化処理情報の「匿名化方法」及び「匿名化レベル」カラムの設定内容に従って再度匿名化処理を行う。また、匿名化処理部205は、匿名化処理された匿名化前データの各カラムの内容を、匿名化後データDBのうち当該匿名化前データに対応する匿名化後データのレコードに上書きする。
ここで、ステップS701乃至ステップS705の処理手順の具体例を説明する。例えば、匿名化前データが図6(a)に示す匿名化前データであり、匿名化後データが図10(a)に示す匿名化後データであると仮定する。また、機械学習部204は、ステップS702の処理手順において、図8の匿名化処理管理情報のうち現住所の匿名化レベルを「"現住所":"丁目以降を削除"」に変更したと仮定する。この場合、ステップS705の処理手順において、匿名化処理部205は、匿名化前データの現住所カラム("東京都足立区XY町1丁目位1−11−101")から丁目以降を削除した現住所カラム("東京都足立区XY町1丁目")を生成し、図10(a)に示す匿名化後データの現住所カラムに上書きする。
(データ消去手順)
匿名化処理部205は、匿名化処理管理情報DBに格納されている各匿名化処理管理情報の各々の「生成日時」と現在の日時とを比較することで、リアルタイム性定義情報の保持期限に設定されている時間を経過しても、出力データとして出力されていないデータ(保持時間内にk−匿名性を満たせなかったデータ)の有無を確認する。
匿名化処理部205は、匿名化処理管理情報の「生成日時」と現在の日時との差分が、リアルタイム性定義情報の保持期限を超えている場合、匿名化後データは保持期限内にk−匿名性を満たせなかったと判断する。また、匿名化処理部205は、匿名化後データは保持期限内にk−匿名性を満たせなかったと判断した場合、当該匿名化後データ、当該匿名化後データに対応する匿名化前データ及び匿名化処理管理情報を、匿名化前データDB、匿名化後データDB、及び匿名化処理管理情報DBから削除する。
なお、匿名化処理部205は、「生成日時」と現在の日時とを比較する代わりに、例えば、一時記憶部201に蓄積されたレコード数が所定の閾値を超えた場合に、生成日時が古い順に、匿名化前データと匿名化後データと匿名化処理管理情報とを、匿名化前データDB、匿名化後データDB、及び匿名化処理管理情報DBから削除するようにしてもよい。
(機械学習手順)
機械学習部204は、外部システム等から受け取った教師データ又は出力判断部206から受け取った教師データに基づき、一般化の度合いを調整する。機械学習部204は、教師データを利用者に参照させると共に、利用者からの指示に従って一般化の度合いを調整するようにしてもよいし、教師データに基づいて自動的に一般化の度合いを調整するようにしてもよい。
機械学習部204は、「k−匿名性基準適合フラグ」がFALSEである教師データに対して、個人情報の項目の値を粗くする方向(一般化の度合いを高くする方向)に一般化の度合いを調整する。「k−匿名性基準適合フラグ」がTRUEである教師データに対して、個人情報を具体化する方向(一般化の度合いを低くする方向)に一般化の度合いを調整する。
なお、機械学習部204は、教師データを受信する度に一般化の度合いを調整するのではなく、例えば、「k−匿名性基準適合フラグ」がFALSEである教師データが増加した場合に、個人情報の項目の値を粗くする方向(一般化の度合いを高くする方向)に一般化の度合いを調整し、「k−匿名性基準適合フラグ」がTRUEである教師データが増加した場合に、個人情報を具体化する方向(一般化の度合いを低くする方向)に一般化の度合いを調整するようにしてもよい。
なお、個人情報の項目の値を粗くする方向とは、例えば、「"現住所":"丁目以降を削除"」の設定を「"現住所":"市区町村以降を削除"」の設定に変更することをいう。また、個人情報を具体化する方向とは、例えば、「"現住所":"市区町村以降を削除"」の設定を「"現住所":"丁目以降を削除"」の設定に変更することをいう。
<効果>
以上、実施の形態に係る匿名化処理装置10は、外部システム等から入力される入力データに対して匿名化処理を行い、k−匿名性を満たす場合に、匿名化された出力データを出力するようにした。これにより、実施の形態に係る匿名化処理装置10は、継続的に入力されるデータに対して、匿名性を保証しつつリアルタイムに匿名化を行うことができる。
以上、実施の形態に係る匿名化処理装置10は、匿名化されたデータがk−匿名性を満たすのか否かを示す教師データに基づき機械学習を行い、一般化の度合いを変更可能にした。実施の形態に係る匿名化処理装置10は、バッチ処理により匿名化を行うシステムとは異なり、匿名化対象のレコードの総数がいくつになるのか特定できないため、バッチ処理で匿名化を行うシステムと比較して一般化の度合いが高い方向で出力データを出力し続けてしまう可能性がある。そこで、実施の形態に係る匿名化処理装置10は、「k−匿名性基準適合フラグ」がTRUEである教師データに対して一般化の度合いを低くする方向に調整し、「k−匿名性基準適合フラグ」がFALSEである教師データに対して一般化の度合いを高くする方向に調整するようにした。これにより、実施の形態に係る匿名化処理装置10は、最適な一般化の度合いで匿名化処理されたデータを出力することができる。
(第1項)
入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、
前記入力データを受け付ける入力部と、
前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、
匿名化済みデータを記憶する第一の記憶部と、
前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、
を有する、匿名化処理装置。
(第2項)
前記出力部は、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々が一致している匿名化済みデータが、少なくとも所定の数以上存在する場合に、前記匿名性指標を満たすと判断する、第1項に記載の匿名化処理装置。
(第3項)
匿名性を判断するための匿名化パターンを記憶する第二の記憶部を有し、
前記出力部は、前記複数の匿名化済みデータに基づいて前記匿名化パターンを生成して前記第二の記憶部に格納し、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々と、前記匿名化パターンに含まれる情報項目の各々とが一致する場合、匿名化済みデータから出力データを生成して出力する、第1項又は第2項に記載の匿名化処理装置。
(第4項)
前記処理部は、所定の条件を満たす場合に、前記第一の記憶部に記憶されている匿名化済みデータを削除する、第1項乃至第3項のいずれか一項に記載の匿名化処理装置。
(第5項)
前記所定の条件は、匿名化済みデータに対応する前記入力データが、前記入力部で受け付けられてからの経過時間、又は、前記第一の記憶部に記憶可能なレコード数が所定の閾値を超えた場合である、第4項に記載の匿名化処理装置。
(第6項)
抽象度を指定する機械学習部を有し、
前記処理部は、前記抽象度に基づいて前記入力データに対して匿名化を行い、
前記出力部は、前記複数の匿名化済みデータが前記匿名性指標を満たすか否かの判断結果を前記機械学習部に送信し、
前記機械学習部は、前記判断結果に基づいて前記抽象度を変更する、第1項乃至第5項のいずれか一項に記載の匿名化処理装置。
(第7項)
前記処理部は、前記抽象度が変更された場合、変更された前記抽象度に基づいて前記入力データに対して再度匿名化を行う、第6項に記載の匿名化処理装置。
(第8項)
入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置の匿名化処理方法であって、
前記入力データを受け付ける入力ステップと、
前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理ステップと、
匿名化済みデータを第一の記憶部に記憶させる記憶ステップと、
前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力ステップと、
を有する、匿名化処理方法。
(第9項)
入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置のプログラムであって、
匿名化処理装置に、
前記入力データを受け付ける入力ステップと、
前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理ステップと、
匿名化済みデータを第一の記憶部に記憶させる記憶ステップと、
前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力ステップと、
を実行させるプログラム。
<実施形態の補足>
以上、本発明は実施の形態に限定されるものではなく、本発明の範囲内で種々の変形及び改良が可能である。

以上、実施の形態で述べたフローチャートは、矛盾の無い限り順序を入れ替えてもよい。
以上、実施の形態の全部又は一部は、プログラムによって実装され得る。このプログラムは、記憶媒体に格納することができる。
なお、実施の形態において、匿名化処理部205は、処理部の一例である。一時記憶部201は、第一の記憶部の一例である。匿名化パターンDB記憶部207は、第二の記憶部の一例である。匿名化後データは、匿名化済みデータの一例である。k−匿名性は、匿名性指標の一例である。一般化の度合いは、抽象度の一例である。
10 匿名化処理装置
201 一時記憶部
202 設定情報記憶部
203 入力部
204 機械学習部
205 匿名化処理部
206 出力判断部
207 匿名化パターンDB記憶部

Claims (10)

  1. 入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、
    前記入力データを受け付ける入力部と、
    前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、
    匿名化済みデータを記憶する第一の記憶部と、
    前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、
    匿名性を判断するための匿名化パターンを記憶する第二の記憶部と、を有し、
    前記出力部は、前記複数の匿名化済みデータに基づいて前記匿名化パターンを生成して前記第二の記憶部に格納し、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々と、前記匿名化パターンに含まれる情報項目の各々とが一致する場合、匿名化済みデータから出力データを生成して出力する、
    匿名化処理装置。
  2. 入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、
    前記入力データを受け付ける入力部と、
    前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、
    匿名化済みデータを記憶する第一の記憶部と、
    前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、
    抽象度を指定する機械学習部と、を有し、
    前記処理部は、前記抽象度に基づいて前記入力データに対して匿名化を行い、
    前記出力部は、前記複数の匿名化済みデータが前記匿名性指標を満たすか否かの判断結果を前記機械学習部に送信し、
    前記機械学習部は、前記判断結果に基づいて前記抽象度を変更する、
    匿名化処理装置。
  3. 前記出力部は、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々が一致している匿名化済みデータが、少なくとも所定の数以上存在する場合に、前記匿名性指標を満たすと判断する、請求項1又は2に記載の匿名化処理装置。
  4. 前記処理部は、所定の条件を満たす場合に、前記第一の記憶部に記憶されている匿名化済みデータを削除する、請求項1乃至3のいずれか一項に記載の匿名化処理装置。
  5. 前記所定の条件は、匿名化済みデータに対応する前記入力データが、前記入力部で受け付けられてからの経過時間、又は、前記第一の記憶部に記憶可能なレコード数が所定の閾値を超えた場合である、請求項4に記載の匿名化処理装置。
  6. 前記処理部は、前記抽象度が変更された場合、変更された前記抽象度に基づいて前記入力データに対して再度匿名化を行う、請求項に記載の匿名化処理装置。
  7. 入力データに対して匿名化を行い、匿名化された出力データを出力し、第一の記憶部と第二の記憶部とを有する匿名化処理装置の匿名化処理方法であって、
    前記入力データを受け付ける入力ステップと、
    前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理ステップと、
    匿名化済みデータを前記第一の記憶部に記憶させる記憶ステップと、
    前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力ステップと、を有し、
    前記出力ステップにおいて、前記匿名化処理装置は、前記複数の匿名化済みデータに基づいて、匿名性を判断するための匿名化パターンを生成して前記第二の記憶部に格納し、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々と、前記匿名化パターンに含まれる情報項目の各々とが一致する場合、匿名化済みデータから出力データを生成して出力する、
    匿名化処理方法。
  8. 入力データに対して匿名化を行い、匿名化された出力データを出力し、第一の記憶部と抽象度を指定する機械学習部とを有する匿名化処理装置の匿名化処理方法であって、
    前記入力データを受け付ける入力ステップと、
    前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理ステップと、
    匿名化済みデータを前記第一の記憶部に記憶させる記憶ステップと、
    前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力ステップと、を有し、
    前記処理ステップにおいて、前記匿名化処理装置は、前記抽象度に基づいて前記入力データに対して匿名化を行い、
    前記出力ステップにおいて、前記匿名化処理装置は、前記複数の匿名化済みデータが前記匿名性指標を満たすか否かの判断結果を前記機械学習部に送信し、
    前記機械学習部は、前記判断結果に基づいて前記抽象度を変更する、
    匿名化処理方法。
  9. 入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置のプログラムであって、匿名化処理装置を、
    前記入力データを受け付ける入力
    前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理
    匿名化済みデータを記憶する第一の記憶部、
    前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力
    匿名性を判断するための匿名化パターンを記憶する第二の記憶部、として機能させるためのプログラムであり、
    前記出力部は、前記複数の匿名化済みデータに基づいて前記匿名化パターンを生成して前記第二の記憶部に格納し、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々と、前記匿名化パターンに含まれる情報項目の各々とが一致する場合、匿名化済みデータから出力データを生成して出力する、
    プログラム。
  10. 入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置のプログラムであって、匿名化処理装置を、
    前記入力データを受け付ける入力
    前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理
    匿名化済みデータを記憶する第一の記憶部、
    前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力
    抽象度を指定する機械学習部、として機能させるためのプログラムであり
    前記処理部は、前記抽象度に基づいて前記入力データに対して匿名化を行い、
    前記出力部は、前記複数の匿名化済みデータが前記匿名性指標を満たすか否かの判断結果を前記機械学習部に送信し、
    前記機械学習部は、前記判断結果に基づいて前記抽象度を変更する、
    プログラム。
JP2015013504A 2015-01-27 2015-01-27 匿名化処理装置、匿名化処理方法及びプログラム Active JP6456162B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015013504A JP6456162B2 (ja) 2015-01-27 2015-01-27 匿名化処理装置、匿名化処理方法及びプログラム
DK16743097.4T DK3252650T3 (da) 2015-01-27 2016-01-12 Anonymiseringsbehandlingsindretning, anonymiseringsbehandlingsfremgangsmåde og program
PCT/JP2016/050737 WO2016121493A1 (ja) 2015-01-27 2016-01-12 匿名化処理装置、匿名化処理方法及びプログラム
EP16743097.4A EP3252650B1 (en) 2015-01-27 2016-01-12 Anonymization processing device, anonymization processing method, and program
US15/545,834 US10817621B2 (en) 2015-01-27 2016-01-12 Anonymization processing device, anonymization processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015013504A JP6456162B2 (ja) 2015-01-27 2015-01-27 匿名化処理装置、匿名化処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016139261A JP2016139261A (ja) 2016-08-04
JP6456162B2 true JP6456162B2 (ja) 2019-01-23

Family

ID=56543112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015013504A Active JP6456162B2 (ja) 2015-01-27 2015-01-27 匿名化処理装置、匿名化処理方法及びプログラム

Country Status (5)

Country Link
US (1) US10817621B2 (ja)
EP (1) EP3252650B1 (ja)
JP (1) JP6456162B2 (ja)
DK (1) DK3252650T3 (ja)
WO (1) WO2016121493A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6693135B2 (ja) * 2016-01-13 2020-05-13 富士通株式会社 情報処理装置、情報処理方法およびプログラム
US20190205569A1 (en) * 2016-09-22 2019-07-04 Mitsubishi Electric Corporation Data disturbance device and data disturbance system
US20200089911A1 (en) * 2017-04-28 2020-03-19 Keysoft, Inc. Information processing system
US20200125761A1 (en) * 2017-07-07 2020-04-23 Sony Corporation Information processing device, information processing system, information processing method, and program
US11048820B2 (en) * 2017-07-21 2021-06-29 Sap Se Anonymized data storage and retrieval
US11151283B2 (en) * 2017-09-15 2021-10-19 Sap Se Secure data analysis in multitenant applications
KR102490529B1 (ko) * 2017-11-03 2023-01-20 한국전자통신연구원 전주기적 비식별화 관리 장치 및 방법
US10740488B2 (en) * 2017-11-17 2020-08-11 International Business Machines Corporation Cognitive data anonymization
JP6779854B2 (ja) * 2017-12-04 2020-11-04 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
WO2019168144A1 (ja) * 2018-03-02 2019-09-06 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
CA3105533C (en) * 2018-07-13 2023-08-22 Imagia Cybernetics Inc. Method and system for generating synthetically anonymized data for a given task
US20200057920A1 (en) * 2018-08-20 2020-02-20 CrowdCare Corporation System and Method of Quotation Engine for AI Asset Training
US20200117833A1 (en) * 2018-10-10 2020-04-16 Koninklijke Philips N.V. Longitudinal data de-identification
KR102248993B1 (ko) * 2019-04-15 2021-05-07 주식회사 파수 비식별화 과정의 중간 결과 데이터 분석 방법, 장치, 컴퓨터 프로그램 및 그 기록 매체
JP7231020B2 (ja) * 2019-05-21 2023-03-01 日本電信電話株式会社 情報処理装置、情報処理方法及びプログラム
JP7151886B2 (ja) * 2019-05-21 2022-10-12 日本電信電話株式会社 情報処理装置、情報処理方法及びプログラム
FI20195426A1 (en) 2019-05-23 2020-11-24 Univ Helsinki Compatible anonymization of data sets from different sources
JP2021026045A (ja) * 2019-07-31 2021-02-22 株式会社デンソーアイティーラボラトリ 保存装置、保存方法およびプログラム
JP7327486B2 (ja) * 2019-08-20 2023-08-16 日本電信電話株式会社 情報収集装置および方法
US11574186B2 (en) 2019-10-31 2023-02-07 International Business Machines Corporation Cognitive data pseudonymization
JP2021157343A (ja) * 2020-03-25 2021-10-07 京セラドキュメントソリューションズ株式会社 データ連携システムおよび匿名化制御システム
WO2023036449A1 (en) * 2021-09-10 2023-03-16 Veridas Digital Authentication Solutions, S.L. Generating an evolved version of a classifier

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021473A1 (en) * 2001-08-30 2003-03-13 Privasource, Inc. Data source privacy screening systems and methods
US7024409B2 (en) * 2002-04-16 2006-04-04 International Business Machines Corporation System and method for transforming data to preserve privacy where the data transform module suppresses the subset of the collection of data according to the privacy constraint
AU2003268754A1 (en) * 2002-10-03 2004-04-23 In4S Inc. Bit string check method and device
EP1950684A1 (en) * 2007-01-29 2008-07-30 Accenture Global Services GmbH Anonymity measuring device
IL197579A0 (en) 2009-03-12 2009-12-24 Univ Ben Gurion Efficient multi-dimensional suppression for k-anonymity
EP2487639A4 (en) * 2009-10-09 2017-05-24 Nec Corporation Information management device, data processing method thereof, and computer program
JP5649466B2 (ja) * 2011-01-19 2015-01-07 株式会社Kddi研究所 重要度判定装置、重要度判定方法およびプログラム
CA2837848A1 (en) * 2011-06-02 2012-12-06 Nec Corporation Distributed anonymization system, distributed anonymization device, and distributed anonymization method
CN102867022B (zh) * 2012-08-10 2015-01-14 上海交通大学 通过部分删除某些项目达到对集合型数据匿名化的系统
EP2911081A4 (en) * 2012-10-18 2016-06-08 Nec Corp DEVICE AND METHOD FOR PROCESSING INFORMATION
US9202081B2 (en) * 2012-12-17 2015-12-01 Telefonaktiebolaget L M Ericsson (Publ) Apparatus and methods for anonymizing a data set
JP6398724B2 (ja) * 2013-01-10 2018-10-03 日本電気株式会社 情報処理装置、および、情報処理方法
JP6214167B2 (ja) 2013-02-08 2017-10-18 富士通クラウドテクノロジーズ株式会社 情報処理システム、情報処理方法、及び情報処理プログラム
JP6048204B2 (ja) * 2013-02-20 2016-12-21 株式会社リコー 情報処理装置、情報処理システム、及び情報処理プログラム
JP2014164477A (ja) * 2013-02-25 2014-09-08 Hitachi Systems Ltd k−匿名データベース制御装置及び制御方法
US9460311B2 (en) * 2013-06-26 2016-10-04 Sap Se Method and system for on-the-fly anonymization on in-memory databases
US9619450B2 (en) * 2013-06-27 2017-04-11 Google Inc. Automatic generation of headlines
JP6413769B2 (ja) * 2015-01-05 2018-10-31 富士通株式会社 データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法

Also Published As

Publication number Publication date
WO2016121493A1 (ja) 2016-08-04
US20180012039A1 (en) 2018-01-11
EP3252650A4 (en) 2018-11-21
EP3252650A1 (en) 2017-12-06
JP2016139261A (ja) 2016-08-04
DK3252650T3 (da) 2020-08-10
EP3252650B1 (en) 2020-06-24
US10817621B2 (en) 2020-10-27

Similar Documents

Publication Publication Date Title
JP6456162B2 (ja) 匿名化処理装置、匿名化処理方法及びプログラム
US11210292B2 (en) Search method and apparatus
CN104346418B (zh) 用于数据的关系型上下文敏感匿名化的方法和系统
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
JP2021504798A (ja) データ匿名化のためコンピュータが実行する方法、システム、コンピュータ・プログラム、コンピュータ・プログラム、および記憶媒体
WO2021121187A1 (zh) 基于分词文本的电子病例查重方法、装置、计算机设备
WO2013088681A1 (ja) 匿名化装置、匿名化方法、並びにコンピュータ・プログラム
US11449674B2 (en) Utility-preserving text de-identification with privacy guarantees
JP2005100408A (ja) 臨床情報の保存、調査及び検索のためのシステムと方法とビジネス方法
EP3832559A1 (en) Controlling access to de-identified data sets based on a risk of re-identification
US11461496B2 (en) De-identification of electronic records
JP2015088195A (ja) クラウドベース医療データベースを管理する方法及びそのシステム
JP2019185751A (ja) 特徴量準備の方法、システム及びプログラム
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
Vardalachakis et al. ShinyAnonymizer: A Tool for Anonymizing Health Data.
JP2014106691A (ja) 匿名化処理方法及び装置
CN102682414B (zh) 医疗信息管理系统及医疗信息管理方法
US20210192125A1 (en) Methods and systems for facilitating summarization of a document
US20200273551A1 (en) Enabling the centralization of medical derived data for artificial intelligence implementations
JP2013105207A (ja) 秘匿化データの検索のための情報処理方法及び装置
CN113095430B (zh) 可保护隐私的模型更新方法、对象识别方法、系统、装置、介质和设备
CN114996272A (zh) 用于生成组织结构树的方法、电子设备及可读存储介质
JP2007080019A (ja) 自然言語処理システム、自然言語処理方法、自然言語処理プログラム
CN112863682A (zh) 信息分析方法、装置、系统、电子设备和存储介质
JP5665685B2 (ja) 重要度判定装置、重要度判定方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181218

R150 Certificate of patent or registration of utility model

Ref document number: 6456162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250