情報化社会においては、様々な分野で情報の利活用が行われている。特に、ネットワークの普及により、クラウドデータベースに蓄積されたビッグデータを検索、抽出、加工、分析等の手段を用いて種々の利活用シーンに応じた情報に展開し、距離的制約を受けることなく広く利用者に提供することが可能となった。
しかしながら、情報の有効活用が発達する一方で、情報の漏洩や不正取得、改竄等の不法行為による犯罪も増加している。中でも、個人情報を狙った犯罪や、機密データを持ち出して悪用する犯罪等は、社会的にも大きな問題となっており、情報に対する信頼性や安全性への関心がますます高まり、その重要性を増している。
この問題への対応策として、情報漏洩や情報改竄を防止するために強固なセキュリティシステムを導入したり、厳重なアクセス制限やログ管理を行っている企業も多い。しかしながら、システムや管理を如何に強化したとしても、人為的ミスや故意による犯罪を無くすことは極めて困難である。
さらに、情報の「管理」と「活用」は二律背反の関係にあり、安全性を意識して管理を強化すればするほど活用範囲が制限され、ユーザへ提供するサービスに制約を与えたり、サービスの質が低下するといった不都合が生じる。
そこで、情報の「管理と活用」を両立させるために、第三者に知られたくない情報や知られてはならない情報を伏せて公開、開示、提供すること(所謂、「匿名化」)が一般に行われている。ここで、「情報を伏せる」処理とは、例えば、隠すべき情報を暗号化したり、除外したり、別の情報に変換したり、その情報を符号や記号に置換したり、黒塗りにしたりする等の処理を指す。本明細書では、この「情報を伏せる」ための処理全般を「匿名化」という。
匿名化の対象となる情報としては、第三者に知られてはならない情報(例えば、個人を特定することが可能な情報や、提供に際して本人の同意を必要とする情報)、あるいは、企業秘密や営業秘密として秘匿することが望ましい情報等が挙げられる。
現在、様々な分野でこの「匿名化」が行われており、その主な理由として、蓄積された多量の情報に対する整理、抽出、分析(解析)、統計等の処理を第三者の専門機関に委託したり、非公開すべき情報を隠した状態でネットワーク等を利用して広く公表したり、あるいは、非公開情報を伏せた状態でその情報の存在を証明したりする事例が増えて来たことが挙げられる。具体的には、例えば病院内で採取した検体情報の分析や研究を院外の専門機関に委託する場合や、バラバラに収集された営業情報を社外のクラウドデータベースで一元管理し、外出先や自宅から情報アクセスする場合、あるいは、SNS(ソーシャルネットワークシステム)で特定情報だけを公開する場合等、その用途は多岐に及ぶ。
かかる状況下で、匿名化情報を管理する技術としては、例えば、特許文献1に記載されているような重要なIDを匿名化して管理する方法や、特許文献2に記載されているように、情報が社外(院外)に持ち出される時に匿名化処理を施す方法、あるいは、特許文献3に記載されているように情報が移動する度に行われる匿名化処理の煩雑さを回避する方法等、匿名化処理に関する様々な技術が提案されている。
更に、匿名化の方法としては、対象となる情報の暗号化や符号化、置換や変換、あるいは、黒塗りや上書き等、各種手法が開示され一般化している。そして、その用途は、電子ディスプレイ媒体や紙媒体による情報表示、サーバ、ハードディスク、USBメモリといった記憶媒体への情報保管、あるいは、有線/無線を問わず多くの通信手段を使った情報の送信や転送等、幅広い局面で匿名化技術が採用されている。
ここで、従来知られている匿名化情報の運用システムとその匿名化処理について、特許文献4を参照して説明する。当該文献は、病院で採取した血液(検体)を院外の検査機関に搬送して検査を行う際、検体に表示されている個人情報の漏洩を防止することを目的として、検体が院外へ搬送される時に個人情報を匿名化する技術が開示されている。匿名化処理は、検体が院外へ運び出されるタイミングを契機に起動される。匿名化処理が起動されると、検体に貼り付けられている電子カルテの書き換え(上書き)が実行される。上書きの対象となるのは、患者氏名、患者ID、性別、生年月日、年齢といった患者個人を特定できる情報である。これらの情報を構成する各文字、数字は、全て符号「*」に上書きされ匿名化される。この結果、院外へ搬送された電子カルテには、個人情報の部分が全て「*」で表示され、誰の検体かを識別することができないようにして個人情報を保護している。
一方、匿名化では、匿名化前の元情報と匿名化後の情報との対応付けが必要である。一般的には、匿名化前の情報と匿名化後の情報との紐付けを行う対応表と呼ばれるテーブルが用いられる。しかしながら、この対応表が漏洩した場合には、匿名化の仕組みが容易に露見してしまう。そこで、例えば特許文献5に記載されているように、匿名化処理の後、この対応表を破棄することで個人情報を堅牢に保護する技術も提案されている。
以上のように、個人情報や秘密情報のように第三者に伏せておかなければならない情報を匿名化するために、種々の技術が提案され実用化されているが、その殆どは、どのようにして匿名化するか、いつ匿名化するか、どこで匿名化するか、あるいは、匿名化前の情報と匿名化後の情報をどのようにして紐づけるか、といった情報の伏せ方に関する技術である。
確かに、伏せるべき情報を確実に隠すことは重要なことである。また、匿名化する情報を増やせば増やす程、情報の秘匿性も向上する。しかしながら、「匿名化」の本来の目的は、匿名化された情報の利活用ではなく、匿名化されない非匿名化情報を利活用(抽出、収集、整理、分析、検索、加工、統計、提供等)することである。故に、伏せるべき情報が部分的に含まれている情報の全体を匿名化するのではなく、伏せるべき情報だけを選択的に匿名化する必要がある(部分匿名化処理)。
このため、匿名化処理では、情報の利用目的に応じて必要とされる情報を非匿名化情報として予め指定し、指定されていない情報だけを部分的に匿名化するか、あるいは、逆に、匿名化すべき情報を指定し、指定されていない情報を非匿名化情報として扱う必要がある。しかし、ここで注意すべきは、何を、どこまで匿名化するかということである。例えば、院内に蓄積された医療関連情報を解析して、ある病気の発生率が高い都道府県について分析する際、個人に紐づけられた住所情報を単純に全て匿名化してしまえば、分析はできなくなってしまう。そこで、このような場合には、個人に紐づけられた住所情報であっても都道府県(あるいは、それに加えて市や郡)のレベルまでは分析に必要な非匿名化情報として特定し、残りの町と番地を匿名化処理の対象として扱う必要がある(部分匿名化)。また、郵便番号や電話番号についても同様の事が言える。更に、別の例を示すと、生年月日情報の分析において、生年月日から年齢を算出して各年代層毎の集計処理や抽出処理が必要な場合には、年を残し月日だけを匿名化しなければならない。同様に、時間情報(例えば、作成年月日、記入年月日、時刻等)の解析においても、前述の部分匿名化処理が必要とされるケースは多い。
このように外部機関に対してネットワーク通信を介して送信される外部提供情報に対して部分匿名化処理を行う従来の技術は、いずれも匿名化の対象となる情報に対してのみ配慮されたものでしかない。しかしながら、匿名化の本来の目的は、非匿名化情報を活用するためである。従って、非匿名化情報の信頼性が薄ければ、外部機関に情報を委託する意義がなくなり、匿名化処理自体が意味のないものとなってしまう。
なお、非匿名化情報の信頼性を情報提供を受けた外部機関で検証するのは、極めて困難である。その理由は、外部機関に提供される情報は既に匿名化された後の情報であり、これらを匿名化前の情報に復元することができないからである。そのため、情報提供を受けた外部機関は、非匿名化情報が全て正しい情報であるとの認識に立って処理を行う以外方法はない。結果、非匿名化情報に誤りや曖昧さがあると正しい処理ができないことになる。
非匿名化情報の信頼性を阻害する要因としては、記入ミス、機器操作ミス、転記ミスといった情報入力に伴うミスと、情報の追加や修正、補完や連結等、入力後の処理で発生するミス、あるいは、機器の欠陥や動作不良、ソフトウェアのバグ等に起因する誤り等が挙げられる。そして、これらのミスは、情報入力時から外部提供に至るまでの様々なプロセスの中で不測の事態として起こり得る問題である。
以上の事から、匿名化において考慮されなければならない要件とは、第三者に分からないように確実に情報を匿名化すると同時に、匿名化されない非匿名化情報に対する信頼性を確保することである。しかしながら、従来提案されている匿名化技術は、いずれも匿名化情報に関する提案ばかりで、非匿名化情報の信頼性確保に関しては、何等考慮されていないと言わざるを得ない。
本発明は、上述した実情に鑑みてなされたものであり、その目的は、匿名化処理に際して、匿名化を維持しつつ、同時に非匿名化情報の信頼性を確保することが可能な情報匿名化方法及び匿名化処理装置を提供することである。
本発明の他の目的は、匿名化された外部送信情報を受信し、受信した情報に対する処理を行う外部機関における情報処理の適正性向上を援助する情報匿名化方法と匿名化処理装置を提供することである。
本発明の更に他の目的は、匿名化情報と非匿名化情報からなる外部提供情報に対する匿名性と信頼性を維持し続けることが可能な匿名化情報の運用システムを提供することである。
上記目的を達成するために本発明の第1の態様は、定められた領域外に送信される外部送信情報のうち指定された情報を匿名化する情報匿名化方法であって、外部送信時に情報格納部から外部送信情報を読み出す読出しステップと、読み出された外部送信情報に対して指定された情報を匿名化する匿名化ステップと、匿名化処理後の情報を外部へ送信する送信ステップとを有する情報匿名化方法において、読出しステップと匿名化ステップとの間に読み出された情報を評価する評価ステップを介在させたことを特徴とする。
ここで、評価とは、外部送信情報のうち匿名化の対象になっていない情報(非匿名化情報)に対して、その情報の信憑性を判定する処理を指す。更に、送信とは、定められた領域(区域、場所、建物、部屋等)の外へ情報を提供することを指し、例えば、通信回線(有線、無線を問わず)での情報の送信や転送、あるいは、紙媒体等に印刷・表示された情報の搬送等、手段を問わず情報の利活用を目的として第三者に情報を提供する行為をいう。
なお、工場等から出荷される製品の最終検査を出荷直前に行うことは、製品評価の常套手段として広く採用されている。しかしながら、この評価は、不良品を出荷しないための評価、言い換えれば、良品だけを選別することを目的とした評価である。これに対して、本発明の評価は、不適正な情報を選別して振い落とすために行われる評価とは主旨を異にする。何故ならば、外部機関に提供される情報は、適正な情報だけを選別して渡すのではなく、例えば、統計処理や傾向分析のように全体の総数が重要視されるようなケースでは、適正な情報だけを対象とする訳にはいかない。例え、不適正な情報であっても、これを無効として識別できるようにしておかなければ、正しい統計処理や傾向分析に支障を来すからである。故に、本発明では、評価した結果に対して、以下の態様に示すような工夫がなされていることに留意されたい。
本発明の第2の態様は、評価ステップが情報の照合処理を含み、一般に公開されている情報や許諾を受ければ参照することが出来る情報と、前述の外部送信情報との比較・照合を行い、匿名化の前処理として外部送信情報の信頼性を判定する処理を介在させたことを特徴とする。
更に、本発明の第3の態様は、照合処理の結果を受けて、適正な情報と不適正な情報とを区別して次段の匿名化ステップへ送るようにしたことを特徴とする。
本発明の第4の態様は、不適正な情報に対して匿名化を行う第1の匿名化処理と、適正な情報に対して匿名化を行う第2の匿名化処理の少なくとも2通りの匿名化処理を含むことを特徴とする。
本発明の第5の態様は、不適正な情報に対する第1の匿名化処理が、不適正と判定された情報を予め決められたフォーマットで匿名化することを特徴とする。
本発明の第6の態様では、第1の匿名化処理と第2の匿名化処理が、それぞれ異なるフォーマットで匿名化を行うことを特徴とする。
更に、第7の態様は、第1及び第2の匿名化処理の対象が、個人を特定することが可能な情報、外部への提供に際して本人の同意を必要とする情報、及び/もしくは、第三者に知られたくない重要情報や機密情報であることを特徴とする。
本発明の第8の態様は、第1の態様に記載された匿名化処理を実行するための処理装置を提供するものである。
本発明の第9の態様は、情報評価部が、情報読出し部から読み出された外部送信情報と、公開データベース、もしくは、閲覧を許諾されたデータベースに蓄積されている情報とを照合する情報照合機能を有することを特徴とする情報匿名化処理装置に関するものである。
本発明の第10の態様は、第9の態様の処理装置において、匿名化処理を実行する処理部の前段に外部送信情報の適正/不適正を評価する評価部を設けたことを特徴とする。
本発明の第11の態様は、匿名化処理部が、評価結果に基いて、適正な情報を匿名化する第1の匿名化処理部と不適正な情報を匿名化する第2の匿名化処理部とを有することを特徴とする。
本発明の第12の態様は、第1の匿名化処理部と第2の匿名化処理部がシリアルに結合されることを特徴とする。
本発明の第13の態様は、前記第1の匿名化処理部と前記第2の匿名化処理部がパラレルに結合されることを特徴とする。
また、本発明の第14の態様には、それぞれが情報転送路で相互接続される互いに独立した3つの領域を有し、第1の領域では、第2の領域に送信される評価前の情報を収集する収集処理と、収集された情報の信頼性評価を行う評価処理と、評価結果を受けて情報を匿名化する匿名化処理とが実行され、匿名化された情報が、情報転送路を介して第2の領域に送信され、送信された情報が第2の領域で処理(収集、整理、抽出、分析、加工、統計、検索等)され、その処理結果が第3の領域で保管されるように構成し、少なくとも第1の領域と第2の領域は一方向性の情報転送路で接続されていることを特徴とする匿名化情報運用システムについて開示されている。
本発明の第15の態様は、匿名化前の情報と匿名化後の情報を対応付ける対応表を第3の領域で保管することを特徴とする。
本発明の第16の態様は、第2の領域で処理された処理結果を必要とする利用者は、第3の領域に対して利用要求を出し、第3の領域から処理結果を取得するようにしたことを特徴とする。
本発明の第1の態様によれば、外部送信情報が匿名化される際の前処理として、評価ステップを介在させることで、外部送信情報のうち非匿名化情報、すなわち、外部機関の処理に必要とされる情報の精度を向上させ、外部送信情報全体の信頼性を正しく確保することができる。その結果、外部機関における処理の精度も改善され、匿名化本来の目的を達成することができる。換言すれば、情報の匿名化と適正性を共に維持した状態で外部機関に情報を提供できるという効果を奏する。更に、この評価は、情報が外部へ送信(もしくは、搬送)される直前の匿名化処理のステージにて実行するようになされている。従って、それまでの処理プロセスで起こりがちな機器の動作不良やソフトウェアのバグといった予期せぬ問題や、操作ミスや記入ミス、修正ミスや書き換えミスといった人的なミスによって誘発される不適格な情報を明確に識別した状態で外部機関に送信することができるので、外部に提供される情報に対して最も高い信頼度を与えることができる。
本発明の第2の態様によれば、評価スッテプでは、外部送信情報の収集過程で用いられた情報源とは無関係の独立した公開情報源を用いて照合を行っているので、誤りの連鎖を引き起こすことなく客観的かつ適正な評価が出来るという利点がある。
さらに第3の態様によれば、評価ステップの実行により判明した適正な情報と不適正な情報とをそれぞれ区別して送信することで、外部機関において、不適正な情報を容易に把握することができ、外部機関での処理精度の向上に役立たせることが出来る。
本発明の第4の態様によれば、不適正な情報を含む情報に対しても匿名化を行うため、これを外部送信情報として提供しても当該情報の匿名性が損なわれることがないという効果を得ることができる。
第5の態様では、不適正と判定された情報を予め定められたフォーマットで匿名化するようにしているため、外部機関はこのフォーマットをキーにして不適正な情報を容易に識別することが可能である。その結果、外部機関の処理精度を更に向上させることが可能となる。
また、第6の態様によれば、適正な情報に対する匿名化処理と不適正な情報に対する匿名化処理のフォーマットを変えているため、外部機関における情報の取り扱いを明確に区別することができ、処理の適正性を一層高めることができるという効果がある。
更に、第7の態様は、適正な情報に対する匿名化と同様に、不適正と判定された情報に対してもその中に含まれる個人情報や重要情報の匿名化を実施するようにしているため、情報の秘匿性が損なわれることはないという効果を継承することができる。
本発明の第8の態様においては、匿名性を損なうことなく、外部へ送信される情報の信頼性を向上した匿名化処理装置を提供することができる。
本発明の第9の態様によれば、外部送信情報と照合される情報は、当該外部送信情報とは直接的に関係のない公開データベースの情報や閲覧を許可されたデータベースの情報と照合されるようにしているため、外部送信情報の生成に用いられた元帳や情報源からの誤りの連鎖を惹き起こす心配がないという効果が得られる。
第10の態様による匿名化装置では、匿名化処理部の前段に評価部を配置することで外部送信情報の全体を評価できるようにしている。即ち、非匿名化情報の適正性評価であれば、匿名化処理を施した後(匿名化処理部の後段)、残された非匿名化情報の評価を行うことも考えられるが、これは評価の最適性の観点から得策ではない。例えば、住所情報に対して、県名だけを非匿名化し、市町村及び番地を匿名化した場合、匿名化後の評価では非匿名化された県名が実在するか否かの評価しかできないため、評価の完全性を保証することができなくなる。これに対して、匿名化の前段で評価を行えば、県名、市町村名、番地の全体を一連の関連する情報として評価することができるため、例え県名が実在するものであったとしても、市町村及び番地との関連において不適切と判断された県名を非匿名情報から除外することが可能となり、より信頼性の高い情報を外部機関に送信することができる。
更に、第11の態様によれば、評価判定がなされた適正な情報と不適正な情報とをそれぞれ個別に匿名化するようにしているため、両者の匿名化に差異を持たせることが可能となる。この結果、外部機関では、適正な情報と不適正な情報とを容易に識別することができるという利点がある。
第12の態様では、評価後の匿名化処理(第1の匿名化処理と第2の匿名化処理)をシリアルに実行する装置が提案されている。ここでは、一方の匿名化を行った後に、残された他方の匿名化を行えばよいので、第1及び第2の匿名化処理部を単に直列に接続することで余分な付加機能を必要とすることなく装置構成を簡素化できる利点がある。
一方、第13の態様のように、匿名化をパラレルに行うようにすれば、装置構成は複雑化するも、処理速度を上げられるという利点がある。
本発明の第14の態様には、第1の領域で収集され、匿名化された外部送信情報を第2の領域で処理し、処理した結果を第3の領域で保管するようにした情報運用システムであって、第2の領域に送信される外部送信情報が第1の領域で評価及び匿名化され、匿名化された情報が第2の領域で処理され、その処理結果が第3の領域で保管される構成の情報運用システムが開示されている。この構成で重要なことは、第1の領域では、第2の領域へ送信される外部提供情報についての評価処理と匿名化処理の双方が実行されること、及び、第1の領域と第2の領域が一方向性の情報転送路で繋がっていることである。すなわち、第1の領域で信頼性を保証して生成された外部送信情報が第2の領域へ送信された後、第1の領域に逆流できないようになっていることである。具体的には、例えば、第2の領域から第1の領域へのネットワーク接続を禁止する処置を講じたり、あるいは、第1の領域で生成された匿名化済の外部送信情報が格納された記憶部へのアクセスを禁止する処置が施されている。このような構成のシステムでは、第1の領域で匿名化された情報が第2の領域からのアクセスを受けて改竄されることはない。また、送信された外部情報は、信頼性の高い状態で匿名化を維持したまま第2の領域で処理され、その結果は第3の領域に保管されるので、第2の領域から匿名化情報が盗難もしくはハッキングされることもない。すなわち、情報の匿名化、匿名化された情報の処理、及び処理結果の保管は、それぞれ独立した領域で行われ、情報の流れも一方向に制限されているため、第1の領域で保証された匿名化情報と非匿名化情報の信頼性は、いずれの領域においても損なわれる心配はない。
第15の態様によれば、匿名化前の情報と匿名化後の情報を紐づける対応表は、第3の領域で保管するようにしているため、第2の領域に提供された匿名化情報が第三者によって解読される恐れもなくなる。勿論、第2の領域で処理された結果は第3の領域に保管されるので、第2の領域で匿名化情報や処理結果を保存しておく必要もない。これにより、取り扱われる情報の秘匿性を極めて高い状態で維持し続けることができる。
さらに、第16の態様では、匿名化済の情報を処理する第2の領域で処理された結果は、第3の領域に保管され、利用者はこの第3の領域から結果を受け取るようになされているので、第2の領域のセキュリティを高める必要がなくなる。この結果、厳重なセキュリティ対策が施されていない外部機関であっても処理を依頼することができ、依頼可能な外部機関の幅を広げることができるという利点がある。
以下に、本発明の実施の形態を図を用いて説明する。ここでは、病院が、患者の医療情報の分析/統計処理を外部の研究機関に委託する例を引用して説明する。外部研究機関に提供される情報には、患者のIDコード、氏名、生年月日、年齢、郵便番号、住所、電話番号、検体データ、病名コード、病歴、手術歴、治療データ、投薬データ、家族構成等、分析/統計処理に必要な情報が含まれているものとする。これらの患者情報は、患者個々人に紐づけられた情報で、切り分けることなく一連の関連情報として管理される。外部の研究機関に送られる患者情報は、院内のベータベースサーバに収集され、指定された情報に匿名化処理が施された後、ネットワーク等の通信手段を介して研究機関に転送される。
図1は、病院内のデータベースサーバ(院内DB)10に収集された患者情報を匿名化して、院外の研究機関に送信する処理を行う実施例の処理ブロック図である。院内DB10に収集された患者情報は、読出し指令により外部提供情報11として匿名情報生成部20へ転送される。匿名情報生成部20は、匿名化処理部22と、その前段に配置された前処理部21とを有する。外部提供情報11は、匿名情報生成部20の前処理部21に転送される。前処理部21では、転送された外部提供情報11に対する信頼性の評価が実行される。
評価が終了した外部提供情報は、次段の匿名化処理部22に送られて、ここで匿名化が行われる。匿名化が完了した匿名化済み情報は送信ファイルサーバ30に格納され、ここから外部送信情報31として、ネットワーク回線等を介して外部研究機関(図示せず)に送信される。
次に、図2を参照して前述の評価処理と匿名化処理に関して、より詳細に説明する。院内DB10から読み出された外部提供情報(患者情報)11は、匿名情報生成部20の前処理部21に送られる。前処理部21は、院外の公開データベース(公開DB)40と通信可能な照合・判定部23を有し、外部提供情報11と公開DB40に蓄積されている公開情報との比較・照合を実行する。
公開DB40としては、例えば、関係省庁が一般に公開している郵便番号一覧や住所一覧、電話帳で公開されている電話番号や局番、氏名及び住所、あるいは、西暦/和暦対応一覧等々、が利用可能である。また、使用目的に応じて、図書館や大学、各種行政機関等のデータベースを利用することもできる。なお、院内で患者情報の入力や保存のために使用された台帳や元帳等の院内管理情報ではなく、院外で正規に一般公開されている情報や利用許可を得て入手可能な情報等、病院が取得したツールとは異なるツールを使用することで、誤りの連鎖に伴う影響を受けない客観的な評価が出来る事に留意されたい。
照合処理としては、通常のコンピュータ情報処理分野で使用されているデータ照合やリスト照合等の一致/不一致検索手法や、データマイニング、データマッチング手法が適用できる。照合の結果、院内DB10から読み出された外部提供情報11が、正しく存在すると判定された情報とそうでない情報とが区分されて次段の匿名化処理部22に送られる。
匿名化処理部22は、第1の匿名化処理部24及び第2の匿名化処理部25を有し、第1の匿名化処理部24では、前段での照合の結果として、正しい存在が確認されなかった情報(すなわち、不適正な情報)に対する匿名化処理がなされ、第2の匿名化処理部25では、正しい存在が確認された情報(すなわち、適正な情報)に対する匿名化処理が実行される。
匿名化処理で使用する技術としては、先にも述べた暗号化、符号化、記号化、置換や変換、黒塗りや上書き等、第三者に解読できないように「情報を伏せる」ことが可能な手法であれば、いずれも適用することができる。
匿名化処理部22は、さらに、どの情報を匿名化すべきかを指定する匿名化条件指定部27と、どのように匿名化するかを指定する匿名フォーマット指定部26とを具備している。匿名化条件指定部27は、外部提供情報の利用目的に応じて匿名化されるべき情報の指定、及び、不適正な情報に対する匿名化の指定を行う。匿名化条件指定部27からの指令を受けて、匿名化フォーマット指定部26は、第1及び第2の匿名化処理部(24、25)のそれぞれに対応するフォーマット(情報の伏せ方)を指示する。
第1及び第2の匿名化処理部(24,25)は、指示されたフォーマットに従って不適正な情報と適正な情報のいずれに対しても匿名化処理を施し、両者を匿名化済み外部送信情報31として外部の研究機関にインターネット等の通信手段を介して送信する。
以上の処理の流れを、図3に示すフローチャートを参照して整理する。まず、院内DB10から外部提供情報11が読み出され、院内通信回線を介して匿名情報生成部20の前処理部21として設けられた照合・判定部23に転送される。そこで、院外の公開DB40から取得した情報との照合・判定が行われる(ステップA)。判定の結果、不適正情報と判定された外部提供情報に対しては、第1の匿名化処理部24にて第1の匿名化処理が実行される(ステップB)。更に、適正情報と判定された外部提供情報に対しては、第2の匿名化処理部25にて第2の匿名化処理が実行される(ステップC)。第1の匿名化処理及び第2の匿名化処理で匿名化された情報は、共に匿名化済み情報として送信ファイルサーバ30に送られる(ステップDの送信ファイルサーバ転送)。送信ファイルサーバ30の匿名化済み情報31は、ネットワーク通信網を介して院外の外部研究機関へと送信される。
本実施例で実行される第1の匿名化処理と第2の匿名化処理について、その具体例を図4を参照して説明する。ここでは、匿名化対象情報として、郵便番号と住所を例にして説明するが、その他の伏せるべき情報にも同様に適用できることは、当業者が容易に想到しうることである。
図4(a)に示す郵便番号と住所が、ある患者の正しい情報だと仮定する。この情報の中で、住所情報を見れば適正な患者の所在地がわかる。また、郵便番号からも患者の住まいの市町村名がわかってしまう。そこで、これらの情報を外部提供する場合、図4(b)のように、郵便番号の下4桁を「●」に変換して「102−●●●●」に匿名化することで、都道府県名までしか分からないようにすることが出来る。同様に、住所に関しても、都道府県情報が研究機関の統計処理で必要とされるような場合、区と町と番地に相当する情報を全て「×」に匿名化する。こうすることで、患者個人の情報が院外にて第三者の目に触れたとしても、何処の誰かを知られる心配はなくなる。本実施例では、郵便番号と住所に対して、どの情報を匿名化するかという指定は、図2の匿名化条件指定部27からなされ、「●」に符号変換する(書き換える)という指示は、匿名フォーマット指定部26からなされる。
しかしながら、図4(c)のように、入力ミスや記入ミス、あるいは、手続きミス等で「東京都」の部分が「大阪府」となっていた場合、統計処理で必要な部分以外を匿名化するという従来の方法では、図4(d)のような匿名化処理が施されてしまう。この処理は、図4(b)で行われる処理と同じだと理解されたい。
これに対して、本実施例では、図4(c)に示すような情報が外部提供情報11として院内DB10から転送されてきた場合、図1の前処理部21で行われる照合・判定処理によって不適正な情報として検出される。照合・判定部23は、住所を構成する情報を都や区や町をそれぞれ区切って照合するのではなく、全てを一連の関連情報として照合するため、仮に、東京都や大阪府が実在するものであったとしても、大阪府には千代田区が存在せず、また、千代田区は大阪府に該当しないことが確認できる。この場合には、送られてきた情報は不適正情報として判定され、図4(e)に示されるように一連の全ての情報が匿名化され、外部の研究機関に誤った情報のまま送信されることはない。
以上の説明から明らかなように、本実施例では、適正な情報に対しては第三者に内容を伏せるための匿名化が実施され、不適正な情報に対しては研究機関における誤りを無くすための匿名化が実施される。よって、本来の匿名化の機能を維持しつつ、情報の信頼を確保できるという効果を奏することができる。なお、図4(f)に示すように、適正な情報の匿名化と不適正な情報の匿名化を、匿名フォーマット指定部26の指示により変えることも可能である。ここでは、符号の●、×、△を使って匿名化しているが、勿論これに限定する必要はなく、他の符号や記号、暗号化等の処理を行ってもよい。このようにすることで、外部研究機関では、適正な情報と不適正な情報とを区別して取り扱うことができ、統計や分析等の処理精度を従来より大幅に向上することができる。
図5は、実施例2における匿名化処理のブロック図である。実施例1では、図2に示すように第1の匿名化処理部24と第2の匿名化処理部25とを直列に設けることで、不適正な情報を含む情報に対する匿名化を先に行い、残りの情報(適正な情報)に対する匿名化を引き続き行う例を開示したが、実施例2では、第1の匿名化処理部24と第2の匿名化処理部25が並列に設けられている。このような構成では、照合・判定部23における照合処理の結果、不適正と判定された情報31Aと適正と判定された情報31Bとをそれぞれ別々に分けて転送することができる。この結果、第1の匿名化処理部24は、転送されてきた全ての情報を匿名化し、一方第2の匿名化処理部25は指定された情報の匿名化を行えばよいことになり、かつ両者を並行に実行することができるので、従来の匿名化処理速度と同等の速度を維持できるという利点がある。
図6は、実施例2における処理の流れを示すフローチャートである。第1の匿名化処理と第2の匿名化処理は並列に実行される(ステップB)。その後、両者がマージ処理により統合され(ステップC)、送信ファイルサーバへ転送される(ステップD)。ここで、照合・判定処理(ステップA)により、適正な情報と不適正な情報とが共に識別されるため、次段の匿名化並列処理部(第1の匿名化処理部24、及び第2の匿名化処理部25)に対する情報転送の手段として、それぞれ異なる転送路を用いて各情報を転送することも、あるいは、転送先アドレスを変えて転送することもできる。
次に、図7を参照して、本発明を使用した情報運用システムについて説明する。この実施例では、情報運用システム100は、大きく分けて3つの区域を有するシステム構成となっており、第1の区域50が病院等の医療機関を、第2の区域60が大学等の研究機関を、更に、第3の区域70が研究結果を保管するクラウドデータベースを例示している。
第1の区域50として定義された病院には、各医局で入力された患者情報が院内ネットワーク回線を介して院内データベース10に収集される。収集される患者情報は、例えば、病院コード、患者氏名、患者ID,郵便番号、住所、連絡先電話番号、年齢、生年月日、病名コード、病歴、手術歴、検体データ、投薬データ、家族構成、担当医師コード等、医療に関する患者の個人情報を含む。院内データベース10に収集された患者情報は、病院責任者の承認プロセスを経て、第2の区域60にある研究機関に研究依頼情報として特定され、個人情報と共に外部提供情報として院内ネットワーク回線51を介して匿名情報生成部20に転送される。匿名情報生成部20は、実施例1もしくは2に開示された照合・判定部と匿名化処理部とを具備している。
匿名情報生成部では、転送されてきた患者情報に対して前述した照合・判定処理が実行され、適正情報と不適正情報とに識別されて後、匿名化処理が行われる。前述したとおり、適正情報に対しては、患者の個人情報のうち指定された情報の匿名化処理が実行され、一方、不適正情報に対しては、不適正と判定された情報に対する匿名化処理が実行される。 匿名化処理が完了した情報は、外部送信情報として送信ファイルサーバ30に書き込まれる。
第1の区域50の送信ファイルサーバ30に書き込まれた匿名化済み外部提供情報は、ネットワーク通信により院外の第2の区域60にある研究機関のデータベースサーバ61に転送される。この時使用されるネットワーク通信路は、送信ファイルサーバ30からデータベースサーバ61に対して一方向にのみ情報送信が可能な通信路である。例えば、両サーバ間を接続するファイアウォール機能を持った光ケーブルや、逆アクセスを遮断したネットワーク通信網等が一方向性通信路として好適である。
第2の区域60では、一方向性通信手段を介して第1の区域50から送信されてきた患者情報が、研究機関によって処理される。なお、第2の区域60の研究機関には、第1の区域に相当する複数の病院から匿名化済み患者情報が送られて来るようにすることもできる。
研究機関における処理の例として、送信されてきた患者情報に対する統計処理を実施し、指定された病気がどの地域に多いかを調査するケースについて説明する。統計処理に必要な情報としては、病名と都道府県に関する情報である。従って、各患者情報は、図4に示したような匿名化情報として送られてくる。本発明によれば、第1の区域で匿名化処理される前に各患者情報に対する評価処理が加えられるので、第2の区域60に送信される情報としては、図4の(b)と(e)のパターンが考えられる。すなわち、研究機関は、適正な情報を(b)パターンとして、不適正な情報を(e)パターンとして受信する。
前述の統計処理では、受信した(b)パターンと(e)パターンの総数が処理の母体となり、その母体の中で特定の病名に対して各都道府県における患者の割合が算出されなければならない。従って、情報の適正性が保証された(b)パターンが抽出され、その中で非匿名情報として開示されている都道府県の情報に基いて分類処理が行われる。
仮に、第1の区域で匿名化前の評価が行われていなければ、図4の(d)パターンの情報も混入して送信されることになる。研究機関は、受信した情報を全て適正な情報として処理するため、パターンが同じ(b)パターンと(d)パターンの両方を抽出することになる。その結果、不適正な情報が匿名化された大阪府における統計処理の精度が低下するという不都合が生じるが、本実施例では、(d)パターンの情報は、(e)パターンもしくは(f)パターンとして送信されるので、統計処理精度の低下を回避することができる。
更に、(f)パターンは、不適正な情報に対して使用する匿名化符号(△)と適正な情報の匿名化符号(●×)と区別しているので、(△)表示を抽出することで無効となる数を容易に算出することができる。
第2の区域60での処理が終了すると、結果は分析サーバ61に格納され、この分析サーバ61から第3の区域70のクラウドデータベースサーバ71に送信(移送)されて保管される。この第3の区域は、第2の区域から独立した区域で、クラウドベータベースサーバ71の管理も別に管理される。
このように研究機関の処理結果を保管する区域を独立させることで、処理結果を第3の区域に送信した後、第2の区域60の分析サーバ61の処理結果を消去することができる。
また、第2の区域の分析サーバ61と第3の区域のデータベースサーバ71を一方向性の転送路で繋ぐことで第3の区域から第2の区域への情報の逆流やアクセスを禁止することもできる。研究処理の結果は、第3の区域70から利用者80に公開される。
このように匿名化情報の処理と保管を別区域に分けることで、処理結果の利用者が、秘匿性の高い処理を実行する研究機関を直接アクセスすることがなくなり、研究機関の機密性を向上することができる。また、研究機関では、処理結果を長期保管する必要がないので、サーバ容量を研究の都度スケールアウトする必要もなくなり、非常に経済的である。さらに、研究機関で取り扱われる情報は、匿名化済みの情報だけでよいので、必要以上に強固なセキュリティ対策を施さなくてもよくなるので、委託可能な研究機関や専門機関の幅を広げることができるという利点がある。
図8は、3つの区域において取り扱われる情報と、その流れ及び保存を示す状態図である。
前述したように第1の区域50では、匿名化前の情報を匿名情報生成部20で匿名化して、匿名化後の情報として第2の区域60に転送する処理が行われる。第2の区域60では、受信した匿名化後の情報に対して解析、統計、分類、抽出等の各種処理が行われる。処理結果は、活用情報として第3の区域70に転送され保存される。
かかる情報運用システムでは、匿名化された情報が取り扱われるため、匿名化前の情報と匿名化後の情報とを紐づけておく対応表が必要とされる。また、場合によっては、外部の研究機関や専門機関へ提供する情報の条件、提供者、アクセスログ等の管理情報をトレーサビリティ情報として保存しておく必要もある。しかしながら、これら対応表や管理情報は第三者に知られてはならない情報であるにも関わらず、匿名化することも出来ない情報である。
そこで、本実施例では、対応表や管理情報を匿名化前の元情報と併せて第3の区域に保存するようにしている。第3の区域70では、情報管理のための専門的なセキュリティ対策が施される。例えば、予め登録された者だけに対応表や管理情報や元情報の閲覧を許可したり、編集を許可するようにすることで、許可された者だけが、第3の区域に保存されている情報を参照して匿名化された不適正な情報を修正したり、不足情報を追加したりすることが可能となる。これらの対応表や元情報は、第1の区域から直接第3の区域に送信するようにしても良いし、あるいは、第2の区域を経由して第3の区域に転送しても良い。
いずれにせよ、匿名化済み情報と対応表とが送信の過程で併存しないようにしておくことが望ましい。
さらに、修正・加工された情報は、再度第1の区域から同様の手順で第2の区域に送信される。このようにして、情報の流れが一方向に制限されたシステムにあっても、匿名化と情報の信頼性を維持したまま情報の追加、修正を可能とすることができる。