JP2018170036A - ファイル共有ネットワークにおけるスニペット照合 - Google Patents

ファイル共有ネットワークにおけるスニペット照合 Download PDF

Info

Publication number
JP2018170036A
JP2018170036A JP2018125864A JP2018125864A JP2018170036A JP 2018170036 A JP2018170036 A JP 2018170036A JP 2018125864 A JP2018125864 A JP 2018125864A JP 2018125864 A JP2018125864 A JP 2018125864A JP 2018170036 A JP2018170036 A JP 2018170036A
Authority
JP
Japan
Prior art keywords
private
file
snippet
public
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018125864A
Other languages
English (en)
Other versions
JP6749367B2 (ja
Inventor
ボバック,ロバート,ジェイ
J Boback Robert
チョプラ,アンジュ
Chopra Anju
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kroll Information Assurance LLC
Original Assignee
Kroll Information Assurance LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kroll Information Assurance LLC filed Critical Kroll Information Assurance LLC
Publication of JP2018170036A publication Critical patent/JP2018170036A/ja
Application granted granted Critical
Publication of JP6749367B2 publication Critical patent/JP6749367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0272Virtual private networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6272Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database by registering files or documents with a third party

Abstract

【課題】プライベート・ファイルのコンテンツの全部又は一部がパブリック・ネットワークに漏洩したか否かを判定するシステムを提供する。【解決手段】システムは、スニッパ、マッチャー及びポスト・マッチを備える。スニッパは、種々のファイルのコンテンツを単語のストリームとして抽出して可変サイズの複数の回転チャンクであるスニペットに分解する。マッチャーは、全てのプライベート・ファイルの全てのスニペットのハッシュを全て読み込む。そして、ファイル共有ネットワーク上にある各パブリック・ファイルの一組のスニペット及びハッシュを生成する。得られたパブリック・ファイルのハッシュはプライベート・ハッシュのマップと比較され、スニペット一致ファイルが得られる。ポスト・マッチ・ツールは、全てのスニペット一致ファイルを検査し、連続した一致スニペットを一致ワードの連続ブロックとして集約し、その結果をデータベースに保存する。【選択図】図1

Description

関連出願の相互参照
本願は、2012年9月7日に出願された米国仮特許出願第61/697,916号に基づく優先権、及びその利益を要求する。
技術分野
本願は、特定の情報がコンピュータ・ネットワークにおいて共有されているか否かを判定することに関する。
背景情報
ファイル共有とは、コンピュータ・プログラム、マルチメディア(音声、画像、及び映像)、文書、又は電子ブックのようなデジタル記憶された情報へのアクセスの配布、又は提供の実施である。共有メカニズムには、集中サーバ、ワールド・ワイド・ウェブベースのハイパーリンクされた文書、又は、ファイル共有ネットワークの使用などがある。ネットワークの共有は、ピア・ツー・ピア技術、ビットトレント技術、ファイル・ホスティング・サービス等のような、種々の形で実施される場合がある。
ファイル共有は、依然として、最も普及しているインターネット・アプリケーションの1つとしての地位にある。数千又は数百万のユーザからのリソースを貯蔵する能力により、ファイル共有は、多数のアプリケーションにとって、非常に魅力的なものとなっている。しかしながら、情報へのそうした便利かつ迅速なアクセス能力が、リスクを伴わない訳ではない。特に、プライベート・ファイルを誤って又は知らずに共有したユーザは、個人情報その他の機密情報が、世界中の他のユーザによって即座にダウンロードされたことに気付くことがある。
大半の企業は、社会保障番号、クレジットカード及びアカウントの情報、並びに医療及び他の個人データのような、自分たちの従業員及び顧客に関する機密情報を収集し、保管している。企業の多くは、この情報を不慮の開示から保護するための法的義務を有している。もしそのような情報が間違った者の手に渡ったら、それは、不正行為及び識別情報盗難の原因となり得る。P2Pファイル共有ソフトウェアを使用している人々は、不慮によりファイルを共有する羽目になることがある。そうした人々は、機密情報を有するドライブ及びフォルダの共有を誤って選択することがあり、また、そうした人々は、プライベート・ファイルを共有ドライブ又はフォルダに誤って保存したり、または、プライベート・ファイルを他人が入手できる状態にしてしまうことがある。さらに、ウィルス及び他のマルウェアは、共有のために設計されたドライブ及びフォルダへのアクセス権に変更を加えることがあり、これもまた、プライベート・ファイルを危険な状態に置くことがある。その結果、自分達の音楽ファイルを意図したように単純に共有する代わりに、税金記録、個人医療記録、作業文書等のような他の機密情報が、ファイル共有ネットワーク上の大循環を介して入手可能な状態になってしまうことがある。
こうしたリスクは、企業にとってのみならず、エンドユーザにとっても、非常に高い。例えば、米国連邦取引委員会(FTC)は最近、従業員の機密個人情報をピア・ツー・ピア(P2P)ネットワーク上で共有可能にすることによって不法に暴露した複数の会社に対し、和解を告知した。これらの強制措置は、データ・プライバシー及びセキュリティ・ポリシーの不足、又は不在の重大な裏の意味を指摘している。
組織における機密データを探索し、そうした機密データに対し、ファイル共有ネットワークを介してどのような種類のアクセスが許可されているかを判定することが可能な種々の有料の監査サービスがある。政府及び軍の最終用途において、それは、データの機密性を「秘密」、「極秘」等のように分類するための詳細な規格を使用することがある。こうした分類は、誰がその情報に対するアクセス権を有することができるか、及び、情報を不慮の開示から保護するためにどのようなレベルのセキュリティ保証を実施しなければならないかを、詳述している。
ファイル共有ネットワーク上の機密情報を含むプライベート・ファイルを探索しようとするときに、幾つかの問題が発生する。情報の所有者又は管理者は、自分達のファイルが共有されているか否かを知ることを望んでいるが、さらに、ファイルの断片が共有されているか否かまでも知ることを望んでいる。例えば、クレジットカード番号の長いリストは、たとえ少数のクレジットカード番号が暴露された場合でも、危険に曝されることがある。また、機密情報は、他の情報と組み合わされて、難読化される場合がある。さらに、機密コンテンツは、複数のファイルに分割される場合がある。さらに、プライベート・ファイルは、機密扱いの情報、又は他の極秘情報を含むことがあるが、それでも情報の管理者は、情報を完全に開示することなく、自分達が商業サービスを利用して、それらの情報を探索できることを望んでいる。
概要
本開示によれば、プライベート・ファイルを、パブリック・ネットワーク(例えば、ウェブサーバ、P2Pネットワーク、BitTorrent(ビットトレント)など)を介して入手できる種々のファイルと照合し、プライベート・ファイルの情報コンテンツが漏洩したか否かを判定することが可能となる。一組のツールが、プライベート・ファイルから得られた情報の断片、又はプライベート・ファイルに関する情報の断片に作用し、それによって、処理スループットの向上、異なるタイプのコンテンツを処理する能力、及び、情報自体を開示することなく機密情報を検索する能力といった多数の利点が得られる。
具体的実施形態としては、プライベート・ファイルの断片を、ファイル共有ネットワーク上で入手できる種々のパブリック・ファイルと照合する技術が提供される。プロセスは、例えば、少なくとも、スニッパ・ツール(Snipper Tool)、マッチャー・ツール(Matcher Tool)、及びポスト・マッチ・ツール(Post Match Tool)を利用する。
スニッパ・ツールは、種々のファイルのコンテンツをワード(単語)のストリームとして抽出し、そのストリームを、スニペットと呼ばれる可変サイズの複数の回転チャンクに分解する。例えば、50ワードのストリームにおいてスニペットサイズが25である場合、スニッパ・ツールは、50ワードのストリームを、各スニペットが25ワード長を有する26個のスニペットに分解する。その後、各スニペットについてハッシュを計算する。
マッチャー・ツールは、全てのプライベート・ファイルについて生成された全てのスニペットについて計算されたハッシュを全て読み込む。そして、ファイル共有ネットワーク上にある各パブリック・ファイルについて、上で説明した同じスニペット・プロセスを使用して、一組のスニペット及びハッシュが生成される。照合を実施するために、結果として得られたパブリック・ファイルのハッシュが、プライベート・ハッシュのマップと比較される。そして、一致ファイルのリストのような、照合プロセスの結果が、データベース等に保存される。
ポスト・マッチ・ツールは、結果として得られた一致ファイルの全てを検査し、連続した一致スニペットを一致ワードの連続ブロックとしてアグリゲート(集約)する。その後、結果は、データベース等に保存される。その後、ファイル間の特定の一致に関する、より詳細な情報を得るために、連続した一致ブロックは、一致評価ユーザ・インタフェース(ヒューマン・アナリストに提示されることがある)を介して、検査されることがある。
特定の実施形態において、かかるユーザ・インタフェースによれば、ヒューマン・アナリストは、1以上のファイル共有ネットワーク上にあるパブリック・ファイルのディレクトリに対し、照合/スニペット・プロセスを開始することができる。マッチャーは、それらのパブリック・ファイルに対して同じスニペット・プロセスを実施し、その後、その結果から得られた概要情報をデータベースに保存する。
スニペット一致評価ユーザ・インタフェースによれば、アナリストはさらに、2つのファイル間の一致を検査することができる。当該ユーザ・インタフェースは、例えば、左側にプライベート情報を表示し、右側にパブリック情報を表示する形で、一致の横並びビューを表示することができる。一致ファイルのリストは、スクロール可能なリストとして表示される場合がある。ユーザが、あるプライベート及びパブリック・ファイルを選択すると、例えば発見された一致の割合の概要のような、一致ビューが表示される場合がある。赤、緑、及び黄のような色、又はそれらの不在を使用して、一致の程度を示すことができる。
また、照合プロセスは、一致スニペットを全て検査し、一致ファイル間における連続一致セクションを判定することができる。各ブロックのプレビューは、スクロール可能なリスト等の形で画面の一部に表示されることができる。ブロックは、ソートされることができ、例えば最大数のファイルを有していることが判明した一致ブロックが最初の順番となるような順番で、ソートされることができる。
実施形態にさらに装飾を施してもよい。例えば、プライベート・ファイルが極秘情報を含む場合、プライベート・ファイルの所有者にとって、プライベート・ファイルの完全なコピーを外部のサービス・プロバイダーに提供することは、望ましくない場合がある。所有者は、代わりに、サービス・プロバイダーが探し求めているプライベート・ファイルの種々の断片のみを提供することがあり、又は、ハッシュ情報のみをツールに提供することさえもある。
スニペットサイズは、アナリストにより決定されてもよいし、経験則により決定されてもよい。例えば、どの情報が最も重要であるかに重点を置くために、他の経験則が、自動プロセス又は手動プロセスのいずれかによって適用される場合がある。
下記の発明の説明では、添付の図面を参照する。
プライベート情報がパブリック・ネットワークに漏洩したか否かを判定するシステムの高レベルアーキテクチャを示す図である。 スキャナー・コンポーネントをさらに詳しく示す図である。 パブリック/プライベート・スキャン・テーブルの例を示す図である。 スプーラ・コンポーネントを示す図である。 スプーラ・バッチ・テーブルの例を示す図である。 スニッパ・コンポーネントを示す図である。 スニッパ・バッチ・テーブルの例を示す図である。 ファイルを「スニッピング」するための抽出プロセスを示す図である。 マッチャー・コンポーネントを示す図である。 一致ファイルに関して記憶された概要情報の例を示す図である。 総合ファイル一致レポートを示す図である。 ファイル一致レポートを示す図である。 分類ツールを示す図である。 横並び一致評価ツールを示す図である。 一致ブロック評価ツールを示す図である。
概要
本システムは、機密情報を含む種々のプライベート・ファイルを、パブリック・ネットワークからダウンロードされた種々のファイルと照合するための一組のデータ処理ツールを提供する。これらのツールは、プライベート・ファイルのコンテンツの全部又は一部がパブリック・ネットワークに漏洩したか否かを判定する。一組のツールは通常、少なくとも、スニッパ、マッチャー、及びポスト・マッチ要素を含む。
スニッパ
スニッパ・ツールは、種々のファイルのコンテンツをワードのストリームとして抽出し、そのストリームを、可変サイズのワードの複数の回転チャンク(すなわち、「スニペット」)に分解する。例えば、所与のスニペットサイズが25であり、ストリームが50ワードからなる場合、スニッパは、50ワードを、下記表1のように25ワード長(長さ)の26個のスニペットに分解する:
Figure 2018170036
スニペットの後の照合を容易にするために、各スニペットについて、ハッシュが計算される。
マッチャー
マッチャー・ツールは、全てのプライベート・ファイルについて生成された全てのスニペットについて計算された全てのハッシュを、メモリベースのマップに読み込む。その後さらに、上で説明した同じスニペット・プロセスを使用して、各パブリック・ファイルについて、一組のスニペット及びハッシュが計算される。
照合を実施するために、パブリック・ファイルのハッシュが、プライベート・ハッシュのマップと比較される。その後、照合プロセスの結果(例えば、一致ファイルの完全なリスト)が、データベースのような持続性記憶装置に記憶される。
ポスト・マッチ
ポスト・マッチ・ツールは、全ての保存された一致ファイルを検査し、連続した一致スニペットを、一致ワードの連続ブロックとして集約する。このプロセスの結果は、(データベース、又はファイルシステムに).matchファイルに保存される。その後、連続した一致ブロックは、一致評価によって使用される。ファイル間の特定の一致に関する、より詳細な情報を得るために、ユーザ・インタフェースは、一致情報をアナリストに提示することができる。
アーキテクチャ
図1は、高レベルシステムアーキテクチャを示している。
スキャナー・コンポーネントは、残りのコンポーネントによる処理に備えて、ファイルシステムから、プライベート及びパブリックの、種々のファイルを収集する役割を有する。プライベート・ファイルは、システムのユーザから得られる場合もあれば、顧客が、他者のためにシステムを運用しているサービス・プロバイダに提出する場合もある。プライベート・ファイルは通常、機密プライベート情報を含む人間が読める形の文書を表すデジタル符号化情報を含み、ワード・プロセッサ、スプレッドシート・プログラム、スライド表示プログラム、データベース、ウェブ・ブラウザ、実行プロセス出力キャプチャのようなアプリケーション・プログラムによって、又は、出力デジタルファイルを生成する類似のアプリケーションによって生成される場合がある。
パブリック・ファイルは、パブリック・ファイル・ネットワークを検索することにより探索される。パブリック・ファイル・ネットワークには、ファイル・サーバ、ウェブ・サーバ、ピア・ツー・ピア(P2P)ネットワーク、BitTorrent(ビット・トレント)・ネットワーク、及び、情報の共有を許容する任意の他の技術が含まれる得る。他のプロトコル・エンジン・マシン(ここでは図示せず)は、システムによる後の使用に備えて、多数のパブリック・ファイルを探索し、記憶するために、P2P、BitTorrent、及び、他のネットワークを絶え間なくスキャンし続ける。
スプーラは、スキャナー・コンポーネントにより提供されたファイルを処理する。スプーラは、各ファイルを中間準備領域にコピーし、ファイルのSHA−1(又は他のハッシュ)を計算する。SHA−1が計算された後、ファイルは、スプール・ハッシュ・ディレクトリにおいてSHA−1ベースの名前にリネームされる。スプーリングされた各ファイルについて、1つのエントリがデータベースに追加される。
その後、スニッパは、スプーラにより提供された各ファイルのコンテンツをワードのストリームとして抽出し、それらのワードを、一組の回転スニペットに分解し、各スニペットについてハッシュを計算する。関連するハッシュ及びワードが、ファイルシステムに書き込まれ、概要情報が、データベースに書き込まれる。
マッチャーは、各プライベート・ファイルについてのハッシュを、各パブリック・ファイルについてのハッシュと比較することにより、一致を計算する。それらの一致一式の結果は、データベースに書き込まれる。
ポスト・マッチ・コンポーネントは、各一致ファイルに関する詳細を収集し、一致スニペットを一致連続ブロックとして集約し、経験則を実施して、それらの連続ブロックを自動的に分類する。
図1のアーキテクチャは、下記を実現するためのものである。
高スループット。高スループットは、並列に動作する複数のプロセッサにより得られる。新たなファイルをスキャンしながら、以前にスキャンされたファイルをスプーリングすることができる。新たなファイルをスプーリングしながら、以前にスプーリングされたファイルをスニッピングすることができる。新たなファイルをスニッピングしながら、以前にスニッピングされたファイルを照合することができる。新たなファイルを照合しながら、以前に照合されたファイルをポスト・マッチャーにより処理することができる。メモリの大規模な使用、特にマッチャー・コンポーネントにおけるメモリの大規模な使用もまた、最高可能スループットに貢献する。
スケーラビリティ。各プロセッサは、作業のバッチを処理する。各プロセスのためのスレッドの数は、コンフィグレーションにより設定され、プロセスのためのスレッド数を増やすことによって、及び/又は、複数のマシンを使用してさらに別のプロセッサを動作させることによって、スケーリングが得られる。
スキャナー(図2)
スキャナー・コンポーネントは、残りのコンポーネントによる分析に備えて、ファイルを収集する役割を有する。ディレクトリからファイルを収集するために、アナリストは、コンフィグレーション・グラフィカル・ユーザ・インタフェース(GUI)を使用して、ディレクトリをスキャナー・ディレクトリのリストに追加する。
スキャナーは、設定されたディレクトリ[SourceF2f]ごとに1つのスレッドを生成する。各スキャナー・スレッドは、新たなファイル、又は変更されたファイルを探して、自分に割り当てられたディレクトリをスキャンする。あるファイルがプライベート/パブリック・スキャン・ファイル・テーブルにも、パブリック/プライベート・ソース・ファイル・テーブルにも存在しない場合、そのファイルは、新しいものとみなされる。スキャニング・プロセスは、パブリック/プライベート・スキャン・ファイル・テーブル(図3)にエントリを追加する。スプーラがスキャンされたファイルをスプーリングする場合、スプーラは、パブリック/プライベート・ソース・ファイル・テーブルにエントリを追加する。
最終アクセス時刻属性が、上記テーブルに保存され、ファイルが変更されたか否かを判定するために使用される。変更されたファイルは、スキャナーの次回の実行時にスキャンされ、別のエントリが、スキャン・ファイル・テーブルに追加されることになる。
スプーラ(図4)
スプーラ・コンポーネントは、残りのコンポーネントによる分析に備えて、スキャン・ファイルを収集する役割を有する。収集すべきファイルは、スキャナー・コンポーネントによって保存されたリストのファイルである。プライベート・スキャン・テーブル及びパブリック・スキャン・テーブルからの全てのファイルが処理される。
スプーラは、プライベート・スキャン・ファイル・テーブル若しくはパブリック・スキャン・ファイル・テーブルからのファイルのバッチ[スプーラ・バッチ・テーブル](図5)、又は、P2Pプロトコル・エンジン若しくは他のプロトコル・エンジンからのファイルのバッチ[P2Pスプーラ・バッチ]を処理する。スプーラは、各ファイルを中間準備領域にコピーし、ファイルのSHA−1を計算する。SHA−1が計算された後、ファイルは、スプーラ・ディレクトリにおいてSHA−1ベースの名前にリネームされる。各ファイルについて、1つのエントリがプライベート/パブリック・ソース・ファイル・テーブルに追加され、そのファイルが唯一のもの(重複しないもの)であれば、1つのエントリが、プライベート/パブリック・ソース・ハッシュ・テーブルに追加されることになる。
スニッパ(図6)
スニッパ・コンポーネントは、スプーラ・コンポーネントによる分析のために収集されたファイルを処理する役割を有する。ファイルがシステムに正しくスプーリングされた後、スニッパは、各ファイルのコンテンツを抽出し、コンフィグレーションにより設定されたスニペット・ハッシュ・ディレクトリ及びスニペット・ワード・ディレクトリによる指示に従って、関連するハッシュ及びワードをファイルシステムに書き込むことになる。
スニッパは、プライベート/パブリック・ソース・ハッシュ・テーブルからのファイルのバッチ[スニッパ・バッチ・テーブル](図7)を処理する。スニッパは、バッチ中の各プライベート/パブリック・ソース・ハッシュ・ファイルについて、ハッシュ・ファイル及びワード・ファイルを生成する。また、バッチ中の各プライベート/パブリック・ソース・ハッシュ・ファイルについて、1つのエントリを、プライベート/パブリック・スニペット・ファイル・テーブル・ファイルに追加する。
もしバッチが、正しくスニッピングされなかったファイルを含む場合、正しくスニッピングされなかった各ファイルについて、1つのエントリが、故障プライベート/パブリック・スニペット・ファイル・テーブルに追加される。
抽出(図8)
ファイルを「スニッピング」する際の最初のステップは、各ファイルから、コンテンツをワードのストリームの形で抽出することである。書式設定及び句読点は、全て除去される。
スニッピング・プロセスの最初のステップは、抽出である。抽出器は、スプールファイルのコンテンツを読み出し、ワードのストリームを生成する。その後、そのワードのストリームは、「スニペット」と呼ばれる、連続したワードの複数の小さなリストに分離される。「スニペットサイズ」は、「スニペット」が幾つのワード含むかを決定する。最も完全な一致を確保するために、ワードのストリームは、複数の「回転スニペット」に分離される。回転スニペットは、下記表1のように1ワードだけオフセットされた連続したワードの小さなリストである。
Figure 2018170036
照合プロセスを最適化するために、各回転スニペットについて、ハッシュが計算される。ハッシュは、.hashファイルに保存され、ワードの完全なリストは、.wordsファイルに保存される。各ファイルに関する概要情報は、データベースに書き込まれる。
マッチャー(図9)
マッチャー・コンポーネントは、スニッパ・コンポーネントにより生成されたハッシュを照合する役割を有する。
マッチャーは、プライベート・スニペット・ファイルからハッシュを読み込む。マッチャーにより使用されるメモリの量を管理するために、マッチャーは、ハッシュ限度設定に基づいて、プライベート・スニペット・ファイル・ハッシュを複数のバッチに分解する。
プライベート・ファイル・ハッシュが読み込まれた後、パブリック・ファイルが、バッチとして収集される。マッチャーは、一度に複数のパブリック・ファイルの1つのバッチを処理しながら、そのバッチ中の各パブリック・ファイルのハッシュを読み込み、それらのハッシュを、以前に読み込まれたプライベート・ファイル・ハッシュと比較する。一致ファイルの各組に関する概要情報が、データベース(図10)に保存される。
ポスト・マッチャー
ポスト・マッチ・コンポーネントは、マッチャー・コンポーネントにより検出された一致ファイルに対し、さらに別の処理を実施する役割を有する。ポスト・マッチ・プロセスは、プライベート・ファイルとパブリック・ファイルとの間における連続した一致スニペットを、連続ブロックとして集約する。各一致したプライベート及びパブリック・ファイルについて、1以上の連続ブロックが決定される(下記表3及び表4の例を参照)。
Figure 2018170036
Figure 2018170036
分類
分類は、照合の処理のためのワークフローを推進するために使用される。例えば、高優先順位の一致は、直ちに識別され、処理されることがあり、また、低優先順位の一致は、その後の処理から除外されることがある。一致の分類は、連続ブロックの各々にタグ(複数可)を割り当てることから始まる。Darwin製品は、照合結果の処理のための種々のレポート及びGUIを提供している。大半のレポート及びツールは、関連分類を有する一致を削除したり、表示したりするためのフィルタリング・メカニズムを備えている。経験則(下記参照)を使用して、連続ブロックに分類を自動的に割り当ててもよい。
照合に備えて全ての連続ブロックにタグを割り当てた後、各ブロックに対する分類を、特定の分類の拡大プロパティ(全て、何れか、無し)に基づいて、一致レベルまで拡大してもよい。
例えば、「無視」分類のための拡大プロパティは、「全て」である。もし一致に関する「全て」の連続ブロックに(プライベート・ファイルとパブリック・ファイルの両方の視点0から)「無視」タグがタグ付けされていた場合、拡大プロパティ「全て」は、ポスト・マッチャーに対し、その一致全体に「無視」タグを単に追加することを命じる。
「高優先順位」分類のための拡大プロパティは、「何れか」である。もし一致に関する連続ブロックの「何れか」に(プライベート・ファイルとパブリック・ファイルの両方の視点から)「高優先順位」タグがタグ付けされていた場合、拡大プロパティ「何れか」は、ポスト・マッチャーに対し、その一致全体に「高優先順位」タグを追加することを命じる。
拡大プロパティ「無し」は、ポスト・マッチ・プロセスに対し、分類についての拡大を行わないことを命じる。
経験則
一致を自動的に分類するために、ポスト・マッチ・プロセッサによって使用することが可能な多数の経験則がある。例えば、反復シーケンス経験則は、反復シーケンスとみなすことができる任意の一致に対し、「反復シーケンス」タグ及び「無視」タグを追加する。電子メール署名経験則は、電子メール署名とみなすことができる任意の一致に対し、「電子メール署名」タグを追加する。
一致評価
本システムは、照合結果を評価する際にアナリストを補助するための多数のレポート及びツールを提供する。ツールは、以下に列挙される。
総合ファイル一致レポート(図11)
このレポートは、ファイルが互いの完全なコピーであること(すなわち、バイナリレベルでの一致)を示している。
ファイル一致レポート(図12)
このレポートは、一致スニペット(すなわち、少なくとも1つの一致スニペット)を含む全てのファイルを示している。
分類ツール(図13)
アナリストは、分類ツールを使用して、ブロックに種々のタグを事前に割当てることができる。例えば、アナリストは、法的免責事項、一般的ヘッダー及びフッター、並びに挨拶文などに対し、「無視」タグを割り当てることができる。アナリストは、より重要な一致結果に重点を置くために、UI及びレポートの中から、「無視」タグがタグ付けされた一致を簡単に除去し、又は抑制することができる。
横並び一致評価ツール(図14)
アナリストはさらに、横並び一致評価ツールを使用して、連続ブロックに分類を割り当てることができる。
一致ブロック評価ツール(図15)
アナリストは、一致ブロック評価ツールを使用して、新たな分類を定義することができるだけでなく、一致する連続ブロックに分類を割り当てることもできる。
絶え間ない向上
最初の照合プロセスの結果として、少数のスニペットにのみ一致する多数の一致が、得られる場合がある。一致の大半は、一般的句、ヘッダー、フッターなどを含むことから、「誤検知」又は「ノイズ」とみなされることがある。アナリストがそれらの一致(すなわち、連続ブロック)に「無視」分類をタグ付けした場合、2つのファイル間の一致においてそのブロックが現れるたびに、ブロックは、その分類を有している。「無視」分類は、分類の拡大プロパティに基づいて、一致にタグ付けされる場合もある。時間の経過とともに、大多数の「ノイズ」は、「無視」タグによって事前分類されることになる。照合結果を処理するアナリストは、より多くの「ノイズ」が除去されることに従って、より大きな割合の真の一致を処理することになる。
照合処理の効率は、絶え間なく向上し続けている。アナリストは、分類ツールを使用して最も普及している一般的句、ヘッダー、フッターなどを識別することにより、効率の獲得の点において一歩先を行くことができる。同ツールを使用すれば、高優先順位ブロックを識別し、高優先順位ブロックを含む一致(「ゴールデン・スニペット」)の処理を早めることができる。
総合ファイル一致レポート(図11)
このレポートは、各一致ファイルについて、フル・ファイル・パス、及びsha1を示している。
ファイル一致レポート(図12)
このレポートは、各一致ファイルについて、フル・ファイル・パス、ファイル・サイズ、ワード、及び一致割合を示している。
分類ツール(図13)
分類ツールは、アナリストによって選択されたファイルを読み込み、そのファイルのコンテンツをワードのストリームとして抽出する。その後、アナリストは、コンテンツから一連のワード又はスニペットを選択することができる。コンテンツのブロックを選択した後、アナリストは、1以上の分類をそのブロックに割り当てることができる。また、アナリストは、必要に応じて、新たな分類を追加することもできる。
横並び一致評価ツール(図14)
横並び一致評価ツールによれば、アナリストは、2つのファイル間における一致を検査することができる。一致は、HTMLビューワにおいてハイライト(強調表示)される。UIは、プライベート情報を左側に表示し、パブリック情報を右側に表示する形で、一致の横並びビューを表示する。
一致するプライベート・ファイルのリストは、スクロール可能なリストの形で画面の左上に表示される。選択されたプライベート・ファイルに一致するパブリック・ファイルのリストは、スクロール可能なリストの形で画面の右上に表示される。左側のリストからプライベート・ファイルを選択することによって、一致するパブック・ファイルの右側への追加、及び最初の一致するパブリック・ファイルの自動選択が行われる。
ユーザがプライベート及びパブリック・ファイルを選択すると、ファイルのリストの直ぐ下に表示された一致概要HTMLビュー、及び画面の下部に表示された一致の詳細が、更新される。一致概要HTMLビューは、一致ファイルの概要を示している。各文字は、ファイル中の1つのスニペットを表している。もしスニペットが、対応するファイル中のいずれの他のスニペットとも一致しない場合、文字「.」が表示される。もしスニペット全体が、対応するファイル中のあるスニペットと一致した場合、文字「*」が表示される。もしスニペットの一部が、スニペット中の複数のワードの一定の割合に一致した場合、その一致は、下記表5のように概略表示される。
Figure 2018170036
一致の詳細は、プライベート及びパブリック・ファイルから抽出されたワードのリストを示している。連続した一致の各ブロックは、緑色に強調表示される。1つのブロックは、1以上の一致スニペットである。アナリストによる一致の検討を補助するために、連続した一致スニペットは、1つのブロックにまとめられる。現在のブロックは、黄色に強調表示される。不一致ワードは、何も強調表示されない。ユーザは、画面の下部にあるボタン(すなわち、最初、前、次、最後)を使用して、一致間を移動することができる。「開く」ボタンにより、ユーザは、最初から備わっているエディタ(例えば、.doc及び.docxファイルのためのMS/Word)を使用して、対応するファイルを見ることができる。
アナリストはさらに、「タグ」ボタンを使用して、強調表示されたブロックに種々の分類タグを割り当てることができる。
一致ブロック評価ツール(図15)
一致ブロック評価ユーザ・インタフェースにより、アナリストは、照合プロセス中に発見された連続した一致ブロックを検査することができる。各ブロックのプレビューが、スクロール可能なリストの形で画面の左上に表示される。ブロックは、一致カウントに応じた順序にソートされる(すなわち、最大数のファイルにおいて発見された一致ブロックが、最初に表示されるようにソートされる)。一致チェックボックスは、現在のブロックが一致ファイル中で発見された回数を示している。
アナリストは、ブロックのリストを特定の分類を含むブロックに限定するために、画面の右上部にあるチェックボックスを使用して、分類タグにより、ブロックのリストをフィルタリングすることができる。分類は、画面の右下部にある種々の分類エリアを使用して、ブロックに割り当てることができる。ブロックに分類を割り当てるために、アナリストは、分類の横にあるチェックボックスをチェックする。ブロックには、任意数の分類を割り当てることができる。追加ボタンにより、アナリストは、さらに別の分類を作成することができる。
無視分類は、一致を無視すべきことを示すために使用することができる特殊な分類である。あるブロックが無視分類を有している場合、そのブロックは、「ブロック詳細」セクションにおいて、画面の左下部に黄色で強調表示されることになる。
アナリストは、画面の経験則セクションにおいて1以上の経験則を選択し、「適用」ボタンをクリックすることにより、一致ブロックの全てに対して、経験則を適用することができる。例えば、反復シーケンス経験則は、各ブロックに、ワードの反復シーケンスがあるか否かを検査し、ブロックが反復ワードのみを含む場合、そのブロックに無視分類を追加する。
高優先順位分類
あるファイルが非常に重要な一組のワードを含む場合、アナリストは、適当な人材が如何なる一致にも気付くようにするために、この「ゴールデン・スニペット」に、高優先順位タグをタグ付けすることができる。また、ユーザは、重要でないスニペットについては、無視分類をスニペットにタグ付けすることができる。
無視分類
以前に「無視」分類がタグ付けされた新たな連続ブロック一致には、「無視」分類がタグ付けされることになる。アナリストはさらに、任意の連続ブロックに「無視」分類をタグ付けすることもでき、そのようなブロックをUI及びレポートから除去することができる。
アナリスト指定分類
アナリストは、一致ブロック評価ツールにより、新たな分類を追加することもできる。こうした分類は、照合プロセスによって発見された任意の一致ブロックへのタグ付けに使用されることがある。
分類によるフィルタリング
アナリストは、1以上の分類についてのフィルタを有効化することによって、表示されたブロックのリストをフィルタリングすることができる。
変形実施形態
上に記載した例示的実施形態は、多数の異なる態様で実施される場合がある。一部の事例において、本明細書に記載される種々の「データ・プロセッサ」はそれぞれ、中央処理装置、メモリ、ディスク又は他の大容量記憶装置、通信インタフェース(複数可)、入出力(I/O)デバイス(複数可)、及び他の周辺機器を有する、物理的又は仮想汎用コンピュータによって実施される場合がある。汎用コンピュータは、複数のプロセッサに転換され、例えば、種々のソフトウェア命令をプロセッサに読み込み、それらの命令を実行し、説明した機能を実行することにより、上で説明した処理を実行する。
当該技術分野において知られているように、そのようなコンピュータは、システム・バスを含む場合がある。ここで、バスとは、コンピュータ又は他の処理システムのコンポーネント間においてデータ転送に使用される一組のハードウェア・ラインである。バス又は複数のバスは、本質的には、コンピュータシステムの異なる要素(例えば、プロセッサ、ディスク・ストレージ、メモリ、入出力ポート、ネットワーク・ポートなど)を接続し、それらの要素間における情報の転送を可能にする共有路(複数可)である。1以上の中央演算処理装置(CPU)がシステム・バスに取り付けられ、コンピュータ命令の実行を行う。また、システム・バスには通常、種々の入出力デバイス(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカーなど)をコンピュータに接続するためのI/Oデバイス・インタフェースも取り付けられる。ネットワーク・インタフェース(複数可)により、コンピュータは、ネットワークに取り付けられた種々の他の装置に接続することができる。メモリは、実施形態を実現するために使用される種々のコンピュータソフトウェア命令及びデータのための揮発性記憶を提供する。ディスク又は他の大容量記憶装置は、例えば、本明細書に記載される種々の手順を実施するために使用される種々のコンピュータソフトウェア命令及びデータのための不揮発性記憶を提供する。
したがって、実施形態は一般に、ハードウェアで実施されても、ファームウェアで実施されても、ソフトウェアで実施されても、それらの如何なる組み合わせで実施されてもよい。
上で説明した処理を実行するコンピュータは、クラウド・コンピューティング構成を成すように配備される場合がある。クラウド計算機構成は、1以上の物理及び/又は仮想データ処理マシンが、最小限の管理労力及びサービス・プロバイダーとの情報交換で迅速に作成し、リリースすることが可能な設定可能な計算リソース(例えば、ネットワーク、サーバ、ストレージ、アプリケーション、及びサービス)の共有プールを、便利なオンデマンド・ネットワーク・アクセス・モデルによって利用できるようにする。そのようなクラウド・コンピューティング・デプロイメントは、複数のユーザが、コンピューティング・リソースを共有市場の一部としてアクセスすることを可能にするので、妥当であり、かつ一般に好ましい。複数のユーザからの要求を中央の場所に集約することによって、持続可能な、及び/又は中央集中化された場所に配置され、かつ、単位当たり最大の可能な効率を達成するように設計された種々のデータ・センターに、クラウド・コンピューティング環境を構築することができる。
特定の幾つかの実施形態において、本明細書に記載される手順、装置、及びプロセスは、本システムのためのソフトウェア命令の少なくとも一部を提供するコンピュータ読取可能媒体(例えば、1以上のDVD−ROM、CD−ROM、ディスケット、テープなど)を含む、コンピュータプログラム製品である。そのようなコンピュータプログラム製品は、当業界において知られている任意の適当なソフトウェア・インストール手順によりインストールすることができる。他の実施形態として、ソフトウェア命令の少なくとも一部は、ケーブル、通信、及び/又は無線接続を介してダウンロードされてもよい。
また、実施形態は、非一時的機械読取可能媒体上に、種々の命令として実施されてもよく、非一時的機械読取可能媒体は、1以上の手順により読み出され、実行される場合がある。非一時的機械読取可能媒体は、情報を機械(例えば、計算装置)で読み取り可能な形で記憶し、又は伝送するための任意のメカニズムを含む場合がある。例えば、非一時的機械読取可能媒体は、リード・オンリー・メモリ(ROM);ランダム・アクセス・メモリ(RAM);磁気ディスク記憶媒体;光記憶媒体;フラッシュ・メモリ・デバイスなどを含む場合がある。
さらに、ファームウェア、ソフトウェア、ルーチン、又は命令は、本明細書では、特定の行為及び/又は機能を実施するものとして記載される場合がある。しかしながら、当然ながら、本明細書に含まれるそのような記載は、単なる便宜的なものであり、そのような行為が、実際には、計算装置、プロセッサ、コントローラ、又は、ファームウェア、ソフトウェア、ルーチン、命令などを実行している他のデバイスから生じることを示しているものと理解すべきである。
また、ブロック図及びネットワーク図は、もっと多くの要素を含む場合があり、別様に構成され又は表現される場合があるものと理解すべきである。しかしながら、また、特定の幾つかの実施形態は、実施形態が特定の形で実施されることを示すブロック図及びネットワーク図、並びにブロック図及びネットワーク図の数を要求する場合があるものと、理解すべきである。
したがって、さらに別の実施形態が、種々のコンピュータ・アーキテクチャ、物理的、仮想的、クラウド・コンピュータ、及び/又は、それらの組み合わせにおいて実施される場合もあり、したがって、本明細書に記載されるコンピュータ・システムは、単なる例示の目的を意図したものであり、実施形態の制限としてのものではない。
本発明の例示的実施形態を以下に列挙する。
1.機密プライベート情報がパブリック・ネットワークに漏洩したか否かを判定するためのシステムであって、
少なくとも1つのプロセッサ、メモリ、及びネットワーク・インタフェースを含むコンピュータと、
アプリケーション・プログラムにより生成された機密コンテンツを含むプライベート・デジタル・ファイルと、
前記プロセッサの前記メモリにおいて実行されるプライベート情報照合プロセスであって、
前記プライベート・デジタル・ファイルを受け取り、
前記プライベート・デジタル・ファイルを処理し、そのスニペット部分を生成し、
パブリック・ネットワークから前記ネットワーク・インタフェースを介して複数のパブリック・デジタル・ファイルを受信し、
前記パブリック・デジタル・ファイルを処理し、そのスニペット部分を生成し、
前記プライベート・デジタル・ファイルの前記生成されたスニペットを、前記パブリック・デジタル・ファイルの前記生成されたスニペットと照合し、前記プライベート・デジタル・ファイルの前記コンテンツの少なくとも一部が、前記パブリック・ネットワークに接続された他のコンピュータにとってアクセス可能であるか否かを判定するように構成された、プライベート情報照合プロセスと
を含むシステム。
2.前記スニペット部分はそれぞれ、デジタル・ファイルの複数の回転チャンクをさらに含み、第1のチャンクを含む第1のスニペット部分は、前記ファイル中の第1の一組のワードを含み、第2のチャンクを含む第2のスニペット部分は、前記ファイル中の第2の一組のワードを含み、前記第2の一組のワードは、前記第1の一組のワード中のワードの全部ではない少なくとも一部、及びそれに加えて前記ファイルからの幾つかの他のワードを含む、1に記載のシステム。
3.前記プライベート情報照合プロセスは、前記プライベート・ファイル、及び前記パブリック・ファイルのハッシュを計算するように構成される、1に記載のシステム。
4.前記プライベート情報照合プロセスは、前記プライベート・ファイル及びパブリック・ファイルの前記チャンクの各々のハッシュを計算するようにさらに構成される、2に記載のシステム。
5.前記プライベート情報照合プロセスは、少なくとも1つのパブリック・デジタル・ファイルの対応する連続スニペットに一致するプライベート・デジタル・ファイルの連続スニペットを、一致ワードの少なくとも1つの連続ブロックとして集約するようにさらに構成される、4に記載のシステム。
6.前記プライベート情報照合プロセスは、ユーザ・インタフェースを介して、プライベート・ファイル、及び一致したパブリック・ファイルの指示を、一致割合のグラフィカル表示を用いて表示するようにさらに構成される、1に記載のシステム。
7.受け取った前記プライベート・デジタル・ファイルは、少なくとも一部の情報を無視して、もとのデジタル・ファイルの前記コンテンツの一部のみを含み、もとのプライベート・ファイルの前記コンテンツの全部を含まない、1に記載のシステム。
8.前記プライベート情報照プロセスは、前記プライベート・ファイルの前記スニペットを、前記パブリック・ファイルの前記スニペットと照合し、前記照合から得られた指定された状況を無視するようにさらに構成される、5に記載のシステム。
9.前記プライベート情報照合プロセスは、スニペット分類を考慮して、前記プライベート・ファイルの前記スニペットを、前記パブリック・ファイルの前記スニペットと照合するようにさらに構成される、5に記載のシステム。
10.前記プライベート情報照合プロセスは、前記パブリック・ファイル中の反復スニペットを無視するようにさらに構成される、8に記載のシステム。

Claims (10)

  1. 機密プライベート情報がパブリック・ネットワークに漏洩したか否かを判定するためのシステムであって、
    少なくとも1つのプロセッサ、メモリ、及びネットワーク・インタフェースを含むコンピュータと、
    前記コンピュータのアプリケーション・プログラムにより生成されたプライベート機密情報を含むプライベート・デジタル・ファイルを記憶している前記メモリと、
    プライベート情報照合プロセスを実行する前記プロセッサであって、
    前記プライベート・デジタル・ファイルを受け取り、
    前記プライベート・デジタル・ファイルを処理し、そのスニペット部分を生成し、
    パブリック・ネットワークから前記ネットワーク・インタフェースを介して複数のパブリック・デジタル・ファイルを受信し、
    前記パブリック・デジタル・ファイルを処理し、そのスニペット部分を生成し、
    前記パブリック・デジタル・ファイルの各々の前記スニペット部分について計算されたハッシュと、前記プライベート・デジタル・ファイルの前記スニペット部分について計算されたハッシュとの比較に基づいて、前記プライベート・デジタル・ファイルの前記生成されたスニペット部分を、前記パブリック・デジタル・ファイルの前記生成されたスニペット部分と照合し、前記プライベート・デジタル・ファイルの前記プライベート機密情報の少なくとも一部が、前記パブリック・ネットワークに漏洩したか否かを判定するように構成された前記プロセッサと
    を含み、
    前記スニペット部分はそれぞれ、デジタル・ファイルの複数の回転チャンクをさらに含み、第1のチャンクを含む第1のスニペット部分は、前記ファイル中の第1の一組のワードを含み、第2のチャンクを含む第2のスニペット部分は、前記ファイル中の第2の一組のワードを含み、前記第2の一組のワードは、前記第1の一組のワード中の全部ではない少なくとも一部のワード、及びそれに加えて前記ファイルからの幾つかの他のワードを含む、システム。
  2. 前記プライベート情報照合プロセスは、前記プライベート・ファイル及びパブリック・ファイルの前記チャンクの各々の前記ハッシュを計算するようにさらに構成される、請求項1に記載のシステム。
  3. 前記プライベート情報照合プロセスは、少なくとも1つのパブリック・デジタル・ファイルの連続スニペット部分に一致する前記プライベート・デジタル・ファイルの連続スニペット部分を、一致ワードの少なくとも1つの連続ブロックとして集約するようにさらに構成される、請求項2に記載のシステム。
  4. 前記プライベート情報照合プロセスは、ユーザ・インタフェースを介して、前記プライベート・デジタル・ファイルと、前記パブリック・デジタル・ファイルのうちの少なくとも1つとの間の一致した割合を、それらの間の一致割合のグラフィカル表示を用いて表示するようにさらに構成される、請求項1に記載のシステム。
  5. 受け取った前記プライベート・デジタル・ファイルは、もとのデジタル・ファイルの前記コンテンツの一部のみを含む、請求項1に記載のシステム。
  6. 前記プライベート情報照プロセスは、タグにしたがって、前記プライベート・デジタル・ファイルと少なくとも1つのパブリック・デジタル・ファイルとの間におけるスニペット部分の一致を、照合の結果のレポートから除去するようにさらに構成される、請求項3に記載のシステム。
  7. 前記プライベート情報照合プロセスは、前記プライベート・デジタル・ファイルの前記スニペット部分及び少なくとも1つのパブリック・デジタル・ファイルのスニペット部分の分類を示すタグを受け取り、それぞれのスニペット部分の前記分類を示す前記タグに部分的に基づいて、前記プライベート・ファイルの前記スニペット部分を、前記パブリック・ファイルの前記スニペット部分と照合するようにさらに構成される、請求項3に記載のシステム。
  8. 前記プライベート情報照合プロセスは、前記パブリック・ファイル中の反復スニペット部分を無視するようにさらに構成され、前記反復スニペット部分は、反復ワードを含む、請求項3に記載のシステム。
  9. 前記プライベート情報照合プロセスは、前記プライベート・デジタル・ファイルに一致したパブリック・デジタル・ファイルのリストをデータベースに記憶するようにさらに構成される、請求項1に記載のシステム。
  10. 前記パブリック・デジタル・ファイルの各々の前記スニペット部分について計算された前記ハッシュと、前記プライベート・デジタル・ファイルの前記スニペット部分について計算された前記ハッシュとの前記比較は、前記スニペット部分について計算された前記ハッシュのマップに基づく、請求項1に記載のシステム。
JP2018125864A 2012-09-07 2018-07-02 ファイル共有ネットワークにおけるスニペット照合 Active JP6749367B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261697916P 2012-09-07 2012-09-07
US61/697,916 2012-09-07

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015531173A Division JP2015530665A (ja) 2012-09-07 2013-09-05 ファイル共有ネットワークにおけるスニペット照合

Publications (2)

Publication Number Publication Date
JP2018170036A true JP2018170036A (ja) 2018-11-01
JP6749367B2 JP6749367B2 (ja) 2020-09-02

Family

ID=49237603

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015531173A Pending JP2015530665A (ja) 2012-09-07 2013-09-05 ファイル共有ネットワークにおけるスニペット照合
JP2018125864A Active JP6749367B2 (ja) 2012-09-07 2018-07-02 ファイル共有ネットワークにおけるスニペット照合

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015531173A Pending JP2015530665A (ja) 2012-09-07 2013-09-05 ファイル共有ネットワークにおけるスニペット照合

Country Status (9)

Country Link
US (1) US9088545B2 (ja)
EP (1) EP2893480B1 (ja)
JP (2) JP2015530665A (ja)
CN (1) CN104781821B (ja)
AU (1) AU2013312742B2 (ja)
CA (1) CA2883935C (ja)
HK (1) HK1212060A1 (ja)
IN (1) IN2015DN01833A (ja)
WO (1) WO2014039620A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262423B2 (en) * 2012-09-27 2016-02-16 Microsoft Technology Licensing, Llc Large scale file storage in cloud computing
US9721094B2 (en) * 2015-05-20 2017-08-01 International Business Machines Corporation Determining privacy leaks
US11070608B2 (en) 2015-06-17 2021-07-20 Fastly, Inc. Expedited sub-resource loading
JP6984147B2 (ja) * 2017-03-22 2021-12-17 日本電気株式会社 情報管理装置、情報管理方法、及びプログラム
US10380355B2 (en) * 2017-03-23 2019-08-13 Microsoft Technology Licensing, Llc Obfuscation of user content in structured user data files
US10410014B2 (en) 2017-03-23 2019-09-10 Microsoft Technology Licensing, Llc Configurable annotations for privacy-sensitive user content
US10671753B2 (en) 2017-03-23 2020-06-02 Microsoft Technology Licensing, Llc Sensitive data loss protection for structured user content viewed in user applications
US20210357364A1 (en) * 2020-05-13 2021-11-18 Magnet Forensics Inc. System and method for identifying files based on hash values
US20220156388A1 (en) * 2020-11-16 2022-05-19 Microsoft Technology Licensing, Llc Data leak detection using similarity mapping

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP2005202590A (ja) * 2004-01-14 2005-07-28 Kddi Corp マスメイル検出方式およびメイルサーバ
JP2006106896A (ja) * 2004-09-30 2006-04-20 Toshiba Corp データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JP2007213373A (ja) * 2006-02-10 2007-08-23 Nhk Engineering Services Inc 個人情報の開示経路閲覧システムおよびその開示経路検証方法
WO2007105273A1 (ja) * 2006-03-10 2007-09-20 Fujitsu Limited 機密情報管理プログラム、方法及び装置
US20100057559A1 (en) * 2006-06-30 2010-03-04 Saar Wilf method of choosing advertisements to be shown to a search engine user
JP2010256951A (ja) * 2009-04-21 2010-11-11 Data Henkan Kenkyusho:Kk 類似データ検索装置及びそのプログラム
JP2011043908A (ja) * 2009-08-19 2011-03-03 Nippon Hoso Kyokai <Nhk> 番組検索装置および番組検索プログラム
KR20120062590A (ko) * 2010-12-06 2012-06-14 삼성전자주식회사 컴퓨팅 시스템

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2503333B2 (ja) * 1991-09-02 1996-06-05 株式会社富士通ソーシアルサイエンスラボラトリ 全文インデックス検索方法
US7171567B1 (en) * 1999-08-02 2007-01-30 Harris Interactive, Inc. System for protecting information over the internet
US7934097B1 (en) 1999-09-28 2011-04-26 Baytsp.Com, Inc. Method, apparatus, and system for managing, reviewing, comparing and detecting data on a wide area network
US7114185B2 (en) 2001-12-26 2006-09-26 Mcafee, Inc. Identifying malware containing computer files using embedded text
US7139756B2 (en) * 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
CN101341490B (zh) * 2005-10-18 2011-08-10 意大利电信股份公司 控制文件系统存取的方法、相关的系统、sim卡以及在其中使用的计算机程序产品
JP4588657B2 (ja) * 2006-03-24 2010-12-01 富士通株式会社 翻訳装置
JP2008140102A (ja) * 2006-12-01 2008-06-19 Mitsubishi Electric Corp 情報処理装置及び漏洩情報判定方法及びプログラム
WO2009113457A1 (ja) * 2008-03-12 2009-09-17 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体
JP5094487B2 (ja) * 2008-03-17 2012-12-12 三菱電機株式会社 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法
US8032757B1 (en) * 2008-05-16 2011-10-04 Trend Micro Incorporated Methods and apparatus for content fingerprinting for information leakage prevention
US8386792B1 (en) * 2008-06-10 2013-02-26 Trend Micro Incorporated Asymmetric content fingerprinting with adaptive window sizing
JP5698494B2 (ja) * 2010-10-14 2015-04-08 Kddi株式会社 携帯端末およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP2005202590A (ja) * 2004-01-14 2005-07-28 Kddi Corp マスメイル検出方式およびメイルサーバ
JP2006106896A (ja) * 2004-09-30 2006-04-20 Toshiba Corp データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JP2007213373A (ja) * 2006-02-10 2007-08-23 Nhk Engineering Services Inc 個人情報の開示経路閲覧システムおよびその開示経路検証方法
WO2007105273A1 (ja) * 2006-03-10 2007-09-20 Fujitsu Limited 機密情報管理プログラム、方法及び装置
US20100057559A1 (en) * 2006-06-30 2010-03-04 Saar Wilf method of choosing advertisements to be shown to a search engine user
JP2010256951A (ja) * 2009-04-21 2010-11-11 Data Henkan Kenkyusho:Kk 類似データ検索装置及びそのプログラム
JP2011043908A (ja) * 2009-08-19 2011-03-03 Nippon Hoso Kyokai <Nhk> 番組検索装置および番組検索プログラム
KR20120062590A (ko) * 2010-12-06 2012-06-14 삼성전자주식회사 컴퓨팅 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
竹口 誠士: "統計手法を用いた情報漏洩検知の改善に関する検討", 情報処理学会研究報告, vol. 2008, no. 21, JPN6017031103, 6 March 2008 (2008-03-06), JP, pages 103 - 108, ISSN: 0004202683 *

Also Published As

Publication number Publication date
JP2015530665A (ja) 2015-10-15
AU2013312742A1 (en) 2015-03-26
CA2883935A1 (en) 2014-03-13
US20140075542A1 (en) 2014-03-13
CN104781821B (zh) 2018-06-22
CA2883935C (en) 2019-10-22
AU2013312742B2 (en) 2018-08-02
CN104781821A (zh) 2015-07-15
US9088545B2 (en) 2015-07-21
EP2893480A1 (en) 2015-07-15
WO2014039620A1 (en) 2014-03-13
EP2893480B1 (en) 2017-11-08
IN2015DN01833A (ja) 2015-05-29
HK1212060A1 (en) 2016-06-03
JP6749367B2 (ja) 2020-09-02

Similar Documents

Publication Publication Date Title
JP6749367B2 (ja) ファイル共有ネットワークにおけるスニペット照合
US10735381B2 (en) Customized handling of copied content based on owner-specified similarity thresholds
US11188657B2 (en) Method and system for managing electronic documents based on sensitivity of information
US9436810B2 (en) Determination of copied content, including attribution
US8566305B2 (en) Method and apparatus to define the scope of a search for information from a tabular data source
US9760548B2 (en) System, process and method for the detection of common content in multiple documents in an electronic system
US9436463B2 (en) System and method for checking open source usage
US20150254343A1 (en) Video dna (vdna) method and system for multi-dimensional content matching
Jeziorowski et al. Towards image-based dark vendor profiling: an analysis of image metadata and image hashing in dark web marketplaces
JP2011150388A (ja) 機密区分情報に基づいたファイル保存先パス変換システム及び方法
Moreaux et al. Blockchain assisted near-duplicated content detection
Moore The role of computer forensics in criminal investigations
JP5630193B2 (ja) 操作制限管理プログラム、操作制限管理装置及び操作制限管理方法
Kim et al. Lessons learned from the construction of a Korean software reference data set for digital forensics
Mariyanna Machine Learning for Cyber Forensics and Judicial Admissibility
Scott et al. Text Mining for Quality Control of Court Records
Ajmire et al. Digital Forensic: An Annalistic Challenge
JP2005070989A (ja) ドキュメント検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200811

R150 Certificate of patent or registration of utility model

Ref document number: 6749367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250