JP2019505937A - データベース・テーブル、テキスト・ファイル、及びデータ・フィード中のテキストのソルティング - Google Patents
データベース・テーブル、テキスト・ファイル、及びデータ・フィード中のテキストのソルティング Download PDFInfo
- Publication number
- JP2019505937A JP2019505937A JP2018554317A JP2018554317A JP2019505937A JP 2019505937 A JP2019505937 A JP 2019505937A JP 2018554317 A JP2018554317 A JP 2018554317A JP 2018554317 A JP2018554317 A JP 2018554317A JP 2019505937 A JP2019505937 A JP 2019505937A
- Authority
- JP
- Japan
- Prior art keywords
- salting
- field
- data
- key
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009938 salting Methods 0.000 claims abstract description 90
- 230000008859 change Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 53
- 150000003839 salts Chemical class 0.000 claims description 32
- 238000012360 testing method Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/10—Selecting, i.e. obtaining data of one kind from those record carriers which are identifiable by data of a second kind from a mass of ordered or randomly- distributed record carriers
Abstract
Description
1.限定的摂動。フィンガープリンティングを除く、ウォーターマーキングのあらゆる形式は、データの何らかの摂動を伴う。問題は、データの品質がデータを使用不可能にするのに十分損なわれるようになるまで、どのくらいの摂動がデータベースに挿入され得るかである。その上、データが使用不可能であるかどうかは、それの意図された使用事例に大きく依存する。たとえば、メーリング・リスト中の1つの人名を変更することでさえ、商業的結果を有し、ウォーターマーキングは、複数の名前を変更することを必要とすることがある。したがって、その使用事例では、ウォーターマーキング目的のためにこのフィールドを使用することは可能でない。しかしながら、名前が医療データの統計的分析のために使用されるデータベースの一部である場合、名前のわずかな変動が許容できる。
2.ウォーターマークの一意性。ウォーターマークは、使用事例に必要なグラニュラリティのレベルに固有であるべきである。商用システムでは、ウォーターマークは、会社による所有権を主張し、データを漏洩した可能性が最も高かった1つの個人及び会社を識別するために使用される。したがって、会社に結合されたウォーターマークが、おそらく、この使用事例におけるグラニュラリティの妥当なレベルである。あらゆるファイルについて異なるウォーターマークを有することが、さらに高い精度を提供し得るが、それは、ウォーターマークを作成及び検出するために必要とされるシステムのサイズを増加させる。スケールのあらゆる増加は、関連するコストを有し、会社レベルのウォーターマーキングで間に合うとき、ファイルレベル・グラニュラリティは、費用がかかりすぎて努力に値しないことを証明し得る。本発明のいくつかの実装形態では、システムは、ファイル・レベル又は顧客レベルのいずれかにおいて高度に一意のウォーターマークを適用することのフレキシビリティを有する。これは、以下で説明されるように、受信側IDをファイル又は顧客に割り当てることによって達成される。
3.盲目。理想的には、データベース又はテキスト・ファイル中のウォーターマークを識別することは、元のウォーターマークを入れられていないデータベースの知識もウォーターマーク情報も必要とするべきでない。この性質は、データの元のソースが未知である状況においてさえデータベースのコピー中でウォーターマークが検出されることを可能にするので、重要である。本明細書で提示されるシステムは、元のウォーターマークを入れられていないデータベースの知識もウォーターマーク情報も必要としない。代わりに、システムは、ウォーターマークを検索するために、ウォーターマークを入れられたワイルド・ファイルを処理する。検出されたウォーターマーク及びそれの対応する受信側IDは、ウォーターマークの所有者を検索するために、データベースに対して照合され得る。
4.非干渉。ワイルドで発見されるファイルは、2つ又はそれ以上のソースからのデータを含んでいることがあり、それらのいずれかがウォーターマークを入れられていることがある。したがって、あるウォーターマークの存在が、ファイル中の別のウォーターマークの発見に干渉するべきでない。システムは、ファイル中の2つ以上のウォーターマークを検出することが可能である。ウォーターマーク検出プロセスは、ワイルド・ファイルの所有者を検索するために、ウォーターマーク・データベースに照合するために、ワイルド・ファイルからすべての可能なウォーターマーク及び対応する受信側IDを暴露することを試みる。
5.罪の法的確認(legal confirmation of guilt)についての妥当性。いかなる商用ウォーターマーキング・システムも、法廷において通用することができるウォーターマークを生成しなければならない。一意のウォーターマークは、良いスタートである。しかし、法廷では、ウォーターマークが特有の会社のファイルに属することを証明するだけでなく、検索されるウォーターマークが、別の会社のために使用されるウォーターマークと混同され得ないことをも証明する必要があり得る。システムは、検出された(1つ又は複数の)ウォーターマークを(1つ又は複数の)受信側IDとともに出力する。(1つ又は複数の)受信側IDは、ウォーターマークがファイルに適用されたとき、検出された受信側IDがシステムによって割り当てられたことを保証するために、ウォーターマーク・データベースに照合される。単一のウォーターマークが検出された場合、データの所有者が見つけられたということが大いにあり得る。複数のウォーターマークが検出された場合、システムによって与えられる情報が、ファイル中のデータについて複数のソースを潜在的に発見することにつながるきっかけとして働く。
1.Wは、所与のMについてのD又はSiの一意の「フィンガープリント」である(すなわち、Mは、2つの異なるD又はSiのために同じWを生成することができない)。
2.Wは、統計的信頼性を用いて、Dのコピー、又はS1と部分的に重複する異なるSiを受信する他のエージェントA2、A3、...Anに対して、エージェントA1が、D又はS1を配信又は変更するバッド・アクターであると決定することができる。
3.Wは、D’、すなわちDの第2のコピー又はサブセットがCの同意を得ることなく作成されたことを証明するための証拠基準を満たすのに十分にロバストであることになる。これは、フォールス・ネガティブ(D’が違法でないとき、それを違法であるとして識別すること)又はフォールス・ポジティブ(D’が合法的でないとき、それを合法的として識別すること)の確率が小さくなければならないことを意味する。
4.Wは、バッド・アクターがMを知っている場合でも、読取り可能でないか又は再生可能でない。
5.Wは、特定のAiについて生成されるときにD又はSiからの情報の損失を生じてはならない。
6.MがD中にWを埋め込む場合、Wの復元は盲目的である。すなわち、Wは、D’とDとが、又はそれぞれD及びD’から取られた厳密な重複SとS’とが等価である場合にのみ、Dを知らずにD’から取得され得る。
7.Wがそれによって作成されるプロセスは、フォールス・ネガティブを生成することなしに、DとD’との間のタプルの顕著な差(たとえば、余分のブランクスペース、データ再ソーティング、タプル削除、タプル追加)に対処するのに十分にロバストでなければならない。
8.Mは、CからのDiが定期的に更新され、Djになることを考慮に入れ、DiをDjと区別する能力を可能にしなければならない。
9.Mは、すぐに利用可能な計算機器を用いて計算的に実現可能でなければならない。
10.Mは、D又はSiがD’又はSi’になるとき、どんな変更がD又はSiに行われたかを正確に識別する必要はないが、D’又はSi’の詳細な検査が、Aiのバッド・アクター・ステータスのインジケータとしてWについての裏付けとなる証拠を提供することができ、それを提供するべきである。
)などを含み得る。データの受信側に割り当てられた一意の識別子が、2進数0又は1を表すために、ソルティング・フィールド中の状態の変動を使用することによってデータ内に隠れており、キー文字の値は、一意の識別子内の2進数0又は1のビット位置を識別する。
性別、身長
M、183.63
F、177.420
F、180.220
、166.17
M、179.11
U、175.130
U、168.960
データを検査する際に、第1のレコードが、(それが性別フィールドにおける「M」の値を有することにより)第1のビット位置に関係するソルティング・データと、(身長フィールドが100分の1の精度を有することにより)0の値とを保持することがわかり得る。第2のレコードは、(それが性別フィールドにおける「F」の値を有することにより)第2のビット位置に関係するソルティング・データを保持し、(身長フィールドが1000分の1までの精度を有することにより)第2のビット位置の値が1であることがわかる。レコードのさらなる分析は、0110のビット値をサポートし、したがって、その識別子を割り当てられた受信側にファイルが送られたことが知られる。これは単純な実例であり、ソルティングは、機構が知られると比較的容易に見つかるが、より多くのフィールドをもつ、ソルティング機構が知られていない、より大きいデータ・ファイルでは、ソルトは、手作業で識別することが非常に困難であり得る。
1.良性(benign)更新。マークされたデータが、追加されるか、削除されるか、又は更新され、これは、埋め込まれたウォーターマークを除去し得るか、又は埋め込まれたウォーターマークを検出不可能にさせ得る。
2.サブセット攻撃。データのサブセットを削除又は更新すること。
3.スーパーセット攻撃。いくつかの新しいデータ又は属性が、ウォーターマークを入れられたデータベースに追加され、これは、ウォーターマークの正しい検出に影響を及ぼすことがある。
4.共謀攻撃。この攻撃は、攻撃者が、同じファイルの複数のウォーターマークを入れられたコピーへのアクセスを有することが必要である。
これらの攻撃カテゴリーに対する有効性をテストするために、3つのテスト・シナリオが使用された。第1のシナリオでは、削除(ソルティングされたファイルからいくつかのレコードを除去することによってソルトを検出する可能性をテストすること)が採用された。これは、サブセット攻撃及び良性攻撃に関連する。第2のシナリオでは、インサート(データ・ファイルにランダムに挿入される変動する数のソルティングされていないレコードの挿入をテストすること)が採用された。これは、良性攻撃及びスーパーセット攻撃に関連する。第3のシナリオでは、混合受信側IDテスト(2つ以上の受信側IDから生成されたソルティングされたレコードを組み合わせることによって、ソルトを検出する可能性をテストすること)が採用された。これは共謀攻撃に関連する。
1.2014年1月のInfoBase 1%ファイルから100Kのレコードのランダム・サンプルを取る。(InfoBaseはAcxiom社によって維持されるファイルされた包括的な消費者データベースである。)このファイルはデータ・ファイルとして参照される。
2.完全なデータ・ファイルを水平方向にソルティングするために、1つの受信側IDを使用する。
3.10Kをランダムに除去することによって、データ・ファイル中のレコードの数を低減する。このファイルはワイルド・ファイルとして参照される。
4.ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
5.受信側IDビットの数が36に等しい場合、ステップ3及び4を繰り返し、他の場合、ステップ6に進む。
6.1Kのレコードをランダムに除去することによって、データ・ファイル中のレコードの数を低減する。
7.ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
8.ワイルド・ファイル中のレコードの数が1Kよりも大きい場合、ステップ6及び7を繰り返し、他の場合、ステップ9に進む。
9.500のレコードをランダムに除去することによって、データ・ファイル中のレコードの数を低減する。
10.ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
11.400のレコードをランダムに除去することによって、データ・ファイル中のレコードの数を低減する。
12.ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
10kのレコードよりも大きいサイズのワイルド・ファイルの場合、識別され、一致した受信側IDビットの数が36であり、これは、68Bに1つの一意性、したがって、事実上100%の信頼区間を生じることがわかり得る。サイズ100〜10kのレコードのワイルド・ファイルの場合、識別され、一致した受信側IDビットの数が、22から35の間であり、4MMに1つの一意性、したがって、99%を超える信頼区間を生じる。サイズ100のレコードの極めて小さいワイルド・ファイルの場合でさえ、識別され、一致した受信側IDビットの数が21であり、2.1MMに1つの一意性、したがって、約99%の信頼区間を生じる。テスト結果は、10Kが、すべての36(すなわち0〜9、a〜z)の受信側IDビットが識別可能である最小ファイル・サイズであることを示す。すべての36の受信側IDビットが識別されるとき、36の受信側IDが680億に1つの一意性を表すので、ワイルド・ファイルが水平方向ソルトを含んでいる信頼区間は100%である。ファイル・サイズが10Kを下回るにつれて、受信側IDビットの数が減少するが、テストは、システムが、依然として、ワイルド・ファイル中のわずか100のレコードを用いて21の受信側IDビットを識別することができることを示す。21の受信側IDの識別は、2.1MMに1つを表し、これは、99%に近い極めて高い信頼区間を生じる。システムが罪を割り当てるために完全なファイルを処理する必要がないので、暗示は、したがって、システム処理及びスケーラビリティに関係する。システムが21の受信側IDを識別するまで、100のバッチ中の増分レコードを処理することで十分である。
1.所与の時間に、推定された最大数の顧客アカウントをシミュレートするために、5000の受信側IDを生成する。
2.2014年1月のInfoBase 1%ファイルから5K、50K、及び100Kのランダム・サンプルを取る。これらのファイルは、データ・ファイル1、データ・ファイル2及びデータ・ファイル3として参照される。
3.各データ・ファイルを完全に水平方向にソルティングするために、ステップ1における受信側IDのうちの1つをランダムに選択する。
4.データ・ファイル1、データ・ファイル2及びデータ・ファイル3について、2015年1月のInfoBase 1%ファイルからランダムに選択された(データ・ファイル・サイズに対する)1%のソルティングされていないレコードを挿入する。これらのファイルは、ワイルド・ファイル1、ワイルド・ファイル2及びワイルド・ファイル3として参照される。
5.ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
6.ランダムに選択された20%、40%、60%及び80%のソルティングされていないレコードを挿入することによって、ステップ3を繰り返す。
7.各区間においてワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
上記のテスト結果テーブル2から観測されるように、テスト・ファイルにわたる(31よりも大きい)識別された高い数の受信側IDビットに基づいて、テスト結果は、システムが、変動するワイルド・ファイル・サイズ及び挿入割合にわたって、ランダム・レコード挿入に対する水平方向ソルトを検出することができる、99%を超える高い信頼性レベルを示す。
1.所与の時間に、推定された最大数の顧客アカウントをシミュレートするために、5000の受信側IDを生成する。
2.2014年1月のInfoBase 1%ファイルからそれぞれ100Kのレコードの2つのランダム・サンプルを取る。これらのファイルは、データ・ファイル1及びデータ・ファイル2と表示される。
3.完全なデータ・ファイル1を水平方向にソルティングするために、5000の受信側IDのうちの1つを使用する。
4.完全なデータ・ファイル2を水平方向にソルティングするために、ステップ1における5000の受信側IDからランダムに選択された第2の受信側IDを使用する。
5.2015年1月のInfoBase 1%ファイルからランダムに選択された10K(元のデータ・ファイル・サイズの10%)のソルティングされていないレコードを挿入する。
6.100%、80%、70%、及び60%の信頼区間を使用して、ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。100%において、1又は0のいずれかである、受信側IDビットは、時間の100%、ビットが同じビットにマッピングされることによって決定される。80%において、受信側IDビットは、時間の少なくとも80%、ビットが同じビットにマッピングされることによって決定される。残りの区間、70%及び60%は、同じルールに従う。
7.ステップ6における各区間について、ワイルド・ファイル中に存在する受信側IDビットの数を検出し、記録する。
テスト結果は、ワイルド・ファイルが、2つの別個の受信側IDを用いて2つのソルティングされたデータ・ファイルをマージすることの結果であったとき、システムがすべての受信側IDを完全に識別することができることを示す。システムは、(5000の中から)ワイルド・ファイル中に存在するすべての3つの受信側IDを含んでいる、10の潜在的受信側IDに絞るので、極めて有効である。受信側IDの数が3を超えるとき、テストは、識別されているあまりに多くの可能な受信側IDがあり、これは、自動システムのために有効でないことがあることを示すが、バッド・アクターが、実生活において同じデータ・プロバイダから3つ以上のソルティングされたデータ・ファイルをマージすることは極めてありそうもないと考えられている。
Claims (24)
- データ・ファイルを水平方向にソルティングするための方法であって、前記データ・ファイルが複数のレコードを含み、前記レコードの各々が複数のフィールドを含み、前記方法は、
a.前記データ・ファイルの前記レコードの各々中のキー・フィールドを識別するステップであって、前記キー・フィールドが複数のキー・データ値のうちの1つを含んでいる、識別するステップと、
b.数値を前記キー・データ値の各々に関連付けるステップと、
c.前記データ・ファイルの前記レコードの各々中のソルティング・フィールドを識別するステップと、
d.前記データ・ファイル中の少なくとも1つのレコードについて、前記キー・フィールド中の前記キー・データ値に関連付けられた前記数値に基づいて、ソルトを用いて前記ソルティング・フィールドをソルティングするステップであって、前記ソルティング・フィールドが、前記ソルティング・フィールド中のソルティング・フィールド値に関連付けられた意味が不変であるような様式で変更される、ソルティングするステップと
を含む、方法。 - 前記ソルティング・フィールドをソルティングする前記ステップにおいて変更された前記レコードの各々を含む、ソルティングされたデータ・ファイルを出力するステップをさらに含む、請求項1に記載の方法。
- 前記ソルティング・フィールドが、少なくとも2つの別個の状態のうちの1つを含み得、さらに、前記ソルティング・フィールドの前記別個の状態が、前記ソルティング・フィールド中の前記ソルティング・フィールド値の前記意味に影響を及ぼさないようなものである、請求項1に記載の方法。
- 前記キー・フィールドと前記ソルティング・フィールドとが同等である、請求項1に記載の方法。
- 前記キー・フィールドと前記ソルティング・フィールドとが別個のフィールドである、請求項1に記載の方法。
- 前記キー・フィールドが英数字のセットのうちの1つを含む、請求項1に記載の方法。
- 前記ソルティング・フィールドをソルティングする前記ステップが、数値の精度における複数の変動のうちの1つを割り当てるステップを含む、請求項1に記載の方法。
- 前記ソルティング・フィールドをソルティングする前記ステップが、略語の使用における複数の変動のうちの1つを割り当てるステップを含む、請求項1に記載の方法。
- 前記ソルティング・フィールドをソルティングする前記ステップが、句読点の使用を変動させるステップを含む、請求項1に記載の方法。
- 句読点の前記使用を変動させる前記ステップが、ソルトとしてピリオドを含むこと又は含まないことのいずれかを行うステップを含む、請求項9に記載の方法。
- 前記ソルティング・フィールドをソルティングする前記ステップが、敬称を含むこと又は含まないことのいずれかを行うステップを含む、請求項1に記載の方法。
- 前記ソルティング・フィールドをソルティングする前記ステップが、書体変更を適用すること又は適用しないことのいずれかを行うステップを含む、請求項1に記載の方法。
- 前記キー値のうちの1つに関連付けられた前記数値の各々が2進数である、請求項1に記載の方法。
- 前記データ・ファイルの前記レコードのうちの少なくとも1つ中の、前記キー・データ・フィールド中の前記複数のキー・データ値のうちの少なくとも1つが、ブランク値である、請求項1に記載の方法。
- 前記ソルティング・フィールドをソルティングする前記ステップが、前記データ・ファイル中のデータの値を顧慮せずに実行される、請求項1に記載の方法。
- a.前記データ・ファイルの前記レコードの各々中の第2のキー・フィールドを識別するステップであって、前記第2のキー・フィールドが複数の第2のキー・データ値のうちの1つを含んでいる、識別するステップと、
b.第2の数値を前記第2のキー・データ値の各々に関連付けるステップと、
c.前記データ・ファイルの前記レコードの少なくともサブセット中の第2のソルティング・フィールドを識別するステップと、
d.前記データ・ファイル中のレコードの前記サブセット中の少なくとも1つのレコードについて、前記第2のキー・フィールド中の前記第2のキー・データ値に関連付けられた前記第2の数値に基づいて、第2のソルトを用いて前記第2のソルティング・フィールドをソルティングするステップであって、前記第2のソルティング・フィールドが、前記第2のソルティング・フィールド中の第2のソルティング・フィールド値に関連付けられた意味が不変であるような様式で変更される、ソルティングするステップと
をさらに含む、請求項1に記載の方法。 - 前記ソルティング・フィールドをソルティングする前記ステップと前記第2のソルティング・フィールドをソルティングする前記ステップとにおいて変更された前記レコードの各々を含む、ソルティングされたデータ・ファイルを出力するステップをさらに含む、請求項16に記載の方法。
- a.受信側IDを前記データ・ファイルに割り当てるステップと、
b.前記受信側IDを用いて受信側IDデータベースを更新するステップであって、前記受信側IDが、前記データ・ファイル、前記キー文字、及び前記ソルティング・フィールドのための識別情報を用いて、前記受信側IDデータベース中に関連付けられる、更新するステップと
をさらに含む、請求項1に記載の方法。 - 前記データ・ファイルのための前記識別情報が前記データ・ファイルについて一意である、請求項18に記載の方法。
- 前記データ・ファイルのための前記識別情報が、前記データ・ファイルの単一の受信側に送られたどのデータ・ファイルについても同じである、請求項18に記載の方法。
- 単一のソースから発信した複数のデータ・ファイルを水平方向にソルティングするための方法であって、前記データ・ファイルが各々、複数のレコードを含み、前記レコードの各々が複数のフィールドを含み、前記方法は、
a.前記データ・ファイルの各々の前記レコードの各々中のキー・フィールドを識別するステップであって、前記キー・フィールドが複数のキー・データ値のうちの1つを含んでいる、識別するステップと、
b.数値を前記キー・データ値の各々に関連付けるステップと、
c.前記データ・ファイルの各々の前記レコードの各々中のソルティング・フィールドを識別するステップと、
d.前記データ・ファイルの各々中の少なくとも1つのレコードについて、前記キー・フィールド中の前記キー・データ値に関連付けられた前記数値に基づいて、ソルトを用いて前記ソルティング・フィールドをソルティングするステップであって、前記ソルティング・フィールドが、前記ソルティング・フィールド中のソルティング・フィールド値に関連付けられた意味が不変であるような様式で変更される、ソルティングするステップと
を含む、方法。 - ワイルドデータ・ファイルが漏洩されたデータ・ファイルであるかどうかを決定するための方法であって、前記ワイルドデータ・ファイルが複数のレコードを含み、前記レコードの各々が複数のフィールドを含み、前記方法は、
a.受信側IDデータベースに記憶された受信側IDレコードについて、前記受信側IDに関連付けられた前記受信側IDデータベースから、キー・フィールド、数値、及びソルティング・フィールドを読み取るステップと、
b.前記データ・ファイルの前記レコードのうちの少なくとも1つ中の前記キー・フィールドを識別するステップであって、前記キー・フィールドが複数のキー・データ値のうちの1つを含んでいる、識別するステップと、
c.前記数値を対応するキー・データ値に関連付けるステップと、
d.前記データ・ファイルの前記レコードのうちの少なくとも1つ中の前記ソルティング・フィールドを識別するステップと、
e.前記データ・ファイル中の前記レコードのうちの少なくとも1つについて、前記キー・フィールド中の前記キー・データ値に関連付けられた前記数値に基づいて、前記ソルティング・フィールド中のソルトの存在について検査するステップと、
f.前記ソルトが見つけられたかどうかのインジケータを返すステップと、前記インジケータを前記受信側IDに関連付けるステップと
を含む、方法。 - 前記ステップの各々が、前記受信側IDデータベース中の複数の受信側IDについて繰り返される、請求項22に記載の方法。
- 前記ステップの各々が、前記受信側IDデータベース中の前記受信側IDのすべてについて繰り返される、請求項22に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562274137P | 2015-12-31 | 2015-12-31 | |
US62/274,137 | 2015-12-31 | ||
PCT/US2016/068418 WO2017117024A1 (en) | 2015-12-31 | 2016-12-22 | Salting text in database tables, text files, and data feeds |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019505937A true JP2019505937A (ja) | 2019-02-28 |
JP6970686B2 JP6970686B2 (ja) | 2021-11-24 |
Family
ID=59225838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018554317A Active JP6970686B2 (ja) | 2015-12-31 | 2016-12-22 | データベース・テーブル、テキスト・ファイル、及びデータ・フィード中のテキストのソルティング |
Country Status (6)
Country | Link |
---|---|
US (2) | US11003747B2 (ja) |
EP (1) | EP3398051A4 (ja) |
JP (1) | JP6970686B2 (ja) |
CN (1) | CN109416625A (ja) |
CA (1) | CA3043860A1 (ja) |
WO (1) | WO2017117024A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3014072A1 (en) * | 2016-02-08 | 2017-08-17 | Acxiom Corporation | Change fingerprinting for database tables, text files, and data feeds |
CN106649797A (zh) * | 2016-12-28 | 2017-05-10 | 中国建设银行股份有限公司 | 一种文本数据集解析方法和装置 |
US11086939B2 (en) * | 2019-05-28 | 2021-08-10 | Salesforce.Com, Inc. | Generation of regular expressions |
US11669601B2 (en) * | 2020-09-18 | 2023-06-06 | Huawei Cloud Computing Technologies Co., Ltd. | Digital watermarking for textual data |
CN115987682A (zh) * | 2023-02-02 | 2023-04-18 | 浙江网商银行股份有限公司 | 数据处理方法 |
CN117113302B (zh) * | 2023-10-11 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 文本水印生成方法和文本验证方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099501A (ja) * | 1998-09-17 | 2000-04-07 | Internatl Business Mach Corp <Ibm> | 文書データへの情報の埋め込み方法およびシステム |
JP2001501339A (ja) * | 1996-09-30 | 2001-01-30 | ノキア テレコミュニカシオンス オサケ ユキチュア | 無断公表を露見するための電子文書のマーキング |
JP2002189715A (ja) * | 2000-12-22 | 2002-07-05 | Sharp Corp | 暗号番号埋め込みシステム |
JP2003230001A (ja) * | 2002-02-01 | 2003-08-15 | Canon Inc | 文書用電子透かし埋め込み装置及び文書用電子透かし抽出装置並びにそれらの制御方法 |
US7610382B1 (en) * | 2006-06-30 | 2009-10-27 | Amazon Technologies, Inc. | System and method for marking content |
JP2012216083A (ja) * | 2011-03-31 | 2012-11-08 | Nifty Corp | 文書作成装置、文書作成プログラム、文書作成方法及び文書作成装置を用いた漏洩元特定システム |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848426A (en) * | 1993-03-05 | 1998-12-08 | Metanetics Corporation | Automatic data translation between different business systems |
US20060028689A1 (en) | 1996-11-12 | 2006-02-09 | Perry Burt W | Document management with embedded data |
US7756892B2 (en) | 2000-05-02 | 2010-07-13 | Digimarc Corporation | Using embedded data with file sharing |
US20020141593A1 (en) * | 2000-12-11 | 2002-10-03 | Kurn David Michael | Multiple cryptographic key linking scheme on a computer system |
US6912294B2 (en) | 2000-12-29 | 2005-06-28 | Contentguard Holdings, Inc. | Multi-stage watermarking process and system |
CA2502232C (en) | 2002-10-15 | 2013-10-01 | Trent J. Brundage | Identification document and related methods |
US7900052B2 (en) * | 2002-11-06 | 2011-03-01 | International Business Machines Corporation | Confidential data sharing and anonymous entity resolution |
US8014557B2 (en) | 2003-06-23 | 2011-09-06 | Digimarc Corporation | Watermarking electronic text documents |
US7779039B2 (en) * | 2004-04-02 | 2010-08-17 | Salesforce.Com, Inc. | Custom entities and fields in a multi-tenant database system |
US7730037B2 (en) | 2004-10-18 | 2010-06-01 | George Mason Intellectual Properties, Inc. | Fragile watermarks |
CN100364326C (zh) | 2005-12-01 | 2008-01-23 | 北京北大方正电子有限公司 | 一种在文本文档中嵌入及检测数字水印的方法和装置 |
US8046827B2 (en) * | 2007-06-12 | 2011-10-25 | Francisco Corella | Access control of interaction context of application |
GB0719964D0 (en) * | 2007-10-12 | 2007-11-21 | Katholleke Universiteit Leuven | Method for detecting and resolving hidden text salting |
KR100991855B1 (ko) | 2008-03-19 | 2010-11-04 | 주식회사 마크애니 | 전자 문서 발급 및 검증 시스템, 전자 문서 발급 방법 및전자 문서 검증 방법 |
KR101498288B1 (ko) * | 2008-06-24 | 2015-03-03 | 삼성전자주식회사 | 복수의 키 데이터를 전송하기 위한 장치 및 방법 |
US8819448B2 (en) * | 2011-04-29 | 2014-08-26 | Georgetown University | Method and system for managing information on mobile devices |
US9202078B2 (en) * | 2011-05-27 | 2015-12-01 | International Business Machines Corporation | Data perturbation and anonymization using one way hash |
US10607726B2 (en) * | 2013-11-27 | 2020-03-31 | Accenture Global Services Limited | System for anonymizing and aggregating protected health information |
US10013422B2 (en) * | 2014-05-28 | 2018-07-03 | Oath Inc. | Incremental data processing |
US9288204B1 (en) * | 2015-08-28 | 2016-03-15 | UniVaultage LLC | Apparatus and method for cryptographic operations using enhanced knowledge factor credentials |
CN105205355B (zh) | 2015-11-05 | 2018-04-10 | 南通大学 | 一种基于语义角色位置映射的文本水印嵌入及提取方法 |
WO2017142981A1 (en) * | 2016-02-18 | 2017-08-24 | Acxiom Corporation | Salting text and fingerprinting in database tables, text files and data feeds |
US10498541B2 (en) * | 2017-02-06 | 2019-12-03 | ShocCard, Inc. | Electronic identification verification methods and systems |
GB201703864D0 (en) * | 2017-03-10 | 2017-04-26 | Irdeto Bv | Secured system operation |
CA3056601A1 (en) * | 2017-03-17 | 2018-09-20 | Liveramp, Inc. | System and method for identifying leaked data and assigning guilt to a suspected leaker |
CN108111303B (zh) * | 2017-12-27 | 2021-06-25 | 北京环尔康科技开发有限公司 | 一种智能家庭网关的安全连接方法 |
US11188670B2 (en) * | 2019-03-28 | 2021-11-30 | Snowflake Inc. | Secure data joins in a multiple tenant database system |
US11265148B1 (en) * | 2019-05-17 | 2022-03-01 | Wells Fargo Bank, N.A. | Blockchain anonymous tokenization system |
-
2016
- 2016-12-22 CA CA3043860A patent/CA3043860A1/en not_active Abandoned
- 2016-12-22 US US16/067,457 patent/US11003747B2/en active Active
- 2016-12-22 JP JP2018554317A patent/JP6970686B2/ja active Active
- 2016-12-22 CN CN201680082979.9A patent/CN109416625A/zh active Pending
- 2016-12-22 EP EP16882448.0A patent/EP3398051A4/en not_active Withdrawn
- 2016-12-22 WO PCT/US2016/068418 patent/WO2017117024A1/en active Application Filing
-
2021
- 2021-04-21 US US17/236,104 patent/US11620365B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001501339A (ja) * | 1996-09-30 | 2001-01-30 | ノキア テレコミュニカシオンス オサケ ユキチュア | 無断公表を露見するための電子文書のマーキング |
JP2000099501A (ja) * | 1998-09-17 | 2000-04-07 | Internatl Business Mach Corp <Ibm> | 文書データへの情報の埋め込み方法およびシステム |
JP2002189715A (ja) * | 2000-12-22 | 2002-07-05 | Sharp Corp | 暗号番号埋め込みシステム |
JP2003230001A (ja) * | 2002-02-01 | 2003-08-15 | Canon Inc | 文書用電子透かし埋め込み装置及び文書用電子透かし抽出装置並びにそれらの制御方法 |
US7610382B1 (en) * | 2006-06-30 | 2009-10-27 | Amazon Technologies, Inc. | System and method for marking content |
JP2012216083A (ja) * | 2011-03-31 | 2012-11-08 | Nifty Corp | 文書作成装置、文書作成プログラム、文書作成方法及び文書作成装置を用いた漏洩元特定システム |
Also Published As
Publication number | Publication date |
---|---|
US20210326414A1 (en) | 2021-10-21 |
EP3398051A4 (en) | 2019-07-03 |
JP6970686B2 (ja) | 2021-11-24 |
US11620365B2 (en) | 2023-04-04 |
US20190034601A1 (en) | 2019-01-31 |
WO2017117024A1 (en) | 2017-07-06 |
EP3398051A1 (en) | 2018-11-07 |
CA3043860A1 (en) | 2017-07-06 |
WO2017117024A8 (en) | 2018-12-27 |
CN109416625A (zh) | 2019-03-01 |
US11003747B2 (en) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620365B2 (en) | Salting text in database tables, text files, and data feeds | |
JP6934022B2 (ja) | データベース・テーブル、テキスト・ファイル、及びデータ・フィード中におけるソルティング・テキスト及びフィンガープリンティング | |
US20200106793A1 (en) | Methods, systems, and computer program products for continuous cyber risk monitoring | |
US11568028B2 (en) | Data watermarking and fingerprinting system and method | |
US8442997B2 (en) | Method and apparatus for monitoring the distribution of electronic files | |
US20160292396A1 (en) | System and method for authenticating digital content | |
US6807634B1 (en) | Watermarks for customer identification | |
JP2004088598A (ja) | 電子透かし埋め込み装置、電子透かし解析装置、電子透かし埋め込み方法、電子透かし解析方法及びプログラム | |
Zhao et al. | Towards graph watermarks | |
CN109461110B (zh) | 确定图片的溯源信息的方法及装置 | |
JP7046970B2 (ja) | 漏洩したデータを識別し、疑わしい漏洩者に有罪性を割り当てるためのシステム及び方法 | |
WO2021258860A1 (zh) | 数据加密处理方法、装置、计算机设备和存储介质 | |
US11120129B2 (en) | System and method for detecting leaked documents on a computer network | |
JP2002165081A (ja) | 電子透かしシステム、電子透かし解析装置、電子透かし解析方法及び記録媒体 | |
Zhao et al. | Graph watermarks | |
US20130198621A1 (en) | Document Tracking System and Method | |
Dandavate et al. | Data Leakage Detection using Image and Audio Files | |
Almahmoud et al. | Hash-Comb: A Hierarchical Distance-Preserving Multi-Hash Data Representation for Collaborative Analytics | |
Pol et al. | Data leakage detection | |
US20240111882A1 (en) | Automatic Classification of Files with Hierarchical Structure with the Digital Fingerprints Library | |
Sharma et al. | Hybrid Approach for Securing Image Tempering in Cloud Storage | |
Mucsi-Nagy | Digital fingerprinting for sharing of confidential data | |
Niu et al. | Detecting LSB steganography based on noise function | |
Dobryakova et al. | The 2D-steganography method based on analysis of two adjacent LSB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190513 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191016 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211022 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6970686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |