JP5452823B2 - プライバシーポリシーを強化するためにコンピュータが実行する方法 - Google Patents

プライバシーポリシーを強化するためにコンピュータが実行する方法 Download PDF

Info

Publication number
JP5452823B2
JP5452823B2 JP2008286373A JP2008286373A JP5452823B2 JP 5452823 B2 JP5452823 B2 JP 5452823B2 JP 2008286373 A JP2008286373 A JP 2008286373A JP 2008286373 A JP2008286373 A JP 2008286373A JP 5452823 B2 JP5452823 B2 JP 5452823B2
Authority
JP
Japan
Prior art keywords
keyword
document
documents
privacy policy
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008286373A
Other languages
English (en)
Other versions
JP2009134714A (ja
Inventor
チョウ リチャード
ジーン−ポール ゴーレ フィリップ
エヌ. スタッドン ジェシカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2009134714A publication Critical patent/JP2009134714A/ja
Application granted granted Critical
Publication of JP5452823B2 publication Critical patent/JP5452823B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インテリジェントデータ処理の設計に関する。より具体的にいうと、本発明は推論検出によってプライバシーポリシーを強化するための方法およびシステムに関する。
インターネットの絶え間ない成長によって、今日ワールドワイドウェブ(ウェブ)は最も大きく最もアクセスしやすい情報のプールとなった。しかし、電子ドキュメントのセキュリティとプライバシーの管理がより困難になったということは決してない。今日では、ネットワーク記憶装置に保存されたファイル、eメールクライアントプログラムによって送受信されたeメール、ウェブサーバーにあるドキュメントといった多くの形式で、情報を電子的に送信したり保存したりすることができる。このようなオンラインリソースが、情報のプライバシーの保護をより難しくしている。
従来のプライバシーポリシーは、一般的に、保護すべきドキュメントの特徴を特定する。例えば、あるプライバシーポリシーはファイル名、数個のキーワードおよび/またはセンシティブなドキュメントのファイルの種類もしくはカテゴリーを特定できる。あるドキュメントまたは任意の形式の電子情報がプライバシー保護の対象となるかどうかを判定する際にシステムが調査できるように、センシティブなキーワード全てを正確に抽出し徹底して列挙することは不可能ではないにしろ非常に難しい。したがって、ドキュメントの題材を説明するために使われている種々のコンテキストや言葉によってあいまいさが生じたり、センシティブなコンテンツが隠されてしまったり、ドキュメントがプライバシー保護から逃れてしまう可能性がある。
本発明の1実施形態は、プライバシーポリシー強化システムを提供する。動作時、本システムはトレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも1つのシードキーワードを取得する。本システムは、トレーニングドキュメントから多数のキーワード候補を抽出し、このキーワード候補に基づいて少なくとも1つのクエリーを立てる。次いで本システムは、このクエリーをコーパスに発する。クエリーに応答して、本システムは結果ドキュメントのセットを受け取る。さらに本システムは、結果ドキュメントから抽出した各キーワードが少なくとも1つのシードキーワードにマッチするかどうかを判定する。そして本システムは、この判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化する。さらに本システムは、強化したプライバシーポリシーを対象ドキュメントに適用し、対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す。
本発明の1実施形態は、プライバシーポリシー強化システムであって、トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた少なくとも1つのシードキーワードとを取得する手段と、前記トレーニングドキュメントから多数のキーワード候補を抽出する手段と、前記キーワード候補に基づいて少なくとも1つのクエリーを立てる手段と、前記クエリーをコーパスに発する手段と、前記クエリーに応答して、結果ドキュメントのセットを受け取る手段と、前記結果ドキュメントから抽出した各キーワードが少なくとも1つのシードキーワードにマッチするかどうかを判定する手段と、前記判定に基づいて各キーワードに対応するキーワード候補をプライバシーポリシーに関連付けることによって、プライバシーポリシーを強化する手段と、強化したプライバシーポリシーを対象ドキュメントに適用する手段と、前記対象ドキュメントがプライバシーポリシーをトリガーするかどうかを示す結果を出す手段と、を備える。
本実施形態の変形例では、本システムは結果ドキュメントのそれぞれに含まれる単語またはフレーズについて用語の出現頻度・ドキュメント逆出現頻度(TF.IDF)の重みを決定することで、結果ドキュメントからキーワードを抽出する。
本実施形態の変形例では、強化したプライバシーポリシーを対象ドキュメントに適用するステップは、対象ドキュメントを検索してプライバシーポリシーに関連付けられたキーワード候補のいずれかの出現を探し出すステップを含む。
本実施形態の変形例では、本システムはキーワード候補と各シードキーワードとの推論の強さを評価し、キーワード候補が少なくとも1つのシードキーワードにマッチするかどうかを判定する際に評価した強さを使用する。
さらなる変形例では、キーワード候補とシードキーワードとの推論の強さを評価するステップは、キーワード候補とシードキーワードの両方を含むクエリーからの検索ヒット数と、キーワード候補のみを含むクエリーからの検索ヒット数との比を評価するステップを含む。
本実施形態の変形例では、シードキーワードを取得するステップは、センシティブなトピックに基づくクエリーをコーパスに発し、このクエリーに応答して戻された多数のドキュメントからシードキーワードを抽出するステップを含む。
本実施形態の変形例では、トレーニングドキュメントを取得するステップは、センシティブなトピックに基づくクエリーをコーパスに発し、このクエリーに応答して戻された所定数の最高ランクのドキュメントを引き出すステップを含む。
一般に組織は、ポリシー施行システムがアクセスや情報のセットの共有を監視したり制御したりするためのプライバシーポリシーのセットを持っている。例えば、ある企業は特定の製品に関連するドキュメントをその企業外の人または特定のグループ外の人と共有しないようにするポリシーを持っているかもしれない。センシティブな情報を含む通信を選別したりブロックしたりするためにプライバシーポリシーを使用することもできる。例えば、企業はある製品に関する一切のファイルをその企業外に送信したり公的にアクセス可能なネットワークドライブ上に保存したりしないようにすることができる。
ドキュメントがプライバシーポリシーをトリガーするセンシティブな情報を含むかどうかを識別するというタスクは、非常に難しい。一般的には、ポリシー施行システムがファイル、テキストメッセージ、eメール通信などを検索し、幾つかのキーワード、ファイル名、ファイルの種類を探し出す。しかし、プライバシーポリシーの構築時にポリシー設計者がセンシティブな題材に関するキーワード全てを徹底して特定できるということはありそうにない。最初の「必要最低限の(bare-bones)」プライバシーポリシーは、センシティブな題材に関連する数個のキーワードしか含まないであろう。その結果、幾つかのドキュメントまたは通信がこのような最初に特定されたキーワードのいずれも含んでいないが、センシティブな題材を識別または導出するのに使用されるかもしれない他の言葉を含んでいても、このようなドキュメントまたは通信はプライバシーポリシーを逃れてしまう。
例えば、ある組織がオサマビンラディン(Osama Bin Laden)に関するあらゆるテキストドキュメントを監視または選別したいとする。最初にプライバシーポリシーは、直接識別できる情報、例えば「オサマ」、「ビン」、「ラディン」、「OBL」などの単語を含むあらゆるドキュメントまたは通信がプライバシーポリシーをトリガーするであろうと指定する。しかし、ドキュメントが直接識別できる単語を一切含んでいなくても、そのドキュメントはオサマビンラディンに関連すると認識できるのにプライバシーポリシー施行システムにかからないかもしれない。例えば、「イエメン出身のサウジアラビア建設業界の大物の息子(the son of a Saudi construction magnate who came from Yemen)」という言葉を含むドキュメントによって、読者はこのセンテンスの主題はオサマビンラディンであることを容易に推察できる。その理由は、「サウジアラビア建設業界の大物、イエメン」というクエリーの検索でオサマビンラディンに関する多数のヒットが戻されるからである。しかしポリシー施行システムは、このセンテンスのみを含み直接識別できる単語を一切含まないドキュメントを捕獲することができないかもしれない。
本発明の実施形態は、推論検出によってプライバシーポリシーを強化するメカニズムを提供しており、そのメカニズムでは、本システムはさらなるキーワードを識別し、これをプライバシーポリシーに関連付ける。その結果、プライバシーポリシーの正確性と強さが著しく向上する。1実施形態では、本システムはセンシティブな題材に関することが分かっているトレーニングドキュメントのセットを受け取る。次いで本システムは、このトレーニングドキュメントの分析を行い、多数のキーワードを抽出し、このキーワードに基づいて検索クエリーを構築する。さらに本システムは、このクエリーをウェブなどのドキュメントのあらゆる集合であるコーパスに発する。これに応答して、本システムは多数のヒットを受け取る。続いて本システムは、このようなヒットを分析し、キーワードのリストを抽出する。そしてこのキーワードをプライバシーポリシーの設計者が提供した幾つかのシードキーワードと比較する。マッチがあれば、これに対応するトレーニングドキュメントのキーワードをプライバシーポリシーに関連付け、対象ドキュメントがセンシティブな情報を含むかどうかを判定するために将来使用することができる。
本開示物では、「コーパス」とはドキュメントの集合のことをいう。1実施形態では、コーパスはウェブ上で利用可能なドキュメント全てを含むことができる。コーパスは、製品マニュアル、eメール通信、ファイルサーバーに保存されているファイルといった組織内部のドキュメントのセットでもよい。さらに本システムは、1つまたはそれより多くのコーパスに基づいて作動できる。ここでは、「ドキュメント」はテキストドキュメント、スプレッドシート、プレゼンテーション、画像、ビデオ、音声、マルチメディアなどを含めたあらゆる形式のコンテンツを含むものと理解される。さらに、ドキュメントは紙ベースでも電子的なものでもよい。
以下の説明は、推論検出に基づくプライバシーポリシー強化ツールの例示的な動作モデルを示している。このモデルは制限的なものではなく、単なる例示目的のものである。さらに、このモデルを実施する種々の方法が存在する。例えば、本発明の実施形態をコンピュータシステムまたはサーバーファーム、コンピュータ群、分散コンピューティングコラボレーションなどのネットワークコンピュータの集合にわたって実施できる。種々の実施形態をハードウェアおよび/またはソフトウェアでも実施できる。問題の数学的な説明を以下に示す。
プライバシーポリシーの施行を考慮している1つまたはそれより多くのドキュメントをCとし、コーパスまたはコーパスの集合をRとする。コーパスが基準ドキュメントの集合であることに注目されたい。例えば、集合Cは企業のイントラネットに保存されている1つまたはそれより多くのドキュメントを含み、集合Rはウェブ上で公的に入手可能なドキュメント全てを含むことができる。
プライベートな集合Cから計算可能な知識全てをK(C)とする。セットK(C)は、集合Cに含まれる情報から導出可能なステートメントや事実全てを表している。理論上は、セットK(C)はCの公理が全て与えられれば、完全且つ確かな定理証明器によって計算できる。しかし実際には、このような計算のコストはひどく高い。したがって、本発明の1実施形態はCに含まれる単語のリストである、K(C)の近似的表現を使用する。同様に、参照集合Rから計算可能な知識全てをK(R)とする。
プライベートな集合と参照集合との和集合K(C∪R)から抽出された知識がCとRから別々に抽出された知識の和集合K(C)∪K(R)よりも大きい場合に、望ましくない推論(そのドキュメントをプライバシーポリシーの対象とすることはできるがこのポリシーによって捕獲できない)が生じる可能性がある。したがって推論検出とプライバシーポリシー強化の問題は、差δ(C,R)=K(C∪R)−{K(C)∪K(R)}の制御の問題である。
例えば、集合Cが「イエメン出身のサウジアラビア建設業界の大物」という言葉を含むが「オサマビンラディン」という明確な単語は一切含まないドキュメントであるとする。さらに、Rがウェブ上で公的に入手可能な情報全てを含むとする。「あるドキュメントがオサマビンラディンに関連する」というステートメントSが正しい場合にトリガーされるプライバシーポリシーをSとする。そのドキュメントが関連する人物のアイデンティティがドキュメントにはっきりと開示されていないため、CのみからステートメントSを導出するのは不可能ではないにしろ非常に難しい。したがって、下記(1)に示す関係となる。CにはあるがRにはないドキュメントに関するステートメントをRのみから導出することはできないため、ステートメントSは明らかにK(R)にもない。したがってSはK(C)∪K(R)に属さない。ただし先に示したように、ステートメントSはK(C∪R)には属する。すなわち、そのドキュメントは「サウジ」、「建設」、「大物」、「イエメン」などのキーワードによって特徴付けられる人物に関連することがCから学習できる。さらに、このようなキーワードが「オサマビンラディン」と密接に関連することがRから学習できる。上に示したように、こういった2つの情報源を組み合わせることでステートメントSがドキュメントCについて高い可能性で正しいことが学習できる。
Figure 0005452823
プライバシーポリシーを実施する前にδ(C,R)を理解し、このようなプライバシーポリシーの対象となるドキュメントが望ましくない推論を許容しないように保証することがプライバシーポリシー設計者にとって重要である。プライバシーポリシー施行システムは、差δ(C,R)の評価に基づいてドキュメントの通信を抑制または阻止できる。K*で示される、リークしてはいけないセンシティブな知識のセットがはっきりと特定される場合もある。この場合、プライバシーポリシー強化の問題は、積集合δ(C,R)∩K*を空でなくするドキュメントCを選別するために使用可能なキーワードを識別する問題になる。
本明細書中の説明では、トレーニングドキュメントCの集合はプライバシーポリシーをトリガーすることが分かっている任意の数のドキュメントを含むことができる。特に、このようなドキュメントはXMLベースのドキュメントなどの構造データに限定されない。1実施形態では、本システムに対して十分な特権を有する管理者またはユーザが、このトレーニングドキュメントの集合を本システムに与えることができる。トレーニングドキュメントは手作業で収集してもよいし、本システムによって参照コーパスから作成してもよい。例えば、本システムはセンシティブな題材を含むクエリーをウェブに発し、多数の最高ランクのドキュメントをトレーニングドキュメントとして収集できる。さらに、集合Rはあらゆるドキュメントのコーパスを含むものとする。1実施形態では、Rはウェブ上で公的に入手可能な情報全てを含む。一般に、推論検出に基づくプライバシーポリシー強化を促進するシステムは以下の動作を実行する。最初に、本システムはトレーニングドキュメントCにあるドキュメントのコンテンツを学習する。次に本システムは、CとRの組み合わせから導出できる推論を決定する。そして本システムは、このような推論をプライバシーポリシーに関連付ける。
1実施形態では、Cのトレーニングドキュメントから知識を導出するために、本システムは自動コンテンツ分析を利用し、ドキュメントのキーワードを抽出する。本システムは、テキスト抽出から徹底した言語分析に及ぶあらゆる自然言語処理(NLP)ツールを使用できる。1実施形態では、本システムは「用語の出現頻度・ドキュメントの逆出現頻度」(TF.IDF)分析に基づいてキーワードを選択する。本開示物で使用している用語「キーワード」は1つの単語に限定されず、複数の単語、フレーズ、略語、同義語、または言語記号の任意の組み合わせを含んでもよいことに注目されたい。
TF.IDF分析では、本システムはトレーニングドキュメントの各単語にTF.IDFの重みを割り当てる。本システムは、統計的尺度であるこの重みを使用し、その単語があるコーパスのドキュメントにとってどの程度重要かを評価する。単語の重要性は、その単語がドキュメントに登場する回数に比例して高まるが、コーパスにおける用語の出現頻度によって弱められる。例えば、所与のドキュメントに対する単語iのTF.IDFの重み(tiで示す)は以下のように計算できる。
Figure 0005452823
式(2)において、用語の出現頻度(下記(3))はドキュメントにおける単語出現全てによって正規化された、ドキュメントにおけるtiの出現回数である。ドキュメントの逆出現頻度(下記(4))は、その単語の一般的な重要性の尺度であり、コーパス内の全てのドキュメント数を単語tiを含むドキュメントの数で割った商の対数として計算される。
Figure 0005452823
Figure 0005452823
TF.IDFの重みを計算するための式(2)は、TF.IDF定義のほんの一例である。種々のアプリケーションに対して、種々のTF.IDF定義を採用できる。さらに、本発明の実施形態はドキュメントから知識を導出するために他の言語分析法も使用できる。
CとRの組み合わせから導出できる推論を決定するために、本システムは既に抽出されているキーワードのサブセットにマッチするドキュメントの検索クエリーを発する。本システムは、このようなクエリーをパブリックウェブまたは内部ドキュメントの集合といった参照コーパスR内に発する。そして本システムは、その検索クエリーが戻したドキュメント(すなわち、「ヒット」)を元のトレーニングドキュメント(単数または複数)にないキーワードについて分析する。このような追加のキーワードに基づいて、本システムはトレーニングドキュメント(単数または複数)から抽出されたキーワードによって導出できる幾つかの推論の可能性を自動的に評価できる。1実施形態では、危険な可能性のある推論にフラグを立て、手作業で再検討する。そして本システムは、望ましくない推論を生じさせるキーワードをプライバシーポリシーに関連付けることで、そのプライバシーポリシーの施行をより正確且つ確固たるものにできる。
図1は、本発明の1実施形態に係るプライバシーポリシー強化システムの例示的なブロック図を示す。このシステムは、まずプライバシーポリシー100と、プライバシーポリシー100をトリガーするであろうと見込まれたトレーニングドキュメントと見なされる既知のセンシティブなドキュメントのセット102とを受け取る。1実施形態では、このシステムはトレーニングドキュメント102にNLP分析104を適用する。これに応答して、本システムはプライベートドキュメント102について知識表現のセット106を取得する。1実施形態では、本システムはTF.IDF分析をトレーニングドキュメント102に対して行い、所定数の最高ランクのキーワード106を取得する。
抽出されたキーワード106に基づき、本システムは多数のクエリー110を立て、これらのクエリーを検索エンジン112に発する。検索エンジン112は、基準ドキュメントのセット(コーパス)108に対して検索を行う。1実施形態ではコーパス108はウェブ上で公開されている情報全てを含むが、コーパス108は他の形式の媒体も含むことができることに注目されたい。例えば、コーパス108は公の裁判所の文書全て、カルテ、図書館の全ての本でもよい。コーパス108は、公的に入手できない内部文書のコレクションを含んでもよい。
検索エンジン112は、多数のヒット114を戻す。本システムはヒットの分析116を行い、分析結果とシードキーワードのセット106とを比較する。1実施形態では、本システムは所定数の最高ランクのヒットの中の戻されたヒットドキュメントそれぞれに対してTF.IDF分析を実行し、分析したヒットドキュメントそれぞれについて所定数の最高ランクのキーワードを抽出する。そして、本システムはヒットドキュメントの各キーワードとシードキーワード106とを比較し、マッチするヒットドキュメントにフラグを立てる。マッチがある場合、本システムはキーワード106中の対応するキーワードをセンシティブな単語としてフラグを立てる。全てのキーワード106についてこのようにすることで、本システムはプライバシーポリシー100に関連し得る多数のセンシティブな単語108を識別できる。
ここで説明するプライバシーポリシー強化システムは、本発明の1実施形態しか示していない。広範囲に及ぶNLPツールを一般的なプライバシーポリシー強化モデルに組み込むことができ、ほぼ同様の結果を得ることができる。以下のセクションでは、プライバシーポリシーの強化のための一般的な推論検出モデルの入力、出力、パラメータについて説明する。
入力:トレーニングドキュメントの集合C={C1,...,Cn}と、基準ドキュメントの集合Rと、センシティブな知識を表すシードキーワードのリストK*である。
出力:CとRの和集合から導出できるセンシティブな単語のリストLである。センシティブな単語はそれぞれ、少なくとも1つのシードキーワードから導出され得るある推論に対応する。システムの出力が、センシティブな情報を含むドキュメントを識別するプライバシーポリシーを強化するために使用可能なセンシティブな単語のリストであることに注目されたい。本システムは、センシティブな推論を検出できなければ、空のリストを戻す。
パラメータ:このプライバシーポリシー強化モデルは、4つのパラメータによってパラメータ化されている。パラメータαは、CのドキュメントのNLP分析の深度を制御する。パラメータβとγは、Cに関連するR内のドキュメントの検索深度を制御する。パラメータδは、検索エンジンによって引き出されたドキュメント、すなわちヒットドキュメントのNLP分析の深度を制御する。1実施形態では、α、β、γ、δの値は全て正の整数である。モデルの実行時間と推論検出の完全性および品質との種々のトレードオフを得るために、このようなパラメータを調節可能である。
本システムは、以下の段階を踏んでプライバシーポリシー強化モデルを実装し、実行する。
トレーニングドキュメントC内のドキュメントの理解:本システムはTF.IDF分析を行い、集合C内の各ドキュメントCiからCiを最も代表する上位α個のキーワードを抽出する。ドキュメントCiから抽出された上位α個のキーワードのセットをSiとする。
推論検出:センシティブな単語のリストLは、最初は空である。本システムは、サイズ│C’│≦βのサブセットC’⊆Cごとに順に検討する。このような各サブセットC’=(Ci1,...,Cik)(k≦β)について、本システムは以下の動作を実行する。カルテシアン積Si1×...×Sikにおけるキーワード(Wi1,...,Wik)の各ベクトルについて、以下を実行する。
1. 本システムは検索エンジンを使用し、基準ドキュメントの集合Rからキーワード(Wi1,...,Wik)全てを含む上位γ個のドキュメントを引き出す。
2. TF.IDF分析によって、本システムはこのγ個のドキュメントの集合から上位δ個のキーワードを抽出する。1実施形態では、このようなキーワードは個々のドキュメントから抽出されるのではなく、全てのドキュメントが単一の大きなドキュメントへと連結されているかのように、γ個のドキュメントを集めた集合から抽出される。
3. 動作2から取得したδ個のキーワードとシードキーワードのセットK*との積集合をW*とする。W*が空でなければ、本システムはキーワードベクトル(Wi1,...,Wik)をLに追加する。そして本システムは、リストLを出力し、終了する。
さらに本システムは、リストLの取得後に、さらなるクエリーを使用してトレーニングドキュメント内の識別されたキーワード候補(単数または複数)とシードキーワードとの間の推論の強さを測定、すなわちランク付けできる。1実施形態では、本システムはセンシティブなヒットの比率を計算し、これは1実施形態ではキーワード候補(単数または複数)のみを含むクエリーからの検索ヒット数に対するキーワード候補(単数または複数)とシードキーワードの両方を含むクエリーからの検索ヒット数として定義される。そして本システムはトレーニングドキュメントのキーワードを推論の強さに応じてランク付けする。例えば、「ナルトレキソン」という単語を使用して「アルコール中毒者」を推察できる可能性を評価するために、本システムは「ナルトレキソン」について第1のクエリーを発してx個のドキュメントを引き出し、「ナルトレキソンアルコール依存症」について第2のクエリーを発してy個のドキュメントを引き出すことができる。そして本システムは、比率y/xを計算できる。この比率が極めて1に近ければ、ナルトレキソンをアルコール依存症に関連する全てのドキュメントを選別するように設計されたプライバシーポリシーに関連付けられると判断できるかもしれない。
本システムが推論を識別するために上述のセンシティブなヒットの比率の計算方法をアドオンではなくメインアプローチとして使用することもできることに注目されたい。1実施形態では、本システムはまずNLPツールを使用してトレーニングドキュメントのセットからキーワードを抽出する。トレーニングドキュメントから抽出された各キーワードについて、本システムはシードキーワードそれぞれに対して抽出された各キーワードのセンシティブなヒットの比率を計算する。抽出されたキーワードとシードキーワードとのセンシティブなヒットの比率が所与の閾値よりも大きければ、本システムは抽出されたキーワードを対応するプライバシーポリシーに関連付けられるセンシティブな単語として識別する。さらに、本システムはシードキーワードまたはキーフレーズのセットを受け取ることもでき、抽出されたキーワードは1つまたはそれより多くのマルチワード(複数の単語からなる)フレーズを含んでもよい。例えば、本システムは「充血した目(blood shot eyes)」、「記憶喪失(memory loss)」「肝疾患(liver disease)」という3つのフレーズを抽出し、「アルコール依存症」、「アルコール」、「アルコール中毒者」、「酔っ払い(drunk)」、「飲酒(drinking)」といったアルコール依存症に関連するセンシティブな単語についてセンシティブなヒットの比率を計算できる。センシティブなヒットの比率を計算するために、本システムはまず「充血した目、記憶喪失、肝疾患」についてクエリーを発し、次いで「充血した目、記憶喪失、肝疾患AND(アルコール依存症ORアルコールORアルコール中毒者OR酔っ払いOR飲酒)」についてクエリーを発する。そして本システムは、第1のクエリーが戻したヒット数に対する第2のクエリーが戻したヒット数の比率を計算する。一般に、本システムはクエリーを作成する際に任意の数の抽出された単語またはフレーズを組み合わせることができる。
上述のプライバシーポリシー強化モデルを種々のアプリケーションに合わせて調整できる。
幾つかの実施形態では、本システムは多数のキーワードに基づいてクエリーを立てる際にあらゆる所与の論理関係を利用できる。ここに説明する例はスペースで区切られた(space-separated)キーワードを含むクエリーに基づいているが、本システムはブール式のクエリーも採用できる。例えば、本システムはキーワードの間に「AND」や「OR」を挿入できる。高度な検索エンジンを使えば、本システムは、例えばある数のパラグラフ内、センテンス内、単語内といったようにキーワードがどのようにドキュメントに現れるかを特定することもできる。さらに本システムは、キーワードを分析しその分析に基づいてクエリーを立てることもできる。例えば、2つのキーワードが同義語であるかまたは密接に関連するとシステムが判定したならば、このシステムはクエリーを立てる際にこれらのキーワードの間に「OR」をオプションで挿入することができる。
さらなる実施形態では、本システムはテストされるドキュメントに応じて異なるコーパスを賢明に選択できる。本システムは、意図する視聴者に基づいてコーパスを選択することもできる。
上述のモデルは、センシティブな知識K*がシードキーワードのセットとして与えられることを想定している。センシティブな知識の他の表現も可能である。1実施形態では、センシティブな知識はシードキーワードのリストではなくアルコール依存症または性感染症といった1単語のみを含むトピックに基づいてもよい。このようなケースを扱うために、本システムはセンシティブなトピックをシードキーワードのリストに変換する前処理動作を実行する。これを行う一つの方法として、センシティブなトピックを含む参照集合Rのドキュメントについて検索クエリーを発し、TF.IDF分析を使用してこのようなドキュメントからセンシティブなトピックについてのシードキーワードの拡張セットを抽出するという方法がある。
図2は、本発明の1実施形態に係るプライバシーポリシー強化プロセスを示す例示的なフローチャートである。動作時、本システムはプライバシーポリシー、トレーニングドキュメントのセット、シードキーワードのセットを受け取る(動作202)。本システムはこのトレーニングドキュメントを分析してキーワードを抽出し(動作204)、これに対応する検索クエリーを作成する(動作206)。検索エンジンはこのクエリーに基づいてウェブ(または別の種類のコーパス)上で検索を実行し、多数のヒットを戻す(動作208)。
引き続き本システムはNLP技術を使用して検索エンジンが戻したヒットを分析し(動作210)、このヒットからキーワードを抽出する(動作212)。次いで本システムは、ヒットから抽出したキーワードがシードキーワードのいずれかにマッチするかどうかを判定する(動作214)。もしマッチするならば、本システムは動作204で得た対応するキーワードをセンシティブな単語のリストに追加する(動作216)。マッチしなければ(もしくは動作216が終了すると)、本システムはヒットから抽出した全てのキーワードをシードキーワードと比較したかどうかの判定に進む(動作218)。判定が否定されると、本システムは動作214に戻る。判定が肯定されると、本システムはセンシティブな単語のリストを戻し、このセンシティブな単語をプライバシーポリシーに関連付ける(動作220)。
図3は、本発明の1実施形態に係るプライバシーポリシーの強化および実行のためのコンピュータシステムを示す。コンピュータシステム302は、プロセッサ304、メモリ306、記憶装置308を含む。コンピュータシステム302は、ディスプレイ314、キーボード310、ポインティングデバイス312に接続もしている。記憶装置308は、プライバシーポリシー強化アプリケーション316とアプリケーション320、322を保存している。さらに、プライバシーポリシー強化アプリケーション316は、プライバシーポリシー強化プロセス時にドキュメントからのキーワードの抽出を行うTF.IDF分析モジュール318を含む。動作時、プライバシーポリシー強化アプリケーション316はメモリ306にロードされ、プロセッサ304によって実行される。コンピュータシステム302をインターネットに接続することで別個の検索エンジンによってウェブ検索を行えることに注目されたい。
本発明の1実施形態に係るプライバシーポリシー強化システムの例示的なブロック図である。 本発明の1実施形態に係るプライバシーポリシー強化プロセスを示す例示的なフローチャートである。 本発明の1実施形態に係るプライバシーポリシーの強化および実行のためのコンピュータシステムを示す。
符号の説明
100 プライバシーポリシー
106 キーワード
108 コーパス
112 検索エンジン

Claims (3)

  1. プライバシーポリシーを強化するためにコンピュータが実行する方法であって、
    トレーニングドキュメントのセットとプライバシーポリシーに関連付けられた1つのシードキーワードとを取得し、
    前記トレーニングドキュメントから1つのキーワード候補を抽出し、
    前記キーワード候補を含むクエリーをコーパスに発し、
    結果ドキュメントの第1のセットを受け取り、
    前記キーワード候補と前記シードキーワードとを含むクエリーをコーパスに発し、
    結果ドキュメントの第2のセットを受け取り、
    前記第2のセットに含まれるドキュメントの数を前記第1のセットに含まれるドキュメントの数で除した値が極めて1に近いか否かを判定し、
    前記判定が肯定された場合、前記キーワード候補を前記プライバシーポリシーに関連付けることによって、前記プライバシーポリシーを強化する、
    方法。
  2. 結果ドキュメントそれぞれに含まれる単語またはフレーズについて用語の出現頻度・ドキュメントの逆出現頻度(TF.IDF)の重みを決定することで、前記結果ドキュメントからキーワードを抽出する、ことをさらに含む、請求項1記載の方法。
  3. キーワード候補と各シードキーワードとの推論の強さを評価し、
    キーワード候補が少なくとも1つのシードキーワードにマッチするかどうかを判定する際に評価した強さを使用する、
    ことをさらに含む、請求項1記載の方法。
JP2008286373A 2007-11-29 2008-11-07 プライバシーポリシーを強化するためにコンピュータが実行する方法 Expired - Fee Related JP5452823B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/947,292 US8458179B2 (en) 2007-11-29 2007-11-29 Augmenting privacy policies with inference detection
US11/947,292 2007-11-29

Publications (2)

Publication Number Publication Date
JP2009134714A JP2009134714A (ja) 2009-06-18
JP5452823B2 true JP5452823B2 (ja) 2014-03-26

Family

ID=40676782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008286373A Expired - Fee Related JP5452823B2 (ja) 2007-11-29 2008-11-07 プライバシーポリシーを強化するためにコンピュータが実行する方法

Country Status (2)

Country Link
US (1) US8458179B2 (ja)
JP (1) JP5452823B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732176B2 (en) * 2009-04-28 2014-05-20 Palo Alto Research Center Incorporated Web-based tool for detecting bias in reviews
JP5568907B2 (ja) * 2009-07-03 2014-08-13 日本電気株式会社 情報アセスメントシステム、情報アセスメント方法及びプログラム
US8533579B2 (en) * 2009-10-21 2013-09-10 Symantec Corporation Data loss detection method for handling fuzziness in sensitive keywords
US8954434B2 (en) * 2010-01-08 2015-02-10 Microsoft Corporation Enhancing a document with supplemental information from another document
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和系统
US9892279B2 (en) 2010-12-22 2018-02-13 Koninklijke Philips N.V. Creating an access control policy based on consumer privacy preferences
JP5930203B2 (ja) * 2012-12-11 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation サービスに対してアクセス制御をするための方法、並びに、そのコンピュータ及びコンピュータ・プログラム
JP2016033690A (ja) * 2012-12-26 2016-03-10 三菱電機株式会社 不正侵入検知装置、不正侵入検知方法、不正侵入検知プログラム及び記録媒体
US8918632B1 (en) 2013-01-23 2014-12-23 The Privacy Factor, LLC Methods for analyzing application privacy and devices thereof
US9015195B1 (en) 2013-01-25 2015-04-21 Google Inc. Processing multi-geo intent keywords
US9514161B2 (en) 2013-04-25 2016-12-06 International Business Machines Corporation Guaranteeing anonymity of linked data graphs
US9268950B2 (en) 2013-12-30 2016-02-23 International Business Machines Corporation Concealing sensitive patterns from linked data graphs
CN106375366A (zh) * 2016-05-31 2017-02-01 深圳市美贝壳科技有限公司 一种文件隐私保护系统
CN106548083B (zh) * 2016-11-25 2019-10-15 维沃移动通信有限公司 一种便签加密方法及终端
CN109766715B (zh) * 2018-12-24 2023-07-25 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及系统
JP7017531B2 (ja) * 2019-02-12 2022-02-08 Kddi株式会社 リスク判定装置、リスク判定方法及びリスク判定プログラム
CN110196901B (zh) * 2019-06-28 2022-02-11 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
JP2022542634A (ja) * 2019-08-07 2022-10-06 アクシオム エルエルシー データのエシカルな収集のためのシステム及び方法
CN113011165B (zh) * 2021-03-19 2024-06-07 支付宝(中国)网络技术有限公司 一种识别被封锁关键词的方法、装置、设备及介质
US20230385407A1 (en) * 2022-05-25 2023-11-30 Saudi Arabian Oil Company System and method for integrating machine learning in data leakage detection solution through keyword policy prediction

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864846A (en) * 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
US6038561A (en) * 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
KR100247938B1 (ko) * 1997-11-19 2000-03-15 윤종용 영상처리 시스템의 디지탈 초점 조절방법 및 장치
US6297847B1 (en) * 1998-08-03 2001-10-02 S3 Graphics Co., Ltd. Removal of interpolation artifacts in a non-interlaced video stream
US7162465B2 (en) * 2001-12-21 2007-01-09 Tor-Kristian Jenssen System for analyzing occurrences of logical concepts in text documents
US7409404B2 (en) * 2002-07-25 2008-08-05 International Business Machines Corporation Creating taxonomies and training data for document categorization
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
US7788131B2 (en) * 2005-12-15 2010-08-31 Microsoft Corporation Advertising keyword cross-selling
US8131756B2 (en) * 2006-06-21 2012-03-06 Carus Alwin B Apparatus, system and method for developing tools to process natural language text
US7822701B2 (en) * 2006-06-30 2010-10-26 Battelle Memorial Institute Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture
US20080104021A1 (en) * 2006-10-30 2008-05-01 Yigang Cai Systems and methods for controlling access to online personal information
US7734641B2 (en) * 2007-05-25 2010-06-08 Peerset, Inc. Recommendation systems and methods using interest correlation
US8027977B2 (en) * 2007-06-20 2011-09-27 Microsoft Corporation Recommending content using discriminatively trained document similarity

Also Published As

Publication number Publication date
JP2009134714A (ja) 2009-06-18
US20090144255A1 (en) 2009-06-04
US8458179B2 (en) 2013-06-04

Similar Documents

Publication Publication Date Title
JP5452823B2 (ja) プライバシーポリシーを強化するためにコンピュータが実行する方法
KR100741580B1 (ko) 광역 통신망을 이용한 검색에서 검색 목록들내 콘텐츠의적합도를 자동으로 결정하는 방법
US7720783B2 (en) Method and system for detecting undesired inferences from documents
US8989450B1 (en) Scoring items
US7657546B2 (en) Knowledge management system, program product and method
US9106698B2 (en) Method and server for intelligent categorization of bookmarks
CA2508060C (en) Search engine spam detection using external data
US20160171095A1 (en) Identifying and Displaying Relationships Between Candidate Answers
JP5053211B2 (ja) 自動推論検出によるインバウンド・コンテンツのフィルタリング
US20080086465A1 (en) Establishing document relevance by semantic network density
EP1435581A2 (en) Retrieval of structured documents
US9251249B2 (en) Entity summarization and comparison
US20060184500A1 (en) Using content analysis to detect spam web pages
US20110060736A1 (en) Query Revision Using Known Highly-Ranked Queries
US20150095320A1 (en) Apparatus, systems and methods for scoring the reliability of online information
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
Macdonald et al. Searching for expertise: Experiments with the voting model
CN117828042A (zh) 用于金融服务的问答处理方法、装置、设备及介质
Zhang et al. Weighted ontology-based search exploiting semantic similarity
CN110232157B (zh) 一种基于内容的隐私保护图书推荐方法及系统
AU2013214496A1 (en) A Search Method
Weir et al. Strategies for neutralising sexually explicit language
Huang et al. Constructing personal knowledge base: automatic key-phrase extraction from multiple-domain web pages
Lopes et al. Identification and classification of health queries: Co-occurrences vs. domain-specific terminologies
da Cruz Prediction of toxicity-generating news using machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140104

R150 Certificate of patent or registration of utility model

Ref document number: 5452823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees