JP2015511360A - 言語独立確率論的コンテンツ照合 - Google Patents

言語独立確率論的コンテンツ照合 Download PDF

Info

Publication number
JP2015511360A
JP2015511360A JP2014556580A JP2014556580A JP2015511360A JP 2015511360 A JP2015511360 A JP 2015511360A JP 2014556580 A JP2014556580 A JP 2014556580A JP 2014556580 A JP2014556580 A JP 2014556580A JP 2015511360 A JP2015511360 A JP 2015511360A
Authority
JP
Japan
Prior art keywords
content
pattern
document
segmented
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014556580A
Other languages
English (en)
Other versions
JP6169620B2 (ja
JP2015511360A5 (ja
Inventor
ガーンディー,マウクティク
ラマンナ,チャールズ
サンカラナラヤナン,ヴィヤラマン
ポンテス・フィルホ,ライムンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2015511360A publication Critical patent/JP2015511360A/ja
Publication of JP2015511360A5 publication Critical patent/JP2015511360A5/ja
Application granted granted Critical
Publication of JP6169620B2 publication Critical patent/JP6169620B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Storage Device Security (AREA)

Abstract

コンテンツを受け、コンテンツのタイプを識別するために規則と比較する。各規則は、セグメント化および非セグメント化パターンを有する。コンテンツをこれらのパターンと照合し、信頼性スコアを指定する。信頼性スコアは、コンテンツがセグメント化パターンと一致した場合より高くなり、コンテンツが非セグメント化パターンと一致した場合より低くなる。【選択図】図1

Description

[0001] 英語のような多くの言語は、テキストにおいて空白によって単語が分離される。これらのタイプの言語では、テキストにおいて単語を識別することを必要とする技術はいずれも非常に単純である。空白は、隣接する単語間の既知の限定子(delimiter)となる。これらのタイプの言語は、空白限定言語またはセグメント化言語(segmented language)と呼ばれる。
[0002] しかしながら、例えば、中国語、日本語、韓国語、およびベトナム語のような他の言語は、等しく離間された一連の文字として単に書かれるだけである。これらの言語は、単語間に空白がないことから、単語間に明白な分離がない。これらのタイプの言語は、非セグメント化言語と呼ばれる。非セグメント化言語に既知の限定子がないために、例えば、キー・ワードの正確な検出は非常に困難になる。
[0003] 同様に、非セグメント化言語では、全く同じ文字が、周囲のコンテキストに基づいて、異なることを意味する可能性がある。一例として、次のテキストは、
[0004] 単語セグメント化を有し、以下の表1のように翻訳される。
[0005] しかしながら、次のテキストは、
[0006] 以下の表2に示す翻訳となる。
[0007] 尚、表2におけるテキストは、第1の例では「クレジット・カード」と翻訳される同じ文字列を含む(強調されている)が、完全に異なる意味を有し、クレジット・カードとは全く関係ないことがわかる。
[0008] 加えて、非セグメント化言語では、種々の場所で改行が行われる可能性があり、このために、文字列においてキー・ワードを識別することが一層困難になる。
[0009] これは、種々の異なる分野で問題になる可能性がある。例えば、現在では、個人情報の拡散(dissemination)を管理する方針および規制には種々の異なる理由(sources)がある。ある種の情報を扱う組織は、これらの規制全てを遵守することを要求される。これらの規制は、例えば、政府から来る外部規制である可能性があり、またはある種の情報を会社内においてどのように拡散するかについて管理する内部規制である可能性がある。
[0010] 多くの場合、これらの規制および方針の対象になるコンテンツは、大量の規制または方針(内部および外部双方)を収容するハンドブックを有する情報作業者によって処理され、作業者は、これらの全てを熟知し遵守することが期待される。これらの方針を施行するとき、情報作業者によって作業される文書において機密情報を識別することを試みるシステムもある。このようにするときに、これらのシステムは、多くの場合、文書中の単語を調べて、所与の文書が機密か否か判断しようとする。例えば、「クレジット・カード」というようなキー・ワードが、機密コンテンツの指示として見られる。しかしながら、先に論じたように、これは、非セグメント化言語では識別するのが非常に困難である。
[0011] 以上の論述は、単に一般的な背景情報について示されたのであり、特許請求する主題の範囲を判断するときに補助として用いられることを意図するのではない。
[0012] コンテンツを受信し、コンテンツのタイプを識別するための規則と比較する。各規則は、セグメント化パターンおよび非セグメント化パターンの双方を有する。コンテンツをこれらのパターンと照合し、信頼性スコアが指定される。信頼性スコアは、コンテンツがセグメント化パターンと一致した場合高くなり、コンテンツが非セグメント化パターンと一致した場合に低くなる。
[0003] この摘要は、詳細な説明において以下で更に説明する概念から選択したものを、簡略化した形態で紹介するために設けられている。この摘要は、特許請求する主題の主要な特徴や必須の特徴を特定することを意図するのではなく、特許請求する主題の範囲を判断するときに補助として用いられることを意図するのでもない。また、特許請求する主題は、背景において特記した欠点のいずれかを解決する実施態様にも、欠点の全てを解決する実施態様にも限定されることはない。
図1は、言語独立コンテンツ判定システムの例示的な一実施形態のブロック図である。 図2は、図1に示すシステムの動作を表す流れ図の一実施形態である。 図3は、どのように信頼性レベルが指定されるかを示す、更に詳細なブロック図である。 図4は、コンテンツにおいてクレジット・カード・データーを識別するために使用することができる規則を定めるルール・ツリーの一実施形態である。 図4Aは、例示的なユーザー・インターフェースである。 図4Bは、例示的なユーザー・インターフェースである。 図5は、オーサリング・システムにおける言語独立コンテンツ判定システムの他の実施形態を示すブロック図である。 図6は、クラウド・ベース・アーキテクチャーにおける本システムの一実施形態を示す。 図7は、例示的な移動体デバイスである。 図8は、例示的な移動体デバイスである。 図9は、例示的な移動体デバイスである。 図10は、例示的な動作環境の一実施形態である。
[0023] 図1は、コンテンツ・ソース・システム102、言語独立コンテンツ判定システム104,およびコンテンツ処理システム106を含む、コンテンツ処理環境100のブロック図である。図1に示す実施形態では、システム104がソース・システム102からコンテンツ108を受信し、コンテンツ108の本質(nature)を判定し、コンテンツ108の本質を示すコンテンツ判定110を、コンテンツ処理システム106に供給する。コンテンツ処理システム106は、コンテンツ判定110によって識別されたように、コンテンツをその本質に基づいて処理する。
[0024] 本明細書に限って言うと、言語独立コンテンツ判定システム104は、コンテンツ108が機密コンテンツであるか否か判定し、それがデーター拡散方針の対象になるか否か判断するものと説明する。例えば、コンテンツ108が電子メール・メッセージである場合、このコンテンツを会社外部の個人に送ることができるか否か管理するデーター拡散方針があってもおかしくない(それが知的所有権コンテンツを含む場合のように)。加えて、データー拡散方針は、クレジット・カード情報、社会保障番号等のような個人情報を含む場合も、コンテンツの拡散を管理するとよい。加えて、しかしながら、野卑な文言を含む場合、コンテンツ108の拡散を管理する内部データー拡散方針がある場合もある。したがって、本明細書は、システム104が、データー拡散方針を適用できるように、コンテンツ108が機密か否か判断する場合について説明を進める。
[0025] しかしながら、コンテンツ108が機密か否か判断するとシステム104が説明されても、これはシステム104がどのように使用されるとよいかについての一例に過ぎないことを注記しておく。システム104は、コンテンツ108が異なる本質を有するか否かについても識別するために使用することができる。例えば、システム104は、電子メール・メッセージ(コンテンツ108)の調子が、怒り、肯定的、または否定的か識別することもできる。同様に、システム104は、コンテンツ108が異なる本質を有するか否かについて判断するためにも使用することができる。いずれの場合でも、コンテンツ処理システム106は、システム104によって判定されたコンテンツの本質に基づいて、コンテンツを処理する。
[0026] また、コンテンツ・ソース・システム102およびコンテンツ処理システム106が同じシステムであることができることも注記してしかるべきである。例えば、コンテンツ・ソース・システム102が、オーサリング・アプリケーションであることができ、電子メール・メッセージ、ワード・プロセッシング文書、スプレッドシート文書、スライド・ショー・プレゼンテーション文書、描画文書、または他のタイプの文書を作成する(author)ために使用される。したがって、コンテンツ108は、電子メール・メッセージ、添付書類、またはコンテンツ・ソース・システム102によって作成することができる他のあらゆるタイプの文書の本体であることができる。また、コンテンツ処理システム106をコンテンツ・ソース・システムに組み込んで、ユーザー101がコンテンツ・ソース・システム102において作成したコンテンツに、同じシステムによってデーター拡散方針が適用されるようにすることもできる。
[0027] 一例として、コンテンツ・ソース・システム102が電子メール・システムであり、ユーザー101がシステム102と対話処理して、コンテンツ108を含む電子メール・メッセージを生成すると仮定する。ユーザー102は、キーボード、ポイントおよびクリック・デバイス、音声、タッチ・ジェスチャーというようなユーザー入力メカニズム、または他のメカニズムを用いて対話処理することができる。いずれの場合でも、システム104は、メール・メッセージが機密素材を含むか否か判断することができ、含む場合、コンテンツ処理システム106を電子メール・システム(コンテンツ・ソース・システム102を含む)に組み込み、機密素材に関するデーター拡散方針を実施することができる。即ち、電子メール・システム(コンテンツを作成するために用いられる)は、コンテンツに基づいて、または受信者に基づいて、あるいは双方に基づいて、ある種の電子メール・メッセージを阻止することができる。同様に、他のデーター拡散方針も同様に採用することができる。
[0028] いずれの場合でも、言語独立コンテンツ判定システム104は、コンテンツ判定コンポーネント112と、1組のコンテンツ判定規則117および119を含む規則ストア115とを含む。各規則117、119は、ある種の機密情報を識別するために使用される。例えば、規則117は、コンテンツ108においてクレジット・カード番号を識別するために使用することができ、規則119は社会保障番号を識別するために使用することができる。これらは一例に過ぎない。例示的に、各規則はパターンを指定する。コンテンツ108が規則におけるパターンと一致する場合、このコンテンツは規則に対応する機密情報を含むと判断される。図1に示す実施形態では、各規則がセグメント化コンテンツ判定パターン114と、非セグメント化コンテンツ判定パターン116とを含む。図1は、規則117が他の1組の非セグメント化コンテンツ判定パターン118も有する実施形態を示す。図示する実施形態では、パターン114はセグメント化言語に対して動作し、パターン116および118は非セグメント化言語に対して動作する。勿論、セグメント化および非セグメント化言語を組み合わせることもできる。例えば、パターン114が英語だけに対して動作するのでも、全てのセグメント化言語に対して動作するのでもよい。同様に、パターン116は日本語に対して動作することができ、パターン118は中国語に対して動作することができ、一方他のセグメント化言語のために他の複数組のパターンを設けることもできる。あるいは、1組の非セグメント化パターン116を設け、1組のパターン116が全ての非セグメント化言語に対して動作するように構成することもできる。これについては、以下で更に詳しく説明する。
[0029] また、システム104は例示的にプロセッサー120も含む。プロセッサー120は、例示的に、関連するタイミングおよびメモリー回路(図示せず)を有するコンピューター・プロセッサーである。プロセッサー120は、例示的に、システム104の機能コンポーネントであり、システム104の他のコンポーネントの機能性を促進する(facilitate)ために、これらのコンポーネントによってアクティブ化される。
[0030] また、勿論、環境100は種々のシステムおよびコンポーネントに分解されて示されるが、これらのシステムおよびコンポーネントの機能性を互いに組み合わせてより少ないシステムまたはコンポーネントを有することができ、またはこれらを更に分割して追加のシステムおよびコンポーネントを有することもできる。図1に示すものは、説明のためだけに過ぎない。
[0031] 図2は、図1に示す環境の動作の一実施形態を示す流れ図である。言語独立コンテンツ判定システム104は、最初に、分析すべきコンテンツ108を受ける。これは、図2においてブロック130によって示される。コンテンツ判定コンポーネント112は、種々の規則117〜119にアクセスして、コンテンツ108の本質を識別する情報を検出する。これは、図2においてブロック132によって示される。
[0032] 一例として、コンテンツ判定コンポーネント112は、クレジット・カード情報がコンテンツ108内に存在するか否か確かめるために、規則117〜119にアクセスすることができる。これは、例えば、「クレジット・カード」、「MasterCard」、「Visa」、または「失効日」という単語に近接する16桁の数値を探すことによって行うことができる。
[0033] コンテンツ判定コンポーネント112は、例示的に、コンテンツ108の言語には関係なく、規則117〜119の全てを検索し、これらの規則のいずれかがコンテンツ108のいずれかの部分に当てはまるか否か判定する。したがって、システム104は、言語には関係なく、更にコンテンツ108が1つよりも多い言語の素材を含むか否かにも関係なく、コンテンツ108の本質を識別するために使用することができる。
[0034] いずれの場合でも、コンテンツ判定コンポーネント112は、次に、規則117〜119のいずれかがコンテンツ108に当てはまるか否か判定する。これは、図2においてブロック134によって示される。当てはまらない場合、システム104は、コンテンツ108の本質が機密であると識別することができず、単に、コンテンツは機密でないという判定というような、デフォルトのコンテンツ判定を出力する。これは、図2においてブロック136によって示される。
[0035] しかしながら、ブロック134において、コンテンツ判定コンポーネント112が、規則117〜119の内コンテンツ108に当てはまる少なくとも1つを識別した場合、コンテンツ判定コンポーネント112は、コンテンツ108の本質が機密であると識別することができる。次に、コンテンツ判定コンポーネント112は、図2においてブロック138によって示されるように、この判定に対する信頼性レベルを指定する。
[0036] 信頼性レベルは、種々の異なる方法で設定することができる。例えば、一実施形態では、規則117〜119が、最初に、コンテンツ108が16桁の数値を含むか否か、コンテンツ判定コンポーネント112に判定させる。含む場合、コンテンツ108は、その特定の規則によって定められるパターンに一致する。しかしながら、この規則は、コンテンツ判定コンポーネント112が、日付のような、「クレジット・カード」という単語のような等の共同証拠(collaborating evidence)を探すべきことを定めてもよい。当てはまる規則において識別され提示された共同証拠に基づいて、コンテンツ判定コンポーネント112は、信頼性レベルを指定する。信頼性レベルは、コンテンツがセグメント化パターンまたは非セグメント化パターンのどちらと一致したかに基づいて、そしてコンテンツ108において発見された共同証拠の量に基づいて変動し、コンテンツ108が機密素材を含むという判定をサポートする。
[0037] コンテンツ判定コンポーネント112は、次に、コンテンツ108の本質を、信頼性レベルと共に、コンテンツ判定110として出力する。コンテンツの本質をその信頼性レベルと共に出力することは、図2におけるブロック140によって示される。一例として、コンテンツ判定コンポーネント112は、コンテンツ108が、機密素材を含むという指示を、90パーセントの信頼性レベルと共に出力することができる。勿論、これは一例に過ぎない。
[0038] 一旦コンテンツ処理システム106がコンテンツ判定110を受けたなら、コンテンツ108の本質に基づいてコンテンツ108を処理する。これは、図2においてブロック142によって示される。コンテンツ処理システム106は、コンテンツが機密であるか否かに応じて、異なる規則を用いて、コンテンツ108を処理することができる。
[0039] 一例として、コンテンツ108が電子メール・メッセージであり、このメッセージの本体が機密コンテンツを含むか、またはこのメッセージの添付書類が機密コンテンツを含む場合、コンテンツ処理システム106は、コンテンツ108が機密素材を含むことを示し、ユーザー101にどのように処理を進めるか(許可された職員にしか送ってはいけないことを示すことによってというように)命令するメッセージを単に表示すればよい。あるいは、コンテンツ処理システム106が、電子メール・メッセージが機密素材を含むので、これを阻止することを示すのでもよい。勿論、コンテンツ処理システム106がコンテンツ108の受信先を分析して、電子メールを阻止するまたはそれを送る等というように、講ずるべき処置を決定することもできる。いずれの場合でも、コンテンツ処理システム106は、システム104によって出力されたコンテンツ108の本質に基づいて、コンテンツ108を処理する。
[0040] 図3は、コンテンツ判定コンポーネント112がどのように信頼性レベルをコンテンツ判定110に指定するかについて示す更に詳細なブロック図である。図3に示す実施形態では、コンテンツ判定コンポーネント112は最初に、所与の規則において一致したパターンがセグメント化言語または非セグメント化言語のどちらに対するものか判定する。これは、図3においてブロック150によって示される。
[0041] 当てはまる規則が、英語のようなセグメント化言語に対するものである場合、これは、指定される信頼性レベルに影響を及ぼす。例えば、セグメント化言語は明確に区切られた単語(空白によって分離される)を有するので、規則の一部として一致したいずれのキー・ワードでも、非セグメント化言語において一致する場合に可能であるよりも、高い信頼性で一致することができる。先に論じたように、非セグメント化言語における文字列が正確に一致しても、その列はそのコンテキストに基づいて全く異なることを意味する可能性がある。このため、コンポーネント112は、文字列が規則およびコンテンツ108において同じことを意味することには余り確信がない。
[0042] したがって、コンテンツ判定コンポーネント112は、次に、所与の規則に対して一致したパターンをサポートするために発見された確証(corroboration)のレベルを判定する。これは、ブロック152によって示される。次いで、コンポーネント112は、一致したパターンおよび識別された確証に基づいて、信頼性スコアを指定する。これはブロック154によって示される。
[0043] 一具体例として、一致したセグメント化言語に対する規則がクレジット・カード情報を探していると仮定する。一実施形態では、この規則は、最初に、コンテンツ108が16桁の数値を含まなければならないことを指定する主要パターンにコンテンツ108が一致することを要求する。更に、コンテンツ108が16桁の数値を含むと仮定する。したがって、セグメント化言語においてこの規則によって要求されるパターンが一致したことになる。更に、確証証拠を発見するために、この規則は、16桁の数値に加えて、コンテンツ108にも存在するかもしれないある種のキー・ワードを含む確証パターン部分を含むことを仮定する。このようなキー・ワードは、「クレジット・カード」、「失効日」等を含むことができる。次いで、コンテンツ判定コンポーネント112は、確証データーのいずれかがコンテンツ108において一致したか否か判断する。一致したパターンはセグメント化言語に対応するので、コンテンツ判定コンポーネント112は、確証データーにおける単語がパターンおよびコンテンツ108双方において同じことを意味することを強く確信することができる。即ち、規則におけるキー・ワードの1つが「クレジット・カード」であり、コンテンツ判定コンポーネント112が「クレジット・カード」という単語をコンテンツ108において発見した場合、コンテンツ判定コンポーネント112は、既に一致した16桁の数値が実際にクレジット・カード番号であることを強く確信することができる。コンテンツ判定コンポーネント112がコンテンツ108において「失効日」という単語も発見した場合、信頼性レベルは一層高くなる。規則において一致した主要パターンおよび対応する確証パターンに基づいて、信頼性レベルが指定される。
[0044] あるいは、ブロック150において、当てはまる規則に対するパターンが非セグメント化言語に対応すると判定された場合、コンテンツ判定コンポーネント112は、再度、一致したパターンをサポートする確証データーを探す。これは、図3においてブロック156によって示される。しかしながら、セグメント化言語とは異なり、コンテンツ判定コンポーネント112が確証データーであるキー・ワードの一致を見出しても(match)、キー・ワードが規則において同じものを意味することは、コンテンツ108における程確信することはできない。したがって、コンテンツ108において確証データーを突き止める(locate)ことは非セグメント化言語に対しても信頼性レベルを高めるが、セグメント化言語に対する程には信頼性レベルを高めることはできない。
[0045] 具体例として、非セグメント化言語に対するパターンは、コンテンツ108が16桁の数値を含むことを必要とすると仮定する。更に、コンテンツ108は16桁の数値を含むと仮定する。次いで、パターンは、コンテンツ判定コンポーネント112に、英語に変換されたときに、英語の「クレジット・カード」という単語に対応する文字列をコンテンツ108において探すように求める。コンテンツ判定コンポーネント112がコンテンツ108においてその文字列を突き止めたとしても、これは、その文字列が「クレジット・カード」という意味を有することを意味しない。実際、クレジット・カードとは関係ない全く異なる意味をコンテンツ108のコンテキストでは有するかもしれない。これは、先に「背景」の章で例示された。したがって、コンテンツ判定コンポーネント112はその判定の信頼性レベルを高めるが、セグメント化言語の場合における程には高められないかもしれない。しかしながら、いずれの場合でも、信頼性スコアは、規則において一致したパターン、および識別された確証データーに基づいて指定される。これは、図3においてブロック158によって示される。
[0046] 図4は、コンテンツ108のようなコンテンツの本体内においてクレジット・カード・データーを検出するための規則を定めるために用いられる階層的ツリー構造170を示す。構造170は、規則がクレジット・カード・データーを検出するために使用されることを示すヘッド・ノート172を含む。名称ノード174は、特定の規則に名称を付け(この場合、「クレジット・カード」と命名される)、記述ノード176は、規則が何をするかについて説明する。この場合、規則がクレジット・カード情報を含むコンテンツを識別しようとすることを記述するテキスト記述を含み、更に、クレジット・カード情報が検出されたときにこの情報をどのように保護するかについても記述することができる。
[0047] 次に、構造170は、3つのパターン・ノード178、180、および182を含む。パターン・ノード178は、セグメント化言語においてクレジット・カード・データーを識別するために使用することができる1組のパターンおよび確証データーを定める。ノード178は、パターンを更に定める1組の子ノード184、186、および188を含む。ノード184は、照合される規則に対して、16桁の数値という形態である規則的な表現がコンテンツにおいて発見されることを示す。この規則的な表現が発見されると、確証ノード188が随意照合(optional matches)を識別する。随意照合は、16桁の数値がクレジット・カード番号であるという判定を確証するために使用することができる。一実施形態では、ノード188は、クレジット・カードに関係し、ノード178によって表される1つ以上のセグメント化言語(英語のような)において提示されるキー・ワードのリストを含む。再度、一例として、キー・ワードは、「クレジット・カード」、「Visa」、「Master Card」、「失効日」等を含むことができる。信頼性ノード186は、16桁の数値が識別され、更に随意照合の少なくとも1つが識別されたコンテンツに関連付けられた信頼性レベルを定める。1つよりも多い随意照合(または確証照合)が識別された場合、信頼性レベル186は、高い信頼性を識別する追加の信頼性レベルを指定することができる。このように、ノード186は、コンテンツ判定コンポーネント112に、所与の規則および確証データーがノード178において一致したときに行われる機密判定に対して、どの信頼性レベルを指定するべきか指定する。
[0048] また、ノード180は、複数の子ノード190、192、および194も含む。主要照合ノード190は、この場合も、ノード182の発火(fire)に対応する規則に対して一致すべきパターンを指定する。図4に示す実施形態では、パターンは16桁の数値を構成する規則的な表現である。
[0049] 随意(または確証)照合ノード194は、一致したパターンをサポートする信頼性レベルに到達するために突き合わせることができる確証証拠を定める。図4に示す実施形態では、随意照合194は、1つ以上の非セグメント化言語におけるキー・ワードのリストを含む。勿論、このリストは、事実上、被分析コンテンツ内におけるコンテキストによっては意味が曖昧になる可能性がある文字列のリストで構成される。したがって、ノード180に対応するパターンは、ノード190における規則的な表現に一致し、ノード194における少なくとも1つのキー・ワードに一致しても、信頼性ノード192において識別される信頼性レベルが70パーセントに過ぎず、一方ノード186におけるセグメント化言語パターンに対しては90パーセントであったことを示す。したがって、同じタイプの一致がセグメント化および非セグメント化言語において生じたのであっても、対応する証拠が確かでない(less certain)ので、非セグメント化言語に対応する信頼性レベルの方が低い。
[0050] また、ノード182は複数の子ノード196、198、および200も含む。ノード182に対応するパターンによって定められるパラメーターは、ノード180に対して示したものと同様である。したがって、規則が発火するためにコンテンツ108において一致させるべき16桁の数値のような、規則的な表現を定める主要照合ノード196がある。しかしながら、随意照合ノード200は、コンテンツ108内に位置する可能性がある2つの異なるタイプの情報を含む。第1の情報は、ノード194において示したものと同様である。即ち、1つ以上の非セグメント化言語における1組のキー・ワードがリストに纏められる。これらのキー・ワードのいずれかがコンテンツ108において突き止められた場合、これらは確証データーとして役割を果たす。しかしながら、随意照合ノード200は、確証証拠が日付けを含むことができるとも述べている。例えば、クレジット・カード情報について話すとき、失効日を含むことは極普通である。したがって、16桁の数値がコンテンツ内で突き止められ、特定の非セグメント化キー・ワードがコンテンツ108内で突き止められ、更にこのコンテンツにおいて日付けが突き止められた場合、その情報がクレジット・カード情報である信頼性を高くすることができる。したがって、非セグメント化言語に対してであっても、ノード198によって表現される信頼性レベルは80パーセントになる。これは、キー・ワード一致の確信は低いが、日付けの一致によっても確証されるからである。
[0051] 尚、非セグメント化言語(図4におけるノード180および182に対応する)に対応する双方のパターンは、システム104が目的とする非セグメント化言語全てにおいてキー・ワードのリストを含むことができることは注記してしかるべきである。即ち、随意照合ノード194および200における1組のキー・ワードは、中国語、日本語、韓国語、ベトナム語等からの文字列を含むことができる。したがって、コンテンツ108においてどの非セグメント化言語が使用されるかには関係なく、パターン180および182において一致を得ることができる。同様に、パターン178に対応するセグメント化言語における随意照合ノード188も、本システムが動作することを意図する実質的に全てのセグメント化言語からの単語を含むことができる。つまり、ノード188は、英語、フランス語、ドイツ語、スペイン語等のキー・ワードのリストを含むことができる。このため、ノード178は全てのセグメント化言語に対して動作することができる。
[0052] また、図4に提示される構造170は、クレジット・カードを識別するために全ての所望の言語に対して動作するために使用することができるパターンを有する1つの規則を示すに過ぎないことも注記しておく。これは、使用することができる1つのタイプの構造に過ぎず、1つの規則例を示すに過ぎない。更に、開示した主要な一致および随意照合、ならびに信頼性レベルも一例に過ぎない。異なるものまたは追加のものも使用することができる。
[0053] 図4Aおよび図4Bは、理解を深めるために使用することができる2つの具体的なユーザー・インターフェース例を示す。図4Aは、ユーザー101が電子メール・メッセージをコンテンツ108として生成しているユーザー・インターフェース・ディスプレイ300を示す。ディスプレイ300における電子メール・メッセージは、例示的に、受信者部分302、主題部分304、および添付書類部分306、送信ボタン308、メッセージ本体部分310、およびユーザー教育部分312を有する。図4Aに示す実施形態では、ユーザー101は、本体部分310において短い電子メール・メッセージを生成し、添付文書部分306において文書を添付し終えている。この電子メール・メッセージには2人の受信者、ジョン・ドーおよびジェイソン・スミスがいる。
[0054] ユーザーが電子メール・メッセージ(コンテンツ108に対応する)を生成するに連れて、コンテンツ判定コンポーネント112もコンテンツ108を分析して、それが機密素材を含むか否か判断する。スプレッドシート添付書類が部分306において添付されるとき、コンテンツ判定コンポーネント112はその添付書類も分析する。
[0055] 図4Aに示す実施形態では、コンポーネント112は添付書類部分306を分析し、それが機密記録を含むことを発見した。したがって、コンテンツ処理システム106は、ユーザー・インターフェース・ディスプレイ300上において、部分312に通知314を生成する。通知314は、アイコン316、見出し318、説明320、および警告または命令322を含む。アイコン316は、部分312に表示される遵守メモ(compliance note)またはティップと関連付けることができる。これは、例示的に、何かのグラフィック画像を含み、この画像は、部分312において述べられる特定のデーター拡散方針に応じて変化することができる。勿論、アイコン316は静止アイコンとすることもできる。
[0056] 見出しメモ部分318は、データー拡散方針が、作成された電子メール・メッセージまたは添付書類に適用されることになることを単に示す見出しである。説明部分320は、この実施形態では、「この電子メールが機密記録を含む」ことを述べる。つまり、説明部分320は、データー拡散方針がこの電子メール・メッセージに適用されることになる理由を記述する。警告または命令部分322は、「これが許可された受信者に送られることを確認しなさい」と述べる。この部分は、実施される特定のデーター拡散方針にどのように従うか、ユーザーに命令する。したがって、ディスプレイ300の部分312において、部分318はユーザーにデーター拡散方針が実施されていることを通知し、説明部分320および警告または命令部分322は、データー拡散方針が実施されている理由について、そしてこの方針にどのように従うかについてユーザー101を教育する。これは、文書が作成されている間に、そしてユーザー101に表示されている間に、文書自体のコンテキストにおいて全て行われる(電子メール・メッセージおよび添付書類)。
[0057] 図4Aに示す実施形態では、添付書類324が強調されることも見ることができる。一実施形態では、電子メール・メッセージ(コンテンツ108)において機密である部分が、例示的に、ディスプレイ300においてそれを区別する何らかのタイプの視覚的合図によって示される。図4Aに示す実施形態では、添付書類324は、例示的に、黄色のような、ユーザー・インターフェース・ディスプレイ300の残りの部分とは異なる色で強調される。これは、添付書類324が、説明部分320において述べられた機密記録を含む電子メールの部分であることを示す。
[0058] 図4Bは、生成することができる他のユーザー・インターフェース・ディスプレイ330を示す。ユーザー・インターフェース・ディスプレイ330上の多数の項目は、図4Aに示したものと同様であり、同様の番号が付けられる。しかしながら、多数の相違にも気付くことができる。図4Bから、機密情報は、添付書類内ではなく、電子メール・メッセージの本体310に含まれることがわかる。したがって、ユーザー101が電子メール・メッセージの本体310をタイプ入力していくに連れて、コンテンツ判定コンポーネント112がこのコンテンツを分析して行き、本体310においてクレジット・カード番号を識別する。勿論、この実施形態のために、実際の番号は文字x、y、およびzと置き換えられている。この電子メール・メッセージは機密情報を含むので、データー拡散方針がこの電子メールに適用される。図示する実施形態では、部分312における説明部分320が、この電子メールに関して何故データー拡散方針が適用されるのかだけでなく、コンテンツ処理システム106によって講ぜられることになる処置についても記述する。遵守メモは、「この電子メールは、機密内容を含むので、貴方の組織によって阻止される。」ことを述べる。これは、データー拡散方針が何故実施されるか(電子メールが機密内容を含むので)示すだけでなく、システム106がその方針のためにこの電子メールをどうしようとしているのか(それを阻止する)についてユーザーを教育する。
[0059] 図5は、オーサリング・システム402内部で実行されるオーサリング・アプリケーション400内において言語独立コンテンツ判定システム104が展開される、更に具体的な実施形態を示すブロック図である。オーサリング・システム402は、例示的に、プロセッサー404を含む。プロセッサー404は、ユーザー101が、ユーザー・デバイス406を通じて、オーサリング・システム402と対話処理できるように、オーサリング・アプリケーションを実行するために使用される。ユーザー・デバイス406は、デスクトップ・コンピューター、ラップトップ・コンピューター、パームトップまたはタブレット・コンピューター、移動体デバイス、スマート・フォン、パーソナル・ディジタル・アシスタント、マルチメディア・プレーヤー等のような、いずれのタイプのユーザー・デバイスでも可能である。具体的な一例として、オーサリング・システム402がワード・プロセッシング・オーサリング・アプリケーション400を実行しており、ユーザー101がアプリケーション400を実行してワード・プロセッシング文書408を生成することができると仮定する。図5に示す実施形態では、言語独立コンテンツ判定システム104およびコンテンツ処理コンポーネント106の双方が、オーサリング・アプリケーション400内に埋め込まれる。したがって、ユーザー101が文書408を作成して行くと、システム104およびコンポーネント106は文書408のコンテンツを分析し、その本質を判定し(それが機密か否かというような本質)、それに応じて文書408を処理していく(データー拡散方針を機密情報に施行することによってとうように)。図5は、単に、コンテンツを作成するために使用されるアプリケーション内にシステム104およびコンポーネント106を埋め込むことができることを示すために提示されるに過ぎない。
[0060] また、環境100は、広範囲におよぶ種々の異なるアーキテクチャーにも展開できることも注記してしかるべきである。環境100の異なる部分をユーザー・デバイス406上またはサーバー上に展開することができ、あるいはこれらを1つ以上のクライアントおよび1つ以上のサーバー間で分割することもできる。加えて、環境100の部分が、クラウド・ベース・アーキテクチャー内に展開されるクラウド・ベース・サービスであることもできる。
[0061] クラウド計算アーキテクチャーは、例示的に、インフラストラクチャー、プラットフォーム、およびアプリケーションを含む。クラウド・サービスは、クラウド・サーバー、デスクトップ・コンピューター、タブレット・コンピューター、ラップトップ・コンピューター、セルラ・フォンまたはスマート・フォンあるいは他の移動体デバイス、あるいはパーソナル・ディジタル・アシスタントというような他のデバイスまたはシステムに結合される。クラウド計算は、製品ではなく、計算、ソフトウェア、データー・アクセス、および記憶サービスを提供し、エンド・ユーザーは、サービスを配信するシステムの物理的位置や構成を知る必要がない。種々の実施形態において、クラウド計算は、インターネットのようなワイド・エリア・ネットワークを通じて、しかるべきプロトコルを使用して、サービスを配信する。例えば、クラウド計算プロバイダーは、ワイド・エリア・ネットワークを通じてアプリケーションを配信し、ウェブ・ブラウザーまたは何らかの他の計算コンポーネントによってこれらのアプリケーションにアクセスすることができる。環境100のソフトウェアまたはコンポーネント、および対応するデーターは、クラウドにおける離れた位置にあるサーバーに格納することができる。クラウド計算環境における計算リソースは、離れたデーター・センター一において結集することができ、またはこれらを分散させることができる。クラウド計算インフラストラクチャーは、ユーザーにとって1つのアクセス・ポイントのように見えても、共有データー・センターを通じてサービスを配信することができる。つまり、本明細書において説明するコンポーネントおよび機能は、離れた位置にあるサービス・プロバイダーによって、クラウド計算アーキテクチャーを用いて提供することができる。代わりに、これらを従来のサーバーから提供することもでき、またはこれらをクライアント・デバイスに直接または他の方法でインストールすることもできる。
[0062] 図6は、クラウド計算環境における言語独立コンテンツ判定システム104、コンテンツ処理システム106、およびコンテンツ・ソース・システム102を示す。これらのシステムの全ては、クラウド420内に示される。ユーザー101は、ユーザー・デバイス406を通じて提供されるサービスとして、これらにアクセスする。
[0063] 図7は、ユーザー・デバイス(またはクライアント・デバイス)406として使用することができるハンドヘルド・デバイスまたは移動体計算デバイスの例示的な一実施形態の簡略ブロック図であり、この中に本システム(またはその一部)を展開することができ、または本システムにアクセスするために使用することができる。図8および図9は、ハンドヘルドまたは移動体デバイスの例である。
[0064] 図7は、ユーザー・デバイス406であることができ環境100のコンポーネントを実行することができる、または環境100と相互作用することができるクライアント・デバイス16のコンポーネントの全体的なブロック図を示す。デバイス16において、通信リンク13が提供され、ハンドヘルド・デバイスが他の計算デバイスと通信することができ、ある実施形態の下では、スキャニングによってというように、情報を自動的に受信するためのチャネルを提供する。通信リンク13の例には、赤外線ポート、シリアル/USBポート、イーサネット(登録商標)・ポートのようなケーブル・ネットワーク・ポート、およびワイヤレス・ネットワーク・ポートが含まれ、1つ以上の通信プロトコルによる通信を可能にする。通信プロトコルには、一般パケット無線サービス(GPRS)、1Xrtt、およびショート・メッセージ・サービスが含まれる。これらは、ネットワークへのセルラ・アクセスを提供するために使用されるワイヤレス・サービス、ならびに802.11および802.11b(Wi-Fi)プロトコル、更にはBluetooth(登録商標)プロトコルであり、ネットワークへのローカル・ワイヤレス接続を提供する。
[0065] 他の実施形態の下では、アプリケーションまたはシステム(環境100のような)はリムーバブル・セキュア・ディジタル(SD)カード上で受け取られる。SDカードは、SDカード・インターフェース15に接続される。SDカード・インターフェース15および通信リンク13は、バス19に沿って、プロセッサー17と通信する。バス19は、メモリー21および入力/出力(I/O)コンポーネント23、ならびにクロック25および位置検出システム27にも接続される。
[0066] I/Oコンポーネント23は、一実施形態では、入力および出力動作を容易にするために設けられる。デバイス16の種々の実施形態では、I/Oコンポーネント23は、ボタン、タッチ・センサー、タッチ・スクリーン、近接センサー、マイクロフォン、傾きセンサー、および重力スイッチというような入力コンポーネント、ならびにディスプレイ・デバイス、スピーカー、および/またはプリンター・ポートというような出力コンポーネントを含むことができる。他のI/Oコンポーネント23も使用することができる。
[0067] クロック25は、例示的に、時刻および日付けを出力するリアル・タイム・クロック・コンポーネントを含む。また、これは例示的にプロセッサー17にタイミング機能を提供することもできる。
[0068] 位置検出システム(location system)27は、例示的に、デバイス16の現在の地理的位置を出力するコンポーネントを含む。これは、例えば、汎地球測位システム(GPS)受信機、LORANシステム、自立航法システム(dead reckoning system)、セルラ三角測量システム、または他の測位システムを含むことができる。また、これは、例えば、所望の地図、ナビゲーション経路、および他の地理的機能を生成する地図作成ソフトウェアまたはナビゲーション・ソフトウェアも含むことができる。
[0069] メモリー21は、オペレーティング・システム29、ネットワーク設定値31、アプリケーション33、アプリケーション構成設定値35、データー・ストア37、通信ドライバー39、および通信構成設定値41を格納する。メモリー21は、全てのタイプの有形揮発性および不揮発性コンピューター読み取り可能メモリー・デバイスを含むことができる。また、これはコンピューター記憶媒体(以下で説明する)も含むことができる。メモリー21は、コンピューター読み取り可能命令を格納する。コンピューター読み取り可能命令は、プロセッサー17によって実行されると、このプロセッサーに、命令にしたがってコンピューター実施ステップまたは機能を実行させる。システム100の一部が、例えば、メモリー21内に存在することができる。プロセッサー17は、他のコンポーネントによって、それらの機能実行を容易にするためにアクティブ化することもできる。
[0070] ネットワーク設定値31の例には、近接情報、インターネット接続情報、および地図作成(mapping)というようなものが含まれる。アプリケーション構成設定値35は、特定の企業またはユーザーに合わせてアプリケーションを特別に構成する設定値を含む。通信構成設定値41は、他のコンピューターと通信するためのパラメーターを供給し、GPRSパラメーター、SMSパラメーター、接続ユーザー名およびパスワードというような項目を含む。
[0071] アプリケーション33は、デバイス16上に以前に格納されていたアプリケーション、または使用中にインストールされるアプリケーションとすることができるが、これらはオペレーティング・システム29の一部であること、またはデバイス16の外部にホストされることも可能である。
[0072] 図8および図9は、使用することができるデバイス16の例を示すが、他のものを使用することもできる。図8において、スマート・フォンまたは移動体電話機45がデバイス16として示される。電話機45は、電話番号をダイアルするための1組のキーパッド47、アプリケーションの画像、アイコン、ウェブ・ページ、写真、およびビデオを含む画像を表示することができるディスプレイ49、ならびにこのディスプレイ上に示される項目を選択するための制御ボタン51を含む。この電話機は、総合パケット無線サービス(GPRS)および1Xrttのようなセルラ・フォン信号、ならびにショート・メッセージ・サービス(SMS)信号を受信するためのアンテナ53を含む。実施形態では、電話機45が、SDカード57を受け入れるセキュア・ディジタル(SD)カード・スロット55も含む場合もある。
[0073] 図9の移動体デバイスは、パーソナル・ディジタル・アシスタント(PDA)59、あるいはマルチメディア・プレーヤー、またはタブレット計算デバイス等である(以後PDA59と呼ぶ)。PDA59は誘導性スクリーン61を含み、スタイラス63(またはユーザーの指というような他のポインター)がこのスクリーン上に位置付けられるときにこのスタイラスの位置を検知する。これによって、ユーザーはスクリーン上で項目を選択する、強調する、および移動させることができ、更に描画および書き込みも行うことができる。また、PDA59は多数の入力キーまたはボタン(ボタン65のような)も含み、これらによって、ユーザーは、ディスプレイ61上に表示されるメニュー選択肢または他の表示選択肢全体にわたってスクロールすることができ、更に、ディスプレイ61に接触することなく、アプリケーションを変更すること、またはユーザー入力機能を選択することができる。図示しないが、PDA59は、他のコンピューターとのワイヤレス通信に備える内部アンテナおよび赤外線送受信機、ならびに他の計算デバイスとのハードウェア接続に備える接続ポートも含むことができる。このようなハードウェア接続は、通例、シリアル・ポートまたはUSBポートを介して他のコンピューターに接続するクレードルによって行われる。したがって、これらの接続は非ネットワーク接続である。一実施形態では、移動体デバイス59は、SDカード69を受け入れるSDカード・スロット67も含む。
[0074] 尚、デバイス16の他の形態も可能であることを注記しておく。その例には、タブレット計算デバイス、音楽またはビデオ・プレーヤー、および他のハンドヘルド計算デバイスが含まれる。
[0075] 図10は、環境100(例えば)を展開することができる計算環境800の一実施形態である。図10を参照すると、実施形態を実現するためのシステム例は、コンピューター810の形態とした汎用計算デバイスを含む。コンピューター810のコンポーネントには、処理ユニット820(プロセッサー114を含むことができる)、システム・メモリー830、およびシステム・メモリーから処理ユニット820までを含む種々のシステム・コンポーネントを結合するシステム・バス821を含むことができるが、これらに限定されるのではない。システム・バス821は、メモリー・バスまたはメモリー・コントローラ、周辺バス、および種々のバス・アーキテクチャーの内いずれかを使用するローカル・バスを含む、様々なタイプのバス構造のいずれでもよい。一例として、そして限定ではなく、このようなアーキテクチャーは、業界標準アーキテクチャー(ISA)バス、マイクロ・チャネル・アーキテクチャー(MCA)、拡張ISA(EISA)バス、ビデオ電子規格連合(VESA)ローカル・バス、およびMezzanineバスとしても知られる周辺コンポーネント相互接続(PCI)バスを含む。図1に関して説明したメモリーおよびプログラムは、図10の対応する部分に展開することができる。
[0076] コンピューター810は、通例、種々のコンピューター読み取り可能媒体を含む。コンピューター読み取り可能媒体は、コンピューター810によってアクセスすることができるいずれの入手可能な媒体とすることもでき、揮発性および不揮発性、ならびにリムーバブルおよび非リムーバブル媒体の双方を含む。一例として、そして限定ではなく、コンピューター読み取り可能媒体は、コンピューター記憶媒体および通信媒体を含むことができる。コンピューター記憶媒体は、変調データー信号または搬送波とは異なり、これらを含まない。コンピューター記憶媒体は、揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含み、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、または他のデーターというような情報の格納のためのいずれかの方法または技術で実現される。コンピューター記憶媒体は、RAM、ROM、EEPROM、フラッシュ・メモリーまたは他のメモリー技術、CD−ROM、ディジタル・バーサタイル・ディスク(DVD)または他の光ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージまたは他の磁気記憶デバイス、または所望の情報を格納するために使用することができそしてコンピューター810によってアクセスすることができる他のあらゆる媒体を含むが、これらに限定されるのではない。通信媒体は、通例、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、または他のデーターをある伝達メカニズムに具体化し、あらゆる情報配信媒体を含む。「変調データー信号」という用語は、その信号内に情報をエンコードするようなやり方で、その特性の1つ以上が設定または変更された信号を意味する。一例として、そして限定ではなく、通信媒体は、有線ネットワークまたは直接有線接続というような有線媒体と、音響、RF、赤外線、および他のワイヤレス媒体というようなワイヤレス媒体とを含む。以上のいずれの組み合わせも、コンピューター読み取り可能媒体の範囲に含まれてしかるべきである。
[0077] システム・メモリー830は、リード・オンリー・メモリー(ROM)831およびランダム・アクセス・メモリー(RAM)832のような、揮発性および/または不揮発性メモリーの形態としたコンピューター記憶媒体を含む。基本入力/出力システム833(BIOS)は、起動中におけるように、コンピューター810内部にあるエレメント間で情報を転送するのに役立つ基本的なルーチンを含み、通例ROM831に格納される。RAM832は、通例、処理ユニット820によって直ちにアクセス可能なデーターおよび/またはプログラム・モジュール、および/または現在処理ユニット820によって処理されているデーターおよび/またはプログラム・モジュールを含む。一例として、そして限定ではなく、図10は、オペレーティング・システム834、アプリケーション・プログラム835、他のプログラム・モジュール836およびプログラム・データー837を示す。
[0078] また、コンピューター810は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピューター記憶媒体も含むことができる。一例としてに過ぎないが、図10は、非リムーバブル、不揮発性磁気媒体に対して読み取りまたは書き込みを行うハード・ディスク・ドライブ841、リムーバブル、不揮発性磁気ディスク852に対して読み取りまたは書き込みを行う磁気ディスク・ドライブ851、およびCD−ROMまたは他の光媒体のようなリムーバブル、不揮発性光ディスク856に対して読み取りまたは書き込みを行う光ディスク・ドライブ855を示す。この動作環境例において使用することができる他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピューター記憶媒体には、磁気テープ・カセット、フラッシュ・メモリー・カード、ディジタル・バーサタイル・ディスク、ディジタル・ビデオ・テープ、ソリッド・ステートRAM、ソリッド・ステートROM等が含まれるが、これらに限定されるのではない。ハード・ディスク・ドライブ841は、通例、インターフェース840のような非リムーバブル・メモリー・インターフェースを介してシステム・バス821に接続され、磁気ディスク・ドライブ851および光ディスク・ドライブ855は、通例、インターフェース850のようなリムーバブル・メモリー・インターフェースによってシステム・バス821に接続される。
[0079] 以上で論じ図10に示すこれらのドライブおよびそれに関連するコンピューター記憶媒体は、コンピューター810のためのコンピューター読み取り可能命令、データー構造、プログラム・モジュール、および他のデーターの格納を行う。図10では、例えば、ハード・ディスク・ドライブ841は、オペレーティング・システム844、アプリケーション・プログラム845、他のプログラム・モジュール845、およびプログラム・データー847を格納することが示される。尚、これらのコンポーネントは、オペレーティング・システム834、アプリケーション・プログラム835、他のプログラム・モジュール836、およびプログラム・データー837と同一であること、または異なることもできる。オペレーティング・システム844、アプリケーション・プログラム845、他のプログラム・モジュール846、およびプログラム・データー847は、ここでは、少なくともこれらが異なるコピーであることを示すために、異なる番号が与えられる。
[0080] ユーザーは、キーボード862、マイクロフォン863、およびマウス、トラックボール、またはタッチ・パッドのようなポインティング・デバイス861というような入力デバイスによって、コマンドおよび情報をコンピューター810に入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナー等を含むことができる。これらおよび他の入力デバイスは、多くの場合、ユーザー入力インターフェース860を介して処理ユニット820に接続される。ユーザー入力インターフェース860は、システム・バスに結合されるが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス(USB)のような他のインターフェースおよびバス構造によって接続されてもよい。また、モニター891または他のタイプのディスプレイ・デバイスも、ビデオ・インターフェース890のようなインターフェースを介して、システム・バス821に接続される。モニターに加えて、コンピューターは、スピーカー897およびプリンター896のような他の周辺出力デバイスも含むことができ、これらは出力周辺インターフェース895を介して接続されればよい。
[0081] コンピューター810は、リモート・コンピューター880のような1つ以上のリモート・コンピューターへの論理接続を使用して、ネットワーク接続環境 (networked environment)において動作することもできる。リモート・コンピューター880は、パーソナル・コンピューター、ハンドヘルド・デバイス、サーバー、ルーター、ネットワークPC、ピア・デバイス、または他の一般的なネットワーク・ノードであってよく、通例、コンピューター810に関して先に説明したエレメントの多くまたは全部を含む。図10に示す論理接続は、ローカル・エリア・ネットワーク(LAN)871およびワイド・エリア・ネットワーク(WAN)873を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境 (networking environment) は、事務所、企業規模のコンピューター・ネットワーク、イントラネット、およびインターネットでは極普通である。
[0082] LANネットワーキング環境において使用される場合、コンピューター810は、ネットワーク・インターフェースまたはアダプター870を介してLANに接続することができる。WANネットワーキング環境において使用される場合、コンピューター810は、通例、インターネットのようなWAN873を介して通信を確立するモデム872または他の手段を含む。モデム872は、内蔵型でも外付けでもよく、ユーザー入力インターフェース860または他のしかるべきメカニズムを介してシステム・バス821に接続することができる。ネットワーク接続環境では、コンピューター810に関して図示したプログラム、またはその一部が、リモート・メモリー記憶デバイスに格納されてもよい。一例として、そして限定ではなく、図10は、リモート・アプリケーション・プログラム885を、リモート・コンピューター880上に存在するものとして示す。尚、図示したネットワーク接続は一例であり、コンピューター間に通信リンクを確立する他の手段を使用してもよいことは認められよう。
[0083] 以上、構造的特徴および/または方法論的動作に特定の文言で本主題について説明したが、添付した特許請求の範囲において定められる主題は、必ずしも以上で説明した具体的な特徴や動作には限定されないことは、理解されてしかるべきである。逆に、以上で説明した具体的な特徴および動作は、特許請求の範囲を実現する形態例として開示されたまでである。

Claims (10)

  1. 文書のコンテンツを処理するコンピューター実装方法であって、
    前記コンテンツを第1タイプのコンテンツとして識別するために使用されるパターンを定める1組の規則にアクセスするステップであって、各規則が、セグメント化言語で書かれたテキスト・コンテンツおよび非セグメント化言語で書かれたテキスト・コンテンツとそれぞれ照合することができるセグメント化パターンおよび非セグメント化パターンを有する、ステップと、
    前記文書のコンテンツがセグメント化言語で書かれたかまたは非セグメント化言語で書かれたかには関係なく、各規則において、前記文書におけるコンテンツが前記第1タイプのコンテンツであるか否か判定するために、前記文書のコンテンツを前記パターンと照合するステップと、
    前記文書のコンテンツがセグメント化パターンまたは非セグメント化パターンのどちらと一致したかに基づいて、前記文書のコンテンツが前記第1タイプのコンテンツであるか否かについての判定に対応する信頼性スコアを生成するステップと、
    前記文書のコンテンツが前記第1タイプのコンテンツであるか否かについての前記判定、および前記対応する信頼性スコアに基づいて、前記文書のコンテンツを処理するステップと、
    を含む、コンピューター実装方法。
  2. 請求項1記載のコンピューター実装方法において、信頼性スコアを生成するステップが、
    前記文書のコンテンツがセグメント化パターンと一致した場合より高い信頼性スコアを生成し、前記文書のコンテンツが非セグメント化パターンと一致した場合より低い信頼性スコアを生成するステップを含む、コンピューター実装方法。
  3. 請求項1記載のコンピューター実装方法において、前記文書のコンテンツを処理するステップが、
    前記文書におけるコンテンツが、十分な対応する信頼性スコアで、前記第1タイプのコンテンツである場合、第1組の処理規則にしたがって、前記文書におけるコンテンツを処理するステップと、
    そうでない場合、第2組の処理規則にしたがって前記文書の内容を処理するステップと、
    を含む、コンピューター実装方法。
  4. 請求項1記載のコンピューター実装方法において、照合するステップが、
    各規則において、前記文書のコンテンツを、前記非セグメント化パターンおよび前記セグメント化パターンの双方と照合するステップを含み、
    各パターンが、主要照合パターンと、確証照合部分とを含み、照合するステップが、
    最初に前記文書のコンテンツを所与のパターンの前記主要照合部分と照合するステップと、
    前記文書のコンテンツが前記所与のパターンの主要照合部分と一致した場合、前記文書のコンテンツを前記確証照合部分と照合するステップと、
    前記文書のコンテンツが、前記所与のパターンの確証照合部分と一致した場合、第1信頼性スコアを前記一致に指定するステップと、
    を含む、コンピューター実装方法。
  5. 請求項4記載のコンピューター実装方法において、前記所与のパターンの確証照合部分が、複数の確証パターンを有し、前記文書のコンテンツを前記確証照合部分と照合するステップが、
    前記文書のコンテンツを前記複数の確証照合部分の各々と照合するステップと、
    前記文書のコンテンツが1つよりも多い確証照合パターンと一致した場合、前記信頼性スコアを増大させるステップと、
    を含む、コンピューター実装方法。
  6. 請求項1記載のコンピューター実装方法において、各規則が異なる種類の情報を識別し、前記情報が前記文書のコンテンツに含まれるとき、前記文書のコンテンツを機密コンテンツに認定し(render)、
    前記文書のコンテンツが機密コンテンツに識別されるか否かに基づいて、前記文書のコンテンツにデーター拡散規則を適用するステップを含む、コンピューター実装方法。
  7. 請求項6記載のコンピューター実装方法において、前記照合するステップが、
    前記文書のコンテンツを、クレジット・カード情報を識別する規則におけるパターンと照合するステップと、
    前記文書のコンテンツを、社会保障番号情報を識別する規則におけるパターンと照合するステップと、
    前記文書のコンテンツを、個人情報を識別する規則におけるパターンと照合するステップと、
    を含む、コンピューター実装方法。
  8. コンテンツ処理システムであって、
    複数の規則を含む規則データー・ストアであって、各規則が1つのタイプの情報に対応し、1組のセグメント化パターンと1組の非セグメント化パターンとを有する、規則データー・ストアと、
    コンテンツを受け、前記コンテンツが各規則に対応するタイプの情報を含むか否か判定するために、各規則において前記コンテンツを前記セグメント化パターンおよび前記非セグメント化パターンと照合するコンテンツ判定コンポーネントであって、前記コンテンツが所与の規則においてセグメント化パターンまたは非セグメント化パターンのどちらと一致したかに基づいて、前記コンテンツが所与の規則に対応するタイプの情報を含むか否かの判定に信頼性レベルを指定する、コンテンツ判定コンポーネントと、
    前記システムの機能コンポーネントであり、照合および信頼性レベルの指定を容易にするために前記コンテンツ判定コンポーネントによってアクティブ化されるコンピューター・プロセッサーと、
    を含む、コンテンツ処理システム。
  9. 請求項8記載のコンテンツ処理システムにおいて、前記コンテンツ判定コンポーネントが、前記コンテンツがセグメント化言語、非セグメント化言語、またはセグメント化および非セグメント化言語双方のいずれで書かれているかには関係なく、前記コンテンツを前記セグメント化パターンおよび前記非セグメント化パターンと照合し、前記コンテンツ判定コンポーネントが、前記コンテンツがセグメント化パターンと一致した場合、前記コンテンツが非セグメント化パターンと一致した場合よりも高い信頼性レベルを前記判定に指定する、コンテンツ処理システム。
  10. 請求項9記載のコンテンツ処理システムにおいて、規則における各パターンが、主要照合部分と、確証照合部分とを有し、前記コンテンツ判定コンポーネントが、前記コンテンツを最初に前記主要照合部分と照合し、次いで、前記コンテンツが前記主要照合部分と一致した場合、前記確証照合部分と照合し、前記確証照合部分が、複数の照合パターンを含み、前記コンテンツが前記確証照合部分において1つよりも多い前記複数の照合パターンと一致した場合、前記コンテンツ判定コンポーネントが増大した信頼性レベルを指定する、コンテンツ処理システム。
JP2014556580A 2012-02-07 2013-02-01 言語独立確率論的コンテンツ照合 Expired - Fee Related JP6169620B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/367,469 US9087039B2 (en) 2012-02-07 2012-02-07 Language independent probabilistic content matching
US13/367,469 2012-02-07
PCT/US2013/024244 WO2013119457A1 (en) 2012-02-07 2013-02-01 Language independent probabilistic content matching

Publications (3)

Publication Number Publication Date
JP2015511360A true JP2015511360A (ja) 2015-04-16
JP2015511360A5 JP2015511360A5 (ja) 2016-06-02
JP6169620B2 JP6169620B2 (ja) 2017-07-26

Family

ID=48903680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014556580A Expired - Fee Related JP6169620B2 (ja) 2012-02-07 2013-02-01 言語独立確率論的コンテンツ照合

Country Status (6)

Country Link
US (2) US9087039B2 (ja)
EP (1) EP2812810A4 (ja)
JP (1) JP6169620B2 (ja)
KR (1) KR102064623B1 (ja)
CN (2) CN104094250B (ja)
WO (1) WO2013119457A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880989B2 (en) 2012-01-30 2014-11-04 Microsoft Corporation Educating users and enforcing data dissemination policies
US9087039B2 (en) 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
US10834027B2 (en) * 2015-06-27 2020-11-10 Mcafee, Llc Protection of sensitive chat data
US10218654B2 (en) 2015-09-29 2019-02-26 International Business Machines Corporation Confidence score-based smart email attachment saver
EP3474275A4 (en) * 2016-06-21 2019-11-06 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10546154B2 (en) * 2017-03-28 2020-01-28 Yodlee, Inc. Layered masking of content
US10915657B2 (en) * 2017-07-19 2021-02-09 AVAST Software s.r.o. Identifying and protecting personal sensitive documents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181916A (ja) * 1998-12-17 2000-06-30 Fujitsu Ltd 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2008117287A (ja) * 2006-11-07 2008-05-22 Canon System Solutions Inc 情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体
JP2008537195A (ja) * 2005-02-14 2008-09-11 ヴォンテュ インコーポレイテッド 予め選択されたデータを含むメッセージを取り扱う方法及び装置
US20100024037A1 (en) * 2006-11-09 2010-01-28 Grzymala-Busse Witold J System and method for providing identity theft security

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
CA2129075C (en) 1993-10-18 1999-04-20 Joseph J. Daniele Electronic copyright royalty accounting system using glyphs
US6006242A (en) 1996-04-05 1999-12-21 Bankers Systems, Inc. Apparatus and method for dynamically creating a document
US6308148B1 (en) 1996-05-28 2001-10-23 Cisco Technology, Inc. Network flow data export
US6014135A (en) 1997-04-04 2000-01-11 Netscape Communications Corp. Collaboration centric document processing environment using an information centric visual user interface and information presentation method
US5958005A (en) 1997-07-17 1999-09-28 Bell Atlantic Network Services, Inc. Electronic mail security
US6148297A (en) 1998-06-01 2000-11-14 Surgical Safety Products, Inc. Health care information and data tracking system and method
US6104990A (en) 1998-09-28 2000-08-15 Prompt Software, Inc. Language independent phrase extraction
US6968308B1 (en) * 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US7610233B1 (en) 1999-12-22 2009-10-27 Accenture, Llp System, method and article of manufacture for initiation of bidding in a virtual trade financial environment
US6629081B1 (en) 1999-12-22 2003-09-30 Accenture Llp Account settlement and financing in an e-commerce environment
US6678409B1 (en) 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
DE60015709T2 (de) 2000-01-19 2005-11-10 Hewlett-Packard Development Co., L.P., Houston Sicherheitspolitik, die auf eine Gemeinschaftsdaten-Sicherheitsarchitektur angewendet wird
US6678698B2 (en) 2000-02-15 2004-01-13 Intralinks, Inc. Computerized method and system for communicating and managing information used in task-oriented projects
US6826609B1 (en) 2000-03-31 2004-11-30 Tumbleweed Communications Corp. Policy enforcement in a secure data file delivery system
AUPQ865700A0 (en) 2000-07-07 2000-08-03 Toneguzzo Group Pty Limited, The Content filtering and management
US6839707B2 (en) 2001-01-17 2005-01-04 General Electric Company Web-based system and method for managing legal information
US7181017B1 (en) 2001-03-23 2007-02-20 David Felsher System and method for secure three-party communications
US6990534B2 (en) 2001-07-20 2006-01-24 Flowfinity Wireless, Inc. Method for a proactive browser system for implementing background frame maintenance and asynchronous frame submissions
US20040205531A1 (en) 2001-08-17 2004-10-14 Innes Bruce Donald Method and application for developing a statement of work
US7725490B2 (en) 2001-11-16 2010-05-25 Crucian Global Services, Inc. Collaborative file access management system
US7260555B2 (en) 2001-12-12 2007-08-21 Guardian Data Storage, Llc Method and architecture for providing pervasive security to digital assets
US7113905B2 (en) 2001-12-20 2006-09-26 Microsoft Corporation Method and apparatus for determining unbounded dependencies during syntactic parsing
US7903549B2 (en) 2002-03-08 2011-03-08 Secure Computing Corporation Content-based policy compliance systems and methods
US9237514B2 (en) 2003-02-28 2016-01-12 Apple Inc. System and method for filtering access points presented to a user and locking onto an access point
US7809698B1 (en) 2002-12-24 2010-10-05 International Business Machines Corporation System and method remapping identifiers to secure files
US8020192B2 (en) 2003-02-28 2011-09-13 Michael Wright Administration of protection of data accessible by a mobile device
US9197668B2 (en) 2003-02-28 2015-11-24 Novell, Inc. Access control to files based on source information
US7493251B2 (en) 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
GB2405293B (en) 2003-08-18 2007-04-25 Clearswift Ltd Email policy manager
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
EP1747640B1 (en) 2004-04-30 2012-05-23 Research In Motion Limited Message service indication system and method
WO2005117466A2 (en) 2004-05-24 2005-12-08 Computer Associates Think, Inc. Wireless manager and method for managing wireless devices
US20060048224A1 (en) 2004-08-30 2006-03-02 Encryptx Corporation Method and apparatus for automatically detecting sensitive information, applying policies based on a structured taxonomy and dynamically enforcing and reporting on the protection of sensitive data through a software permission wrapper
US7454778B2 (en) 2004-09-30 2008-11-18 Microsoft Corporation Enforcing rights management through edge email servers
US7634735B2 (en) 2004-11-24 2009-12-15 Mccary David W Collaborative platform
JP4301513B2 (ja) 2004-11-26 2009-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション ポリシーを用いたアクセス制御効果の判定方法
US7533420B2 (en) 2004-12-09 2009-05-12 Microsoft Corporation System and method for restricting user access to a network document
US8140664B2 (en) 2005-05-09 2012-03-20 Trend Micro Incorporated Graphical user interface based sensitive information and internal information vulnerability management system
US7853472B2 (en) 2005-07-15 2010-12-14 Saudi Arabian Oil Company System, program product, and methods for managing contract procurement
US7925973B2 (en) 2005-08-12 2011-04-12 Brightcove, Inc. Distribution of content
JP4826265B2 (ja) 2006-01-25 2011-11-30 富士ゼロックス株式会社 セキュリティポリシ付与装置、プログラム及び方法
US20070239600A1 (en) 2006-04-10 2007-10-11 Lundberg Steven W System and method for annuity processing
US20070261099A1 (en) 2006-05-02 2007-11-08 Broussard Scott J Confidential content reporting system and method with electronic mail verification functionality
US7984283B2 (en) 2006-05-22 2011-07-19 Hewlett-Packard Development Company, L.P. System and method for secure operating system boot
US7876335B1 (en) 2006-06-02 2011-01-25 Adobe Systems Incorporated Methods and apparatus for redacting content in a document
US20070294428A1 (en) 2006-06-19 2007-12-20 Ido Guy Method and System for Email Messaging
US8001130B2 (en) 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
CN100423004C (zh) * 2006-10-10 2008-10-01 北京新岸线网络技术有限公司 基于内容的视频搜索调度系统
CA2667996A1 (en) 2006-10-30 2008-05-08 Dario Berini Computerized biometric passenger identification system and method
US8539349B1 (en) * 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
US8752181B2 (en) * 2006-11-09 2014-06-10 Touchnet Information Systems, Inc. System and method for providing identity theft security
US7953614B1 (en) 2006-11-22 2011-05-31 Dr Systems, Inc. Smart placement rules
WO2008070860A2 (en) * 2006-12-07 2008-06-12 Linker Sheldon O Method and system for machine understanding, knowledge, and conversation
US7797010B1 (en) 2007-02-15 2010-09-14 Nextel Communications Inc. Systems and methods for talk group distribution
US7738900B1 (en) 2007-02-15 2010-06-15 Nextel Communications Inc. Systems and methods of group distribution for latency sensitive applications
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
JP2008269173A (ja) 2007-04-18 2008-11-06 Hitachi Ltd 計算機システム、ストレージシステムおよびデータ管理方法
US8521511B2 (en) 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US20090019121A1 (en) 2007-07-10 2009-01-15 Messagelabs Limited Message processing
US8091138B2 (en) 2007-09-06 2012-01-03 International Business Machines Corporation Method and apparatus for controlling the presentation of confidential content
US8396838B2 (en) 2007-10-17 2013-03-12 Commvault Systems, Inc. Legal compliance, electronic discovery and electronic document handling of online and offline copies of data
US8161526B2 (en) 2007-10-22 2012-04-17 International Business Machines Corporation Protecting sensitive information on a publicly accessed data processing system
US20090119372A1 (en) 2007-11-02 2009-05-07 Sean Callanan System and method for providing email warnings
US8151200B2 (en) 2007-11-15 2012-04-03 Target Brands, Inc. Sensitive information handling on a collaboration system
WO2009070931A1 (en) 2007-12-06 2009-06-11 Google Inc. Cjk name detection
US7913167B2 (en) 2007-12-19 2011-03-22 Microsoft Corporation Selective document redaction
US8707384B2 (en) 2008-02-11 2014-04-22 Oracle International Corporation Change recommendations for compliance policy enforcement
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
US8423483B2 (en) 2008-05-16 2013-04-16 Carnegie Mellon University User-controllable learning of policies
US8346532B2 (en) 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
US8271483B2 (en) 2008-09-10 2012-09-18 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
JP4586913B2 (ja) 2008-09-19 2010-11-24 富士ゼロックス株式会社 文書管理システム、文書利用管理装置、及びプログラム
US8272028B2 (en) 2008-10-15 2012-09-18 Ricoh Company, Ltd. Approach for managing access to electronic documents on network devices using document retention policies and document security policies
WO2010059720A1 (en) 2008-11-19 2010-05-27 Scigen Technologies, S.A. Document creation system and methods
US8234693B2 (en) 2008-12-05 2012-07-31 Raytheon Company Secure document management
US9614924B2 (en) 2008-12-22 2017-04-04 Ctera Networks Ltd. Storage device and method thereof for integrating network attached storage with cloud storage services
US20100169771A1 (en) 2008-12-31 2010-07-01 Cerner Innovation, Inc. User Interface for Managing Patient Care Plans
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US8131735B2 (en) 2009-07-02 2012-03-06 Battelle Memorial Institute Rapid automatic keyword extraction for information retrieval and analysis
KR101621481B1 (ko) 2009-12-15 2016-05-16 에스케이 텔레콤주식회사 보안 문서 관리 장치 및 방법
CN101841684B (zh) 2009-12-18 2013-01-23 闪联信息技术工程中心有限公司 显示内容加密系统和方法及观看显示内容的装置
US20110246965A1 (en) 2010-04-01 2011-10-06 International Business Machines Corporation Correcting document generation for policy compliance
CN101943955A (zh) * 2010-09-25 2011-01-12 吴保国 拼音义标直观汉字及多语言文字输入法
US20120084868A1 (en) 2010-09-30 2012-04-05 International Business Machines Corporation Locating documents for providing data leakage prevention within an information security management system
US8806615B2 (en) * 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
CN103460730B (zh) 2011-02-08 2017-04-26 T移动美国公司 服务承载的动态绑定
US8880989B2 (en) 2012-01-30 2014-11-04 Microsoft Corporation Educating users and enforcing data dissemination policies
US9087039B2 (en) 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181916A (ja) * 1998-12-17 2000-06-30 Fujitsu Ltd 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2008537195A (ja) * 2005-02-14 2008-09-11 ヴォンテュ インコーポレイテッド 予め選択されたデータを含むメッセージを取り扱う方法及び装置
JP2008117287A (ja) * 2006-11-07 2008-05-22 Canon System Solutions Inc 情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体
US20100024037A1 (en) * 2006-11-09 2010-01-28 Grzymala-Busse Witold J System and method for providing identity theft security

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
安 健司、外1名: "暗号化メールに対する個人情報不正送出チェックシステムの対策案最適組み合わせ方式の提案と適用", コンピュータセキュリティシンポジウム2007 論文集, vol. 第2007巻,第10号, JPN6016038419, 31 October 2007 (2007-10-31), JP, pages 343 - 348, ISSN: 0003566533 *
小島 孝夫、外1名: "プライバシーポリシー・マッチングエンジンの自動分析方式", 情報処理学会研究報告, vol. 第2008巻,第21号, JPN6016038420, 6 March 2008 (2008-03-06), JP, pages 91 - 96, ISSN: 0003566534 *
沼田 啓司、外2名: "インターネット情報発信における個人情報検出ソフトの開発", 電子情報通信学会技術研究報告, vol. 第100巻,第113号, JPN6016038418, 10 June 2000 (2000-06-10), JP, pages 47 - 54, ISSN: 0003566532 *

Also Published As

Publication number Publication date
JP6169620B2 (ja) 2017-07-26
US20130204609A1 (en) 2013-08-08
EP2812810A1 (en) 2014-12-17
KR20140133515A (ko) 2014-11-19
US20160012037A1 (en) 2016-01-14
CN106021237B (zh) 2019-07-02
WO2013119457A1 (en) 2013-08-15
US9633001B2 (en) 2017-04-25
US9087039B2 (en) 2015-07-21
CN104094250A (zh) 2014-10-08
KR102064623B1 (ko) 2020-01-09
EP2812810A4 (en) 2015-12-02
CN104094250B (zh) 2017-10-10
CN106021237A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
JP6169620B2 (ja) 言語独立確率論的コンテンツ照合
US10025949B2 (en) Item sharing based on information boundary and access control list settings
US20170012985A1 (en) Granting permissions to an object when adding people to a conversation
JP2018502358A (ja) ボイスユーザインタフェースにおけるコンテキストベースアクション
US9871801B2 (en) Secure computing system record access control
KR20170045216A (ko) 공유 문서에서의 코멘트 및 마크업을 위한 계층적 프라이버시 설정 기법
US10152308B2 (en) User interface display testing system
KR102082023B1 (ko) 커스텀 rtf 커맨드를 사용하여 채팅 기능을 확장하는 기법
US20150356061A1 (en) Summary view suggestion based on user interaction pattern
US9954863B2 (en) Computing system record security architecture
US20200267101A1 (en) In-line collaboration in e-mail
CN106415626B (zh) 从单个项目发起的组选择
WO2023096686A1 (en) System for automatically augmenting a message based on context extracted from the message

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170628

R150 Certificate of patent or registration of utility model

Ref document number: 6169620

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees