JP2012504920A - 秘密情報の検出 - Google Patents

秘密情報の検出 Download PDF

Info

Publication number
JP2012504920A
JP2012504920A JP2011530236A JP2011530236A JP2012504920A JP 2012504920 A JP2012504920 A JP 2012504920A JP 2011530236 A JP2011530236 A JP 2011530236A JP 2011530236 A JP2011530236 A JP 2011530236A JP 2012504920 A JP2012504920 A JP 2012504920A
Authority
JP
Japan
Prior art keywords
readable medium
string
computer readable
format
bytes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011530236A
Other languages
English (en)
Other versions
JP2012504920A5 (ja
Inventor
ディヴィッド フルニエ
Original Assignee
アビニシオ テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アビニシオ テクノロジー エルエルシー filed Critical アビニシオ テクノロジー エルエルシー
Publication of JP2012504920A publication Critical patent/JP2012504920A/ja
Publication of JP2012504920A5 publication Critical patent/JP2012504920A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

秘密情報の検出は、格納データを読み取るステップと、上記格納データ内の文字列を識別するステップ(210)であって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、を含む。上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップ(220〜270)であって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、を含む。
各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップ(280、300)と、を実行する。
【選択図】 図1

Description

本発明は、秘密情報の検出に関する。
データ処理環境によっては、機密保護が不十分なデータ格納装置に格納された電子ファイル中に秘密情報が見受けられる場合がある。機密保護がなされていないファイル中のこの秘密情報の存在は、それが関連する個人の機密及びプライバシーを危険にさらしたり、当該機密保護が不十分なデータ格納システムを運営する団体についての責任を生じさせたりすることがある。秘密情報には、細心の注意を払うべき財務データ又は特定の個人を識別して彼らをファイルの内容と関連付けるのに使用することができる何等かの情報が含まれる場合がある。秘密情報の幾つかの例には、名前、住所、電話番号、社会保障番号、及びクレジット・カード番号が含まれる。
1つの一般的な態様において、格納データを読み取る方法は、
上記格納データ内の文字列を識別するステップであって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、
上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップであって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、
各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
を含む。
もう1つの一般的な態様において、秘密情報を検出するシステムは、データ格納装置、及び上記データ格納装置に接続されたランタイム環境を含む。上記ランタイム環境は、
上記データ格納装置から格納データを読み取るステップと、
上記格納データ内の文字列を識別するステップであって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、
上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップであって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、
各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
を実行するように構成される。
もう1つの一般的な態様において、コンピュータ可読媒体は、秘密情報を検出するためのコンピュータ・プログラムを格納する。上記コンピュータ・プログラムは、
格納データを読み取るステップと、
上記格納データ内の文字列を識別するステップであって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、
上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップであって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、
各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
をコンピュータに実行させるための命令を含む。
種々の態様は、以下の特徴の1つ以上を含むことができる。
上記秘密情報は、クレジット・カード番号であってもよい。上記文字列において検出された数字を表す値を有するバイトの数がクレジット・カード番号についての標準的なフォーマットにおける数字の数に等しい場合にフォーマット整合が起こるように決めてもよい。クレジット・カード番号に関連するルールは、有効な発行者識別番号のリストの仕様を含んでもよい。クレジット・カード番号に関連するルールは、チェック・サム・アルゴリズムの仕様を含んでもよい。
上記秘密情報は、社会保障番号であってもよい。上記文字列において検出された数字を表す値を有するバイトの数が9に等しい場合にフォーマット整合が起こるように決めてもよい。社会保障番号に関連するルールは、社会保障番号の最初の5桁によって表される数についての値の有効なサブセットの仕様を含んでもよい。
上記秘密情報は、電話番号であってもよい。上記文字列において検出された数字を表す値を有するバイトの数が10に等しいか、又は上記文字列において検出された数字の数が最初の数字が「1」である11個の数字に等しい場合にフォーマット整合が起こるように決めてもよい。電話番号に関連するルールは、有効な市外局番のリストの仕様を含んでもよい。電話番号に関連するルールは、市外局番の後の最初の数字が1又は0(ゼロ)であってはならないという仕様を含んでもよい。
上記秘密情報は、郵便番号であってもよい。一連のバイトが、数字を表す値を有する5個のバイト又は5番目の数字と6番目の数字との間にハイフンを有する9個の数字を表す値を有する10個のバイトの何れかからなると検出された場合にフォーマット整合が起こるように決めてもよい。電話番号に関連するルールは、有効な5桁の郵便番号のリストの仕様を含んでもよい。
各文字列について、当該文字列が名前と整合する1つ以上の単語を含むかどうかを特定するステップであって、単語とは、文字列内の一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有し、そして名前とは、個々の人々を呼ぶのに一般に使用されるキャラクタの連なりのリストからのキャラクタの連なりである、ステップと、
上記格納データにおいて検出された名前のカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
を実行する。
名前の上記リストは、2個のサブセット(ファースト・ネーム及びラスト・ネーム)に分割されていてもよい。
各文字列について、当該文字列が1個以上のフル・ネームを含むかどうかを特定するステップであって、フル・ネームとは、ファースト・ネームのリストからの名前と、それに続くスペースと、それに続くラスト・ネームのリストからの名前と、からなるキャラクタの連なりである、ステップと、
検出されたフル・ネームのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
を実行する。
上記リスト中の名前は、それらに関連する頻度数を各々有していてもよく、上記格納データにおいて出現する名前についての平均頻度数を計算してもよく、当該平均頻度数に少なくとも部分的には基づいて、上記格納データについてのスコアを計算してもよい。上記格納データにおいて検出される名前の数が閾値よりも少ない場合には上記平均頻度数が無視されるようにしてもよい。
各文字列について、2個の文字からなる単語の数をカウントするステップであって、単語とは、一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有する、ステップ、を実行する。
各2文字単語について、当該2文字単語が有効な州の略称(state abbreviation)であるかどうかを特定するステップと、
有効な州の略称のカウント及び2文字単語のカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
を実行する。
各文字列について、当該文字列が1個以上の州/郵便番号のペアを含むかどうかを特定するステップであって、州/郵便番号のペアとは、州の略称と、それに続くスペースと、次にそれに続く郵便番号と、からなるキャラクタの連なりである、ステップと、
検出された州/郵便番号のペアのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
を実行する。
電子的に格納されたファイル・システムにおける何れのファイルが最近更新されたのかを特定するステップと、
最近更新されたファイルの各々につき、秘密情報が無いかサーチするステップと、
を実行する。
文字列を規定するバイト値のサブセットは、文字−数字のキャラクタ、括弧、ハイフン、及びスペースを表してもよい。
上記スコアを閾値と比較するステップと、
上記スコアが上記閾値を超える場合は、秘密情報を含有する可能性有りとして上記格納データにフラグを立てるステップと、
を実行する。
種々の態様は、以下の利点の1個以上を含むことができる。
秘密情報についてのサーチの自動化を可能とする。秘密情報を効率的に検出して、機密及びプライバシーの保護度合いを可能にしたり高めたりする。
本発明の他の特徴及び利点は、以下の説明及び請求の範囲より明らかとなるであろう。
格納データにおける秘密情報を検出するシステムのブロック図である。 格納データにおける秘密情報を検出するのに使用されるソフトウェアのブロック図である。 ファイルが秘密情報を含有する可能性を示すスコアを計算するプロセスのフロー・チャートである。
膨大なセットのデータにおいて秘密データの出現を検出することは望ましく、秘密データについてサーチにおいてデータの大部分をレビューするのに人力を必要とすること無く秘密情報を検出することは特に望ましい。秘密情報を検出するシステムは、潜在的な秘密情報を自動的に検出することができる(その後、人力によって全体的又は部分的にレビューすることができる)。実施態様によっては、秘密データの人間によるレビューを許可された人員による短時間なものに限定したり、又は完全に回避したりして、秘密情報の取り扱いの誤りによって引き起こされるプライバシーの侵害を減らしたり、排除したりしてもよい。
図1は、電子的に格納されたデータにおいて秘密情報を検出する例示的なシステムを描いたものである。対象となるデータは、1個以上のデータ格納装置(例えば、並列ファイル・システムにおいて複数の装置上に実装された並列「マルチファイル」110(例えば、米国特許第5、897、638号明細書に記載されている。同記載は、引用により、本明細書に組み込まれる))又はデータベース・サーバ120に格納されていてもよい。当該秘密情報検出(CID)システム100は、ランタイム環境150において実行されるソフトウェアを使用して、上記データ格納装置又はデータ格納装置群における格納データを分析する。格納データ(例えば、ファイル)の各ユニットについてのスコア、及び場合によっては、格納データの何れのユニットに秘密情報を含有する可能性があるかを示すフラグを含む上記分析の結果は、同じデータ格納装置110、120、又は他のデータ格納装置160、170に書き込んでもよい。場合によっては、ユーザ・インターフェース180をオペレータが使用して、上記CIDシステムを構成及び制御すると共に、上記結果をレビューしてもよい。
上記ランタイム環境150は、適切なオペレーティング・システム(例えば、UNIXオペレーティング・システム(UNIXは登録商標))の制御下で1台以上の汎用コンピュータ上にホスティングしてもよい。例えば、上記ランタイム環境150は、ローカル型であっても(例えば、SMPコンピュータ等のマルチプロセッサ・システム)、又はローカル分散型であっても(例えば、クラスタ若しくはMPPとして結合された複数のプロセッサ)、又はリモート型であっても、又はリモート分散型であっても(例えば、LAN若しくはWANネットワークを介して結合された複数のプロセッサ)、あるいはそれらの何れの組み合わせであっても、複数の中央演算処理装置(CPU)を使用するコンピュータ・システムの構成を含む多重ノード並列コンピュータ環境を含むことができる。上記ランタイム環境150によってアクセスされる入力データセット、出力データセット又は中間データセットは、並列ファイル・システムに格納された並列「マルチファイル」であってもよい(例えば、データ・ストア160、又はローカルで若しくは通信リンク越しにリモートで上記システム100に結合された外部データ・ストレージ)。
図2は、上記ランタイム環境において実行して電子的に格納されたファイルにおいて秘密情報を検出するシステムを実装することができるソフトウェアについての構造を描いたものである。上記CIDシステム100は、全てのファイル・フォーマットを未知として扱い、秘密情報を含有するキャラクタの文字列をサーチする。ファイルはデータ格納装置201から読み取られる。文字列を識別する手法は、秘密情報を表すデータにおいて使用されるキャラクタ、又は秘密情報を表すデータの共通フォーマッティングを表すバイトを除き、全てのバイトを除去することである。バイトは概して8ビット長であるが、検出しようとするキャラクタ・セットに適切な任意のサイズに規定してもよい。例えば、バイトの長さを16ビット又は32ビットに規定してもよい。図示した実施例のシステムは、8ビットのバイト・サイズを使用する。
対象となるキャラクタに関連する存在し得るバイト値のサブセットを使用して、文字列を識別する。上記サブセットから外れる値を有するバイトは、文字列デリミタとして扱われる。この例においては、上記サブセット中のバイト値は、文字−数字のキャラクタ、括弧、ハイフン、及びスペースのASCII表現である。括弧、ハイフン、及びスペースは、電話番号、社会保障番号(SSN)、クレジット・カード番号等のものをフォーマットするのに、又は住所における単語の間に、一般に使用されるので、これらのキャラクタが含まれる。文字列抽出モジュール210によって識別された文字列は、種々の秘密情報検出モジュール220、230、240、250、260、及び270に渡される。
クレジット・カード番号検出モジュール220は、番号について、各文字列をサーチし、クレジット・カード番号に関連するルールのセットに照らして、その番号をチェックする。これらのルールには、数字の数で測定される、1種以上の許容クレジット・カード番号長の仕様が含まれる。当該モジュールは、数字を表すバイトについて文字列をサーチすることによって起動する。文字列において検出された数字の数が、クレジット・カード番号として標準化されたフォーマットの数字で表された長さに等しい場合、基本的フォーマット整合が宣言される。番号を表す数字の間に他のキャラクタを表すバイトが散在していても(例えば、数字のグループの間のスペース)、基本的フォーマット整合が起こってもよい。各基本的フォーマット整合について、文字列における数字によって表される番号が、クレジット・カード番号に関連するルールのフル・セットを使用してテストされる。当該フル・セットにおける他のルールには、例えば、有効な発行者識別番号又は有効なチェック・サムの仕様を含んでもよい。これらのルールの何れかを番号が満足できない場合、無効、又はクレジット・カード番号の類似物、として識別される。ファイルを処理する際、クレジット・カード番号検出モジュール220は、基本的フォーマット整合の数及び、これらの中で無効であると特定されたものの数をカウントする。無効な番号のカウントの他の基本的フォーマット整合のカウントに対する比は、当該他の基本的フォーマット整合が実際に有効なクレジット・カード番号である可能性に関係する場合がある。本実施例のシステムにおいては、スコアの計算において完全フォーマット整合のカウントの重み付けを行うのに、この比を使用する。
代替の実施態様においては、各々が数字を表す値を有するバイトの途切れない連なりであって、クレジット・カード番号として標準化されたフォーマットの数字で表された長さに等しい長さを有する連なりを、文字列が含む場合にのみ、クレジット・カード番号についての基本的フォーマット整合を宣言するようにしてもよい。
同様に、社会保障番号検出モジュール230は、番号について、各文字列をサーチし、社会保障番号に関連するルールのセットに照らして、その番号をチェックする。これらのルールには、社会保障番号は9桁の長さでなければならないという仕様が含まれる。当該モジュールは、数字を表すバイトについて文字列をサーチすることによって起動する。文字列において検出された数字の数が9に等しい場合、基本的フォーマット整合が宣言される。番号を表す数字の間に他のキャラクタを表すバイトが散在していても(例えば、数字のグループの間のハイフン)、基本的フォーマット整合が起こってもよい。各基本的フォーマット整合について、文字列における数字によって表される番号が、社会保障番号に関連するルールのフル・セットを使用してテストされる。当該フル・セットにおける他のルールには、例えば、社会保障番号の最初の5桁によって表される数についての値の有効なサブセットの仕様を含んでもよい。これらのルールの何れかを番号が満足できない場合、無効、又は社会保障番号の類似物、として識別される。ファイルを処理する際、社会保障番号検出モジュール230は、基本的フォーマット整合の数及び、これらの中で無効であると特定されたものの数をカウントする。無効な番号のカウントの他の基本的フォーマット整合のカウントに対する比は、当該他の基本的フォーマット整合が実際に有効な社会保障番号である可能性に関係する場合がある。本実施例のシステムにおいては、スコアの計算において完全フォーマット整合のカウントの重み付けを行うのに、この比を使用する。
同様に、電話番号検出モジュール240は、番号について、各文字列をサーチし、電話番号に関連するルールのセットに照らして、その番号をチェックする。これらのルールには、電話番号が、10桁の長さ、又は最初の数字が1に等しい11桁の長さの何れかであるという仕様が含まれる。当該モジュールは、数字を表すバイトについて文字列をサーチすることによって起動する。文字列において検出された数字の数が10に等しいか、又は文字列において検出された数字の数が11であり且つ最初の数字が1である場合、基本的フォーマット整合が宣言される。番号を表す数字の間に他のキャラクタを表すバイトが散在していても(例えば、市外局番の前後の括弧、又は数字のグループの間のハイフン)、基本的フォーマット整合が起こってもよい。各基本的フォーマット整合について、文字列における数字によって表される番号が、電話番号に関連するルールのフル・セットを使用してテストされる。当該フル・セットにおける他のルールには、例えば、有効な市外局番のリストの仕様、又は市外局番の後の最初の数字が1又は0(ゼロ)であってはならないという仕様を含んでもよい。これらのルールの何れかを番号が満足できない場合、無効、又は電話番号の類似物、として識別される。ファイルを処理する際、電話番号検出モジュール240は、基本的フォーマット整合の数及び、これらの中で無効であると特定されたものの数をカウントする。無効な番号のカウントの他の基本的フォーマット整合のカウントに対する比は、当該他の基本的フォーマット整合が実際に有効な電話番号である可能性に関係する場合がある。本実施例のシステムにおいては、スコアの計算において完全フォーマット整合のカウントの重み付けを行うのに、この比を使用する。
代替の実施態様においては、以下の連なりの1つを表す値を有するバイトの途切れない連なりを文字列が含む場合にのみ、電話番号についての基本的フォーマット整合を宣言するようにしてもよい。
Figure 2012504920
上式中、*は、0、1、2、3、4、5、6、7、8、及び9の数字の何れかを表すワイルド・カードである。
名前検出モジュール250は、一般名称のリストからの名前に整合する単語について、各文字列をサーチする。ここで、単語とは、バイトの途切れない連なりであって、当該バイトの全てが文字を表す。一般名称のこのようなリストは、政府による調査から導かれるものであってもよい。名前のリストは、ファースト・ネームとラスト・ネームとに分割されていてもよい。一般に使用されている単語として別名に知られている特定の名前を排除して、誤検出(false positive)の機会を少なくしてもよい。例えば、名前のリストをカスタマイズして、月や曜日の名前を排除してもよい。誤検出を補償するもう1つの方法は、ファイル中に出現する名前の平均頻度を監視することである。例えば、アメリカ合衆国の調査によれば、各名前の頻度数が提供される。一般名称よりも珍しい名前は非常に沢山あるので、殆どの名前は、平均よりも十分低い頻度を有する。名前のリストは、ほぼ平均的な頻度を有するものと予想することができる。少数の名前にたまたまヒットするランダムなキャラクタのリストは、遙かに低い頻度を有する筈である。ファイルにおいて検出された名前の数が標本の大きさの最小値(例えば、10個の名前)を超える場合、それらの名前の平均頻度を計算し、それらの名前をテストしてもよい。平均頻度を閾値と比較して、それらの名前が誤検出又は真の名前の何れである可能性が高いのかを特定してもよい。
本実施例において、名前検出モジュール250は、関連する頻度を有する一般名称のリストからのファースト・ネーム及びラスト・ネームについて、各文字列をサーチする。また、当該モジュールは、同じ文字列においてラスト・ネームの直前にファースト・ネームが出現する場合、このような出現をフル・ネームとして検出し、カウントする。当該モジュール250は、ファースト・ネームのカウント、ラスト・ネームのカウント、フル・ネームのカウント、及びファイル中に出現する全ての名前についての平均頻度を出力する。
所在地住所検出モジュール260は、番号と、それに続く文字からなる1つ又は2つの単語と、次にそれに続く認定された所在地の略称と、を含む単語の連なりについて、各文字列をサーチする。所在地住所の始めにある番号は、最初の数字がゼロに等しくない、数字の途切れない連なりで始まっていなければならない。この番号は、所在地名の1つ又は2つの単語の直前のスペースの前の端に任意の文字を有していてもよい。所在地住所検出モジュールは、ファイルにおいて検出された所在地住所の連なりの数を採点モジュールに渡す。
州及び郵便番号検出モジュール270は、郵便番号及び認定された2つのキャラクタの州の略称について、各文字列をサーチする。また、当該モジュールは、州の略称と、それに続く有効な郵便番号と、からなる2つの単語の連なりの出現をカウントする。当該モジュールは、全ての2文字単語をカウントし、各2文字単語が、アメリカ合衆国によって規定されたような、有効な州名の略称であるかどうかをチェックする。また、当該モジュール270は、番号について、各文字列をサーチし、郵便番号に関連するルールのセットに照らして、その番号をチェックする。これらのルールには、郵便番号が、5桁の長さである途切れない数字の連なり、又は5番目の数字と6番目の数字との間にハイフンを有する9桁の長さである連なりの何れかであるという仕様を含んでもよい。これらのパターンの何れかに整合するバイトの連なりが検出された場合、基本的フォーマット整合が宣言される。各基本的フォーマット整合について、文字列における数字によって表される番号が、郵便番号に関連するルールのフル・セットを使用してテストされる。当該フル・セットにおける他のルールには、例えば、全てのあり得る5桁の数字のサブセットとしての、有効な5桁の郵便番号の仕様を含んでもよい。これらのルールの何れかを番号が満足できない場合、無効、又は郵便番号の類似物、として識別される。ファイルを処理する際、当該モジュール270は、基本的フォーマット整合の数及び、これらの中で無効であると特定されたものの数をカウントする。無効な番号のカウントの他の基本的フォーマット整合のカウントに対する比は、当該他の基本的フォーマット整合が実際に有効な郵便番号である可能性に関係する場合がある。本実施例のシステムにおいては、スコアの計算において完全フォーマット整合のカウントの重み付けを行うのに、この比を使用する。最後に、当該モジュール270は、有効な州の略称と、それに続くスペースと、それに続く有効な郵便番号と、からなる州及び郵便の番号をカウントする。その後、当該モジュール270は、2文字単語のカウント、有効な州の略称のカウント、郵便番号のフォーマット整合のカウント、有効な郵便番号のカウント、並びに州及び郵便番号の連なりのカウントを、採点モジュールに渡す。
CIDシステムによって処理された各ファイルにスコアを割り振り、そのスコアに応じて、秘密情報を潜在的に含有するものとして、フラグを立ててもよい。採点モジュール280は、秘密情報検出モジュール220、230、240、250、260、及び270の出力に基づいて、ファイルについてのスコアを計算する。当該スコアは、CIDシステム100に保存されてもよく、又はCIDシステム100から出力されてもよい。また、当該スコアを閾値と比較して、そのスコアが上記閾値を超える場合は当該ファイルにフラグを立てる閾値化モジュール290にも、当該スコアは渡される。
図2においては、上記秘密情報検出モジュール群は、文字列に対して独立して稼働するものとして描かれているが、場合によっては、文字列についての中間的な処理結果を当該検出モジュール群の幾つかの間で共用することにより、より大きな効率化を達成し得ることが理解されるべきである。例えば、数字を表す文字列におけるバイトをカウントするルーチンの結果は、クレジット・カード番号検出モジュール220、社会保障番号検出モジュール230、及び電話番号検出モジュール240によって共用することができる。また、サーチ対象である秘密情報についてのフォーマットに整合するのに必要とされるバイトの最少数未満の文字列を無視することによって、上記検出モジュール群の多くを最適化することができる。上記モジュールの境界は、実装されているロジックの理解をもたらすことを意図して説明されたものであり、ソフトウェアにおいて開示される方法を実装するコードの構造への厳密な拘束を課すことを意図するものではない。
採点モジュール280において実装することができる例示的な採点方法を図3に示す。採点モジュールの実行(301)の後、採点モジュールは、秘密情報検出モジュール220、230、240、250、260、及び270の1つによって出力された秘密情報タイプ(CIタイプ)の1つに関するデータを取り出す(310)。その後、採点モジュールは、当該CIタイプについてのヒット・カウント及び誤検出インジケータを抽出する(320)。
上記ヒット・カウントは、無効であると特定されていない、ファイルにおけるCIタイプのフォーマットへの整合の数である。例えば、クレジット・カード番号検出モジュールによって生成されるヒット・カウントは、無効であると特定されない基本的フォーマット整合の数である。これらのヒットは、CI対応に関連するルールのフル・セットへの完全整合である。CIタイプの情報をコード化していなくても、ランダムなデータが完全整合を含む場合があるので、ヒットが誤検出であることも未だ起こり得る。誤検出インジケータとは、関連するヒット・カウントの信頼性を査定するのに採点モジュールが使用する測定基準である。例えば、クレジット・カード番号検出モジュールによって生成される誤検出インジケータは、無効として特定された基本的フォーマット整合のカウントである。これらの無効な基本的フォーマット整合は、ある意味で、クレジット・カード番号の「ニア・ミス」又は「類似物」であり、それらの存在は、誤検出の機会がより多いことを示唆する場合がある。完全整合とは区別して基本的フォーマット整合が規定されていないCIタイプについては、他の測定基準を誤検出インジケータとして使用してもよい。例えば、名前検出モジュールによって生成される平均頻度カウントを、名前のカウントについての誤検出インジケータとして使用してもよい。
採点モジュールは、誤検出インジケータに部分的に基づいて、誤検出重み係数を計算する(330)。この実施例において、重み係数は誤検出インジケータに反比例する。より正確には、重み係数は以下の形式をとる。
Figure 2012504920
上式中、Hはヒット・カウントであり、Fは誤検出インジケータであり、そしてnは整数の指数である(通常は、1〜5)。誤検出インジケータによっては、誤検出重み係数を計算するのに、他の関数形式を必要とするものもあり得る。例えば、誤検出重み係数は、名前についての平均頻度カウントに正比例する。また、重み係数がとり得る値を制約するステップをとることが好都合である場合もある。例えば、名前についての重み係数を、0.5と1との間の値をとるように不連続に制約してもよい。
採点において、誤検出インジケータが全く利用できないCIタイプも考えられる。本実施例のシステムにおいては、所在地住所検出モジュールは、誤検出インジケータを全く生成しない。誤検出重み係数計算ステップ330をスキップするか、又は同等に重み係数を1若しくは何か他のデフォルト値に設定して、誤検出インジケータが無いCIタイプを採点に組み込んでもよい。
その後、採点モジュールは、採点において考慮される各CIタイプについてのサブ−スコアを計算する(340)。本実施例においては、サブ−スコアは、ヒット・カウント、誤検出重み係数、及びファイル・サイズ・インジケータの関数として計算される。より正確には、サブ−スコアは以下の形式をとる。
Figure 2012504920
上式中、Nはファイル・サイズ・インジケータであり、k及びnは、サブ−スコアにおける係数を正規化するように各CIタイプについて調整された定数である。特殊な場合においては、サブ−スコア計算の形式を単純化してもよい。例えば、フル・ネームの検出が名前についてのサブ−スコアの代替計算を開始させるようにしてもよい。上述したものと類似の採点アルゴリズムを実装するコードの例が、後に記載するサンプル・コード・リスティングに含まれている。
サブス−コアの計算(340)の後、採点モジュールは、考慮されるべきCIタイプ・データが残っているかどうかをチェックする(350)。考慮されるべき全てのCIタイプについてサブ−スコアが計算されていない場合は、採点モジュールがループ・バックして、次のCIタイプについての秘密情報検出モジュールからデータを取り出す。全てのサブ−スコアが計算された場合は、これらのサブ−スコアに基づいて当該ファイルについての複合スコアの計算(360)へと進む。描かれている実施例においては、複合スコアは、全てのサブ−スコアの合計である。複合スコアに加える前に、サブ−スコアに制約を加えてもよい。
その後、結果として得られる複合スコアを、例えば、データベース・サーバ170または並列「マルチ・ファイル」システム160等のデータ格納装置上の不揮発性メモリに書き込むことによって保存してもよい(370)。また、採点モジュールの実行の停止(395)の前に、複合スコアを閾値モジュール290に渡してもよい。
実装によっては、CIDシステム100を、当該システムのユーザによって提供される1つ以上のファイルを処理するように構成してもよい。他の実装においては、CIDシステムを、ファイル・システム中の全てのファイルを処理するように構成してもよい。CIDシステムは、定期的に運転されるように構成してもよく、実装によっては、ファイル・システム中のファイルに関連するタイムスタンプ(例えば、所定の時(例えば、CIDシステムが前回運転された時)より後の最終編集時刻)をチェックして、最近更新されたファイルのみを処理するように構成してもよい。
上述の秘密情報検出手法は、コンピュータ上で実行するためのソフトウェアを使用して実装することができる。例えば、かかるソフトウェアは、少なくとも1つのプロセッサ、少なくとも1つのデータ格納システム(揮発性及び不揮発性メモリ、んあらびに/又は記憶素子)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートを各々が含む、1つ以上のプログラムされたまたはプログラム可能なコンピュータ・システム(分散型、クライアント/サーバ型、又はグリッド型等の種々のアーキテクチャのものであってよい)上で実行される、1つ以上のコンピュータ・プログラムにおけるプロシージャを形成する。上記ソフトウェアは、例えば、解散グラフの設計及び構成に関係する他のサービスを提供する、より大きいプログラムの1つ以上のモジュールを形成していてもよい。上記グラフのノード及びエレメントは、コンピュータ可読媒体に格納されたデータ構造、又はデータ・リポジトリに格納されたデータ・モデルに合致する他の系統的データとして、実装することができる。
上記ソフトウェアは、汎用の又は特殊用途のプログラム可能なコンピュータによって読み取ることができる記憶媒体(例えば、CD−ROM)上に提供したり、又は実行時に、ネットワークの通信媒体越しに(伝搬信号中にコード化して)コンピュータに配信したりすることができる。上記機能の全ては、特殊用途のコンピュータ上で、又はコプロセッサ等の特殊用途のハードウェアを使用して、行うことができる。上記ソフトウェアは、当該ソフトウェアによって規定される計算の異なる部分が異なるコンピュータによって行われる分散方式にて実装することもできる。このような各コンピュータ・プログラムは、汎用の又は特殊用途のプログラム可能なコンピュータによって読み取ることができる記憶媒体又は記憶装置(例えば、固体メモリ若しくは媒体、又は磁気媒体若しくは光媒体)上に格納したり、又はダウンロードしたりして、コンピュータ・システムが上記記憶媒体又は記憶装置を読み取って本明細書に記載されたプロシージャを行おうとする際に、上記コンピュータが構成され、運転されるようにするのが好ましい。また、本発明のシステムは、コンピュータ・プログラムによって構成される、コンピュータ可読記憶媒体として実装されると考えることもできる。ここで、このように構成された記憶媒体は、コンピュータ・システムを、特定の予め定められた方式で運転して、本明細書に記載された機能を行う。
本発明の幾つかの実施態様について説明してきた。しかしながら、本発明の精神及び範囲から逸脱すること無く、種々の変形を行うことができることが理解されるであろう。例えば、上述のステップの幾つかは、順序に依存しないものであってもよく、従って、上述のものとは異なる順序で行うことができる。
サンプルとしてのコード・リスティングを以下に示す。
Figure 2012504920
Figure 2012504920
Figure 2012504920
Figure 2012504920
他の実施態様は、以下の請求の範囲の範囲内にある。

Claims (61)

  1. 秘密情報を検出する方法であって、
    格納データを読み取るステップと、
    上記格納データ内の文字列を識別するステップであって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、
    上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップであって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、
    各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
    無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を含む方法。
  2. 請求項1に記載の方法であって、
    上記秘密情報がクレジット・カード番号である、方法。
  3. 請求項2に記載の方法であって、
    上記文字列において検出された数字を表す値を有するバイトの数がクレジット・カード番号についての標準的なフォーマットにおける数字の数に等しい場合にフォーマット整合が起こるように決められている、方法。
  4. 請求項3に記載の方法であって、
    クレジット・カード番号に関連するルールが、有効な発行者識別番号のリストの仕様を含む、方法。
  5. 請求項3に記載の方法であって、
    クレジット・カード番号に関連するルールが、チェック・サム・アルゴリズムの仕様を含む、方法。
  6. 請求項1に記載の方法であって、
    上記秘密情報が社会保障番号である、方法。
  7. 請求項6に記載の方法であって、
    上記文字列において検出された数字を表す値を有するバイトの数が9に等しい場合にフォーマット整合が起こるように決められている、方法。
  8. 請求項7に記載の方法であって、
    社会保障番号に関連するルールが、社会保障番号の最初の5桁によって表される数についての値の有効なサブセットの仕様を含む、方法。
  9. 請求項1に記載の方法であって、
    上記秘密情報が電話番号である、方法。
  10. 請求項9に記載の方法であって、
    上記文字列において検出された数字を表す値を有するバイトの数が10に等しいか、又は上記文字列において検出された数字の数が最初の数字が「1」である11個の数字に等しい場合にフォーマット整合が起こるように決められている、方法。
  11. 請求項10に記載の方法であって、
    電話番号に関連するルールが、有効な市外局番のリストの仕様を含む、方法。
  12. 請求項10に記載の方法であって、
    電話番号に関連するルールが、市外局番の後の最初の数字が1又は0(ゼロ)であってはならないという仕様を含む、方法。
  13. 請求項1に記載の方法であって、
    上記秘密情報が郵便番号である、方法。
  14. 請求項13に記載の方法であって、
    一連のバイトが、数字を表す値を有する5個のバイト又は5番目の数字と6番目の数字との間にハイフンを有する9個の数字を表す値を有する10個のバイトの何れかからなると検出された場合にフォーマット整合が起こるように決められている、方法。
  15. 請求項14に記載の方法であって、
    電話番号に関連するルールが、有効な5桁の郵便番号のリストの仕様を含む、方法。
  16. 請求項1に記載の方法であって、
    各文字列について、当該文字列が名前と整合する1つ以上の単語を含むかどうかを特定するステップであって、単語とは、文字列内の一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有し、そして名前とは、個々の人々を呼ぶのに一般に使用されるキャラクタの連なりのリストからのキャラクタの連なりである、ステップと、
    上記格納データにおいて検出された名前のカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を更に含む、方法。
  17. 請求項16に記載の方法であって、
    名前の上記リストが、2個のサブセット(ファースト・ネーム及びラスト・ネーム)に分割されている、方法。
  18. 請求項17に記載の方法であって、
    各文字列について、当該文字列が1個以上のフル・ネームを含むかどうかを特定するステップであって、フル・ネームとは、ファースト・ネームのリストからの名前と、それに続くスペースと、それに続くラスト・ネームのリストからの名前と、からなるキャラクタの連なりである、ステップと、
    検出されたフル・ネームのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を更に含む、方法。
  19. 請求項16に記載の方法であって、
    上記リスト中の名前が、それらに関連する頻度数を各々有し、上記格納データにおいて出現する名前についての平均頻度数が計算され、当該平均頻度数に少なくとも部分的には基づいて、上記格納データについてのスコアが計算される、方法。
  20. 請求項19に記載の方法であって、
    上記格納データにおいて検出される名前の数が閾値よりも少ない場合には上記平均頻度数が無視される、方法。
  21. 請求項1に記載の方法であって、
    各文字列について、2個の文字からなる単語の数をカウントするステップであって、単語とは、一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有する、ステップ、
    を更に含む、方法。
  22. 請求項21に記載の方法であって、
    各2文字単語について、当該2文字単語が有効な州の略称であるかどうかを特定するステップと、
    有効な州の略称のカウント及び2文字単語のカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を更に含む、方法。
  23. 請求項1に記載の方法であって、
    各文字列について、当該文字列が1個以上の州/郵便番号のペアを含むかどうかを特定するステップであって、州/郵便番号のペアとは、州の略称と、それに続くスペースと、次にそれに続く郵便番号と、からなるキャラクタの連なりである、ステップと、
    検出された州/郵便番号のペアのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を更に含む、方法。
  24. 請求項1に記載の方法であって、
    電子的に格納されたファイル・システムにおける何れのファイルが最近更新されたのかを特定するステップと、
    最近更新されたファイルの各々に、請求項1に記載の方法を適用するステップと、
    を更に含む、方法。
  25. 請求項1に記載の方法であって、
    文字列を規定するバイト値のサブセットが、文字−数字のキャラクタ、括弧、ハイフン、及びスペースを表す、方法。
  26. 請求項1に記載の方法であって、
    上記スコアを閾値と比較するステップと、
    上記スコアが上記閾値を超える場合は、秘密情報を含有する可能性有りとして上記格納データにフラグを立てるステップと、
    を更に含む、方法。
  27. 秘密情報を検出するシステムであって、
    データ格納装置、及び
    上記データ格納装置に接続されたランタイム環境を含み、
    上記ランタイム環境が、
    上記データ格納装置から格納データを読み取るステップと、
    上記格納データ内の文字列を識別するステップであって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、
    上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップであって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、
    各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
    無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を実行するように構成されている、システム。
  28. 請求項27に記載のシステムであって、
    上記秘密情報がクレジット・カード番号であり、
    上記文字列において検出された数字を表す値を有するバイトの数がクレジット・カード番号についての標準的なフォーマットにおける数字の数に等しい場合にフォーマット整合が起こるように決められており、そして
    クレジット・カード番号に関連するルールが、有効な発行者識別番号のリストの仕様、及びチェック・サム・アルゴリズムの仕様を含む、システム。
  29. 請求項27に記載のシステムであって、
    上記秘密情報が社会保障番号であり、
    上記文字列において検出された数字を表す値を有するバイトの数が9に等しい場合にフォーマット整合が起こるように決められており、そして
    社会保障番号に関連するルールが、社会保障番号の最初の5桁によって表される数についての値の有効なサブセットの仕様を含む、システム。
  30. 請求項27に記載のシステムであって、
    上記秘密情報が電話番号であり、
    上記文字列において検出された数字を表す値を有するバイトの数が10に等しいか、又は上記文字列において検出された数字の数が最初の数字が「1」である11個の数字に等しい場合にフォーマット整合が起こるように決められており、そして
    電話番号に関連するルールが、有効な市外局番のリストの仕様、及び市外局番の後の最初の数字が1又は0(ゼロ)であってはならないという仕様を含む、システム。
  31. 請求項27に記載のシステムであって、
    上記秘密情報が郵便番号であり、
    一連のバイトが、数字を表す値を有する5個のバイト又は5番目の数字と6番目の数字との間にハイフンを有する9個の数字を表す値を有する10個のバイトの何れかからなると検出された場合にフォーマット整合が起こるように決められており、そして
    電話番号に関連するルールが、有効な5桁の郵便番号のリストの仕様を含む、システム。
  32. 請求項27に記載のシステムであって、
    上記ランタイム環境が、
    各文字列について、当該文字列が名前と整合する1つ以上の単語を含むかどうかを特定するステップであって、単語とは、文字列内の一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有し、そして名前とは、個々の人々を呼ぶのに一般に使用されるキャラクタの連なりのリストからのキャラクタの連なりであり、そして上記リストが、2個のサブセット(ファースト・ネーム及びラスト・ネーム)に分割されている、ステップと、
    各文字列について、当該文字列が1個以上のフル・ネームを含むかどうかを特定するステップであって、フル・ネームとは、ファースト・ネームのリストからの名前と、それに続くスペースと、それに続くラスト・ネームのリストからの名前と、からなるキャラクタの連なりである、ステップと、
    上記格納データにおいて検出された名前のカウントに少なくとも部分的には基づいて、且つ検出されたフル・ネームのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を実行するように更に構成されている、システム。
  33. 請求項27に記載のシステムであって、
    上記ランタイム環境が、
    各文字列について、当該文字列が名前と整合する1つ以上の単語を含むかどうかを特定するステップであって、単語とは、文字列内の一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有し、そして名前とは、個々の人々を呼ぶのに一般に使用されるキャラクタの連なりのリストからのキャラクタの連なりであり、そして上記リスト中の名前が、それらに関連する頻度数を各々有する、ステップと、
    上記格納データにおいて出現する名前についての平均頻度数を計算するステップと、
    上記格納データにおいて検出された名前のカウントに少なくとも部分的には基づいて、且つ上記平均頻度数に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を実行するように更に構成されている、システム。
  34. 請求項27に記載のシステムであって、
    上記ランタイム環境が、
    各文字列について、当該文字列が1個以上の州/郵便番号のペアを含むかどうかを特定するステップであって、州/郵便番号のペアとは、州の略称と、それに続くスペースと、次にそれに続く郵便番号と、からなるキャラクタの連なりである、ステップと、
    検出された州/郵便番号のペアのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    を実行するように更に構成されている、システム。
  35. 請求項27に記載のシステムであって、
    文字列を規定するバイト値のサブセットが、文字−数字のキャラクタ、括弧、ハイフン、及びスペースを表す、システム。
  36. 秘密情報を検出するためのコンピュータ・プログラムを格納するコンピュータ可読媒体であって、
    上記コンピュータ・プログラムが、
    格納データを読み取るステップと、
    上記格納データ内の文字列を識別するステップであって、各文字列は一連の連続バイトを含み、当該バイトの全てが、存在し得る値の予め定められたサブセット中にある値を有する、ステップと、
    上記文字列の少なくとも幾つかの各々について、上記文字列が、1つ以上のフォーマット整合を表すバイトを含むかどうかを特定するステップであって、フォーマット整合が、秘密情報に関連する予め定められたフォーマットに整合する値のセットを含む、ステップと、
    各フォーマット整合について、上記秘密情報に関連するルールのセットを用いて上記予め定められたフォーマットに整合する値をテストして、上記フォーマット整合が、1つ以上の無効な値を含む無効なフォーマット整合であるか否かを特定するステップと、
    無効なフォーマット整合のカウントの他のフォーマット整合のカウントに対する比に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    をコンピュータに実行させるための命令を含む、コンピュータ可読媒体。
  37. 請求項36に記載のコンピュータ可読媒体であって、
    上記秘密情報がクレジット・カード番号である、コンピュータ可読媒体。
  38. 請求項37に記載のコンピュータ可読媒体であって、
    上記文字列において検出された数字を表す値を有するバイトの数がクレジット・カード番号についての標準的なフォーマットにおける数字の数に等しい場合にフォーマット整合が起こるように決められている、コンピュータ可読媒体。
  39. 請求項38に記載のコンピュータ可読媒体であって、
    クレジット・カード番号に関連するルールが、有効な発行者識別番号のリストの仕様を含む、コンピュータ可読媒体。
  40. 請求項38に記載のコンピュータ可読媒体であって、
    クレジット・カード番号に関連するルールが、チェック・サム・アルゴリズムの仕様を含む、コンピュータ可読媒体。
  41. 請求項36に記載のコンピュータ可読媒体であって、
    上記秘密情報が社会保障番号である、コンピュータ可読媒体。
  42. 請求項41に記載のコンピュータ可読媒体であって、
    上記文字列において検出された数字を表す値を有するバイトの数が9に等しい場合にフォーマット整合が起こるように決められている、コンピュータ可読媒体。
  43. 請求項42に記載のコンピュータ可読媒体であって、
    社会保障番号に関連するルールが、社会保障番号の最初の5桁によって表される数についての値の有効なサブセットの仕様を含む、コンピュータ可読媒体。
  44. 請求項36に記載のコンピュータ可読媒体であって、
    上記秘密情報が電話番号である、コンピュータ可読媒体。
  45. 請求項44に記載のコンピュータ可読媒体であって、
    上記文字列において検出された数字を表す値を有するバイトの数が10に等しいか、又は上記文字列において検出された数字の数が最初の数字が「1」である11個の数字に等しい場合にフォーマット整合が起こるように決められている、コンピュータ可読媒体。
  46. 請求項45に記載のコンピュータ可読媒体であって、
    電話番号に関連するルールが、有効な市外局番のリストの仕様を含む、コンピュータ可読媒体。
  47. 請求項45に記載のコンピュータ可読媒体であって、
    電話番号に関連するルールが、市外局番の後の最初の数字が1又は0(ゼロ)であってはならないという仕様を含む、コンピュータ可読媒体。
  48. 請求項36に記載のコンピュータ可読媒体であって、
    上記秘密情報が郵便番号である、コンピュータ可読媒体。
  49. 請求項48に記載のコンピュータ可読媒体であって、
    一連のバイトが、数字を表す値を有する5個のバイト又は5番目の数字と6番目の数字との間にハイフンを有する9個の数字を表す値を有する10個のバイトの何れかからなると検出された場合にフォーマット整合が起こるように決められている、コンピュータ可読媒体。
  50. 請求項49に記載のコンピュータ可読媒体であって、
    電話番号に関連するルールが、有効な5桁の郵便番号のリストの仕様を含む、コンピュータ可読媒体。
  51. 請求項36に記載の方法であって、
    各文字列について、当該文字列が名前と整合する1つ以上の単語を含むかどうかを特定するステップであって、単語とは、文字列内の一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有し、そして名前とは、個々の人々を呼ぶのに一般に使用されるキャラクタの連なりのリストからのキャラクタの連なりである、ステップと、
    上記格納データにおいて検出された名前のカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  52. 請求項51に記載のコンピュータ可読媒体であって、
    名前の上記リストが、2個のサブセット(ファースト・ネーム及びラスト・ネーム)に分割されている、コンピュータ可読媒体。
  53. 請求項52に記載のコンピュータ可読媒体であって、
    各文字列について、当該文字列が1個以上のフル・ネームを含むかどうかを特定するステップであって、フル・ネームとは、ファースト・ネームのリストからの名前と、それに続くスペースと、それに続くラスト・ネームのリストからの名前と、からなるキャラクタの連なりである、ステップと、
    検出されたフル・ネームのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  54. 請求項51に記載のコンピュータ可読媒体であって、
    上記リスト中の名前が、それらに関連する頻度数を各々有し、
    上記格納データにおいて出現する名前についての平均頻度数を計算するステップと、
    当該平均頻度数に少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  55. 請求項54に記載のコンピュータ可読媒体であって、
    上記格納データにおいて検出される名前の数が閾値よりも少ない場合には上記平均頻度数が無視される、コンピュータ可読媒体。
  56. 請求項36に記載のコンピュータ可読媒体であって、
    各文字列について、2個の文字からなる単語の数をカウントするステップであって、単語とは、一連の連続バイトであって、当該バイトの全てが、文字−数字のキャラクタを表す値を有する、ステップ、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  57. 請求項56に記載のコンピュータ可読媒体であって、
    各2文字単語について、当該2文字単語が有効な州の略称であるかどうかを特定するステップと、
    有効な州の略称のカウント及び2文字単語のカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  58. 請求項36に記載のコンピュータ可読媒体であって、
    各文字列について、当該文字列が1個以上の州/郵便番号のペアを含むかどうかを特定するステップであって、州/郵便番号のペアとは、州の略称と、それに続くスペースと、次にそれに続く郵便番号と、からなるキャラクタの連なりである、ステップと、
    検出された州/郵便番号のペアのカウントに少なくとも部分的には基づいて、上記格納データについてのスコアを計算するステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  59. 請求項36に記載のコンピュータ可読媒体であって、
    電子的に格納されたファイル・システムにおける何れのファイルが最近更新されたのかを特定するステップと、
    最近更新されたファイルの各々に、請求項1に記載の方法を適用するステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
  60. 請求項36に記載のコンピュータ可読媒体であって、
    文字列を規定するバイト値のサブセットが、文字−数字のキャラクタ、括弧、ハイフン、及びスペースを表す、コンピュータ可読媒体。
  61. 請求項36に記載のコンピュータ可読媒体であって、
    上記スコアを閾値と比較するステップと、
    上記スコアが上記閾値を超える場合は、秘密情報を含有する可能性有りとして上記格納データにフラグを立てるステップと、
    をコンピュータに実行させるための命令を更に含む、コンピュータ可読媒体。
JP2011530236A 2008-10-03 2009-10-01 秘密情報の検出 Pending JP2012504920A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/245,507 US9569528B2 (en) 2008-10-03 2008-10-03 Detection of confidential information
US12/245,507 2008-10-03
PCT/US2009/059240 WO2010042386A2 (en) 2008-10-03 2009-10-01 Detection of confidential information

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014247864A Division JP5957064B2 (ja) 2008-10-03 2014-12-08 秘密情報の検出

Publications (2)

Publication Number Publication Date
JP2012504920A true JP2012504920A (ja) 2012-02-23
JP2012504920A5 JP2012504920A5 (ja) 2012-11-08

Family

ID=42076601

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011530236A Pending JP2012504920A (ja) 2008-10-03 2009-10-01 秘密情報の検出
JP2014247864A Active JP5957064B2 (ja) 2008-10-03 2014-12-08 秘密情報の検出

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014247864A Active JP5957064B2 (ja) 2008-10-03 2014-12-08 秘密情報の検出

Country Status (8)

Country Link
US (1) US9569528B2 (ja)
EP (1) EP2344962B1 (ja)
JP (2) JP2012504920A (ja)
KR (2) KR101627592B1 (ja)
CN (2) CN105426756B (ja)
AU (1) AU2009302657B2 (ja)
CA (1) CA2738480C (ja)
WO (1) WO2010042386A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8675597B2 (en) 2009-09-09 2014-03-18 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system
US8718173B2 (en) 2010-02-12 2014-05-06 Lg Electronics Inc. Method for transmitting control information and apparatus for the same
US9042331B2 (en) 2009-09-09 2015-05-26 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176338B2 (en) 2005-11-23 2019-01-08 Salesforce.Com Secure distributed storage of documents containing restricted information, via the use of keysets
US10127130B2 (en) 2005-03-18 2018-11-13 Salesforce.Com Identifying contributors that explain differences between a data set and a subset of the data set
JP5293580B2 (ja) * 2009-03-19 2013-09-18 日本電気株式会社 ウェブサービスシステム、ウェブサービス方法及びプログラム
US8775467B2 (en) 2009-04-29 2014-07-08 Blackberry Limited System and method for linking an address
US9575973B2 (en) 2010-11-05 2017-02-21 Atc Logistics & Electronics, Inc. System and method for systematically removing customer personal information from an electronic device
US9495367B2 (en) * 2010-11-05 2016-11-15 Atc Logistics & Electronics, Inc. System and method for performing a software comparison
US9792104B2 (en) 2010-11-05 2017-10-17 FedEx Supply Chain Logistics & Electronics, Inc. System and method for flashing a wireless device
US9311488B2 (en) 2010-11-05 2016-04-12 Atc Logistics & Electronics, Inc. System and method for removing customer personal information from an electronic device
US8938386B2 (en) * 2011-03-15 2015-01-20 Accenture Global Services Limited Classification-based redaction in natural language text
US9712495B2 (en) * 2011-05-03 2017-07-18 International Business Machines Corporation Methods and systems for selective encryption and secured extent quota management for storage servers in cloud computing
WO2012154559A1 (en) * 2011-05-09 2012-11-15 Beyondcore, Inc. Secure handling and storage of documents with fields that possibly contain restricted information
US10802687B2 (en) 2011-12-04 2020-10-13 Salesforce.Com, Inc. Displaying differences between different data sets of a process
US10796232B2 (en) 2011-12-04 2020-10-06 Salesforce.Com, Inc. Explaining differences between predicted outcomes and actual outcomes of a process
US9489376B2 (en) * 2013-01-02 2016-11-08 International Business Machines Corporation Identifying confidential data in a data item by comparing the data item to similar data items from alternative sources
CN103442061A (zh) * 2013-08-28 2013-12-11 百度在线网络技术(北京)有限公司 云端服务器文件的加密方法、装置和云端服务器
TWI528219B (zh) * 2014-10-01 2016-04-01 財團法人資訊工業策進會 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體
CN107016320B (zh) * 2016-01-27 2021-08-03 四川效率源信息安全技术股份有限公司 一种基于中文词库提高图片密级识别准确率的方法
CA2973686A1 (en) * 2016-07-14 2018-01-14 Bradley R. Caldwell Identification of potentially sensitive information in data strings
US11023475B2 (en) 2016-07-22 2021-06-01 International Business Machines Corporation Testing pairings to determine whether they are publically known
KR101688421B1 (ko) * 2016-08-11 2016-12-21 (주)케이클라우드 카드정보가 매칭된 가상개인정보를 이용한 보안 운송장 발급관리 시스템 및 방법
US10671578B2 (en) * 2016-12-15 2020-06-02 International Business Machines Corporation System and method for dynamically estimating data classification job progress and execution time
RU2665915C1 (ru) * 2017-06-16 2018-09-04 Акционерное общество "Лаборатория Касперского" Система и способ определения текста, содержащего конфиденциальные данные
US11042659B2 (en) * 2017-07-06 2021-06-22 AO Kaspersky Lab System and method of determining text containing confidential data
US11403411B2 (en) 2018-11-20 2022-08-02 Cisco Technology, Inc. Unstructured data sensitivity inference for file movement tracking in a network
AU2020370589A1 (en) * 2019-10-24 2022-04-21 Canopy Software Inc. Systems and methods for identifying compliance-related information associated with data breach events
CN116910770B (zh) * 2023-09-13 2023-12-19 中国海洋大学 一种基于密度的固件基址识别系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3814655B1 (ja) * 2005-07-27 2006-08-30 クオリティ株式会社 ファイル管理システム,情報処理装置およびファイル管理プログラム
JP2006293671A (ja) * 2005-04-11 2006-10-26 Quality Kk 情報処理装置,ファイル管理システムおよびファイル管理プログラム
WO2006122091A2 (en) * 2005-05-09 2006-11-16 Provilla, Inc. Cascading security architecture
JP2007004645A (ja) * 2005-06-27 2007-01-11 Quality Kk 個人情報管理システム
JP2007241580A (ja) * 2006-03-07 2007-09-20 Intelligent Wave Inc 個人情報検査プログラム、個人情報検査方法及び個人情報検査システム
JP2007287078A (ja) * 2006-04-20 2007-11-01 Internatl Business Mach Corp <Ibm> 個人情報の保護を支援する情報処理装置
JP2007323511A (ja) * 2006-06-02 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 個人情報を保護する方法及びそのシステム
JP2008011360A (ja) * 2006-06-30 2008-01-17 Quality Kk 個人情報管理システム,個人情報管理サーバおよび個人情報管理プログラム
JP2008026984A (ja) * 2006-07-18 2008-02-07 Quality Kk 管理サーバおよび管理プログラム
JP2008102827A (ja) * 2006-10-20 2008-05-01 Hitachi Capital Corp 個人情報ファイルの監視システムおよび監視方法
JP2008117287A (ja) * 2006-11-07 2008-05-22 Canon System Solutions Inc 情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体
JP2008234616A (ja) * 2007-02-22 2008-10-02 Quality Kk 情報管理システム、情報処理端末装置、および情報管理システムプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US652303A (en) * 1898-07-12 1900-06-26 Multi Colour Printing Company Ltd Printing-press.
US5850480A (en) 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
US5819265A (en) 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text
US6523031B1 (en) 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US6564214B1 (en) * 2000-06-28 2003-05-13 Visual Networks Technologies, Inc. Method of searching a data record for a valid identifier
GB0027280D0 (en) 2000-11-08 2000-12-27 Malcolm Peter An information management system
JP2003330969A (ja) * 2002-05-16 2003-11-21 Sony Corp 情報管理システム、情報処理装置、情報処理方法、情報処理プログラム、及び記憶媒体
EP1602039A2 (en) 2003-03-03 2005-12-07 Koninklijke Philips Electronics N.V. Method and arrangement for searching for strings
US7835504B1 (en) * 2003-03-16 2010-11-16 Palm, Inc. Telephone number parsing and linking
US7539725B2 (en) * 2003-04-03 2009-05-26 Zix Corporation Auditor system
US7467202B2 (en) 2003-09-10 2008-12-16 Fidelis Security Systems High-performance network content analysis platform
JP2006178603A (ja) 2004-12-21 2006-07-06 Fujitsu Social Science Laboratory Ltd 個人情報検索プログラム、処理方法および処理装置、個人情報管理プログラム、ならびに個人情報管理システム
US20060174123A1 (en) 2005-01-28 2006-08-03 Hackett Ronald D System and method for detecting, analyzing and controlling hidden data embedded in computer files
JP2006221560A (ja) 2005-02-14 2006-08-24 Nomura Research Institute Ltd データ置換装置、データ置換方法およびデータ置換プログラム
JP4158927B2 (ja) 2005-03-25 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報提示装置、情報提示方法、プログラム
US8463892B2 (en) 2005-07-14 2013-06-11 Portauthority Technologies Inc. Method and system for information leak prevention
US20070198420A1 (en) 2006-02-03 2007-08-23 Leonid Goldstein Method and a system for outbound content security in computer networks
AU2006342506A1 (en) * 2006-03-24 2007-11-01 Metabank Information management system and method
US7542973B2 (en) 2006-05-01 2009-06-02 Sap, Aktiengesellschaft System and method for performing configurable matching of similar data in a data repository
WO2007143157A2 (en) * 2006-06-02 2007-12-13 Initiate Systems, Inc. Automatic weight generation for probabilistic matching
US20100005426A1 (en) 2006-12-01 2010-01-07 Van Benedict Method for Identifying Phone Numbers and Alphanumeric Sequences
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293671A (ja) * 2005-04-11 2006-10-26 Quality Kk 情報処理装置,ファイル管理システムおよびファイル管理プログラム
JP2008541273A (ja) * 2005-05-09 2008-11-20 プロビラ,インク. カスケーディング・セキュリティ・アーキテクチャ
WO2006122091A2 (en) * 2005-05-09 2006-11-16 Provilla, Inc. Cascading security architecture
JP2007004645A (ja) * 2005-06-27 2007-01-11 Quality Kk 個人情報管理システム
JP3814655B1 (ja) * 2005-07-27 2006-08-30 クオリティ株式会社 ファイル管理システム,情報処理装置およびファイル管理プログラム
JP2007241580A (ja) * 2006-03-07 2007-09-20 Intelligent Wave Inc 個人情報検査プログラム、個人情報検査方法及び個人情報検査システム
JP2007287078A (ja) * 2006-04-20 2007-11-01 Internatl Business Mach Corp <Ibm> 個人情報の保護を支援する情報処理装置
JP2007323511A (ja) * 2006-06-02 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 個人情報を保護する方法及びそのシステム
JP2008011360A (ja) * 2006-06-30 2008-01-17 Quality Kk 個人情報管理システム,個人情報管理サーバおよび個人情報管理プログラム
JP2008026984A (ja) * 2006-07-18 2008-02-07 Quality Kk 管理サーバおよび管理プログラム
JP2008102827A (ja) * 2006-10-20 2008-05-01 Hitachi Capital Corp 個人情報ファイルの監視システムおよび監視方法
JP2008117287A (ja) * 2006-11-07 2008-05-22 Canon System Solutions Inc 情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体
JP2008234616A (ja) * 2007-02-22 2008-10-02 Quality Kk 情報管理システム、情報処理端末装置、および情報管理システムプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8675597B2 (en) 2009-09-09 2014-03-18 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system
US9042331B2 (en) 2009-09-09 2015-05-26 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system
US9065502B2 (en) 2009-09-09 2015-06-23 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system
US9398570B2 (en) 2009-09-09 2016-07-19 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system
US9749025B2 (en) 2009-09-09 2017-08-29 Lg Electronics Inc. Method and apparatus for transmitting control information in WLAN system
US8718173B2 (en) 2010-02-12 2014-05-06 Lg Electronics Inc. Method for transmitting control information and apparatus for the same
US9071491B2 (en) 2010-02-12 2015-06-30 Lg Electronics Inc. Method for transmitting control information and apparatus for the same
US9300512B2 (en) 2010-02-12 2016-03-29 Lg Electronics Inc. Method for transmitting control information and apparatus for the same
US9559887B2 (en) 2010-02-12 2017-01-31 Lg Electronics Inc. Method for transmitting control information and apparatus for the same
US9876882B2 (en) 2010-02-12 2018-01-23 Lg Electronics, Inc. Method for transmitting control information and apparatus for the same

Also Published As

Publication number Publication date
KR101627592B1 (ko) 2016-06-07
AU2009302657B2 (en) 2016-05-12
JP2015053735A (ja) 2015-03-19
WO2010042386A2 (en) 2010-04-15
EP2344962B1 (en) 2018-12-05
WO2010042386A3 (en) 2010-06-03
US9569528B2 (en) 2017-02-14
JP5957064B2 (ja) 2016-07-27
US20100088305A1 (en) 2010-04-08
CA2738480C (en) 2018-08-21
KR20150038738A (ko) 2015-04-08
CN102171702B (zh) 2015-09-23
EP2344962A4 (en) 2012-09-26
AU2009302657A1 (en) 2010-04-15
CA2738480A1 (en) 2010-04-15
EP2344962A2 (en) 2011-07-20
KR20110081177A (ko) 2011-07-13
CN102171702A (zh) 2011-08-31
CN105426756A (zh) 2016-03-23
CN105426756B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
JP5957064B2 (ja) 秘密情報の検出
JP2012504920A5 (ja)
CN108876636B (zh) 理赔智能风控方法、系统、计算机设备及存储介质
WO2020134657A1 (zh) 系统日志脱敏方法、脱敏系统、计算机设备及存储介质
JP2015053735A5 (ja)
CN109063055B (zh) 同源二进制文件检索方法和装置
CN105224600B (zh) 一种样本相似度的检测方法及装置
CN110427755A (zh) 一种识别脚本文件的方法及装置
AU2017299435B2 (en) Record matching system
WO2021051546A1 (zh) 一种链路异常识别方法、服务器及计算机可读存储介质
CN107204960A (zh) 网页识别方法及装置、服务器
CN113364753B (zh) 反爬虫方法、装置、电子设备及计算机可读存储介质
AU2019340705B2 (en) Optimized execution of fraud detection rules
CN107305615B (zh) 数据表识别方法和系统
CN116595554B (zh) 基于多维度实现政务数据安全性分析方法及装置
CN110472416A (zh) 一种网页恶意代码检测方法及相关装置
CN112395401B (zh) 自适应负样本对采样方法、装置、电子设备及存储介质
CN113627938B (zh) 一种区块链的数据删除方法、装置、设备及存储介质
CN105608658A (zh) 案件分析指导方法和设备
CN116451218A (zh) 异常程序的检测方法、装置、可读介质及电子设备
CN116663003A (zh) 攻击检测方法、装置、计算机设备及存储介质
CN116865986A (zh) 一种病毒检测方法、cep引擎、电子设备及存储介质
CN115329325A (zh) 主动防御中的规则匹配方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120321

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120919

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131121

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140219

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140318

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140421

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140806