JP2009048350A - 情報評価装置、情報評価方法、及び情報評価プログラム - Google Patents

情報評価装置、情報評価方法、及び情報評価プログラム Download PDF

Info

Publication number
JP2009048350A
JP2009048350A JP2007212668A JP2007212668A JP2009048350A JP 2009048350 A JP2009048350 A JP 2009048350A JP 2007212668 A JP2007212668 A JP 2007212668A JP 2007212668 A JP2007212668 A JP 2007212668A JP 2009048350 A JP2009048350 A JP 2009048350A
Authority
JP
Japan
Prior art keywords
information
data
evaluation
unit
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007212668A
Other languages
English (en)
Other versions
JP5286712B2 (ja
Inventor
Itaru Hosomi
格 細見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007212668A priority Critical patent/JP5286712B2/ja
Publication of JP2009048350A publication Critical patent/JP2009048350A/ja
Application granted granted Critical
Publication of JP5286712B2 publication Critical patent/JP5286712B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】大量のデータに対する総合的な重要度を効率よく、さらには精度良く判定する。
【解決手段】本発明が適用された情報評価装置10は、所定の条件を満たすデータを入力する入力部1と、該データの重要度を評価するために有効な情報を検出する情報検出部2と、検出した情報のうち不要な分を削除するなどの情報量の調整を行なう情報量調整部3と、該調整後の情報を用いてデータ全体の重要度を判定する重要度判定部4と、該判定した重要度を出力する出力部5とを備える。
【選択図】図1

Description

本発明は、コンピュータまたはコンピュータネットワーク上の記憶装置に長期または一時的に蓄積されるデータに対し、その重要度を評価する情報評価装置、情報評価方法、及び情報評価プログラムに関する。
近年、個人や組織が有する知的財産の重要性を問う議論が様々な面から行なわれている。情報や知識は物質的なモノ以上に重要な資産であるとする一般的な話から、個人情報の漏洩に対する賠償問題、新技術やノウハウの流出による企業競争力低下への懸念、法令順守のための財務データ管理の必要性といった話題が後を絶たないが、これらの課題を解決するには、いずれもまず管理・保護すべき重要な情報の峻別が必要となる。各情報の重要性を区別せずに、保護対象として最も重要な情報に対する管理・保護処置を全ての情報に対して適用した場合、情報の共有や流通は著しく制限され、その管理・保護のためのコストも非常に高価となる恐れがある。
そこで、例えば情報セキュリティ管理システム(ISMS)の標準手順では、まず組織内の情報資産を洗い出し、それらの価値の大小を評価した上で漏洩や破壊によるリスクを評価し、リスクの程度や種類に応じた対策を採ることと定めている。情報資産に関するリスクは、多くの場合、情報資産の重要度と脅威を元に算出される。そこで、情報資産の重要度と脅威のそれぞれをまず導き出すことが必要となる。
特許文献1および特許文献2は、いずれも情報セキュリティ管理におけるリスクを算定するために情報資産の価値や脅威の発生頻度を利用している。これらは、予めデータベースに個々の資産とその価値(漏洩や紛失による危険性の高さ)が記録されていることを前提としている。また、特許文献3ではユーザに対する質問によって各種情報の資産価値などの値を入力することになっている。これら既存の方法では、リスクの算定に必要な膨大な情報資産の洗い出しと各情報資産の重要度すなわち漏洩・紛失による危険性の高さをどのように実現するかについては、具体的な解決方法を示していない。
日立ソフトの情報漏洩防止ソリューション「秘文」やKLabのP−Pointerなどの製品では、内部統制や情報セキュリティ管理におけるリスク評価用のソリューション・コンポーネントとして、典型的な重要情報の一種とされる個人情報を自動検出するツールを提供している。
以上のような手法や製品では、個人情報などの重要な情報資産を表すファイルを洗い出した後、その結果から情報資産の価値をどのように決定するかについては細かく規定されておらず、利用者に任されている。
他方、特許文献4には、ネットワークを介して収集された新着情報が、各利用者にとってどの程度重要であるかを機械的に評価するために、収集された新着情報から特徴(例えば、キーワード)を抽出し、この抽出した特徴と事前に各利用者の好みに応じて作成されたプロファイルとを照らし合わせることで、各利用者がその新着情報をどれだけ必要としているかの度合いを示す重要度を計算する情報評価装置が提案されている。具体的には、或る利用者のプロファイルに、「ルール1)人口,知能[10];」なる記述がある場合、新着情報から「人口,知能」というキーワードが抽出されたならば、その利用者の当該新着情報の重要度が+10される。
細見、情報資産管理と個人情報保護のための機密文書検出手法、社団法人情報処理学会研究報告、Vol.2006、No.104、pp.53−60 特開2005−293267号公報 特開2003−196476号公報 特開2005−234756号公報 特開平10−260955号公報
上記の手法は以下に示すような問題点を有する。
第1の問題点は、実在する大量のデータから検出可能な情報を用いて情報資産の価値を算出する具体的で効率的な手段が提供されていない、という点である。
第2の問題点は、特許文献4に示される情報評価装置を情報資産の価値算出に適用した場合、資産価値の評価結果が実際よりも過剰に低く算出され、同様にリスクも本来より過剰に低いと判定される可能性がある、という点である。その理由は、特許文献4に示される情報評価装置は同じ特徴が何個含まれていたかという特徴毎の総数を考慮していないためである。例えば、抽出する特徴として「重要」の重の文字を丸で囲んだ記号をキーワードAとする場合、評価対象とする情報の中にキーワードAが1つしか含まれていない場合でも、多数含まれている場合でも、その重要度は同じになる。しかし、評価対象とする情報が論理的に複数の文書で構成され、各文書単位で重要か否かを示す前記キーワードAが付されている場合、キーワードAの個数が多いほど重要文書の数が多いため、より重要と言える。
本発明は、以上のような問題に鑑みなされたものであり、実在する大量のデータから検出可能な情報を用いて情報資産の価値を精度良く評価することのできる情報評価装置、情報評価方法及び情報評価プログラムを提供することを目的としている。
本発明の第1の情報評価装置は、文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置であって、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する1単位のデータとして入力する入力手段と、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各1単位のデータから検出する情報検出手段と、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定手段と、前記判定した重要度を出力する出力手段とを備える。
本発明の第1の情報評価方法は、文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価方法であって、入力手段が、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する1単位のデータとして入力し、情報検出手段が、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各1単位のデータから検出し、重要度判定手段が、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定し、出力手段が、前記判定した重要度を出力する。
本発明の第1の情報評価プログラムは、文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置を構成するコンピュータに、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する1単位のデータとして入力する入力処理と、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各1単位のデータから検出する情報検出処理と、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定処理と、前記判定した重要度を出力する出力処理とを行わせる。
本発明によれば、重要度の評価に有効な情報として予め定められた検出対象情報を評価対象データ群を構成する各1単位のデータから検出する情報検出手段と、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって評価対象データ群の重要度を判定する重要度判定手段とを備えるため、実在する大量のデータから検出可能な情報を用いて情報資産の価値を算出することができ、さらには検出対象情報の種類毎にそれが検出された総数を所定の基準と照合することによって評価対象データ群の重要度を判定しているため、個々の検出対象情報の検出数を考慮せずにその有無だけに基づいて評価する場合に比べて、価値が過剰に低くなることを回避することができ、情報資産の価値を精度良く評価することができる。
(第1の実施の形態)
以下、本発明の第1の実施の形態を、図面を参照して説明する。
(第1の実施の形態の構成)
図1は、本発明の第1の実施の形態による情報評価装置の機能構成を示すブロック図である。
図1を参照すると、本実施の形態による情報評価装置10は、入力部1と、情報検出部2と、情報量調整部3と、重要度判定部4と、出力部5とを備える。
ここで、入力部1は、評価対象となるデータを情報評価装置10に入力する機能を有する。評価対象となるデータは、パーソナルコンピュータの内部または外部に接続された記憶装置に保存されているファイルや、Eメールなどとして送受信されるデータであってもよい。また、HTMLやDOCなどの拡張子で判別可能なテキスト情報主体のファイルのみを評価対象として入力したり、逆にEXEやDLLなどの拡張子で判別可能な実行形式のファイル以外を評価対象として入力する機能を備えていても良い。
本実施の形態において、データとは上記のようにファイルやEメールなどのようなまとまりのある文字列またはデジタルコード列を指すこととする。これに対し、情報とは、データに含まれた何らかの意味を成す比較的短い文字列やデジタルコード列を指すこととする。
情報検出部2は、入力部1により入力されたデータから、そのデータの重要度の評価に有効な情報として予め定められた情報を検出する機能を有する。有効な情報の検出は、入力されたデータからテキストデータのみを抽出する機能と、有効な情報を単語や文字列のパタン、またはそれらの組合せによって定義し記憶しておく機能と、抽出したテキストデータから前記記憶しておいた定義に適合する文字列が含まれているか否かを判定する機能とによって実現することができる。また、テキストデータのみを抽出する機能を用いず、入力されたデータに対して直接パタンの照合を行なって有効な情報を検出するようにしても良い。その場合は、バイナリデータとしてのパタンの照合となる。また、圧縮やアーカイブ化によって、データと定義された有効な情報のパタンとが直接には照合できない場合に対処するため、情報検出部2は圧縮されたデータやアーカイブ化されたデータを解凍する(元の非圧縮な個々のファイル単位などのデータに戻す)機能を有していても良い。また、検出する有効な情報は、2種類以上に分類されていてもよく、それぞれの種類毎に定義されたパタンに基づいて有効な情報の検出が行なわれてもよい。
情報量調整部3は、情報検出部2で有効な情報が検出された一連のデータの集合から、本質的な情報量の増加とはならない同一または類似した複数のデータを見つけ出し、それらの重複したデータによる情報の冗長性を低減する機能を有する。ここで言う本質的な情報量とは、情報理論における情報量の意味に相当する。すなわち、あるデータの内容が他のデータの内容と同じであった場合、両データの情報としての総量はそのうちの一方のデータの情報量と変わらない。例えば、ある1人の人物の連絡先や所属などの個人情報が1件だけ含まれた文書ファイルが100個記録された1つの記憶装置を第三者が参照しても、それらの文書ファイルからは1人分の個人情報が得られるだけである。
このように、例えば入力部1がデータを取得するために参照する1つの記憶装置内のデータ群のうち、ある2つのデータが同一の内容であった場合、その記憶装置を利用するユーザにとってそれら2つのデータは1つであっても2つであっても利用価値としては殆ど差が無いと予想される。一方のデータの内容を参照して得た知識や処理結果は、同じ内容を持つ他方のデータを用いても同じ結果となるためである。すなわち、入力されたデータから個別に有効な情報を検出し、その数をそのまま加算して入力データ全体の重要度とした場合、データ群の中に同一の内容のデータが含まれていなければ、データ群の重要度を精度良く算出できる。しかし、同一の内容のデータが含まれていれば、同じ内容のデータから得た同じ有効な情報は複数回加算され、結果として本来期待すべき重要度より過剰に高い重要度が算出される可能性がある。
そこで、情報量調整部3では、同一内容と判断できる複数のデータを検出し、それらのデータから得られる有効な情報の数から重複していた分を差し引くことで、入力データ全体の重要度が適切な値となるようにする。これにより、同じ情報を含む文書が同じ記憶装置内に多数保存されていた場合でも、その重複する同一情報の数が他の異なる情報の数と同様にそのまま資産価値に反映されることがなくなり、結果として本来の資産価値よりも過剰に高い資産価値が算出されるのを回避でき、同様にリスクも本来より過剰に高いと判定されることを回避できる。
重要度判定部4は、情報検出部2により検出された有効な情報の種類と数に基づき、入力されたデータ全体の重要度を判定する機能を有する。重要度は、単純に検出された有効な情報の総数であってもよく、また、その総数が所定の数以上か未満かによってレベル分けされた値であっても良い。また、有効な情報の種類毎に異なる重み係数を与え、例えばカテゴリ1の情報1つにつき1点、カテゴリ2の情報1つにつき3点として、検出された情報から得られるカテゴリ別得点の合計を重要度としても良い。
出力部5は、重要度判定部4で得られた重要度を少なくとも含んだ評価結果を出力する機能を有する。出力する内容は、入力されたデータ全体の重要度だけでなく、個別のデータ単位で特に重要度の高かったデータの名前やその元の保存場所などを含んでいても良い。
図2は、本実施の形態による情報評価装置のハードウェア構成を示すブロック図である。
図2を参照すると、本実施の形態による情報評価装置10は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができ、CPU(Central Processing Unit)11、RAM(Random Access Memory)等のメインメモリであり、データの作業領域やデータの一時退避領域に用いられる主記憶部12、液晶ディスプレイ、プリンタやスピーカ等の提示部13、キーボードやマウス、スキャナ等の入力部14、周辺機器と接続してデータの送受信を行うインタフェース部15、ROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置である補助記憶部16、本情報処理装置の上記各構成要素を相互に接続するシステムバス17等を備えている。
本発明による情報評価装置10は、その動作を、情報評価装置10内部にそのような機能を実現するプログラムを組み込んだ、LSI(Large Scale Integration)等のハードウェア部品からなる回路部品を実装してハードウェア的に実現することは勿論として、上記した各構成要素の各機能を提供するプログラムを、コンピュータ処理装置上のCPU11で実行することにより、ソフトウェア的に実現することができる。
すなわち、CPU11は、補助記憶部16に格納されているプログラムを、主記憶部12にロードして実行し、情報評価装置10の動作を制御することにより、上述した各機能をソフトウェア的に実現する。
図3は、本実施の形態による情報量調整部3の機能をより詳細に説明した説明図である。本実施の形態による情報評価装置10は、図3に示したような一連の機能要素から構成される情報量調整部3により、以下のような手順で情報量の調整を行なう。
まず、ベクトル生成部31が、入力されたデータから得られた1種類以上の有効な情報の数を元に、当該データの特徴を表すベクトルを生成する。各情報の種類をそれぞれベクトルの成分に割り当て、各成分の値を前記各情報の種類別に検出された数とする。例えば、情報検出部2によってデータ1からA、B、Cの3種類の情報がそれぞれ1、3、0件検出された場合、データ1に対応するベクトル1は(1,3,0)と表される。
次に、重複データ判定部32が、入力されたデータ同士の類似度合いを計算し、重要度の評価に有効な情報について重複しているデータの組を判定する。データ同士の類似度合いの評価は、データ名同一性判定部32aと、ベクトル同一性判定部32bとによって行なう。それぞれ、データ名の類似度合いと各データに対応するベクトルの類似度合いを計算し、共に所定の閾値を超えた場合のみ、比較した両データは重複したデータであると見なす。
重複データ判定部32は、重要度の評価に有効な情報を含むデータ全体(例えばファイル)を単位として複数のデータ間の同一性を判定する。一方、重複内容判定部33は、データに含まれる有効な情報を単位として情報間の同一性の判定を行なう。重複内容判定部33は、少なくとも内容同一性判定部33aを含んで構成され、内容同一性判定部33aは、データ単位では異なる2つのデータにそれぞれ同じ内容の情報が含まれていた場合、または重複データ内に同じ内容の情報が複数含まれていた場合、これらを冗長な情報として検出する。
重複内容判定部33は、図3に示したように、情報量調整部3において、重複データ判定部32とは並行独立に機能するよう構成されていても良いが、重複データ判定部32の処理の後に重複内容判定部33が処理を行なうように構成されていても良い。また、情報単位での重複をその情報を含むデータとの組として情報量調整部3が記憶するならば、重複内容判定部33の処理の後に重複データ判定部32の処理を行なうように構成されていても良い。また、情報量調整部3が重複データ判定部32と重複内容判定部33のうちどちらか一方のみを備えた構成や、重複データ判定部32がデータ名同一性判定部32aを含まない構成であっても良い。
ただし、精度の面では重複データ判定部32はベクトル同一性判定部32bに加えてデータ名同一性判定部32aを含む構成が望ましい。何故なら、ベクトル同一性判定部32bだけの構成では、同じ種類の情報の数が同一または類似していれば、個々の情報の内容が異なる複数のデータも重複データと判定されるケースが生じる。しかし、同じ種類の情報の数が同一または類似していても個々の情報の内容が異なる複数のデータには異なるデータ名が付与されている場合が多いために、データ名同一性判定部32aを併用すれば、そのようなデータが重複データとして判定されるケースを低減できるためである。
重複データ判定部32および/または重複内容判定部33により、データや情報の単位での重複を検出した後、それらの重複が後段の重要度判定部4により算出される重要度に悪影響を及ぼさぬよう、重複除去部34が重複による冗長分の情報量を削減する。
重複したデータ間では、それらのデータそれぞれの特徴を表すベクトルの成分同士を比較し、そのうち最大の値のみを残してそれ以外の値を0にする。これを全成分に対して行なうことで、冗長分を削除することができる。
重複した情報間でも、同じ内容と判定された情報が2つ以上あれば、それらのうち1つのみを数として計上し、残りの情報については、その情報が検出されたデータの特徴を表すベクトルから、対応する成分の値を1ずつ減じることで、冗長分を削減することができる。
以上の処理により、情報量調整部3の処理が完了し、情報量が適切な値に調整された後、重要度判定部4が、入力されたデータ全体に対する重要度を判定する。重要度の算出方法としては、例えば前述の例のようにA、B、Cの3種類の情報の数を成分とした3次元のベクトルを想定した場合、入力されたデータそれぞれに対応するベクトルから成分毎に値の合計を計算し、以下に例示するように、成分同士の重み付き和を計算した結果を重要度とすることができる。
例として、入力されたデータ1とデータ2からそれぞれベクトル1=(0,3,1)とベクトル2=(2,1,4)が得られたとする。成分毎の合計は、それぞれ2、4、5となり、これらの重み付き和Tは、T=2α+4β+5γのように表すことができる(α、β、γはそれぞれ成分A、B、Cに対する重み)。α=3、β=2、γ=1とすれば、重要度=T=2・3+4・2+5・1=19となる。
また、別の方法として、各成分が幾つかの閾値を超えたか否かでレベル分けを行ない、その結果得られたレベルを重要度とすることもできる。例として、上記例で用いたA、B、C3種類の情報に対して次のようなレベル分類条件を与えたとする。
Aの数≧10ならばレベル3
1≦Aの数≦9またはBの数≧10ならばレベル2
1≦Bの数≦9またはCの数≧10ならばレベル1
A=B=0およびCの数≦9ならばレベル0
ここで、上記例のベクトル1とベクトル2については、成分ごとの合計数がそれぞれAの数=2、Bの数=4、Cの数=5であるため、上記のレベル分類条件と照合すると、Aの数が1以上であることからレベル2と判定される。
以上のように、データ全体の重要度を、そのデータに含まれる重要度の評価に有効な情報のみからなるベクトルを用いて効率よく計算し、各前記有効な情報の数を考慮した重要度の評価により、データ全体の価値が過剰に低くなることを回避できる。
重要度の判定方法は以上のような例に限定される必要は無く、情報検出部2で検索された1種類以上の情報の数を用いた他の方法であっても良い。
(第1の実施の形態の効果)
本実施の形態によれば、評価対象とするデータ全体の重要度を精度よく判定することができる。その理由は、第1に、重要度の評価に有効な情報の種類毎にそれが検出された総数を所定の基準と照合することによってデータ全体の重要度を判定しているため、個々の情報の検出数を考慮せずにその有無だけに基づいて評価する場合に比べて、データ全体の価値が過剰に低くなることを回避できるからである。第2に、検出した情報のうち、重複している冗長な分の情報量を除去した後に重要度の判定を行なうため、データ全体の価値が過剰に高くなることも回避できるからである。
また本実施の形態によれば、評価対象とするデータ全体の重要度を高速に判定することができる。その理由は、データ全体の重要度を判定するために有効な情報のみを該データから検出し、その種類や数を用いて重要度を判定するからである。
本発明の実施例1を、図面を参照して説明する。実施例1は、本発明を上記第1の実施の形態に適用したものであり、上記第1の実施の形態をより具体的な例によって説明するものである。なお、実施例1の構成及び動作の概略は上記第1の実施の形態の構成及び動作の概略と同様であるため、重複する部分については適宜省略して説明する。
(実施例1の動作)
実施例1において、図1における入力部1は、例えばあるデスクトップPCに内蔵または接続されている全ての記憶装置に保存されているファイルであることを条件とし、当該条件を満たす全ファイルを情報検出部2に順次入力する。ここでは説明の簡単化のため、前記記憶装置には図4の表に示したようなfile1.txt、file2.ppt、file3.xls、file4.pdfの4つのファイルのみが保存されていたとして、以降の説明を進める。
情報検出部2は、入力されたそれぞれのデータ(ここではファイルであり、以降もファイルと呼ぶことにする)から、プライベート情報、社内連絡情報、他社連絡情報、アドレス情報といった4種類の情報を検出する。このような複数種類の情報の検出には、例えば非特許文献1に記載されているような方法が利用できる。非特許文献1に記載されている方法の1つでは、検出対象とすべき各種の情報を機密文書オントロジと呼ぶ木構造の辞書で定義し、その定義で表される条件に合致する語や文字列の組を入力された文書ファイルから検出する。例えば、文書ファイル内に“山田太郎”、“大阪市”、“06−1234−5678”、“NEC”、“関西支社”といった語が互いに所定の距離内に近接して配置されていた場合、“NEC”という会社から見た一組の「社内連絡情報」として検出することができる。このようにして、上記4つのファイルそれぞれから4種類の情報を検出した結果、図4の表に示したように、情報の種類毎の数を得ることができる。例えば、file1.txtからは、他社連絡情報のみが1件検出され、プライベート情報、社内連絡情報、アドレス情報を表す情報はいずれも検出されなかったことを表している。
情報検出部2による上記のような各種情報の検出とその数の計上が完了すると、次に情報量調整部3における最初の処理として、ベクトル生成部31により前記各ファイルの特徴を表すベクトルを生成する。図5は、生成されたベクトルと、ベクトル同一性判定部32bで用いる重み係数を示した説明図である。例えば、file1.txtに対応するベクトルV1は、図4の表において各情報の種類「プライベート情報」「社内連絡情報」「他社連絡情報」「アドレス情報」毎に検出された数をそれぞれ1,2,3,4番目の成分とし、(0,0,1,0)と表している。
情報量調整部3では、次に重複データ判定部32の機能の1つであるデータ名同一性判定部32aにより、ファイル名同士の類似性を評価する。ファイル名同士の類似性は、編集距離などを用いた評価方法があるが、より簡単な方法として、例えばファイル名の長い方の何%が共通した文字列であるかを計算し、その結果が所定の閾値を超えていれば同一の可能性があるファイルの組と判断しても良い。ただし、評価するファイル名の文字列に拡張子を含むかどうかによって結果が大きく異なってくる。ここでは拡張子を除いたファイル名同士の比較で80%以上が共通の文字列であれば、同一の可能性があるファイルの組と判断する。すると、上記4つのファイル名(拡張子を除く)はそれぞれ「file1」「file2」「file3」「file4」であり、どの2つを比較しても5文字中4文字が順序も合わせて同一文字列であることから、全て80%の類似度となり、閾値の80%以上に達するため、全てのファイルの組合せが次のベクトル同一性判定部32bの評価対象となる。
ベクトル同一性判定部32bでは、各ファイルの特徴を表すベクトル同士を比較し、その類似性が所定の閾値を超えた場合に比較したベクトルにそれぞれ対応するファイル同士を、重複したファイルと判断する。ファイル同士は、ファイル名とそれぞれの特徴を表すベクトルのみを比較するため、同一のファイルというより、共通部分を持つ可能性が高いファイルの組を検出する。
ベクトル間の類似性の評価には、内積や余弦を使った計算がよく利用されている。ベクトルV1とV2の余弦(コサイン)類似度は、
cos(V1,V2)=V1・V2/|V1||V2|
で表すことができる。分子はベクトルV1とV2の内積を表し、分母はベクトルV1、V2それぞれの大きさ(長さ)の積を表している。ここでは、ベクトルの各成分に対する重み付きの余弦を類似度の評価に使う。ベクトルの各成分に対する重みには、図5で重み係数として記載したものを用いる。すなわち、各ベクトルの第1、第2、第3、第4成分に対してそれぞれ4,2,3,1倍の重みを予め乗ずる。重みを与えることで、ベクトル間の類似度計算において相対的に重視する成分や逆に重視しない成分をコントロールすることができる。上記の重みでは、1番目の成分(「プライベート情報」)を最も重視し、4番目の成分(「アドレス情報」)を最も軽視することを表している。図5に示したベクトルV1、V2、V3、V4について全ての2つのベクトルによる重み付き余弦類似度の組合せは、図6のようになる。
ここで、例えば閾値0.9以上の類似度を持つベクトルの組合せについて、両ベクトルは重複しているものと判断することができる。図6からは、V2とV4の組合せのみが重複したベクトルの組となる。閾値を0.7にした場合は、V2とV3およびV3とV4それぞれの組合せも重複したベクトルの組として検出される。
重複データ判定部32の処理後、重複内容判定部33の処理を行なわず、そのまま重複除去部34の処理を行なう手順としても良い。その場合、検出された重複したファイルの組に基づき、重複したファイルに対応するベクトルの各成分のうち、多い方(3つ以上のベクトルが互いに重複となった場合には最大の値)のみを残して他のベクトルの同成分の値を0にする。図5に示したベクトルV1〜V4に対して、V2とV4の組のみが重複と判断された場合は、図7のようにV2とV4の各成分のうち一方の成分の値を残して他方の成分の値を0にしている。図7では、V2とV4の成分値は全て同じであるため、V4の成分値を全て0としている。重複除去部34によるこのような処理の後、ベクトルの各成分ごとの合計値は図7下部のようにそれぞれ6、6、2、3となる。これは、図4の表の最下部で示した種類毎の情報の合計値8、11、3、4に対して、それぞれプライベート情報の数が2、社内連絡情報の数が5、他社連絡情報が1、アドレス情報が1だけ少なくなっている。
一方、重複内容判定部33の処理を実行する場合は、重複データ判定部32の処理後に実行するか、または重複データ判定部の処理の開始や終了とは独立に行なってもよい。重複内容判定部33では、内容同一性判定部33aにより、内容として同一と判断された情報の組を検出する。検出方法は、各情報の文字列やバイナリコードとしての完全マッチング(全ての文字またはコードの順列が等しい場合のみ重複していると判定)の他、データ名同一性判定部32aと同様に編集距離などを用いた部分マッチングであってもよい。
重複内容判定部33で情報単位の重複が検出されると、重複除去部34は、検出された重複情報の組のうち1つを除いた残りの情報の数をカウントしないようにベクトルの対応する成分値を差し引く。例えば、前述した例の「社内連絡情報」(“山田太郎”、“大阪市”、 “06−1234−5678”、“NEC”、“関西支社”)がfile2.ppt、file3.xls、file4.pdfのいずれからも検出された場合、それぞれに対応するベクトルV2、V3、V4のうち2つから第2成分の値を1ずつ引く。ただし、この例ではV2とV4に対応するファイルfile2.pptとfile4.pdfが互いに重複していることにより、既にV4の第2成分は0とされるため、更に1差し引く処理は行なわない。すなわち、重複データ判定部32の判定結果に基づき重複分の成分値減算が行なわれたベクトルからは、重複内容判定部33の判定結果に基づく重複除去を適用しない。
結果として、重複データ判定部32と重複内容判定部33それぞれの判定結果を共に反映した重複除去後のベクトルの組は、図8に示したようになる。図8では、重複内容判定部33の判定結果を反映していない図7に比べ、file3.xlsに対応するベクトルV3”の第2成分が1から0になっている。これにより成分毎(情報の種類毎)の合計数もそれぞれ6、5、2、3となる。
以上のようにして情報量調整部3の一連の処理を終えると、重要度判定部4により、全ての有効な情報の数に基づく重要度を決定する。ここでは、重要度判定部4は、図9に示したような重要度レベルの判定条件を示す表を予め保持しているものとする。
図9に示した表では、例えばアドレス情報を表す情報が、全てのファイルから検出された数で1件から9件までの間ならば重要度のレベルが0であり、10件以上であれば1となる。また、同じファイルの集合から10件以上の社内連絡情報も検出されていれば、重要度のレベルは2となる。また、同じファイルの集合から9件以下のプライベート情報も検出されていれば重要度のレベルは3となり、さらに同じファイルの集合から10件以上の他社連絡情報も検索されていれば、重要度のレベルは4になる。このように、より高いレベルの値を優先する。すなわち重要度TIは、初期値を0とした場合、
TI=Max{(プライベート情報≧10)*5,
(他社連絡情報≧10)*4,
(1≦プライベート情報≦9)*3,
(1≦他社連絡情報≦9|社内連絡情報≧10)*2,
(1≦社内連絡情報≦9|アドレス情報≧10)*1}
で計算される。ここでMax{ }は、{ }内の値のうち最大値をとる関数、|は論理和(OR)演算子、*は乗算演算子とする。図8に示した重複除去後の成分毎の合計数の組{6、5、2、3}から重要度を算出すると、
TI=Max{(プライベート情報の数=6)*3,
(他社連絡情報=2)*2,
(社内連絡情報=5)*1}
=3
となる。情報量調整部3による重複分の除去を行なわなかった場合、成分毎の合計数の組は図4の表の合計欄に示したように{8,11,3,4}となるため、重要度TIは、
TI=Max{(プライベート情報の数=6)*3,
(他社連絡情報=2|社内連絡情報=11)*2}
=3
のように計算される。この場合は計算結果の値に差が無いが、例えば社内連絡情報が10件以上の場合に重要度のレベルが4であると定義されていた場合は、情報量調整部3の処理が無ければ社内連絡情報の合計が11となり、重要度TIの値は4になる。
最終的に、重要度のレベルが3であると判定されると、この値を少なくとも含んだ結果が出力部5によって出力される。出力形態は、図2に示した情報評価装置10が備える提示部13により、画面上への出力や印刷装置による紙への出力、またはインタフェース部15を介して他の装置への入力とすることもできる。
図10は出力部5による出力結果の一例である。このように、本実施例では複数の評価対象に対して個別に情報評価装置による一連の処理を行ない、それぞれの重要度を一覧にまとめて出力しても良い。また、図10に示したように、情報量調整部による重複除去を行なわない場合の重要度の判定も容易に実現できるため、その場合の重要度の値も併記しておくことで、重複除去による効果や影響を確認することもできる。
(実施例1の効果)
以上説明した実施例1による情報評価装置10の動作にかかる一連の情報評価方法によれば、ファイルに含まれた個人情報の漏洩による被害や該個人情報のマーケティング等への適切な利用による利益を鑑みて、個人情報に類する4種類の情報(プライベート情報他)を前記ファイル群の重要度を評価する上で有効な情報として検出し、検出した情報から各ファイルの特徴を表すベクトルを生成して該ベクトル間の演算による効率的な重複判定を行ない、その結果適切な重要度の値を算出することができる。
実施例1によれば、重要度の精度を向上させるための重複ファイルの検出と重複分の情報量削減において、ファイル名および特徴として選んだ4種類の情報のみを用いることで、各ファイル同士の全内容を直接比較する場合に比べて、評価処理に必要な計算コストと記憶量を大幅に削減できる効果を有する。また、複数のファイルから同一の方法で情報を検出すれば、その検出方法の精度に関わらず、同じ傾向で正しい検出結果や誤った検出結果が得られると期待できるため、同一の方法で検出した情報の数によって生成したベクトルが互いに類似しているファイルは、検出した種類の情報に関して高い確率で実際に類似したファイルが判定できるという効果を有する。実施例1の場合では、file2.pptとfile4.pdfは少なくとも重要度の判定要素として重視すべき個人情報に関しては同一と見なすことができる。
本発明の実施例2を、図面を参照して説明する。実施例2は、本発明を前述の実施例1を含んで構成したシステムに適用したものである。なお、実施例1の構成及び動作の概略は上記第1の実施の形態の構成及び動作の概略と同様であるため、重複する部分については適宜省略して説明する。
(実施例2の動作)
図11は、本発明による情報評価装置10を実装した端末PC100およびサーバ102を含み、さらに外部記憶装置101を含んで構成される。端末PC100の利用者が端末PC100から外部記憶装置101またはサーバ102に1つ以上のファイルをコピーしようとした際に、それら1つ以上のファイル全体に対する重要度を端末PC100上で動作する情報評価装置10が自動的に評価し、該重要度が所定の閾値以上であれば前記ファイルのコピーを中断し、警告を発する。ここで例えば、重要度の値に対応した金額を与えて「コピーしようとした一連のファイルには漏洩した場合に○円の損失となる個人情報が含まれています」のようなメッセージを出力してもよい。また、外部記憶装置101にファイルをコピーする場合とサーバ102にファイルをコピーする場合とで、異なる閾値を設定していても良い。
また、別の動作として、サーバ102上で動作する情報評価装置10が、端末PC100および該端末PC100に接続されている外部記憶装置101に保存されている全てのファイルを対象とした重要度をリスクの値として算出し、定期的にまたはサーバ102の利用者からの指示によってその結果をレポートとして出力するようにしても良い。
(実施例2の効果)
以上説明した実施例2によれば、端末PC100やサーバ102に情報評価装置10を含むことにより、情報漏洩の予防やリスク管理のための効率的なデータ収集が実現できる。
(他の実施の形態)
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は、必ずしも上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。例えば、算出される資産価値の評価結果が実際より過剰に低くなることは容認できないが、実際より高くなることはある程度許容できるような条件がある場合や、事前に重複データの除去が行なわれている状況の下では、図12に示されるように、上記第1の実施の形態から情報量調整部3を取り除いた構成の情報評価装置10’も有効な実施の形態として考えられる。
本発明は、文字列の照合などによって検出可能な個人情報や製品情報、プロジェクト情報などを用いて特定範囲のデータの重要度を効率よく評価できるため、例えばそれらの情報が他社など第三者の個人に漏洩もしくは災害などで破壊された場合のリスクを定量的に評価するリスク評価システムに適用でき、情報セキュリティ監査や情報資産管理の支援に有効である。また、本発明は、情報資産の価値評価に有効な情報の数のみを利用し、且つその重複分を削除することによって、計算量が少ないにも関わらず情報資産全体の重要度(価値)を精度良く算出できる。
本発明の第1の実施の形態による情報評価装置の機能構成を示すブロック図である。 第1の実施の形態による情報評価装置のハードウェア構成を示すブロック図である。 第1の実施の形態による情報量調整部の機能構成の例を示した説明図である。 情報検出部による検出結果の例を示した説明図である。 ベクトル生成部により生成されたベクトルの例を示した説明図である。 各ベクトル間の余弦類似度の算出結果例を示した説明図である。 重複除去後のベクトルを示した説明図である。 重複除去後のベクトルを示した説明図である。 重要度レベルの判定条件を示した説明図である。 出力結果の例を示した説明図である。 第1の実施の形態による情報評価装置を含むシステム構成の例を示すブロック図である。 本発明の他の実施の形態による情報評価装置の機能構成を示すブロック図である。
符号の説明
10:情報評価装置
1:入力部
2:情報検出部
3:情報量調整部
4:重要度評価部
5:出力部
11:CPU
12:主記憶部
13:提示部
14:入力部
15:インタフェース部
16:補助記憶部
17:システムバス
31:ベクトル生成部
32:重複データ判定部
32a:データ名同一性判定部
32b:ベクトル同一性判定部
33:重複内容判定部
33a:内容同一性判定部
34:重複除去部

Claims (17)

  1. 文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置であって、
    前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する1単位のデータとして入力する入力手段と、
    前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各1単位のデータから検出する情報検出手段と、
    前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定手段と、
    前記判定した重要度を出力する出力手段と、を備えることを特徴とする情報評価装置。
  2. 前記情報検出手段は、前記検出対象情報として機密情報を検出することを特徴とする請求項1に記載の情報評価装置。
  3. 前記情報検出手段は、前記機密情報として少なくとも個人情報を検出することを特徴とする請求項2に記載の情報評価装置。
  4. 前記重要度判定手段は、前記検出された検出対象情報の種類毎に、その総数と対応する前記所定の基準との大小を比較することによって前記評価対象データ群の重要度を判定することを特徴とする請求項1乃至3の何れか1項に記載の情報評価装置。
  5. 前記情報検出手段によって検出された検出対象情報について、重複した冗長分の情報の数を減じて前記評価対象データ群全体に対する前記検出対象情報の総数の調整を行なう情報量調整手段をさらに備え、
    前記重要度判定手段は、調整後の前記検出対象情報の種類毎の総数に基づいて、前記データの重要度を判定することを特徴とする請求項1乃至4の何れか1項に記載の情報評価装置。
  6. 前記情報量調整手段は、
    前記データに含まれる前記検出対象情報の種類毎の数をそれぞれ成分としたベクトルを前記各1単位のデータ毎に生成するベクトル生成手段と、
    複数の前記ベクトル間で類似度が所定の閾値を超えた場合に、対応する前記1単位のデータ同士を重複データと判定する重複データ判定手段と、
    前記重複データの集合における前記検出対象情報の種類毎の数の最大値を、それぞれ当該重複データ全てに対する前記検出対象情報の種類毎の総数とする重複除去手段と、を備えることを特徴とする請求項5に記載の情報評価装置。
  7. 前記重複データ判定手段は、さらに前記1単位のデータ同士の名前の類似度を重複データの判定基準に用いることを特徴とする請求項6に記載の情報評価装置。
  8. 前記情報量調整手段は、前記1単位のデータから検出された複数の検出対象情報同士を比較することにより、該情報同士の同一性を判定する重複内容判定手段をさらに備え、
    前記重複除去手段は、前記所定の条件を満たす全ての1単位のデータから検出された検出対象情報全てに対して、同一と判定された情報のうち1つ以外の全ての情報の数を、前記ベクトルの対応する成分の値から差し引くことを特徴とする請求項6または7に記載の情報評価装置。
  9. 前記入力手段において、前記所定の条件がファイル名に特定の拡張子を持つファイルおよび/または特定の拡張子を持たないファイルであることを特徴とする請求項1乃至8の何れか1項に記載の情報評価装置。
  10. 前記入力手段において、前記所定の条件が特定の記憶領域に保持されるデータであることを特徴とする請求項1乃至8の何れか1項に記載の情報評価装置。
  11. 文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価方法であって、
    入力手段が、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する1単位のデータとして入力し、
    情報検出手段が、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各1単位のデータから検出し、
    重要度判定手段が、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定し、
    出力手段が、前記判定した重要度を出力することを特徴とする情報評価方法。
  12. 情報量調整手段が、前記情報検出手段によって検出された検出対象情報について、重複した冗長分の情報の数を減じて前記評価対象データ群全体に対する前記検出対象情報の総数の調整を行ない、
    前記重要度判定手段が、調整後の前記検出対象情報の種類毎の総数に基づいて、前記データの重要度を判定することを特徴とする請求項11に記載の情報評価方法。
  13. 文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置を構成するコンピュータに、
    前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する1単位のデータとして入力する入力処理と、
    前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各1単位のデータから検出する情報検出処理と、
    前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定処理と、
    前記判定した重要度を出力する出力処理とを行わせるための情報評価プログラム。
  14. 前記コンピュータに、さらに、前記情報検出処理によって検出された検出対象情報について、重複した冗長分の情報の数を減じて前記評価対象データ群全体に対する前記検出対象情報の総数の調整を行なう情報量調整処理を行わせ、且つ、前記重要度判定処理は、調整後の前記検出対象情報の種類毎の総数に基づいて、前記データの重要度を判定することを特徴とする請求項13に記載の情報評価プログラム。
  15. 前記情報量調整処理は、
    前記データに含まれる前記検出対象情報の種類毎の数をそれぞれ成分としたベクトルを前記各1単位のデータ毎に生成するベクトル生成処理と、
    複数の前記ベクトル間で類似度が所定の閾値を超えた場合に、対応する前記1単位のデータ同士を重複データと判定する重複データ判定処理と、
    前記重複データの集合における前記検出対象情報の種類毎の数の最大値を、それぞれ当該重複データ全てに対する前記検出対象情報の種類毎の総数とする重複除去処理と、を含むことを特徴とする請求項14に記載の情報評価プログラム。
  16. 前記重複データ判定処理は、さらに前記1単位のデータ同士の名前の類似度を重複データの判定基準に用いることを特徴とする請求項15に記載の情報評価プログラム。
  17. 前記情報量調整処理は、前記1単位のデータから検出された複数の検出対象情報同士を比較することにより、該情報同士の同一性を判定する重複内容判定処理をさらに含み、
    前記重複除去処理は、前記所定の条件を満たす全ての1単位のデータから検出された検出対象情報全てに対して、同一と判定された情報のうち1つ以外の全ての情報の数を、前記ベクトルの対応する成分の値から差し引くことを特徴とする請求項15または16に記載の情報評価プログラム。
JP2007212668A 2007-08-17 2007-08-17 情報評価装置、情報評価方法、及び情報評価プログラム Active JP5286712B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007212668A JP5286712B2 (ja) 2007-08-17 2007-08-17 情報評価装置、情報評価方法、及び情報評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007212668A JP5286712B2 (ja) 2007-08-17 2007-08-17 情報評価装置、情報評価方法、及び情報評価プログラム

Publications (2)

Publication Number Publication Date
JP2009048350A true JP2009048350A (ja) 2009-03-05
JP5286712B2 JP5286712B2 (ja) 2013-09-11

Family

ID=40500516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007212668A Active JP5286712B2 (ja) 2007-08-17 2007-08-17 情報評価装置、情報評価方法、及び情報評価プログラム

Country Status (1)

Country Link
JP (1) JP5286712B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021157073A1 (ja) * 2020-02-07 2021-08-12 三菱電機株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102220635B1 (ko) * 2018-11-21 2021-02-26 한국전자기술연구원 메모리 db 기반 중복 제거 블록 데이터 전송 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出
JP2005173950A (ja) * 2003-12-11 2005-06-30 Canon Inc 文書処理装置及び文書処理方法
WO2007011129A1 (en) * 2005-07-15 2007-01-25 Chutnoon Inc. Information search method and information search apparatus on which information value is reflected
JP2007179403A (ja) * 2005-12-28 2007-07-12 Mitsubishi Electric Corp 監視装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出
JP2005173950A (ja) * 2003-12-11 2005-06-30 Canon Inc 文書処理装置及び文書処理方法
WO2007011129A1 (en) * 2005-07-15 2007-01-25 Chutnoon Inc. Information search method and information search apparatus on which information value is reflected
JP2009500764A (ja) * 2005-07-15 2009-01-08 チョンヌン インコーポレイテッド 情報価値を反映した情報検索方法及びその装置
JP2007179403A (ja) * 2005-12-28 2007-07-12 Mitsubishi Electric Corp 監視装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200100089016; 橘高 博行: 'パーソナライズ情報提供方式の提案と評価' 情報処理学会論文誌 第40巻 第1号 第40巻, 19990115, 第175-187頁, 社団法人情報処理学会 *
JPN6012010398; 橘高 博行: 'パーソナライズ情報提供方式の提案と評価' 情報処理学会論文誌 第40巻 第1号 第40巻, 19990115, 第175-187頁, 社団法人情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021157073A1 (ja) * 2020-02-07 2021-08-12 三菱電機株式会社 情報処理装置、情報処理方法および情報処理プログラム
JPWO2021157073A1 (ja) * 2020-02-07 2021-08-12

Also Published As

Publication number Publication date
JP5286712B2 (ja) 2013-09-11

Similar Documents

Publication Publication Date Title
US9692762B2 (en) Systems and methods for efficient detection of fingerprinted data and information
EP2422273B1 (en) Digital dna sequence
US8782805B2 (en) Method and system for detecting when an outgoing communication contains certain content
US9760548B2 (en) System, process and method for the detection of common content in multiple documents in an electronic system
US9473521B2 (en) Method and system for information leak prevention
Laorden et al. Study on the effectiveness of anomaly detection for spam filtering
RU2708356C1 (ru) Система и способ двухэтапной классификации файлов
Shapira et al. Content-based data leakage detection using extended fingerprinting
Davies et al. Differential area analysis for ransomware attack detection within mixed file datasets
US9495639B2 (en) Determining document classification probabilistically through classification rule analysis
CN107871089B (zh) 文件防护方法及装置
US8600985B2 (en) Classifying documents according to readership
US11258811B2 (en) Email attack detection and forensics
Radhakrishna et al. A temporal pattern mining based approach for intrusion detection using similarity measure
JP5286712B2 (ja) 情報評価装置、情報評価方法、及び情報評価プログラム
US11321453B2 (en) Method and system for detecting and classifying malware based on families
CN109413048B (zh) 基于文件型蜜罐检测勒索软件方法、电子设备及程序产品
CN101853260A (zh) 检测电子邮件内容包含的系统和方法
JP7229443B2 (ja) ログ生成装置、ログ生成方法、及び、ログ生成プログラム
Rani et al. A Data-Driven Classification Framework for Cybersecurity Breaches
JP2013235369A (ja) 文書分類装置及びプログラム
US20240111887A1 (en) System and Method for creating a digital fingerprint library
Shringi et al. Fitness‐Based Grey Wolf Optimizer Clustering Method for Spam Review Detection
Allawi et al. MLDED: multi-layer data exfiltration detection system
Spain A Study on Log Event Noise Reduction by Using Naïve Bayes Supervised Machine Learning

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091007

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20091007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120419

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130325

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130520

R150 Certificate of patent or registration of utility model

Ref document number: 5286712

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150