JP2009048350A

JP2009048350A - 情報評価装置、情報評価方法、及び情報評価プログラム

Info

Publication number: JP2009048350A
Application number: JP2007212668A
Authority: JP
Inventors: Itaru Hosomi; 格細見
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-08-17
Filing date: 2007-08-17
Publication date: 2009-03-05
Anticipated expiration: 2027-08-17
Also published as: JP5286712B2

Abstract

【課題】大量のデータに対する総合的な重要度を効率よく、さらには精度良く判定する。
【解決手段】本発明が適用された情報評価装置１０は、所定の条件を満たすデータを入力する入力部１と、該データの重要度を評価するために有効な情報を検出する情報検出部２と、検出した情報のうち不要な分を削除するなどの情報量の調整を行なう情報量調整部３と、該調整後の情報を用いてデータ全体の重要度を判定する重要度判定部４と、該判定した重要度を出力する出力部５とを備える。
【選択図】図１

Description

本発明は、コンピュータまたはコンピュータネットワーク上の記憶装置に長期または一時的に蓄積されるデータに対し、その重要度を評価する情報評価装置、情報評価方法、及び情報評価プログラムに関する。

近年、個人や組織が有する知的財産の重要性を問う議論が様々な面から行なわれている。情報や知識は物質的なモノ以上に重要な資産であるとする一般的な話から、個人情報の漏洩に対する賠償問題、新技術やノウハウの流出による企業競争力低下への懸念、法令順守のための財務データ管理の必要性といった話題が後を絶たないが、これらの課題を解決するには、いずれもまず管理・保護すべき重要な情報の峻別が必要となる。各情報の重要性を区別せずに、保護対象として最も重要な情報に対する管理・保護処置を全ての情報に対して適用した場合、情報の共有や流通は著しく制限され、その管理・保護のためのコストも非常に高価となる恐れがある。

そこで、例えば情報セキュリティ管理システム（ＩＳＭＳ）の標準手順では、まず組織内の情報資産を洗い出し、それらの価値の大小を評価した上で漏洩や破壊によるリスクを評価し、リスクの程度や種類に応じた対策を採ることと定めている。情報資産に関するリスクは、多くの場合、情報資産の重要度と脅威を元に算出される。そこで、情報資産の重要度と脅威のそれぞれをまず導き出すことが必要となる。

特許文献１および特許文献２は、いずれも情報セキュリティ管理におけるリスクを算定するために情報資産の価値や脅威の発生頻度を利用している。これらは、予めデータベースに個々の資産とその価値（漏洩や紛失による危険性の高さ）が記録されていることを前提としている。また、特許文献３ではユーザに対する質問によって各種情報の資産価値などの値を入力することになっている。これら既存の方法では、リスクの算定に必要な膨大な情報資産の洗い出しと各情報資産の重要度すなわち漏洩・紛失による危険性の高さをどのように実現するかについては、具体的な解決方法を示していない。

日立ソフトの情報漏洩防止ソリューション「秘文」やＫＬａｂのＰ−Ｐｏｉｎｔｅｒなどの製品では、内部統制や情報セキュリティ管理におけるリスク評価用のソリューション・コンポーネントとして、典型的な重要情報の一種とされる個人情報を自動検出するツールを提供している。

以上のような手法や製品では、個人情報などの重要な情報資産を表すファイルを洗い出した後、その結果から情報資産の価値をどのように決定するかについては細かく規定されておらず、利用者に任されている。

他方、特許文献４には、ネットワークを介して収集された新着情報が、各利用者にとってどの程度重要であるかを機械的に評価するために、収集された新着情報から特徴（例えば、キーワード）を抽出し、この抽出した特徴と事前に各利用者の好みに応じて作成されたプロファイルとを照らし合わせることで、各利用者がその新着情報をどれだけ必要としているかの度合いを示す重要度を計算する情報評価装置が提案されている。具体的には、或る利用者のプロファイルに、「ルール１）人口，知能［１０］；」なる記述がある場合、新着情報から「人口，知能」というキーワードが抽出されたならば、その利用者の当該新着情報の重要度が＋１０される。

細見、情報資産管理と個人情報保護のための機密文書検出手法、社団法人情報処理学会研究報告、Ｖｏｌ．２００６、Ｎｏ．１０４、ｐｐ．５３−６０特開２００５−２９３２６７号公報特開２００３−１９６４７６号公報特開２００５−２３４７５６号公報特開平１０−２６０９５５号公報

上記の手法は以下に示すような問題点を有する。

第１の問題点は、実在する大量のデータから検出可能な情報を用いて情報資産の価値を算出する具体的で効率的な手段が提供されていない、という点である。

第２の問題点は、特許文献４に示される情報評価装置を情報資産の価値算出に適用した場合、資産価値の評価結果が実際よりも過剰に低く算出され、同様にリスクも本来より過剰に低いと判定される可能性がある、という点である。その理由は、特許文献４に示される情報評価装置は同じ特徴が何個含まれていたかという特徴毎の総数を考慮していないためである。例えば、抽出する特徴として「重要」の重の文字を丸で囲んだ記号をキーワードＡとする場合、評価対象とする情報の中にキーワードＡが１つしか含まれていない場合でも、多数含まれている場合でも、その重要度は同じになる。しかし、評価対象とする情報が論理的に複数の文書で構成され、各文書単位で重要か否かを示す前記キーワードＡが付されている場合、キーワードＡの個数が多いほど重要文書の数が多いため、より重要と言える。

本発明は、以上のような問題に鑑みなされたものであり、実在する大量のデータから検出可能な情報を用いて情報資産の価値を精度良く評価することのできる情報評価装置、情報評価方法及び情報評価プログラムを提供することを目的としている。

本発明の第１の情報評価装置は、文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置であって、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する１単位のデータとして入力する入力手段と、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各１単位のデータから検出する情報検出手段と、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定手段と、前記判定した重要度を出力する出力手段とを備える。

本発明の第１の情報評価方法は、文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価方法であって、入力手段が、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する１単位のデータとして入力し、情報検出手段が、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各１単位のデータから検出し、重要度判定手段が、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定し、出力手段が、前記判定した重要度を出力する。

本発明の第１の情報評価プログラムは、文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置を構成するコンピュータに、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する１単位のデータとして入力する入力処理と、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各１単位のデータから検出する情報検出処理と、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定処理と、前記判定した重要度を出力する出力処理とを行わせる。

本発明によれば、重要度の評価に有効な情報として予め定められた検出対象情報を評価対象データ群を構成する各１単位のデータから検出する情報検出手段と、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって評価対象データ群の重要度を判定する重要度判定手段とを備えるため、実在する大量のデータから検出可能な情報を用いて情報資産の価値を算出することができ、さらには検出対象情報の種類毎にそれが検出された総数を所定の基準と照合することによって評価対象データ群の重要度を判定しているため、個々の検出対象情報の検出数を考慮せずにその有無だけに基づいて評価する場合に比べて、価値が過剰に低くなることを回避することができ、情報資産の価値を精度良く評価することができる。

（第１の実施の形態）
以下、本発明の第１の実施の形態を、図面を参照して説明する。

（第１の実施の形態の構成）
図１は、本発明の第１の実施の形態による情報評価装置の機能構成を示すブロック図である。

図１を参照すると、本実施の形態による情報評価装置１０は、入力部１と、情報検出部２と、情報量調整部３と、重要度判定部４と、出力部５とを備える。

ここで、入力部１は、評価対象となるデータを情報評価装置１０に入力する機能を有する。評価対象となるデータは、パーソナルコンピュータの内部または外部に接続された記憶装置に保存されているファイルや、Ｅメールなどとして送受信されるデータであってもよい。また、ＨＴＭＬやＤＯＣなどの拡張子で判別可能なテキスト情報主体のファイルのみを評価対象として入力したり、逆にＥＸＥやＤＬＬなどの拡張子で判別可能な実行形式のファイル以外を評価対象として入力する機能を備えていても良い。

本実施の形態において、データとは上記のようにファイルやＥメールなどのようなまとまりのある文字列またはデジタルコード列を指すこととする。これに対し、情報とは、データに含まれた何らかの意味を成す比較的短い文字列やデジタルコード列を指すこととする。

情報検出部２は、入力部１により入力されたデータから、そのデータの重要度の評価に有効な情報として予め定められた情報を検出する機能を有する。有効な情報の検出は、入力されたデータからテキストデータのみを抽出する機能と、有効な情報を単語や文字列のパタン、またはそれらの組合せによって定義し記憶しておく機能と、抽出したテキストデータから前記記憶しておいた定義に適合する文字列が含まれているか否かを判定する機能とによって実現することができる。また、テキストデータのみを抽出する機能を用いず、入力されたデータに対して直接パタンの照合を行なって有効な情報を検出するようにしても良い。その場合は、バイナリデータとしてのパタンの照合となる。また、圧縮やアーカイブ化によって、データと定義された有効な情報のパタンとが直接には照合できない場合に対処するため、情報検出部２は圧縮されたデータやアーカイブ化されたデータを解凍する（元の非圧縮な個々のファイル単位などのデータに戻す）機能を有していても良い。また、検出する有効な情報は、２種類以上に分類されていてもよく、それぞれの種類毎に定義されたパタンに基づいて有効な情報の検出が行なわれてもよい。

情報量調整部３は、情報検出部２で有効な情報が検出された一連のデータの集合から、本質的な情報量の増加とはならない同一または類似した複数のデータを見つけ出し、それらの重複したデータによる情報の冗長性を低減する機能を有する。ここで言う本質的な情報量とは、情報理論における情報量の意味に相当する。すなわち、あるデータの内容が他のデータの内容と同じであった場合、両データの情報としての総量はそのうちの一方のデータの情報量と変わらない。例えば、ある１人の人物の連絡先や所属などの個人情報が１件だけ含まれた文書ファイルが１００個記録された１つの記憶装置を第三者が参照しても、それらの文書ファイルからは１人分の個人情報が得られるだけである。

このように、例えば入力部１がデータを取得するために参照する１つの記憶装置内のデータ群のうち、ある２つのデータが同一の内容であった場合、その記憶装置を利用するユーザにとってそれら２つのデータは１つであっても２つであっても利用価値としては殆ど差が無いと予想される。一方のデータの内容を参照して得た知識や処理結果は、同じ内容を持つ他方のデータを用いても同じ結果となるためである。すなわち、入力されたデータから個別に有効な情報を検出し、その数をそのまま加算して入力データ全体の重要度とした場合、データ群の中に同一の内容のデータが含まれていなければ、データ群の重要度を精度良く算出できる。しかし、同一の内容のデータが含まれていれば、同じ内容のデータから得た同じ有効な情報は複数回加算され、結果として本来期待すべき重要度より過剰に高い重要度が算出される可能性がある。

そこで、情報量調整部３では、同一内容と判断できる複数のデータを検出し、それらのデータから得られる有効な情報の数から重複していた分を差し引くことで、入力データ全体の重要度が適切な値となるようにする。これにより、同じ情報を含む文書が同じ記憶装置内に多数保存されていた場合でも、その重複する同一情報の数が他の異なる情報の数と同様にそのまま資産価値に反映されることがなくなり、結果として本来の資産価値よりも過剰に高い資産価値が算出されるのを回避でき、同様にリスクも本来より過剰に高いと判定されることを回避できる。

重要度判定部４は、情報検出部２により検出された有効な情報の種類と数に基づき、入力されたデータ全体の重要度を判定する機能を有する。重要度は、単純に検出された有効な情報の総数であってもよく、また、その総数が所定の数以上か未満かによってレベル分けされた値であっても良い。また、有効な情報の種類毎に異なる重み係数を与え、例えばカテゴリ１の情報１つにつき１点、カテゴリ２の情報１つにつき３点として、検出された情報から得られるカテゴリ別得点の合計を重要度としても良い。

出力部５は、重要度判定部４で得られた重要度を少なくとも含んだ評価結果を出力する機能を有する。出力する内容は、入力されたデータ全体の重要度だけでなく、個別のデータ単位で特に重要度の高かったデータの名前やその元の保存場所などを含んでいても良い。

図２は、本実施の形態による情報評価装置のハードウェア構成を示すブロック図である。

図２を参照すると、本実施の形態による情報評価装置１０は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができ、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメインメモリであり、データの作業領域やデータの一時退避領域に用いられる主記憶部１２、液晶ディスプレイ、プリンタやスピーカ等の提示部１３、キーボードやマウス、スキャナ等の入力部１４、周辺機器と接続してデータの送受信を行うインタフェース部１５、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置である補助記憶部１６、本情報処理装置の上記各構成要素を相互に接続するシステムバス１７等を備えている。

本発明による情報評価装置１０は、その動作を、情報評価装置１０内部にそのような機能を実現するプログラムを組み込んだ、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等のハードウェア部品からなる回路部品を実装してハードウェア的に実現することは勿論として、上記した各構成要素の各機能を提供するプログラムを、コンピュータ処理装置上のＣＰＵ１１で実行することにより、ソフトウェア的に実現することができる。

すなわち、ＣＰＵ１１は、補助記憶部１６に格納されているプログラムを、主記憶部１２にロードして実行し、情報評価装置１０の動作を制御することにより、上述した各機能をソフトウェア的に実現する。

図３は、本実施の形態による情報量調整部３の機能をより詳細に説明した説明図である。本実施の形態による情報評価装置１０は、図３に示したような一連の機能要素から構成される情報量調整部３により、以下のような手順で情報量の調整を行なう。

まず、ベクトル生成部３１が、入力されたデータから得られた１種類以上の有効な情報の数を元に、当該データの特徴を表すベクトルを生成する。各情報の種類をそれぞれベクトルの成分に割り当て、各成分の値を前記各情報の種類別に検出された数とする。例えば、情報検出部２によってデータ１からＡ、Ｂ、Ｃの３種類の情報がそれぞれ１、３、０件検出された場合、データ１に対応するベクトル１は（１，３，０）と表される。

次に、重複データ判定部３２が、入力されたデータ同士の類似度合いを計算し、重要度の評価に有効な情報について重複しているデータの組を判定する。データ同士の類似度合いの評価は、データ名同一性判定部３２ａと、ベクトル同一性判定部３２ｂとによって行なう。それぞれ、データ名の類似度合いと各データに対応するベクトルの類似度合いを計算し、共に所定の閾値を超えた場合のみ、比較した両データは重複したデータであると見なす。

重複データ判定部３２は、重要度の評価に有効な情報を含むデータ全体（例えばファイル）を単位として複数のデータ間の同一性を判定する。一方、重複内容判定部３３は、データに含まれる有効な情報を単位として情報間の同一性の判定を行なう。重複内容判定部３３は、少なくとも内容同一性判定部３３ａを含んで構成され、内容同一性判定部３３ａは、データ単位では異なる２つのデータにそれぞれ同じ内容の情報が含まれていた場合、または重複データ内に同じ内容の情報が複数含まれていた場合、これらを冗長な情報として検出する。

重複内容判定部３３は、図３に示したように、情報量調整部３において、重複データ判定部３２とは並行独立に機能するよう構成されていても良いが、重複データ判定部３２の処理の後に重複内容判定部３３が処理を行なうように構成されていても良い。また、情報単位での重複をその情報を含むデータとの組として情報量調整部３が記憶するならば、重複内容判定部３３の処理の後に重複データ判定部３２の処理を行なうように構成されていても良い。また、情報量調整部３が重複データ判定部３２と重複内容判定部３３のうちどちらか一方のみを備えた構成や、重複データ判定部３２がデータ名同一性判定部３２ａを含まない構成であっても良い。

ただし、精度の面では重複データ判定部３２はベクトル同一性判定部３２ｂに加えてデータ名同一性判定部３２ａを含む構成が望ましい。何故なら、ベクトル同一性判定部３２ｂだけの構成では、同じ種類の情報の数が同一または類似していれば、個々の情報の内容が異なる複数のデータも重複データと判定されるケースが生じる。しかし、同じ種類の情報の数が同一または類似していても個々の情報の内容が異なる複数のデータには異なるデータ名が付与されている場合が多いために、データ名同一性判定部３２ａを併用すれば、そのようなデータが重複データとして判定されるケースを低減できるためである。

重複データ判定部３２および／または重複内容判定部３３により、データや情報の単位での重複を検出した後、それらの重複が後段の重要度判定部４により算出される重要度に悪影響を及ぼさぬよう、重複除去部３４が重複による冗長分の情報量を削減する。

重複したデータ間では、それらのデータそれぞれの特徴を表すベクトルの成分同士を比較し、そのうち最大の値のみを残してそれ以外の値を０にする。これを全成分に対して行なうことで、冗長分を削除することができる。

重複した情報間でも、同じ内容と判定された情報が２つ以上あれば、それらのうち１つのみを数として計上し、残りの情報については、その情報が検出されたデータの特徴を表すベクトルから、対応する成分の値を１ずつ減じることで、冗長分を削減することができる。

以上の処理により、情報量調整部３の処理が完了し、情報量が適切な値に調整された後、重要度判定部４が、入力されたデータ全体に対する重要度を判定する。重要度の算出方法としては、例えば前述の例のようにＡ、Ｂ、Ｃの３種類の情報の数を成分とした３次元のベクトルを想定した場合、入力されたデータそれぞれに対応するベクトルから成分毎に値の合計を計算し、以下に例示するように、成分同士の重み付き和を計算した結果を重要度とすることができる。

例として、入力されたデータ１とデータ２からそれぞれベクトル１＝（０，３，１）とベクトル２＝（２，１，４）が得られたとする。成分毎の合計は、それぞれ２、４、５となり、これらの重み付き和Ｔは、Ｔ＝２α＋４β＋５γのように表すことができる（α、β、γはそれぞれ成分Ａ、Ｂ、Ｃに対する重み）。α＝３、β＝２、γ＝１とすれば、重要度＝Ｔ＝２・３＋４・２＋５・１＝１９となる。

また、別の方法として、各成分が幾つかの閾値を超えたか否かでレベル分けを行ない、その結果得られたレベルを重要度とすることもできる。例として、上記例で用いたＡ、Ｂ、Ｃ３種類の情報に対して次のようなレベル分類条件を与えたとする。
Ａの数≧１０ならばレベル３
１≦Ａの数≦９またはＢの数≧１０ならばレベル２
１≦Ｂの数≦９またはＣの数≧１０ならばレベル１
Ａ＝Ｂ＝０およびＣの数≦９ならばレベル０
ここで、上記例のベクトル１とベクトル２については、成分ごとの合計数がそれぞれＡの数＝２、Ｂの数＝４、Ｃの数＝５であるため、上記のレベル分類条件と照合すると、Ａの数が１以上であることからレベル２と判定される。

以上のように、データ全体の重要度を、そのデータに含まれる重要度の評価に有効な情報のみからなるベクトルを用いて効率よく計算し、各前記有効な情報の数を考慮した重要度の評価により、データ全体の価値が過剰に低くなることを回避できる。

重要度の判定方法は以上のような例に限定される必要は無く、情報検出部２で検索された１種類以上の情報の数を用いた他の方法であっても良い。

（第１の実施の形態の効果）
本実施の形態によれば、評価対象とするデータ全体の重要度を精度よく判定することができる。その理由は、第１に、重要度の評価に有効な情報の種類毎にそれが検出された総数を所定の基準と照合することによってデータ全体の重要度を判定しているため、個々の情報の検出数を考慮せずにその有無だけに基づいて評価する場合に比べて、データ全体の価値が過剰に低くなることを回避できるからである。第２に、検出した情報のうち、重複している冗長な分の情報量を除去した後に重要度の判定を行なうため、データ全体の価値が過剰に高くなることも回避できるからである。

また本実施の形態によれば、評価対象とするデータ全体の重要度を高速に判定することができる。その理由は、データ全体の重要度を判定するために有効な情報のみを該データから検出し、その種類や数を用いて重要度を判定するからである。

本発明の実施例１を、図面を参照して説明する。実施例１は、本発明を上記第１の実施の形態に適用したものであり、上記第１の実施の形態をより具体的な例によって説明するものである。なお、実施例１の構成及び動作の概略は上記第１の実施の形態の構成及び動作の概略と同様であるため、重複する部分については適宜省略して説明する。

（実施例１の動作）
実施例１において、図１における入力部１は、例えばあるデスクトップＰＣに内蔵または接続されている全ての記憶装置に保存されているファイルであることを条件とし、当該条件を満たす全ファイルを情報検出部２に順次入力する。ここでは説明の簡単化のため、前記記憶装置には図４の表に示したようなｆｉｌｅ１．ｔｘｔ、ｆｉｌｅ２．ｐｐｔ、ｆｉｌｅ３．ｘｌｓ、ｆｉｌｅ４．ｐｄｆの４つのファイルのみが保存されていたとして、以降の説明を進める。

情報検出部２は、入力されたそれぞれのデータ（ここではファイルであり、以降もファイルと呼ぶことにする）から、プライベート情報、社内連絡情報、他社連絡情報、アドレス情報といった４種類の情報を検出する。このような複数種類の情報の検出には、例えば非特許文献１に記載されているような方法が利用できる。非特許文献１に記載されている方法の１つでは、検出対象とすべき各種の情報を機密文書オントロジと呼ぶ木構造の辞書で定義し、その定義で表される条件に合致する語や文字列の組を入力された文書ファイルから検出する。例えば、文書ファイル内に“山田太郎”、“大阪市”、“０６−１２３４−５６７８”、“ＮＥＣ”、“関西支社”といった語が互いに所定の距離内に近接して配置されていた場合、“ＮＥＣ”という会社から見た一組の「社内連絡情報」として検出することができる。このようにして、上記４つのファイルそれぞれから４種類の情報を検出した結果、図４の表に示したように、情報の種類毎の数を得ることができる。例えば、ｆｉｌｅ１．ｔｘｔからは、他社連絡情報のみが１件検出され、プライベート情報、社内連絡情報、アドレス情報を表す情報はいずれも検出されなかったことを表している。

情報検出部２による上記のような各種情報の検出とその数の計上が完了すると、次に情報量調整部３における最初の処理として、ベクトル生成部３１により前記各ファイルの特徴を表すベクトルを生成する。図５は、生成されたベクトルと、ベクトル同一性判定部３２ｂで用いる重み係数を示した説明図である。例えば、ｆｉｌｅ１．ｔｘｔに対応するベクトルＶ１は、図４の表において各情報の種類「プライベート情報」「社内連絡情報」「他社連絡情報」「アドレス情報」毎に検出された数をそれぞれ１，２，３，４番目の成分とし、（０，０，１，０）と表している。

情報量調整部３では、次に重複データ判定部３２の機能の１つであるデータ名同一性判定部３２ａにより、ファイル名同士の類似性を評価する。ファイル名同士の類似性は、編集距離などを用いた評価方法があるが、より簡単な方法として、例えばファイル名の長い方の何％が共通した文字列であるかを計算し、その結果が所定の閾値を超えていれば同一の可能性があるファイルの組と判断しても良い。ただし、評価するファイル名の文字列に拡張子を含むかどうかによって結果が大きく異なってくる。ここでは拡張子を除いたファイル名同士の比較で８０％以上が共通の文字列であれば、同一の可能性があるファイルの組と判断する。すると、上記４つのファイル名（拡張子を除く）はそれぞれ「ｆｉｌｅ１」「ｆｉｌｅ２」「ｆｉｌｅ３」「ｆｉｌｅ４」であり、どの２つを比較しても５文字中４文字が順序も合わせて同一文字列であることから、全て８０％の類似度となり、閾値の８０％以上に達するため、全てのファイルの組合せが次のベクトル同一性判定部３２ｂの評価対象となる。

ベクトル同一性判定部３２ｂでは、各ファイルの特徴を表すベクトル同士を比較し、その類似性が所定の閾値を超えた場合に比較したベクトルにそれぞれ対応するファイル同士を、重複したファイルと判断する。ファイル同士は、ファイル名とそれぞれの特徴を表すベクトルのみを比較するため、同一のファイルというより、共通部分を持つ可能性が高いファイルの組を検出する。

ベクトル間の類似性の評価には、内積や余弦を使った計算がよく利用されている。ベクトルＶ１とＶ２の余弦（コサイン）類似度は、
ｃｏｓ（Ｖ１，Ｖ２）＝Ｖ１・Ｖ２／｜Ｖ１｜｜Ｖ２｜
で表すことができる。分子はベクトルＶ１とＶ２の内積を表し、分母はベクトルＶ１、Ｖ２それぞれの大きさ（長さ）の積を表している。ここでは、ベクトルの各成分に対する重み付きの余弦を類似度の評価に使う。ベクトルの各成分に対する重みには、図５で重み係数として記載したものを用いる。すなわち、各ベクトルの第１、第２、第３、第４成分に対してそれぞれ４，２，３，１倍の重みを予め乗ずる。重みを与えることで、ベクトル間の類似度計算において相対的に重視する成分や逆に重視しない成分をコントロールすることができる。上記の重みでは、１番目の成分（「プライベート情報」）を最も重視し、４番目の成分（「アドレス情報」）を最も軽視することを表している。図５に示したベクトルＶ１、Ｖ２、Ｖ３、Ｖ４について全ての２つのベクトルによる重み付き余弦類似度の組合せは、図６のようになる。

ここで、例えば閾値０．９以上の類似度を持つベクトルの組合せについて、両ベクトルは重複しているものと判断することができる。図６からは、Ｖ２とＶ４の組合せのみが重複したベクトルの組となる。閾値を０．７にした場合は、Ｖ２とＶ３およびＶ３とＶ４それぞれの組合せも重複したベクトルの組として検出される。

重複データ判定部３２の処理後、重複内容判定部３３の処理を行なわず、そのまま重複除去部３４の処理を行なう手順としても良い。その場合、検出された重複したファイルの組に基づき、重複したファイルに対応するベクトルの各成分のうち、多い方（３つ以上のベクトルが互いに重複となった場合には最大の値）のみを残して他のベクトルの同成分の値を０にする。図５に示したベクトルＶ１〜Ｖ４に対して、Ｖ２とＶ４の組のみが重複と判断された場合は、図７のようにＶ２とＶ４の各成分のうち一方の成分の値を残して他方の成分の値を０にしている。図７では、Ｖ２とＶ４の成分値は全て同じであるため、Ｖ４の成分値を全て０としている。重複除去部３４によるこのような処理の後、ベクトルの各成分ごとの合計値は図７下部のようにそれぞれ６、６、２、３となる。これは、図４の表の最下部で示した種類毎の情報の合計値８、１１、３、４に対して、それぞれプライベート情報の数が２、社内連絡情報の数が５、他社連絡情報が１、アドレス情報が１だけ少なくなっている。

一方、重複内容判定部３３の処理を実行する場合は、重複データ判定部３２の処理後に実行するか、または重複データ判定部の処理の開始や終了とは独立に行なってもよい。重複内容判定部３３では、内容同一性判定部３３ａにより、内容として同一と判断された情報の組を検出する。検出方法は、各情報の文字列やバイナリコードとしての完全マッチング（全ての文字またはコードの順列が等しい場合のみ重複していると判定）の他、データ名同一性判定部３２ａと同様に編集距離などを用いた部分マッチングであってもよい。

重複内容判定部３３で情報単位の重複が検出されると、重複除去部３４は、検出された重複情報の組のうち１つを除いた残りの情報の数をカウントしないようにベクトルの対応する成分値を差し引く。例えば、前述した例の「社内連絡情報」（“山田太郎”、“大阪市”、 “０６−１２３４−５６７８”、“ＮＥＣ”、“関西支社”）がｆｉｌｅ２．ｐｐｔ、ｆｉｌｅ３．ｘｌｓ、ｆｉｌｅ４．ｐｄｆのいずれからも検出された場合、それぞれに対応するベクトルＶ２、Ｖ３、Ｖ４のうち２つから第２成分の値を１ずつ引く。ただし、この例ではＶ２とＶ４に対応するファイルｆｉｌｅ２．ｐｐｔとｆｉｌｅ４．ｐｄｆが互いに重複していることにより、既にＶ４の第２成分は０とされるため、更に１差し引く処理は行なわない。すなわち、重複データ判定部３２の判定結果に基づき重複分の成分値減算が行なわれたベクトルからは、重複内容判定部３３の判定結果に基づく重複除去を適用しない。

結果として、重複データ判定部３２と重複内容判定部３３それぞれの判定結果を共に反映した重複除去後のベクトルの組は、図８に示したようになる。図８では、重複内容判定部３３の判定結果を反映していない図７に比べ、ｆｉｌｅ３．ｘｌｓに対応するベクトルＶ３”の第２成分が１から０になっている。これにより成分毎（情報の種類毎）の合計数もそれぞれ６、５、２、３となる。

以上のようにして情報量調整部３の一連の処理を終えると、重要度判定部４により、全ての有効な情報の数に基づく重要度を決定する。ここでは、重要度判定部４は、図９に示したような重要度レベルの判定条件を示す表を予め保持しているものとする。

図９に示した表では、例えばアドレス情報を表す情報が、全てのファイルから検出された数で１件から９件までの間ならば重要度のレベルが０であり、１０件以上であれば１となる。また、同じファイルの集合から１０件以上の社内連絡情報も検出されていれば、重要度のレベルは２となる。また、同じファイルの集合から９件以下のプライベート情報も検出されていれば重要度のレベルは３となり、さらに同じファイルの集合から１０件以上の他社連絡情報も検索されていれば、重要度のレベルは４になる。このように、より高いレベルの値を優先する。すなわち重要度ＴＩは、初期値を０とした場合、
ＴＩ＝Ｍａｘ｛（プライベート情報≧１０）＊５，
（他社連絡情報≧１０）＊４，
（１≦プライベート情報≦９）＊３，
（１≦他社連絡情報≦９｜社内連絡情報≧１０）＊２，
（１≦社内連絡情報≦９｜アドレス情報≧１０）＊１｝
で計算される。ここでＭａｘ｛｝は、｛｝内の値のうち最大値をとる関数、｜は論理和（ＯＲ）演算子、＊は乗算演算子とする。図８に示した重複除去後の成分毎の合計数の組｛６、５、２、３｝から重要度を算出すると、
ＴＩ＝Ｍａｘ｛（プライベート情報の数＝６）＊３，
（他社連絡情報＝２）＊２，
（社内連絡情報＝５）＊１｝
＝３
となる。情報量調整部３による重複分の除去を行なわなかった場合、成分毎の合計数の組は図４の表の合計欄に示したように｛８，１１，３，４｝となるため、重要度ＴＩは、
ＴＩ＝Ｍａｘ｛（プライベート情報の数＝６）＊３，
（他社連絡情報＝２｜社内連絡情報＝１１）＊２｝
＝３
のように計算される。この場合は計算結果の値に差が無いが、例えば社内連絡情報が１０件以上の場合に重要度のレベルが４であると定義されていた場合は、情報量調整部３の処理が無ければ社内連絡情報の合計が１１となり、重要度ＴＩの値は４になる。

最終的に、重要度のレベルが３であると判定されると、この値を少なくとも含んだ結果が出力部５によって出力される。出力形態は、図２に示した情報評価装置１０が備える提示部１３により、画面上への出力や印刷装置による紙への出力、またはインタフェース部１５を介して他の装置への入力とすることもできる。

図１０は出力部５による出力結果の一例である。このように、本実施例では複数の評価対象に対して個別に情報評価装置による一連の処理を行ない、それぞれの重要度を一覧にまとめて出力しても良い。また、図１０に示したように、情報量調整部による重複除去を行なわない場合の重要度の判定も容易に実現できるため、その場合の重要度の値も併記しておくことで、重複除去による効果や影響を確認することもできる。

（実施例１の効果）
以上説明した実施例１による情報評価装置１０の動作にかかる一連の情報評価方法によれば、ファイルに含まれた個人情報の漏洩による被害や該個人情報のマーケティング等への適切な利用による利益を鑑みて、個人情報に類する４種類の情報（プライベート情報他）を前記ファイル群の重要度を評価する上で有効な情報として検出し、検出した情報から各ファイルの特徴を表すベクトルを生成して該ベクトル間の演算による効率的な重複判定を行ない、その結果適切な重要度の値を算出することができる。

実施例１によれば、重要度の精度を向上させるための重複ファイルの検出と重複分の情報量削減において、ファイル名および特徴として選んだ４種類の情報のみを用いることで、各ファイル同士の全内容を直接比較する場合に比べて、評価処理に必要な計算コストと記憶量を大幅に削減できる効果を有する。また、複数のファイルから同一の方法で情報を検出すれば、その検出方法の精度に関わらず、同じ傾向で正しい検出結果や誤った検出結果が得られると期待できるため、同一の方法で検出した情報の数によって生成したベクトルが互いに類似しているファイルは、検出した種類の情報に関して高い確率で実際に類似したファイルが判定できるという効果を有する。実施例１の場合では、ｆｉｌｅ２．ｐｐｔとｆｉｌｅ４．ｐｄｆは少なくとも重要度の判定要素として重視すべき個人情報に関しては同一と見なすことができる。

本発明の実施例２を、図面を参照して説明する。実施例２は、本発明を前述の実施例１を含んで構成したシステムに適用したものである。なお、実施例１の構成及び動作の概略は上記第１の実施の形態の構成及び動作の概略と同様であるため、重複する部分については適宜省略して説明する。

（実施例２の動作）
図１１は、本発明による情報評価装置１０を実装した端末ＰＣ１００およびサーバ１０２を含み、さらに外部記憶装置１０１を含んで構成される。端末ＰＣ１００の利用者が端末ＰＣ１００から外部記憶装置１０１またはサーバ１０２に１つ以上のファイルをコピーしようとした際に、それら１つ以上のファイル全体に対する重要度を端末ＰＣ１００上で動作する情報評価装置１０が自動的に評価し、該重要度が所定の閾値以上であれば前記ファイルのコピーを中断し、警告を発する。ここで例えば、重要度の値に対応した金額を与えて「コピーしようとした一連のファイルには漏洩した場合に○円の損失となる個人情報が含まれています」のようなメッセージを出力してもよい。また、外部記憶装置１０１にファイルをコピーする場合とサーバ１０２にファイルをコピーする場合とで、異なる閾値を設定していても良い。

また、別の動作として、サーバ１０２上で動作する情報評価装置１０が、端末ＰＣ１００および該端末ＰＣ１００に接続されている外部記憶装置１０１に保存されている全てのファイルを対象とした重要度をリスクの値として算出し、定期的にまたはサーバ１０２の利用者からの指示によってその結果をレポートとして出力するようにしても良い。

（実施例２の効果）
以上説明した実施例２によれば、端末ＰＣ１００やサーバ１０２に情報評価装置１０を含むことにより、情報漏洩の予防やリスク管理のための効率的なデータ収集が実現できる。

（他の実施の形態）
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は、必ずしも上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。例えば、算出される資産価値の評価結果が実際より過剰に低くなることは容認できないが、実際より高くなることはある程度許容できるような条件がある場合や、事前に重複データの除去が行なわれている状況の下では、図１２に示されるように、上記第１の実施の形態から情報量調整部３を取り除いた構成の情報評価装置１０’も有効な実施の形態として考えられる。

本発明は、文字列の照合などによって検出可能な個人情報や製品情報、プロジェクト情報などを用いて特定範囲のデータの重要度を効率よく評価できるため、例えばそれらの情報が他社など第三者の個人に漏洩もしくは災害などで破壊された場合のリスクを定量的に評価するリスク評価システムに適用でき、情報セキュリティ監査や情報資産管理の支援に有効である。また、本発明は、情報資産の価値評価に有効な情報の数のみを利用し、且つその重複分を削除することによって、計算量が少ないにも関わらず情報資産全体の重要度（価値）を精度良く算出できる。

本発明の第１の実施の形態による情報評価装置の機能構成を示すブロック図である。第１の実施の形態による情報評価装置のハードウェア構成を示すブロック図である。第１の実施の形態による情報量調整部の機能構成の例を示した説明図である。情報検出部による検出結果の例を示した説明図である。ベクトル生成部により生成されたベクトルの例を示した説明図である。各ベクトル間の余弦類似度の算出結果例を示した説明図である。重複除去後のベクトルを示した説明図である。重複除去後のベクトルを示した説明図である。重要度レベルの判定条件を示した説明図である。出力結果の例を示した説明図である。第１の実施の形態による情報評価装置を含むシステム構成の例を示すブロック図である。本発明の他の実施の形態による情報評価装置の機能構成を示すブロック図である。

符号の説明

１０：情報評価装置
１：入力部
２：情報検出部
３：情報量調整部
４：重要度評価部
５：出力部
１１：ＣＰＵ
１２：主記憶部
１３：提示部
１４：入力部
１５：インタフェース部
１６：補助記憶部
１７：システムバス
３１：ベクトル生成部
３２：重複データ判定部
３２ａ：データ名同一性判定部
３２ｂ：ベクトル同一性判定部
３３：重複内容判定部
３３ａ：内容同一性判定部
３４：重複除去部

Claims

文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置であって、
前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する１単位のデータとして入力する入力手段と、
前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各１単位のデータから検出する情報検出手段と、
前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定手段と、
前記判定した重要度を出力する出力手段と、を備えることを特徴とする情報評価装置。
前記情報検出手段は、前記検出対象情報として機密情報を検出することを特徴とする請求項１に記載の情報評価装置。
前記情報検出手段は、前記機密情報として少なくとも個人情報を検出することを特徴とする請求項２に記載の情報評価装置。
前記重要度判定手段は、前記検出された検出対象情報の種類毎に、その総数と対応する前記所定の基準との大小を比較することによって前記評価対象データ群の重要度を判定することを特徴とする請求項１乃至３の何れか１項に記載の情報評価装置。
前記情報検出手段によって検出された検出対象情報について、重複した冗長分の情報の数を減じて前記評価対象データ群全体に対する前記検出対象情報の総数の調整を行なう情報量調整手段をさらに備え、
前記重要度判定手段は、調整後の前記検出対象情報の種類毎の総数に基づいて、前記データの重要度を判定することを特徴とする請求項１乃至４の何れか１項に記載の情報評価装置。
前記情報量調整手段は、
前記データに含まれる前記検出対象情報の種類毎の数をそれぞれ成分としたベクトルを前記各１単位のデータ毎に生成するベクトル生成手段と、
複数の前記ベクトル間で類似度が所定の閾値を超えた場合に、対応する前記１単位のデータ同士を重複データと判定する重複データ判定手段と、
前記重複データの集合における前記検出対象情報の種類毎の数の最大値を、それぞれ当該重複データ全てに対する前記検出対象情報の種類毎の総数とする重複除去手段と、を備えることを特徴とする請求項５に記載の情報評価装置。
前記重複データ判定手段は、さらに前記１単位のデータ同士の名前の類似度を重複データの判定基準に用いることを特徴とする請求項６に記載の情報評価装置。
前記情報量調整手段は、前記１単位のデータから検出された複数の検出対象情報同士を比較することにより、該情報同士の同一性を判定する重複内容判定手段をさらに備え、
前記重複除去手段は、前記所定の条件を満たす全ての１単位のデータから検出された検出対象情報全てに対して、同一と判定された情報のうち１つ以外の全ての情報の数を、前記ベクトルの対応する成分の値から差し引くことを特徴とする請求項６または７に記載の情報評価装置。
前記入力手段において、前記所定の条件がファイル名に特定の拡張子を持つファイルおよび／または特定の拡張子を持たないファイルであることを特徴とする請求項１乃至８の何れか１項に記載の情報評価装置。
前記入力手段において、前記所定の条件が特定の記憶領域に保持されるデータであることを特徴とする請求項１乃至８の何れか１項に記載の情報評価装置。
文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価方法であって、
入力手段が、前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する１単位のデータとして入力し、
情報検出手段が、前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各１単位のデータから検出し、
重要度判定手段が、前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定し、
出力手段が、前記判定した重要度を出力することを特徴とする情報評価方法。
情報量調整手段が、前記情報検出手段によって検出された検出対象情報について、重複した冗長分の情報の数を減じて前記評価対象データ群全体に対する前記検出対象情報の総数の調整を行ない、
前記重要度判定手段が、調整後の前記検出対象情報の種類毎の総数に基づいて、前記データの重要度を判定することを特徴とする請求項１１に記載の情報評価方法。
文字情報を含むデータの集合である評価対象データ群の重要度を評価する情報評価装置を構成するコンピュータに、
前記データのうち所定の条件を満たす全てのデータをそれぞれ前記評価対象データ群を構成する１単位のデータとして入力する入力処理と、
前記重要度の評価に有効な情報として予め定められた検出対象情報を前記評価対象データ群を構成する各１単位のデータから検出する情報検出処理と、
前記検出された検出対象情報の種類毎の総数をそれぞれ所定の基準と照合することによって前記評価対象データ群の重要度を判定する重要度判定処理と、
前記判定した重要度を出力する出力処理とを行わせるための情報評価プログラム。
前記コンピュータに、さらに、前記情報検出処理によって検出された検出対象情報について、重複した冗長分の情報の数を減じて前記評価対象データ群全体に対する前記検出対象情報の総数の調整を行なう情報量調整処理を行わせ、且つ、前記重要度判定処理は、調整後の前記検出対象情報の種類毎の総数に基づいて、前記データの重要度を判定することを特徴とする請求項１３に記載の情報評価プログラム。
前記情報量調整処理は、
前記データに含まれる前記検出対象情報の種類毎の数をそれぞれ成分としたベクトルを前記各１単位のデータ毎に生成するベクトル生成処理と、
複数の前記ベクトル間で類似度が所定の閾値を超えた場合に、対応する前記１単位のデータ同士を重複データと判定する重複データ判定処理と、
前記重複データの集合における前記検出対象情報の種類毎の数の最大値を、それぞれ当該重複データ全てに対する前記検出対象情報の種類毎の総数とする重複除去処理と、を含むことを特徴とする請求項１４に記載の情報評価プログラム。
前記重複データ判定処理は、さらに前記１単位のデータ同士の名前の類似度を重複データの判定基準に用いることを特徴とする請求項１５に記載の情報評価プログラム。
前記情報量調整処理は、前記１単位のデータから検出された複数の検出対象情報同士を比較することにより、該情報同士の同一性を判定する重複内容判定処理をさらに含み、
前記重複除去処理は、前記所定の条件を満たす全ての１単位のデータから検出された検出対象情報全てに対して、同一と判定された情報のうち１つ以外の全ての情報の数を、前記ベクトルの対応する成分の値から差し引くことを特徴とする請求項１５または１６に記載の情報評価プログラム。