JP5168620B2 - データ種類検出装置及びデータ種類検出方法 - Google Patents
データ種類検出装置及びデータ種類検出方法 Download PDFInfo
- Publication number
- JP5168620B2 JP5168620B2 JP2007289915A JP2007289915A JP5168620B2 JP 5168620 B2 JP5168620 B2 JP 5168620B2 JP 2007289915 A JP2007289915 A JP 2007289915A JP 2007289915 A JP2007289915 A JP 2007289915A JP 5168620 B2 JP5168620 B2 JP 5168620B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- article
- group
- data type
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/556—Detecting local intrusion or implementing counter-measures involving covert channels, i.e. data leakage between processes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/105—Multiple levels of security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2101—Auditing as a secondary aspect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
データの少なくともいずれかの入出力データのデータ種類を検出する技術に関し、より詳
しくはテキストその他のデータ中に含まれる情報から機密情報か否かなどのデータの種類
を検出する方法に係わるものである。
相次いでいる。社員が故意にメールに機密情報を記載したり、添付したりして外部に送信
する場合もあるし、ウイルス感染などによって情報が勝手に送信されてしまうこともある
。
また、機密情報に限らず、社員が業務に関係のない情報を発信したり、掲示板に不正な
書き込みをしたりする場合もあり、企業の管理責任が問われるケースも増えている。
メール送信サーバにおいて機密情報の場合に送信を停止する機能が備えればよい。しかし
、すべての情報に機密か否かを定義することは現実には不可能であり、また機密性は時間
の経過や状況によって変化するために、そのような定義が有効かどうかすら疑問がある。
とを検出する技術が知られている。例えば特許文献1には、電子メール配送サーバにおい
て、電子メールのヘッダ部分または本文部分の内容に基づいて電子メールに求められる秘
匿性の高さを判定する秘匿性判定手段と、秘匿性判定手段が秘匿性が低いと判定した電子
メールはそのまま配送プロトコルにしたがって配送し、秘匿性が高いと判定した電子メー
ルに関してはその配送を中止する技術が開示されている。そして、中止した場合には電子
メールを電子メール配送サーバが受け取っていることを電子メールの送信先に通知する通
知用電子メールを配送プロトコルにしたがって配送する通知メール配送制御手段と、配送
を中止した電子メールを、送信先からの指示に応じて実行される所定の中止メール処理手
順にしたがって処理する中止メール処理手段とを備えている。
ず、日々変わる機密情報を常に設定し続ける必要がある。このための作業は膨大であり、
コスト高につながる。また、キーワードを含むか否かだけで判定すると、機密情報を機密
と分類してしまったり、キーワードをたまたま含まなくても機密の情報は見逃される可能
性が高い。
置が開示されている。本技術によれば、行動分析装置がゲートウェイ装置を介するドメイ
ン内の各ユーザーPCとインターネットとの間の通信を監視する。そして、検出した通信
中に例えばユーザーの情報漏洩の観点で関し項目に該当するものがあれば、その関し項目
に対応する重み値を当該ユーザーの情報漏洩の可能性についての評価値に加算する。そし
て、単位時間ごとにその評価値を集計して記録し、ニューラルネットワークを用いた学習
結果に従って近未来時点でのユーザーの情報漏洩の可能性を予測することが開示されてい
る。
が反復して疑いのある行動をとる場合には有効であるが、単発で機密情報を漏洩するよう
な場合には、それを阻止することができない。また、ニューラルネットワークにおいて素
性としてキーワードを含むか否かや、その重み値を用いるだけでは、機械学習による高精
度な判別を行うことは困難である。機械学習方法の選定と共に、いかなる素性を用いるか
によって全く異なる判別結果となることがある。
に入出力データについて機密性の有無などのデータ種類を簡便かつ高精度に検出し、デー
タの適正な管理に寄与する技術を提供することを目的とする。
請求項1に記載の発明によれば、コンピュータから出力される出力データ、又はコンピ
ュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出す
るデータ種類検出装置を提供する。
また、予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果と、該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定手段と、判定されたデータ種類を出力する出力手段とを備える。
句、形態素などを指す総称である。
データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、記事データ群抽出手段が記事データ群を抽出することを特徴とする。
そして、データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出することを特徴とする。
そして、入出力データ読み込み手段が、入出力データを読み込む入出力データ読み込みステップ、データ内容取得手段が、少なくとも該入出力データに含まれる文字列を取得するデータ内容取得ステップ、素性抽出手段が、少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出ステップ、予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果を備えて、データ種類判定手段が、該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定ステップ、出力手段が、判定されたデータ種類を出力する出力ステップを有する。
請求項1又は4に記載の発明によれば、検出したいデータ種類に応じて解の分かっている教師データを用いて機械学習結果を作成しておくことで、検出対象の入出力データについて、その履歴等を要さずに高精度な検出が可能となる。また、データ種類は、機密性の有無、高低、私用か否か、不適正性の有無、高低など様々な種類を同時に判定することもできる。
されるものではない。
まず、本発明の実施態様を概説する。図1は、ある企業における社内LANに含まれる
複数の端末1〜3(PC1〜PC3)から外部のPC(PC5〜PC7)にメールが送信
される様子を示している。
このとき、社内に設置されたメール送信サーバ(PC4)を介してインターネットにメ
ールが送信されるが、本発明ではこのメール送信サーバ(PC4)の外側に設置するデー
タ漏洩検出装置(1)を提供することができる。
データを入力として、機密情報を含むか、あるいは機密情報の高低などのデータ種類を検
出する装置であって、その結果を出力する。後述するようにメールを中継する機能を他に
備えているが、本発明の要部としては特にデータ種類を検出する機能であるので、次の実
施例1としてまずその詳細を説述する。
とするデータ種類はこれに限らず、そのデータが私的な情報であるか否か、公序良俗に反
するような不適切な情報か否か、重要な情報か否か、などいかなるデータ種類でもよい。
また、単にデータの種類の有無だけでなく、その程度毎に分類してもよい。
本発明に係るデータ漏洩検出装置と処理方法を説明する。
図2は本発明に係るデータ漏洩検出装置(以下、本装置と呼ぶ)(1)の構成図である。本装置における処理のフローチャートを図3に示す。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理や機械学習、テキスト処理などを司るCPU(10)によって本発明の各ステップを実行処理する。CPU(10)は周知のようにメモリ(図示しない)と協働して動作し、キーボードやマウス(11)などの入力手段の他、出力結果を表示するモニタ(12)、ハードディスク等の外部記憶装置(13)などを備えている。
また、インターネット等のネットワークと接続するネットワークアダプタ(14)を備えて入出力データを入力することができる。
102)、素性抽出部(103)、機密性判定部(104)、判定結果出力部(105)
が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(10)及
びそれと連動するハードウェアを動作させて、以下に説述する各部(101)〜(105
)の機能が実現される。
まず、入出力データ読み込み部(101)が入出力データを読み込む。具体的には、ネ
ットワークアダプタ(14)を介してコンピュータにおいて用いられる入出力データを本
装置(1)内に取り込み、メモリや外部記憶装置に格納する。(入出力データ読み込みス
テップ:S11)
得する。(データ内容取得ステップ:S12)
例えば読み込まれた入出力データがメールデータであれば、各メール毎に切り分け、さ
らに各メール内のヘッダ部分、本文部分の分離、ヘッダ部分から宛先アドレス、発信者ア
ドレス、件名の抽出、本文部分から本文テキストの抽出、添付ファイルの抽出などを行う
。すなわち、本ステップ(S12)では、生データである入出力データから、そのデータ
に応じて、必要なパート毎に分離したり、次の処理で用いるための整形処理を行うもので
ある。従って、データ内容取得部(102)は公知のテキスト処理方法や、画像処理方法
を適宜用いることができる。いずれも周知技術であるからここでは説明を省略する。
る。(素性抽出ステップ:S13)
素性については後述の機械学習処理の詳細において説明するが、例えば形態素解析によ
りデータ内容のテキストを形態素に分割し、所定の素性を抽出する。この素性抽出は、機
械学習の際にも同様の処理を行っている。
(131)を用い、上記素性抽出部(103)で抽出された素性を入力として機密性判定
処理(S14)を実行する。機密性学習結果(131)は用いる機械学習モデルによって
データ形式は異なるが、例えば学習過程で動的に変化したパラメータの集合である。
から出力(S15)する。ここで、判定結果としては分類問題の解として得られた機密情
報か否かでもよいし、あるいは機密情報である確率でもよい。また、機密度を例えば5段
階に分けてそのレベルでもよい。
にログとして記録するだけでもよい。ログを定期的に、所定の管理者に送信するようにし
てもよい。
本実施例における機密性判定部(104)のさらに詳細な構成を図4に示す。ここでは
教師データ入力部(1041)、解−素性対抽出部(1042)、機械学習処理部(1043)、判定
部(1044)がそれぞれ設けられる。
定過程とが一体的に成り立つものである。本発明の実施において、学習過程は必ずしも必
須ではなく外部記憶装置(13)には機械学習の結果形成された機密性学習結果(131
)を備えておくだけでもよい。その場合には、機密性判定部(104)に必要なのは各機
械学習手法に従って順序を判定する判定部(1044)だけである。
題-解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう
解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるよう
にする方法である(例えば、下記の非特許文献1〜非特許文献3参照)。
報で問題を構成する各要素)が必要になる。問題を素性によって表現するのである。例え
ば、日本語文末表現の時制の推定の問題において、
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「
。」となる。
を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利
用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を
推測する方法である。
その分類結果(解)を得る。本発明では、入出力データに分散するテキストデータ中の形
態素を素性とすれば、それらからデータ種類の分類を行うことになる。すなわち、分類先
が判定するデータ種類である。
機械学習処理部(1043)における機械学習の手法として、例えば、k近傍法、シンプル
ベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を
用いる。
このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定
める整数の数字であって、一般的に、1から9の間の奇数を用いる。
値が最も大きい分類を求める分類先とする方法である。
。
る。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算
しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定さ
れた確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi
|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数2の値が
ゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。
ここでは、以下の数3を用いてスームージングを行ったものを用いる。
がaである事例の個数を意味する。
でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の
高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をそ
の入力の分類先とする方法である。
か一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確
率は以下の数4によって与えられる。
p(a|b)=p(a|fmax )
ただし、fmax は以下の数5によって与えられる。
現の割合である。
とき、以下所定の条件式(数6)を満足しながらエントロピーを意味する数7を最大にす
るときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、
最も大きい確率値を持つ分類を求める分類先とする方法である。
かつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここで
Pはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の
求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最
大化(確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている
。最大エントロピー法の詳細については、以下の非特許文献4に記載されている。
るデータを分類する手法である。図24にサポートベクトルマシン法のマージン最大化の
概念を示す。図24において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する
超平面を意味し、破線はマージン領域の境界を表す面を意味する。図24(A)は、正例
と負例の間隔が狭い場合(スモールマージン)の概念図、図24(B)は、正例と負例の間
隔が広い場合(ラージマージン)の概念図である。
負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低
いと考えられ、図24(B)に示すように、このマージンを最大にする超平面を求めそれ
を用いて分類を行なう。
数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張
(カーネル関数の導入) がなされたものが用いられる。
その識別関数の出力値が正か負かによって二つの分類を判別することができる。
は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αiは数10と数11の制約のもと数9を最大にする場合のものである
。
多項式のものを用いる。
K(x,y)=(x・y+1)d
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した
。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトル
と呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つま
り、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられ
ない。
よび非特許文献6に記載されている。
、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレ
スト法などの手法を組み合わせて用いることになる。
ア(n(n-1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポート
ベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類
先の多数決によって、分類先を求める方法である。
他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組につい
てサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において
、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、
その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポ
ートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトル
マシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例え
ば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシ
ンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。
の検出、すなわち機密情報か否かを分類するものである。機械学習モデルの結果としては
、機密性1〜5(1が最も機密)の5段階に分類する、あるいは機密データである確率を
求めることができる。
このような言語処理における機械学習モデルとしては、サポートベクトルマシンや最大
エントロピー法による分類成果が比較的良いことが知られており、本発明でも機械学習モ
デルにサポートベクトルマシン、あるいは最大エントロピー法を用いても良い。
演算処理により分類先の例えば確度が算出される。(S141)
その場合、いずれか1つの判定結果を出力するために外部記憶装置(13)に定義して
おく所定閾値(132)を参照して判定部(1044)が閾値比較処理(S142)を行
い、閾値を超えた最大の分類先を判定結果として出力する。
学習の際には教師データ入力部(1041)が予め用意してある教師データを入力する。教
師データは、外部記憶装置等に格納しておけばよい。教師データには、予めデータ種類の
分かっているテキストが含まれており、解として機密性1〜5とする。解の定め方は機械
学習方法や必要となる結果に応じて適宜設計することができる。
その上で、上記した機械学習方法のいずれかによって解の求め方は次のように異なる。
教師データ入力部(1041)で入力した教師データから解−素性対抽出部(1042)で素性を抽
出(S21)する。機械学習処理部(1043)が抽出された素性の集合のうち重複する素性
の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義(S2
2)して、前記定義した類似度と事例とを学習結果情報として機密性学習結果(131)
に記憶(S23)しておく。
について、機密性学習結果(131)において定義されたデータ種類の確率と、素性とを
参照して、そのデータが正解である可能性が高い順にk個の素性を機密性学習結果(13
1)の事例から選択し、選択したk個の素性での多数決によって最も確からしい機密性の
値を解として推定する。
になりやすいかの度合いを、選択したk個の素性での多数決の票数、ここではある機密性
の値という分類が獲得した票数とする。
43)が機械学習処理(S22)として、教師データの事例について、前記事例の解と素性
の集合との組を学習結果情報として機密性学習結果(131)に記憶する。
)したときに、機密性学習結果(131)の学習結果情報の解と素性の集合との組をもと
に、ベイズの定理にもとづいて素性抽出部(103)で取得した素性の集合について、機
密性の値に係わる各分類になる確率を算出して、その確率の値が最も大きい分類を、その
データについての素性の分類(解)と推定する。
解となりやすさの度合いを、各分類になる確率、ここでは各機密性の値という分類になる
確率とする。
習処理(S22)として、教師データの事例について、素性と分類先との規則を所定の優
先順序で並べたリストを機密性学習結果(131)に記憶する。そして、データ内容取得
部(102)がデータ内容を取得(S12)したときに、判定部(1044)は、機密性学習
結果(131)のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の
素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。
る解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここで
は各機密性の値という分類になる確率のリストにおける優先順位とする。
1043)は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつ
エントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる
確率分布を求めて機密性学習結果(131)に記憶する。そして、データ内容取得部(1
02)がデータ内容を取得(S12)したときに、判定部(1044)は、機密性学習結果(
131)の確率分布を利用して、抽出されたファイルについてその素性の集合についてそ
の解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し
、その特定した分類をその候補の解と推定する。すなわち、判定部(1044)では、抽出さ
れたデータについてその素性の集合の場合にある解となりやすさの度合いを、各分類にな
る確率、ここでは各機密性の値という分類になる確率とする。
1043)は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割し
て、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空
間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超
平面を求めて機密性学習結果(131)に記憶する。
(1044)は、機密性学習結果(131)の超平面を利用して、抽出されたデータについて
の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定
し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。
る解となりやすさの度合いを、分離平面からの正例(出現順が正しいデータ)の空間への距
離の大きさとする。より詳しくは、機密情報である場合を正例、機密情報でない場合を負
例とする場合に、分離平面に対して正例側の空間に位置するデータが機密情報と判断され
、その事例の分離平面からの距離をそのデータが機密情報である度合いとする。
、重回帰分析による方法を用いることもできる。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析
をコンピュータ上で実行する方法については、非特許文献7に詳しい。
変数xの値を1,0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分
類の場合を値0として求めればよい。
を用いることで、機密性学習結果(131)を生成した上で、判定部(1044)が、データ
の種類を的確に判定する。
単語の関連単語、送信者、送信先アドレスの一部又は全部を用いることができる。
人名を素性に用いる場合とは、予め人名を示す姓名の情報を格納しておき、これらがデ
ータ内容に含まれるか否かを素性として用いる。一般的に大量の人名を外部記憶装置(1
3)に格納しておいて、人名を多く含むテキストは名簿などの機密情報であると判定する
ようにしてもよいし、例えば機密性の高い業務を行っている人名を素性として、その人物
らに関する情報を機密情報と判定するようにしてもよい。
や、あるいは特定の会社名、あるいはグループ名などを含むときに機密情報と判定するこ
とに寄与することができる。
技術名は、当該会社における全製品名としてもよいし、例えば新製品の名称やプロジェ
クト名など、企業内の機密性の高い情報に限定して素性としてもよい。
るものは機密情報と判定されやすくなるはずである。逆に「プレスリリース」「記者発表
」など機密情報ではないことを示す単語も本発明では機密性単語である。
て出現する単語である。すなわち、他の記事データベース中で「極秘」と「製品Aの名称
」が特に出現するとすれば、製品Aの名称が関連単語である。このような関連単語が出現
した場合には、「極秘」と書いていなくても機密情報である可能性が高い。
その地位によって機密情報を発信しうるか否かがことなる。また、管理者などが送信者で
ある場合には、機密情報であっても機密情報であることを検出しなくてよい場合がある。
送信先は特に重要であり、例えば競合企業のドメインの場合には、機密情報と検出され
る可能性を高めることができる。
上記のような素性を抽出する際に、予め人手により定義しなくても次のような固有表現
の抽出技術を用いることで、自動的に抽出処理を行うことができる。
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献8参照)。
た文字について、以下のように、 B-LOCATION、 I-LOCATION等の正解タグを付与すること
によって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タ
グは二列目である。
日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
福 B-PERSON
田 I-PERSON
さ O
ん O
で O
す O
。 O
上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグであ
る。例えば、 B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは
、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表
現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、
文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地
名という固有表現である。
タでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固
有表現かを認識して、固有表現を推定する。
まな情報を素性という形で利用する。例えば、
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先
頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる
。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力す
ると以下の結果を得る。
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与
される。
自体(例えば、「福」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タ
グ情報(例えば、「B-PERSON」等)を利用している。
が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを
学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、
例えばサポートベクトルマシンを用いる。
モデルと書き換え規則を用いて固有表現を抽出する手法がある(非特許文献9参照)。
表現抽出を行う手法について記載されている。
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
どを解−素性対抽出部(1042)において抽出することができる。
本発明は、ユーザーが通常時にデータの種類(機密性)を与えた時に、その情報を教師データ(130)として用いることもできる。
すなわち、図7に示すように、機密性を定義済みの入出力データを入出力データ読み込みステップ(S11)で読み込むと、一点鎖線で示すように、データ内容取得(S12)の後、機密性の情報(131a)とデータ内容(131b)とを分離(S31)する。
械学習処理(S22)に進む。
本発明ではこのように機密性が定義済みの入出力データを機械学習に用いることで、別
に教師データを与えたり、定期的に学習をさせる必要が無く、日々の使用によって高精度
なデータ種類の判定を行うことができるようになる。
素性として、機密性の判定結果が発信元や送信先に応じても異なるように学習させてもよ
い。機密性の情報(131a)と送信先のアドレスから、問題がない場合には機密情報と
のデータ種類の判定を行わない。このように機密性を相対的に決められる情報として処理
してもよい。
本発明では、判定結果の出力に合わせて、その時の入出力データに関連する関連データを抽出する。従来、機密性が高いと判定されても、その情報が外部でどのように扱われているのか自動的に知ることはできなかった。
そこで、本発明では、図8に示すように外部記憶装置(13)に記事データベース(132)を格納すると共に、CPU(10)には記事データ群抽出部(106)と関連データ抽出部(107)を備えた。記事データベース(132)には例えば新聞記事の電子データを用いることもできる。
るいは機密性が高い情報と判定された場合に、記事データ群抽出部(106)が記事デー
タベース(132)から、入出力データに含まれる文字列や文字群を含む記事データ群を
抽出する。(記事データ群抽出ステップ:S41)
本処理は、公知のテキスト検索技術によって容易に実現可能である。また、記事データ
ベース(132)は外部記憶装置(13)に限らず、インターネットなどのネットワーク
上に分散的に存在するいかなるデータでもよい。
出するようにしてもよい。ここで、記事データ群を抽出する技術を次に詳述する。
図10は、本技術に係わる構成であり、本装置(1)の記事データ群抽出部(106)
の中に、機密性判定部(104)で機密性があると判定されたデータと類似する情報が、
記事データベース(132)に存在するか否かを判定する類似判定部(114)を設ける
。
称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともい
ずれかが格納されている。
類似判定工程を実行処理する。記事データベース(132)に含まれるファイル情報や、
ドメイン名、サイト名などに従って、類似判定部(114)が各情報源からデータを取得
すると共に、その中に収集されたデータと話題が共通の情報が含まれているか否かを判定
していく。
できる。
まず、データ収集の後、収集されたデータ形態素解析を行ってからそれによって得られ
た該データを構成する単語群A(本発明において、単語群は単数又は複数の単語を言う。
)を、多く含む類似情報データの抽出方法を説明する。
(数13)
score(D) = Σ ( tf(w,D) * log(N/df(w)))
w ∈W で加算
Wはキーワードの集合、tf(w,D)は収集されたデータでのwの出現回数、df(w)は全文書でW
が出現した文書の数、Nは文書の総数
数13に示す式において、score(D) が高い文書データを類似した類似情報データとし
て出力する。
本方法は、非特許文献11に記載されている。
(数14)
score(D) = Σ ( tf(w,D)/(tf(w,D) +length/delta) * log(N/df(w)))
w ∈W で加算
lengthはデータDの長さ、deltaはデータの長さの平均、データの長さは、データのバ
イト数、また、データに含まれる単語数などを使う。
(Okapi の参考文献)
非特許文献12,13に開示されるようなOkapiの式、SMARTの式を用いることもできる
。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらのOkapiのS
MARTの式を用いてもよい。
報検索を行うことができる。
特許文献14)を使うことができる。
(数15)
{E(t)+ k_af * (RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
= 0 (それ以外)
RatioC(t) はデータ群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語
群Aをより多く含む記事として取り出すものである。
る。ただし、元のキーワードと、単語群Aは重ならないようにする。
みとする。ただし、元のキーワードと、単語群Aは重ならないようにする。
和が大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよいし、
また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む記事として取り
出すようにしてもよい。
以上の方法により、記事データ群抽出部(106)が単語群Aを含む記事を取り出すこ
とができる。
タ群Bの類似記事を抽出する方法を説明する。
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい
。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyと
するとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。
記事xに含まれる単語を使ってベクトル(vector_x)にし、また、記事yのベクトルを記事y
に含まれる単語を使ってベクトル(vector_y)にし、それらベクトルの余弦(cos(vector _x
,vector_y)) の値を記事の類似度としてもよい。各単語のスコアの算出には、tf・idf や
okapiやsmart を用いるとよい。
コアとなる。
okapi だとtf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))
がその式となる。
x,vector_y)) の値を求め、この値が大きい記事ほど単語群Aをより多く含む記事と判断
してもよい。この場合は、単語群Aに含まれる単語を使ってベクトル(vector_x)にし、記
事に含まれる単語を使ってベクトル(vector _y)にして求める。
(1)データ群Bのうち記事情報データxと最も類似するデータと、記事情報データxの
類似度をその類似度とする方法
(2)データ群Bのうち記事情報データxと最も類似しない記事と、記事情報データxの
類似度をその類似度とする方法
(3)データ群Bのすべての記事と記事情報データxの類似度の平均をその類似度とする
方法
他の方法でもよいが、このようにして、データ群Bと記事情報データxの類似度を求め
て、その類似度が大きいものを類似記事として取り出すことができる。
して、その単語も利用して、Rocchio's formula に基づく Score(D) を計算し、Score(D)
の大きいものを類似データとして取り出してもよい。
として抽出してもよい。
なお、上述した単語群Aを含む記事を抽出による方法と、ここで説明した類似記事を取
り出す方法とを両方実行してそれぞれ記事を抽出してもよい。
上記技術と関連して、図11のようにデータ内容取得部(102)で取得したデータに
類似するデータが記事データベース(132)に含まれるかを判定し、その結果を機密性
判定ステップ(S14)に素性として入力することもできる。素性として用いることで、
例えばプレスリリースのような記事に含まれている場合には、かつては機密情報であった
としても、現在では公開された情報であることが機密性判定ステップ(S14)において
判定できるようになる。
類似度が数値で算出される場合には、その類似度をp倍(p<1)した値よりも大きい類似度
の文書が記事データベース(132)にある場合、当該収集データは根拠のあるものとす
る。
化としては、入力のキーワード群とまったく同じキーワード群の文書があると仮定し、そ
の文書のスコアを算出する。そしてそのスコアで、類似度を割ることにより、正規化した
類似度を算出することができる。なお、正規化の方法は任意である。
る。本方法では、まず同義語の言い換えの変形規則をたくさん用意し、これを用いて文章
の言い換えを行う。類似度の大きくなる言い換えを行っていき、最も類似度の高くなった
文同士で類似度を求める。類似度は、例えばある文章に含まれる複数のキーワードとその
周辺に出現するパターンが、他方の文章でどれだけ抽出されるか、その総数をスコアとし
て算出することができるが、これに限らず周知の方法によって類似度は算出することがで
きる。
この言い換えは、類似度を求める両方の文を言い換えても良い。
より正確に文同士の類似度を算出することができる。
上記において記事データ群の抽出はCPU(10)の記事データ群抽出部(106)が
、類似情報と判定された収集データについて、その著作者、コンテンツ、格納されるサー
バ装置の名称若しくはネットワークアドレス、ファイル情報などに基づいて記事データ群
を抽出する構成である。
本発明では、さらに記事データ群の抽出自体に機械学習モデルを用いて抽出の妥当性を
判断することもできる。
ない)と、機械学習モデルにより記事データ群としての妥当性を評価する記事データ群評
価部(図示しない)とを設ける。
そして予め記事データ群評価部に含む機械学習モジュールでは次のようにして機械学習
を行い、その結果を機械学習結果データとしてハードディスクに格納しておく。
タ群抽出部(106)で収集された記事データ群を大量に用意し、これを機械学習モジュ
ールに入力する学習用の入力データとする。
記事データ群が本当に記事データ群として妥当か否かを人手によって判定し、その結果
を学習用の出力データとする。
を算出する。この類似度の算出方法は上記の通りであり、類似度として類似する、しない
の2値の結果でもよいし、類似の度合いを示す数値でもよい。
そして、機械学習における素性として、入力データの取得データを構成する単語列と、
記事データ群を構成する単語列と共に、類似度とを用いる。
事データ群と、機密性ありと判定されたデータとを入力して該記事データ群が抽出する対
象として妥当か否かを判定する。判定結果に応じて記事データ抽出部(106)が出力す
る。
機械学習モジュールにおける機械学習の方法は上述した様々な方法のいずれかを用いる
ことができ、このときの判定結果は、「妥当である」「妥当でない」と出力される場合と
、妥当である確率が出力される場合がある。前者の場合には「妥当である」記事データ群
を出力すればよく、後者の場合には所定の閾値を超える確率の場合に出力すればよい。
本発明の記事データ群抽出部(106)において次のように抽出処理を行うこともでき
る。
すなわち、CPU(10)に図示しない類似度算出部を備え、該類似度算出部では上述
した通りの記事の類似度の算出処理を行う。
そして、機密性判定部(104)で機密性ありと判定されたデータと、ネットワーク上
又はハードディスクの記事データベース(132)から抽出する記事の類似度を算出する
。
ついて記事データ群として抽出することができる。
本発明ではさらに、CPU(10)に上記言い換えの技術を備えた単語列置換部(図示
しない)と上記類似度算出部を設けて、該単語列置換部において記事データベース(13
2)等から抽出された記事に含まれる単語列を順次置換しながら、機密性ありと判定され
たデータとの類似度を類似度算出部で算出する。そして、常に類似度が高まるように単語
列を置換していき、もっとも類似度が高くなるときの類似度が所定の閾値を超えたときに
記事データ群として抽出することもできる。
技術を提供することができる。
その1つは、クラスタリング処理により、機密性判定部(104)で機密性ありと判定
された複数の情報について、関連する記事データ同士をまとめて出力することである。
本発明では、CPU(10)における記事データ群抽出部(106)が、クラスタリン
グ処理手段としても作用し、以下の処理を行うことができる。
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士
も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターB
の成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均を
そのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスター
の位置とし、その位置同士の距離の平均をその距離とする方法
(数16)
W = Σ Σ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。
Σは i=1からi=g までの加算
二つ目の
Σは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値が な
るべく大きくならないようにクラスター同士をくっつけていく。
語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log
(N/df(w))) 、その単語のOkapiの式 (すなわち、tf(w,D)/(tf(w,D)+length/delta)*log(
N/df(w))) としたベクトルを作成し、それをその成員の位置とする。
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラ
スターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距
離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返
す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラス
ター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの
良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各
成員は、最も近いクラスター中心の成員となる。
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選
ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。ク
ラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラ
スター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの
中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返し
をやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター
中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター
中心の成員となる。
クラスタリングに類似する文書分類の方法として、あらかじめ分類先毎に単数又は複数
の単語群を定義しておき、入力された情報に該単語群が含まれるか否かにより分類先に分
類する方法がある。該文書分類方法についても本発明ではクラスタリングに含まれる。
入力された情報の中で複数の分類先の単語群が含まれる場合には、含まれる数が多い単
語群の分類先に分類してもよいし、各単語群に重みの値をつけておき、その重みが大きい
単語群の分類先に分類するようにしてもよい。
々な方法が公知であるので、それらを利用してもよい。
記事データは、類似の情報が複数抽出されることが多く、複数の記事データがランダム
に出力されてしまうと、どの記事データが本当に必要なのかが分かりにくい問題がある。
本発明において記事データ群抽出部(106)でクラスタリング処理をすることにより
、モニタ(12)などで類似の記事データごとに表示させることができるので、機密と判
定されたデータと関係のない情報が集中している場合なども迅速的確に把握可能である。
のように変化させることもできる。
すなわち、記事データ群抽出部(106)は、機密性ありと判定されたデータの、日次
、週次、月次ごとに判定件数をカウントして、判定件数データを作成する。例えば、図1
5に示すような週次発表データが作成される。
については、第3週次に1件、第4週次に5件、第6週次に10件、第7週次に1件の判定件
数があり、機密情報2については、第1週次に5件、第2週次に3件、第3週次に10件、第8週
次に1件の文書発表があり、機密情報3については、第4週次に2件、第7週次に4件、第8週
次に12件、第9週次に5件、第10週次に13件の判定件数があることを示している。
後の等高線データを表示データとする構成をとることもできる。図13のように、発表件
数を等高線で表し、高さに応じて色を濃く表示することができる。
面表示する。モニタ(12)は、例えば図13に示すように、各機密情報の各週次におけ
る文書の発表件数のデータが等高線表示される画面を表示する。発表件数の度合いによっ
て等高線の表示色が異なっている。例えば、8〜10件の発表件数に対応する等高線の表
示色は一番濃い色で表示される。
め、その平均値の小さい順に表示している。このように並べることで早い時期に発表が集
中している分類から表示することができるので、機密情報や類似情報がどのように発表さ
れていったのか、視覚的に認識することができる。
なお、並べ順は平均値、最頻値、中央値のいずれかによって並べてもよいし、それらを
用いた計算方法も任意である。
の折れ線グラフを使った表示を行ってもよい。
データ判定件数をバブルチャートとして画面表示する構成を採ることもできる。
バブルチャートとは、一般に、ある事象を示す(円)を2つの軸を持つ図上に配置した図
のことを言う。図17に示すバブルチャートでは、円の大きさが判定件数の度合いを示し
ている。
本発明は、上記のように記事データ群を抽出するだけでなく、さらに関連データ抽出部(107)が、抽出した記事データ群に偏って出現する単語群を抽出し、記事データ群の中でその単語群を多く含む記事データを抽出するように構成してもよい。(関連データ抽出ステップ:S42)
抽出された結果は、機密性の値と共に、出力(S15)される。
例えば、「コンピュータ」を含む記事群に偏って出現する単語群Aを、抽出するもので
ある。記事群Bを包含する、より大きい記事群をCとする。ここで記事群Cは記事データ
ベース全体でもいいし、一部でもよい。Cは記事データ群抽出ステップ(S41)で抽出
された記事群である。
って出現する単語群Aを取り出すのではなく、データベース全体の記事群の中で、「コン
ピュータ」を含む記事群に偏って出現する単語群Aを取り出し、その取り出した単語群A
を利用して処理してもよい。その場合はCは記事データベース全体となる。
C中のAの出現率=C中のAの出現回数/C中の単語総数
B中のAの出現率=B中のAの出現回数/B中の単語総数
次に、B中のAの出現率/C中のAの出現率
を求めてこの値が大きいものほど、記事群Bに偏って出現する単語とする。
)から直接出力してもよいし、あるはこの関連単語をインターネット上の検索エンジンに
入力して関連したサイト上の情報を出力するようにしてもよい。
(有意差検定を利用する説明)
・二項検定の場合の説明
AのCの出現数をNとする。AのBでの出現数をN1とする。
N2=N-N1とする。
N2回以下、AがCに出現してBに出現しなかった確率を求める。
P1 = Σ C(N1+N2,x) * 0.5 ^(x) * 0.5^(N1+N2-x)
(ただし、Σは、x = 0 から x = N2 の和)
(ただし、C(A,B)は、A個の異なったものからB個のものを取り出す場合の数)
(ただし、^は、指数を意味する)
で表され、この確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち
、 N1がN2に比べて有意に大きいことと判断できる。
P1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大
きいかどうかの判断基準になる。
する。また、P1が小さいものほど、記事群Bによく偏って出現する単語とする。
B中のAの出現回数をN1、B中の単語の総出現数をF1、
CにあってBにない、Aの出現回数をN2、
CにあってBにない、単語の総出現数をF2とする。
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1)*F2 )^2 )/((F1 + F2)*(N - (F1 +
F2)) * N1 * N2)
を求める。
3.84 よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が 6.63 よりも大
きいとき危険率1%の有意差があると言える。
する。
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = | p1 - p2| / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、(ただし sqrt はルートを意味する) そして、Zが大きいほど、R1とR2は有
意差があると言え、Zが1.96 よりも大きいとき危険率5%の有意差があると言え、Zが 2.
58 よりも大きいとき危険率1%の有意差があると言える。
N1>N2 で、かつZが大きいものほど、記事群Bによく偏って出現する単語とする。
て判定する方法を組み合わせてもよい。
の値が大きいものほど記事群Bによく偏って出現する単語とする。
順に所定の個数を取り出すことができる。また、ある閾値を設定して、その閾値以上のも
のを抽出することもできる。所定の閾値以上のもので、かつ確率が高い方から所定の個数
だけを抽出してもよい。このようにデータをどのような基準で抽出するかは本発明におい
て任意である。
閾値や所定の個数は予め本装置に備えて固定してもよいし、ユーザが変更できるように
してもよい。
本発明では、以上のようにして求めた関連単語を上記したように機械学習における素性
として用いることもできる。
すなわち、図9における関連データ抽出(S42)において関連単語が抽出された場合
、これを素性として追加し、機械学習過程における素性抽出(S21)及び、検出過程に
おける素性抽出(S13)で用いることもできる。
これによって自動的に素性を増やし、検出の高精度化に寄与させることができる。
以上の各実施例で示したようなコンピュータの入出力データについて機密性を検出するデータ漏洩検出装置(1)に限らず、メール送信装置を提供することもできる。
図15にはメール送信装置(1A)の構成図を示す。なお、本装置(1A)は上記データ漏洩検出装置(1)と多くの構成が共通するため、同一の構成は同符号を付番し、説明は省略する。
ール送信を行うことができる。図16に示すように、社内の端末のユーザー(20)が端
末上のメール送信クライアントソフト(一般的なメールソフト)を用いてメールの送信動
作を行う(S51)と、社内のLANを通じて本装置(1A)に入力される。
て機密性を判定する。その結果、機密性が所定の閾値以下ならば、メール送信制御部(1
09)が送信を許可し、メール送信部(108)から本来の宛先にメールが送信される。
。この場合、送信が拒絶された旨の通知を送信したユーザー(20)にもメール等で通知
(S55)すると共に、情報管理者(21)にも通知(S56)するようにしてもよい。
。すなわち、送信するユーザーの地位や権限に応じて、判定された機密性の値によって送
信の可否を変化させる。例えば、社長がどのようなデータを外部に送信しようとも構わな
い場合には、社長は全レベルの機密情報の送信を許可すると共に、情報管理者への通知も
行わない。社員Cは例えば新入社員であって、会社内からはほとんど機密性のない情報以
外は送信出来ないように設定し、送ろうとした場合、情報管理者にも通知される。このと
き、送れないように制御してもよい。
る情報を制限するかどうかも定めることができる。情報管理者はいかなる情報でも対応で
きるように不適正情報の送信を可能にする一方で、社員Cにはそれも許可しない。
このように社内の立場によって、メール送信制御部(109)による送信可否の決定に
変化をつけることができる。
の役職に応じて記述可能な度合いが変わるようにしてもよい。例えば、社長ならすべて可
、社員Cなら、機密性4、5のみ可というように、そもそも送信できないようにする。
そして、実際にそのメールが送信されて、そのメールの機密性を自動化システムが判断
し、送信者の記述した機密性の度合いと、自動化システムの出力が等価なら(または、自
動化システムの出力の方が低い機密性の度合いなら)、送信可とし、送信する。そうでな
い場合には、送信不可として送信を中止する。
に機密性レベルの設定ボタンを用意し、1〜5のチェックを入れる。そして、例えば社長
であれば1〜5を全て選べる一方、社員Cは4と5とのみが選べる。これによって、社員
Cはそもそも機密性が高い情報として送信することすらできない。
、設定された機密性レベルが判定結果のレベルと等しいか、低い時(例えば、設定レベル
が4で、判定レベルが5の時は可、設定レベルが5で判定レベルが4の時は不可)のみ、
送信可能に制御する。このような送信条件は予め外部記憶装置(13)に定義しておけば
よい。
送信条件は比較の対象に合わせて任意に定義できる。機密性レベルの場合は数値による
比較が可能であるが、そのほかに種類毎、送信者毎に送信可、不可を定義しておいてもよ
い。
様に扱うことができる。役職によって、メール内に記述できる機密性の種類を決めておく
。
そして、送信者自身が機密性の種類をメールに記述する。その上で、本装置(1)が判定
した機密性の種類と照合し、許可されない種類のメールは送信を中止することもできる。
ここで、機密性の種類としては、「個人情報」「社内情報」「知的財産情報」「各部門
固有の情報」等を用いることができる。
メール送信装置(1A)において、メール送信を拒絶するだけでなく、機密度の情報を
付加して送信する構成でもよい。
図17は本装置(1A)に機密度情報付加送信部(110)を設けた構成であり、処理
のフローチャートを図18に示す。本装置(1A)では、通常のメール送信部(108)
による送信サーバとしての機能に加えて、機密情報をデータ内容に付加(S57)する。
このとき、メールの題名又は本文の任意の位置に[機密情報]などのように付加すること
ができる。
否や管理について注意を促すことができる。
また、機密情報と判定されたメールが送信された場合に、情報管理者(21)に通知(
S59)されるようにしてもよい。
既存のメール送信装置と組み合わせて用いるメール中継装置を提供することもできる。本メール中継装置(1B)の構成を図19に、処理フローチャートを図20に示す。
本装置(1B)は、既存のメール送信サーバから送信(S61)されたメールを、メール経路受信部(111)で受信(S62)し、本発明処理(S52)を行った後に、機密性が高いと判定されなかったメールはメール中継制御部(112)の指示によりメール経路送信部(113)から送信(S64)される。
。この場合、送信が拒絶された旨の通知を送信したユーザー(20)にもメール等で通知
(S65)すると共に、情報管理者(21)にも通知(S66)するようにしてもよい。
もちろん、本構成でも図18のように機密情報を付加した上でメール経路送信(S64
)してもよい。
本発明は、コンピュータに入出力するあらゆるデータを対象とすることができるので、図21に示すように携帯型のメモリ(USBメモリ)(30)や携帯型ハードディスク(31)などから読み書きされるデータのデータ種類の検出に用いてもよい。
この場合、例えばパソコンのデータバス(34)の1つであるUSBポートを常時監視し、ユーザーがメモリ(30)にデータの書き込み動作をしようとすると本発明処理が実行され、機密情報等が含まれていないか確認することができる。
本体に入力される情報を取得して、本発明処理を行ってもよい。これによって、明らかに
その機密を持っていないはずの社員や、私用で使っていると思われる情報を入力しようと
すると検出し、情報の管理者に通知させることもできる。
この機能を利用することで、ウェブメールの送信時や、ウェブでの書き込みなどでの情
報漏洩も防止できる。
て機密情報の印刷を阻止するようにすれば、紙媒体によって情報が漏洩することを防ぐこ
とができる。
本発明のデータ内容取得部(102)に公知の画像認識処理部や、音声認識処理部を設
けてもよい。すなわち、入出力データが画像である場合に、素性としてファイルの容量、
ファイル名、画像圧縮形式などの情報を用いることもできるが、当該画像を画像認識処理
してテキストに変換してもよい。
このような文字認識技術は多数のソフトウェアが流通しており、それらを組み合わせて
利用してもよい。
また、音声データである場合に、データ内容取得部(102)が音声認識処理を行って
テキスト化してもよい。
音声信号を取得し、音声信号がアナログ信号の場合にはディジタル信号に変換する音声信
号変換入力部(42)を通して本装置(1)の入出力データ読み込み部(101)に入力
してもよい。直接入力可能な信号の場合には、該音声信号変換入力部(42)は設けなく
てもよい。音声信号変換入力部(42)が変換処理を行わず、例えば信号線の分岐コネク
タのように単に音声信号を取り出すための手段であってもよい。
入出力データ読み込み部(101)で読み込まれた音声データは、上記のように音声認
識処理部によって音声からテキストに変換することができる。
変換入力部(45)が静止画像や動画像、映像を含む画像を取り出して、必要があればデ
ィジタル信号に変換し、データ内容取得部(102)において画像認識処理を行ってテキ
スト化してもよい。
るデータ種類の検出を行ったデータは、この後にパソコン等に入力される。パソコン等で
モニタリングシステムを構成して、検出結果を記録するようにしてもよいし、メール送信
サーバを構成して、ネットワークを通じて外部にメール送信を行うようにしてもよい。い
ずれにしても、本装置(1)で検出したデータを入力したコンピュータで利用することを
必須とする。
本発明の入出力データの言語はいかなる言語でもよい。公知の翻訳ソフトをデータ内容
取得部(102)に備えて機械翻訳しデータ内容として日本語で取得できるようにしても
よい。また、高度な翻訳ソフトを用いず、単に辞書を照合して単語を置き換えるだけでも
よい。
本発明において種類が判定された出力データを出力する際に、要約処理を行ってから出
力することもできる。すなわち、出力データを長文のまま出力しても、ユーザがどのよう
な内容であるかを把握するには時間を要し、大量の機密情報をチェックするには不適当で
ある。
そこで、本発明では次の要約処理により、出力される出力情報をわかりやすく提示する
ことができる。要約の処理は、CPU(10)に設けた図示しない要約処理部によって行
う。
献3及び特許文献4の方法に開示される要約手法を用いることができる。
すなわち、特許文献3の方法によれば、要約装置として、文章およびその要約結果であ
る問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データ
を記憶する解データ記憶手段と、解データの問題である文章および要約結果から、例えば
要約結果の文のなめらかさを示す情報および要約結果が文章の内容を表示しているかどう
かを示す情報を含む所定の情報を素性として抽出する。
集合との組を学習結果として学習結果記憶手段に記憶する機械学習手段と、解−素性対抽
出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出
する素性抽出手段と、学習結果である前記解と前記素性の集合との組をもとに、ベイズの
定理にもとづいて前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類に
なる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段と
を備える。
いる解データを編集する解データ編集処理装置であって、テキストの要約結果を表示装置
に表示する要約表示処理手段と、前記要約結果に対する評価の入力を受け付けて前記要約
結果の評価とする評価付与処理手段と、前記テキストおよび前記要約結果を問題とし前記
評価を解とする解データを出力する解データ出力処理手段とを備える。
をフィードバックすることにより機械学習の精度の向上を図るものであり、これによって
効果的な要約方法に寄与する。
もちろん、ここで用いる機械学習方法はシンプルベイズ法に限らず、k近傍法、決定リ
スト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法な
どいかなるモデルを用いても良い。
法を用いることができる。
例えば、文書の位置、タイトルの単語を含んでいる個数、その文に出現する単語のtfid
fの値のそれぞれの情報を用いて、各文のスコアを求め、そのスコアの大きいものを要約
結果とする方法がある。
また、一般にタイトルの単語は重要なため、タイトルの単語を多く含む文を抽出してそ
の文を要約結果とすることができる。
より単純に、文書の第一文など、最初の方を要約文としてもよい。
10 CPU
101 入出力データ読み込み部
102 データ内容取得部
103 素性抽出部
104 機密性判定部
105 判定結果出力部
11 キーボード・マウス
12 モニタ
13 外部記憶装置
130 教師データ
131 機密性学習結果
14 ネットワークアダプタ
Claims (6)
- コンピュータから出力される出力データ、又はコンピュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出するデータ種類検出装置であって、
入出力データを読み込む入出力データ読み込み手段と、
少なくとも該入出力データに含まれる文字列を取得するデータ内容取得手段と、
少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出手段と、
予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果と、
該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定手段と、
判定されたデータ種類を出力する出力手段とを備えた構成において、
ネットワーク上、又はローカルの記事データベースと、
該記事データベースから、該入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出する記事データ群抽出手段と
をさらに備え、
該データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、記事データ群抽出手段が記事データ群を抽出する
ことを特徴とするデータ種類検出装置。 - 前記記事データ群抽出手段において、
前記記事データベースから前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出すると共に、さらに該記事データ群が前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群と類似する記事か否かの類似判定処理を行い、類似すると判定された記事データ群のみを抽出結果とする
請求項1に記載のデータ種類検出装置。 - 前記データ種類検出装置において、
前記記事データ群抽出手段が抽出した記事データ群に偏って出現する単語群を抽出し、該記事データ群の中で該単語群を多く含む記事データを抽出する関連データ抽出手段と
を備え、
前記データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出する
請求項1に記載のデータ種類検出装置。 - コンピュータから出力される出力データ、又はコンピュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出するデータ種類検出方法であって、
入出力データ読み込み手段が、入出力データを読み込む入出力データ読み込みステップ、
データ内容取得手段が、少なくとも該入出力データに含まれる文字列を取得するデータ内容取得ステップ、
素性抽出手段が、少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出ステップ、
予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果を備えて、
データ種類判定手段が、該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定ステップ、
出力手段が、判定されたデータ種類を出力する出力ステップ
を有すると共に、
該データ種類判定ステップにおいて、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、
記事データ群抽出手段が、ネットワーク上、又はローカルの記事データベースから、該入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出する記事データ群抽出ステップを実行処理することにより記事データを抽出する
ことを特徴とするデータ種類検出方法。 - 前記記事データ群抽出ステップにおいて、前記記事データ群抽出手段が、
前記記事データベースから前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出すると共に、さらに該記事データ群が前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群と類似する記事か否かの類似判定処理を行い、類似すると判定された記事データ群のみを抽出結果とする
請求項4に記載のデータ種類検出方法。 - 前記データ種類検出方法において、
関連データ抽出手段が、前記記事データ群抽出ステップで抽出した記事データ群に偏って出現する単語群を抽出し、該記事データ群の中で該単語群を多く含む記事データを抽出する関連データ抽出ステップを備え、
前記データ種類判定ステップにおいて、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出する
請求項4に記載のデータ種類検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007289915A JP5168620B2 (ja) | 2007-11-07 | 2007-11-07 | データ種類検出装置及びデータ種類検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007289915A JP5168620B2 (ja) | 2007-11-07 | 2007-11-07 | データ種類検出装置及びデータ種類検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009116680A JP2009116680A (ja) | 2009-05-28 |
JP5168620B2 true JP5168620B2 (ja) | 2013-03-21 |
Family
ID=40783755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007289915A Expired - Fee Related JP5168620B2 (ja) | 2007-11-07 | 2007-11-07 | データ種類検出装置及びデータ種類検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5168620B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013137740A (ja) | 2011-11-28 | 2013-07-11 | Internatl Business Mach Corp <Ibm> | 機密情報識別方法、情報処理装置、およびプログラム |
US9223987B2 (en) | 2011-11-28 | 2015-12-29 | International Business Machines Corporation | Confidential information identifying method, information processing apparatus, and program |
WO2016082877A1 (en) * | 2014-11-27 | 2016-06-02 | Longsand Limited | Block classified term |
CN107066882B (zh) * | 2017-03-17 | 2019-07-12 | 平安科技(深圳)有限公司 | 信息泄露检测方法及装置 |
JP2018194919A (ja) * | 2017-05-12 | 2018-12-06 | 富士通株式会社 | 学習プログラム、学習方法及び学習装置 |
JP7511382B2 (ja) | 2020-05-11 | 2024-07-05 | キヤノン株式会社 | 情報処理装置とその制御方法、及びプログラム |
CN117082021B (zh) * | 2023-10-12 | 2024-01-02 | 太平金融科技服务(上海)有限公司 | 邮件干预方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001022727A (ja) * | 1999-07-05 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 |
US7565403B2 (en) * | 2000-03-16 | 2009-07-21 | Microsoft Corporation | Use of a bulk-email filter within a system for classifying messages for urgency or importance |
JP3868258B2 (ja) * | 2001-10-24 | 2007-01-17 | 沖電気工業株式会社 | 電子メール配送サーバ |
JP2004326465A (ja) * | 2003-04-24 | 2004-11-18 | Matsushita Electric Ind Co Ltd | 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 |
JP3804017B2 (ja) * | 2003-08-27 | 2006-08-02 | 株式会社ウィザーズ | 電子メールシステム |
-
2007
- 2007-11-07 JP JP2007289915A patent/JP5168620B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009116680A (ja) | 2009-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmad et al. | Fake news detection using machine learning ensemble methods | |
JP5008024B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
Aisopos et al. | Content vs. context for sentiment analysis: a comparative analysis over microblogs | |
EP1613020B1 (en) | Method and system for detecting when an outgoing communication contains certain content | |
US8676730B2 (en) | Sentiment classifiers based on feature extraction | |
Abbasi et al. | Sentiment analysis in multiple languages: Feature selection for opinion classification in web forums | |
US9720904B2 (en) | Generating training data for disambiguation | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP5168620B2 (ja) | データ種類検出装置及びデータ種類検出方法 | |
US11354340B2 (en) | Time-based optimization of answer generation in a question and answer system | |
US7711673B1 (en) | Automatic charset detection using SIM algorithm with charset grouping | |
JP2010056682A (ja) | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ | |
Su et al. | Evidentiality for text trustworthiness detection | |
Tyagi et al. | Sentiment analysis of product reviews using support vector machine learning algorithm | |
Rico-Sulayes | Statistical authorship attribution of Mexican drug traficking online forum posts. | |
Lee et al. | InfoShield: Generalizable information-theoretic human-trafficking detection | |
Zhou et al. | Does fake news in different languages tell the same story? An analysis of multi-level thematic and emotional characteristics of news about COVID-19 | |
El-Halees | Opinion mining from Arabic comparative sentences | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
JP4854019B2 (ja) | 意見収集システム、意見収集方法および意見収集プログラム | |
Xu et al. | Opinion Annotation in On-line Chinese Product Reviews. | |
Vajiac et al. | Deltashield: Information theory for human-trafficking detection | |
Elamine et al. | Hybrid plagiarism detection method for French language | |
Javed et al. | Semantic interpretation of tweets: a contextual knowledge-based approach for tweet analysis | |
Pascucci et al. | Is this hotel review truthful or deceptive? A platform for disinformation detection through computational stylometry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121213 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |