JP5168620B2 - データ種類検出装置及びデータ種類検出方法 - Google Patents

データ種類検出装置及びデータ種類検出方法 Download PDF

Info

Publication number
JP5168620B2
JP5168620B2 JP2007289915A JP2007289915A JP5168620B2 JP 5168620 B2 JP5168620 B2 JP 5168620B2 JP 2007289915 A JP2007289915 A JP 2007289915A JP 2007289915 A JP2007289915 A JP 2007289915A JP 5168620 B2 JP5168620 B2 JP 5168620B2
Authority
JP
Japan
Prior art keywords
data
article
group
data type
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007289915A
Other languages
English (en)
Other versions
JP2009116680A (ja
Inventor
真樹 村田
敏幸 金丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007289915A priority Critical patent/JP5168620B2/ja
Publication of JP2009116680A publication Critical patent/JP2009116680A/ja
Application granted granted Critical
Publication of JP5168620B2 publication Critical patent/JP5168620B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/556Detecting local intrusion or implementing counter-measures involving covert channels, i.e. data leakage between processes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/105Multiple levels of security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータから出力される出力データ、又はコンピュータに入力する入力
データの少なくともいずれかの入出力データのデータ種類を検出する技術に関し、より詳
しくはテキストその他のデータ中に含まれる情報から機密情報か否かなどのデータの種類
を検出する方法に係わるものである。
企業内における文書の電子化が進み、ネットワークを通じて機密情報が漏洩する問題が
相次いでいる。社員が故意にメールに機密情報を記載したり、添付したりして外部に送信
する場合もあるし、ウイルス感染などによって情報が勝手に送信されてしまうこともある

また、機密情報に限らず、社員が業務に関係のない情報を発信したり、掲示板に不正な
書き込みをしたりする場合もあり、企業の管理責任が問われるケースも増えている。
機密情報の場合、社内で扱う全てのデータに機密情報であることが定義されていれば、
メール送信サーバにおいて機密情報の場合に送信を停止する機能が備えればよい。しかし
、すべての情報に機密か否かを定義することは現実には不可能であり、また機密性は時間
の経過や状況によって変化するために、そのような定義が有効かどうかすら疑問がある。
従来から電子メールに特定のキーワードが出現するかどうかを調べ、機密情報を含むこ
とを検出する技術が知られている。例えば特許文献1には、電子メール配送サーバにおい
て、電子メールのヘッダ部分または本文部分の内容に基づいて電子メールに求められる秘
匿性の高さを判定する秘匿性判定手段と、秘匿性判定手段が秘匿性が低いと判定した電子
メールはそのまま配送プロトコルにしたがって配送し、秘匿性が高いと判定した電子メー
ルに関してはその配送を中止する技術が開示されている。そして、中止した場合には電子
メールを電子メール配送サーバが受け取っていることを電子メールの送信先に通知する通
知用電子メールを配送プロトコルにしたがって配送する通知メール配送制御手段と、配送
を中止した電子メールを、送信先からの指示に応じて実行される所定の中止メール処理手
順にしたがって処理する中止メール処理手段とを備えている。
このような従来技術による方法では、全ての疑わしいキーワードを定義しなければなら
ず、日々変わる機密情報を常に設定し続ける必要がある。このための作業は膨大であり、
コスト高につながる。また、キーワードを含むか否かだけで判定すると、機密情報を機密
と分類してしまったり、キーワードをたまたま含まなくても機密の情報は見逃される可能
性が高い。
特許文献2に開示される技術では、ユーザーのネットワーク通信行動を分析する分析装
置が開示されている。本技術によれば、行動分析装置がゲートウェイ装置を介するドメイ
ン内の各ユーザーPCとインターネットとの間の通信を監視する。そして、検出した通信
中に例えばユーザーの情報漏洩の観点で関し項目に該当するものがあれば、その関し項目
に対応する重み値を当該ユーザーの情報漏洩の可能性についての評価値に加算する。そし
て、単位時間ごとにその評価値を集計して記録し、ニューラルネットワークを用いた学習
結果に従って近未来時点でのユーザーの情報漏洩の可能性を予測することが開示されてい
る。
このように、機械学習によって将来のユーザーの情報漏洩を予測することは、ユーザー
が反復して疑いのある行動をとる場合には有効であるが、単発で機密情報を漏洩するよう
な場合には、それを阻止することができない。また、ニューラルネットワークにおいて素
性としてキーワードを含むか否かや、その重み値を用いるだけでは、機械学習による高精
度な判別を行うことは困難である。機械学習方法の選定と共に、いかなる素性を用いるか
によって全く異なる判別結果となることがある。
特許第3868258号 特開2004-147067号
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、コンピュータ
に入出力データについて機密性の有無などのデータ種類を簡便かつ高精度に検出し、デー
タの適正な管理に寄与する技術を提供することを目的とする。
本発明は上記課題の解決のために次のような手段を用いる。
請求項1に記載の発明によれば、コンピュータから出力される出力データ、又はコンピ
ュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出す
るデータ種類検出装置を提供する。
該装置には、入出力データを読み込む入出力データ読み込み手段と、少なくとも該入出力データに含まれる文字列を取得するデータ内容取得手段と、少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出手段を備える。
また、予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果と、該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定手段と、判定されたデータ種類を出力する出力手段とを備える
なお、本発明の文字群とは、1文字以上の任意の文字の集合を示し、例えば単語、節、
句、形態素などを指す総称である。
上記のデータ種類検出装置において、ネットワーク上、又はローカルの記事データベースと、その記事データベースから、前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出する記事データ群抽出手段とを備える。
データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、記事データ群抽出手段が記事データ群を抽出することを特徴とする。
請求項2に記載の発明によれば、上記の記事データ群抽出手段において、記事データベースから入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出すると共に、さらに該記事データ群が前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群と類似する記事か否かの類似判定処理を行い、類似すると判定された記事データ群のみを抽出結果とすることを特徴とする。
請求項3に記載の発明によれば、前記データ種類検出装置において、記事データ群抽出手段が抽出した記事データ群に偏って出現する単語群を抽出し、該記事データ群の中で該単語群を多く含む記事データを抽出する関連データ抽出手段とを備える。
そして、データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出することを特徴とする。
請求項4に記載の発明によれば、コンピュータから出力される出力データ、又はコンピュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出するデータ種類検出方法を提供することができる。
そして、入出力データ読み込み手段が、入出力データを読み込む入出力データ読み込みステップ、データ内容取得手段が、少なくとも該入出力データに含まれる文字列を取得するデータ内容取得ステップ、素性抽出手段が、少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出ステップ、予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果を備えて、データ種類判定手段が、該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定ステップ、出力手段が、判定されたデータ種類を出力する出力ステップを有する。
そして、上記のデータ種類検出方法において、データ種類判定ステップにおいて、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、記事データ群抽出手段が、ネットワーク上、又はローカルの記事データベースから、前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出する記事データ群抽出ステップを実行処理することにより記事データを抽出することを特徴とする。
請求項5に記載の発明によれば、記事データ群抽出ステップにおいて記事データ群抽出手段が、記事データベースから入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出すると共に、さらに該記事データ群が前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群と類似する記事か否かの類似判定処理を行い、類似すると判定された記事データ群のみを抽出結果とすることを特徴とする。
請求項6に記載の発明によれば、データ種類検出方法において、関連データ抽出手段が、前記記事データ群抽出ステップで抽出した記事データ群に偏って出現する単語群を抽出し、該記事データ群の中で該単語群を多く含む記事データを抽出する関連データ抽出ステップを備え、データ種類判定ステップにおいて、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出することを特徴とする。
本発明は、上記構成を備えることにより次のような効果を奏する。
請求項1又は4に記載の発明によれば、検出したいデータ種類に応じて解の分かっている教師データを用いて機械学習結果を作成しておくことで、検出対象の入出力データについて、その履歴等を要さずに高精度な検出が可能となる。また、データ種類は、機密性の有無、高低、私用か否か、不適正性の有無、高低など様々な種類を同時に判定することもできる。
そして、所定のデータ種類であると判定された場合に、内部又は外部にある記事データベースから同じ文字群を含む記事データを抽出することができる。
請求項2又は5に記載の発明によると、類似性を判定してから記事データを抽出することができるので、参考にすべき記事データに絞って表示させることができる。
請求項3又は6に記載の発明によると、記事データ群に偏って出現する単語群を抽出することで、関連する記事データを抽出することができる。これにより、機密情報として検知されたものがすでに外部で公表されてしまっているか否か、などを自動的に収集することができる。逆に、指定された記事データベースに掲載されていた場合には、機密情報ではないとしてそれを教師データとして利用することもできる。
本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定
されるものではない。
まず、本発明の実施態様を概説する。図1は、ある企業における社内LANに含まれる
複数の端末1〜3(PC1〜PC3)から外部のPC(PC5〜PC7)にメールが送信
される様子を示している。
このとき、社内に設置されたメール送信サーバ(PC4)を介してインターネットにメ
ールが送信されるが、本発明ではこのメール送信サーバ(PC4)の外側に設置するデー
タ漏洩検出装置(1)を提供することができる。
このデータ漏洩検出装置(1)は要するにメール送信サーバ(PC4)から出力された
データを入力として、機密情報を含むか、あるいは機密情報の高低などのデータ種類を検
出する装置であって、その結果を出力する。後述するようにメールを中継する機能を他に
備えているが、本発明の要部としては特にデータ種類を検出する機能であるので、次の実
施例1としてまずその詳細を説述する。
なお、以下の説明ではデータ種類としてデータの機密性を取り上げるが、本発明が対象
とするデータ種類はこれに限らず、そのデータが私的な情報であるか否か、公序良俗に反
するような不適切な情報か否か、重要な情報か否か、などいかなるデータ種類でもよい。
また、単にデータの種類の有無だけでなく、その程度毎に分類してもよい。
(実施例1)
本発明に係るデータ漏洩検出装置と処理方法を説明する。
図2は本発明に係るデータ漏洩検出装置(以下、本装置と呼ぶ)(1)の構成図である。本装置における処理のフローチャートを図3に示す。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理や機械学習、テキスト処理などを司るCPU(10)によって本発明の各ステップを実行処理する。CPU(10)は周知のようにメモリ(図示しない)と協働して動作し、キーボードやマウス(11)などの入力手段の他、出力結果を表示するモニタ(12)、ハードディスク等の外部記憶装置(13)などを備えている。
また、インターネット等のネットワークと接続するネットワークアダプタ(14)を備えて入出力データを入力することができる。
そして、CPU(10)には入出力データ読み込み部(101)、データ内容取得部(
102)、素性抽出部(103)、機密性判定部(104)、判定結果出力部(105)
が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(10)及
びそれと連動するハードウェアを動作させて、以下に説述する各部(101)〜(105
)の機能が実現される。
以下、図3に示す処理フローチャートを用いて、本発明の各処理を詳細に説述する。
まず、入出力データ読み込み部(101)が入出力データを読み込む。具体的には、ネ
ットワークアダプタ(14)を介してコンピュータにおいて用いられる入出力データを本
装置(1)内に取り込み、メモリや外部記憶装置に格納する。(入出力データ読み込みス
テップ:S11)
次に、データ内容取得部(102)が、読み込まれた入出力データからデータ内容を取
得する。(データ内容取得ステップ:S12)
例えば読み込まれた入出力データがメールデータであれば、各メール毎に切り分け、さ
らに各メール内のヘッダ部分、本文部分の分離、ヘッダ部分から宛先アドレス、発信者ア
ドレス、件名の抽出、本文部分から本文テキストの抽出、添付ファイルの抽出などを行う
。すなわち、本ステップ(S12)では、生データである入出力データから、そのデータ
に応じて、必要なパート毎に分離したり、次の処理で用いるための整形処理を行うもので
ある。従って、データ内容取得部(102)は公知のテキスト処理方法や、画像処理方法
を適宜用いることができる。いずれも周知技術であるからここでは説明を省略する。
さらに素性抽出部(103)が、データ内容から機械学習の演算に用いる素性を抽出す
る。(素性抽出ステップ:S13)
素性については後述の機械学習処理の詳細において説明するが、例えば形態素解析によ
りデータ内容のテキストを形態素に分割し、所定の素性を抽出する。この素性抽出は、機
械学習の際にも同様の処理を行っている。
機密性判定部(104)は予め用意されている外部記憶装置(13)の機密性学習結果
(131)を用い、上記素性抽出部(103)で抽出された素性を入力として機密性判定
処理(S14)を実行する。機密性学習結果(131)は用いる機械学習モデルによって
データ形式は異なるが、例えば学習過程で動的に変化したパラメータの集合である。
最後に、判定結果として機械学習モデルで算出された結果を判定結果出力部(105)
から出力(S15)する。ここで、判定結果としては分類問題の解として得られた機密情
報か否かでもよいし、あるいは機密情報である確率でもよい。また、機密度を例えば5段
階に分けてそのレベルでもよい。
出力方法としては、モニタ(12)において表示してもよいし、外部記憶装置(13)
にログとして記録するだけでもよい。ログを定期的に、所定の管理者に送信するようにし
てもよい。
次に、本発明の実施において用いることのできる機械学習方法について説明する。
本実施例における機密性判定部(104)のさらに詳細な構成を図4に示す。ここでは
教師データ入力部(1041)、解−素性対抽出部(1042)、機械学習処理部(1043)、判定
部(1044)がそれぞれ設けられる。
機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推
定過程とが一体的に成り立つものである。本発明の実施において、学習過程は必ずしも必
須ではなく外部記憶装置(13)には機械学習の結果形成された機密性学習結果(131
)を備えておくだけでもよい。その場合には、機密性判定部(104)に必要なのは各機
械学習手法に従って順序を判定する判定部(1044)だけである。
機械学習の手法は、様々なものが公知であるが、ここでは各手法を簡単に説明する。問
題-解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう
解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるよう
にする方法である(例えば、下記の非特許文献1〜非特許文献3参照)。
村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講 演.2004.http://www2.nict.go.jp/x/x161/member/murata/ps/kougi-ml-siryou-new2.pdf サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年. SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会NLC2001-40 ,2001年.
どういう問題のときに、という問題の状況を機械に伝える際に、素性(解析に用いる情
報で問題を構成する各要素)が必要になる。問題を素性によって表現するのである。例え
ば、日本語文末表現の時制の推定の問題において、
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「
。」となる。
すなわち、機械学習の手法は、素性の集合-解の組のセットを多く用意し、それで学習
を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利
用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を
推測する方法である。
機械学習処理は、図23のように分散したテキストデータをどのように分類するのか、
その分類結果(解)を得る。本発明では、入出力データに分散するテキストデータ中の形
態素を素性とすれば、それらからデータ種類の分類を行うことになる。すなわち、分類先
が判定するデータ種類である。
機械学習処理部(1043)における機械学習の手法として、例えば、k近傍法、シンプル
ベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を
用いる。
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、
このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定
める整数の数字であって、一般的に、1から9の間の奇数を用いる。
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率
値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の数1で与えられる
Figure 0005168620


Figure 0005168620
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合であ
る。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算
しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定さ
れた確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi
|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数2の値が
ゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。
ここでは、以下の数3を用いてスームージングを行ったものを用いる。
Figure 0005168620


ただし、freq(fi,a)は、素性fiを持ちかつ分類がaである事例の個数、freq(a)は、分類
がaである事例の個数を意味する。
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序
でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の
高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をそ
の入力の分類先とする方法である。
決定リスト方法では、あらかじめ設定しておいた素性fj( ∈F,1≦j≦k)のうち、いずれ
か一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確
率は以下の数4によって与えられる。
(数4)
p(a|b)=p(a|fmax )

ただし、fmax は以下の数5によって与えられる。
Figure 0005168620


また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出
現の割合である。
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとする
とき、以下所定の条件式(数6)を満足しながらエントロピーを意味する数7を最大にす
るときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、
最も大きい確率値を持つ分類を求める分類先とする方法である。
Figure 0005168620



Figure 0005168620


ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fj があって、なお
かつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここで
Pはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
数6は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組
の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の
求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最
大化(確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている
。最大エントロピー法の詳細については、以下の非特許文献4に記載されている。
Eric Sven Ristad, Maximum EntropyModelingfor Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からな
るデータを分類する手法である。図24にサポートベクトルマシン法のマージン最大化の
概念を示す。図24において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する
超平面を意味し、破線はマージン領域の境界を表す面を意味する。図24(A)は、正例
と負例の間隔が狭い場合(スモールマージン)の概念図、図24(B)は、正例と負例の間
隔が広い場合(ラージマージン)の概念図である。
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と
負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低
いと考えられ、図24(B)に示すように、このマージンを最大にする超平面を求めそれ
を用いて分類を行なう。
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少
数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張
(カーネル関数の導入) がなされたものが用いられる。
この拡張された方法は、以下の識別関数(数8)を用いて分類することと等価であり、
その識別関数の出力値が正か負かによって二つの分類を判別することができる。
Figure 0005168620


ただし、xは識別したい事例の文脈(素性の集合) を、xiとyj(i=1,...,l,yj∈{1,-1})
は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αiは数10と数11の制約のもと数9を最大にする場合のものである
Figure 0005168620



Figure 0005168620



Figure 0005168620


また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の
多項式のものを用いる。
(数12)
K(x,y)=(x・y+1)d

C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した
。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトル
と呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つま
り、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられ
ない。
なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献5お
よび非特許文献6に記載されている。
Nello Cristianini and JohnShawe-Taylor, AnIntroduction to Support Vector Machines and otherkernel-based learningmethods,(Cambridge University Press,2000) Taku Kudoh, Tinysvm:SupportVectormachines,(http://chasen.org/~taku/software/TinySVM/,2002年)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって
、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレ
スト法などの手法を組み合わせて用いることになる。
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペ
ア(n(n-1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポート
ベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類
先の多数決によって、分類先を求める方法である。
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその
他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組につい
てサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において
、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、
その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポ
ートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトル
マシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例え
ば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシ
ンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。
以上のような機械学習処理方法の機械学習モデルを備えて本発明は高精度なデータ種類
の検出、すなわち機密情報か否かを分類するものである。機械学習モデルの結果としては
、機密性1〜5(1が最も機密)の5段階に分類する、あるいは機密データである確率を
求めることができる。
このような言語処理における機械学習モデルとしては、サポートベクトルマシンや最大
エントロピー法による分類成果が比較的良いことが知られており、本発明でも機械学習モ
デルにサポートベクトルマシン、あるいは最大エントロピー法を用いても良い。
図5に示すように作成された機密性学習結果(131)を用いて判定部(1044)の
演算処理により分類先の例えば確度が算出される。(S141)
その場合、いずれか1つの判定結果を出力するために外部記憶装置(13)に定義して
おく所定閾値(132)を参照して判定部(1044)が閾値比較処理(S142)を行
い、閾値を超えた最大の分類先を判定結果として出力する。
次に、学習の過程について図6を用いてさらに詳述する。
学習の際には教師データ入力部(1041)が予め用意してある教師データを入力する。教
師データは、外部記憶装置等に格納しておけばよい。教師データには、予めデータ種類の
分かっているテキストが含まれており、解として機密性1〜5とする。解の定め方は機械
学習方法や必要となる結果に応じて適宜設計することができる。
その上で、上記した機械学習方法のいずれかによって解の求め方は次のように異なる。
例えば、本発明の実施の形態において、機械学習の手法としてk近傍法を用いる場合、
教師データ入力部(1041)で入力した教師データから解−素性対抽出部(1042)で素性を抽
出(S21)する。機械学習処理部(1043)が抽出された素性の集合のうち重複する素性
の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義(S2
2)して、前記定義した類似度と事例とを学習結果情報として機密性学習結果(131)
に記憶(S23)しておく。
そして、判定部(1044)は、入出力データから素性抽出部(103)が抽出したデータ
について、機密性学習結果(131)において定義されたデータ種類の確率と、素性とを
参照して、そのデータが正解である可能性が高い順にk個の素性を機密性学習結果(13
1)の事例から選択し、選択したk個の素性での多数決によって最も確からしい機密性の
値を解として推定する。
すなわち、判定部(1044)では、抽出された各データに対して、どのような解(分類先)
になりやすいかの度合いを、選択したk個の素性での多数決の票数、ここではある機密性
の値という分類が獲得した票数とする。
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習処理部(10
43)が機械学習処理(S22)として、教師データの事例について、前記事例の解と素性
の集合との組を学習結果情報として機密性学習結果(131)に記憶する。
そして、判定部(1044)は、データ内容取得部(102)がデータ内容を取得(S12
)したときに、機密性学習結果(131)の学習結果情報の解と素性の集合との組をもと
に、ベイズの定理にもとづいて素性抽出部(103)で取得した素性の集合について、機
密性の値に係わる各分類になる確率を算出して、その確率の値が最も大きい分類を、その
データについての素性の分類(解)と推定する。
すなわち、判定部(1044)では、抽出されたデータについての素性の集合の場合にある
解となりやすさの度合いを、各分類になる確率、ここでは各機密性の値という分類になる
確率とする。
機械学習手法として決定リスト法を用いる場合には、機械学習処理部(1043)が機械学
習処理(S22)として、教師データの事例について、素性と分類先との規則を所定の優
先順序で並べたリストを機密性学習結果(131)に記憶する。そして、データ内容取得
部(102)がデータ内容を取得(S12)したときに、判定部(1044)は、機密性学習
結果(131)のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の
素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。
すなわち、判定部(1044)では、抽出されたデータについてその素性の集合の場合にあ
る解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここで
は各機密性の値という分類になる確率のリストにおける優先順位とする。
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習処理部(
1043)は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつ
エントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる
確率分布を求めて機密性学習結果(131)に記憶する。そして、データ内容取得部(1
02)がデータ内容を取得(S12)したときに、判定部(1044)は、機密性学習結果(
131)の確率分布を利用して、抽出されたファイルについてその素性の集合についてそ
の解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し
、その特定した分類をその候補の解と推定する。すなわち、判定部(1044)では、抽出さ
れたデータについてその素性の集合の場合にある解となりやすさの度合いを、各分類にな
る確率、ここでは各機密性の値という分類になる確率とする。
機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習処理部(
1043)は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割し
て、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空
間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超
平面を求めて機密性学習結果(131)に記憶する。
そしてデータ内容取得部(102)がデータ内容を取得(S12)したときに、判定部
(1044)は、機密性学習結果(131)の超平面を利用して、抽出されたデータについて
の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定
し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。
すなわち、判定部(1044)では、抽出されたデータについてその素性の集合の場合にあ
る解となりやすさの度合いを、分離平面からの正例(出現順が正しいデータ)の空間への距
離の大きさとする。より詳しくは、機密情報である場合を正例、機密情報でない場合を負
例とする場合に、分離平面に対して正例側の空間に位置するデータが機密情報と判断され
、その事例の分離平面からの距離をそのデータが機密情報である度合いとする。
さらに、本発明では機械学習の手法として、公知のニューラルネットワークによる方法
、重回帰分析による方法を用いることもできる。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析
をコンピュータ上で実行する方法については、非特許文献7に詳しい。
「Excelで学ぶ時系列分析と予測」3章,オーム社
重回帰分析の場合は、素性の数だけ説明変数xを用意し、素性のありなしを、その説明
変数xの値を1,0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分
類の場合を値0として求めればよい。
以上に説述した通り、本発明は公知の任意の機械学習手法を備えた機械学習モジュール
を用いることで、機密性学習結果(131)を生成した上で、判定部(1044)が、データ
の種類を的確に判定する。
本発明では、素性として人名、組織名、技術名、機密情報を示す機密性単語、該機密性
単語の関連単語、送信者、送信先アドレスの一部又は全部を用いることができる。
人名を素性に用いる場合とは、予め人名を示す姓名の情報を格納しておき、これらがデ
ータ内容に含まれるか否かを素性として用いる。一般的に大量の人名を外部記憶装置(1
3)に格納しておいて、人名を多く含むテキストは名簿などの機密情報であると判定する
ようにしてもよいし、例えば機密性の高い業務を行っている人名を素性として、その人物
らに関する情報を機密情報と判定するようにしてもよい。
組織名を素性に用いる場合も同様に、会社名を多く含むものを機密情報と判定すること
や、あるいは特定の会社名、あるいはグループ名などを含むときに機密情報と判定するこ
とに寄与することができる。
技術名は、当該会社における全製品名としてもよいし、例えば新製品の名称やプロジェ
クト名など、企業内の機密性の高い情報に限定して素性としてもよい。
機密性単語は「部外秘」「極秘」といった機密情報を示す語句であり、これらが含まれ
るものは機密情報と判定されやすくなるはずである。逆に「プレスリリース」「記者発表
」など機密情報ではないことを示す単語も本発明では機密性単語である。
これらに関連する単語とは、後述するように「極秘」と書かれたテキスト中で特に偏っ
て出現する単語である。すなわち、他の記事データベース中で「極秘」と「製品Aの名称
」が特に出現するとすれば、製品Aの名称が関連単語である。このような関連単語が出現
した場合には、「極秘」と書いていなくても機密情報である可能性が高い。
送信者の名前、アドレスや送信先の名前、アドレスなども素性とすると良い。送信者は
その地位によって機密情報を発信しうるか否かがことなる。また、管理者などが送信者で
ある場合には、機密情報であっても機密情報であることを検出しなくてよい場合がある。
送信先は特に重要であり、例えば競合企業のドメインの場合には、機密情報と検出され
る可能性を高めることができる。
(1)固有表現抽出のために機械学習を用いる手法
上記のような素性を抽出する際に、予め人手により定義しなくても次のような固有表現
の抽出技術を用いることで、自動的に抽出処理を行うことができる。
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献8参照)。
浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002年
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割し
た文字について、以下のように、 B-LOCATION、 I-LOCATION等の正解タグを付与すること
によって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タ
グは二列目である。

日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
福 B-PERSON
田 I-PERSON
さ O
ん O
で O
す O
。 O

上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグであ
る。例えば、 B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは
、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表
現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、
文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地
名という固有表現である。
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデー
タでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固
有表現かを認識して、固有表現を推定する。
この各文字に設定された正解のデータから学習するときには、システムによってさまざ
まな情報を素性という形で利用する。例えば、
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先
頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる
。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力す
ると以下の結果を得る。
学校 ガッコウ 学校 名詞-一般
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与
される。
なお、例えば、上記の非特許文献8では、素性として、入力文を構成する文字の、文字
自体(例えば、「福」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タ
グ情報(例えば、「B-PERSON」等)を利用している。
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性
が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを
学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、
例えばサポートベクトルマシンを用いる。
固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピー
モデルと書き換え規則を用いて固有表現を抽出する手法がある(非特許文献9参照)。
内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000年
また、例えば、以下の非特許文献10に、サポートベクトルマシンを用いて日本語固有
表現抽出を行う手法について記載されている。
山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌,Vol.43,No.1", 2002年
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
以上の方法によって固有表現を抽出し、抽出された表現のうち、例えば人名や企業名な
どを解−素性対抽出部(1042)において抽出することができる。
(実施例2)
本発明は、ユーザーが通常時にデータの種類(機密性)を与えた時に、その情報を教師データ(130)として用いることもできる
すなわち、図7に示すように、機密性を定義済みの入出力データを入出力データ読み込みステップ(S11)で読み込むと、一点鎖線で示すように、データ内容取得(S12)の後、機密性の情報(131a)とデータ内容(131b)とを分離(S31)する。
この結果を教師データとして、解−素性対抽出部(1042)で素性を抽出(S21)して機
械学習処理(S22)に進む。
本発明ではこのように機密性が定義済みの入出力データを機械学習に用いることで、別
に教師データを与えたり、定期的に学習をさせる必要が無く、日々の使用によって高精度
なデータ種類の判定を行うことができるようになる。
メールを対象とする場合に、機密性の情報と、発信元のアドレス、送信先のアドレスを
素性として、機密性の判定結果が発信元や送信先に応じても異なるように学習させてもよ
い。機密性の情報(131a)と送信先のアドレスから、問題がない場合には機密情報と
のデータ種類の判定を行わない。このように機密性を相対的に決められる情報として処理
してもよい。
(実施例3)
本発明では、判定結果の出力に合わせて、その時の入出力データに関連する関連データを抽出する。従来、機密性が高いと判定されても、その情報が外部でどのように扱われているのか自動的に知ることはできなかった。
そこで、本発明では、図8に示すように外部記憶装置(13)に記事データベース(132)を格納すると共に、CPU(10)には記事データ群抽出部(106)と関連データ抽出部(107)を備えた。記事データベース(132)には例えば新聞記事の電子データを用いることもできる。
図9に示すように、機密性判定ステップ(S14)において機密情報であると判定、あ
るいは機密性が高い情報と判定された場合に、記事データ群抽出部(106)が記事デー
タベース(132)から、入出力データに含まれる文字列や文字群を含む記事データ群を
抽出する。(記事データ群抽出ステップ:S41)
本処理は、公知のテキスト検索技術によって容易に実現可能である。また、記事データ
ベース(132)は外部記憶装置(13)に限らず、インターネットなどのネットワーク
上に分散的に存在するいかなるデータでもよい。
本発明ではこのように関連する記事データ群抽出部(106)により記事データ群を抽
出するようにしてもよい。ここで、記事データ群を抽出する技術を次に詳述する。
図10は、本技術に係わる構成であり、本装置(1)の記事データ群抽出部(106)
の中に、機密性判定部(104)で機密性があると判定されたデータと類似する情報が、
記事データベース(132)に存在するか否かを判定する類似判定部(114)を設ける
記事データベース(132)には表1に示すように類似情報となりうるサーバ装置の名
称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともい
ずれかが格納されている。

Figure 0005168620

本実施例では記事データ群抽出ステップ(S41)において、類似判定部(114)が
類似判定工程を実行処理する。記事データベース(132)に含まれるファイル情報や、
ドメイン名、サイト名などに従って、類似判定部(114)が各情報源からデータを取得
すると共に、その中に収集されたデータと話題が共通の情報が含まれているか否かを判定
していく。
ここで、類似判定を行う方法としては、次のような類似文書の検索技術を用いることが
できる。
まず、データ収集の後、収集されたデータ形態素解析を行ってからそれによって得られ
た該データを構成する単語群A(本発明において、単語群は単数又は複数の単語を言う。
)を、多く含む類似情報データの抽出方法を説明する。
(1) 基本的な方法 (TF・IDF 法) の説明
(数13)
score(D) = Σ ( tf(w,D) * log(N/df(w)))
w ∈W で加算
Wはキーワードの集合、tf(w,D)は収集されたデータでのwの出現回数、df(w)は全文書でW
が出現した文書の数、Nは文書の総数
数13に示す式において、score(D) が高い文書データを類似した類似情報データとし
て出力する。
(2)Robertson らのOkapi weightingの説明
本方法は、非特許文献11に記載されている。
村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均"位置情報と分野情報を用いた情報検索"自然言語処理(言語処理学会誌) 2000年 4月,7巻,2 号, p.141 〜 p.160 該非特許文献11における数14が性能がよいことが知られている。 そして、Σで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。
Okapi の式なら
(数14)
score(D) = Σ ( tf(w,D)/(tf(w,D) +length/delta) * log(N/df(w)))
w ∈W で加算

lengthはデータDの長さ、deltaはデータの長さの平均、データの長さは、データのバ
イト数、また、データに含まれる単語数などを使う。
さらに、以下の情報検索を行うこともできる。
(Okapi の参考文献)
非特許文献12,13に開示されるようなOkapiの式、SMARTの式を用いることもできる
。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらのOkapiのS
MARTの式を用いてもよい。
S. E. Robertson, S. Walker, S.Jones, M. M.Hancock-Beaulieu, and M. GatfordOkapi at TREC-3, TREC-3, 1994年 Amit Singhal AT&T at TREC-6,TREC-6,1997 年
これらの方法では、tf・idf だけでなく、記事の長さなども利用して、より高精度な情
報検索を行うことができる。
今回の、単語群Aをより多く含む記事の抽出方法では、さらに、Rocchio'sformula (非
特許文献14)を使うことができる。
J. J. Rocchio,Relevance feedbackininformation retrieval,The SMART retrieval System, Edited by G.Salton,PrenticeHall, Inc.,page 313-323, 1971年
この方法は、log(N/df(w))のかわりに、
(数15)
{E(t)+ k_af * (RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
E(t) = 1 (元の検索にあったキーワード)
= 0 (それ以外)
RatioC(t) はデータ群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語
群Aをより多く含む記事として取り出すものである。
score(D)のΣの加算の際に足す単語wの集合Wは、元のキーワードと、単語群Aの両方とす
る。ただし、元のキーワードと、単語群Aは重ならないようにする。
また、他の方法として、score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Aの
みとする。ただし、元のキーワードと、単語群Aは重ならないようにする。
ここでは roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の
和が大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよいし、
また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む記事として取り
出すようにしてもよい。
以上の方法により、記事データ群抽出部(106)が単語群Aを含む記事を取り出すこ
とができる。
次に、記事データ群抽出ステップ(S41)における別な手法として、収集されたデー
タ群Bの類似記事を抽出する方法を説明する。
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい
。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyと
するとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。
各単語を次元と、各単語のスコアを要素とするベクトルを作成し、記事xのベクトルを
記事xに含まれる単語を使ってベクトル(vector_x)にし、また、記事yのベクトルを記事y
に含まれる単語を使ってベクトル(vector_y)にし、それらベクトルの余弦(cos(vector _x
,vector_y)) の値を記事の類似度としてもよい。各単語のスコアの算出には、tf・idf や
okapiやsmart を用いるとよい。
それらの式のΣの後ろの部分の式がスコアの算出の式となる。その式の値が各単語のス
コアとなる。
tf・idf だと tf(w,D) * log(N/df(w))
okapi だとtf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))
がその式となる。
また、単語群Aをより多く含む記事の抽出においてもこのベクトルの余弦(cos(vector_
x,vector_y)) の値を求め、この値が大きい記事ほど単語群Aをより多く含む記事と判断
してもよい。この場合は、単語群Aに含まれる単語を使ってベクトル(vector_x)にし、記
事に含まれる単語を使ってベクトル(vector _y)にして求める。
データ群Bと記事情報データxの類似度には、次の方法などがある。
(1)データ群Bのうち記事情報データxと最も類似するデータと、記事情報データxの
類似度をその類似度とする方法
(2)データ群Bのうち記事情報データxと最も類似しない記事と、記事情報データxの
類似度をその類似度とする方法
(3)データ群Bのすべての記事と記事情報データxの類似度の平均をその類似度とする
方法
他の方法でもよいが、このようにして、データ群Bと記事情報データxの類似度を求め
て、その類似度が大きいものを類似記事として取り出すことができる。
なお、他の方法としては、データ群Bに偏って出現する単語を先の方法で取り出し、そ
して、その単語も利用して、Rocchio's formula に基づく Score(D) を計算し、Score(D)
の大きいものを類似データとして取り出してもよい。
この方法により、類似する記事を取り出すことができ、本発明ではこれを記事データ群
として抽出してもよい。
なお、上述した単語群Aを含む記事を抽出による方法と、ここで説明した類似記事を取
り出す方法とを両方実行してそれぞれ記事を抽出してもよい。
(類似する記事データ群が抽出された場合にそれを素性として用いる構成)
上記技術と関連して、図11のようにデータ内容取得部(102)で取得したデータに
類似するデータが記事データベース(132)に含まれるかを判定し、その結果を機密性
判定ステップ(S14)に素性として入力することもできる。素性として用いることで、
例えばプレスリリースのような記事に含まれている場合には、かつては機密情報であった
としても、現在では公開された情報であることが機密性判定ステップ(S14)において
判定できるようになる。
類似度が数値で算出される場合には、その類似度をp倍(p<1)した値よりも大きい類似度
の文書が記事データベース(132)にある場合、当該収集データは根拠のあるものとす
る。
ここで、単語群Aを含む記事を抽出による方法の場合には、正規化が必要になる。正規
化としては、入力のキーワード群とまったく同じキーワード群の文書があると仮定し、そ
の文書のスコアを算出する。そしてそのスコアで、類似度を割ることにより、正規化した
類似度を算出することができる。なお、正規化の方法は任意である。
また、非特許文献15に開示される言い換え技術を用いて、類似判定を行うこともでき
る。本方法では、まず同義語の言い換えの変形規則をたくさん用意し、これを用いて文章
の言い換えを行う。類似度の大きくなる言い換えを行っていき、最も類似度の高くなった
文同士で類似度を求める。類似度は、例えばある文章に含まれる複数のキーワードとその
周辺に出現するパターンが、他方の文章でどれだけ抽出されるか、その総数をスコアとし
て算出することができるが、これに限らず周知の方法によって類似度は算出することがで
きる。
この言い換えは、類似度を求める両方の文を言い換えても良い。
このように言い換えを行ってから類似度を求める方が、文同士が似た状態になるため、
より正確に文同士の類似度を算出することができる。
村田真樹,井佐原 均、「言い換えの統一的モデル -尺度に基づく変形の利用」、自然言語処理、11巻,5号,p.113-133,言語処理学会、2004年 10月
(関連情報の抽出に機械学習を用いる方法)
上記において記事データ群の抽出はCPU(10)の記事データ群抽出部(106)が
、類似情報と判定された収集データについて、その著作者、コンテンツ、格納されるサー
バ装置の名称若しくはネットワークアドレス、ファイル情報などに基づいて記事データ群
を抽出する構成である。
本発明では、さらに記事データ群の抽出自体に機械学習モデルを用いて抽出の妥当性を
判断することもできる。
CPU(10)には上記の記事の類似度を算出する手法を備えた類似度算出部(図示し
ない)と、機械学習モデルにより記事データ群としての妥当性を評価する記事データ群評
価部(図示しない)とを設ける。
そして予め記事データ群評価部に含む機械学習モジュールでは次のようにして機械学習
を行い、その結果を機械学習結果データとしてハードディスクに格納しておく。
機械学習のために、データ内容取得部(102)で収集された取得データと、記事デー
タ群抽出部(106)で収集された記事データ群を大量に用意し、これを機械学習モジュ
ールに入力する学習用の入力データとする。
記事データ群が本当に記事データ群として妥当か否かを人手によって判定し、その結果
を学習用の出力データとする。
同時に、類似度算出部において、学習用取得データ及び該学習用記事データ群の類似度
を算出する。この類似度の算出方法は上記の通りであり、類似度として類似する、しない
の2値の結果でもよいし、類似の度合いを示す数値でもよい。
そして、機械学習における素性として、入力データの取得データを構成する単語列と、
記事データ群を構成する単語列と共に、類似度とを用いる。
このような記事データ群評価部を備え、記事データベース(132)から抽出される記
事データ群と、機密性ありと判定されたデータとを入力して該記事データ群が抽出する対
象として妥当か否かを判定する。判定結果に応じて記事データ抽出部(106)が出力す
る。
機械学習モジュールにおける機械学習の方法は上述した様々な方法のいずれかを用いる
ことができ、このときの判定結果は、「妥当である」「妥当でない」と出力される場合と
、妥当である確率が出力される場合がある。前者の場合には「妥当である」記事データ群
を出力すればよく、後者の場合には所定の閾値を超える確率の場合に出力すればよい。
(記事データ群を類似度により抽出する方法)
本発明の記事データ群抽出部(106)において次のように抽出処理を行うこともでき
る。
すなわち、CPU(10)に図示しない類似度算出部を備え、該類似度算出部では上述
した通りの記事の類似度の算出処理を行う。
そして、機密性判定部(104)で機密性ありと判定されたデータと、ネットワーク上
又はハードディスクの記事データベース(132)から抽出する記事の類似度を算出する
類似度算出部で算出された類似度に応じて、例えば類似度が所定の閾値を超えたものに
ついて記事データ群として抽出することができる。
(言い換えを行った上で、類似度により抽出する方法)
本発明ではさらに、CPU(10)に上記言い換えの技術を備えた単語列置換部(図示
しない)と上記類似度算出部を設けて、該単語列置換部において記事データベース(13
2)等から抽出された記事に含まれる単語列を順次置換しながら、機密性ありと判定され
たデータとの類似度を類似度算出部で算出する。そして、常に類似度が高まるように単語
列を置換していき、もっとも類似度が高くなるときの類似度が所定の閾値を超えたときに
記事データ群として抽出することもできる。
本発明では、記事データ群抽出部(106)における出力処理についても、次のような
技術を提供することができる。
その1つは、クラスタリング処理により、機密性判定部(104)で機密性ありと判定
された複数の情報について、関連する記事データ同士をまとめて出力することである。
本発明では、CPU(10)における記事データ群抽出部(106)が、クラスタリン
グ処理手段としても作用し、以下の処理を行うことができる。
(A)クラスタリングの説明
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。
(階層クラスタリング(ボトムアップクラスタリング)の説明)
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士
も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターB
の成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均を
そのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスター
の位置とし、その位置同士の距離の平均をその距離とする方法
・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
(数16)
W = Σ Σ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。
一つ目の
Σは i=1からi=g までの加算
二つ目の
Σは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値が な
るべく大きくならないようにクラスター同士をくっつけていく。
成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単
語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log
(N/df(w))) 、その単語のOkapiの式 (すなわち、tf(w,D)/(tf(w,D)+length/delta)*log(
N/df(w))) としたベクトルを作成し、それをその成員の位置とする。
(トップダウンクラスタリング(非階層クラスタリング)の説明)
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムの説明)
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラ
スターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距
離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返
す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラス
ター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの
良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各
成員は、最も近いクラスター中心の成員となる。
(K平均法の説明)
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選
ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。ク
ラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラ
スター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの
中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返し
をやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター
中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター
中心の成員となる。
(単語群によるクラスタリングの説明)
クラスタリングに類似する文書分類の方法として、あらかじめ分類先毎に単数又は複数
の単語群を定義しておき、入力された情報に該単語群が含まれるか否かにより分類先に分
類する方法がある。該文書分類方法についても本発明ではクラスタリングに含まれる。
入力された情報の中で複数の分類先の単語群が含まれる場合には、含まれる数が多い単
語群の分類先に分類してもよいし、各単語群に重みの値をつけておき、その重みが大きい
単語群の分類先に分類するようにしてもよい。
このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にも様
々な方法が公知であるので、それらを利用してもよい。
記事データは、類似の情報が複数抽出されることが多く、複数の記事データがランダム
に出力されてしまうと、どの記事データが本当に必要なのかが分かりにくい問題がある。
本発明において記事データ群抽出部(106)でクラスタリング処理をすることにより
、モニタ(12)などで類似の記事データごとに表示させることができるので、機密と判
定されたデータと関係のない情報が集中している場合なども迅速的確に把握可能である。
本発明では、出力ステップ(S15)でモニタ(12)から出力する際の表示態様を次
のように変化させることもできる。
すなわち、記事データ群抽出部(106)は、機密性ありと判定されたデータの、日次
、週次、月次ごとに判定件数をカウントして、判定件数データを作成する。例えば、図1
5に示すような週次発表データが作成される。
図12に示す週次発表データは、例えば、上記でクラスタリング処理された機密情報1
については、第3週次に1件、第4週次に5件、第6週次に10件、第7週次に1件の判定件
数があり、機密情報2については、第1週次に5件、第2週次に3件、第3週次に10件、第8週
次に1件の文書発表があり、機密情報3については、第4週次に2件、第7週次に4件、第8週
次に12件、第9週次に5件、第10週次に13件の判定件数があることを示している。
記事データ群抽出部(106)は、上記定期発表データを等高線データに変換し、変換
後の等高線データを表示データとする構成をとることもできる。図13のように、発表件
数を等高線で表し、高さに応じて色を濃く表示することができる。
モニタ(12)で、記事データ群抽出部(106)によって作成された表示データを画
面表示する。モニタ(12)は、例えば図13に示すように、各機密情報の各週次におけ
る文書の発表件数のデータが等高線表示される画面を表示する。発表件数の度合いによっ
て等高線の表示色が異なっている。例えば、8〜10件の発表件数に対応する等高線の表
示色は一番濃い色で表示される。
図13の表示順序は、各文書発表の件数において、週次の平均値と最頻値と中央値を求
め、その平均値の小さい順に表示している。このように並べることで早い時期に発表が集
中している分類から表示することができるので、機密情報や類似情報がどのように発表さ
れていったのか、視覚的に認識することができる。
なお、並べ順は平均値、最頻値、中央値のいずれかによって並べてもよいし、それらを
用いた計算方法も任意である。
等高線のグラフ表示においては、複数の折れ線グラフを使った表示や、各分類毎に1つ
の折れ線グラフを使った表示を行ってもよい。
なお、モニタ(12)は、例えば、図14に示すように、各機密情報の各週次における
データ判定件数をバブルチャートとして画面表示する構成を採ることもできる。
バブルチャートとは、一般に、ある事象を示す(円)を2つの軸を持つ図上に配置した図
のことを言う。図17に示すバブルチャートでは、円の大きさが判定件数の度合いを示し
ている。
(実施例4)
本発明は、上記のように記事データ群を抽出するだけでなく、さらに関連データ抽出部(107)が、抽出した記事データ群に偏って出現する単語群を抽出し、記事データ群の中でその単語群を多く含む記事データを抽出するように構成してもよい。(関連データ抽出ステップ:S42)
抽出された結果は、機密性の値と共に、出力(S15)される。
以下に、関連データ抽出部(107)における処理の詳細(第1の方法)を説明する。
例えば、「コンピュータ」を含む記事群に偏って出現する単語群Aを、抽出するもので
ある。記事群Bを包含する、より大きい記事群をCとする。ここで記事群Cは記事データ
ベース全体でもいいし、一部でもよい。Cは記事データ群抽出ステップ(S41)で抽出
された記事群である。
ただし、他の方法として抽出された記事群の中で、「コンピュータ」を含む記事群に偏
って出現する単語群Aを取り出すのではなく、データベース全体の記事群の中で、「コン
ピュータ」を含む記事群に偏って出現する単語群Aを取り出し、その取り出した単語群A
を利用して処理してもよい。その場合はCは記事データベース全体となる。
まず、関連データ抽出部(107)はC中のAの出現率とB中のAの出現率を求める。

C中のAの出現率=C中のAの出現回数/C中の単語総数
B中のAの出現率=B中のAの出現回数/B中の単語総数

次に、B中のAの出現率/C中のAの出現率
を求めてこの値が大きいものほど、記事群Bに偏って出現する単語とする。
この単語は入出力データに含まれる機密情報の関連単語であり、出力ステップ(S15
)から直接出力してもよいし、あるはこの関連単語をインターネット上の検索エンジンに
入力して関連したサイト上の情報を出力するようにしてもよい。
関連データ抽出部(107)における処理の詳細(第2の方法)を説明する。
(有意差検定を利用する説明)
・二項検定の場合の説明
AのCの出現数をNとする。AのBでの出現数をN1とする。
N2=N-N1とする。
AがCに現れたときにそれがB中に現れる確率を0.5と仮定して、Nの総出現のうち、
N2回以下、AがCに出現してBに出現しなかった確率を求める。
この確率は、
P1 = Σ C(N1+N2,x) * 0.5 ^(x) * 0.5^(N1+N2-x)
(ただし、Σは、x = 0 から x = N2 の和)
(ただし、C(A,B)は、A個の異なったものからB個のものを取り出す場合の数)
(ただし、^は、指数を意味する)
で表され、この確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち
、 N1がN2に比べて有意に大きいことと判断できる。
5%検定なら
P1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大
きいかどうかの判断基準になる。
N1がN2に比べて有意に大きいと判断されたものを記事群Bに偏って出現する単語と
する。また、P1が小さいものほど、記事群Bによく偏って出現する単語とする。
・カイ二乗検定の場合の説明
B中のAの出現回数をN1、B中の単語の総出現数をF1、
CにあってBにない、Aの出現回数をN2、
CにあってBにない、単語の総出現数をF2とする。
N=N1+N2として、
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1)*F2 )^2 )/((F1 + F2)*(N - (F1 +
F2)) * N1 * N2)
を求める。
そして、このカイ二乗値が大きいほどR1とR2は有意差があると言え、カイ二乗値が
3.84 よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が 6.63 よりも大
きいとき危険率1%の有意差があると言える。
N1 > N2 でかつ、カイ二乗値が大きいものほど、記事群Bによく偏って出現する単語と
する。
・比の検定、正確に言うと、比率の差の検定の説明
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = | p1 - p2| / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、(ただし sqrt はルートを意味する) そして、Zが大きいほど、R1とR2は有
意差があると言え、Zが1.96 よりも大きいとき危険率5%の有意差があると言え、Zが 2.
58 よりも大きいとき危険率1%の有意差があると言える。
N1>N2 で、かつZが大きいものほど、記事群Bによく偏って出現する単語とする。
これら三つの検定の方法と、先の単純に、B中のAの出現率/C中のAの出現率を求め
て判定する方法を組み合わせてもよい。
例えば、危険率5%以上有意差があるもののうち、B中のAの出現率/C中のAの出現率
の値が大きいものほど記事群Bによく偏って出現する単語とする。
本実施例において、機械学習を用いた判定の際に、確率が最も高いものや、高い方から
順に所定の個数を取り出すことができる。また、ある閾値を設定して、その閾値以上のも
のを抽出することもできる。所定の閾値以上のもので、かつ確率が高い方から所定の個数
だけを抽出してもよい。このようにデータをどのような基準で抽出するかは本発明におい
て任意である。
閾値や所定の個数は予め本装置に備えて固定してもよいし、ユーザが変更できるように
してもよい。
(実施例5)
本発明では、以上のようにして求めた関連単語を上記したように機械学習における素性
として用いることもできる。
すなわち、図9における関連データ抽出(S42)において関連単語が抽出された場合
、これを素性として追加し、機械学習過程における素性抽出(S21)及び、検出過程に
おける素性抽出(S13)で用いることもできる。
これによって自動的に素性を増やし、検出の高精度化に寄与させることができる。
(実施例6)
以上の各実施例で示したようなコンピュータの入出力データについて機密性を検出するデータ漏洩検出装置(1)に限らず、メール送信装置を提供することもできる。
図15にはメール送信装置(1A)の構成図を示す。なお、本装置(1A)は上記データ漏洩検出装置(1)と多くの構成が共通するため、同一の構成は同符号を付番し、説明は省略する。
本装置(1A)は、メール送信部(108)とメール送信制御部(109)を備えてメ
ール送信を行うことができる。図16に示すように、社内の端末のユーザー(20)が端
末上のメール送信クライアントソフト(一般的なメールソフト)を用いてメールの送信動
作を行う(S51)と、社内のLANを通じて本装置(1A)に入力される。
上記データ漏洩検出処理方法(例えば図3)をすべて実行(S52)し、メールについ
て機密性を判定する。その結果、機密性が所定の閾値以下ならば、メール送信制御部(1
09)が送信を許可し、メール送信部(108)から本来の宛先にメールが送信される。
一方、機密性が高いと判定(S53)された場合には、機密情報として送信を拒絶する
。この場合、送信が拒絶された旨の通知を送信したユーザー(20)にもメール等で通知
(S55)すると共に、情報管理者(21)にも通知(S56)するようにしてもよい。
メール送信制御部(109)は、次のような定義に従ってメール送信を制御してもよい
。すなわち、送信するユーザーの地位や権限に応じて、判定された機密性の値によって送
信の可否を変化させる。例えば、社長がどのようなデータを外部に送信しようとも構わな
い場合には、社長は全レベルの機密情報の送信を許可すると共に、情報管理者への通知も
行わない。社員Cは例えば新入社員であって、会社内からはほとんど機密性のない情報以
外は送信出来ないように設定し、送ろうとした場合、情報管理者にも通知される。このと
き、送れないように制御してもよい。
Figure 0005168620

また、本発明はデータ種類として機密性だけに限らないので、同時に不適正な恐れのあ
る情報を制限するかどうかも定めることができる。情報管理者はいかなる情報でも対応で
きるように不適正情報の送信を可能にする一方で、社員Cにはそれも許可しない。
このように社内の立場によって、メール送信制御部(109)による送信可否の決定に
変化をつけることができる。
送信者自身が、そのメールの機密性のレベルを、そのメール内に記述する際に、送信者
の役職に応じて記述可能な度合いが変わるようにしてもよい。例えば、社長ならすべて可
、社員Cなら、機密性4、5のみ可というように、そもそも送信できないようにする。
そして、実際にそのメールが送信されて、そのメールの機密性を自動化システムが判断
し、送信者の記述した機密性の度合いと、自動化システムの出力が等価なら(または、自
動化システムの出力の方が低い機密性の度合いなら)、送信可とし、送信する。そうでな
い場合には、送信不可として送信を中止する。
具体的には、例えば社員がメールを送信する際に、メールクライアントソフトウェア上
に機密性レベルの設定ボタンを用意し、1〜5のチェックを入れる。そして、例えば社長
であれば1〜5を全て選べる一方、社員Cは4と5とのみが選べる。これによって、社員
Cはそもそも機密性が高い情報として送信することすらできない。
そして、メール送信制御部(109)が、機密性判定部(104)の判定結果と比較し
、設定された機密性レベルが判定結果のレベルと等しいか、低い時(例えば、設定レベル
が4で、判定レベルが5の時は可、設定レベルが5で判定レベルが4の時は不可)のみ、
送信可能に制御する。このような送信条件は予め外部記憶装置(13)に定義しておけば
よい。
送信条件は比較の対象に合わせて任意に定義できる。機密性レベルの場合は数値による
比較が可能であるが、そのほかに種類毎、送信者毎に送信可、不可を定義しておいてもよ
い。
ところで、本発明のデータ種類として、機密性の度合いだけでなく、機密性の種類も同
様に扱うことができる。役職によって、メール内に記述できる機密性の種類を決めておく

そして、送信者自身が機密性の種類をメールに記述する。その上で、本装置(1)が判定
した機密性の種類と照合し、許可されない種類のメールは送信を中止することもできる。
ここで、機密性の種類としては、「個人情報」「社内情報」「知的財産情報」「各部門
固有の情報」等を用いることができる。
(実施例7)
メール送信装置(1A)において、メール送信を拒絶するだけでなく、機密度の情報を
付加して送信する構成でもよい。
図17は本装置(1A)に機密度情報付加送信部(110)を設けた構成であり、処理
のフローチャートを図18に示す。本装置(1A)では、通常のメール送信部(108)
による送信サーバとしての機能に加えて、機密情報をデータ内容に付加(S57)する。
このとき、メールの題名又は本文の任意の位置に[機密情報]などのように付加すること
ができる。
そして、これを相手先に送信(S58)することで、受取側に対してメールの転送の可
否や管理について注意を促すことができる。
また、機密情報と判定されたメールが送信された場合に、情報管理者(21)に通知(
S59)されるようにしてもよい。
(実施例8)
既存のメール送信装置と組み合わせて用いるメール中継装置を提供することもできる。本メール中継装置(1B)の構成を図19に、処理フローチャートを図20に示す。
本装置(1B)は、既存のメール送信サーバから送信(S61)されたメールを、メール経路受信部(111)で受信(S62)し、本発明処理(S52)を行った後に、機密性が高いと判定されなかったメールはメール中継制御部(112)の指示によりメール経路送信部(113)から送信(S64)される。
一方、機密性が高いと判定(S63)された場合には、機密情報として送信を拒絶する
。この場合、送信が拒絶された旨の通知を送信したユーザー(20)にもメール等で通知
(S65)すると共に、情報管理者(21)にも通知(S66)するようにしてもよい。
もちろん、本構成でも図18のように機密情報を付加した上でメール経路送信(S64
)してもよい。
(実施例9)
本発明は、コンピュータに入出力するあらゆるデータを対象とすることができるので、図21に示すように携帯型のメモリ(USBメモリ)(30)や携帯型ハードディスク(31)などから読み書きされるデータのデータ種類の検出に用いてもよい。
この場合、例えばパソコンのデータバス(34)の1つであるUSBポートを常時監視し、ユーザーがメモリ(30)にデータの書き込み動作をしようとすると本発明処理が実行され、機密情報等が含まれていないか確認することができる。
あるいは、同じくUSBを使ってキーボード(32)を接続した際に、キーボードから
本体に入力される情報を取得して、本発明処理を行ってもよい。これによって、明らかに
その機密を持っていないはずの社員や、私用で使っていると思われる情報を入力しようと
すると検出し、情報の管理者に通知させることもできる。
この機能を利用することで、ウェブメールの送信時や、ウェブでの書き込みなどでの情
報漏洩も防止できる。
さらに、プリンタ(33)に対する印刷でも同様である。プリンタへの信号を対象とし
て機密情報の印刷を阻止するようにすれば、紙媒体によって情報が漏洩することを防ぐこ
とができる。
(実施例10)
本発明のデータ内容取得部(102)に公知の画像認識処理部や、音声認識処理部を設
けてもよい。すなわち、入出力データが画像である場合に、素性としてファイルの容量、
ファイル名、画像圧縮形式などの情報を用いることもできるが、当該画像を画像認識処理
してテキストに変換してもよい。
このような文字認識技術は多数のソフトウェアが流通しており、それらを組み合わせて
利用してもよい。
また、音声データである場合に、データ内容取得部(102)が音声認識処理を行って
テキスト化してもよい。
図22に示すように、本装置(1)と共に、電話機(40)やマイク(41)によって
音声信号を取得し、音声信号がアナログ信号の場合にはディジタル信号に変換する音声信
号変換入力部(42)を通して本装置(1)の入出力データ読み込み部(101)に入力
してもよい。直接入力可能な信号の場合には、該音声信号変換入力部(42)は設けなく
てもよい。音声信号変換入力部(42)が変換処理を行わず、例えば信号線の分岐コネク
タのように単に音声信号を取り出すための手段であってもよい。
入出力データ読み込み部(101)で読み込まれた音声データは、上記のように音声認
識処理部によって音声からテキストに変換することができる。
同様にファクシミリ機(43)、デジタルカメラ(44)、ビデオカメラから画像信号
変換入力部(45)が静止画像や動画像、映像を含む画像を取り出して、必要があればデ
ィジタル信号に変換し、データ内容取得部(102)において画像認識処理を行ってテキ
スト化してもよい。
本装置(1)はコンピュータに入出力するデータを対象とするので、本装置(1)によ
るデータ種類の検出を行ったデータは、この後にパソコン等に入力される。パソコン等で
モニタリングシステムを構成して、検出結果を記録するようにしてもよいし、メール送信
サーバを構成して、ネットワークを通じて外部にメール送信を行うようにしてもよい。い
ずれにしても、本装置(1)で検出したデータを入力したコンピュータで利用することを
必須とする。
(実施例11)
本発明の入出力データの言語はいかなる言語でもよい。公知の翻訳ソフトをデータ内容
取得部(102)に備えて機械翻訳しデータ内容として日本語で取得できるようにしても
よい。また、高度な翻訳ソフトを用いず、単に辞書を照合して単語を置き換えるだけでも
よい。
(実施例12)
本発明において種類が判定された出力データを出力する際に、要約処理を行ってから出
力することもできる。すなわち、出力データを長文のまま出力しても、ユーザがどのよう
な内容であるかを把握するには時間を要し、大量の機密情報をチェックするには不適当で
ある。
そこで、本発明では次の要約処理により、出力される出力情報をわかりやすく提示する
ことができる。要約の処理は、CPU(10)に設けた図示しない要約処理部によって行
う。
まず、要約処理は公知の様々な手法が知られているが、例えば本発明者らによる特許文
献3及び特許文献4の方法に開示される要約手法を用いることができる。
すなわち、特許文献3の方法によれば、要約装置として、文章およびその要約結果であ
る問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データ
を記憶する解データ記憶手段と、解データの問題である文章および要約結果から、例えば
要約結果の文のなめらかさを示す情報および要約結果が文章の内容を表示しているかどう
かを示す情報を含む所定の情報を素性として抽出する。
そして、その解と素性の集合との組を生成する解‐素性対抽出手段と、解と前記素性の
集合との組を学習結果として学習結果記憶手段に記憶する機械学習手段と、解−素性対抽
出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出
する素性抽出手段と、学習結果である前記解と前記素性の集合との組をもとに、ベイズの
定理にもとづいて前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類に
なる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段と
を備える。
また、特許文献4に記載の方法は、機械学習法によりテキストを自動要約する処理で用
いる解データを編集する解データ編集処理装置であって、テキストの要約結果を表示装置
に表示する要約表示処理手段と、前記要約結果に対する評価の入力を受け付けて前記要約
結果の評価とする評価付与処理手段と、前記テキストおよび前記要約結果を問題とし前記
評価を解とする解データを出力する解データ出力処理手段とを備える。
特許第3682529号 特開2003-248676号
以上にあげた方法は、いずれも公知の要約方法に対して、それを評価し、又はその結果
をフィードバックすることにより機械学習の精度の向上を図るものであり、これによって
効果的な要約方法に寄与する。
もちろん、ここで用いる機械学習方法はシンプルベイズ法に限らず、k近傍法、決定リ
スト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法な
どいかなるモデルを用いても良い。
なお、本発明における要約処理は、機械学習による方法に限らず、公知の任意の要約方
法を用いることができる。
例えば、文書の位置、タイトルの単語を含んでいる個数、その文に出現する単語のtfid
fの値のそれぞれの情報を用いて、各文のスコアを求め、そのスコアの大きいものを要約
結果とする方法がある。
また、一般にタイトルの単語は重要なため、タイトルの単語を多く含む文を抽出してそ
の文を要約結果とすることができる。
より単純に、文書の第一文など、最初の方を要約文としてもよい。
本発明を用いるシステムを説明する説明図である。 実施例1に係る本発明のデータ漏洩検出装置の構成図である 実施例1に係る本発明のデータ漏洩検出方法の処理フローチャートである。 機密性判定部の構成図である。 機密性判定処理のフローチャートである。 機械学習過程を含む処理のフローチャートである。 実施例2に係るユーザーが定義した機密性情報を機械学習に用いる処理のフローチャートである。 実施例3に係る本発明のデータ漏洩検出装置の構成図である 実施例3に係る本発明のデータ漏洩検出方法の処理フローチャートである。 記事データ群抽出部における類似判定部(114)の構成図である。 類似する記事データ群が抽出された場合にそれを素性として用いる場合のフローチャートである。 本発明によるモニタからの出力態様(1)を示す図である。 本発明によるモニタからの出力態様(2)を示す図である。 本発明によるモニタからの出力態様(3)を示す図である。 実施例5に係る本発明のメール送信装置の構成図である 実施例5に係る本発明のメール送信方法の処理フローチャートである。 実施例6に係る本発明のメール送信装置の構成図である 実施例6に係る本発明のメール送信方法の処理フローチャートである。 実施例7に係る本発明のメール中継装置の構成図である。 実施例7に係る本発明のメール中継方法の処理フローチャートである。 実施例8に係る本発明の実施態様を示す説明図である。 音声認識手段、画像認識手段を用いる場合の構成図である。 機械学習の処理を説明する説明図である。 機械学習(SVM)の処理を説明する説明図である。
符号の説明
1 データ漏洩検出装置
10 CPU
101 入出力データ読み込み部
102 データ内容取得部
103 素性抽出部
104 機密性判定部
105 判定結果出力部
11 キーボード・マウス
12 モニタ
13 外部記憶装置
130 教師データ
131 機密性学習結果
14 ネットワークアダプタ

Claims (6)

  1. コンピュータから出力される出力データ、又はコンピュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出するデータ種類検出装置であって、
    入出力データを読み込む入出力データ読み込み手段と、
    少なくとも該入出力データに含まれる文字列を取得するデータ内容取得手段と、
    少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出手段と、
    予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果と、
    該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定手段と、
    判定されたデータ種類を出力する出力手段とを備えた構成において、
    ネットワーク上、又はローカルの記事データベースと、
    該記事データベースから、該入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出する記事データ群抽出手段と
    をさらに備え、
    該データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、記事データ群抽出手段が記事データ群を抽出する
    ことを特徴とするデータ種類検出装置。
  2. 前記記事データ群抽出手段において、
    前記記事データベースから前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出すると共に、さらに該記事データ群が前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群と類似する記事か否かの類似判定処理を行い、類似すると判定された記事データ群のみを抽出結果とする
    請求項に記載のデータ種類検出装置。
  3. 前記データ種類検出装置において、
    前記記事データ群抽出手段が抽出した記事データ群に偏って出現する単語群を抽出し、該記事データ群の中で該単語群を多く含む記事データを抽出する関連データ抽出手段と
    を備え、
    前記データ種類判定手段において、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出する
    請求項に記載のデータ種類検出装置。
  4. コンピュータから出力される出力データ、又はコンピュータに入力する入力データの少なくともいずれかの入出力データのデータ種類を検出するデータ種類検出方法であって、
    入出力データ読み込み手段が、入出力データを読み込む入出力データ読み込みステップ、
    データ内容取得手段が、少なくとも該入出力データに含まれる文字列を取得するデータ内容取得ステップ、
    素性抽出手段が、少なくとも該文字列又は該文字列に含まれる所定の文字群を素性として抽出する素性抽出ステップ、
    予めデータ種類が分かっている教師データを用い、該教師データに含まれる所定の文字群を素性として機械学習したデータ種類学習結果を備えて、
    データ種類判定手段が、該素性抽出手段が抽出した素性の集合を入力して、該データ種類学習結果を参照して、該データ種類のいずれかを判定、又はデータ種類の確率を算出するデータ種類判定ステップ、
    出力手段が、判定されたデータ種類を出力する出力ステップ
    を有すると共に、
    該データ種類判定ステップにおいて、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、
    記事データ群抽出手段が、ネットワーク上、又はローカルの記事データベースから、該入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出する記事データ群抽出ステップを実行処理することにより記事データを抽出する
    ことを特徴とするデータ種類検出方法。
  5. 前記記事データ群抽出ステップにおいて、前記記事データ群抽出手段が、
    前記記事データベースから前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群を含む記事データ群を抽出すると共に、さらに該記事データ群が前記入出力データに含まれる文字列又は該文字列に含まれる所定の文字群と類似する記事か否かの類似判定処理を行い、類似すると判定された記事データ群のみを抽出結果とする
    請求項に記載のデータ種類検出方法。
  6. 前記データ種類検出方法において、
    関連データ抽出手段が、前記記事データ群抽出ステップで抽出した記事データ群に偏って出現する単語群を抽出し、該記事データ群の中で該単語群を多く含む記事データを抽出する関連データ抽出ステップを備え、
    前記データ種類判定ステップにおいて、所定のデータ種類であると判定、又は所定のデータ種類の確率が所定の閾値以上である場合に、関連データ抽出手段により該入出力データと関連する記事データを抽出する
    請求項に記載のデータ種類検出方法。
JP2007289915A 2007-11-07 2007-11-07 データ種類検出装置及びデータ種類検出方法 Expired - Fee Related JP5168620B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007289915A JP5168620B2 (ja) 2007-11-07 2007-11-07 データ種類検出装置及びデータ種類検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007289915A JP5168620B2 (ja) 2007-11-07 2007-11-07 データ種類検出装置及びデータ種類検出方法

Publications (2)

Publication Number Publication Date
JP2009116680A JP2009116680A (ja) 2009-05-28
JP5168620B2 true JP5168620B2 (ja) 2013-03-21

Family

ID=40783755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007289915A Expired - Fee Related JP5168620B2 (ja) 2007-11-07 2007-11-07 データ種類検出装置及びデータ種類検出方法

Country Status (1)

Country Link
JP (1) JP5168620B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9223987B2 (en) 2011-11-28 2015-12-29 International Business Machines Corporation Confidential information identifying method, information processing apparatus, and program
JP2013137740A (ja) 2011-11-28 2013-07-11 Internatl Business Mach Corp <Ibm> 機密情報識別方法、情報処理装置、およびプログラム
US10902026B2 (en) 2014-11-27 2021-01-26 Longsand Limited Block classified term
CN107066882B (zh) * 2017-03-17 2019-07-12 平安科技(深圳)有限公司 信息泄露检测方法及装置
JP2018194919A (ja) * 2017-05-12 2018-12-06 富士通株式会社 学習プログラム、学習方法及び学習装置
JP2021180361A (ja) 2020-05-11 2021-11-18 キヤノン株式会社 情報処理装置とその制御方法、及びプログラム
CN117082021B (zh) * 2023-10-12 2024-01-02 太平金融科技服务(上海)有限公司 邮件干预方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022727A (ja) * 1999-07-05 2001-01-26 Nippon Telegr & Teleph Corp <Ntt> テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
US7565403B2 (en) * 2000-03-16 2009-07-21 Microsoft Corporation Use of a bulk-email filter within a system for classifying messages for urgency or importance
JP3868258B2 (ja) * 2001-10-24 2007-01-17 沖電気工業株式会社 電子メール配送サーバ
JP2004326465A (ja) * 2003-04-24 2004-11-18 Matsushita Electric Ind Co Ltd 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置
JP3804017B2 (ja) * 2003-08-27 2006-08-02 株式会社ウィザーズ 電子メールシステム

Also Published As

Publication number Publication date
JP2009116680A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Aisopos et al. Content vs. context for sentiment analysis: a comparative analysis over microblogs
EP1613020B1 (en) Method and system for detecting when an outgoing communication contains certain content
US8676730B2 (en) Sentiment classifiers based on feature extraction
US11023478B2 (en) Determining temporal categories for a domain of content for natural language processing
Abbasi et al. Writeprints: A stylometric approach to identity-level identification and similarity detection in cyberspace
Kestemont et al. Cross-genre authorship verification using unmasking
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
JP5168620B2 (ja) データ種類検出装置及びデータ種類検出方法
US9483462B2 (en) Generating training data for disambiguation
US11354340B2 (en) Time-based optimization of answer generation in a question and answer system
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
JP2010056682A (ja) 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ
Su et al. Evidentiality for text trustworthiness detection
Tyagi et al. Sentiment analysis of product reviews using support vector machine learning algorithm
Rico-Sulayes Statistical authorship attribution of Mexican drug traficking online forum posts.
Zhou et al. Does fake news in different languages tell the same story? An analysis of multi-level thematic and emotional characteristics of news about COVID-19
Murakami et al. Statement map: assisting information crediblity analysis by visualizing arguments
El-Halees Opinion mining from Arabic comparative sentences
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
Coban IRText: An item response theory-based approach for text categorization
JP4854019B2 (ja) 意見収集システム、意見収集方法および意見収集プログラム
Xu et al. Opinion Annotation in On-line Chinese Product Reviews.
JP5366179B2 (ja) 情報の重要度推定システム及び方法及びプログラム
Lipka Modeling Non-Standard Text Classification Tasks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121213

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees