JP2010072779A - データ分類装置及びコンピュータプログラム及びデータ分類方法 - Google Patents
データ分類装置及びコンピュータプログラム及びデータ分類方法 Download PDFInfo
- Publication number
- JP2010072779A JP2010072779A JP2008237376A JP2008237376A JP2010072779A JP 2010072779 A JP2010072779 A JP 2010072779A JP 2008237376 A JP2008237376 A JP 2008237376A JP 2008237376 A JP2008237376 A JP 2008237376A JP 2010072779 A JP2010072779 A JP 2010072779A
- Authority
- JP
- Japan
- Prior art keywords
- data
- classification
- learning
- condition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 72
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000000605 extraction Methods 0.000 claims abstract description 591
- 238000003860 storage Methods 0.000 claims description 117
- 238000001514 detection method Methods 0.000 claims description 115
- 238000012545 processing Methods 0.000 claims description 92
- 230000008520 organization Effects 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 abstract description 13
- 238000012550 audit Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 28
- 230000005540 biological transmission Effects 0.000 description 24
- 238000012790 confirmation Methods 0.000 description 22
- 238000007726 management method Methods 0.000 description 22
- 238000013500 data storage Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 19
- 238000011156 evaluation Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000011960 computer-aided design Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003442 weekly effect Effects 0.000 description 2
- 241001362551 Samba Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003471 mutagenic agent Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】学習データ入力部111は、学習データを入力する。抽出条件判定部122は、学習データが所定の分類カテゴリに属する場合に満たされる所属条件を、所定の抽出条件とし、学習データ入力部111が入力した学習データが上記所定の抽出条件に合致するか否かを判定する。分類条件学習部131は、学習データ入力部111が入力した学習データが上記所定の抽出条件に合致すると抽出条件判定部122が判定した場合に、上記学習データを、上記所定の分類カテゴリに属するデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習する。
【選択図】図3
Description
機械学習において、データ分類装置は、複数の分類カテゴリにあらかじめ分類された学習サンプルを用いて、各分類カテゴリの特徴を学習し、学習結果に基づいて、分類対象文書の分類を行う。
学習のために使用する学習サンプルを、あらかじめ分類する方法としては、人手により分類する方法や、クラスタリングにより分類する方法がある。
また、分類精度を高くするには、大量の学習サンプルを用意する必要があるが、人手による分類する方法で、正しく分類された学習サンプルを大量に集めるには手間がかかる。
この発明は、例えば、上記のような課題を解決するためになされたものであり、手間をかけずに、正しく分類された学習サンプルを用いて分類条件を学習し、分類の精度を高めることを目的とする。
データを処理する処理装置と、学習データ入力部と、抽出条件判定部と、分類条件学習部とを有し、
上記学習データ入力部は、上記処理装置を用いて、学習データを入力し、
上記抽出条件判定部は、上記処理装置を用いて、上記学習データが所定の分類カテゴリに属する場合に満たされる所属条件を、所定の抽出条件とし、上記学習データ入力部が入力した学習データが上記所定の抽出条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した学習データが上記所定の抽出条件に合致すると上記抽出条件判定部が判定した場合に、上記学習データを、上記所定の分類カテゴリに属するデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習することを特徴とする。
実施の形態1について、図1〜図5を用いて説明する。
データ分類装置100は、システムユニット910、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置901、キーボード902(Key・Board:K/B)、マウス903、FDD904(Flexible・Disk・Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
システムユニット910は、コンピュータであり、ファクシミリ機932、電話器931とケーブルで接続され、また、ローカルエリアネットワーク942(LAN)、ゲートウェイ941を介してインターネット940に接続されている。
データ分類装置100は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信装置915、表示装置901、キーボード902、マウス903、FDD904、CDD905、プリンタ装置906、スキャナ装置907、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信装置915、キーボード902、スキャナ装置907、FDD904などは、入力部、入力装置の一例である。
また、通信装置915、表示装置901、プリンタ装置906などは、出力部、出力装置の一例である。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
ファイル群924には、以下に述べる実施の形態の説明において、「〜の判定結果」、「〜の計算結果」、「〜の処理結果」として説明する情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以下に述べる実施の形態の説明において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disk)等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
データ分類装置100は、分類の対象となるデータ(以下「対象データ」と呼ぶ。)を入力し、入力した対象データが、あらかじめ定められた複数の分類カテゴリのうち、どの分類カテゴリに属するかを判定する。
学習データ入力部111は、CPU911を用いて、入力した学習データを出力する。
例えば、分類カテゴリの一つとして、機密を要するデータが分類される「要機密」カテゴリがある場合、学習データに「社外秘」という文字列が含まれていれば、その学習データは「要機密」カテゴリに属すると考えられる。その場合、抽出条件記憶部121は、学習データが「社外秘」という文字列を含むことを抽出条件として、当該抽出条件を表わす抽出条件データを記憶する。
なお、実際には、学習データが「社外秘」という文字列を含むからといって、必ずしも「要機密」カテゴリに属するとは限らない。そこで、学習データのうちの「社外秘」という文字列が現れる位置に関する条件や、その他の条件などを組み合わせて、抽出される学習データを絞り込み、必ず「要機密」カテゴリに属する学習データだけが抽出される条件を、抽出条件とする。
抽出条件判定部122は、CPU911を用いて、抽出条件記憶部121が記憶した抽出条件テーブル510から、すべての抽出条件データ512を入力する。抽出条件判定部122は、CPU911を用いて、入力した抽出条件テーブル510の抽出条件データ512が表わす抽出条件一つ一つについて、入力した学習データが抽出条件に合致するか否かを判定する。
学習データが抽出条件に合致すると判定した場合、抽出条件判定部122は、CPU911を用いて、抽出条件記憶部121が記憶した抽出条件テーブル510から、合致すると判定した抽出条件を識別する抽出条件識別データ511を入力する。抽出条件判定部122は、CPU911を用いて、抽出条件記憶部121が記憶した属否判定テーブル520から、抽出条件識別データ522が、入力した抽出条件識別データ511と一致する属否判定データの分類カテゴリ識別データ523と属否データ524とを入力する。
抽出条件判定部122は、CPU911を用いて、入力した抽出条件データ512が表わす抽出条件のなかに、入力した学習データが合致する抽出条件があった場合、入力した学習データを抽出データとして出力する。抽出条件判定部122は、CPU911を用いて、抽出データとともに、入力した分類カテゴリ識別データ523と属否データ524との組を出力する。学習データが合致する抽出条件が複数ある場合、抽出条件判定部122は、CPU911を用いて、分類カテゴリ識別データ523と属否データ524との組を複数出力する。
また、分類カテゴリは、これらを組み合わせたものであってもよい。例えば、3つの分類カテゴリがある場合において、分類カテゴリ1と分類カテゴリ2とは、排他的かつ選択的であり(すなわち、対象データは、必ず分類カテゴリ1と分類カテゴリ2とのいずれかに属し、かつ、両方に属することはない)、分類カテゴリ3は、分類カテゴリ1及び2から独立的であるという組み合わせであってもよい。
分類条件学習処理は、学習データ入力工程S611、抽出条件判定工程S612、分類条件学習工程S613を有する。
学習データが合致する抽出条件があると抽出条件判定部122が判定した場合、データ分類装置100は、分類条件学習工程S613へ進む。
学習データが合致する抽出条件がないと抽出条件判定部122が判定した場合、データ分類装置100は、分類条件学習処理を終了する。
上記学習データ入力部111は、上記処理装置(CPU911)を用いて、学習データを入力する。
上記抽出条件判定部122は、上記処理装置(CPU911)を用いて、上記学習データが所定の分類カテゴリに属する場合に満たされる所属条件を、所定の抽出条件とし、上記学習データ入力部111が入力した学習データが上記所定の抽出条件に合致するか否かを判定する。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力した学習データが上記所定の抽出条件に合致すると上記抽出条件判定部122が判定した場合に、上記学習データを、上記所定の分類カテゴリに属するデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習する。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力した学習データが上記非所属条件に合致すると上記抽出条件判定部122が判定した場合に、上記学習データを、上記所定の分類カテゴリに属さないデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習する。
また、分類カテゴリに属するデータのサンプルだけでなく、分類カテゴリに属さないデータのサンプルを用いて分類条件を学習することにより、分類の精度を更に高めることができる。
上記対象データ入力部141は、上記処理装置(CPU911)を用いて、対象データを入力する。
上記対象データ分類部151は、上記処理装置(CPU911)を用いて、上記分類条件学習部131が学習した分類条件に基づいて、上記対象データ入力部141が入力した対象データを分類する。
上記コンピュータを、この実施の形態におけるデータ分類装置100として機能させるコンピュータプログラムによれば、所属条件に合致する学習データをサンプルとして、分類条件学習部131が分類条件を学習するので、学習サンプルを人手により準備する必要がなく、大量の学習サンプルを用いて分類条件を学習することができ、分類の精度を高めることができるデータ分類装置100を実現することができる。
上記処理装置(CPU911)が、学習データを入力する。
上記処理装置(CPU911)が、上記学習データが所定の分類カテゴリに属する場合に満たされる所属条件を、所定の抽出条件とし、入力した学習データが上記所定の抽出条件に合致するか否かを判定する。
上記処理装置(CPU911)が、入力した学習データが上記所定の抽出条件に合致すると判定した場合に、上記学習データを、上記所定の分類カテゴリに属するデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習する。
実施の形態2について、図6〜図7を用いて説明する。
なお、実施の形態1で説明したデータ分類装置100と共通する部分については、同一の符号を付し、説明を省略する。
抽出条件テーブル510は、抽出条件識別データ511、抽出条件データ512からなる。
「P」から始まる抽出条件識別データ511を付された抽出条件(以下「パターン抽出条件」と呼ぶ。)を表わす抽出条件データ512は、学習データ内の文字列にマッチするパターンを表わす正規表現である。パターン抽出条件は、学習データがその抽出条件に合致しても、それだけでは、その学習データが個人情報を含むのか個人情報を含まないのか判別できない。
「C」から始まる抽出条件識別データ511を付された抽出条件(以下「機密抽出条件」と呼ぶ。)を表わす抽出条件データ512は、パターン抽出条件の組み合わせにより、個人情報を含むことが確実な学習データを判別する抽出条件である。
「N」から始まる抽出条件識別データ511を付された抽出条件(以下「非機密抽出条件」と呼ぶ。)を表わす抽出条件データ512は、パターン抽出条件の組み合わせにより、個人情報を含まないことが確実な学習データを判別する抽出条件である。
抽出条件「P02」は、住所に関する条件であり、東京都特別区もしくは政令指定都市の住所にマッチするパターンを表わす。学習データが抽出条件「P02」に合致するということは、その学習データが住所を含むことを意味し、個人情報を含む可能性を示唆する。
抽出条件「P03」も、住所に関する条件であり、その他の市町村の住所にマッチするパターンを表わす。学習データが抽出条件「P03」に合致するということは、その学習データが住所を含むことを意味し、個人情報を含む可能性を示唆する。
抽出条件「P04」は、電話番号に関する条件であり、電話番号を含む数字列にマッチするパターンである。学習データが抽出条件「P04」に合致するということは、その学習データが電話番号を含む可能性があることを意味し、個人情報を含む可能性を示唆する。
抽出条件「P05」は、メールアドレスに関する条件であり、メールアドレスにマッチするパターンである。学習データが抽出条件「P05」に合致するということは、その学習データがメールアドレスを含むことを意味し、個人情報を含む可能性を示唆する。
抽出条件「P06」は、クレジットカード番号に関する条件であり、クレジットカード番号を含む数字列にマッチするパターンである。学習データが抽出条件「P06」に合致するということは、その学習データがクレジットカード番号を含む可能性があることを意味し、個人情報を含む可能性を示唆する。
抽出条件「C02」は、学習データのなかに、抽出条件「P01」に合致する部分が10箇所以上あり、かつ、抽出条件「P04」に合致する部分が20箇所以上あり、かつ、抽出条件「P05」に合致する部分が20箇所以上あり、かつ、抽出条件「P06」に合致する部分が20箇所以上あることを条件とする抽出条件である。学習データが抽出条件「C01」に合致するということは、その学習データが人名と、電話番号と、メールアドレスと、クレジットカード番号とを含むことを意味し、その学習データが個人情報を含むことを示唆する。
抽出条件判定工程S612は、パターン抽出条件入力工程S621、パターン抽出条件判定工程S622、繰り返し判定工程S623、機密抽出条件入力工程S624、機密抽出条件判定工程S625、繰り返し判定工程S626、非機密抽出条件入力工程S627、非機密抽出条件判定工程S628、繰り返し判定工程S629、機密抽出データ出力工程S630、非機密抽出データ出力工程S631を有する。
まだ入力していないパターン抽出条件を表わす抽出条件データ512があると抽出条件判定部122が判定した場合、データ分類装置100は、パターン抽出条件入力工程S621に戻る。
パターン抽出条件を表わす抽出条件データ512をすべて入力したと抽出条件判定部122が判定した場合、データ分類装置100は、機密抽出条件入力工程S624へ進む。
学習データがその機密抽出条件に合致すると抽出条件判定部122が判定した場合、データ分類装置100は、機密抽出データ出力工程S630へ進む。
学習データがその機密抽出条件に合致しないと抽出条件判定部122が判定した場合、データ分類装置100は、繰り返し判定工程S626へ進む。
まだ入力していない機密抽出条件を表わす抽出条件データ512があると抽出条件判定部122が判定した場合、データ分類装置100は、機密抽出条件入力工程S624に戻る。
機密抽出条件を表わす抽出条件データ512をすべて入力したと抽出条件判定部122が判定した場合、データ分類装置100は、非機密抽出条件入力工程S627へ進む。
学習データがその非機密抽出条件に合致すると抽出条件判定部122が判定した場合、データ分類装置100は、非機密抽出データ出力工程S631へ進む。
学習データがその非機密抽出条件に合致しないと抽出条件判定部122が判定した場合、データ分類装置100は、繰り返し判定工程S629へ進む。
まだ入力していない非機密抽出条件を表わす抽出条件データ512があると抽出条件判定部122が判定した場合、データ分類装置100は、非機密抽出条件入力工程S627に戻る。
非機密抽出条件を表わす抽出条件データ512をすべて入力したと抽出条件判定部122が判定した場合、データ分類装置100は、抽出条件判定工程S612を終了する。
また、抽出条件として、学習データが機密情報を確実に含む場合に満たされる機密抽出条件と、学習データが機密情報を確実に含まない場合に満たされる非機密条件とを設けることにより、学習データのなかから学習サンプルを抽出し、分類条件学習部131が、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習するので、分類の精度を高めることができる。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力した学習データが上記機密条件に合致すると上記抽出条件判定部122が判定した場合に、上記学習データを、機密情報を含むデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習する。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力した学習データが上記非機密条件に合致すると上記抽出条件判定部122が判定した場合に、上記学習データを、機密情報を含まないデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習する。
また、機密カテゴリに属するデータのサンプルだけでなく、非機密カテゴリに属するデータのサンプルを用いて分類条件を学習することにより、分類の精度を更に高めることができる。
実施の形態3について、図8を用いて説明する。
なお、実施の形態1または実施の形態2で説明したデータ分類装置100と共通する部分については、同一の符号を付し、説明を省略する。
データ分類装置100は、実施の形態1で説明した機能ブロックに加えて、更に、検出条件記憶部171、検出条件判定部172、分類併合部173を有する。
検出条件には、抽出条件ほどの確実さは要求されず、むしろ、なるべく多くの対象データを分類できる条件を設定するほうがよい。
検出条件記憶部171が記憶する検出条件データには、その検出条件による分類の確実さを表わすデータ(以下「検出精度データ」と呼ぶ。)を付す構成としてもよい。
検出条件判定部172は、CPU911を用いて、抽出条件記憶部121が記憶した抽出条件データと、検出条件記憶部171が記憶した検出条件データとを入力する。なお、検出条件判定部172は、抽出条件記憶部121が記憶した抽出条件データを入力せず、検出条件記憶部171が記憶した検出条件データだけを入力してもよい。逆に、検出条件判定部172は、検出条件記憶部171が記憶した検出条件データを入力せず、抽出条件記憶部121が記憶した抽出条件データだけを入力してもよい。その場合、検出条件記憶部171は、なくてもよい。
検出条件判定部172は、CPU911を用いて、判定した結果を表わすデータ(以下「検出結果データ」と呼ぶ。)を出力する。
分類併合部173は、CPU911を用いて、入力した分類結果データと検出結果データとに基づいて、対象データ分類部151による分類と、検出条件判定部172による分類とを併合し、対象データが、複数の分類カテゴリのそれぞれに属するか否かを判定する。
分類併合部173は、CPU911を用いて、判定した結果を表わすデータ(以下「併合結果データ」と呼ぶ。)を出力する。
この実施の形態におけるデータ分類装置100は、対象データ分類部151による分類と、検出条件判定部172による分類とを併用し、分類併合部173が両者を併合するので、分類条件学習部131による学習が進んでいない初期の段階であっても、分類併合部173による分類結果を信用し、データ分類装置100を本格運用することができる。
分類併合部173は、CPU911を用いて、入力した分類結果データに基づいて、対象データ分類部151が対象データを機密カテゴリに分類した場合、対象データを機密カテゴリに分類する。
対象データ分類部151が対象データを非機密カテゴリに分類した場合、分類併合部173は、CPU911を用いて、入力した検出結果データに基づいて、検出条件判定部172が対象データを機密カテゴリに分類した場合、対象データを機密カテゴリに分類する。対象データ分類部151も検出条件判定部172も、対象データを非機密カテゴリに分類した場合、分類併合部173は、CPU911を用いて、対象データを非機密カテゴリに分類する。
これにより、対象データ分類部151と検出条件判定部172とのいずれかが対象データを機密カテゴリに分類した場合、分類併合部173は、対象データを機密カテゴリに分類するので、機密情報を含む対象データが誤って非機密カテゴリに分類されるのを防ぐことができる。
対象データ分類部151は、CPU911を用いて、対象データが各分類カテゴリに属する可能性を表わす属否評価値を算出し、算出した属否評価値を表わすデータ(以下「属否評価値データ」と呼ぶ。)を出力する。
検出条件判定部172は、CPU911を用いて、属否の判定に使用した検出条件を表わす検出条件データに付された検出精度データを出力する。
分類併合部173は、CPU911を用いて、対象データ分類部151が出力した属否評価値データと、検出条件判定部172が出力した検出精度データとを入力する。
分類併合部173は、CPU911を用いて、入力した属否評価値データと検出精度データとに基づいて、対象データ分類部151による分類と、検出条件判定部172による分類とのうち、どちらの信頼性が高いかを判定する。
対象データ分類部151による分類の信頼性のほうが高いと判定した場合、分類併合部173は、CPU911を用いて、対象データ分類部151による分類にしたがって、対象データが、複数の分類カテゴリのそれぞれに属するか否かを判定する。
検出条件判定部172による分類の信頼性のほうが高いと判定した場合、分類併合部173は、CPU911を用いて、検出条件判定部172による分類にしたがって、対象データが、複数の分類カテゴリのそれぞれに属するか否かを判定する。
これにより、妥当性の高い分類をすることができる。
例えば、分類併合部173は、CPU911を用いて、抽出条件判定部122が出力した抽出データの数を数える。数えた抽出データの数が所定の数より少ない場合、分類併合部173は、検出条件判定部172による分類のほうを信用し、CPU911を用いて、検出条件判定部172による分類にしたがって、対象データが、複数の分類カテゴリのそれぞれに属するか否かを判定する。
逆に、数えた抽出データの数が所定の数以上である場合、分類併合部173は、対象データ分類部151による分類のほうを信用し、CPU911を用いて、対象データ分類部151による分類にしたがって、対象データが、複数の分類カテゴリのそれぞれに属するか否かを判定する。
上記検出条件判定部172は、上記処理装置(CPU911)を用いて、上記対象データ入力部141が入力した対象データが所定の検出条件を満たすか否かを判定する。
上記対象データ分類部151は、上記処理装置(CPU911)を用いて、上記分類条件学習部131が学習した分類条件に基づいて、上記対象データ入力部141が入力した対象データを、所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとに分類する。
上記分類併合部173は、上記処理装置(CPU911)を用いて、上記対象データ入力部141が入力した対象データが上記所定の検出条件を満たすと上記検出条件判定部172が判定した場合、および、上記対象データ入力部141が入力した対象データを所定の分類カテゴリに属するデータに上記対象データ分類部151が分類した場合に、上記対象データ入力部141が入力した対象データが上記所定の分類カテゴリに属すると判定する。
また、検出条件を表わす検出条件データを記憶する必要がないので、記憶装置の記憶容量を節約することができる。
実施の形態4について、図9〜図10を用いて説明する。
ネットワークシステム800は、1以上の端末装置810、メールサーバ装置820を有する。
端末装置810、メールサーバ装置820は、LAN942を介して互いに接続している。また、メールサーバ装置820は、インターネット940にも接続している。
メールサーバ装置820は、メール受信部821、データ分類装置100、中継可否判定部822、確認メール生成部823、メール送信部824を有する。
また、データ分類装置100は、CPU911を用いて、入力した電子メールを学習データとして、電子メールを、機密情報を含む電子メールと、機密情報を含まない電子メールとに分類する分類条件を学習する。
メール中継処理は、電子メール受信工程S641、分類条件学習処理S642、データ分類処理S643、中継可否判定工程S644、確認メール送信工程S645、応答メール受信工程S646、確認結果判定工程647、電子メール送信工程S648を有する。
その電子メールを中継してもよいと中継可否判定部822が判定した場合、メールサーバ装置820は、電子メール送信工程S648へ進む。
その電子メールを中継してはいけないと中継可否判定部822が判定した場合、メールサーバ装置820は、メール中継処理を終了する。
その電子メールを中継してもよいか否か不明であると中継可否判定部822が判定した場合、メールサーバ装置820は、確認メール送信工程S645へ進む。
その電子メールを中継してもよいと中継可否判定部822が判定した場合、メールサーバ装置820は、電子メール送信工程S648へ進む。
その電子メールを中継してはいけないと中継可否判定部822が判定した場合、メールサーバ装置820は、メール中継処理を終了する。
電子メールの送信者のメールアドレスは、例えば、電子メールのヘッダに含まれる「From:」行から取得することができる。また、電子メールの送信者の所属ドメインは、電子メールの送信者のメールアドレスの「@」より後ろの部分から取得することができる。
電子メールの送信者の所属ドメインが、その組織のドメイン(以下「内部ドメイン」と呼ぶ。)である場合、その電子メールは、機密情報を含む可能性がある。
逆に、電子メールの送信者の所属ドメインが、関連ドメイン(内部ドメインと、その組織と資本関係や契約関係などの関係がある他の組織のドメインとのうちいずれかであるドメインをいう。以下同じ。)でない場合、その電子メールは、機密情報を含まない。
したがって、電子メールの送信者のメールアドレスに関する条件を、抽出条件として使用することができる。
電子メールの受信者のメールアドレスは、例えば、電子メールのヘッダに含まれる「To:」行や「Cc:」行や「Bcc:」行から取得することができる。また、電子メールの受信者の所属ドメインは、電子メールの受信者のメールアドレスの「@」より後ろの部分から取得することができる。
電子メールの受信者の所属ドメインが、内部ドメインである場合、その電子メールは、機密情報を含む可能性がある。
電子メールの受信者のメールアドレスが、既知の外部のメーリングリストのメールアドレスである場合、その電子メールが誤って送信されたものであるなどの場合を除き、機密情報を含まない。以下、既知の外部のメーリングリストのメールアドレスなど、送信された電子メールが公開されることがあらかじめわかっているメールアドレスを、公開メールアドレスと呼ぶ。
したがって、電子メールの受信者のメールアドレスに関する条件を、抽出条件として使用することができる。
電子メールの送信者の表示名は、例えば、電子メールのヘッダに含まれる「From:」行から取得することができる。
電子メールの送信者の表示名に機密情報関連用語が含まれる場合、その電子メールは、機密情報を含む可能性が高い。
したがって、電子メールの送信者の表示名に関する条件を、抽出条件として使用することができる。
電子メールの受信者の表示名は、例えば、電子メールのヘッダに含まれる「To:」行や「Cc:」行や「Bcc:」行から取得することができる。
電子メールの受信者の表示名に機密情報関連用語が含まれる場合、その電子メールは、機密情報を含む可能性が高い。
したがって、電子メールの受信者の表示名に関する条件を、抽出条件として使用することができる。
電子メールの件名は、例えば、電子メールのヘッダに含まれる「Subject:」行から取得することができる。
電子メールの件名に機密情報関連用語が含まれる場合、その電子メールは、機密情報を含む可能性が高い。
したがって、電子メールの件名に関する条件を、抽出条件として使用することができる。
電子メールの本文に機密情報関連用語が含まれる場合、その電子メールは、機密情報を含む可能性が高い。
また、電子メールの本文には、ホームページなどのURL(Uniform Resource Locator)が記載される場合があるが、メールマガジンやダイレクトメールなどには、その組織の外部にあるドメインを参照するURL(以下「外部参照URL」と呼ぶ。)が大量に記載される場合がある。そこで、外部参照URLの数が所定の数以上であれば、その電子メールは、機密情報を含まない可能性が高い。
したがって、電子メールの本文に関する条件を、抽出条件として使用することができる。
電子メールの添付ファイルのファイル名は、例えば、MIME(Multipurpose Internet Mail Extension)ヘッダから取得することができる。
電子メールの添付ファイルのファイル名に機密情報関連用語が含まれる場合、その添付ファイルは、機密情報を含む可能性が高い。
したがって、電子メールの添付ファイルのファイル名に関する条件を、抽出条件として使用することができる。
電子メールの添付ファイルに含まれるテキストは、例えば、添付ファイルのファイルタイプに適合するアプリケーションにより添付ファイルをデコードすることにより取得することができる。
電子メールの添付ファイルに含まれるテキストに機密情報関連用語が含まれる場合、その添付ファイルは、機密情報を含む可能性が高い。
したがって、電子メールの添付ファイルに含まれるテキストに関する条件を、抽出条件として使用することができる。
電子メールの送信日時は、例えば、電子メールのヘッダに含まれる「Date:」行から取得することができる。
電子メールの送信日時は、それだけでは、その電子メールが機密情報を含むか否かを判定できないが、機密情報を機密として管理する期限が定められている場合などにおいて、機密管理期間中であるか否かを判定することにより、その電子メールが機密情報を含むか否かを判定できる。
したがって、電子メールの送信日時に関する条件を、抽出条件として使用することができる。
抽出条件判定部122は、CPU911を用いて、抽出条件記憶部121が記憶した抽出条件データが表わす抽出条件に基づいて、機密情報を確実に含む電子メール、及び、機密情報を確実に含まない電子メールを抽出する。
分類条件学習部131は、CPU911を用いて、抽出条件判定部122が抽出した電子メールを、機密情報を含むデータのサンプル、もしくは、機密情報を含まないデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習する。
分類条件記憶部132は、磁気ディスク装置920を用いて、分類条件学習部131が学習した分類条件を表わす分類条件データを記憶する。
対象データ分類部151は、CPU911を用いて、分類条件記憶部132が記憶した分類条件データが表わす分類条件に基づいて、電子メールを、機密情報を含む電子メールと、機密情報を含まない電子メールとに分類する。
その結果、抽出される電子メールの数は、データ分類装置100が入力する電子メールの数と比較して非常に少ないものとなる。しかし、メールサーバ装置820が、日常的に大量の電子メールを中継するものであれば、データ分類装置100は、大量の電子メールを入力する。したがって、抽出条件判定部122は、分類条件学習部131が十分な学習をするために必要な数の電子メールを抽出することができる。
上記抽出条件判定部122は、上記処理装置(CPU911)を用いて、電子メールの送信者のメールアドレスと、電子メールの受信者のメールアドレスと、電子メールの送信者の表示名と、電子メールの受信者の表示名と、電子メールの件名と、電子メールの本文と、電子メールの添付ファイルのファイル名と、電子メールの添付ファイルに含まれるテキストと、電子メールの送信日時とのうち少なくともいずれかに関する条件を、上記所定の抽出条件とし、上記学習データ入力部111が入力した電子メールが上記所定の抽出条件に合致するか否かを判定する。
また、ネットワーク上を大量に流れている電子メールのなかから、学習サンプルを抽出するので、誤抽出により分類条件学習部131が間違った分類条件を学習するのを防ぐため、抽出条件を厳格なものに設定しても、分類条件学習部131が分類条件を学習するのに十分な量の学習サンプルを得ることができる。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力した電子メールが上記所定の抽出条件(機密抽出条件)に合致すると上記抽出条件判定部122が判定した場合に、上記電子メールを、機密情報を含むデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習する。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力した電子メールが上記所定の抽出条件(非機密抽出条件)に合致すると上記抽出条件判定部122が判定した場合に、上記電子メールを、機密情報を含まないデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習する。
実施の形態5について、図11〜図17を用いて説明する。
説明の便宜上、ネットワークシステム800は、3つのドメイン(対象組織ドメイン801と、対象外ドメイン802、契約組織ドメイン803)から構成されるものとする。
契約組織ドメイン803は、対象組織ドメイン801との契約等によりなんらかの取引関係がある組織のドメインである。例えば、取引先、顧客や、関係会社などが当てはまる。
対象外ドメイン802は、対象組織ドメイン801でなく、契約組織ドメイン803にも含まれないドメインである。
対象外ドメイン802及び契約組織ドメイン803は、例えば、メールサーバ装置830、ユーザの端末装置810にて構成されている。
各ドメイン801〜803は、インターネット940などのネットワークを通じて接続されている。各端末装置810は、メールサーバ装置820,830およびネットワークを通じて、電子メールを送受信する。なお、端末装置の数や、メールサーバ装置の構成は、任意の数、任意の構成であってもよい。
メールサーバ装置820は、メールフィルタ部200(データ分類装置)を有する。
メールフィルタ部200は、メールサーバ装置820を通過する電子メールをフィルタリングして、そのまま送出する電子メール、保留して送信者に送出可否を確認する電子メール、破棄する電子メール等に、そのメールの内容や属性に応じて、分類する。
メール入力部211は、CPU911を用いて、メールサーバ装置820を通過しようとする電子メールを入力する。入力メール記憶部212は、入力した電子メールを入力メールとして記憶する。振り分け部221(学習データ入力部、対象データ入力部)は、入力した入力メールを、学習用メール(学習データ)と分類用メール(対象データ)とに振り分ける。学習用メール記憶部222は、学習用メールを記憶する。学習用メールは、メール分類部が、機械学習による分類のための学習サンプルデータとして用いる。分類用メール記憶部223は、分類用メールを記憶する。分類用メールは、メール分類部が、複数のカテゴリ(分類カテゴリ)に分類する。メール分類部が分類したカテゴリに応じて、フィルタ処理部261が、送出、保留、破棄などのフィルタ処理を行う。メールサーバ装置820は、フィルタ処理部261の指示に基いて、送出可能な入力メールを配送先に向けて送出する。
抽出条件記憶部231は、例えば、2つのカテゴリに対して、カテゴリ1抽出条件およびカテゴリ2抽出条件をあらかじめ用意して、記憶している。なお、カテゴリの数は2に限定されるものではなく3以上としてもよい。抽出条件は、システムの管理者等により設定される。
あるいは、分類モードの代わりに学習&分類モードを設けてもよい。学習&分類モードにおいて、振り分け部221は、入力メールを学習用メールと分類用メールの両方に出力する。これにより、常に学習を行って学習データをアップデートしながら分類を行うことができるので、分類対象のデータ内容が時間と共に変化するような場合でも、学習データを常に最新の状態に保ち分類精度を向上させることができる。
まず、メール入力工程S651において、メールサーバ装置820は、ユーザまたはネットワークから電子メールを受信する。メールフィルタ部200では、メール入力部211が、電子メールを入力する。
振り分けモードが学習モードまたは学習&分類モードの場合、学習用メール振り分け工程S652において、振り分け部221は、入力メールを学習用メールとして出力する。
学習工程S653において、メール分類部は、学習用メールに基づいて学習する。
メール入力工程S661において、メールサーバ装置820は、ユーザまたはネットワークから電子メールを受信する。メールフィルタ部200では、メール入力部211が、電子メールを入力する。
振り分けモードが分類モードまたは学習&分類モードの場合、分類用メール振り分け工程S662において、振り分け部221は、入力メールを分類用メールとして出力する。
分類工程S663において、メール分類部は、分類用メールを分類する。
処理決定工程S664において、フィルタ処理部261は、メール分類部の分類結果に応じて、電子メールの処理(送出、保留、破棄、など)を決定する。フィルタ処理部261は、処理内容を送信者宛にメール通知し、送信者に最終判断を仰ぐこととしてもよい。
対処工程S665において、メールサーバ装置820は、処理(送出、保留、破棄、など)を実行する。メールサーバ装置820は、「送出」と決定されたメールを送信先に向けて送出する。メールサーバ装置820は、「保留」と決定されたメールを、メールサーバ装置820に蓄積し、送信者からの指示を待って、送出または破棄する。メールサーバ装置820は、「破棄」と決定されたメールを、受信者側に送出することなく破棄する。
まず、抽出工程S671において、抽出部232は、抽出条件に基いて、学習用メールから抽出を実行する。抽出結果がカテゴリ1に合致した場合、カテゴリ1学習工程S672aへ進む。抽出結果がカテゴリ2に合致した場合、カテゴリ2学習工程S672bへ進む。抽出結果がいずれのカテゴリにも合致しない場合、学習工程S653を終了する。
カテゴリ1学習工程S672aにおいて、学習部241は、学習用メールをカテゴリ1の学習サンプルとして学習を実行する。その後、学習結果更新工程S673へ進む。
カテゴリ2学習工程S672bにおいて、学習部241は、学習用メールをカテゴリ2の学習サンプルとして学習を実行する。その後、学習結果更新工程S673へ進む。
学習結果更新工程S673において、学習結果記憶部242は、学習結果データを更新する。
図16は、この実施の形態における抽出条件記憶部231が記憶するデータの一例を示す図である。
抽出条件記憶部231は、抽出条件テーブル510を記憶する。抽出条件テーブル510は、抽出条件識別データ511と、抽出条件データ512との組を1以上有する。
この例において、抽出部232が正規表現を用いた文字列照合を行うので、抽出条件データ512は、正規表現を用いて記述されている。ただし、この例に示した正規表現は一例であって、RFC2822の規則に従い1ヘッダフィールドの終端を示す改行までの照合を厳密に行う正規表現を作成するほうが好ましい。それによって、より正確な抽出ができる。また、抽出条件「C01」では、宛先に「To」を用いているが、「Cc」を加えた正規表現としてもよい。また、「To」「From」の代わりに、SMTPエンベロープに記載の受信者アドレス(RCPT TO)および送信者アドレス(MAIL FROM)を照合する構成としてもよい。
抽出条件「C04」は、本文または添付ファイル内のテキストに機密情報関連用語が記されているメールを抽出する場合の例である。抽出部232は、文字列照合に先立って、添付ファイル内のテキストを、あらかじめ添付ファイルから取り出して、電子メールの本文の後に連結しておく。これにより、抽出部232は、電子メールの本文と同様に、添付ファイル内のテキストを文字列照合することができる。
抽出条件「C05」は、添付ファイル名に機密情報関連用語が記されているメールを抽出する場合の例である。添付ファイル名は、RFC1806に従ってContent−Dispositionヘッダフィールドのfilenameプロパティをデコードすることで文字列照合が可能である。
以上示したようなメールは機密情報を含む可能性が高い。更に、前述のように抽出条件「C01」「C02」との組み合わせにより、さらにその可能性が高くなり正確な抽出が可能となる。
抽出条件「C07」は、メールアドレスの表示名(RFC2822のdisplay−name)に機密情報関連用語が記されている場合の例である。表示名には、組織名や人名などの情報が含まれているため機密情報検出の手がかりとなる。
抽出条件「N02」は、既知の対象外ドメイン802からのメールを抽出する場合の例である。例えば、メールマガジンの送信元などの既知のドメインを設定しておくことにより、明らかな公開情報を抽出できる。
抽出条件「N03」は、対象組織内から対象外組織へのメールを抽出する場合の例である。例えば、社外団体活動などの公開情報を抽出できる。
抽出条件「N04」は、公開メーリングリストからのメールを抽出する場合の例である。メーリングリストでは、件名にメーリングリスト名が書かれる場合が多く、既知の公開メーリングリスト名を照合することにより、公開情報を抽出できる。
抽出条件「N05」は、本文または添付ファイル内のテキストに外部参照URLが含まれている場合の例である。URLに含まれる既知の対象外組織アドレスやURL出現回数を合わせて判定することにより、メールマガジンやダイレクトメールなどの外部参照URLが多く記載されることの多い公開情報を抽出できる。
抽出部232は、あらかじめ、例えば、ここに示した機密情報関連用語を「|」により結合した文字列を、変数「${機密情報関連用語}」に格納しておく。
そのほか、「△△プロジェクト」などのプロジェクト名(「K04」)、「□□株式会社」「◎◎省」などの取引先名(「K05」)、「DOC10001」などの文書管理番号(「K06」)など、内部で用いられる用語も同様に、内部文書であることを示すので、機密情報関連用語として用いることができる。
なお、機密情報関連用語はこれらに限られるものではない。
そのほか、「〜〜県〜〜市〜〜町〜〜」などの住所(「K08」)、「(03)1111−2222」などの電話番号(「K09」)、「user1@domain1.co.jp」などのメールアドレス(「K10」)、「123 5678 9012 3456」などのクレジットカード番号(「K11」)も、個人情報であることを示す用語として、機密情報関連用語に用いることができる。なお、機密情報関連用語「K08」〜「K11」は、人名「K07」と組み合わせることにより、より正確に、個人情報が含まれる文書を抽出することができる。抽出部232は、「K07」と「K08」〜「K11」の組み合わせのヒット数により、個人情報が含まれる文書であるか判断する構成としてもよい。
(1)複数のサンプル文書(学習データ)を入力する。
(2)あらかじめ複数の分類カテゴリごとに設定された複数の抽出条件により、複数のサンプル文書から各分類カテゴリに対応付けられる文書を抽出する。
(3)分類カテゴリごとに抽出されたサンプル文書を用いて少なくとも1つのアルゴリズムによる機械学習を行うことにより、学習結果データ(分類条件データ)を生成または更新する。
(4)1つ以上の分類対象文書(対象データ)を入力する。
(5)前記アルゴリズムに対応する前記学習結果データ(分類条件データ)を用いる少なくとも1つのアルゴリズムにより、入力された分類対象文書を複数の分類カテゴリに分類する。
(6)分類対象文書の分類結果を出力する。
前記抽出条件は、
(1)送信者メールアドレスまたは受信者メールアドレスの特定ドメインまたは特定アドレスを検出するもの。
(2)メールアドレスの表示名の特定キーワードまたはパターンを検出するもの。
(3)件名の特定キーワードまたはパターンを検出するもの。
(4)本文中の特定キーワードまたはパターンを検出するもの。
(5)添付ファイル中の特定キーワードまたはパターンを検出するもの。
(6)添付ファイル名の特定キーワードまたはパターンを検出するもの。
(7)送信日時が特定範囲に含まれることを検出するもの。
のうちの1つ以上を含む。
機密情報に対応付けられた前記検出条件は、
(1)送信者または受信者メールアドレスが対象組織ドメイン801または契約組織ドメイン803である。
(2)メールアドレスの表示名または件名または本文または添付ファイルまたは添付ファイル名に機密キーワードまたはパターンを含む。
のうち少なくとも1つを含む。
非機密情報に対応付けられた前記検出条件は、
(1)送信者メールアドレスが対象組織ドメイン801でも契約組織ドメイン803でもない。
(2)送信者メールアドレスがメールマガシン送信元を含む既知の対象外ドメイン802である。
(3)送信者メールアドレスが対象組織ドメイン801であって、受信者メールアドレスが対象外ドメイン802である。
(4)件名にメーリングリスト名を含む特定のキーワードまたはパターンを含む。
(5)本文または添付ファイル内に外部参照URLが指定の数以上含まれている。
のうち少なくとも1つを含む。
機密情報に対応付けられた前記検出条件の特定キーワードは、
(1)機密等級ラベルを示すキーワードまたはパターン。
(2)機密文書種類を示すキーワードまたはパターン。
(3)内部組織名またはその略称を示すキーワードまたはパターン。
(4)内部プロジェクト名を示すキーワードまたはパターン。
(5)取引先名を示すキーワードまたはパターン。
(6)文書管理番号を示すキーワードまたはパターン。
(7)個人情報を示すキーワードまたはパターン。
のうち少なくとも1つを含む。
非機密情報に対応付けられた前記検出条件は、
(1)機密情報に対応付けられた検出条件を全く含まない。
(2)文書ファイル名または文書内に機密ではないことを示すキーワードまたはパターンを含む。
のうち少なくとも1つを含む。
前記抽出するステップにおいて、正規表現フィルタが抽出を行う。
実施の形態6について、図18を用いて説明する。
文書管理システム850は、文書サーバ装置860、端末装置810、監査装置870を有する。
文書サーバ装置860、端末装置810、監査装置870は、LAN942を介して互いに接続している。
端末装置810は、CPU911などの処理装置を用いて、文書サーバ装置860が記憶した文書ファイルを取得し、取得した文書ファイルを表示するなどして出力する。また、端末装置810は、CPU911を用いて、文書ファイルを入力し、文書サーバ装置860に記憶させる。
監査装置870は、文書入力部871、データ分類装置100、監査結果表示部872を有する。
データ分類装置100は、CPU911を用いて、文書入力部871が入力した文書ファイルを、機密情報を含む文書ファイルと、機密情報を含まない文書ファイルとに分類する。また、データ分類装置100は、文書入力部871が入力した文書ファイルを学習データとして、機密情報を含む文書ファイルと、機密情報を含まない文書ファイルとを分類する分類条件を学習する。
監査結果表示部872は、CPU911を用いて、データ分類装置100が分類した分類結果に基づいて、文書管理が適切か否かを判定し、判定した結果を表示する。
文書ファイルのファイル名が、機密情報関連用語を含む場合、その文書ファイルは、機密情報を含む可能性が高い。
したがって、文書ファイルのファイル名に関する条件を、抽出条件として使用することができる。
文書ファイルに含まれるテキストが機密情報関連用語を含む場合、その文書ファイルは、機密情報を含む可能性が高い。
したがって、文書ファイルに含まれるテキストに関する条件は、抽出条件として使用することができる。
文書ファイルの更新日時は、電子メールの送信日時と同様、機密情報を機密として管理する期限が定められている場合などにおいて、機密管理期間中であるか否かを判定することにより、その文書ファイルが機密情報を含むか否かを判定できる。
したがって、文書ファイルの更新日時に関する条件を、抽出条件として使用することができる。
文書ファイルの所有者(作成者など)が、機密情報を扱う担当者である場合、その文書ファイルが機密情報を含む可能性がある。
したがって、文書ファイルの所有者に関する条件を、抽出条件として使用することができる。
文書ファイルの更新者が、機密情報を扱う担当者である場合、その文書ファイルが機密情報を含む可能性がある。
したがって、文書ファイルの更新者に関する条件を、抽出条件として使用することができる。
文書ファイルのアクセス権限が制限されている場合、その文書ファイルが機密情報を含む可能性が高い。
したがって、文書ファイルのアクセス権限に関する条件を、抽出条件として使用することができる。
したがって、文書ファイルのファイルタイプに関する条件を、抽出条件として使用することができる。
文書ファイルのヘッダに機密情報関連用語が含まれている場合、その文書ファイルが機密情報を含む可能性が高い。
したがって、文書ファイルに含まれるヘッダに関する条件を、抽出条件として使用することができる。
文書ファイルのフッタに機密情報関連用語が含まれている場合、その文書ファイルが機密情報を含む可能性が高い。
したがって、文書ファイルに含まれるフッタに関する条件を、抽出条件として使用することができる。
上記抽出条件判定部122は、上記処理装置(CPU911)を用いて、データファイルのファイル名と、データファイルに含まれるテキストと、データファイルの更新日時と、データファイルの所有者と、データファイルの更新者と、データファイルのアクセス権限と、データファイルのファイルタイプと、データファイルに含まれるヘッダと、データファイルに含まれるフッタとのうち、少なくともいずれかに関する条件を、上記所定の抽出条件とし、上記学習データ入力部111が入力したデータファイルが上記所定の抽出条件に合致するか否かを判定する。
上記分類条件学習部131は、上記処理装置(CPU911)を用いて、上記学習データ入力部111が入力したデータファイルが上記所定の抽出条件に合致すると上記抽出条件判定部122が判定した場合に、上記データファイルを、機密情報を含むデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習する。
実施の形態7について、図19〜図20を用いて説明する。
監査実行部320は、PCなどの計算機により構成される。監査実行部320は、分類用ファイル取得部321、ファイル分類部322、分類結果表示部323を備える。監査実行部320は、監査対象記憶装置890上のファイルの分類を行って結果を表示し、機密文書ファイルが適正に管理されているかどうかを確認できるようにする。
分類用ファイル取得部321は、ユーザが指定した監査対象記憶装置890から全てのフォルダの全てのファイルを分類用ファイルとして取得する。取得した分類用ファイルは、ファイル分類部322が分類する。ファイル分類部322は、学習結果データ記憶部319が記憶した学習結果データを用いて分類を行い、分類結果を出力する。学習結果データは、学習データ作成部310が作成したものであり、学習データ作成部310と監査実行部320とが別の計算機上に構成された場合、例えば、ネットワークやリムーバブルメディアなどを通じてコピーされた学習結果データを用いてもよい。分類結果表示部323は、少なくとも、分類したファイル名(フルパスを含む)と分類結果とを表示する。その他、ファイルの属性(更新日時、作成者など)を表示してもよいし、ファイル分類部322が分類時にスコアを出力する分類方式あれば、そのスコアを表示してもよい。
抽出条件「C11」は、ファイル名に機密情報関連用語が記されている場合である。
抽出条件「C12」は、ファイル内のテキストに機密情報関連用語が記されている場合である。
抽出条件「C13」は、ファイルの作成/更新日付が指定の範囲内に入っている場合に抽出を行う。機密文書は、時間と共に機密度が変化するという特性を持っている。ある時点では機密文書であっても、論文発表や特許出願、広報発表等を行った日から機密ではなくなるという場合がある。また、作成から何年間は機密として保持するという組織内規則が設けられる場合もある。そのような場合でも、日付範囲により正しく抽出が可能となる。
抽出条件「C15」は、ファイルのアクセス権が特定のユーザ/グループに設定されている場合で、これも上述と同様である。また、機密度の高いファイルはファイルサーバにおいても限られた権限を持つユーザにしかアクセスが許可されないことが多いため、ファイルやそのファイルが属するフォルダのアクセス権の違いにより機密度の判定が可能である。
抽出条件「C16」は、ファイルタイプが特定のタイプの場合であり、例えば特定のCADシステムにて作成した設計データが機密情報として扱われる場合には、その特定のCADシステムに関連付けられたファイルタイプをファイルの拡張子等を用いて検出することにより機密情報の検出が可能である。
抽出条件「C18」は、ファイル内の文書の書式が特定の書式である場合である。例えば文書中に表が含まれており、その中に個人情報(「K07」〜「K11」)が含まれる場合には、その文書は個人情報リストを含んでいる可能性が高い。ここで述べたファイルの内部構造の抽出は、ファイルをHTMLやXMLなどの形式に変換することで抽出可能となる。例えば、ISO/IEC26300として規格化されているOpenDocument Format(ODF)を用いた文書ファイルであれば、XMLヘッダを解析することにより文書内の特定の構造を抽出することができる。
また、抽出条件「N11」にて示されるように、機密用抽出条件を含まないという形で表してもよい。ただし、非機密用抽出条件は、機密用抽出条件のNOTでなくてよい。非機密用抽出条件は、正確に抽出された学習サンプルを提供するための条件であるから、例えば、以下のように抽出条件を設定する。機密用抽出条件「C11」を「K01 OR K02」とした場合(「C11−1」とする)と、機密用抽出条件「C12」を「K01 OR K02 OR K03 OR K04 OR K05 OR K06」とした場合(「C12−1」とする)とを比較すると、「C11−1」では、抽出されるファイル数は少ないが、ファイル名に機密等級ラベルや機密文書種類が付いていた場合には非常に高い確率で機密文書であると言える。一方「C12−1」は、ファイル内容にこれらの用語を含む文書ファイルが抽出されるため、抽出される範囲が広くなるが、誤抽出されるファイルも増える。逆に言えば、非機密用抽出条件を「NOT C12−1」とすれば、非機密サンプルとして抽出されるファイルは減るが、誤って機密ファイルが抽出される確率は低くなる。したがって、機密用抽出条件には、「C11−1」を設定すればより正確に機密サンプルを抽出でき、非機密用抽出条件には、「NOT C12−1」を設定すればより正確に非機密サンプルを抽出できる。
前記抽出条件は、
(1)文書ファイル名に含まれる特定キーワードまたはパターンを検出するもの。
(2)文書内に含まれる特定キーワードまたはパターンを検出するもの。
(3)文書の更新日付が特定範囲に含まれることを検出するもの。
(4)文書ファイルの所有者または更新者が特定ユーザであることを検出するもの。
(5)文書ファイルのアクセス権が特定ユーザまたは特定グループに設定されていることを検出するもの。
(6)文書ファイルのファイルタイプが特定のタイプであることを検出するもの。
(7)文書内のヘッダ/フッタに含まれる特定キーワードまたはパターンを検出するもの。
(8)文書内の書式に表形式を含む特定の形式を検出し、該形式内に特定キーワードまたはパターンを検出するもの。
のうち少なくとも1つを含む。
実施の形態8について、図21を用いて説明する。
なお、実施の形態5と共通する部分については、同一の符号を付し、ここでは説明を省略する。
メールフィルタ部200は、実施の形態5で説明した機能ブロックに加えて、更に、分類用検出条件記憶部252、検出部253、結果併合部254を有する。
分類部251は、分類用文書を入力すると、学習結果データを用いて分類を行って結果を出力する。
結果併合部254は、分類部251の分類結果、検出部253の抽出結果のうち、いずれか1つでも優先されるカテゴリに合致する結果があればそのカテゴリを分類結果とする。例えば、カテゴリ1を機密情報、カテゴリ2を非機密情報としたとき、情報漏洩防止のために機密情報である可能性があるものはできるだけ多く機密情報と分類したいという要求があるので、カテゴリ1(機密情報)を優先カテゴリとする。結果併合部254は、いずれか一つの分類結果または抽出結果がカテゴリ1(機密情報)である場合に最終的な分類結果を機密情報とする。これにより、漏れの少ない機密情報検出ができる。
検出部253は、分類用カテゴリ1検出条件および分類用カテゴリ2検出条件による抽出結果が、両方のカテゴリにて抽出する場合もあり得る。その場合には、上記のようにカテゴリ1を優先するようにしてもよいし、それぞれの抽出時に、文字列照合にて合致した用語の数(ヒット数)の多いほうの抽出結果を優先するようにしてもよい。
前記複数の分類カテゴリの少なくとも1つに対して設定された分類用検出条件を用いて入力された分類対象文書を複数の分類カテゴリに分類する。
分類用検出条件による分類結果と前記機械学習による分類結果を併合して分類対象文書の分類結果とする。
前記分類用検出条件による分類結果と前記機械学習による分類結果のうち少なくとも1つの結果がある特定の分類カテゴリに分類された場合に、その分類カテゴリを分類結果とする。
Claims (14)
- データを処理する処理装置と、学習データ入力部と、抽出条件判定部と、分類条件学習部とを有し、
上記学習データ入力部は、上記処理装置を用いて、学習データを入力し、
上記抽出条件判定部は、上記処理装置を用いて、上記学習データが所定の分類カテゴリに属する場合に満たされる所属条件を、所定の抽出条件とし、上記学習データ入力部が入力した学習データが上記所定の抽出条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した学習データが上記所定の抽出条件に合致すると上記抽出条件判定部が判定した場合に、上記学習データを、上記所定の分類カテゴリに属するデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習することを特徴とするデータ分類装置。 - 上記抽出条件判定部は、上記処理装置を用いて、上記学習データが所定の分類カテゴリに属さない場合に満たされる非所属条件を、上記所定の抽出条件とし、上記学習データ入力部が入力した学習データが上記非所属条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した学習データが上記非所属条件に合致すると上記抽出条件判定部が判定した場合に、上記学習データを、上記所定の分類カテゴリに属さないデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習することを特徴とする請求項1に記載のデータ分類装置。 - 上記抽出条件判定部は、上記処理装置を用いて、上記学習データが機密情報を含む場合に満たされる機密条件を、上記所定の抽出条件とし、上記学習データ入力部が入力した学習データが上記機密条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した学習データが上記機密条件に合致すると上記抽出条件判定部が判定した場合に、上記学習データを、機密情報を含むデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習することを特徴とする請求項1または請求項2に記載のデータ分類装置。 - 上記抽出条件判定部は、上記処理装置を用いて、上記学習データが機密情報を含まない場合に満たされる非機密条件を、上記所定の抽出条件とし、上記学習データ入力部が入力した学習データが上記非機密条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した学習データが上記非機密条件に合致すると上記抽出条件判定部が判定した場合に、上記学習データを、機密情報を含まないデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習することを特徴とする請求項1乃至請求項3のいずれかに記載のデータ分類装置。 - 上記学習データ入力部は、上記処理装置を用いて、電子メールを、上記学習データとして入力し、
上記抽出条件判定部は、上記処理装置を用いて、電子メールの送信者のメールアドレスと、電子メールの受信者のメールアドレスと、電子メールの送信者の表示名と、電子メールの受信者の表示名と、電子メールの件名と、電子メールの本文と、電子メールの添付ファイルのファイル名と、電子メールの添付ファイルに含まれるテキストと、電子メールの送信日時とのうち少なくともいずれかに関する条件を、上記所定の抽出条件とし、上記学習データ入力部が入力した電子メールが上記所定の抽出条件に合致するか否かを判定することを特徴とする請求項1乃至請求項4のいずれかに記載のデータ分類装置。 - 上記抽出条件判定部は、上記処理装置を用いて、電子メールの送信者のメールアドレスが表わす送信者の所属ドメインが所定の内部ドメインであることと、電子メールの受信者のメールアドレスが表わす受信者の所属ドメインが所定の内部ドメインであることと、電子メールの送信者の表示名が機密情報を含むことを表わすキーワードを含むことと、電子メールの受信者の表示名が機密情報を含むことを表わすキーワードを含むことと、電子メールの件名が機密情報を含むことを表わすキーワードを含むことと、電子メールの本文が機密情報を含むことを表わすキーワードを含むことと、電子メールの添付ファイルのファイル名が機密情報を含むことを表わすキーワードを含むことと、電子メールの添付ファイルに含まれるテキストが機密情報を含むことを表わすキーワードを含むこととのうち、少なくともいずれかの条件を満たすことを、上記所定の抽出条件とし、上記学習データ入力部が入力した電子メールが上記所定の抽出条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した電子メールが上記所定の抽出条件に合致すると上記抽出条件判定部が判定した場合に、上記電子メールを、機密情報を含むデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習することを特徴とする請求項5に記載のデータ分類装置。 - 上記抽出条件判定部は、上記処理装置を用いて、電子メールの送信者のメールアドレスが表わす送信者の所属ドメインが所定の関連ドメインでないことと、電子メールの受信者のメールアドレスが所定の公開メールアドレスであることと、電子メールの受信者のメールアドレスが表わす受信者の所属ドメインが所定の関連ドメインでないことと、電子メールの件名が機密情報を含まないことを表わすキーワードを含むことと、電子メールの本文が外部参照URL(Uniform Resource Locator)を所定の数以上含むこととのうち、少なくともいずれかの条件を満たすことを、上記所定の抽出条件とし、上記学習データ入力部が入力した電子メールが上記所定の抽出条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力した電子メールが上記所定の抽出条件に合致すると上記抽出条件判定部が判定した場合に、上記電子メールを、機密情報を含まないデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習することを特徴とする請求項5または請求項6に記載のデータ分類装置。 - 上記学習データ入力部は、上記処理装置を用いて、ファイル記憶装置が記憶したデータファイルを、上記学習データとして入力し、
上記抽出条件判定部は、上記処理装置を用いて、データファイルのファイル名と、データファイルに含まれるテキストと、データファイルの更新日時と、データファイルの所有者と、データファイルの更新者と、データファイルのアクセス権限と、データファイルのファイルタイプと、データファイルに含まれるヘッダと、データファイルに含まれるフッタとのうち、少なくともいずれかに関する条件を、上記所定の抽出条件とし、上記学習データ入力部が入力したデータファイルが上記所定の抽出条件に合致するか否かを判定することを特徴とする請求項1乃至請求項7のいずれかに記載のデータ分類装置。 - 上記抽出条件判定部は、上記処理装置を用いて、データファイルのファイル名と、データファイルのテキストと、データファイルに含まれるヘッダと、データファイルに含まれるフッタとのうち、少なくともいずれかが、機密等級ラベルを表わすキーワードと、機密文書種類を表わすキーワードと、内部組織名を表わすキーワードと、取引先名を表わすキーワードと、文書管理番号を表わすキーワードと、個人情報を表わすキーワードとのうち、少なくともいずれかを含むことを上記所定の抽出条件とし、上記学習データ入力部が入力したデータファイルが上記所定の抽出条件に合致するか否かを判定し、
上記分類条件学習部は、上記処理装置を用いて、上記学習データ入力部が入力したデータファイルが上記所定の抽出条件に合致すると上記抽出条件判定部が判定した場合に、上記データファイルを、機密情報を含むデータのサンプルとして、機密情報を含むデータと、機密情報を含まないデータとを分類する分類条件を学習することを特徴とする請求項8に記載のデータ分類装置。 - 上記データ分類装置は、更に、対象データ入力部と、対象データ分類部とを有し、
上記対象データ入力部は、上記処理装置を用いて、対象データを入力し、
上記対象データ分類部は、上記処理装置を用いて、上記分類条件学習部が学習した分類条件に基づいて、上記対象データ入力部が入力した対象データを分類することを特徴とする請求項1乃至請求項9のいずれかに記載のデータ分類装置。 - 上記データ分類装置は、更に、検出条件判定部と、分類併合部とを有し、
上記検出条件判定部は、上記処理装置を用いて、上記対象データ入力部が入力した対象データが所定の検出条件を満たすか否かを判定し、
上記対象データ分類部は、上記処理装置を用いて、上記分類条件学習部が学習した分類条件に基づいて、上記対象データ入力部が入力した対象データを、所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとに分類し、
上記分類併合部は、上記処理装置を用いて、上記対象データ入力部が入力した対象データが上記所定の検出条件を満たすと上記検出条件判定部が判定した場合、および、上記対象データ入力部が入力した対象データを所定の分類カテゴリに属するデータに上記対象データ分類部が分類した場合に、上記対象データ入力部が入力した対象データが上記所定の分類カテゴリに属すると判定することを特徴とする請求項10に記載のデータ分類装置。 - 上記検出条件判定部は、上記処理装置を用いて、上記抽出条件判定部が判定する所定の抽出条件を、上記所定の検出条件とし、上記対象データ入力部が入力した対象データが所定の検出条件を満たすか否かを判定することを特徴とする請求項11に記載のデータ分類装置。
- データを処理する処理装置を有するコンピュータが実行するコンピュータプログラムにおいて、
上記コンピュータを、請求項1乃至請求項12のいずれかに記載のデータ分類装置として機能させることを特徴とするコンピュータプログラム。 - データを処理する処理装置を有するデータ分類装置がデータを分類するデータ分類方法において、
上記処理装置が、学習データを入力し、
上記処理装置が、上記学習データが所定の分類カテゴリに属する場合に満たされる所属条件を、所定の抽出条件とし、入力した学習データが上記所定の抽出条件に合致するか否かを判定し、
上記処理装置が、入力した学習データが上記所定の抽出条件に合致すると判定した場合に、上記学習データを、上記所定の分類カテゴリに属するデータのサンプルとして、上記所定の分類カテゴリに属するデータと、上記所定の分類カテゴリに属さないデータとを分類する分類条件を学習することを特徴とするデータ分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008237376A JP5288959B2 (ja) | 2008-09-17 | 2008-09-17 | データ分類装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008237376A JP5288959B2 (ja) | 2008-09-17 | 2008-09-17 | データ分類装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010072779A true JP2010072779A (ja) | 2010-04-02 |
JP5288959B2 JP5288959B2 (ja) | 2013-09-11 |
Family
ID=42204521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008237376A Active JP5288959B2 (ja) | 2008-09-17 | 2008-09-17 | データ分類装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5288959B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012095971A1 (ja) * | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体 |
JP2014529833A (ja) * | 2011-09-07 | 2014-11-13 | シマンテックコーポレーションSymantec Corporation | バックアップ及びアーカイビングのための企業及び私用データの自動分離 |
JP2015018487A (ja) * | 2013-07-12 | 2015-01-29 | ヤフー株式会社 | 情報処理装置、システム、サーバ装置、端末及び情報処理方法 |
CN104573012A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 可收缩步长的多类别集成学习分类方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
KR101887629B1 (ko) * | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | 자연어기반 정보공개분류시스템 |
JP2019061419A (ja) * | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN109993233A (zh) * | 2016-06-13 | 2019-07-09 | 第四范式(北京)技术有限公司 | 基于机器学习来预测数据审核目标的方法及系统 |
JP2020107296A (ja) * | 2018-12-26 | 2020-07-09 | コットンキャンディ カンパニー リミテッド | ファイルシステム基盤の高速探索、完全削除、シンボリックリンクを利用した個人情報保護システム及びその方法 |
KR102249635B1 (ko) * | 2020-11-06 | 2021-05-10 | 주식회사 웨이센 | Ai 예측 모델을 이용한 2개의 예측 결과의 학습 데이터 추가 방법 |
US11222282B2 (en) | 2018-09-21 | 2022-01-11 | International Business Machines Corporation | Sourcing a new machine-learning project by reusing artifacts from reference machine learning projects |
JP2023004607A (ja) * | 2021-06-28 | 2023-01-17 | Nttテクノクロス株式会社 | 誤送信防止装置、誤送信防止方法、及びプログラム |
JP7510760B2 (ja) | 2020-01-15 | 2024-07-04 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報処理システム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067068A (ja) * | 1998-08-21 | 2000-03-03 | Nec Corp | ドキュメント自動分類システム及び方法 |
JP2006209649A (ja) * | 2005-01-31 | 2006-08-10 | Nec Corp | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム |
WO2008062822A1 (fr) * | 2006-11-22 | 2008-05-29 | Nec Corporation | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte |
-
2008
- 2008-09-17 JP JP2008237376A patent/JP5288959B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067068A (ja) * | 1998-08-21 | 2000-03-03 | Nec Corp | ドキュメント自動分類システム及び方法 |
JP2006209649A (ja) * | 2005-01-31 | 2006-08-10 | Nec Corp | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム |
WO2008062822A1 (fr) * | 2006-11-22 | 2008-05-29 | Nec Corporation | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5460887B2 (ja) * | 2011-01-13 | 2014-04-02 | 三菱電機株式会社 | 分類ルール生成装置及び分類ルール生成プログラム |
US9323839B2 (en) | 2011-01-13 | 2016-04-26 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
WO2012095971A1 (ja) * | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体 |
JP2014529833A (ja) * | 2011-09-07 | 2014-11-13 | シマンテックコーポレーションSymantec Corporation | バックアップ及びアーカイビングのための企業及び私用データの自動分離 |
JP2017102966A (ja) * | 2011-09-07 | 2017-06-08 | シマンテック コーポレーションSymantec Corporation | バックアップ及びアーカイビングのための企業及び私用データの自動分離 |
JP2015018487A (ja) * | 2013-07-12 | 2015-01-29 | ヤフー株式会社 | 情報処理装置、システム、サーバ装置、端末及び情報処理方法 |
CN104573012A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 可收缩步长的多类别集成学习分类方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN109993233B (zh) * | 2016-06-13 | 2022-11-01 | 第四范式(北京)技术有限公司 | 基于机器学习来预测数据审核目标的方法及系统 |
CN109993233A (zh) * | 2016-06-13 | 2019-07-09 | 第四范式(北京)技术有限公司 | 基于机器学习来预测数据审核目标的方法及系统 |
JP2019061419A (ja) * | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
KR101887629B1 (ko) * | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | 자연어기반 정보공개분류시스템 |
US11222282B2 (en) | 2018-09-21 | 2022-01-11 | International Business Machines Corporation | Sourcing a new machine-learning project by reusing artifacts from reference machine learning projects |
JP2020107296A (ja) * | 2018-12-26 | 2020-07-09 | コットンキャンディ カンパニー リミテッド | ファイルシステム基盤の高速探索、完全削除、シンボリックリンクを利用した個人情報保護システム及びその方法 |
JP7510760B2 (ja) | 2020-01-15 | 2024-07-04 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報処理システム |
KR102249635B1 (ko) * | 2020-11-06 | 2021-05-10 | 주식회사 웨이센 | Ai 예측 모델을 이용한 2개의 예측 결과의 학습 데이터 추가 방법 |
JP2023004607A (ja) * | 2021-06-28 | 2023-01-17 | Nttテクノクロス株式会社 | 誤送信防止装置、誤送信防止方法、及びプログラム |
JP7269283B2 (ja) | 2021-06-28 | 2023-05-08 | Nttテクノクロス株式会社 | 誤送信防止装置、誤送信防止方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5288959B2 (ja) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5288959B2 (ja) | データ分類装置及びコンピュータプログラム | |
CN108259415B (zh) | 一种邮件检测的方法及装置 | |
US7222157B1 (en) | Identification and filtration of digital communications | |
US8131742B2 (en) | Method and system for processing fraud notifications | |
US9600806B2 (en) | Electronic message systems and methods | |
KR100918599B1 (ko) | 잠재적 수신자를 식별하는 방법 및 장치 | |
US9602453B2 (en) | Smart attachment to electronic messages | |
US20050060643A1 (en) | Document similarity detection and classification system | |
US20060168006A1 (en) | System and method for the classification of electronic communication | |
JP4817952B2 (ja) | メール誤送信防止システム、メール誤送信防止方法、およびメール誤送信防止プログラム | |
US20120215853A1 (en) | Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features | |
US20130031183A1 (en) | Electronic mail processing and publication for shared environments | |
US20080133672A1 (en) | Email safety determination | |
KR20080024165A (ko) | 정보 검색 및 디스플레이 방법과 컴퓨터 판독가능 매체 | |
US20060092920A1 (en) | Method and apparatus for assigning cost metrics to electronic messages | |
US20060195542A1 (en) | Method and system for determining the probability of origin of an email | |
Sethi et al. | Spam email detection using machine learning and neural networks | |
JP3420516B2 (ja) | 電子メールの広告効果確認方法および電子メールの広告効果確認プログラムを記録した記録媒体 | |
JP5584608B2 (ja) | 電子メールの誤送信の判定方法、判定プログラム、通信装置 | |
JP4920471B2 (ja) | メールデータ分類装置、メールデータ分類プログラム及びメールデータ分類方法 | |
JP4998302B2 (ja) | メール誤配信防止システム、メール誤配信防止方法、及びメール誤配信防止用プログラム | |
JP5220202B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
JP5220200B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
Iqbal | Messaging forensic framework for cybercrime investigation | |
JP4885780B2 (ja) | 異経路警告装置、異経路警告プログラム及び異経路警告方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20121207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130109 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130430 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5288959 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |