JP2010198498A - 情報処理装置及び情報処理方法及びプログラム - Google Patents

情報処理装置及び情報処理方法及びプログラム Download PDF

Info

Publication number
JP2010198498A
JP2010198498A JP2009044762A JP2009044762A JP2010198498A JP 2010198498 A JP2010198498 A JP 2010198498A JP 2009044762 A JP2009044762 A JP 2009044762A JP 2009044762 A JP2009044762 A JP 2009044762A JP 2010198498 A JP2010198498 A JP 2010198498A
Authority
JP
Japan
Prior art keywords
document
user
detection condition
distinction
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009044762A
Other languages
English (en)
Other versions
JP5213758B2 (ja
Inventor
Yoshio Matsumoto
良央 松本
Mamoru Kato
守 加藤
Mitsunori Kori
光則 郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009044762A priority Critical patent/JP5213758B2/ja
Publication of JP2010198498A publication Critical patent/JP2010198498A/ja
Application granted granted Critical
Publication of JP5213758B2 publication Critical patent/JP5213758B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

【課題】機密文書を非機密文書から峻別する検出条件を生成し、また企業等の部門をまたがった検出条件のマージを効率的に行う。
【解決手段】学習サンプル文書記憶部303が機密文書のサンプルデータを複数格納しており、マージ実行権行使ユーザにマージ実行権が認められている複数の部門に対応する複数のサンプルデータを検出条件生成部106が取得し、検出条件生成部106が、取得したサンプルデータの特徴量を抽出し、抽出した特徴量をマージして複数の部門の機密文書を非機密文書から峻別できる検出条件を生成する。
【選択図】図1

Description

本発明は、複数のサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を用いて、特定種類のデータ(機密情報等)を他の種類のデータ(非機密情報等)から峻別して抽出するための条件を生成する技術に関する。
本発明に関連する技術として、特許文献1に開示の技術と特許文献2に開示の技術がある。
特許文献1では、認証された権限に基づいてデータベースアクセスを行う機密情報管理システムにおいて、認証された権限の解析結果とレコード選択条件に従ってSQLによるデータベースアクセスを可能にすることが開示されている。
より具体的には、特許文献1では、機密情報に対しては特定の所属先や職位に該当する利用者にのみアクセス権限を付与することで限定された利用者だけがアクセスできるようにしている。
特許文献2では、機密文書のアクセス権をマージする処理を支援する設定確認表示装置、設定確認表示方法、およびそのプログラムについて開示されている。
より具体的には、電子文書の各機密部分に設定された複数のアクセス権の一致度合いを判定してアクセス権のマージ処理を行っている。
特開2001−34519号公報 特開2004−272423号公報
例えば、組織ごとに機密文書と非機密文書が管理されている環境において、2つの組織の機密文書を非機密文書と峻別して検出するためには、2つの組織の機密文書に横断的に適用できる検出条件を設定する必要があるが、特許文献1及び特許文献2のいずれにおいても、複数の組織にまたがって機密文書を抽出可能な検出条件を生成することは記載されていない。
本発明は、このような点に鑑み、複数の組織にまたがって横断的に機密文書を非機密文書から峻別して抽出できる検出条件を生成する仕組みを提供することを主な目的とする。
本発明に係る情報処理装置は、
それぞれが複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶部と、
前記複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択部と、
前記項目選択部により選択された取得対象項目の各々に対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを用いて、特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成部とを有することを特徴とする。
本発明によれば、2つ以上の取得対象項目の各々に対応するサンプルデータを用いて峻別条件を生成するため、1つの峻別条件で2つ以上の取得対象項目にまたがって特定種類のデータを他の種類のデータから峻別して抽出することが可能であり、このため、1つの峻別条件で2つ以上の組織にまたがって機密文書データを非機密文書データから峻別して抽出することが可能である。
実施の形態1に係る機密文書監査システムの構成例を示す図。 実施の形態1に係る学習サンプル文書と作成・管理部門等との関係例を示す図。 実施の形態1に係るファイルシステムの構造例を示す図。 実施の形態1に係るマージ実行権付与ユーザ認証テーブルの例を示す図。 実施の形態1に係るマージ実行権行使ユーザ認証テーブルの例を示す図。 実施の形態1に係る検索ユーザ認証テーブルの例を示す図。 実施の形態1に係る権限テーブルの例を示す図。 実施の形態1に係る機密文書監査システムの動作例を示すフローチャート図。 実施の形態1に係るマージ実行権の設定時の動作例を示すフローチャート図。 実施の形態1に係るマージ実行権行使ユーザのログイン時の動作例を示すフローチャート図。 実施の形態1に係るマージ候補の学習サンプル文書の表示例を示す図。 実施の形態1に係るマージ候補の学習サンプル文書と配布用検出条件の表示例を示す図。 実施の形態1に係るマージ候補の配布用検出条件の表示例を示す図。 実施の形態1に係る機密文書リストファイルと非機密文書リストファイルの例を示す図。 実施の形態1に係る配布用検出条件の生成時の動作例を示すフローチャート図。 実施の形態1に係るファイルシステムの構造例を示す図。 実施の形態1に係る機密文書リストファイルと非機密文書リストファイルの例を示す図。 実施の形態1に係る機密文書リストファイルと非機密文書リストファイルの例を示す図。 実施の形態1に係る検出条件のマージ動作の例を示すフローチャート図。 実施の形態1に係る検出条件のマージ動作の例を示すフローチャート図。 実施の形態1に係る検索結果のアップロード時の動作例を示すフローチャート図。 実施の形態1に係る検出条件の評価時の動作例を示すフローチャート図。 実施の形態1に係る権限の設定ファイル仕様の例を示す図。 実施の形態1に係る管理者の設定ファイル仕様の例を示す図。 実施の形態1に係る組織のツリー構造を説明する図。 実施の形態1に係る権限テーブルの例を示す図。 実施の形態1に係る権限の設定ファイル仕様の例を示す図。 実施の形態2に係る機密文書監査システムの構成例を示す図。 実施の形態2に係る正規表現の検出条件と作成・管理部門等との関係例を示す図。 実施の形態2に係るファイルシステムの構造例を示す図。 実施の形態2に係る機密文書監査システムの動作例を示すフローチャート図。 実施の形態2に係るマージ候補の正規表現の検出条件の表示例を示す。 実施の形態2に係るマージ候補の正規表現の検出条件と配布用検出条件の表示例を示す図。 実施の形態2に係るマージ候補の配布用検出条件の表示例を示す図。 実施の形態2に係る正規表現ファイルの例を示す図。 実施の形態2に係るファイルシステムの構造例を示す図。 実施の形態2に係る正規表現ファイルの例を示す図。 実施の形態2に係る正規表現ファイルの例を示す図。 実施の形態1および2に係る機密文書監査システムのハードウェア構成例を示す図。
実施の形態1.
図1は、本実施の形態に係る機密文書監査システム100の構成を示す。
図1に示す各要素の詳細を説明する前に、まず、本実施の形態に係る機密文書監査システム100の動作の概要を説明する。
なお、機密文書監査システム100は情報処理装置の例である。
学習サンプル文書記憶部303には、検出条件を生成する際に利用されるサンプルデータである学習サンプル文書が記憶されている。
検出条件とは、特定種類のデータを他の種類のデータから峻別するための峻別条件であり、特定種類のデータに含まれる特徴量が示される。
以下では、特定種類のデータを機密文書のデータ(以下、単に機密文書ともいう)とし、他の種類のデータを非機密文書のデータ(以下、単に非機密文書ともいう)として説明する。
このため、学習サンプル文書記憶部303には、機密文書のサンプルデータが複数格納されている。また、学習サンプル文書記憶部303には、非機密文書のサンプルデータが格納されていてもよい。
また、詳細は後述するが、学習サンプル文書記憶部303には学習サンプル文書の他に検出条件が格納されている場合がある。
学習サンプル文書記憶部303は、サンプルデータ記憶部と峻別条件記憶部の例である。
検出条件は、検出条件生成部106により生成される。また、検出条件は、検出条件生成部106によりマージされる。検出条件生成部106は峻別条件生成部の例である。
検出条件生成部106は、学習サンプル文書記憶部303に記憶されている複数の学習サンプル文書を解析して各学習サンプル文書の特徴量を抽出し、抽出した特徴量を反映させた検出条件を生成する。
このため、ある文書データに、機密文書データの検出条件に示される特徴量が含まれていれば、その文書データを機密文書データに分類することができる。
特徴量とは、文書の特徴を定量化したものであり、例えば学習サンプル文書の集合において、ある単語が現れる頻度を学習サンプル中の全ての単語に対して算出したものが特徴量となる。そして、特徴量を機密文書と非機密文書のそれぞれについて算出することにより、ある単語が機密文書に属する確率が高いのか、非機密文書に属する確率が高いのかを求めることができる。
また、特徴量としては、他に、単語ではなく特定の長さの文字列や、バイト列、ビット列の出現頻度を示すものであってもよいし、後述するHyperspaceやSupport Vector Machineなどの場合には、一つの学習サンプル文書に含まれる単語(または文字列、バイト列、ビット列)の有無(または文書内の出現頻度)をベクトル化して特徴量として保存することになる。
また、検出条件生成部106は、生成済の検出条件をマージして新たな検出条件を生成する。
また、検出条件生成部106は、生成された検出条件を複数種類のデータ(具体的には、検索対象文書記憶部307に蓄積されているデータであり、学習サンプル文書以外のデータ)に適用した際に機密文書データが正しく峻別されたか否かについての評価結果に基づいて、検出条件を更新する。
より具体的には、検出条件生成部106は、評価において、機密文書でないにもかかわらず機密文書であると判定されたデータ及び機密文書であるにもかかわらず機密文書でないと判定されたデータの少なくともいずれかについての情報に基づいて、検出条件を更新する。
また、本実施の形態に係る機密文書監査システム100は、企業等の複数のサブ組織(部門、部署等)が存在する組織において文書データを管理することを想定しており、検出条件生成部106は、前述のように、複数の検出条件を統合して、複数のサブ組織にまたがる機密文書を検出するための検出条件を生成する。
より具体的には、学習サンプル文書記憶部303は複数の学習サンプル文書を組織内の複数の部門(項目、サブ組織)に対応付けて記憶しており、文書グループ選択部105が学習サンプル文書の取得対象となる部門(検出条件の生成対象となる部門)(取得対象項目)を選択し、検出条件生成部106が選択された部門の学習サンプル文書を学習サンプル文書記憶部303から取得し、各部門の学習サンプル文書の特徴量を抽出し、抽出した特徴量をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する。
また、前述したように、学習サンプル文書記憶部303は、生成済みの検出条件を格納している場合がある。学習サンプル文書記憶部303では、生成済みの検出条件をいずれかの部門(項目)に対応付けて記憶している。
そして、検出条件生成部106は、ある部門に対応付けられている学習サンプル文書から特徴量を抽出するとともに、生成済みの検出条件を取得し、検出条件生成部106が、学習サンプル文書から抽出した特徴量を抽出するとともに、抽出した特徴量と生成済みの検出条件をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する場合がある。
また、検出条件生成部106は、検出条件同士のマージ、つまり、ある部門に対応付けられている生成済みの検出条件と、他の部門に対応付けられている生成済みの検出条件をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する場合がある。
なお、文書グループ選択部105は項目選択部の例である。
また、マージ実行権行使ユーザ端末202は、複数の部門にまたがる機密文書を検出するための検出条件の生成の実行権限を有するユーザ、つまり、特徴量のマージの実行権限を有するマージ実行権行使ユーザが利用する端末装置である。
そして、権限テーブル記憶部306には、マージ実行権行使ユーザのマージ実行権限が及ぶ部門が示される権限テーブルが記憶されている。権限テーブルには、マージ実行権行使ユーザごとに、当該ユーザに検出条件の生成が認められている2以上の部門(項目、サブ組織)、つまり、すなわち、いずれの部門の学習サンプル文書を用いて検出条件を生成することができるかが示されている。権限テーブルはユーザ権限項目情報の例であり、権限テーブル記憶部306はユーザ権限項目情報記憶部の例である。
また、マージ実行権設定部103は、マージ実行権付与ユーザ端末201からの指示に従って、所定のユーザにマージ実行権を設定する。マージ実行権設定部103によりマージ実行権が設定されたユーザがマージ実行権行使ユーザとなる。
また、マージ実行権付与ユーザ端末201は、マージ実行権の設定権限を有するマージ実行権付与ユーザが利用する端末装置である。
以上を前提に、図1に示す各要素の詳細を説明する。
機密文書監査システム100は、機密情報を自動検出するための検出条件に従いファイルサーバやPC(Personal Computer)上のファイルを検査して機密情報を自動検出する。
マージ実行権付与ユーザ端末201は、複数の検出条件をマージする時にその検出条件を使うことのできる権利であるマージ実行権を付与するマージ実行権付与ユーザが利用する端末装置であり、マージ実行権付与ユーザが利用者IDとパスワードおよびマージ実行権を設定するための入出力機能を有する。
マージ実行権付与ユーザ認証部101は、入力された利用者IDとパスワードを認証する。
マージ実行権付与ユーザ認証テーブル記憶部301は、マージ実行権付与ユーザ認証部101の認証のためのユーザ認証データを格納する。
マージ実行権設定部103は、マージ実行権付与ユーザ認証部101により認証を受けてログインしたマージ実行権付与ユーザの指示に従い、いずれかのユーザにマージ実行権を設定する。
権限テーブル記憶部306は、マージ実行権設定部103により設定されたマージ実行権の内容を示す権限テーブルを格納する。
マージ実行権行使ユーザ端末202は、マージ実行権設定部103によりマージ実行権を付与され、マージ実行権を行使するマージ実行権行使ユーザが利用する端末装置であり、マージ実行権行使ユーザが利用者IDとパスワードおよび文書グループを選択するための入出力機能を有する。
マージ実行権行使ユーザ認証部102は、入力された利用者IDとパスワードを認証する。
マージ実行権行使ユーザ認証テーブル記憶部302は、マージ実行権行使ユーザ認証部102の認証のためのユーザ認証データを格納する。
学習サンプル文書記憶部303は、複数のグループ(部門)の学習サンプル文書を記憶しており、学習サンプル文書にはグループ(部門)別のアクセス権が設定されている。
文書管理部104は、学習サンプル文書のアクセス権と学習サンプル文書中の機密情報を検出するためのリストファイル401を管理する。
リストファイル401は、文書管理部104により検出条件の生成の対象となる学習サンプル文書を列挙したリストである。
文書グループ選択部105は、学習サンプル文書記憶部303に格納されている学習サンプル文書の中から、認証されたマージ実行権行使ユーザがマージ実行権を有しているグループの学習サンプル文書を選択して抽出する。
検出条件生成部106は、文書グループ選択部105により選択された学習サンプル文書ファイルを入力とし、特定のグループに属する検出条件を生成する。
配布用検出条件402は、検出条件生成部106で生成された検出条件である。
検索ユーザ端末203は、機密情報を検索する検索ユーザが利用する端末装置であり、検索ユーザの利用者IDとパスワードおよび配布用検出条件402を取得するための入出力機能を有する。
検索ユーザ認証部107は、入力された利用者IDとパスワードを認証する。
検索ユーザ認証テーブル記憶部304は、検索ユーザ認証部107の認証のためのユーザ認証データを格納する。
検索部108は、検索ユーザ認証部107により認証を受けてログインした検索ユーザが検出条件生成部106が生成した配布用検出条件402を取得してPCやファイルサーバ等の検索対象文書記憶部307に格納されている検索対象文書から機密情報を検索する。
検索結果表示部111は、検索により取得した結果をPC等の画面に表示する。
検索結果記憶部305は、検索ユーザ端末203が機密文書監査システム100にアップロードした検索結果を一時的に記憶する。
検索結果評価部112は、検索ユーザ端末203が取得した検索結果を評価し検索結果に誤りがある場合にファイル毎に正解を入力する。
学習サンプルアップロード部113は、検索結果評価部112で検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードして学習サンプル文書記憶部303に保存する。
図2は、学習サンプル文書と作成・管理部門、アクセス権、マージ実行権、検出条件の関係例を示す図である。
例えば、部門Aが作成・管理する学習サンプル文書Aと部門Bが作成・管理する学習サンプル文書Bがあり、その文書に対するアクセス権を学習サンプル文書AにはユーザA1とユーザA2が持ち、学習サンプル文書BにはユーザB1とユーザB2が持つ場合に、アクセス権にオーバライドする形でマージ実行権を付与する。
図2の例では、ユーザB1に検出条件Aと検出条件Bのマージ実行権が付与されている。
図3は、OS(Operating System)のファイルシステムが持つファイル構造例を示す図で、部門Aに所属するユーザは学習サンプル文書Aにアクセスできることを表し、部門Bに所属するユーザは学習サンプル文書Bにアクセスできることを表す。
図3において、文書名中のaaa、bbb、cccは、拡張子である。各文書は、ドキュメントファイル、表計算ファイル等である。
文書管理部104は、このOSのファイルシステムにより実現し、例えば部門AにユーザA1とユーザA2が所属し部門BにユーザB1とユーザB2が所属する場合には、学習サンプル文書Aのアクセス権はユーザA1とユーザA2が保有し、学習サンプル文書Bのアクセス権はユーザB1とユーザB2が保有する。
部門A、部門Bのフォルダと、それぞれに含まれる機密、非機密のフォルダの構成は固定的に決まるようにできる。例えばフォルダ名を後述するような部門IDとし、その直下に機密、非機密のフォルダが固定的に定義されるような構成とすることができる。別な例では、学習サンプル文書の機密文書サンプルと非機密文書サンプルのフォルダをそれぞれ複数個、部門毎に指定するような構成とすることで、よりフレキシブルに学習サンプル文書管理を行うことができる。
図4は、マージ実行権付与ユーザ認証テーブル記憶部301に格納されている情報(マージ実行権付与ユーザ認証テーブル)の内容例を示す図で、ユーザタイプは、0がシステム管理者、1が部門管理者を表す。
システム管理者とは全ての権限を有する管理者を表し、部門管理者とは特定の「部門」に限った権限を有する管理者を表す。
また、「部門」とはこの機密文書監査システムにおける検出条件管理の最小のまとまりの単位のことで、例えば図2の例の部門Aや部門Bがそれに相当する。
図5は、マージ実行権行使ユーザ認証テーブル記憶部302に格納されている情報(マージ実行権行使ユーザ認証テーブル)の内容例を示す図で、ユーザタイプは、1の部門管理者のみが格納される。
図6は、検索ユーザ認証テーブル記憶部304に格納されている情報(検索ユーザ認証テーブル)の内容例を示す図で、ユーザタイプは、0がシステム管理者、1が部門管理者、2が一般検索ユーザを表す。
一般検索ユーザとは、配布用検出条件402を使って検索対象文書記憶部307に対して検索を行うユーザを表す。
なお、一般検索ユーザには、前記システム管理者や部門管理者を含むことができる。
図7は、権限テーブル記憶部306に格納されているマージを実行するユーザの権限情報の内容例を示す図で、許可部門とは検出条件の作成のために学習サンプル文書の利用を許可する他の部門を表し、条件の種類は、0が人手作成、1が自動学習を表す。
人手作成とは、人手による正規表現の検出条件作成を表し、実施の形態2で詳しく説明する。
自動学習とは、実施の形態1のように学習サンプル文書を使った自動学習による検出条件作成を表す。
また、図7では、許可部門には、他の部門、すなわちユーザが所属している部門以外の部門のみが記述されているが、許可部門にユーザが所属している部門を記述するようにしてもよい。
次に学習サンプル文書を使った機密文書監査システムにおける機密情報検索結果がアップロードされるまでの一連の流れの概要について図8を用いて説明する。
まず、S101で、マージ実行権付与ユーザがマージ実行権付与ユーザ端末201を利用して、ユーザIDとパスワードを入力して機密文書監査システム100にログインする。
次に、S102で、マージ実行権付与ユーザがマージ実行権付与ユーザ端末201を利用して、管理者ユーザにマージ実行権を付与する。
次に、前記S102においてマージ実行権を付与されたマージ実行権行使ユーザがマージ実行権行使ユーザ端末202を利用して、S103において、機密文書監査システム100にログインする。
次に、S104で、マージ実行権行使ユーザ端末202が権限テーブル記憶部306からマージ実行権行使ユーザの保有する権限情報を取得し、取得した権限情報に対応する文書グループをマージ実行権行使ユーザに提示する。
次に、S105で、文書グループ選択部105が、マージ実行権行使ユーザからの指定に基づき、マージする文書グループあるいは後に説明するS109で生成した配布用検出条件402を選択する。
次に、S106で、文書管理部104が、文書グループ選択部105が選択した文書グループの学習サンプル文書をリストファイル401に記述し、あるいは、文書管理部104が、文書グループ選択部105が選択した配布用検出条件402をリストファイル401に記述し、リストファイル401を検出条件生成部106に渡す。
次に、検出条件生成部106が、前記S106で取得したリストファイル401に示される学習サンプル文書の特徴量を抽出し、抽出した特徴量をマージし、あるいは前記S106で取得したリストファイル401に示される配布用検出条件402をマージし配布用検出条件を生成する(S107)。
生成された配布用検出条件402は、対象となる部門が示されて、例えば、学習サンプル文書記憶部303に格納される。また、配布用検出条件402は別の記憶領域に記憶されてもよい。
次に、S108で、検索ユーザが検索ユーザ端末203を利用して、機密文書監査システム100にログインする。
次に、S109で、検索ユーザ端末203が検出条件生成部106で生成された配布用検出条件402を検索部108にて取得する。
次に、S110で、検索ユーザは、取得した配布用検出条件402を使って文書グループ選択部105にて再学習するか判定する。
再学習する場合はS105へ進み、再学習しない場合はS111で取得した配布用検出条件402を使って検索部108にて検索対象文書記憶部307の機密情報の検索を実行する。
次に、S112で、検出された機密情報の検索結果を検索結果表示部111で表示する。
次に、S113で、検出した検索結果を機密文書監査システム100にアップロードする。
次に、マージ実行権付与ユーザ認証部101とマージ実行権付与ユーザ端末201が機密文書監査システム100にログインする動作(S101)およびマージ実行権設定部103(S102)について図2、図9を用いてより詳細に説明する。
まず、マージ実行権付与ユーザ端末201が機密文書監査システム100のマージ実行権付与ユーザ認証部101にアクセスし、利用者IDとパスワードを入力する(S201)。
次に、マージ実行権付与ユーザ認証部101が、入力された利用者IDとパスワードがマージ実行権付与ユーザ認証テーブル記憶部301に登録されているか否かのチェックを行い(S202)、チェック結果がOKである場合は、マージ実行権付与ユーザ端末201が機密文書監査システム100にログインする(S203)。
次に、マージ実行権付与ユーザがマージ実行権付与ユーザ端末201を利用して、マージ実行権設定部103にて任意の管理者ユーザにマージ実行権を付与し(S204)、マージ実行権設定部103はその管理者ユーザのユーザIDをマージ実行権行使ユーザ認証テーブル記憶部302のマージ実行権行使ユーザテーブに格納する。
また、マージ実行権設定部103は、マージ実行権行使ユーザのマージ実行権の内容を権限テーブルに書き込む。
例えば、図2の例では、マージ実行権は、元々持つアクセス権にオーバライドする形で学習サンプル文書AにはユーザA1、ユーザA2、ユーザB1に、学習サンプル文書BにはユーザB1、ユーザB2に付与される。
次に、マージ実行権行使ユーザ認証部102とマージ実行権行使ユーザ端末202が機密文書監査システム100にログインする動作(S103)について図2、図10を用いてより詳細に説明する。
まず、マージ実行権行使ユーザ端末202が、機密文書監査システム100のマージ実行権行使ユーザ認証部102にアクセスし、利用者IDとパスワードを入力する(S301)。
次に、マージ実行権行使ユーザ認証部102が、入力された利用者IDとパスワードがマージ実行権行使ユーザ認証テーブル記憶部302に登録されているか否かのチェックを行い(S302)、チェック結果がOKである場合は、マージ実行権行使ユーザ端末202は機密文書監査システム100にログインする(S303)。
図2の場合、例えば学習サンプル文書Aと学習サンプル文書Bの両方にマージ実行権を持つユーザB1がマージ実行権行使ユーザであり、機密文書監査システム100にログインする。
次に、文書管理部104と文書グループ選択部105および検出条件生成部106について図2、図8、図11を用いてより詳細に説明する。
まず、文書グループ選択部105が権限テーブル記憶部306からマージ実行権行使ユーザに対する権限情報を取得し(S104)、マージ実行権行使ユーザに権限のある文書グループ(マージ実行権行使ユーザが所属する部門および図7の許可部門)を取得し、マージ実行権行使ユーザに対して、取得した文書グループを提示する。
マージ実行権行使ユーザでは、提示された文書グループからマージする文書グループを選択し、マージ実行権行使ユーザ端末202から文書グループの選択指示が文書グループ選択部105に送られ、文書グループ選択部105が選択指示に従って、対象となる文書グループを選択する(S105)。
次に、文書管理部104が、文書グループ選択部105が選択した文書グループに対応する学習サンプル文書をリストファイル401に記述する(S106)。
次に、検出条件生成部106が、文書グループ選択部105で選択した文書グループの学習サンプル文書(リストファイル401に記述されている学習サンプル文書)を入力し、入力した学習サンプル文書から特徴量を抽出するとともに、抽出した特徴量をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S107)。
図2の例では、マージ実行権行使ユーザであるユーザB1の選択可能な学習サンプル文書は学習サンプル文書Aと学習サンプル文書Bであり、図11のように文書グループ選択部105はユーザB1が選択可能な学習サンプル文書をマージ実行権行使ユーザ端末202上に提示し、ユーザB1は提示された学習サンプル文書からマージ対象の文書の選択を行う。
次に、文書グループ選択部105において配布用検出条件を入力に用いる場合の文書管理部104と文書グループ選択部105および検出条件生成部106について図8、図12、図13を用いてより詳細に説明する。
まず、文書グループ選択部105が権限テーブル記憶部306からマージ実行権行使ユーザに対する権限情報を取得し(S104)、マージ実行権行使ユーザに権限のある文書グループを取得し、マージ実行権行使ユーザに対して、取得した文書グループを提示する。また、マージ実行権行使ユーザに権限のある文書グループについて配布用検出条件402が生成済である場合は、その文書グループの配布用検出条件402をマージ実行権行使ユーザに提示する。
マージ実行権行使ユーザでは、提示された文書グループからマージする文書グループを選択し、また、提示された配布用検出条件402の中からマージする配布用検出条件402を選択し、マージ実行権行使ユーザ端末202から文書グループ又は配布用検出条件402の選択指示が文書グループ選択部105に送られ、文書グループ選択部105が選択指示に従って、対象となる文書グループ又は配布用検出条件402を選択する(S105)。
次に、文書管理部104が、文書グループ選択部105が選択した文書グループに対応する学習サンプル文書をリストファイル401に記述する。また、配布用検出条件402が選択された場合は、配布用検出条件402をリストファイル401に記述する(S106)。
次に、検出条件生成部106が、文書グループ選択部105で選択した文書グループの学習サンプル文書又は配布用検出条件402(リストファイル401に記述されている学習サンプル文書又は配布用検出条件402)を入力する。学習サンプル文書を入力した場合は、検出条件生成部106は、入力した学習サンプル文書から特徴量を抽出する。また、抽出した特徴量と配布用検出条件402、または配布用検出条件402同士をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S107)。
図12の例では、学習サンプル文書から抽出される特徴量と検出条件生成部106で先に生成した配布用検出条件402のマージを行い、図13の例では、検出条件生成部106で先に生成した複数の配布用検出条件402のマージを行う。
ここで、例えば文書グループとして学習サンプル文書Aと学習サンプル文書Bを選択した場合の特徴量のマージ方法と配布用検出条件の生成方法について図3と図14を用いてより詳細に説明する。
まず、マージ実行権行使ユーザ端末202が学習サンプル文書Aを選択すると、文書管理部104が、図3で機密文書として対象となる文書のファイル名ax1.aaa、ax2.bbb、ax3.cccを図14の機密文書リストファイルf001に記述し、非機密文書として対象となる文書のファイル名ao1.aaa、ao2.bbb、ao3.cccを図14の非機密文書リストファイルf002に記述する。
同様に学習サンプル文書Bを選択すると、文書管理部104が、図3で機密文書として対象となる文書のファイル名bx1.aaa、bx2.bbb、bx3.cccを図14の機密文書リストファイルf001に追記し、非機密文書として対象となる文書のファイル名bo1.aaa、bo2.bbb、bo3.cccを図14の非機密文書リストファイルf002に追記する。
これらによって機密文書リストファイルf001と非機密文書リストファイルf002が作成され、前記リストファイルを使って検出条件生成部106にて配布用検出条件402が生成される。
検出条件生成部106は、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。
非特許文献1にはHidden Markov Model、Orthogonal Sparse Bigrams、WINNOW、Correllation、KNN/Hyperspace、Bit Entropyなどの機械学習による分類方法を用いて文書の分類が可能なソフトウェアが開示されており、これらを検出条件生成部106および検索部108として用いることができる。
これらの方法の他にも、非特許文献2にあるように、Support Vector Machine、Neural Networkなどの分類方法や、Classifier Committeesと呼ばれる、複数の分類方法の組み合わせによる方法を用いることもできる。
非特許文献1
「CRM114−the Controllable Regex Multilator」
http://crm114.sourceforge.net/
非特許文献2
F.Sebastiani, Machine Learning in Automated Text Categorisation, ACM Computing Surveys, Volume34 Issue1,p.1−47, March 2002
検出条件生成部106が配布用検出条件402を生成する動作について図15を用いて説明する。
本動作は、図11に示すように、配布用検出条件402の生成対象が学習サンプル文書である場合に対応する。
まず、検出条件生成部106は、S401にて、配布用検出条件を初期化する。
次に、検出条件生成部106は、S402にて、図14における機密文書リストファイルf001に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、検出条件生成部106は、S403にて、機密文書リストファイルf001上の次のファイルを1件取得する。
残りの文書ファイルがない場合、S406にステップは移動する。
次に、検出条件生成部106は、S404にて、取得したファイルから機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S405にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部106は、S406にて、図14における非機密文書リストファイルf002に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S407にて非機密文書リストファイルf002上の次のファイルを1件取得する。
残りの文書ファイルがない場合、S410にステップは移動する。
次に、検出条件生成部106は、S408にて取得したファイルから非機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S409にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部106は、S410にて、機密文書リストファイルf001または非機密文書リストファイルf002に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S402にステップは移動する。
残りの文書ファイルがない場合、S411にて配布用検出条件を出力する。
そして、図14に示す機密文書リストファイルf001及び非機密文書リストファイルf002に対して図15の処理が行われた場合、機密文書リストファイルf001の学習サンプル文書Aの機密文書(3文書)の各々の特徴量と学習サンプル文書Bの機密文書(3文書)の各々の特徴量がマージされ、部門A及び部門Bに対する機密文書の配布用検出条件402が生成され、学習サンプル文書Aの非機密文書(3文書)の各々の特徴量と学習サンプル文書Bの非機密文書(3文書)の各々の特徴量がマージされ、部門A及び部門Bに対する非機密文書の配布用検出条件402が生成される。
なお、ここでは、非機密文書の配布用検出条件402も生成することとしたが、機密文書の配布用検出条件402のみを生成するようにしてもよい。
別の例として、文書グループとして学習サンプル文書A’と先に生成された配布用検出条件を選択した場合の検出条件のマージ方法と配布用検出条件の生成方法について図14、図16、図17、図18を用いてより詳細に説明する。
まず、マージ実行権行使ユーザ端末202が学習サンプル文書A’を選択すると、文書管理部104が、図16で機密文書として対象となる文書のファイル名ax1.aaa、ax2.bbb、ax3.cccを図17の機密文書リストファイルf003に追記し、非機密文書として対象となる文書のファイル名ao1.aaa、ao2.bbb、ao3.ccc、ao4.dddを図17の非機密文書リストファイルf004に追記する。
あるいは図18のように図14の機密文書リストファイルf001と図16の機密文書の対象となる文書、図14の非機密文書リストファイルf002と図16の非機密文書の対象となる文書の比較を行い差分のみのリストファイルを生成することもできる。
検出条件生成部106には図14のリストファイルおよび、図17または図18の機密文書リストファイルと非機密文書ファイルが入力され、配布用検出条件402が生成される。
次に、文書グループとして学習サンプル文書A’と先に生成された配布用検出条件を選択した場合の検出条件のマージ方法の動作について、図19を用いて説明する。
まず、S501にて、検出条件生成部106が、配布用検出条件を入力する。
次に、検出条件生成部106は、S502にて、図14における機密文書リストファイルf001に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S503にて機密文書リストファイルf001上の次のファイルを1件取得する。
残りの文書ファイルがない場合、S506にステップは移動する。
次に、検出条件生成部106は、S504にて取得したファイルから機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S505にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部106は、S506にて、図14における非機密文書リストファイルf002に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S507にて非機密文書リストファイルf002上の次の文書ファイルを1件取得する。
残りの文書ファイルがない場合、S510にステップは移動する。
次に、検出条件生成部106は、S508にて取得したファイルから非機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S509にて抽出された特徴量を検出条件に追加する。
次に、検出条件生成部106は、S510にて、機密文書リストファイルf001または非機密文書リストファイルf002に残りのファイルがあるか判定する。
残りのファイルがある場合、S502にステップは移動する。
残りのファイルがない場合、S511にて、配布用検出条件を出力する。
別の例として、図13のように配布用検出条件Aと配布用検出条件Bを選択した場合の検出条件のマージ方法について図20を用いてより詳細に説明する。
まず、検出条件生成部106は、S601にて、配布用検出条件を入力する。
次に、検出条件生成部106は、S602にて、配布用検出条件に含まれる機密文書、非機密文書それぞれの特徴量を抽出する。
次に、検出条件生成部106は、S603にて、配布用検出条件の残りがあるか判定する。
残りがない場合、検出条件生成部106は、S604にて抽出した全ての特徴量で機密/非機密のそれぞれをマージし新たな特徴量とする。
残りがある場合、検出条件生成部106は、S601にステップは移動する。
次に、S605にて、配布用検出条件を出力する。
なお、以上の説明では、検出条件生成部106は、2以上の部門の学習サンプル文書の特徴量をマージして配布用検出条件を生成する例を説明したが、1つの部門の学習サンプル文書の特徴量を抽出して、抽出した特徴量を反映させた検出条件を配布用検出条件としてもよい。
以下では、検索ユーザが配布用検出条件を用いて機密文書を抽出する手順以降を説明するが、以下の説明における配布用検出条件は、2以上の部門の学習サンプル文書に基づく配布用検出条件、1つの部門の学習サンプル文書に基づく配布用検出条件のいずれであってもよい。
次に、検索ユーザ認証部107と検索ユーザ端末203が機密文書監査システム100にログインして(S108)から検索結果をアップロードする(S111)までの一連の動作について図5、図21を用いてより詳細に説明する。
まず、検索ユーザ端末203が機密文書監査システム100の検索ユーザ認証部107にアクセスし、利用者IDとパスワードを入力する(S701)。
次に、検索ユーザ認証部107が、入力された利用者IDとパスワードが検索ユーザ認証テーブル記憶部304に登録されているか否かのチェックを行い(S702)、チェック結果がOKである場合、検索ユーザ端末203は機密文書監査システム100にログインする(S703)。
次に、検索ユーザ端末203は、検出条件生成部106で生成した配布用検出条件402を取得し(S704)、その配布用検出条件402を使って検索対象文書記憶部307に対する機密情報の検索を行う(S705)。
次に、検出された検索結果を検索結果表示部で表示する(S706)。
次に、検出結果を機密文書監査システム100にアップロードする(S707)。
次に、機密文書監査システム100にログインした検索ユーザが検索部108にて取得した検索結果を評価してから、検出条件の更新をするまでの一連の動作について図22を用いてより詳細に説明する。
まず、検索ユーザ端末203が検索部108にて取得した検索結果を検索ユーザが検索結果評価部112にて評価する。
評価した結果が正しければ終了し、正しくなければ検索結果評価部112にてその結果を訂正し(S801)、学習サンプルアップロード部113にて検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードする(S802)。
検索結果の評価は、検索結果を検索ユーザが実際に目視により確認し、検出条件に合った検索結果かどうかを確認する。
具体的には、学習サンプル文書Aの特徴量と学習サンプル文書Bの特徴量をマージした検出条件により他の文書について検索を行う場合、検索部108において、マージした検出条件の機密文書の特徴量および非機密文書の特徴量によりその文書について機密か非機密であるかの判定が行われる。そして、検索において、本来機密文書と判定されるべきものが非機密文書と判定されたり、またその逆に判定されたりする場合があるので、検索ユーザがそれを目視によって確認し、誤りがあれば訂正する。
そして、学習サンプルアップロード部113が、検索ユーザによる評価結果、訂正結果の情報をアップロードし、検出条件生成部106が、検索ユーザによる評価結果、訂正結果の情報に基づいて、配布用検出条件402を更新する。
アップロードされることで、新しい学習サンプルファイルが準備されることになり学習サンプルファイルが増えることで次の検索時の検索精度を高めることができる。
また、文書ファイルからのテキストの抽出は、例えば既存のテキスト抽出ソフトウェアを用いることで実現できる。
また、文書ファイルからの特徴の抽出については、前述のとおり、文書ファイルから上記テキスト抽出を行った結果のテキストに対して、単語/文字列/バイト列/ビット列の出現頻度(または有無)を算出する。但し、バイト列/ビット列の場合には、必ずしもテキスト抽出を行う必要はなく、文書ファイルのバイナリから直接特徴抽出を行うことも可能である。
また、検索結果が誤りとされたファイルそのものではなく、そのファイルから抽出されたテキストまたは特徴をアップロードすることで、アップロードするデータのサイズを削減することができる。
なお、検出条件の更新の方法は、例えば、新たにアップロードされた文書データに含まれる特徴量と、検索ユーザにより評価された配布用検出条件に含まれる特徴量とをマージするようにしてもよいし、検索ユーザから削除又は追加するよう要請された特徴量を配布用検出条件から削除又は追加するようにしてもよい。または、他の方法であってもよい。
図23(f007)は、マージ実行権設定部103において設定する権限の設定ファイル仕様を表す。
本設定ファイルはCSVファイル形式で提供され、1行目は設定対象外の行(コメント行)として処理され、2行目以降はマージ実行権行使ユーザのユーザ名、ユーザID、検出条件利用許可部門で構成される。
図24(f008)は、マージ実行権付与ユーザ認証部101およびマージ実行権行使ユーザ認証部102において認証に使用されるマージ実行権付与ユーザ認証テーブルおよびマージ実行権行使ユーザ認証テーブルに格納される管理者の設定ファイル仕様を表す。
本設定ファイルはCSVファイル形式で提供され、1行目は設定対象外の行(コメント行)として処理され、2行目以降は管理者ID、管理者グループ、部門名、パスワードで構成される。
以上述べた例は、マージ実行権付与ユーザが所属する部門構造をフラットに表現する場合の例であるが、大規模な組織においては部門構造が階層的になっている場合が多い。
このような場合、部門の階層構造を定義する権限テーブル記憶部306を用意することで、階層条件設定部114により階層間の検出条件マージを行うことができる。
例えば、ボトムアップ的に検出条件を定める場合、すなわち、部の下に課があるような組織において、課のレベルで作成した検出条件をまとめて、部のレベルの検出条件としたいという場合がある。
そのような場合、ある階層において、その下位に属する階層の検出条件のマージ実行権を自動的に付与することにより、マージ実行権付与の作業を省力化できる。
また別の例では、トップダウン的に検出条件を定める場合、すなわち、部の下に課があるような組織において、部で定めた共通的な検出条件に加えて、課において担当分野に特化し細分化した検出条件を定めたいという場合がある。
そのような場合、ある階層において、その上位に属する階層の検出条件のマージ実行権を自動的に付与することにより、マージ実行権付与の作業を省力化できる。
上記、上位または下位階層からのマージ実行権付与については前述のように文書グループ選択部により選択可能としても良いし、選択なしに自動的にマージするようにしてもよい。
次に、前記階層条件設定部114による階層間の検出条件のマージについて図25、図26、図27を用いてより詳しく説明する。
図25は、ある組織のツリー構造を表しA事業部の下にA部、A部の下にAA課およびAB課が構成され、user1はA事業部に、usera1はA部にuseraa1はAA課にuserab1はAB課に所属することを表す。
図26は、図7のマージを実行するユーザの権限情報の内容例を示す図にそのユーザの親部門情報を示す列を加えた図である。
図27(f009)は、図23のマージ実行権設定部103において設定する権限の設定ファイル仕様に利用許可親子部門の列を加えた図である。
図27(f009)の利用許可親子部門の列は、正の整数1であればそのユーザの所属する部門の1つ子の所属部門にも自動的に利用許可を与えることを表し、負の整数−2であればそのユーザの所属する部門の2つ親の部門にも自動的に利用許可を与えることを表す。
例えば図27(f009)の設定ファイルの2行目ではユーザaa1はAB課に検出条件の利用許可を与えるとともに利用許可親子部門−1により図24(f008)の権限テーブルからその親部門であるA部にも同時に利用許可を与えることを示す。
そして、文書グループ選択部105は、権限テーブルの利用許可親子部門の記述に基づき、マージ実行権行使ユーザに直接マージ実行権が認められている部門の他、当該部門の上位階層の部門及び下位階層の部門も選択することができる。
以上説明したように、本実施の形態では、機密文書の特徴量を抽出して、機密文書を非機密情報から峻別するため検出条件を生成するため、システム管理者等が個々の情報の内容を詳細に検討しなくても機密情報を非機密情報から効率的に峻別することができる。
また、検出条件を学習サンプル文書以外の文書に適用して、機密文書の峻別が適正に行われたか否かを評価し、適切に峻別が行われていない場合には、評価結果に基づき検出条件の更新が行われるため、精度よく機密文書を峻別できる検出条件を実現することができる。
また、複数の検出条件をマージさせる際に、アクセス権とは別に検出条件をマージする権利を設定することにより、元となる検出条件にアクセス(読み書き)する権利を持たないユーザが、設定されたマージ実行権に基づいて複数の検出条件をマージして新しく配布用検出条件を生成することができ、検出条件設定担当者ごとにきめ細かい検出条件の利用管理が可能となり、また検出条件をマージする際の効率化を図ることが可能となり、また検出条件を評価することにより検出・評価によって検出結果の精度を向上させることが可能となる。
例えば、ある二つの組織において両方の組織にまたがる文書の機密情報を検出するためには、学習サンプル文書や検出条件をマージして学習させ新しい検出条件を生成する必要があるが、前述した特許文献1及び特許文献2では、特定の担当者に両方の学習サンプル文書や検出条件に対するアクセス権を与えるといった管理が必要であるが、本実施の形態では、このような管理が不要となり、検出条件を設定する特定の担当者に必要な文書や検出条件に対するアクセス権を与えるといった手間をかけることなく、その該当担当者に複数の検出条件をマージする権利を与えることができる。
以上、本実施の形態では、特定の情報を自動検出するために生成した検出条件があって、前記検出条件に従いファイルサーバやPC上のファイルを検査して特定の情報を自動検出する文書検索システムを説明した。
より具体的には、
グループ毎にアクセス権が設定された複数の学習サンプル文書を管理する文書管理手段があって、さらに、
前記文書管理手段において管理された学習サンプル文書による検出条件を選択するユーザのログインを管理するユーザ認証手段があって、さらに、
ユーザ認証手段を経てログインしたユーザが、ある特定のグループに属する検出条件を生成する場合の入力とする学習サンプル文書ファイルのグループの一つを選択可能とする文書グループ選択手段があって、さらに、
前記文書グループ選択手段により選択されたグループに属する文書ファイルを入力とし、前記特定のグループに属する検出条件を生成する検出条件生成手段を
有する文書検索システムを説明した。
また、本実施の形態では、
前記文書グループ選択手段が、複数の学習サンプル文書ファイルを入力とし、
検出条件のマージ実行権は、文書のアクセス権をオーバライドして検出条件のマージ実行時にのみその文書を使うことのできる権利のことで、前記文書管理手段にて管理する異なるグループのアクセス権が設定された複数の学習サンプル文書に対する検出条件のマージ実行権を設定するマージ実行権設定手段があって、さらに、
検出条件のマージ実行権を付与することのできる管理者アカウントを持つマージ実行権付与ユーザのログインを管理するマージ実行権付与ユーザ認証手段があって、さらに、
前記マージ実行権設定手段を用いてマージ実行権を行使するマージ実行権行使ユーザのログインを管理するマージ実行権行使ユーザ認証手段があって、さらに、
前記マージ実行権付与ユーザによりマージ実行権を取得し、前記マージ実行権行使ユーザ認証手段を経てログインしたマージ実行権行使ユーザが、ある特定のグループに属する検出条件を生成する場合の入力とする学習サンプル文書ファイルを、マージ実行権を有するグループの中から複数選択可能とする文書グループ選択手段があって、さらに、
前記文書グループ選択手段により選択されたグループに属する複数文書ファイルを入力とし、前記特定のグループに属する検出条件を生成する検出条件生成手段を
有する文書検索システムを説明した。
また、本実施の形態では、特定の情報が機密情報である文書検索システムを説明した。
また、本実施の形態では、さらに、
前記検出条件生成手段で生成された配布用検出条件を取得する検索ユーザのログインを管理する検索ユーザ認証手段があって、さらに、
前記検索ユーザが前記配布用検出条件を使って検索対象文書から特定の情報を検出する検索手段があって、さらに、
前記検索ユーザが前記検索手段にて検出された検出結果を取得する検索結果表示手段を
有する文書検索システムを説明した。
また、本実施の形態では、前記文書管理手段がOSのファイルシステムが持つファイルのアクセス権管理方法により実現する文書検索システムを説明した。
また、本実施の形態では、前記文書グループ選択手段や前記検出条件選択手段において、すでに生成済みの配布用検出条件を入力の一つ、あるいは二つ以上とする文書検索システムを説明した。
また、本実施の形態では、前記検索条件生成手段において、検出条件のマージに使用する、前回の検索条件生成時のリストファイルや正規表現ファイルと今回のリストファイルや正規表現ファイルとの比較を行い、その差分のみ既存の検出条件をベースにマージやコンパイルする文書検索システムを説明した。
また、本実施の形態では、前記検索ユーザが機密情報の検索結果を前記検索結果表示手段にて取得して、その検出結果を検索ユーザが評価し、検索結果に誤りがある場合にファイル毎に正解を入力する検索結果評価手段と、さらに前記検索結果評価手段にて検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードして文書管理手段にて保存する学習サンプルアップロード手段を備え、アップロードされた学習サンプル文書を用いて検出条件の更新を行う文書検索システムを説明した。
また、本実施の形態では、部門の階層構造を定義する権限テーブルを持ち、上位または下位の階層の検出条件のマージ実行権を自動的に付与する階層条件設定手段を持つ文書検索システムを説明した。
実施の形態2.
図28は、本実施の形態に係る正規表現の検出条件を使った機密情報検出条件管理方法を適用した機密文書監査システム200を示す構成図である。
実施の形態1を表す図1との違いは、学習サンプル文書記憶部303の代わりにグループ毎にアクセス権が設定される複数の正規表現の検出条件を記憶する正規表現の検出条件記憶部308と、文書管理部104の代わりに正規表現の検出条件のアクセス権と正規表現の検出条件の機密情報を検出するリストファイル401を管理する検出条件管理部109と、文書グループ選択部105の代わりにマージ実行権を有するグループの中から正規表現の検出条件を選択可能とする検出条件選択部110が構成されることである。
本実施の形態に係る正規表現の検出条件とは、人手により生成された検出条件である。
つまり、本実施の形態では、検出を行うためのキーワードに人手でリストアップされた検出条件を用いる。
実施の形態1の「自動学習」の場合には、学習サンプル文書から機密と非機密のそれぞれの「特徴」を自動的に算出して、その「特徴」の含まれ方によって検索対象文書が機密なのか非機密なのかを判定するが、「人手による正規表現の検出条件」では、そのような特徴的なキーワードを、文書の中から人手で抽出する必要がある。例えば、機密文書であれば「社外秘」や「取り扱い注意」などのキーワードや、特定の顧客名、あるいは開発プロジェクトの開発仕様などのキーワードを人手により集める必要がある。
検出精度を向上させるために数百〜数千のキーワードをリストアップするのは手間がかかり、さらにキーワードの選び方によっては過剰検出などの問題が発生するため、人が検出精度を見ながら細かな調整を行う必要がある。例えば、「秘」というキーワードを設定すると、上記「社外秘」や「極秘」なども検出できるが、逆に「秘宝」や「秘匿通信」などの関係ないキーワードにより、機密文書ではない文書が過剰検出される。
本実施の形態に係る正規表現による検出条件は、人が調整を行った後の検出条件である。
図29は、実施の形態1で示した図2に対応する。
図29の実施の形態1における図2との違いは、学習サンプル文書Aおよび学習サンプル文書Bの替わりに正規表現の検出条件Aと正規表現の検出条件Bが使用されていることで、図29は正規表現の検出条件と作成・管理部門、アクセス権、マージ実行権関係例を示す図である。
例えば、部門Aが作成・管理する正規表現の検出条件Aと部門Bが作成・管理する正規表現の検出条件Bがあり、その文書に対するアクセス権を正規表現の検出条件AにはユーザA1とユーザA2が持ち、正規表現の検出条件BにはユーザB1とユーザB2が持つ場合に、アクセス権にオーバライドする形でマージ実行権を付与する。
図29の例では、ユーザB1に正規表現の検出条件Aと正規表現の検出条件Bのマージ実行権が付与されている。
図30は、OSのファイルシステムが持つファイル構造例を示す図で、部門Aに所属するユーザは正規表現の検出条件Aにアクセスできることを表し、部門Bに所属するユーザは正規表現の検出条件Bにアクセスできることを表す。
検出条件管理部109は、このOSのファイルシステムにより実現し、例えば部門AにユーザA1とユーザA2が所属し部門BにユーザB1とユーザB2が所属する場合には、正規表現の検出条件Aのアクセス権はユーザA1とユーザA2が保有し、正規表現の検出条件Bのアクセス権はユーザB1とユーザB2が保有する。
また、正規表現の検出条件Aの検出式{1,“A|B|C”}において、カンマで区切られた最初のフィールドが検索式IDを、次のフィールドが論理式を指定している。この例では検索式IDが1、論理式が“A|B|C”である。
検索式IDは、検索式を特定するためのIDを指定する。論理式“A|B|C”は、AあるいはBあるいはCという文字を含む文書を検索するという一般的な正規表現による検索文を表す。
図31は、実施の形態1で示した図8に対応する。
図31の実施の形態1における図8との違いは、文書グループの替わりに正規表現の検出条件が使用されていることで、図31の他の内容は図8と同一の内容を表す。
次に、実施の形態2における検出条件管理部109と検出条件選択部110および検出条件生成部106について図29、図31、図32を用いてより詳細に説明する。
S901〜S903の処理が行われて、マージ実行権行使ユーザが機密文書監査システム100にログインした後、まず、マージ実行権行使ユーザ端末202が検出条件選択部110において権限テーブル記憶部306からマージ実行権行使ユーザに対する権限情報を取得し(S904)、マージ実行権行使ユーザに権限のある正規表現の検出条件を提示する。
マージ実行権行使ユーザでは、提示された正規表現の検出条件からマージする正規表現の検出条件を選択し、マージ実行権行使ユーザ端末202から正規表現の検出条件の選択指示が検出条件選択部110に送られ、検出条件選択部110が選択指示に従って、対象となる正規表現の検出条件を選択する(S905)。
次に、正規表現の検出条件を管理する検出条件管理部109が、検出条件選択部110が選択した正規表現の検出条件をリストファイル401(正規表現ファイルともいう)に記述し、リストファイル401を検出条件生成部106に渡す(S906)。
次に、検出条件生成部106が、検出条件選択部110で選択したグループに属する正規表現の検出条件(リストファイル401に記述されている正規表現の検出条件)を入力し、入力した正規表現の検出条件の特徴量をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S907)。
図29の例では、マージ実行権行使ユーザであるユーザB1の選択可能な正規表現の検出条件は正規表現の検出条件Aと正規表現の検出条件Bであり、図32のように検出条件選択部110はユーザB1が選択可能な正規表現の検出条件をマージ実行権行使ユーザ端末202上に提示し、ユーザB1は提示された正規表現の検出条件からマージ対象の正規表現の検出条件の選択を行う。
次に、実施の形態2における検出条件生成部106において配布用検出条件を入力に用いる場合の検出条件管理部109と検出条件選択部110および検出条件生成部106について図31、図33、図34を用いてより詳細に説明する。
S901〜S903の処理が行われて、マージ実行権行使ユーザが機密文書監査システムにログインした後、まず、マージ実行権行使ユーザ端末202が検出条件選択部110において権限テーブル記憶部306からマージ実行権行使ユーザに対する権限情報を取得し(S904)、マージ実行権行使ユーザに権限のある正規表現の検出条件を提示する。また、マージ実行権行使ユーザに権限のある文書グループについて配布用検出条件402が生成済である場合は、その文書グループの配布用検出条件402をマージ実行権行使ユーザに提示する。
マージ実行権行使ユーザでは、提示された正規表現の検出条件からマージする正規表現の検出条件を選択し、また、提示された配布用検出条件402の中からマージする配布用検出条件402を選択し、マージ実行権行使ユーザ端末202から正規表現の検出条件又は配布用検出条件402の選択指示が検出条件選択部110に送られ、検出条件選択部110が選択指示に従って、対象となる正規表現の検出条件又は配布用検出条件402を選択する(S905)。
次に、検出条件管理部109が、検出条件選択部110が選択した文書グループに対応する正規表現の検出条件をリストファイル401に記述する。また、配布用検出条件402が選択された場合は、配布用検出条件402をリストファイル401に記述する(S906)。
次に、検出条件生成部106が、検出条件選択部110で選択したグループに属する正規表現の検出条件(リストファイル401に記述されている正規表現の検出条件)を入力し、さらに検出条件生成部106で先に生成した配布用検出条件402を取得し、正規表現の検出条件及び配布用検出条件402をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S907)。
図33の例では、検出条件管理部109で管理される正規表現の検出条件と検出条件生成部106で先に生成した配布用検出条件402のマージを行い、図34の例では、検出条件生成部106で先に生成した複数の配布用検出条件402のマージを行う。
ここで、例えば正規表現の検出条件として正規表現の検出条件Aと正規表現の検出条件Bを選択した場合の検出条件のマージ方法と配布用検出条件の生成方法について図30と図35を用いてより詳細に説明する。
まず、マージ実行権行使ユーザ端末202が正規表現の検出条件Aを選択すると、検出条件管理部109が、図30で正規表現の検出条件Aに相当する{1,“A|B|C”}を図35の正規表現ファイルf010に記述し、また、マージ実行権行使ユーザ端末202が正規表現の検出条件Bを選択すると検出条件管理部109が、図30で正規表現の検出条件Bに相当する{2,“D|E|F”}を図35の正規表現ファイルf010に追記する。
これらによって正規表現ファイルf010が作成され、前記正規表現ファイルを使って検出条件生成部106にてコンパイルされることにより配布用検出条件402が生成される。
ここで、例えば正規表現の検出条件として正規表現の検出条件A’と先に生成された配布用検出条件を選択した場合の検出条件のマージ方法と配布用検出条件の生成方法について図35、図36、図37、図38を用いてより詳細に説明する。
まず、マージ実行権行使ユーザ端末202が正規表現の検出条件A’を選択すると、検出条件管理部109が、図36で正規表現の検出条件A’に相当する{3,“A|B|C|G”}を図37の正規表現ファイルf011に追記する。
あるいは、図38のように図35の正規表現ファイルf010と図36の正規表現の検出条件A’の対象となる正規表現の検出条件の比較を行い先に生成されている図35の配布用検出条件をベースに差分のみ追記し配布用検出条件402が生成される。
次に、検索部108について、詳細に説明する。
検索部108は、前記配布用検出条件402を取得し、正規表現による文字列照合により特定のパターンが含まれる場合に機密情報として検出する。
検索部108が、DFA(Deterministic Finite Automaton、決定性有限オートマトン)として知られている方法を用いる場合には、正規表現により記述された照合条件をコンパイルして状態遷移表を生成し、その状態遷移表を入力文字列に適用することで照合を行うため、検出条件生成部106であらかじめコンパイルを行い、コンパイル後の状態遷移表をファイルとして保存しておくことで、起動時のコンパイル時間を不要とし、処理の高速化を行うことができる。
以上、実施の形態では、文書グループ選択手段に相当する検出条件選択手段におけるある特定のグループに属する検出条件を生成する場合の入力を正規表現による検出条件により実現する文書検索システムを説明した。
なお、実施の形態1および2ではマージ実行権設定部103におけるマージ実行権を付与する対象を管理者ユーザである個人を対象としたが、これに限定されるものではなく、例えば管理者ユーザの代わりに管理グループというグループを作成してそのメンバーとして複数の管理者ユーザを設定し、その対象を個人でなく部門に置き換えてもよい。
また、実施の形態1および2では、文書管理部104や検出条件管理部109を実現する手段としてOSのファイルシステムを使う方法を示したが、これに限定されるものではなく、メールアーカイブシステムのような文書管理システムやデータベースによる文書管理システムなどに置き換えて実現してもよい。
また、実施の形態1および2では、マージ実行権付与ユーザ認証部101やマージ実行権行使ユーザ認証部102、検索ユーザ認証部107を実現する手段としてそれぞれマージ実行権付与ユーザ認証テーブル記憶部301のマージ実行権付与ユーザ認証テーブルやマージ実行権行使ユーザ認証テーブル記憶部302のマージ実行権行使ユーザ認証テーブル、検索ユーザ認証テーブル記憶部304の検索ユーザ認証テーブルに格納されているパスワードで認証を行う方法を示したが、これに限定されるものではなく、パスワード認証の部分をActiveDirectoryなどの認証方法に置き換えて実現してもよい。
最後に、実施の形態1および2に示した機密文書監査システム100のハードウェア構成例について説明する。
図39は、実施の形態1および2に示す機密文書監査システム100のハードウェア資源の一例を示す図である。
なお、図39の構成は、あくまでも機密文書監査システム100のハードウェア構成の一例を示すものであり、機密文書監査システム100のハードウェア構成は図39に記載の構成に限らず、他の構成であってもよい。
図39において、機密文書監査システム100は、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。
CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。
更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード(登録商標)読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
通信ボード915、キーボード902、マウス903、スキャナ装置907、FDD904などは、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。
通信ボード915は、ネットワークに接続されている。例えば、通信ボード915は、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)、SAN(ストレージエリアネットワーク)などに接続されていても構わない。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。
プログラム群923のプログラムは、CPU911がオペレーティングシステム921、ウィンドウシステム922を利用しながら実行する。
また、RAM914には、CPU911に実行させるオペレーティングシステム921のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
また、RAM914には、CPU911による処理に必要な各種データが格納される。
また、ROM913には、BIOS(Basic Input Output System)プログラムが格納され、磁気ディスク装置920にはブートプログラムが格納されている。
機密文書監査システム100の起動時には、ROM913のBIOSプログラム及び磁気ディスク装置920のブートプログラムが実行され、BIOSプログラム及びブートプログラムによりオペレーティングシステム921が起動される。
上記プログラム群923には、実施の形態1および2の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態1および2の説明において、「〜の判断」、「〜の計算」、「〜の抽出」、「〜の生成」、「〜の統合」、「〜の比較」、「〜の評価」、「〜の更新」、「〜の設定」、「〜の登録」、「〜の選択」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1および2で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、実施の形態1および2の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」、「〜手段」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、実施の形態1および2の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、実施の形態1および2の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。
このように、実施の形態1および2に示す機密文書監査システム100は、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
100 機密文書監査システム、101 マージ実行権付与ユーザ認証部、102 マージ実行権行使ユーザ認証部、103 マージ実行権設定部、104 文書管理部、105 文書グループ選択部、106 検出条件生成部、107 検索ユーザ認証部、108 検索部、109 検出条件管理部、110 検出条件選択部、111 検索結果表示部、112 検索結果評価部、113 学習サンプルアップロード部、114 階層条件設定部、201 マージ実行権付与ユーザ端末、202 マージ実行権行使ユーザ端末、203 検索ユーザ端末、301 マージ実行権付与ユーザ認証テーブル記憶部、302 マージ実行権行使ユーザ認証テーブル記憶部、303 学習サンプル文書記憶部、304 検索ユーザ認証テーブル記憶部、305 検索結果記憶部、306 権限テーブル記憶部、307 検索対象文書記憶部。

Claims (14)

  1. それぞれが複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶部と、
    前記複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択部と、
    前記項目選択部により選択された取得対象項目の各々に対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを用いて、特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成部とを有することを特徴とする情報処理装置。
  2. 前記峻別条件生成部は、
    取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を結合して峻別条件を生成することを特徴とする請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、更に、
    特定種類のデータの特徴が示される峻別条件を少なくとも1つ前記複数の項目のうちのいずれかの項目に対応付けて記憶する峻別条件記憶部を有し、
    前記峻別条件生成部は、
    前記項目選択部により選択された取得対象項目のいずれかに対応する峻別条件を前記峻別条件記憶部から取得し、前記項目選択部により選択された取得対象項目のいずれかに対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴と取得した峻別条件に示される特徴とを結合して新たな峻別条件を生成することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記情報処理装置は、更に、
    それぞれに特定種類のデータの特徴が示される複数の峻別条件を複数の項目に対応付けて記憶する峻別条件記憶部を有し、
    前記峻別条件生成部は、
    前記項目選択部により選択された取得対象項目の各々に対応する峻別条件を前記峻別条件記憶部から取得し、取得した峻別条件の各々に示される特徴を結合して統合峻別条件を生成することを特徴とする請求項1〜3のいずれかに記載の情報処理装置。
  5. 前記峻別条件生成部は、
    生成された峻別条件を複数種類のデータに適用した際に前記特定種類のデータが正しく峻別されたか否かの評価結果に基づいて、前記峻別条件を更新することを特徴とする請求項1〜4のいずれかに記載の情報処理装置。
  6. 前記峻別条件生成部は、
    前記特定種類のデータでないにもかかわらず前記特定種類のデータであると判定されたデータ及び前記特定種類のデータであるにもかかわらず前記特定種類のデータでないと判定されたデータの少なくともいずれかについての情報を取得し、取得した情報に基づいて、前記峻別条件を更新することを特徴とする請求項5に記載の情報処理装置。
  7. 前記峻別条件記憶部は、
    正規表現による峻別条件を記憶しており、
    前記峻別条件生成部は、
    前記峻別条件生成部から正規表現による峻別条件を取得することを特徴とする請求項3又は4に記載の情報処理装置。
  8. 前記情報処理装置は、更に、
    ユーザごとに、峻別条件の生成が認められている2つ以上の項目が定義されるユーザ権限項目情報を記憶するユーザ権限項目情報記憶部を有し、
    前記項目選択部は、
    いずれかのユーザから峻別条件の生成が要求された場合に、前記ユーザ権限項目情報に基づいて当該ユーザに峻別条件の生成が認められている項目を判断し、当該ユーザに峻別条件の生成が認められている項目のうちの2つ以上の項目を取得対象項目として選択することを特徴とする請求項1〜7のいずれかに記載の情報処理装置。
  9. 前記サンプルデータ記憶部は、
    各サンプルデータを、ユーザが所属している所属組織における複数のサブ組織のうちのいずれかに対応付けて記憶し、
    ユーザ権限項目情報記憶部は、
    ユーザごとに、ユーザに峻別条件の生成が認められている2つ以上のサブ組織が定義されるユーザ権限項目情報を記憶しており、
    前記項目選択部は、
    いずれかのユーザから峻別条件の生成が要求された場合に、前記ユーザ権限項目情報に基づいて当該ユーザに峻別条件の生成が認められているサブ組織を判断し、当該ユーザに峻別条件の生成が認められているサブ組織のうちの2つ以上のサブ組織を取得対象項目として選択し、
    前記峻別条件生成部は、
    前記項目選択部により取得対象項目として選択されたサブ組織に対応付けられているサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を結合して峻別条件を生成することを特徴とする請求項8に記載の情報処理装置。
  10. 前記サンプルデータ記憶部は、
    各サンプルデータを、階層構造になっている複数のサブ組織のいずれかに対応付けて記憶し、
    前記項目選択部は、
    いずれかのユーザから峻別条件の生成が要求された場合に、当該ユーザに峻別条件の生成が認められているサブ組織を取得対象項目として選択するとともに、取得対象項目として選択した前記サブ組織の上位階層のサブ組織及び下位階層のサブ組織の少なくともいずれかも取得対象項目として選択することを特徴とする請求項9に記載の情報処理装置。
  11. 前記ユーザ権限項目情報記憶部は、
    峻別条件の生成が認められている2つ以上の項目が、各ユーザに認められているサンプルデータに対するアクセス権から独立して定義されているユーザ権限項目情報を記憶することを特徴とする請求項8〜10のいずれかに記載の情報処理装置。
  12. 前記サンプルデータ記憶部は、
    特定種類のデータのサンプルデータとして、機密文書データのサンプルデータを複数記憶し、
    前記峻別条件生成部は、
    機密文書データを他の種類のデータから峻別して抽出するための峻別条件を生成することを特徴とする請求項1〜11のいずれかに記載の情報処理装置。
  13. コンピュータが、複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択ステップと、
    それぞれが前記複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶領域から、前記コンピュータが、前記項目選択ステップにより選択された取得対象項目の各々に対応するサンプルデータを取得するサンプルデータ取得ステップと、
    前記コンピュータが、前記サンプルデータ取得ステップにより取得されたサンプルデータを用いて、前記特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成ステップとを有することを特徴とする情報処理方法。
  14. 複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択処理と、
    それぞれが前記複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶領域から、前記項目選択処理により選択された取得対象項目の各々に対応するサンプルデータを取得するサンプルデータ取得処理と、
    前記サンプルデータ取得処理により取得されたサンプルデータを用いて、前記特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成処理とをコンピュータに実行させることを特徴とするプログラム。
JP2009044762A 2009-02-26 2009-02-26 情報処理装置及び情報処理方法及びプログラム Expired - Fee Related JP5213758B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009044762A JP5213758B2 (ja) 2009-02-26 2009-02-26 情報処理装置及び情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009044762A JP5213758B2 (ja) 2009-02-26 2009-02-26 情報処理装置及び情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010198498A true JP2010198498A (ja) 2010-09-09
JP5213758B2 JP5213758B2 (ja) 2013-06-19

Family

ID=42823136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009044762A Expired - Fee Related JP5213758B2 (ja) 2009-02-26 2009-02-26 情報処理装置及び情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5213758B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013171968A1 (ja) * 2012-05-15 2013-11-21 ソニー株式会社 上映管理装置および上映管理方法
JP2014511536A (ja) * 2011-03-01 2014-05-15 シマンテック コーポレーション 機械学習を行うためのユーザインターフェース及びワークフロー
CN110515980A (zh) * 2019-07-17 2019-11-29 金蝶软件(中国)有限公司 抽检方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145236A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002297631A (ja) * 2001-03-29 2002-10-11 Fujitsu Ltd 情報整理・提供装置及び記録媒体
JP2006516775A (ja) * 2003-01-23 2006-07-06 ヴァーダシス・インコーポレーテッド 構造化されていないデータの大集合における類似性および修正履歴の特定
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2006221560A (ja) * 2005-02-14 2006-08-24 Nomura Research Institute Ltd データ置換装置、データ置換方法およびデータ置換プログラム
JP2008242689A (ja) * 2007-03-27 2008-10-09 Kddi Corp コンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体
JP2008269639A (ja) * 2004-09-14 2008-11-06 Ipb:Kk 文書を時系列に配置した文書相関図の作成装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145236A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002297631A (ja) * 2001-03-29 2002-10-11 Fujitsu Ltd 情報整理・提供装置及び記録媒体
JP2006516775A (ja) * 2003-01-23 2006-07-06 ヴァーダシス・インコーポレーテッド 構造化されていないデータの大集合における類似性および修正履歴の特定
JP2008269639A (ja) * 2004-09-14 2008-11-06 Ipb:Kk 文書を時系列に配置した文書相関図の作成装置
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2006221560A (ja) * 2005-02-14 2006-08-24 Nomura Research Institute Ltd データ置換装置、データ置換方法およびデータ置換プログラム
JP2008242689A (ja) * 2007-03-27 2008-10-09 Kddi Corp コンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014511536A (ja) * 2011-03-01 2014-05-15 シマンテック コーポレーション 機械学習を行うためのユーザインターフェース及びワークフロー
WO2013171968A1 (ja) * 2012-05-15 2013-11-21 ソニー株式会社 上映管理装置および上映管理方法
CN110515980A (zh) * 2019-07-17 2019-11-29 金蝶软件(中国)有限公司 抽检方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP5213758B2 (ja) 2013-06-19

Similar Documents

Publication Publication Date Title
Hasan et al. Detection of SQL injection attacks: a machine learning approach
JP6860070B2 (ja) 分析装置、ログの分析方法及び分析プログラム
Huang et al. {SUPOR}: Precise and scalable sensitive user input detection for android apps
Gupta Kibana essentials
Han et al. Perflearner: Learning from bug reports to understand and generate performance test frames
Burrows et al. Comparing techniques for authorship attribution of source code
EP3218811B1 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
Machicao et al. Authorship attribution based on life-like network automata
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Jiang et al. Recommending new features from mobile app descriptions
Tsukerman Machine Learning for Cybersecurity Cookbook: Over 80 recipes on how to implement machine learning algorithms for building security systems using Python
CN102456071A (zh) 文件管理装置以及文件管理方法
Fang et al. TAP: A static analysis model for PHP vulnerabilities based on token and deep learning technology
US9646164B2 (en) System and method for evaluating a reverse query
Kaur et al. Scholarometer: A social framework for analyzing impact across disciplines
JP6776310B2 (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
JP6605022B2 (ja) 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス
Hill et al. A longitudinal dataset of five years of public activity in the Scratch online community
Kühn et al. Common vulnerability scoring system prediction based on open source intelligence information sources
JP5213758B2 (ja) 情報処理装置及び情報処理方法及びプログラム
Fadele et al. A novel Hadith authentication mobile system in Arabic to Malay language translation for android and iOS Phones
CN114580008A (zh) 基于文档组件布局的文档访问控制
Burrows Source code authorship attribution
Gruppi et al. Tell me who your friends are: Using content sharing behavior for news source veracity detection
US20090287654A1 (en) Device for identifying electronic file based on assigned identifier

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130226

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees