JP2010198498A

JP2010198498A - 情報処理装置及び情報処理方法及びプログラム

Info

Publication number: JP2010198498A
Application number: JP2009044762A
Authority: JP
Inventors: Yoshio Matsumoto; 良央松本; Mamoru Kato; 守加藤; Mitsunori Kori; 光則郡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-02-26
Filing date: 2009-02-26
Publication date: 2010-09-09
Anticipated expiration: 2029-02-26
Also published as: JP5213758B2

Abstract

【課題】機密文書を非機密文書から峻別する検出条件を生成し、また企業等の部門をまたがった検出条件のマージを効率的に行う。
【解決手段】学習サンプル文書記憶部３０３が機密文書のサンプルデータを複数格納しており、マージ実行権行使ユーザにマージ実行権が認められている複数の部門に対応する複数のサンプルデータを検出条件生成部１０６が取得し、検出条件生成部１０６が、取得したサンプルデータの特徴量を抽出し、抽出した特徴量をマージして複数の部門の機密文書を非機密文書から峻別できる検出条件を生成する。
【選択図】図１

Description

本発明は、複数のサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を用いて、特定種類のデータ（機密情報等）を他の種類のデータ（非機密情報等）から峻別して抽出するための条件を生成する技術に関する。

本発明に関連する技術として、特許文献１に開示の技術と特許文献２に開示の技術がある。
特許文献１では、認証された権限に基づいてデータベースアクセスを行う機密情報管理システムにおいて、認証された権限の解析結果とレコード選択条件に従ってＳＱＬによるデータベースアクセスを可能にすることが開示されている。
より具体的には、特許文献１では、機密情報に対しては特定の所属先や職位に該当する利用者にのみアクセス権限を付与することで限定された利用者だけがアクセスできるようにしている。
特許文献２では、機密文書のアクセス権をマージする処理を支援する設定確認表示装置、設定確認表示方法、およびそのプログラムについて開示されている。
より具体的には、電子文書の各機密部分に設定された複数のアクセス権の一致度合いを判定してアクセス権のマージ処理を行っている。

特開２００１−３４５１９号公報特開２００４−２７２４２３号公報

例えば、組織ごとに機密文書と非機密文書が管理されている環境において、２つの組織の機密文書を非機密文書と峻別して検出するためには、２つの組織の機密文書に横断的に適用できる検出条件を設定する必要があるが、特許文献１及び特許文献２のいずれにおいても、複数の組織にまたがって機密文書を抽出可能な検出条件を生成することは記載されていない。

本発明は、このような点に鑑み、複数の組織にまたがって横断的に機密文書を非機密文書から峻別して抽出できる検出条件を生成する仕組みを提供することを主な目的とする。

本発明に係る情報処理装置は、
それぞれが複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶部と、
前記複数の項目の中から２つ以上の項目を取得対象項目として選択する項目選択部と、
前記項目選択部により選択された取得対象項目の各々に対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを用いて、特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成部とを有することを特徴とする。

本発明によれば、２つ以上の取得対象項目の各々に対応するサンプルデータを用いて峻別条件を生成するため、１つの峻別条件で２つ以上の取得対象項目にまたがって特定種類のデータを他の種類のデータから峻別して抽出することが可能であり、このため、１つの峻別条件で２つ以上の組織にまたがって機密文書データを非機密文書データから峻別して抽出することが可能である。

実施の形態１に係る機密文書監査システムの構成例を示す図。実施の形態１に係る学習サンプル文書と作成・管理部門等との関係例を示す図。実施の形態１に係るファイルシステムの構造例を示す図。実施の形態１に係るマージ実行権付与ユーザ認証テーブルの例を示す図。実施の形態１に係るマージ実行権行使ユーザ認証テーブルの例を示す図。実施の形態１に係る検索ユーザ認証テーブルの例を示す図。実施の形態１に係る権限テーブルの例を示す図。実施の形態１に係る機密文書監査システムの動作例を示すフローチャート図。実施の形態１に係るマージ実行権の設定時の動作例を示すフローチャート図。実施の形態１に係るマージ実行権行使ユーザのログイン時の動作例を示すフローチャート図。実施の形態１に係るマージ候補の学習サンプル文書の表示例を示す図。実施の形態１に係るマージ候補の学習サンプル文書と配布用検出条件の表示例を示す図。実施の形態１に係るマージ候補の配布用検出条件の表示例を示す図。実施の形態１に係る機密文書リストファイルと非機密文書リストファイルの例を示す図。実施の形態１に係る配布用検出条件の生成時の動作例を示すフローチャート図。実施の形態１に係るファイルシステムの構造例を示す図。実施の形態１に係る機密文書リストファイルと非機密文書リストファイルの例を示す図。実施の形態１に係る機密文書リストファイルと非機密文書リストファイルの例を示す図。実施の形態１に係る検出条件のマージ動作の例を示すフローチャート図。実施の形態１に係る検出条件のマージ動作の例を示すフローチャート図。実施の形態１に係る検索結果のアップロード時の動作例を示すフローチャート図。実施の形態１に係る検出条件の評価時の動作例を示すフローチャート図。実施の形態１に係る権限の設定ファイル仕様の例を示す図。実施の形態１に係る管理者の設定ファイル仕様の例を示す図。実施の形態１に係る組織のツリー構造を説明する図。実施の形態１に係る権限テーブルの例を示す図。実施の形態１に係る権限の設定ファイル仕様の例を示す図。実施の形態２に係る機密文書監査システムの構成例を示す図。実施の形態２に係る正規表現の検出条件と作成・管理部門等との関係例を示す図。実施の形態２に係るファイルシステムの構造例を示す図。実施の形態２に係る機密文書監査システムの動作例を示すフローチャート図。実施の形態２に係るマージ候補の正規表現の検出条件の表示例を示す。実施の形態２に係るマージ候補の正規表現の検出条件と配布用検出条件の表示例を示す図。実施の形態２に係るマージ候補の配布用検出条件の表示例を示す図。実施の形態２に係る正規表現ファイルの例を示す図。実施の形態２に係るファイルシステムの構造例を示す図。実施の形態２に係る正規表現ファイルの例を示す図。実施の形態２に係る正規表現ファイルの例を示す図。実施の形態１および２に係る機密文書監査システムのハードウェア構成例を示す図。

実施の形態１．
図１は、本実施の形態に係る機密文書監査システム１００の構成を示す。
図１に示す各要素の詳細を説明する前に、まず、本実施の形態に係る機密文書監査システム１００の動作の概要を説明する。
なお、機密文書監査システム１００は情報処理装置の例である。

学習サンプル文書記憶部３０３には、検出条件を生成する際に利用されるサンプルデータである学習サンプル文書が記憶されている。
検出条件とは、特定種類のデータを他の種類のデータから峻別するための峻別条件であり、特定種類のデータに含まれる特徴量が示される。
以下では、特定種類のデータを機密文書のデータ（以下、単に機密文書ともいう）とし、他の種類のデータを非機密文書のデータ（以下、単に非機密文書ともいう）として説明する。
このため、学習サンプル文書記憶部３０３には、機密文書のサンプルデータが複数格納されている。また、学習サンプル文書記憶部３０３には、非機密文書のサンプルデータが格納されていてもよい。
また、詳細は後述するが、学習サンプル文書記憶部３０３には学習サンプル文書の他に検出条件が格納されている場合がある。
学習サンプル文書記憶部３０３は、サンプルデータ記憶部と峻別条件記憶部の例である。

検出条件は、検出条件生成部１０６により生成される。また、検出条件は、検出条件生成部１０６によりマージされる。検出条件生成部１０６は峻別条件生成部の例である。
検出条件生成部１０６は、学習サンプル文書記憶部３０３に記憶されている複数の学習サンプル文書を解析して各学習サンプル文書の特徴量を抽出し、抽出した特徴量を反映させた検出条件を生成する。
このため、ある文書データに、機密文書データの検出条件に示される特徴量が含まれていれば、その文書データを機密文書データに分類することができる。
特徴量とは、文書の特徴を定量化したものであり、例えば学習サンプル文書の集合において、ある単語が現れる頻度を学習サンプル中の全ての単語に対して算出したものが特徴量となる。そして、特徴量を機密文書と非機密文書のそれぞれについて算出することにより、ある単語が機密文書に属する確率が高いのか、非機密文書に属する確率が高いのかを求めることができる。
また、特徴量としては、他に、単語ではなく特定の長さの文字列や、バイト列、ビット列の出現頻度を示すものであってもよいし、後述するＨｙｐｅｒｓｐａｃｅやＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅなどの場合には、一つの学習サンプル文書に含まれる単語（または文字列、バイト列、ビット列）の有無（または文書内の出現頻度）をベクトル化して特徴量として保存することになる。
また、検出条件生成部１０６は、生成済の検出条件をマージして新たな検出条件を生成する。

また、検出条件生成部１０６は、生成された検出条件を複数種類のデータ（具体的には、検索対象文書記憶部３０７に蓄積されているデータであり、学習サンプル文書以外のデータ）に適用した際に機密文書データが正しく峻別されたか否かについての評価結果に基づいて、検出条件を更新する。
より具体的には、検出条件生成部１０６は、評価において、機密文書でないにもかかわらず機密文書であると判定されたデータ及び機密文書であるにもかかわらず機密文書でないと判定されたデータの少なくともいずれかについての情報に基づいて、検出条件を更新する。

また、本実施の形態に係る機密文書監査システム１００は、企業等の複数のサブ組織（部門、部署等）が存在する組織において文書データを管理することを想定しており、検出条件生成部１０６は、前述のように、複数の検出条件を統合して、複数のサブ組織にまたがる機密文書を検出するための検出条件を生成する。
より具体的には、学習サンプル文書記憶部３０３は複数の学習サンプル文書を組織内の複数の部門（項目、サブ組織）に対応付けて記憶しており、文書グループ選択部１０５が学習サンプル文書の取得対象となる部門（検出条件の生成対象となる部門）（取得対象項目）を選択し、検出条件生成部１０６が選択された部門の学習サンプル文書を学習サンプル文書記憶部３０３から取得し、各部門の学習サンプル文書の特徴量を抽出し、抽出した特徴量をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する。
また、前述したように、学習サンプル文書記憶部３０３は、生成済みの検出条件を格納している場合がある。学習サンプル文書記憶部３０３では、生成済みの検出条件をいずれかの部門（項目）に対応付けて記憶している。
そして、検出条件生成部１０６は、ある部門に対応付けられている学習サンプル文書から特徴量を抽出するとともに、生成済みの検出条件を取得し、検出条件生成部１０６が、学習サンプル文書から抽出した特徴量を抽出するとともに、抽出した特徴量と生成済みの検出条件をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する場合がある。
また、検出条件生成部１０６は、検出条件同士のマージ、つまり、ある部門に対応付けられている生成済みの検出条件と、他の部門に対応付けられている生成済みの検出条件をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する場合がある。
なお、文書グループ選択部１０５は項目選択部の例である。

また、マージ実行権行使ユーザ端末２０２は、複数の部門にまたがる機密文書を検出するための検出条件の生成の実行権限を有するユーザ、つまり、特徴量のマージの実行権限を有するマージ実行権行使ユーザが利用する端末装置である。
そして、権限テーブル記憶部３０６には、マージ実行権行使ユーザのマージ実行権限が及ぶ部門が示される権限テーブルが記憶されている。権限テーブルには、マージ実行権行使ユーザごとに、当該ユーザに検出条件の生成が認められている２以上の部門（項目、サブ組織）、つまり、すなわち、いずれの部門の学習サンプル文書を用いて検出条件を生成することができるかが示されている。権限テーブルはユーザ権限項目情報の例であり、権限テーブル記憶部３０６はユーザ権限項目情報記憶部の例である。
また、マージ実行権設定部１０３は、マージ実行権付与ユーザ端末２０１からの指示に従って、所定のユーザにマージ実行権を設定する。マージ実行権設定部１０３によりマージ実行権が設定されたユーザがマージ実行権行使ユーザとなる。
また、マージ実行権付与ユーザ端末２０１は、マージ実行権の設定権限を有するマージ実行権付与ユーザが利用する端末装置である。

以上を前提に、図１に示す各要素の詳細を説明する。

機密文書監査システム１００は、機密情報を自動検出するための検出条件に従いファイルサーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）上のファイルを検査して機密情報を自動検出する。

マージ実行権付与ユーザ端末２０１は、複数の検出条件をマージする時にその検出条件を使うことのできる権利であるマージ実行権を付与するマージ実行権付与ユーザが利用する端末装置であり、マージ実行権付与ユーザが利用者ＩＤとパスワードおよびマージ実行権を設定するための入出力機能を有する。
マージ実行権付与ユーザ認証部１０１は、入力された利用者ＩＤとパスワードを認証する。
マージ実行権付与ユーザ認証テーブル記憶部３０１は、マージ実行権付与ユーザ認証部１０１の認証のためのユーザ認証データを格納する。
マージ実行権設定部１０３は、マージ実行権付与ユーザ認証部１０１により認証を受けてログインしたマージ実行権付与ユーザの指示に従い、いずれかのユーザにマージ実行権を設定する。
権限テーブル記憶部３０６は、マージ実行権設定部１０３により設定されたマージ実行権の内容を示す権限テーブルを格納する。

マージ実行権行使ユーザ端末２０２は、マージ実行権設定部１０３によりマージ実行権を付与され、マージ実行権を行使するマージ実行権行使ユーザが利用する端末装置であり、マージ実行権行使ユーザが利用者ＩＤとパスワードおよび文書グループを選択するための入出力機能を有する。
マージ実行権行使ユーザ認証部１０２は、入力された利用者ＩＤとパスワードを認証する。
マージ実行権行使ユーザ認証テーブル記憶部３０２は、マージ実行権行使ユーザ認証部１０２の認証のためのユーザ認証データを格納する。

学習サンプル文書記憶部３０３は、複数のグループ（部門）の学習サンプル文書を記憶しており、学習サンプル文書にはグループ（部門）別のアクセス権が設定されている。
文書管理部１０４は、学習サンプル文書のアクセス権と学習サンプル文書中の機密情報を検出するためのリストファイル４０１を管理する。
リストファイル４０１は、文書管理部１０４により検出条件の生成の対象となる学習サンプル文書を列挙したリストである。
文書グループ選択部１０５は、学習サンプル文書記憶部３０３に格納されている学習サンプル文書の中から、認証されたマージ実行権行使ユーザがマージ実行権を有しているグループの学習サンプル文書を選択して抽出する。
検出条件生成部１０６は、文書グループ選択部１０５により選択された学習サンプル文書ファイルを入力とし、特定のグループに属する検出条件を生成する。
配布用検出条件４０２は、検出条件生成部１０６で生成された検出条件である。

検索ユーザ端末２０３は、機密情報を検索する検索ユーザが利用する端末装置であり、検索ユーザの利用者ＩＤとパスワードおよび配布用検出条件４０２を取得するための入出力機能を有する。
検索ユーザ認証部１０７は、入力された利用者ＩＤとパスワードを認証する。
検索ユーザ認証テーブル記憶部３０４は、検索ユーザ認証部１０７の認証のためのユーザ認証データを格納する。
検索部１０８は、検索ユーザ認証部１０７により認証を受けてログインした検索ユーザが検出条件生成部１０６が生成した配布用検出条件４０２を取得してＰＣやファイルサーバ等の検索対象文書記憶部３０７に格納されている検索対象文書から機密情報を検索する。
検索結果表示部１１１は、検索により取得した結果をＰＣ等の画面に表示する。
検索結果記憶部３０５は、検索ユーザ端末２０３が機密文書監査システム１００にアップロードした検索結果を一時的に記憶する。
検索結果評価部１１２は、検索ユーザ端末２０３が取得した検索結果を評価し検索結果に誤りがある場合にファイル毎に正解を入力する。
学習サンプルアップロード部１１３は、検索結果評価部１１２で検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードして学習サンプル文書記憶部３０３に保存する。

図２は、学習サンプル文書と作成・管理部門、アクセス権、マージ実行権、検出条件の関係例を示す図である。
例えば、部門Ａが作成・管理する学習サンプル文書Ａと部門Ｂが作成・管理する学習サンプル文書Ｂがあり、その文書に対するアクセス権を学習サンプル文書ＡにはユーザＡ１とユーザＡ２が持ち、学習サンプル文書ＢにはユーザＢ１とユーザＢ２が持つ場合に、アクセス権にオーバライドする形でマージ実行権を付与する。
図２の例では、ユーザＢ１に検出条件Ａと検出条件Ｂのマージ実行権が付与されている。

図３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のファイルシステムが持つファイル構造例を示す図で、部門Ａに所属するユーザは学習サンプル文書Ａにアクセスできることを表し、部門Ｂに所属するユーザは学習サンプル文書Ｂにアクセスできることを表す。
図３において、文書名中のａａａ、ｂｂｂ、ｃｃｃは、拡張子である。各文書は、ドキュメントファイル、表計算ファイル等である。
文書管理部１０４は、このＯＳのファイルシステムにより実現し、例えば部門ＡにユーザＡ１とユーザＡ２が所属し部門ＢにユーザＢ１とユーザＢ２が所属する場合には、学習サンプル文書Ａのアクセス権はユーザＡ１とユーザＡ２が保有し、学習サンプル文書Ｂのアクセス権はユーザＢ１とユーザＢ２が保有する。
部門Ａ、部門Ｂのフォルダと、それぞれに含まれる機密、非機密のフォルダの構成は固定的に決まるようにできる。例えばフォルダ名を後述するような部門ＩＤとし、その直下に機密、非機密のフォルダが固定的に定義されるような構成とすることができる。別な例では、学習サンプル文書の機密文書サンプルと非機密文書サンプルのフォルダをそれぞれ複数個、部門毎に指定するような構成とすることで、よりフレキシブルに学習サンプル文書管理を行うことができる。

図４は、マージ実行権付与ユーザ認証テーブル記憶部３０１に格納されている情報（マージ実行権付与ユーザ認証テーブル）の内容例を示す図で、ユーザタイプは、０がシステム管理者、１が部門管理者を表す。
システム管理者とは全ての権限を有する管理者を表し、部門管理者とは特定の「部門」に限った権限を有する管理者を表す。
また、「部門」とはこの機密文書監査システムにおける検出条件管理の最小のまとまりの単位のことで、例えば図２の例の部門Ａや部門Ｂがそれに相当する。

図５は、マージ実行権行使ユーザ認証テーブル記憶部３０２に格納されている情報（マージ実行権行使ユーザ認証テーブル）の内容例を示す図で、ユーザタイプは、１の部門管理者のみが格納される。

図６は、検索ユーザ認証テーブル記憶部３０４に格納されている情報（検索ユーザ認証テーブル）の内容例を示す図で、ユーザタイプは、０がシステム管理者、１が部門管理者、２が一般検索ユーザを表す。
一般検索ユーザとは、配布用検出条件４０２を使って検索対象文書記憶部３０７に対して検索を行うユーザを表す。
なお、一般検索ユーザには、前記システム管理者や部門管理者を含むことができる。

図７は、権限テーブル記憶部３０６に格納されているマージを実行するユーザの権限情報の内容例を示す図で、許可部門とは検出条件の作成のために学習サンプル文書の利用を許可する他の部門を表し、条件の種類は、０が人手作成、１が自動学習を表す。
人手作成とは、人手による正規表現の検出条件作成を表し、実施の形態２で詳しく説明する。
自動学習とは、実施の形態１のように学習サンプル文書を使った自動学習による検出条件作成を表す。
また、図７では、許可部門には、他の部門、すなわちユーザが所属している部門以外の部門のみが記述されているが、許可部門にユーザが所属している部門を記述するようにしてもよい。

次に学習サンプル文書を使った機密文書監査システムにおける機密情報検索結果がアップロードされるまでの一連の流れの概要について図８を用いて説明する。

まず、Ｓ１０１で、マージ実行権付与ユーザがマージ実行権付与ユーザ端末２０１を利用して、ユーザＩＤとパスワードを入力して機密文書監査システム１００にログインする。
次に、Ｓ１０２で、マージ実行権付与ユーザがマージ実行権付与ユーザ端末２０１を利用して、管理者ユーザにマージ実行権を付与する。

次に、前記Ｓ１０２においてマージ実行権を付与されたマージ実行権行使ユーザがマージ実行権行使ユーザ端末２０２を利用して、Ｓ１０３において、機密文書監査システム１００にログインする。
次に、Ｓ１０４で、マージ実行権行使ユーザ端末２０２が権限テーブル記憶部３０６からマージ実行権行使ユーザの保有する権限情報を取得し、取得した権限情報に対応する文書グループをマージ実行権行使ユーザに提示する。
次に、Ｓ１０５で、文書グループ選択部１０５が、マージ実行権行使ユーザからの指定に基づき、マージする文書グループあるいは後に説明するＳ１０９で生成した配布用検出条件４０２を選択する。
次に、Ｓ１０６で、文書管理部１０４が、文書グループ選択部１０５が選択した文書グループの学習サンプル文書をリストファイル４０１に記述し、あるいは、文書管理部１０４が、文書グループ選択部１０５が選択した配布用検出条件４０２をリストファイル４０１に記述し、リストファイル４０１を検出条件生成部１０６に渡す。
次に、検出条件生成部１０６が、前記Ｓ１０６で取得したリストファイル４０１に示される学習サンプル文書の特徴量を抽出し、抽出した特徴量をマージし、あるいは前記Ｓ１０６で取得したリストファイル４０１に示される配布用検出条件４０２をマージし配布用検出条件を生成する（Ｓ１０７）。
生成された配布用検出条件４０２は、対象となる部門が示されて、例えば、学習サンプル文書記憶部３０３に格納される。また、配布用検出条件４０２は別の記憶領域に記憶されてもよい。

次に、Ｓ１０８で、検索ユーザが検索ユーザ端末２０３を利用して、機密文書監査システム１００にログインする。
次に、Ｓ１０９で、検索ユーザ端末２０３が検出条件生成部１０６で生成された配布用検出条件４０２を検索部１０８にて取得する。
次に、Ｓ１１０で、検索ユーザは、取得した配布用検出条件４０２を使って文書グループ選択部１０５にて再学習するか判定する。
再学習する場合はＳ１０５へ進み、再学習しない場合はＳ１１１で取得した配布用検出条件４０２を使って検索部１０８にて検索対象文書記憶部３０７の機密情報の検索を実行する。
次に、Ｓ１１２で、検出された機密情報の検索結果を検索結果表示部１１１で表示する。
次に、Ｓ１１３で、検出した検索結果を機密文書監査システム１００にアップロードする。

次に、マージ実行権付与ユーザ認証部１０１とマージ実行権付与ユーザ端末２０１が機密文書監査システム１００にログインする動作（Ｓ１０１）およびマージ実行権設定部１０３（Ｓ１０２）について図２、図９を用いてより詳細に説明する。

まず、マージ実行権付与ユーザ端末２０１が機密文書監査システム１００のマージ実行権付与ユーザ認証部１０１にアクセスし、利用者ＩＤとパスワードを入力する（Ｓ２０１）。
次に、マージ実行権付与ユーザ認証部１０１が、入力された利用者ＩＤとパスワードがマージ実行権付与ユーザ認証テーブル記憶部３０１に登録されているか否かのチェックを行い（Ｓ２０２）、チェック結果がＯＫである場合は、マージ実行権付与ユーザ端末２０１が機密文書監査システム１００にログインする（Ｓ２０３）。
次に、マージ実行権付与ユーザがマージ実行権付与ユーザ端末２０１を利用して、マージ実行権設定部１０３にて任意の管理者ユーザにマージ実行権を付与し（Ｓ２０４）、マージ実行権設定部１０３はその管理者ユーザのユーザＩＤをマージ実行権行使ユーザ認証テーブル記憶部３０２のマージ実行権行使ユーザテーブに格納する。
また、マージ実行権設定部１０３は、マージ実行権行使ユーザのマージ実行権の内容を権限テーブルに書き込む。
例えば、図２の例では、マージ実行権は、元々持つアクセス権にオーバライドする形で学習サンプル文書ＡにはユーザＡ１、ユーザＡ２、ユーザＢ１に、学習サンプル文書ＢにはユーザＢ１、ユーザＢ２に付与される。

次に、マージ実行権行使ユーザ認証部１０２とマージ実行権行使ユーザ端末２０２が機密文書監査システム１００にログインする動作（Ｓ１０３）について図２、図１０を用いてより詳細に説明する。

まず、マージ実行権行使ユーザ端末２０２が、機密文書監査システム１００のマージ実行権行使ユーザ認証部１０２にアクセスし、利用者ＩＤとパスワードを入力する（Ｓ３０１）。
次に、マージ実行権行使ユーザ認証部１０２が、入力された利用者ＩＤとパスワードがマージ実行権行使ユーザ認証テーブル記憶部３０２に登録されているか否かのチェックを行い（Ｓ３０２）、チェック結果がＯＫである場合は、マージ実行権行使ユーザ端末２０２は機密文書監査システム１００にログインする（Ｓ３０３）。
図２の場合、例えば学習サンプル文書Ａと学習サンプル文書Ｂの両方にマージ実行権を持つユーザＢ１がマージ実行権行使ユーザであり、機密文書監査システム１００にログインする。

次に、文書管理部１０４と文書グループ選択部１０５および検出条件生成部１０６について図２、図８、図１１を用いてより詳細に説明する。

まず、文書グループ選択部１０５が権限テーブル記憶部３０６からマージ実行権行使ユーザに対する権限情報を取得し（Ｓ１０４）、マージ実行権行使ユーザに権限のある文書グループ（マージ実行権行使ユーザが所属する部門および図７の許可部門）を取得し、マージ実行権行使ユーザに対して、取得した文書グループを提示する。
マージ実行権行使ユーザでは、提示された文書グループからマージする文書グループを選択し、マージ実行権行使ユーザ端末２０２から文書グループの選択指示が文書グループ選択部１０５に送られ、文書グループ選択部１０５が選択指示に従って、対象となる文書グループを選択する（Ｓ１０５）。
次に、文書管理部１０４が、文書グループ選択部１０５が選択した文書グループに対応する学習サンプル文書をリストファイル４０１に記述する（Ｓ１０６）。
次に、検出条件生成部１０６が、文書グループ選択部１０５で選択した文書グループの学習サンプル文書（リストファイル４０１に記述されている学習サンプル文書）を入力し、入力した学習サンプル文書から特徴量を抽出するとともに、抽出した特徴量をマージして、選択した特定のグループに属する配布用検出条件４０２を生成する（Ｓ１０７）。
図２の例では、マージ実行権行使ユーザであるユーザＢ１の選択可能な学習サンプル文書は学習サンプル文書Ａと学習サンプル文書Ｂであり、図１１のように文書グループ選択部１０５はユーザＢ１が選択可能な学習サンプル文書をマージ実行権行使ユーザ端末２０２上に提示し、ユーザＢ１は提示された学習サンプル文書からマージ対象の文書の選択を行う。

次に、文書グループ選択部１０５において配布用検出条件を入力に用いる場合の文書管理部１０４と文書グループ選択部１０５および検出条件生成部１０６について図８、図１２、図１３を用いてより詳細に説明する。

まず、文書グループ選択部１０５が権限テーブル記憶部３０６からマージ実行権行使ユーザに対する権限情報を取得し（Ｓ１０４）、マージ実行権行使ユーザに権限のある文書グループを取得し、マージ実行権行使ユーザに対して、取得した文書グループを提示する。また、マージ実行権行使ユーザに権限のある文書グループについて配布用検出条件４０２が生成済である場合は、その文書グループの配布用検出条件４０２をマージ実行権行使ユーザに提示する。
マージ実行権行使ユーザでは、提示された文書グループからマージする文書グループを選択し、また、提示された配布用検出条件４０２の中からマージする配布用検出条件４０２を選択し、マージ実行権行使ユーザ端末２０２から文書グループ又は配布用検出条件４０２の選択指示が文書グループ選択部１０５に送られ、文書グループ選択部１０５が選択指示に従って、対象となる文書グループ又は配布用検出条件４０２を選択する（Ｓ１０５）。
次に、文書管理部１０４が、文書グループ選択部１０５が選択した文書グループに対応する学習サンプル文書をリストファイル４０１に記述する。また、配布用検出条件４０２が選択された場合は、配布用検出条件４０２をリストファイル４０１に記述する（Ｓ１０６）。
次に、検出条件生成部１０６が、文書グループ選択部１０５で選択した文書グループの学習サンプル文書又は配布用検出条件４０２（リストファイル４０１に記述されている学習サンプル文書又は配布用検出条件４０２）を入力する。学習サンプル文書を入力した場合は、検出条件生成部１０６は、入力した学習サンプル文書から特徴量を抽出する。また、抽出した特徴量と配布用検出条件４０２、または配布用検出条件４０２同士をマージして、選択した特定のグループに属する配布用検出条件４０２を生成する（Ｓ１０７）。
図１２の例では、学習サンプル文書から抽出される特徴量と検出条件生成部１０６で先に生成した配布用検出条件４０２のマージを行い、図１３の例では、検出条件生成部１０６で先に生成した複数の配布用検出条件４０２のマージを行う。

ここで、例えば文書グループとして学習サンプル文書Ａと学習サンプル文書Ｂを選択した場合の特徴量のマージ方法と配布用検出条件の生成方法について図３と図１４を用いてより詳細に説明する。

まず、マージ実行権行使ユーザ端末２０２が学習サンプル文書Ａを選択すると、文書管理部１０４が、図３で機密文書として対象となる文書のファイル名ａｘ１．ａａａ、ａｘ２．ｂｂｂ、ａｘ３．ｃｃｃを図１４の機密文書リストファイルｆ００１に記述し、非機密文書として対象となる文書のファイル名ａｏ１．ａａａ、ａｏ２．ｂｂｂ、ａｏ３．ｃｃｃを図１４の非機密文書リストファイルｆ００２に記述する。
同様に学習サンプル文書Ｂを選択すると、文書管理部１０４が、図３で機密文書として対象となる文書のファイル名ｂｘ１．ａａａ、ｂｘ２．ｂｂｂ、ｂｘ３．ｃｃｃを図１４の機密文書リストファイルｆ００１に追記し、非機密文書として対象となる文書のファイル名ｂｏ１．ａａａ、ｂｏ２．ｂｂｂ、ｂｏ３．ｃｃｃを図１４の非機密文書リストファイルｆ００２に追記する。
これらによって機密文書リストファイルｆ００１と非機密文書リストファイルｆ００２が作成され、前記リストファイルを使って検出条件生成部１０６にて配布用検出条件４０２が生成される。

検出条件生成部１０６は、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。
非特許文献１にはＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＯｒｔｈｏｇｏｎａｌＳｐａｒｓｅＢｉｇｒａｍｓ、ＷＩＮＮＯＷ、Ｃｏｒｒｅｌｌａｔｉｏｎ、ＫＮＮ／Ｈｙｐｅｒｓｐａｃｅ、ＢｉｔＥｎｔｒｏｐｙなどの機械学習による分類方法を用いて文書の分類が可能なソフトウェアが開示されており、これらを検出条件生成部１０６および検索部１０８として用いることができる。
これらの方法の他にも、非特許文献２にあるように、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＮｅｕｒａｌＮｅｔｗｏｒｋなどの分類方法や、ＣｌａｓｓｉｆｉｅｒＣｏｍｍｉｔｔｅｅｓと呼ばれる、複数の分類方法の組み合わせによる方法を用いることもできる。
非特許文献１
「ＣＲＭ１１４−ｔｈｅＣｏｎｔｒｏｌｌａｂｌｅＲｅｇｅｘＭｕｌｔｉｌａｔｏｒ」
ｈｔｔｐ：／／ｃｒｍ１１４．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／
非特許文献２
Ｆ．Ｓｅｂａｓｔｉａｎｉ，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＡｕｔｏｍａｔｅｄＴｅｘｔＣａｔｅｇｏｒｉｓａｔｉｏｎ，ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，Ｖｏｌｕｍｅ３４Ｉｓｓｕｅ１，ｐ．１−４７，Ｍａｒｃｈ２００２

検出条件生成部１０６が配布用検出条件４０２を生成する動作について図１５を用いて説明する。
本動作は、図１１に示すように、配布用検出条件４０２の生成対象が学習サンプル文書である場合に対応する。

まず、検出条件生成部１０６は、Ｓ４０１にて、配布用検出条件を初期化する。
次に、検出条件生成部１０６は、Ｓ４０２にて、図１４における機密文書リストファイルｆ００１に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、検出条件生成部１０６は、Ｓ４０３にて、機密文書リストファイルｆ００１上の次のファイルを１件取得する。
残りの文書ファイルがない場合、Ｓ４０６にステップは移動する。
次に、検出条件生成部１０６は、Ｓ４０４にて、取得したファイルから機密文書の特徴量を抽出する。
次に、検出条件生成部１０６は、Ｓ４０５にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部１０６は、Ｓ４０６にて、図１４における非機密文書リストファイルｆ００２に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、Ｓ４０７にて非機密文書リストファイルｆ００２上の次のファイルを１件取得する。
残りの文書ファイルがない場合、Ｓ４１０にステップは移動する。
次に、検出条件生成部１０６は、Ｓ４０８にて取得したファイルから非機密文書の特徴量を抽出する。
次に、検出条件生成部１０６は、Ｓ４０９にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部１０６は、Ｓ４１０にて、機密文書リストファイルｆ００１または非機密文書リストファイルｆ００２に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、Ｓ４０２にステップは移動する。
残りの文書ファイルがない場合、Ｓ４１１にて配布用検出条件を出力する。

そして、図１４に示す機密文書リストファイルｆ００１及び非機密文書リストファイルｆ００２に対して図１５の処理が行われた場合、機密文書リストファイルｆ００１の学習サンプル文書Ａの機密文書（３文書）の各々の特徴量と学習サンプル文書Ｂの機密文書（３文書）の各々の特徴量がマージされ、部門Ａ及び部門Ｂに対する機密文書の配布用検出条件４０２が生成され、学習サンプル文書Ａの非機密文書（３文書）の各々の特徴量と学習サンプル文書Ｂの非機密文書（３文書）の各々の特徴量がマージされ、部門Ａ及び部門Ｂに対する非機密文書の配布用検出条件４０２が生成される。
なお、ここでは、非機密文書の配布用検出条件４０２も生成することとしたが、機密文書の配布用検出条件４０２のみを生成するようにしてもよい。

別の例として、文書グループとして学習サンプル文書Ａ’と先に生成された配布用検出条件を選択した場合の検出条件のマージ方法と配布用検出条件の生成方法について図１４、図１６、図１７、図１８を用いてより詳細に説明する。

まず、マージ実行権行使ユーザ端末２０２が学習サンプル文書Ａ’を選択すると、文書管理部１０４が、図１６で機密文書として対象となる文書のファイル名ａｘ１．ａａａ、ａｘ２．ｂｂｂ、ａｘ３．ｃｃｃを図１７の機密文書リストファイルｆ００３に追記し、非機密文書として対象となる文書のファイル名ａｏ１．ａａａ、ａｏ２．ｂｂｂ、ａｏ３．ｃｃｃ、ａｏ４．ｄｄｄを図１７の非機密文書リストファイルｆ００４に追記する。
あるいは図１８のように図１４の機密文書リストファイルｆ００１と図１６の機密文書の対象となる文書、図１４の非機密文書リストファイルｆ００２と図１６の非機密文書の対象となる文書の比較を行い差分のみのリストファイルを生成することもできる。
検出条件生成部１０６には図１４のリストファイルおよび、図１７または図１８の機密文書リストファイルと非機密文書ファイルが入力され、配布用検出条件４０２が生成される。

次に、文書グループとして学習サンプル文書Ａ’と先に生成された配布用検出条件を選択した場合の検出条件のマージ方法の動作について、図１９を用いて説明する。

まず、Ｓ５０１にて、検出条件生成部１０６が、配布用検出条件を入力する。
次に、検出条件生成部１０６は、Ｓ５０２にて、図１４における機密文書リストファイルｆ００１に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、Ｓ５０３にて機密文書リストファイルｆ００１上の次のファイルを１件取得する。
残りの文書ファイルがない場合、Ｓ５０６にステップは移動する。
次に、検出条件生成部１０６は、Ｓ５０４にて取得したファイルから機密文書の特徴量を抽出する。
次に、検出条件生成部１０６は、Ｓ５０５にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部１０６は、Ｓ５０６にて、図１４における非機密文書リストファイルｆ００２に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、Ｓ５０７にて非機密文書リストファイルｆ００２上の次の文書ファイルを１件取得する。
残りの文書ファイルがない場合、Ｓ５１０にステップは移動する。
次に、検出条件生成部１０６は、Ｓ５０８にて取得したファイルから非機密文書の特徴量を抽出する。
次に、検出条件生成部１０６は、Ｓ５０９にて抽出された特徴量を検出条件に追加する。
次に、検出条件生成部１０６は、Ｓ５１０にて、機密文書リストファイルｆ００１または非機密文書リストファイルｆ００２に残りのファイルがあるか判定する。
残りのファイルがある場合、Ｓ５０２にステップは移動する。
残りのファイルがない場合、Ｓ５１１にて、配布用検出条件を出力する。

別の例として、図１３のように配布用検出条件Ａと配布用検出条件Ｂを選択した場合の検出条件のマージ方法について図２０を用いてより詳細に説明する。

まず、検出条件生成部１０６は、Ｓ６０１にて、配布用検出条件を入力する。
次に、検出条件生成部１０６は、Ｓ６０２にて、配布用検出条件に含まれる機密文書、非機密文書それぞれの特徴量を抽出する。
次に、検出条件生成部１０６は、Ｓ６０３にて、配布用検出条件の残りがあるか判定する。
残りがない場合、検出条件生成部１０６は、Ｓ６０４にて抽出した全ての特徴量で機密／非機密のそれぞれをマージし新たな特徴量とする。
残りがある場合、検出条件生成部１０６は、Ｓ６０１にステップは移動する。
次に、Ｓ６０５にて、配布用検出条件を出力する。

なお、以上の説明では、検出条件生成部１０６は、２以上の部門の学習サンプル文書の特徴量をマージして配布用検出条件を生成する例を説明したが、１つの部門の学習サンプル文書の特徴量を抽出して、抽出した特徴量を反映させた検出条件を配布用検出条件としてもよい。
以下では、検索ユーザが配布用検出条件を用いて機密文書を抽出する手順以降を説明するが、以下の説明における配布用検出条件は、２以上の部門の学習サンプル文書に基づく配布用検出条件、１つの部門の学習サンプル文書に基づく配布用検出条件のいずれであってもよい。

次に、検索ユーザ認証部１０７と検索ユーザ端末２０３が機密文書監査システム１００にログインして（Ｓ１０８）から検索結果をアップロードする（Ｓ１１１）までの一連の動作について図５、図２１を用いてより詳細に説明する。

まず、検索ユーザ端末２０３が機密文書監査システム１００の検索ユーザ認証部１０７にアクセスし、利用者ＩＤとパスワードを入力する（Ｓ７０１）。
次に、検索ユーザ認証部１０７が、入力された利用者ＩＤとパスワードが検索ユーザ認証テーブル記憶部３０４に登録されているか否かのチェックを行い（Ｓ７０２）、チェック結果がＯＫである場合、検索ユーザ端末２０３は機密文書監査システム１００にログインする（Ｓ７０３）。
次に、検索ユーザ端末２０３は、検出条件生成部１０６で生成した配布用検出条件４０２を取得し（Ｓ７０４）、その配布用検出条件４０２を使って検索対象文書記憶部３０７に対する機密情報の検索を行う（Ｓ７０５）。
次に、検出された検索結果を検索結果表示部で表示する（Ｓ７０６）。
次に、検出結果を機密文書監査システム１００にアップロードする（Ｓ７０７）。

次に、機密文書監査システム１００にログインした検索ユーザが検索部１０８にて取得した検索結果を評価してから、検出条件の更新をするまでの一連の動作について図２２を用いてより詳細に説明する。

まず、検索ユーザ端末２０３が検索部１０８にて取得した検索結果を検索ユーザが検索結果評価部１１２にて評価する。
評価した結果が正しければ終了し、正しくなければ検索結果評価部１１２にてその結果を訂正し（Ｓ８０１）、学習サンプルアップロード部１１３にて検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードする（Ｓ８０２）。

検索結果の評価は、検索結果を検索ユーザが実際に目視により確認し、検出条件に合った検索結果かどうかを確認する。
具体的には、学習サンプル文書Ａの特徴量と学習サンプル文書Ｂの特徴量をマージした検出条件により他の文書について検索を行う場合、検索部１０８において、マージした検出条件の機密文書の特徴量および非機密文書の特徴量によりその文書について機密か非機密であるかの判定が行われる。そして、検索において、本来機密文書と判定されるべきものが非機密文書と判定されたり、またその逆に判定されたりする場合があるので、検索ユーザがそれを目視によって確認し、誤りがあれば訂正する。
そして、学習サンプルアップロード部１１３が、検索ユーザによる評価結果、訂正結果の情報をアップロードし、検出条件生成部１０６が、検索ユーザによる評価結果、訂正結果の情報に基づいて、配布用検出条件４０２を更新する。
アップロードされることで、新しい学習サンプルファイルが準備されることになり学習サンプルファイルが増えることで次の検索時の検索精度を高めることができる。
また、文書ファイルからのテキストの抽出は、例えば既存のテキスト抽出ソフトウェアを用いることで実現できる。
また、文書ファイルからの特徴の抽出については、前述のとおり、文書ファイルから上記テキスト抽出を行った結果のテキストに対して、単語／文字列／バイト列／ビット列の出現頻度（または有無）を算出する。但し、バイト列／ビット列の場合には、必ずしもテキスト抽出を行う必要はなく、文書ファイルのバイナリから直接特徴抽出を行うことも可能である。
また、検索結果が誤りとされたファイルそのものではなく、そのファイルから抽出されたテキストまたは特徴をアップロードすることで、アップロードするデータのサイズを削減することができる。
なお、検出条件の更新の方法は、例えば、新たにアップロードされた文書データに含まれる特徴量と、検索ユーザにより評価された配布用検出条件に含まれる特徴量とをマージするようにしてもよいし、検索ユーザから削除又は追加するよう要請された特徴量を配布用検出条件から削除又は追加するようにしてもよい。または、他の方法であってもよい。

図２３（ｆ００７）は、マージ実行権設定部１０３において設定する権限の設定ファイル仕様を表す。
本設定ファイルはＣＳＶファイル形式で提供され、１行目は設定対象外の行（コメント行）として処理され、２行目以降はマージ実行権行使ユーザのユーザ名、ユーザＩＤ、検出条件利用許可部門で構成される。

図２４（ｆ００８）は、マージ実行権付与ユーザ認証部１０１およびマージ実行権行使ユーザ認証部１０２において認証に使用されるマージ実行権付与ユーザ認証テーブルおよびマージ実行権行使ユーザ認証テーブルに格納される管理者の設定ファイル仕様を表す。
本設定ファイルはＣＳＶファイル形式で提供され、１行目は設定対象外の行（コメント行）として処理され、２行目以降は管理者ＩＤ、管理者グループ、部門名、パスワードで構成される。

以上述べた例は、マージ実行権付与ユーザが所属する部門構造をフラットに表現する場合の例であるが、大規模な組織においては部門構造が階層的になっている場合が多い。
このような場合、部門の階層構造を定義する権限テーブル記憶部３０６を用意することで、階層条件設定部１１４により階層間の検出条件マージを行うことができる。
例えば、ボトムアップ的に検出条件を定める場合、すなわち、部の下に課があるような組織において、課のレベルで作成した検出条件をまとめて、部のレベルの検出条件としたいという場合がある。
そのような場合、ある階層において、その下位に属する階層の検出条件のマージ実行権を自動的に付与することにより、マージ実行権付与の作業を省力化できる。
また別の例では、トップダウン的に検出条件を定める場合、すなわち、部の下に課があるような組織において、部で定めた共通的な検出条件に加えて、課において担当分野に特化し細分化した検出条件を定めたいという場合がある。
そのような場合、ある階層において、その上位に属する階層の検出条件のマージ実行権を自動的に付与することにより、マージ実行権付与の作業を省力化できる。
上記、上位または下位階層からのマージ実行権付与については前述のように文書グループ選択部により選択可能としても良いし、選択なしに自動的にマージするようにしてもよい。

次に、前記階層条件設定部１１４による階層間の検出条件のマージについて図２５、図２６、図２７を用いてより詳しく説明する。

図２５は、ある組織のツリー構造を表しＡ事業部の下にＡ部、Ａ部の下にＡＡ課およびＡＢ課が構成され、ｕｓｅｒ１はＡ事業部に、ｕｓｅｒａ１はＡ部にｕｓｅｒａａ１はＡＡ課にｕｓｅｒａｂ１はＡＢ課に所属することを表す。

図２６は、図７のマージを実行するユーザの権限情報の内容例を示す図にそのユーザの親部門情報を示す列を加えた図である。

図２７（ｆ００９）は、図２３のマージ実行権設定部１０３において設定する権限の設定ファイル仕様に利用許可親子部門の列を加えた図である。
図２７（ｆ００９）の利用許可親子部門の列は、正の整数１であればそのユーザの所属する部門の１つ子の所属部門にも自動的に利用許可を与えることを表し、負の整数−２であればそのユーザの所属する部門の２つ親の部門にも自動的に利用許可を与えることを表す。
例えば図２７（ｆ００９）の設定ファイルの２行目ではユーザａａ１はＡＢ課に検出条件の利用許可を与えるとともに利用許可親子部門−１により図２４（ｆ００８）の権限テーブルからその親部門であるＡ部にも同時に利用許可を与えることを示す。
そして、文書グループ選択部１０５は、権限テーブルの利用許可親子部門の記述に基づき、マージ実行権行使ユーザに直接マージ実行権が認められている部門の他、当該部門の上位階層の部門及び下位階層の部門も選択することができる。

以上説明したように、本実施の形態では、機密文書の特徴量を抽出して、機密文書を非機密情報から峻別するため検出条件を生成するため、システム管理者等が個々の情報の内容を詳細に検討しなくても機密情報を非機密情報から効率的に峻別することができる。

また、検出条件を学習サンプル文書以外の文書に適用して、機密文書の峻別が適正に行われたか否かを評価し、適切に峻別が行われていない場合には、評価結果に基づき検出条件の更新が行われるため、精度よく機密文書を峻別できる検出条件を実現することができる。

また、複数の検出条件をマージさせる際に、アクセス権とは別に検出条件をマージする権利を設定することにより、元となる検出条件にアクセス（読み書き）する権利を持たないユーザが、設定されたマージ実行権に基づいて複数の検出条件をマージして新しく配布用検出条件を生成することができ、検出条件設定担当者ごとにきめ細かい検出条件の利用管理が可能となり、また検出条件をマージする際の効率化を図ることが可能となり、また検出条件を評価することにより検出・評価によって検出結果の精度を向上させることが可能となる。

例えば、ある二つの組織において両方の組織にまたがる文書の機密情報を検出するためには、学習サンプル文書や検出条件をマージして学習させ新しい検出条件を生成する必要があるが、前述した特許文献１及び特許文献２では、特定の担当者に両方の学習サンプル文書や検出条件に対するアクセス権を与えるといった管理が必要であるが、本実施の形態では、このような管理が不要となり、検出条件を設定する特定の担当者に必要な文書や検出条件に対するアクセス権を与えるといった手間をかけることなく、その該当担当者に複数の検出条件をマージする権利を与えることができる。

以上、本実施の形態では、特定の情報を自動検出するために生成した検出条件があって、前記検出条件に従いファイルサーバやＰＣ上のファイルを検査して特定の情報を自動検出する文書検索システムを説明した。
より具体的には、
グループ毎にアクセス権が設定された複数の学習サンプル文書を管理する文書管理手段があって、さらに、
前記文書管理手段において管理された学習サンプル文書による検出条件を選択するユーザのログインを管理するユーザ認証手段があって、さらに、
ユーザ認証手段を経てログインしたユーザが、ある特定のグループに属する検出条件を生成する場合の入力とする学習サンプル文書ファイルのグループの一つを選択可能とする文書グループ選択手段があって、さらに、
前記文書グループ選択手段により選択されたグループに属する文書ファイルを入力とし、前記特定のグループに属する検出条件を生成する検出条件生成手段を
有する文書検索システムを説明した。

また、本実施の形態では、
前記文書グループ選択手段が、複数の学習サンプル文書ファイルを入力とし、
検出条件のマージ実行権は、文書のアクセス権をオーバライドして検出条件のマージ実行時にのみその文書を使うことのできる権利のことで、前記文書管理手段にて管理する異なるグループのアクセス権が設定された複数の学習サンプル文書に対する検出条件のマージ実行権を設定するマージ実行権設定手段があって、さらに、
検出条件のマージ実行権を付与することのできる管理者アカウントを持つマージ実行権付与ユーザのログインを管理するマージ実行権付与ユーザ認証手段があって、さらに、
前記マージ実行権設定手段を用いてマージ実行権を行使するマージ実行権行使ユーザのログインを管理するマージ実行権行使ユーザ認証手段があって、さらに、
前記マージ実行権付与ユーザによりマージ実行権を取得し、前記マージ実行権行使ユーザ認証手段を経てログインしたマージ実行権行使ユーザが、ある特定のグループに属する検出条件を生成する場合の入力とする学習サンプル文書ファイルを、マージ実行権を有するグループの中から複数選択可能とする文書グループ選択手段があって、さらに、
前記文書グループ選択手段により選択されたグループに属する複数文書ファイルを入力とし、前記特定のグループに属する検出条件を生成する検出条件生成手段を
有する文書検索システムを説明した。

また、本実施の形態では、特定の情報が機密情報である文書検索システムを説明した。

また、本実施の形態では、さらに、
前記検出条件生成手段で生成された配布用検出条件を取得する検索ユーザのログインを管理する検索ユーザ認証手段があって、さらに、
前記検索ユーザが前記配布用検出条件を使って検索対象文書から特定の情報を検出する検索手段があって、さらに、
前記検索ユーザが前記検索手段にて検出された検出結果を取得する検索結果表示手段を
有する文書検索システムを説明した。

また、本実施の形態では、前記文書管理手段がＯＳのファイルシステムが持つファイルのアクセス権管理方法により実現する文書検索システムを説明した。

また、本実施の形態では、前記文書グループ選択手段や前記検出条件選択手段において、すでに生成済みの配布用検出条件を入力の一つ、あるいは二つ以上とする文書検索システムを説明した。

また、本実施の形態では、前記検索条件生成手段において、検出条件のマージに使用する、前回の検索条件生成時のリストファイルや正規表現ファイルと今回のリストファイルや正規表現ファイルとの比較を行い、その差分のみ既存の検出条件をベースにマージやコンパイルする文書検索システムを説明した。

また、本実施の形態では、前記検索ユーザが機密情報の検索結果を前記検索結果表示手段にて取得して、その検出結果を検索ユーザが評価し、検索結果に誤りがある場合にファイル毎に正解を入力する検索結果評価手段と、さらに前記検索結果評価手段にて検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードして文書管理手段にて保存する学習サンプルアップロード手段を備え、アップロードされた学習サンプル文書を用いて検出条件の更新を行う文書検索システムを説明した。

また、本実施の形態では、部門の階層構造を定義する権限テーブルを持ち、上位または下位の階層の検出条件のマージ実行権を自動的に付与する階層条件設定手段を持つ文書検索システムを説明した。

実施の形態２．
図２８は、本実施の形態に係る正規表現の検出条件を使った機密情報検出条件管理方法を適用した機密文書監査システム２００を示す構成図である。
実施の形態１を表す図１との違いは、学習サンプル文書記憶部３０３の代わりにグループ毎にアクセス権が設定される複数の正規表現の検出条件を記憶する正規表現の検出条件記憶部３０８と、文書管理部１０４の代わりに正規表現の検出条件のアクセス権と正規表現の検出条件の機密情報を検出するリストファイル４０１を管理する検出条件管理部１０９と、文書グループ選択部１０５の代わりにマージ実行権を有するグループの中から正規表現の検出条件を選択可能とする検出条件選択部１１０が構成されることである。

本実施の形態に係る正規表現の検出条件とは、人手により生成された検出条件である。
つまり、本実施の形態では、検出を行うためのキーワードに人手でリストアップされた検出条件を用いる。
実施の形態１の「自動学習」の場合には、学習サンプル文書から機密と非機密のそれぞれの「特徴」を自動的に算出して、その「特徴」の含まれ方によって検索対象文書が機密なのか非機密なのかを判定するが、「人手による正規表現の検出条件」では、そのような特徴的なキーワードを、文書の中から人手で抽出する必要がある。例えば、機密文書であれば「社外秘」や「取り扱い注意」などのキーワードや、特定の顧客名、あるいは開発プロジェクトの開発仕様などのキーワードを人手により集める必要がある。
検出精度を向上させるために数百〜数千のキーワードをリストアップするのは手間がかかり、さらにキーワードの選び方によっては過剰検出などの問題が発生するため、人が検出精度を見ながら細かな調整を行う必要がある。例えば、「秘」というキーワードを設定すると、上記「社外秘」や「極秘」なども検出できるが、逆に「秘宝」や「秘匿通信」などの関係ないキーワードにより、機密文書ではない文書が過剰検出される。
本実施の形態に係る正規表現による検出条件は、人が調整を行った後の検出条件である。

図２９は、実施の形態１で示した図２に対応する。
図２９の実施の形態１における図２との違いは、学習サンプル文書Ａおよび学習サンプル文書Ｂの替わりに正規表現の検出条件Ａと正規表現の検出条件Ｂが使用されていることで、図２９は正規表現の検出条件と作成・管理部門、アクセス権、マージ実行権関係例を示す図である。
例えば、部門Ａが作成・管理する正規表現の検出条件Ａと部門Ｂが作成・管理する正規表現の検出条件Ｂがあり、その文書に対するアクセス権を正規表現の検出条件ＡにはユーザＡ１とユーザＡ２が持ち、正規表現の検出条件ＢにはユーザＢ１とユーザＢ２が持つ場合に、アクセス権にオーバライドする形でマージ実行権を付与する。
図２９の例では、ユーザＢ１に正規表現の検出条件Ａと正規表現の検出条件Ｂのマージ実行権が付与されている。

図３０は、ＯＳのファイルシステムが持つファイル構造例を示す図で、部門Ａに所属するユーザは正規表現の検出条件Ａにアクセスできることを表し、部門Ｂに所属するユーザは正規表現の検出条件Ｂにアクセスできることを表す。
検出条件管理部１０９は、このＯＳのファイルシステムにより実現し、例えば部門ＡにユーザＡ１とユーザＡ２が所属し部門ＢにユーザＢ１とユーザＢ２が所属する場合には、正規表現の検出条件Ａのアクセス権はユーザＡ１とユーザＡ２が保有し、正規表現の検出条件Ｂのアクセス権はユーザＢ１とユーザＢ２が保有する。
また、正規表現の検出条件Ａの検出式｛１，“Ａ｜Ｂ｜Ｃ”｝において、カンマで区切られた最初のフィールドが検索式ＩＤを、次のフィールドが論理式を指定している。この例では検索式ＩＤが１、論理式が“Ａ｜Ｂ｜Ｃ”である。
検索式ＩＤは、検索式を特定するためのＩＤを指定する。論理式“Ａ｜Ｂ｜Ｃ”は、ＡあるいはＢあるいはＣという文字を含む文書を検索するという一般的な正規表現による検索文を表す。

図３１は、実施の形態１で示した図８に対応する。
図３１の実施の形態１における図８との違いは、文書グループの替わりに正規表現の検出条件が使用されていることで、図３１の他の内容は図８と同一の内容を表す。

次に、実施の形態２における検出条件管理部１０９と検出条件選択部１１０および検出条件生成部１０６について図２９、図３１、図３２を用いてより詳細に説明する。

Ｓ９０１〜Ｓ９０３の処理が行われて、マージ実行権行使ユーザが機密文書監査システム１００にログインした後、まず、マージ実行権行使ユーザ端末２０２が検出条件選択部１１０において権限テーブル記憶部３０６からマージ実行権行使ユーザに対する権限情報を取得し（Ｓ９０４）、マージ実行権行使ユーザに権限のある正規表現の検出条件を提示する。
マージ実行権行使ユーザでは、提示された正規表現の検出条件からマージする正規表現の検出条件を選択し、マージ実行権行使ユーザ端末２０２から正規表現の検出条件の選択指示が検出条件選択部１１０に送られ、検出条件選択部１１０が選択指示に従って、対象となる正規表現の検出条件を選択する（Ｓ９０５）。
次に、正規表現の検出条件を管理する検出条件管理部１０９が、検出条件選択部１１０が選択した正規表現の検出条件をリストファイル４０１（正規表現ファイルともいう）に記述し、リストファイル４０１を検出条件生成部１０６に渡す（Ｓ９０６）。
次に、検出条件生成部１０６が、検出条件選択部１１０で選択したグループに属する正規表現の検出条件（リストファイル４０１に記述されている正規表現の検出条件）を入力し、入力した正規表現の検出条件の特徴量をマージして、選択した特定のグループに属する配布用検出条件４０２を生成する（Ｓ９０７）。
図２９の例では、マージ実行権行使ユーザであるユーザＢ１の選択可能な正規表現の検出条件は正規表現の検出条件Ａと正規表現の検出条件Ｂであり、図３２のように検出条件選択部１１０はユーザＢ１が選択可能な正規表現の検出条件をマージ実行権行使ユーザ端末２０２上に提示し、ユーザＢ１は提示された正規表現の検出条件からマージ対象の正規表現の検出条件の選択を行う。

次に、実施の形態２における検出条件生成部１０６において配布用検出条件を入力に用いる場合の検出条件管理部１０９と検出条件選択部１１０および検出条件生成部１０６について図３１、図３３、図３４を用いてより詳細に説明する。

Ｓ９０１〜Ｓ９０３の処理が行われて、マージ実行権行使ユーザが機密文書監査システムにログインした後、まず、マージ実行権行使ユーザ端末２０２が検出条件選択部１１０において権限テーブル記憶部３０６からマージ実行権行使ユーザに対する権限情報を取得し（Ｓ９０４）、マージ実行権行使ユーザに権限のある正規表現の検出条件を提示する。また、マージ実行権行使ユーザに権限のある文書グループについて配布用検出条件４０２が生成済である場合は、その文書グループの配布用検出条件４０２をマージ実行権行使ユーザに提示する。
マージ実行権行使ユーザでは、提示された正規表現の検出条件からマージする正規表現の検出条件を選択し、また、提示された配布用検出条件４０２の中からマージする配布用検出条件４０２を選択し、マージ実行権行使ユーザ端末２０２から正規表現の検出条件又は配布用検出条件４０２の選択指示が検出条件選択部１１０に送られ、検出条件選択部１１０が選択指示に従って、対象となる正規表現の検出条件又は配布用検出条件４０２を選択する（Ｓ９０５）。
次に、検出条件管理部１０９が、検出条件選択部１１０が選択した文書グループに対応する正規表現の検出条件をリストファイル４０１に記述する。また、配布用検出条件４０２が選択された場合は、配布用検出条件４０２をリストファイル４０１に記述する（Ｓ９０６）。
次に、検出条件生成部１０６が、検出条件選択部１１０で選択したグループに属する正規表現の検出条件（リストファイル４０１に記述されている正規表現の検出条件）を入力し、さらに検出条件生成部１０６で先に生成した配布用検出条件４０２を取得し、正規表現の検出条件及び配布用検出条件４０２をマージして、選択した特定のグループに属する配布用検出条件４０２を生成する（Ｓ９０７）。
図３３の例では、検出条件管理部１０９で管理される正規表現の検出条件と検出条件生成部１０６で先に生成した配布用検出条件４０２のマージを行い、図３４の例では、検出条件生成部１０６で先に生成した複数の配布用検出条件４０２のマージを行う。

ここで、例えば正規表現の検出条件として正規表現の検出条件Ａと正規表現の検出条件Ｂを選択した場合の検出条件のマージ方法と配布用検出条件の生成方法について図３０と図３５を用いてより詳細に説明する。

まず、マージ実行権行使ユーザ端末２０２が正規表現の検出条件Ａを選択すると、検出条件管理部１０９が、図３０で正規表現の検出条件Ａに相当する｛１，“Ａ｜Ｂ｜Ｃ”｝を図３５の正規表現ファイルｆ０１０に記述し、また、マージ実行権行使ユーザ端末２０２が正規表現の検出条件Ｂを選択すると検出条件管理部１０９が、図３０で正規表現の検出条件Ｂに相当する｛２，“Ｄ｜Ｅ｜Ｆ”｝を図３５の正規表現ファイルｆ０１０に追記する。
これらによって正規表現ファイルｆ０１０が作成され、前記正規表現ファイルを使って検出条件生成部１０６にてコンパイルされることにより配布用検出条件４０２が生成される。

ここで、例えば正規表現の検出条件として正規表現の検出条件Ａ’と先に生成された配布用検出条件を選択した場合の検出条件のマージ方法と配布用検出条件の生成方法について図３５、図３６、図３７、図３８を用いてより詳細に説明する。

まず、マージ実行権行使ユーザ端末２０２が正規表現の検出条件Ａ’を選択すると、検出条件管理部１０９が、図３６で正規表現の検出条件Ａ’に相当する｛３，“Ａ｜Ｂ｜Ｃ｜Ｇ”｝を図３７の正規表現ファイルｆ０１１に追記する。
あるいは、図３８のように図３５の正規表現ファイルｆ０１０と図３６の正規表現の検出条件Ａ’の対象となる正規表現の検出条件の比較を行い先に生成されている図３５の配布用検出条件をベースに差分のみ追記し配布用検出条件４０２が生成される。

次に、検索部１０８について、詳細に説明する。
検索部１０８は、前記配布用検出条件４０２を取得し、正規表現による文字列照合により特定のパターンが含まれる場合に機密情報として検出する。
検索部１０８が、ＤＦＡ（ＤｅｔｅｒｍｉｎｉｓｔｉｃＦｉｎｉｔｅＡｕｔｏｍａｔｏｎ、決定性有限オートマトン）として知られている方法を用いる場合には、正規表現により記述された照合条件をコンパイルして状態遷移表を生成し、その状態遷移表を入力文字列に適用することで照合を行うため、検出条件生成部１０６であらかじめコンパイルを行い、コンパイル後の状態遷移表をファイルとして保存しておくことで、起動時のコンパイル時間を不要とし、処理の高速化を行うことができる。

以上、実施の形態では、文書グループ選択手段に相当する検出条件選択手段におけるある特定のグループに属する検出条件を生成する場合の入力を正規表現による検出条件により実現する文書検索システムを説明した。

なお、実施の形態１および２ではマージ実行権設定部１０３におけるマージ実行権を付与する対象を管理者ユーザである個人を対象としたが、これに限定されるものではなく、例えば管理者ユーザの代わりに管理グループというグループを作成してそのメンバーとして複数の管理者ユーザを設定し、その対象を個人でなく部門に置き換えてもよい。

また、実施の形態１および２では、文書管理部１０４や検出条件管理部１０９を実現する手段としてＯＳのファイルシステムを使う方法を示したが、これに限定されるものではなく、メールアーカイブシステムのような文書管理システムやデータベースによる文書管理システムなどに置き換えて実現してもよい。

また、実施の形態１および２では、マージ実行権付与ユーザ認証部１０１やマージ実行権行使ユーザ認証部１０２、検索ユーザ認証部１０７を実現する手段としてそれぞれマージ実行権付与ユーザ認証テーブル記憶部３０１のマージ実行権付与ユーザ認証テーブルやマージ実行権行使ユーザ認証テーブル記憶部３０２のマージ実行権行使ユーザ認証テーブル、検索ユーザ認証テーブル記憶部３０４の検索ユーザ認証テーブルに格納されているパスワードで認証を行う方法を示したが、これに限定されるものではなく、パスワード認証の部分をＡｃｔｉｖｅＤｉｒｅｃｔｏｒｙなどの認証方法に置き換えて実現してもよい。

最後に、実施の形態１および２に示した機密文書監査システム１００のハードウェア構成例について説明する。
図３９は、実施の形態１および２に示す機密文書監査システム１００のハードウェア資源の一例を示す図である。
なお、図３９の構成は、あくまでも機密文書監査システム１００のハードウェア構成の一例を示すものであり、機密文書監査システム１００のハードウェア構成は図３９に記載の構成に限らず、他の構成であってもよい。

図３９において、機密文書監査システム１００は、プログラムを実行するＣＰＵ９１１（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。
ＣＰＵ９１１は、バス９１２を介して、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９１３、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１４、通信ボード９１５、表示装置９０１、キーボード９０２、マウス９０３、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。
更に、ＣＰＵ９１１は、ＦＤＤ９０４（ＦｌｅｘｉｂｌｅＤｉｓｋＤｒｉｖｅ）、コンパクトディスク装置９０５（ＣＤＤ）、プリンタ装置９０６、スキャナ装置９０７と接続していてもよい。また、磁気ディスク装置９２０の代わりに、光ディスク装置、メモリカード（登録商標）読み書き装置などの記憶装置でもよい。
ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
通信ボード９１５、キーボード９０２、マウス９０３、スキャナ装置９０７、ＦＤＤ９０４などは、入力装置の一例である。
また、通信ボード９１５、表示装置９０１、プリンタ装置９０６などは、出力装置の一例である。

通信ボード９１５は、ネットワークに接続されている。例えば、通信ボード９１５は、ＬＡＮ（ローカルエリアネットワーク）、インターネット、ＷＡＮ（ワイドエリアネットワーク）、ＳＡＮ（ストレージエリアネットワーク）などに接続されていても構わない。

磁気ディスク装置９２０には、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。
プログラム群９２３のプログラムは、ＣＰＵ９１１がオペレーティングシステム９２１、ウィンドウシステム９２２を利用しながら実行する。

また、ＲＡＭ９１４には、ＣＰＵ９１１に実行させるオペレーティングシステム９２１のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
また、ＲＡＭ９１４には、ＣＰＵ９１１による処理に必要な各種データが格納される。

また、ＲＯＭ９１３には、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）プログラムが格納され、磁気ディスク装置９２０にはブートプログラムが格納されている。
機密文書監査システム１００の起動時には、ＲＯＭ９１３のＢＩＯＳプログラム及び磁気ディスク装置９２０のブートプログラムが実行され、ＢＩＯＳプログラム及びブートプログラムによりオペレーティングシステム９２１が起動される。

上記プログラム群９２３には、実施の形態１および２の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。

ファイル群９２４には、実施の形態１および２の説明において、「〜の判断」、「〜の計算」、「〜の抽出」、「〜の生成」、「〜の統合」、「〜の比較」、「〜の評価」、「〜の更新」、「〜の設定」、「〜の登録」、「〜の選択」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのＣＰＵの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態１および２で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、ＦＤＤ９０４のフレキシブルディスク、ＣＤＤ９０５のコンパクトディスク、磁気ディスク装置９２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ等の記録媒体に記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、実施の形態１および２の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」、「〜手段」として説明しているものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、実施の形態１および２の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、実施の形態１および２の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。

このように、実施の形態１および２に示す機密文書監査システム１００は、処理装置たるＣＰＵ、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。

１００機密文書監査システム、１０１マージ実行権付与ユーザ認証部、１０２マージ実行権行使ユーザ認証部、１０３マージ実行権設定部、１０４文書管理部、１０５文書グループ選択部、１０６検出条件生成部、１０７検索ユーザ認証部、１０８検索部、１０９検出条件管理部、１１０検出条件選択部、１１１検索結果表示部、１１２検索結果評価部、１１３学習サンプルアップロード部、１１４階層条件設定部、２０１マージ実行権付与ユーザ端末、２０２マージ実行権行使ユーザ端末、２０３検索ユーザ端末、３０１マージ実行権付与ユーザ認証テーブル記憶部、３０２マージ実行権行使ユーザ認証テーブル記憶部、３０３学習サンプル文書記憶部、３０４検索ユーザ認証テーブル記憶部、３０５検索結果記憶部、３０６権限テーブル記憶部、３０７検索対象文書記憶部。

Claims

それぞれが複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶部と、
前記複数の項目の中から２つ以上の項目を取得対象項目として選択する項目選択部と、
前記項目選択部により選択された取得対象項目の各々に対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを用いて、特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成部とを有することを特徴とする情報処理装置。
前記峻別条件生成部は、
取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を結合して峻別条件を生成することを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、更に、
特定種類のデータの特徴が示される峻別条件を少なくとも１つ前記複数の項目のうちのいずれかの項目に対応付けて記憶する峻別条件記憶部を有し、
前記峻別条件生成部は、
前記項目選択部により選択された取得対象項目のいずれかに対応する峻別条件を前記峻別条件記憶部から取得し、前記項目選択部により選択された取得対象項目のいずれかに対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴と取得した峻別条件に示される特徴とを結合して新たな峻別条件を生成することを特徴とする請求項１又は２に記載の情報処理装置。
前記情報処理装置は、更に、
それぞれに特定種類のデータの特徴が示される複数の峻別条件を複数の項目に対応付けて記憶する峻別条件記憶部を有し、
前記峻別条件生成部は、
前記項目選択部により選択された取得対象項目の各々に対応する峻別条件を前記峻別条件記憶部から取得し、取得した峻別条件の各々に示される特徴を結合して統合峻別条件を生成することを特徴とする請求項１〜３のいずれかに記載の情報処理装置。
前記峻別条件生成部は、
生成された峻別条件を複数種類のデータに適用した際に前記特定種類のデータが正しく峻別されたか否かの評価結果に基づいて、前記峻別条件を更新することを特徴とする請求項１〜４のいずれかに記載の情報処理装置。
前記峻別条件生成部は、
前記特定種類のデータでないにもかかわらず前記特定種類のデータであると判定されたデータ及び前記特定種類のデータであるにもかかわらず前記特定種類のデータでないと判定されたデータの少なくともいずれかについての情報を取得し、取得した情報に基づいて、前記峻別条件を更新することを特徴とする請求項５に記載の情報処理装置。
前記峻別条件記憶部は、
正規表現による峻別条件を記憶しており、
前記峻別条件生成部は、
前記峻別条件生成部から正規表現による峻別条件を取得することを特徴とする請求項３又は４に記載の情報処理装置。
前記情報処理装置は、更に、
ユーザごとに、峻別条件の生成が認められている２つ以上の項目が定義されるユーザ権限項目情報を記憶するユーザ権限項目情報記憶部を有し、
前記項目選択部は、
いずれかのユーザから峻別条件の生成が要求された場合に、前記ユーザ権限項目情報に基づいて当該ユーザに峻別条件の生成が認められている項目を判断し、当該ユーザに峻別条件の生成が認められている項目のうちの２つ以上の項目を取得対象項目として選択することを特徴とする請求項１〜７のいずれかに記載の情報処理装置。
前記サンプルデータ記憶部は、
各サンプルデータを、ユーザが所属している所属組織における複数のサブ組織のうちのいずれかに対応付けて記憶し、
ユーザ権限項目情報記憶部は、
ユーザごとに、ユーザに峻別条件の生成が認められている２つ以上のサブ組織が定義されるユーザ権限項目情報を記憶しており、
前記項目選択部は、
いずれかのユーザから峻別条件の生成が要求された場合に、前記ユーザ権限項目情報に基づいて当該ユーザに峻別条件の生成が認められているサブ組織を判断し、当該ユーザに峻別条件の生成が認められているサブ組織のうちの２つ以上のサブ組織を取得対象項目として選択し、
前記峻別条件生成部は、
前記項目選択部により取得対象項目として選択されたサブ組織に対応付けられているサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を結合して峻別条件を生成することを特徴とする請求項８に記載の情報処理装置。
前記サンプルデータ記憶部は、
各サンプルデータを、階層構造になっている複数のサブ組織のいずれかに対応付けて記憶し、
前記項目選択部は、
いずれかのユーザから峻別条件の生成が要求された場合に、当該ユーザに峻別条件の生成が認められているサブ組織を取得対象項目として選択するとともに、取得対象項目として選択した前記サブ組織の上位階層のサブ組織及び下位階層のサブ組織の少なくともいずれかも取得対象項目として選択することを特徴とする請求項９に記載の情報処理装置。
前記ユーザ権限項目情報記憶部は、
峻別条件の生成が認められている２つ以上の項目が、各ユーザに認められているサンプルデータに対するアクセス権から独立して定義されているユーザ権限項目情報を記憶することを特徴とする請求項８〜１０のいずれかに記載の情報処理装置。
前記サンプルデータ記憶部は、
特定種類のデータのサンプルデータとして、機密文書データのサンプルデータを複数記憶し、
前記峻別条件生成部は、
機密文書データを他の種類のデータから峻別して抽出するための峻別条件を生成することを特徴とする請求項１〜１１のいずれかに記載の情報処理装置。
コンピュータが、複数の項目の中から２つ以上の項目を取得対象項目として選択する項目選択ステップと、
それぞれが前記複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶領域から、前記コンピュータが、前記項目選択ステップにより選択された取得対象項目の各々に対応するサンプルデータを取得するサンプルデータ取得ステップと、
前記コンピュータが、前記サンプルデータ取得ステップにより取得されたサンプルデータを用いて、前記特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成ステップとを有することを特徴とする情報処理方法。
複数の項目の中から２つ以上の項目を取得対象項目として選択する項目選択処理と、
それぞれが前記複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶領域から、前記項目選択処理により選択された取得対象項目の各々に対応するサンプルデータを取得するサンプルデータ取得処理と、
前記サンプルデータ取得処理により取得されたサンプルデータを用いて、前記特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成処理とをコンピュータに実行させることを特徴とするプログラム。