JP2010198498A - 情報処理装置及び情報処理方法及びプログラム - Google Patents
情報処理装置及び情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2010198498A JP2010198498A JP2009044762A JP2009044762A JP2010198498A JP 2010198498 A JP2010198498 A JP 2010198498A JP 2009044762 A JP2009044762 A JP 2009044762A JP 2009044762 A JP2009044762 A JP 2009044762A JP 2010198498 A JP2010198498 A JP 2010198498A
- Authority
- JP
- Japan
- Prior art keywords
- document
- user
- detection condition
- distinction
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Storage Device Security (AREA)
Abstract
【解決手段】学習サンプル文書記憶部303が機密文書のサンプルデータを複数格納しており、マージ実行権行使ユーザにマージ実行権が認められている複数の部門に対応する複数のサンプルデータを検出条件生成部106が取得し、検出条件生成部106が、取得したサンプルデータの特徴量を抽出し、抽出した特徴量をマージして複数の部門の機密文書を非機密文書から峻別できる検出条件を生成する。
【選択図】図1
Description
特許文献1では、認証された権限に基づいてデータベースアクセスを行う機密情報管理システムにおいて、認証された権限の解析結果とレコード選択条件に従ってSQLによるデータベースアクセスを可能にすることが開示されている。
より具体的には、特許文献1では、機密情報に対しては特定の所属先や職位に該当する利用者にのみアクセス権限を付与することで限定された利用者だけがアクセスできるようにしている。
特許文献2では、機密文書のアクセス権をマージする処理を支援する設定確認表示装置、設定確認表示方法、およびそのプログラムについて開示されている。
より具体的には、電子文書の各機密部分に設定された複数のアクセス権の一致度合いを判定してアクセス権のマージ処理を行っている。
それぞれが複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶部と、
前記複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択部と、
前記項目選択部により選択された取得対象項目の各々に対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを用いて、特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成部とを有することを特徴とする。
図1は、本実施の形態に係る機密文書監査システム100の構成を示す。
図1に示す各要素の詳細を説明する前に、まず、本実施の形態に係る機密文書監査システム100の動作の概要を説明する。
なお、機密文書監査システム100は情報処理装置の例である。
検出条件とは、特定種類のデータを他の種類のデータから峻別するための峻別条件であり、特定種類のデータに含まれる特徴量が示される。
以下では、特定種類のデータを機密文書のデータ(以下、単に機密文書ともいう)とし、他の種類のデータを非機密文書のデータ(以下、単に非機密文書ともいう)として説明する。
このため、学習サンプル文書記憶部303には、機密文書のサンプルデータが複数格納されている。また、学習サンプル文書記憶部303には、非機密文書のサンプルデータが格納されていてもよい。
また、詳細は後述するが、学習サンプル文書記憶部303には学習サンプル文書の他に検出条件が格納されている場合がある。
学習サンプル文書記憶部303は、サンプルデータ記憶部と峻別条件記憶部の例である。
検出条件生成部106は、学習サンプル文書記憶部303に記憶されている複数の学習サンプル文書を解析して各学習サンプル文書の特徴量を抽出し、抽出した特徴量を反映させた検出条件を生成する。
このため、ある文書データに、機密文書データの検出条件に示される特徴量が含まれていれば、その文書データを機密文書データに分類することができる。
特徴量とは、文書の特徴を定量化したものであり、例えば学習サンプル文書の集合において、ある単語が現れる頻度を学習サンプル中の全ての単語に対して算出したものが特徴量となる。そして、特徴量を機密文書と非機密文書のそれぞれについて算出することにより、ある単語が機密文書に属する確率が高いのか、非機密文書に属する確率が高いのかを求めることができる。
また、特徴量としては、他に、単語ではなく特定の長さの文字列や、バイト列、ビット列の出現頻度を示すものであってもよいし、後述するHyperspaceやSupport Vector Machineなどの場合には、一つの学習サンプル文書に含まれる単語(または文字列、バイト列、ビット列)の有無(または文書内の出現頻度)をベクトル化して特徴量として保存することになる。
また、検出条件生成部106は、生成済の検出条件をマージして新たな検出条件を生成する。
より具体的には、検出条件生成部106は、評価において、機密文書でないにもかかわらず機密文書であると判定されたデータ及び機密文書であるにもかかわらず機密文書でないと判定されたデータの少なくともいずれかについての情報に基づいて、検出条件を更新する。
より具体的には、学習サンプル文書記憶部303は複数の学習サンプル文書を組織内の複数の部門(項目、サブ組織)に対応付けて記憶しており、文書グループ選択部105が学習サンプル文書の取得対象となる部門(検出条件の生成対象となる部門)(取得対象項目)を選択し、検出条件生成部106が選択された部門の学習サンプル文書を学習サンプル文書記憶部303から取得し、各部門の学習サンプル文書の特徴量を抽出し、抽出した特徴量をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する。
また、前述したように、学習サンプル文書記憶部303は、生成済みの検出条件を格納している場合がある。学習サンプル文書記憶部303では、生成済みの検出条件をいずれかの部門(項目)に対応付けて記憶している。
そして、検出条件生成部106は、ある部門に対応付けられている学習サンプル文書から特徴量を抽出するとともに、生成済みの検出条件を取得し、検出条件生成部106が、学習サンプル文書から抽出した特徴量を抽出するとともに、抽出した特徴量と生成済みの検出条件をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する場合がある。
また、検出条件生成部106は、検出条件同士のマージ、つまり、ある部門に対応付けられている生成済みの検出条件と、他の部門に対応付けられている生成済みの検出条件をマージして複数の部門にまたがる機密文書を検出するための検出条件を生成する場合がある。
なお、文書グループ選択部105は項目選択部の例である。
そして、権限テーブル記憶部306には、マージ実行権行使ユーザのマージ実行権限が及ぶ部門が示される権限テーブルが記憶されている。権限テーブルには、マージ実行権行使ユーザごとに、当該ユーザに検出条件の生成が認められている2以上の部門(項目、サブ組織)、つまり、すなわち、いずれの部門の学習サンプル文書を用いて検出条件を生成することができるかが示されている。権限テーブルはユーザ権限項目情報の例であり、権限テーブル記憶部306はユーザ権限項目情報記憶部の例である。
また、マージ実行権設定部103は、マージ実行権付与ユーザ端末201からの指示に従って、所定のユーザにマージ実行権を設定する。マージ実行権設定部103によりマージ実行権が設定されたユーザがマージ実行権行使ユーザとなる。
また、マージ実行権付与ユーザ端末201は、マージ実行権の設定権限を有するマージ実行権付与ユーザが利用する端末装置である。
マージ実行権付与ユーザ認証部101は、入力された利用者IDとパスワードを認証する。
マージ実行権付与ユーザ認証テーブル記憶部301は、マージ実行権付与ユーザ認証部101の認証のためのユーザ認証データを格納する。
マージ実行権設定部103は、マージ実行権付与ユーザ認証部101により認証を受けてログインしたマージ実行権付与ユーザの指示に従い、いずれかのユーザにマージ実行権を設定する。
権限テーブル記憶部306は、マージ実行権設定部103により設定されたマージ実行権の内容を示す権限テーブルを格納する。
マージ実行権行使ユーザ認証部102は、入力された利用者IDとパスワードを認証する。
マージ実行権行使ユーザ認証テーブル記憶部302は、マージ実行権行使ユーザ認証部102の認証のためのユーザ認証データを格納する。
文書管理部104は、学習サンプル文書のアクセス権と学習サンプル文書中の機密情報を検出するためのリストファイル401を管理する。
リストファイル401は、文書管理部104により検出条件の生成の対象となる学習サンプル文書を列挙したリストである。
文書グループ選択部105は、学習サンプル文書記憶部303に格納されている学習サンプル文書の中から、認証されたマージ実行権行使ユーザがマージ実行権を有しているグループの学習サンプル文書を選択して抽出する。
検出条件生成部106は、文書グループ選択部105により選択された学習サンプル文書ファイルを入力とし、特定のグループに属する検出条件を生成する。
配布用検出条件402は、検出条件生成部106で生成された検出条件である。
検索ユーザ認証部107は、入力された利用者IDとパスワードを認証する。
検索ユーザ認証テーブル記憶部304は、検索ユーザ認証部107の認証のためのユーザ認証データを格納する。
検索部108は、検索ユーザ認証部107により認証を受けてログインした検索ユーザが検出条件生成部106が生成した配布用検出条件402を取得してPCやファイルサーバ等の検索対象文書記憶部307に格納されている検索対象文書から機密情報を検索する。
検索結果表示部111は、検索により取得した結果をPC等の画面に表示する。
検索結果記憶部305は、検索ユーザ端末203が機密文書監査システム100にアップロードした検索結果を一時的に記憶する。
検索結果評価部112は、検索ユーザ端末203が取得した検索結果を評価し検索結果に誤りがある場合にファイル毎に正解を入力する。
学習サンプルアップロード部113は、検索結果評価部112で検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードして学習サンプル文書記憶部303に保存する。
例えば、部門Aが作成・管理する学習サンプル文書Aと部門Bが作成・管理する学習サンプル文書Bがあり、その文書に対するアクセス権を学習サンプル文書AにはユーザA1とユーザA2が持ち、学習サンプル文書BにはユーザB1とユーザB2が持つ場合に、アクセス権にオーバライドする形でマージ実行権を付与する。
図2の例では、ユーザB1に検出条件Aと検出条件Bのマージ実行権が付与されている。
図3において、文書名中のaaa、bbb、cccは、拡張子である。各文書は、ドキュメントファイル、表計算ファイル等である。
文書管理部104は、このOSのファイルシステムにより実現し、例えば部門AにユーザA1とユーザA2が所属し部門BにユーザB1とユーザB2が所属する場合には、学習サンプル文書Aのアクセス権はユーザA1とユーザA2が保有し、学習サンプル文書Bのアクセス権はユーザB1とユーザB2が保有する。
部門A、部門Bのフォルダと、それぞれに含まれる機密、非機密のフォルダの構成は固定的に決まるようにできる。例えばフォルダ名を後述するような部門IDとし、その直下に機密、非機密のフォルダが固定的に定義されるような構成とすることができる。別な例では、学習サンプル文書の機密文書サンプルと非機密文書サンプルのフォルダをそれぞれ複数個、部門毎に指定するような構成とすることで、よりフレキシブルに学習サンプル文書管理を行うことができる。
システム管理者とは全ての権限を有する管理者を表し、部門管理者とは特定の「部門」に限った権限を有する管理者を表す。
また、「部門」とはこの機密文書監査システムにおける検出条件管理の最小のまとまりの単位のことで、例えば図2の例の部門Aや部門Bがそれに相当する。
一般検索ユーザとは、配布用検出条件402を使って検索対象文書記憶部307に対して検索を行うユーザを表す。
なお、一般検索ユーザには、前記システム管理者や部門管理者を含むことができる。
人手作成とは、人手による正規表現の検出条件作成を表し、実施の形態2で詳しく説明する。
自動学習とは、実施の形態1のように学習サンプル文書を使った自動学習による検出条件作成を表す。
また、図7では、許可部門には、他の部門、すなわちユーザが所属している部門以外の部門のみが記述されているが、許可部門にユーザが所属している部門を記述するようにしてもよい。
次に、S102で、マージ実行権付与ユーザがマージ実行権付与ユーザ端末201を利用して、管理者ユーザにマージ実行権を付与する。
次に、S104で、マージ実行権行使ユーザ端末202が権限テーブル記憶部306からマージ実行権行使ユーザの保有する権限情報を取得し、取得した権限情報に対応する文書グループをマージ実行権行使ユーザに提示する。
次に、S105で、文書グループ選択部105が、マージ実行権行使ユーザからの指定に基づき、マージする文書グループあるいは後に説明するS109で生成した配布用検出条件402を選択する。
次に、S106で、文書管理部104が、文書グループ選択部105が選択した文書グループの学習サンプル文書をリストファイル401に記述し、あるいは、文書管理部104が、文書グループ選択部105が選択した配布用検出条件402をリストファイル401に記述し、リストファイル401を検出条件生成部106に渡す。
次に、検出条件生成部106が、前記S106で取得したリストファイル401に示される学習サンプル文書の特徴量を抽出し、抽出した特徴量をマージし、あるいは前記S106で取得したリストファイル401に示される配布用検出条件402をマージし配布用検出条件を生成する(S107)。
生成された配布用検出条件402は、対象となる部門が示されて、例えば、学習サンプル文書記憶部303に格納される。また、配布用検出条件402は別の記憶領域に記憶されてもよい。
次に、S109で、検索ユーザ端末203が検出条件生成部106で生成された配布用検出条件402を検索部108にて取得する。
次に、S110で、検索ユーザは、取得した配布用検出条件402を使って文書グループ選択部105にて再学習するか判定する。
再学習する場合はS105へ進み、再学習しない場合はS111で取得した配布用検出条件402を使って検索部108にて検索対象文書記憶部307の機密情報の検索を実行する。
次に、S112で、検出された機密情報の検索結果を検索結果表示部111で表示する。
次に、S113で、検出した検索結果を機密文書監査システム100にアップロードする。
次に、マージ実行権付与ユーザ認証部101が、入力された利用者IDとパスワードがマージ実行権付与ユーザ認証テーブル記憶部301に登録されているか否かのチェックを行い(S202)、チェック結果がOKである場合は、マージ実行権付与ユーザ端末201が機密文書監査システム100にログインする(S203)。
次に、マージ実行権付与ユーザがマージ実行権付与ユーザ端末201を利用して、マージ実行権設定部103にて任意の管理者ユーザにマージ実行権を付与し(S204)、マージ実行権設定部103はその管理者ユーザのユーザIDをマージ実行権行使ユーザ認証テーブル記憶部302のマージ実行権行使ユーザテーブに格納する。
また、マージ実行権設定部103は、マージ実行権行使ユーザのマージ実行権の内容を権限テーブルに書き込む。
例えば、図2の例では、マージ実行権は、元々持つアクセス権にオーバライドする形で学習サンプル文書AにはユーザA1、ユーザA2、ユーザB1に、学習サンプル文書BにはユーザB1、ユーザB2に付与される。
次に、マージ実行権行使ユーザ認証部102が、入力された利用者IDとパスワードがマージ実行権行使ユーザ認証テーブル記憶部302に登録されているか否かのチェックを行い(S302)、チェック結果がOKである場合は、マージ実行権行使ユーザ端末202は機密文書監査システム100にログインする(S303)。
図2の場合、例えば学習サンプル文書Aと学習サンプル文書Bの両方にマージ実行権を持つユーザB1がマージ実行権行使ユーザであり、機密文書監査システム100にログインする。
マージ実行権行使ユーザでは、提示された文書グループからマージする文書グループを選択し、マージ実行権行使ユーザ端末202から文書グループの選択指示が文書グループ選択部105に送られ、文書グループ選択部105が選択指示に従って、対象となる文書グループを選択する(S105)。
次に、文書管理部104が、文書グループ選択部105が選択した文書グループに対応する学習サンプル文書をリストファイル401に記述する(S106)。
次に、検出条件生成部106が、文書グループ選択部105で選択した文書グループの学習サンプル文書(リストファイル401に記述されている学習サンプル文書)を入力し、入力した学習サンプル文書から特徴量を抽出するとともに、抽出した特徴量をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S107)。
図2の例では、マージ実行権行使ユーザであるユーザB1の選択可能な学習サンプル文書は学習サンプル文書Aと学習サンプル文書Bであり、図11のように文書グループ選択部105はユーザB1が選択可能な学習サンプル文書をマージ実行権行使ユーザ端末202上に提示し、ユーザB1は提示された学習サンプル文書からマージ対象の文書の選択を行う。
マージ実行権行使ユーザでは、提示された文書グループからマージする文書グループを選択し、また、提示された配布用検出条件402の中からマージする配布用検出条件402を選択し、マージ実行権行使ユーザ端末202から文書グループ又は配布用検出条件402の選択指示が文書グループ選択部105に送られ、文書グループ選択部105が選択指示に従って、対象となる文書グループ又は配布用検出条件402を選択する(S105)。
次に、文書管理部104が、文書グループ選択部105が選択した文書グループに対応する学習サンプル文書をリストファイル401に記述する。また、配布用検出条件402が選択された場合は、配布用検出条件402をリストファイル401に記述する(S106)。
次に、検出条件生成部106が、文書グループ選択部105で選択した文書グループの学習サンプル文書又は配布用検出条件402(リストファイル401に記述されている学習サンプル文書又は配布用検出条件402)を入力する。学習サンプル文書を入力した場合は、検出条件生成部106は、入力した学習サンプル文書から特徴量を抽出する。また、抽出した特徴量と配布用検出条件402、または配布用検出条件402同士をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S107)。
図12の例では、学習サンプル文書から抽出される特徴量と検出条件生成部106で先に生成した配布用検出条件402のマージを行い、図13の例では、検出条件生成部106で先に生成した複数の配布用検出条件402のマージを行う。
同様に学習サンプル文書Bを選択すると、文書管理部104が、図3で機密文書として対象となる文書のファイル名bx1.aaa、bx2.bbb、bx3.cccを図14の機密文書リストファイルf001に追記し、非機密文書として対象となる文書のファイル名bo1.aaa、bo2.bbb、bo3.cccを図14の非機密文書リストファイルf002に追記する。
これらによって機密文書リストファイルf001と非機密文書リストファイルf002が作成され、前記リストファイルを使って検出条件生成部106にて配布用検出条件402が生成される。
非特許文献1にはHidden Markov Model、Orthogonal Sparse Bigrams、WINNOW、Correllation、KNN/Hyperspace、Bit Entropyなどの機械学習による分類方法を用いて文書の分類が可能なソフトウェアが開示されており、これらを検出条件生成部106および検索部108として用いることができる。
これらの方法の他にも、非特許文献2にあるように、Support Vector Machine、Neural Networkなどの分類方法や、Classifier Committeesと呼ばれる、複数の分類方法の組み合わせによる方法を用いることもできる。
非特許文献1
「CRM114−the Controllable Regex Multilator」
http://crm114.sourceforge.net/
非特許文献2
F.Sebastiani, Machine Learning in Automated Text Categorisation, ACM Computing Surveys, Volume34 Issue1,p.1−47, March 2002
本動作は、図11に示すように、配布用検出条件402の生成対象が学習サンプル文書である場合に対応する。
次に、検出条件生成部106は、S402にて、図14における機密文書リストファイルf001に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、検出条件生成部106は、S403にて、機密文書リストファイルf001上の次のファイルを1件取得する。
残りの文書ファイルがない場合、S406にステップは移動する。
次に、検出条件生成部106は、S404にて、取得したファイルから機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S405にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部106は、S406にて、図14における非機密文書リストファイルf002に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S407にて非機密文書リストファイルf002上の次のファイルを1件取得する。
残りの文書ファイルがない場合、S410にステップは移動する。
次に、検出条件生成部106は、S408にて取得したファイルから非機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S409にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部106は、S410にて、機密文書リストファイルf001または非機密文書リストファイルf002に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S402にステップは移動する。
残りの文書ファイルがない場合、S411にて配布用検出条件を出力する。
なお、ここでは、非機密文書の配布用検出条件402も生成することとしたが、機密文書の配布用検出条件402のみを生成するようにしてもよい。
あるいは図18のように図14の機密文書リストファイルf001と図16の機密文書の対象となる文書、図14の非機密文書リストファイルf002と図16の非機密文書の対象となる文書の比較を行い差分のみのリストファイルを生成することもできる。
検出条件生成部106には図14のリストファイルおよび、図17または図18の機密文書リストファイルと非機密文書ファイルが入力され、配布用検出条件402が生成される。
次に、検出条件生成部106は、S502にて、図14における機密文書リストファイルf001に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S503にて機密文書リストファイルf001上の次のファイルを1件取得する。
残りの文書ファイルがない場合、S506にステップは移動する。
次に、検出条件生成部106は、S504にて取得したファイルから機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S505にて、抽出された特徴量を配布用検出条件に追加する。
次に、検出条件生成部106は、S506にて、図14における非機密文書リストファイルf002に残りの文書ファイルがあるか判定する。
残りの文書ファイルがある場合、S507にて非機密文書リストファイルf002上の次の文書ファイルを1件取得する。
残りの文書ファイルがない場合、S510にステップは移動する。
次に、検出条件生成部106は、S508にて取得したファイルから非機密文書の特徴量を抽出する。
次に、検出条件生成部106は、S509にて抽出された特徴量を検出条件に追加する。
次に、検出条件生成部106は、S510にて、機密文書リストファイルf001または非機密文書リストファイルf002に残りのファイルがあるか判定する。
残りのファイルがある場合、S502にステップは移動する。
残りのファイルがない場合、S511にて、配布用検出条件を出力する。
次に、検出条件生成部106は、S602にて、配布用検出条件に含まれる機密文書、非機密文書それぞれの特徴量を抽出する。
次に、検出条件生成部106は、S603にて、配布用検出条件の残りがあるか判定する。
残りがない場合、検出条件生成部106は、S604にて抽出した全ての特徴量で機密/非機密のそれぞれをマージし新たな特徴量とする。
残りがある場合、検出条件生成部106は、S601にステップは移動する。
次に、S605にて、配布用検出条件を出力する。
以下では、検索ユーザが配布用検出条件を用いて機密文書を抽出する手順以降を説明するが、以下の説明における配布用検出条件は、2以上の部門の学習サンプル文書に基づく配布用検出条件、1つの部門の学習サンプル文書に基づく配布用検出条件のいずれであってもよい。
次に、検索ユーザ認証部107が、入力された利用者IDとパスワードが検索ユーザ認証テーブル記憶部304に登録されているか否かのチェックを行い(S702)、チェック結果がOKである場合、検索ユーザ端末203は機密文書監査システム100にログインする(S703)。
次に、検索ユーザ端末203は、検出条件生成部106で生成した配布用検出条件402を取得し(S704)、その配布用検出条件402を使って検索対象文書記憶部307に対する機密情報の検索を行う(S705)。
次に、検出された検索結果を検索結果表示部で表示する(S706)。
次に、検出結果を機密文書監査システム100にアップロードする(S707)。
評価した結果が正しければ終了し、正しくなければ検索結果評価部112にてその結果を訂正し(S801)、学習サンプルアップロード部113にて検索結果が誤りとされたファイルもしくはファイルから抽出されたテキストもしくはファイルから抽出された特徴をアップロードする(S802)。
具体的には、学習サンプル文書Aの特徴量と学習サンプル文書Bの特徴量をマージした検出条件により他の文書について検索を行う場合、検索部108において、マージした検出条件の機密文書の特徴量および非機密文書の特徴量によりその文書について機密か非機密であるかの判定が行われる。そして、検索において、本来機密文書と判定されるべきものが非機密文書と判定されたり、またその逆に判定されたりする場合があるので、検索ユーザがそれを目視によって確認し、誤りがあれば訂正する。
そして、学習サンプルアップロード部113が、検索ユーザによる評価結果、訂正結果の情報をアップロードし、検出条件生成部106が、検索ユーザによる評価結果、訂正結果の情報に基づいて、配布用検出条件402を更新する。
アップロードされることで、新しい学習サンプルファイルが準備されることになり学習サンプルファイルが増えることで次の検索時の検索精度を高めることができる。
また、文書ファイルからのテキストの抽出は、例えば既存のテキスト抽出ソフトウェアを用いることで実現できる。
また、文書ファイルからの特徴の抽出については、前述のとおり、文書ファイルから上記テキスト抽出を行った結果のテキストに対して、単語/文字列/バイト列/ビット列の出現頻度(または有無)を算出する。但し、バイト列/ビット列の場合には、必ずしもテキスト抽出を行う必要はなく、文書ファイルのバイナリから直接特徴抽出を行うことも可能である。
また、検索結果が誤りとされたファイルそのものではなく、そのファイルから抽出されたテキストまたは特徴をアップロードすることで、アップロードするデータのサイズを削減することができる。
なお、検出条件の更新の方法は、例えば、新たにアップロードされた文書データに含まれる特徴量と、検索ユーザにより評価された配布用検出条件に含まれる特徴量とをマージするようにしてもよいし、検索ユーザから削除又は追加するよう要請された特徴量を配布用検出条件から削除又は追加するようにしてもよい。または、他の方法であってもよい。
本設定ファイルはCSVファイル形式で提供され、1行目は設定対象外の行(コメント行)として処理され、2行目以降はマージ実行権行使ユーザのユーザ名、ユーザID、検出条件利用許可部門で構成される。
本設定ファイルはCSVファイル形式で提供され、1行目は設定対象外の行(コメント行)として処理され、2行目以降は管理者ID、管理者グループ、部門名、パスワードで構成される。
このような場合、部門の階層構造を定義する権限テーブル記憶部306を用意することで、階層条件設定部114により階層間の検出条件マージを行うことができる。
例えば、ボトムアップ的に検出条件を定める場合、すなわち、部の下に課があるような組織において、課のレベルで作成した検出条件をまとめて、部のレベルの検出条件としたいという場合がある。
そのような場合、ある階層において、その下位に属する階層の検出条件のマージ実行権を自動的に付与することにより、マージ実行権付与の作業を省力化できる。
また別の例では、トップダウン的に検出条件を定める場合、すなわち、部の下に課があるような組織において、部で定めた共通的な検出条件に加えて、課において担当分野に特化し細分化した検出条件を定めたいという場合がある。
そのような場合、ある階層において、その上位に属する階層の検出条件のマージ実行権を自動的に付与することにより、マージ実行権付与の作業を省力化できる。
上記、上位または下位階層からのマージ実行権付与については前述のように文書グループ選択部により選択可能としても良いし、選択なしに自動的にマージするようにしてもよい。
図27(f009)の利用許可親子部門の列は、正の整数1であればそのユーザの所属する部門の1つ子の所属部門にも自動的に利用許可を与えることを表し、負の整数−2であればそのユーザの所属する部門の2つ親の部門にも自動的に利用許可を与えることを表す。
例えば図27(f009)の設定ファイルの2行目ではユーザaa1はAB課に検出条件の利用許可を与えるとともに利用許可親子部門−1により図24(f008)の権限テーブルからその親部門であるA部にも同時に利用許可を与えることを示す。
そして、文書グループ選択部105は、権限テーブルの利用許可親子部門の記述に基づき、マージ実行権行使ユーザに直接マージ実行権が認められている部門の他、当該部門の上位階層の部門及び下位階層の部門も選択することができる。
より具体的には、
グループ毎にアクセス権が設定された複数の学習サンプル文書を管理する文書管理手段があって、さらに、
前記文書管理手段において管理された学習サンプル文書による検出条件を選択するユーザのログインを管理するユーザ認証手段があって、さらに、
ユーザ認証手段を経てログインしたユーザが、ある特定のグループに属する検出条件を生成する場合の入力とする学習サンプル文書ファイルのグループの一つを選択可能とする文書グループ選択手段があって、さらに、
前記文書グループ選択手段により選択されたグループに属する文書ファイルを入力とし、前記特定のグループに属する検出条件を生成する検出条件生成手段を
有する文書検索システムを説明した。
前記文書グループ選択手段が、複数の学習サンプル文書ファイルを入力とし、
検出条件のマージ実行権は、文書のアクセス権をオーバライドして検出条件のマージ実行時にのみその文書を使うことのできる権利のことで、前記文書管理手段にて管理する異なるグループのアクセス権が設定された複数の学習サンプル文書に対する検出条件のマージ実行権を設定するマージ実行権設定手段があって、さらに、
検出条件のマージ実行権を付与することのできる管理者アカウントを持つマージ実行権付与ユーザのログインを管理するマージ実行権付与ユーザ認証手段があって、さらに、
前記マージ実行権設定手段を用いてマージ実行権を行使するマージ実行権行使ユーザのログインを管理するマージ実行権行使ユーザ認証手段があって、さらに、
前記マージ実行権付与ユーザによりマージ実行権を取得し、前記マージ実行権行使ユーザ認証手段を経てログインしたマージ実行権行使ユーザが、ある特定のグループに属する検出条件を生成する場合の入力とする学習サンプル文書ファイルを、マージ実行権を有するグループの中から複数選択可能とする文書グループ選択手段があって、さらに、
前記文書グループ選択手段により選択されたグループに属する複数文書ファイルを入力とし、前記特定のグループに属する検出条件を生成する検出条件生成手段を
有する文書検索システムを説明した。
前記検出条件生成手段で生成された配布用検出条件を取得する検索ユーザのログインを管理する検索ユーザ認証手段があって、さらに、
前記検索ユーザが前記配布用検出条件を使って検索対象文書から特定の情報を検出する検索手段があって、さらに、
前記検索ユーザが前記検索手段にて検出された検出結果を取得する検索結果表示手段を
有する文書検索システムを説明した。
図28は、本実施の形態に係る正規表現の検出条件を使った機密情報検出条件管理方法を適用した機密文書監査システム200を示す構成図である。
実施の形態1を表す図1との違いは、学習サンプル文書記憶部303の代わりにグループ毎にアクセス権が設定される複数の正規表現の検出条件を記憶する正規表現の検出条件記憶部308と、文書管理部104の代わりに正規表現の検出条件のアクセス権と正規表現の検出条件の機密情報を検出するリストファイル401を管理する検出条件管理部109と、文書グループ選択部105の代わりにマージ実行権を有するグループの中から正規表現の検出条件を選択可能とする検出条件選択部110が構成されることである。
つまり、本実施の形態では、検出を行うためのキーワードに人手でリストアップされた検出条件を用いる。
実施の形態1の「自動学習」の場合には、学習サンプル文書から機密と非機密のそれぞれの「特徴」を自動的に算出して、その「特徴」の含まれ方によって検索対象文書が機密なのか非機密なのかを判定するが、「人手による正規表現の検出条件」では、そのような特徴的なキーワードを、文書の中から人手で抽出する必要がある。例えば、機密文書であれば「社外秘」や「取り扱い注意」などのキーワードや、特定の顧客名、あるいは開発プロジェクトの開発仕様などのキーワードを人手により集める必要がある。
検出精度を向上させるために数百〜数千のキーワードをリストアップするのは手間がかかり、さらにキーワードの選び方によっては過剰検出などの問題が発生するため、人が検出精度を見ながら細かな調整を行う必要がある。例えば、「秘」というキーワードを設定すると、上記「社外秘」や「極秘」なども検出できるが、逆に「秘宝」や「秘匿通信」などの関係ないキーワードにより、機密文書ではない文書が過剰検出される。
本実施の形態に係る正規表現による検出条件は、人が調整を行った後の検出条件である。
図29の実施の形態1における図2との違いは、学習サンプル文書Aおよび学習サンプル文書Bの替わりに正規表現の検出条件Aと正規表現の検出条件Bが使用されていることで、図29は正規表現の検出条件と作成・管理部門、アクセス権、マージ実行権関係例を示す図である。
例えば、部門Aが作成・管理する正規表現の検出条件Aと部門Bが作成・管理する正規表現の検出条件Bがあり、その文書に対するアクセス権を正規表現の検出条件AにはユーザA1とユーザA2が持ち、正規表現の検出条件BにはユーザB1とユーザB2が持つ場合に、アクセス権にオーバライドする形でマージ実行権を付与する。
図29の例では、ユーザB1に正規表現の検出条件Aと正規表現の検出条件Bのマージ実行権が付与されている。
検出条件管理部109は、このOSのファイルシステムにより実現し、例えば部門AにユーザA1とユーザA2が所属し部門BにユーザB1とユーザB2が所属する場合には、正規表現の検出条件Aのアクセス権はユーザA1とユーザA2が保有し、正規表現の検出条件Bのアクセス権はユーザB1とユーザB2が保有する。
また、正規表現の検出条件Aの検出式{1,“A|B|C”}において、カンマで区切られた最初のフィールドが検索式IDを、次のフィールドが論理式を指定している。この例では検索式IDが1、論理式が“A|B|C”である。
検索式IDは、検索式を特定するためのIDを指定する。論理式“A|B|C”は、AあるいはBあるいはCという文字を含む文書を検索するという一般的な正規表現による検索文を表す。
図31の実施の形態1における図8との違いは、文書グループの替わりに正規表現の検出条件が使用されていることで、図31の他の内容は図8と同一の内容を表す。
マージ実行権行使ユーザでは、提示された正規表現の検出条件からマージする正規表現の検出条件を選択し、マージ実行権行使ユーザ端末202から正規表現の検出条件の選択指示が検出条件選択部110に送られ、検出条件選択部110が選択指示に従って、対象となる正規表現の検出条件を選択する(S905)。
次に、正規表現の検出条件を管理する検出条件管理部109が、検出条件選択部110が選択した正規表現の検出条件をリストファイル401(正規表現ファイルともいう)に記述し、リストファイル401を検出条件生成部106に渡す(S906)。
次に、検出条件生成部106が、検出条件選択部110で選択したグループに属する正規表現の検出条件(リストファイル401に記述されている正規表現の検出条件)を入力し、入力した正規表現の検出条件の特徴量をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S907)。
図29の例では、マージ実行権行使ユーザであるユーザB1の選択可能な正規表現の検出条件は正規表現の検出条件Aと正規表現の検出条件Bであり、図32のように検出条件選択部110はユーザB1が選択可能な正規表現の検出条件をマージ実行権行使ユーザ端末202上に提示し、ユーザB1は提示された正規表現の検出条件からマージ対象の正規表現の検出条件の選択を行う。
マージ実行権行使ユーザでは、提示された正規表現の検出条件からマージする正規表現の検出条件を選択し、また、提示された配布用検出条件402の中からマージする配布用検出条件402を選択し、マージ実行権行使ユーザ端末202から正規表現の検出条件又は配布用検出条件402の選択指示が検出条件選択部110に送られ、検出条件選択部110が選択指示に従って、対象となる正規表現の検出条件又は配布用検出条件402を選択する(S905)。
次に、検出条件管理部109が、検出条件選択部110が選択した文書グループに対応する正規表現の検出条件をリストファイル401に記述する。また、配布用検出条件402が選択された場合は、配布用検出条件402をリストファイル401に記述する(S906)。
次に、検出条件生成部106が、検出条件選択部110で選択したグループに属する正規表現の検出条件(リストファイル401に記述されている正規表現の検出条件)を入力し、さらに検出条件生成部106で先に生成した配布用検出条件402を取得し、正規表現の検出条件及び配布用検出条件402をマージして、選択した特定のグループに属する配布用検出条件402を生成する(S907)。
図33の例では、検出条件管理部109で管理される正規表現の検出条件と検出条件生成部106で先に生成した配布用検出条件402のマージを行い、図34の例では、検出条件生成部106で先に生成した複数の配布用検出条件402のマージを行う。
これらによって正規表現ファイルf010が作成され、前記正規表現ファイルを使って検出条件生成部106にてコンパイルされることにより配布用検出条件402が生成される。
あるいは、図38のように図35の正規表現ファイルf010と図36の正規表現の検出条件A’の対象となる正規表現の検出条件の比較を行い先に生成されている図35の配布用検出条件をベースに差分のみ追記し配布用検出条件402が生成される。
検索部108は、前記配布用検出条件402を取得し、正規表現による文字列照合により特定のパターンが含まれる場合に機密情報として検出する。
検索部108が、DFA(Deterministic Finite Automaton、決定性有限オートマトン)として知られている方法を用いる場合には、正規表現により記述された照合条件をコンパイルして状態遷移表を生成し、その状態遷移表を入力文字列に適用することで照合を行うため、検出条件生成部106であらかじめコンパイルを行い、コンパイル後の状態遷移表をファイルとして保存しておくことで、起動時のコンパイル時間を不要とし、処理の高速化を行うことができる。
図39は、実施の形態1および2に示す機密文書監査システム100のハードウェア資源の一例を示す図である。
なお、図39の構成は、あくまでも機密文書監査システム100のハードウェア構成の一例を示すものであり、機密文書監査システム100のハードウェア構成は図39に記載の構成に限らず、他の構成であってもよい。
CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。
更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード(登録商標)読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
通信ボード915、キーボード902、マウス903、スキャナ装置907、FDD904などは、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。
プログラム群923のプログラムは、CPU911がオペレーティングシステム921、ウィンドウシステム922を利用しながら実行する。
また、RAM914には、CPU911による処理に必要な各種データが格納される。
機密文書監査システム100の起動時には、ROM913のBIOSプログラム及び磁気ディスク装置920のブートプログラムが実行され、BIOSプログラム及びブートプログラムによりオペレーティングシステム921が起動される。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1および2で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
Claims (14)
- それぞれが複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶部と、
前記複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択部と、
前記項目選択部により選択された取得対象項目の各々に対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを用いて、特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成部とを有することを特徴とする情報処理装置。 - 前記峻別条件生成部は、
取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を結合して峻別条件を生成することを特徴とする請求項1に記載の情報処理装置。 - 前記情報処理装置は、更に、
特定種類のデータの特徴が示される峻別条件を少なくとも1つ前記複数の項目のうちのいずれかの項目に対応付けて記憶する峻別条件記憶部を有し、
前記峻別条件生成部は、
前記項目選択部により選択された取得対象項目のいずれかに対応する峻別条件を前記峻別条件記憶部から取得し、前記項目選択部により選択された取得対象項目のいずれかに対応するサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴と取得した峻別条件に示される特徴とを結合して新たな峻別条件を生成することを特徴とする請求項1又は2に記載の情報処理装置。 - 前記情報処理装置は、更に、
それぞれに特定種類のデータの特徴が示される複数の峻別条件を複数の項目に対応付けて記憶する峻別条件記憶部を有し、
前記峻別条件生成部は、
前記項目選択部により選択された取得対象項目の各々に対応する峻別条件を前記峻別条件記憶部から取得し、取得した峻別条件の各々に示される特徴を結合して統合峻別条件を生成することを特徴とする請求項1〜3のいずれかに記載の情報処理装置。 - 前記峻別条件生成部は、
生成された峻別条件を複数種類のデータに適用した際に前記特定種類のデータが正しく峻別されたか否かの評価結果に基づいて、前記峻別条件を更新することを特徴とする請求項1〜4のいずれかに記載の情報処理装置。 - 前記峻別条件生成部は、
前記特定種類のデータでないにもかかわらず前記特定種類のデータであると判定されたデータ及び前記特定種類のデータであるにもかかわらず前記特定種類のデータでないと判定されたデータの少なくともいずれかについての情報を取得し、取得した情報に基づいて、前記峻別条件を更新することを特徴とする請求項5に記載の情報処理装置。 - 前記峻別条件記憶部は、
正規表現による峻別条件を記憶しており、
前記峻別条件生成部は、
前記峻別条件生成部から正規表現による峻別条件を取得することを特徴とする請求項3又は4に記載の情報処理装置。 - 前記情報処理装置は、更に、
ユーザごとに、峻別条件の生成が認められている2つ以上の項目が定義されるユーザ権限項目情報を記憶するユーザ権限項目情報記憶部を有し、
前記項目選択部は、
いずれかのユーザから峻別条件の生成が要求された場合に、前記ユーザ権限項目情報に基づいて当該ユーザに峻別条件の生成が認められている項目を判断し、当該ユーザに峻別条件の生成が認められている項目のうちの2つ以上の項目を取得対象項目として選択することを特徴とする請求項1〜7のいずれかに記載の情報処理装置。 - 前記サンプルデータ記憶部は、
各サンプルデータを、ユーザが所属している所属組織における複数のサブ組織のうちのいずれかに対応付けて記憶し、
ユーザ権限項目情報記憶部は、
ユーザごとに、ユーザに峻別条件の生成が認められている2つ以上のサブ組織が定義されるユーザ権限項目情報を記憶しており、
前記項目選択部は、
いずれかのユーザから峻別条件の生成が要求された場合に、前記ユーザ権限項目情報に基づいて当該ユーザに峻別条件の生成が認められているサブ組織を判断し、当該ユーザに峻別条件の生成が認められているサブ組織のうちの2つ以上のサブ組織を取得対象項目として選択し、
前記峻別条件生成部は、
前記項目選択部により取得対象項目として選択されたサブ組織に対応付けられているサンプルデータを前記サンプルデータ記憶部から取得し、取得したサンプルデータを解析して各サンプルデータの特徴を抽出し、抽出した特徴を結合して峻別条件を生成することを特徴とする請求項8に記載の情報処理装置。 - 前記サンプルデータ記憶部は、
各サンプルデータを、階層構造になっている複数のサブ組織のいずれかに対応付けて記憶し、
前記項目選択部は、
いずれかのユーザから峻別条件の生成が要求された場合に、当該ユーザに峻別条件の生成が認められているサブ組織を取得対象項目として選択するとともに、取得対象項目として選択した前記サブ組織の上位階層のサブ組織及び下位階層のサブ組織の少なくともいずれかも取得対象項目として選択することを特徴とする請求項9に記載の情報処理装置。 - 前記ユーザ権限項目情報記憶部は、
峻別条件の生成が認められている2つ以上の項目が、各ユーザに認められているサンプルデータに対するアクセス権から独立して定義されているユーザ権限項目情報を記憶することを特徴とする請求項8〜10のいずれかに記載の情報処理装置。 - 前記サンプルデータ記憶部は、
特定種類のデータのサンプルデータとして、機密文書データのサンプルデータを複数記憶し、
前記峻別条件生成部は、
機密文書データを他の種類のデータから峻別して抽出するための峻別条件を生成することを特徴とする請求項1〜11のいずれかに記載の情報処理装置。 - コンピュータが、複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択ステップと、
それぞれが前記複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶領域から、前記コンピュータが、前記項目選択ステップにより選択された取得対象項目の各々に対応するサンプルデータを取得するサンプルデータ取得ステップと、
前記コンピュータが、前記サンプルデータ取得ステップにより取得されたサンプルデータを用いて、前記特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成ステップとを有することを特徴とする情報処理方法。 - 複数の項目の中から2つ以上の項目を取得対象項目として選択する項目選択処理と、
それぞれが前記複数の項目のうちのいずれかの項目に対応付けられている、特定種類のデータのサンプルデータを複数記憶するサンプルデータ記憶領域から、前記項目選択処理により選択された取得対象項目の各々に対応するサンプルデータを取得するサンプルデータ取得処理と、
前記サンプルデータ取得処理により取得されたサンプルデータを用いて、前記特定種類のデータを他の種類のデータから峻別して抽出するための峻別条件を生成する峻別条件生成処理とをコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009044762A JP5213758B2 (ja) | 2009-02-26 | 2009-02-26 | 情報処理装置及び情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009044762A JP5213758B2 (ja) | 2009-02-26 | 2009-02-26 | 情報処理装置及び情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010198498A true JP2010198498A (ja) | 2010-09-09 |
JP5213758B2 JP5213758B2 (ja) | 2013-06-19 |
Family
ID=42823136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009044762A Expired - Fee Related JP5213758B2 (ja) | 2009-02-26 | 2009-02-26 | 情報処理装置及び情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5213758B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013171968A1 (ja) * | 2012-05-15 | 2013-11-21 | ソニー株式会社 | 上映管理装置および上映管理方法 |
JP2014511536A (ja) * | 2011-03-01 | 2014-05-15 | シマンテック コーポレーション | 機械学習を行うためのユーザインターフェース及びワークフロー |
CN110515980A (zh) * | 2019-07-17 | 2019-11-29 | 金蝶软件(中国)有限公司 | 抽检方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145236A (ja) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002297631A (ja) * | 2001-03-29 | 2002-10-11 | Fujitsu Ltd | 情報整理・提供装置及び記録媒体 |
JP2006516775A (ja) * | 2003-01-23 | 2006-07-06 | ヴァーダシス・インコーポレーテッド | 構造化されていないデータの大集合における類似性および修正履歴の特定 |
JP2006209649A (ja) * | 2005-01-31 | 2006-08-10 | Nec Corp | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム |
JP2006221560A (ja) * | 2005-02-14 | 2006-08-24 | Nomura Research Institute Ltd | データ置換装置、データ置換方法およびデータ置換プログラム |
JP2008242689A (ja) * | 2007-03-27 | 2008-10-09 | Kddi Corp | コンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体 |
JP2008269639A (ja) * | 2004-09-14 | 2008-11-06 | Ipb:Kk | 文書を時系列に配置した文書相関図の作成装置 |
-
2009
- 2009-02-26 JP JP2009044762A patent/JP5213758B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145236A (ja) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002297631A (ja) * | 2001-03-29 | 2002-10-11 | Fujitsu Ltd | 情報整理・提供装置及び記録媒体 |
JP2006516775A (ja) * | 2003-01-23 | 2006-07-06 | ヴァーダシス・インコーポレーテッド | 構造化されていないデータの大集合における類似性および修正履歴の特定 |
JP2008269639A (ja) * | 2004-09-14 | 2008-11-06 | Ipb:Kk | 文書を時系列に配置した文書相関図の作成装置 |
JP2006209649A (ja) * | 2005-01-31 | 2006-08-10 | Nec Corp | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム |
JP2006221560A (ja) * | 2005-02-14 | 2006-08-24 | Nomura Research Institute Ltd | データ置換装置、データ置換方法およびデータ置換プログラム |
JP2008242689A (ja) * | 2007-03-27 | 2008-10-09 | Kddi Corp | コンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014511536A (ja) * | 2011-03-01 | 2014-05-15 | シマンテック コーポレーション | 機械学習を行うためのユーザインターフェース及びワークフロー |
WO2013171968A1 (ja) * | 2012-05-15 | 2013-11-21 | ソニー株式会社 | 上映管理装置および上映管理方法 |
CN110515980A (zh) * | 2019-07-17 | 2019-11-29 | 金蝶软件(中国)有限公司 | 抽检方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5213758B2 (ja) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hasan et al. | Detection of SQL injection attacks: a machine learning approach | |
JP6860070B2 (ja) | 分析装置、ログの分析方法及び分析プログラム | |
Huang et al. | {SUPOR}: Precise and scalable sensitive user input detection for android apps | |
Gupta | Kibana essentials | |
Han et al. | Perflearner: Learning from bug reports to understand and generate performance test frames | |
Burrows et al. | Comparing techniques for authorship attribution of source code | |
EP3218811B1 (en) | Testing insecure computing environments using random data sets generated from characterizations of real data sets | |
Machicao et al. | Authorship attribution based on life-like network automata | |
JP6053131B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Jiang et al. | Recommending new features from mobile app descriptions | |
Tsukerman | Machine Learning for Cybersecurity Cookbook: Over 80 recipes on how to implement machine learning algorithms for building security systems using Python | |
CN102456071A (zh) | 文件管理装置以及文件管理方法 | |
Fang et al. | TAP: A static analysis model for PHP vulnerabilities based on token and deep learning technology | |
US9646164B2 (en) | System and method for evaluating a reverse query | |
Kaur et al. | Scholarometer: A social framework for analyzing impact across disciplines | |
JP6776310B2 (ja) | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム | |
JP6605022B2 (ja) | 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス | |
Hill et al. | A longitudinal dataset of five years of public activity in the Scratch online community | |
Kühn et al. | Common vulnerability scoring system prediction based on open source intelligence information sources | |
JP5213758B2 (ja) | 情報処理装置及び情報処理方法及びプログラム | |
Fadele et al. | A novel Hadith authentication mobile system in Arabic to Malay language translation for android and iOS Phones | |
CN114580008A (zh) | 基于文档组件布局的文档访问控制 | |
Burrows | Source code authorship attribution | |
Gruppi et al. | Tell me who your friends are: Using content sharing behavior for news source veracity detection | |
US20090287654A1 (en) | Device for identifying electronic file based on assigned identifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130226 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |