JP2006072628A - 情報抽出装置 - Google Patents

情報抽出装置 Download PDF

Info

Publication number
JP2006072628A
JP2006072628A JP2004254422A JP2004254422A JP2006072628A JP 2006072628 A JP2006072628 A JP 2006072628A JP 2004254422 A JP2004254422 A JP 2004254422A JP 2004254422 A JP2004254422 A JP 2004254422A JP 2006072628 A JP2006072628 A JP 2006072628A
Authority
JP
Japan
Prior art keywords
file
setting
analysis
name
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004254422A
Other languages
English (en)
Inventor
Takahiro Tamura
高廣 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004254422A priority Critical patent/JP2006072628A/ja
Publication of JP2006072628A publication Critical patent/JP2006072628A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】 エンドユーザの入力したデータを保持するデータベースやファイルを、エンドユーザの入力データによらず、システム上で暗号化されて保持されている場合にも、効率的に抽出できるようにする。
【解決手段】 設定ファイル解析部10は、アプリケーションサーバの設定ファイルを解析し、特定の設定項目の設定値を抽出する。ファイル抽出部20は、特定のディレクトリに配置されたファイルのソースコードを解析し、特定のキーワードを含むファイルの名称を抽出する。プログラム抽出部30は、抽出されたファイルを解析し、該ファイルがデータの処理を協調して行うプログラムのファイル名称を抽出する。データベース抽出部40は、抽出されたプログラムのファイルを解析し、該プログラムが情報の参照や保存を行うデータベースの名称やファイルの名称を抽出する。
【選択図】 図1

Description

本発明は、電子化されたデータから特定の条件を満たす情報を抽出する装置に関する。
近年、インターネット、イントラネットなどのネットワーク上でサイトを構築し、構築されたサイトからエンドユーザに様々な情報を提供するウェブサーバが多数使用されている。ウェブサーバは、ウェブサーバ用プログラムをサーバにインストールしたものであって、ウェブサーバ用プログラムの他にCGI(Common Gateway Interface)などのプログラムと連携し、連携した結果の情報をエンドユーザに提供するものでもある(例えば特許文献1参照。)。
また、ウェブサーバは、エンドユーザにアンケート等を実施するために、エンドユーザが入力したデータを取得し、処理を行い、データをデータベースサーバの管理するデータベースやサーバのファイル等に保存するという目的でも多数使用されている。
上記のように、ウェブサーバを介してエンドユーザから取得したデータはウェブサーバやデータベースサーバ上に保管されていることが多いが、それらのデータがサーバ上もしくは複数のサーバにまたがったシステムのどこに保存されているかを抽出し把握するための方法としては、エンドユーザが入力したデータに含まれるキーワードやエンドユーザの入力したデータに関連性の高いキーワードを用いて、サーバ上もしくは複数のサーバの集合であるシステム上の全ファイルに対して全文検索を行い、エンドユーザからの入力データが保存されているファイルやデータベースを抽出する等の方法があり、該全文検索を高速に行う手法等が提案されている(例えば特許文献2参照)。
特開2000−276396号公報(12段落目−16段落目、第1図) 特開平10−97542号公報
しかしながら、前述したような従来の技術では、エンドユーザが入力したデータを保存しているデータベースやファイルを抽出するために使用する文字列の選択がユーザのノウハウに依存するため、ユーザが入力したデータが保存されているデータベースやファイルをサーバやシステム上から漏れ無く抽出することが非常に難しいという問題があった。
また、エンドユーザが入力したデータが、データベースおよび/またはファイル上で暗号化されて保存されている場合には、該データベースおよび/または該ファイルを抽出できないという問題があった。
また、エンドユーザが入力したデータが保存されているデータベースやファイルのいくつかを抽出できた場合も、どのようなプログラムが関連して処理を行った結果によって該データベースおよびファイルにエンドユーザが入力したデータが保存されるかが分からないため、関連するプログラムも含めたセキュリティ対策を検討することが困難であった。
さらには、サーバが保有している記憶域の容量の増加やサーバ上に保存されているファイル総量が増加するにつれて、エンドユーザが入力したデータを処理するプログラムやエンドユーザが入力したデータを保存しているファイルやデータベースとは関係のないシステムファイル等の検索に大幅な時間が取られ、検索の効率が悪くなるという問題点があった。
本発明の目的は、サーバ上のハードディスクなどの記憶域から、エンドユーザが入力したデータが保存されているデータベースおよび/またはエンドユーザが入力したデータが保存されているファイルを、エンドユーザが入力した氏名や住所といったデータ項目や内容などに関連したキーワードを用いることなく抽出すること、すなわち、エンドユーザが入力したデータが保存されているデータベース、および/またはファイルを抽出するために、例えば、氏名、住所、メールアドレス等のような文字列を使用しないこと、また、エンドユーザが入力したデータがデータベース、および/またはファイル上で暗号化されて保存されている場合にも抽出可能とすること、また、サーバの記憶域が増加した場合やサーバ上に保存されているファイルの容量が大きくなった場合にも、エンドユーザが入力したデータが保存されているデータベースやファイルを効率的に抽出すること、およびエンドユーザが入力したデータをファイル、および/またはデータベースへ保存する際に関係するプログラムや、ユーザがデータベースおよび/またはファイルに保存されているデータを挿入、参照、更新、および削除を行う際に関係するプログラムを抽出することで、エンドユーザが入力したデータを保護するために有効な情報を提供する情報抽出装置を提供することにある。
本発明の情報抽出装置は、アプリケーションサーバの設定ファイルを解析し、特定の設定項目の設定値を抽出する設定ファイル解析手段と、特定のディレクトリに配置されたファイルのソースコードを解析し、特定のキーワードを含むファイルの名称を抽出するファイル抽出手段と、抽出されたファイルのコードを解析し、エンドユーザが入力したデータの処理を行う際に該ファイルが協調して処理を行うプログラムのファイル名称を抽出するプログラム抽出手段と、プログラム抽出手段によって抽出されたプログラムのファイルを解析し、当該プログラムがエンドユーザが入力したデータの保存やエンドユーザが入力したデータを元にした情報の挿入、参照、更新、および削除を行う際に利用するデータベースの名称またはファイルの名称を抽出するデータベース抽出手段と、設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段それぞれのデータの入出力を管理する入出力管理手段と、を有する。
この構成により、アプリケーションサーバで使用しているディレクトリに配置されたファイルという限定された領域の検索で、エンドユーザが入力したデータが保存されているデータベースおよび/またはエンドユーザが入力したデータが保存されているファイルを効率的に抽出することができ、エンドユーザが入力したデータの項目やエンドユーザが入力したデータのファイルやデータベース上での保存形式によらずプログラム言語仕様で決められたインタフェースや関数の名称や引数を解析条件として、データベースおよび/またはファイルの抽出ができ、エンドユーザが入力したデータがデータベースまたはファイル上で暗号化されて保存されている場合にもエンドユーザが入力したデータが保存されている、データベースおよび/またはファイルを見つけ出すことができる。
本発明の実施態様によれば、設定ファイル解析手段が、アプリケーションサーバの設定ファイルの名称を設定するサーバ設定ファイル名称設定手段と、サーバ設定ファイル名称設定手段で設定された名称のファイルの解析条件である設定項目を設定するサーバ設定ファイル解析項目設定手段と、サーバ設定ファイル名称設定手段で設定された名称のファイルを、前記サーバ設定ファイル解析項目設定手段で設定された解析条件で解析し、設定項目の設定値を取得するサーバ設定ファイル解析実行手段と、サーバ設定ファイル解析実行手段で取得された設定値を保存するサーバ設定ファイル解析結果記憶手段と、を有する。
この構成により、アプリケーションサーバ毎に取得する設定項目を選択することができる、プログラム抽出手段において実行されるアプリケーション抽出の解析実行範囲を絞り込むことができる。
本発明の実施態様によれば、ファイル抽出手段が、検索範囲となるファイルを設定する検索範囲設定手段と、検索範囲指定手段で設定されたファイルから、ファイルを抽出する条件である抽出キーワードおよび/またはファイルを抽出する条件であるファイル拡張子を設定するファイル抽出条件設定手段と、検索範囲設定手段で設定されたファイルからファイル抽出条件設定手段で設定された条件を満たすファイルの名称を抽出するファイル抽出実行手段と、ファイル抽出実行手段で抽出されたファイルの名称を記憶するファイル名称記憶手段と、を有する。
この構成により、特定の検索範囲を指定して検索を効率的に実行することができ、エンドユーザが入力したデータを処理する際に使用されるプログラム言語仕様で決められた関数名などの文字列を解析の条件とすることで、エンドユーザが入力するデータの項目によらずに、エンドユーザが入力したデータの処理に関わるプログラムファイルを抽出することができ、また、ファイル抽出手段の処理結果をプログラム抽出手段の解析対象として設定することで、プログラム抽出手段の解析範囲を絞り込むことができる。
本発明の実施態様によれば、プログラム抽出手段が、解析対象となるファイルを設定する解析ファイル設定手段と、解析ファイル設定手段で設定されたファイルの解析条件を設定するファイル解析条件設定手段と、解析ファイル設定手段で設定された範囲のファイルに対してファイル解析条件設定手段で設定された条件で検索を行い、協調して動作するアプリケーションプログラムの名称を抽出するファイル解析実行手段と、ファイル解析実行手段で抽出されたアプリケーションプログラムの名称を保存するプログラム名称記憶手段と、を有する。
この構成により、プログラム抽出手段の解析処理を限定して効率的に処理を実行することができ、エンドユーザのデータ入力処理を行うアプリケーションプログラムのファイル、プログラム言語仕様で決められた関数名などの文字列を解析の条件とし、エンドユーザが入力するデータの項目によらずに抽出することができる。
本発明の実施態様によれば、データベース抽出手段が、解析対象となるアプリケーションプログラムを設定するアプリケーションプログラム設定手段と、アプリケーションプログラム設定手段で設定されたアプリケーションプログラムの解析条件を設定するアプリケーションプログラム解析条件設定手段と、アプリケーションプログラム設定手段で設定されたアプリケーションプログラムをアプリケーションプログラム解析条件設定手段で設定された条件で解析し、データの挿入、参照、更新、および削除を行う際に利用するデータベースおよび/またはデータの挿入、参照、更新、および削除を行う際に利用されるファイルの名称を抽出するアプリケーションプログラム解析実行手段と、アプリケーションプログラム解析実行手段で抽出されたデータベースまたはファイルの名称を保存するデータベース名称記憶手段と、を有する。
この構成により、データベース抽出手段の解析範囲を限定して効率的に処理を実行することができ、エンドユーザが入力したデータに基づいてデータの挿入、参照、更新、および削除の際に利用するデータベースおよび/またはデータの挿入、参照、更新、および削除の際に利用するファイルを、プログラム言語仕様で決められた関数名などの文字列を解析の条件とし、抽出することができる。
本発明の実施態様によれば、入出力管理手段が、設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段それぞれの入力データを設定し、設定ファイル解析手段、およびファイル抽出手段、プログラム抽出手段、データベース抽出手段の出力データを取得するデータ取得設定手段と、設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段の入出力データの取得と設定の処理シーケンスを管理する管理手段と、を有する。
この構成により、設定ファイル解析手段の出力データをファイル抽出手段の入力データとして用いることができ、ファイル抽出手段の出力データをプログラム抽出手段の入力データとして用いることができ、プログラム抽出手段の出力データをデータベース抽出手段の入力データとして用いることができ、また、通信回線を介して接続された複数の異なる本発明の情報抽出装置と、設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段それぞれの入出力データをやり取りすることができ、通信回線を介して接続された複数のウェブサーバ、複数のデータベースサーバ、および複数のファイルサーバにより構成されたシステムで、エンドユーザが入力を行ったデータがシステムのどの装置上のどのファイルもしくはデータベースにどのプログラムの処理によって保存されているかを抽出でき、また、エンドユーザが入力したデータをもとにして挿入、参照、更新、および削除の際に利用されるデータベースおよび/または挿入、参照、更新、および削除の際に利用されるファイルがシステムのどの装置上のどのファイルもしくはデータベースにどのプログラムの処理によって挿入、参照、更新、および削除されるかを抽出することができる。
本発明は、エンドユーザが入力したデータがサーバもしくは複数のサーバで構成されたシステム上のどのデータベースやファイルに保存されているのかをエンドユーザが入力したデータの項目や内容等に関連するキーワードなどを用いることなく抽出すること、また、エンドユーザが入力したデータがデータベースやファイル上で暗号化されて保存されている場合にも抽出すること、および、エンドユーザが入力したデータの処理に関わるファイルやプログラムを把握しセキュリティ対策の参考情報を提供することができる。
次に、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の一実施の形態による情報抽出装置1の構成を示すブロック図である。
情報抽出装置1は、設定ファイル解析部10と、ファイル抽出部20と、プログラム抽出部30と、データベース抽出部40と、入出力管理部50と、を有する。
設定ファイル解析部10は、解析対象のアプリケーションサーバが使用するコンフィギュレーションファイルの名称であるファイルシステムにおけるパスが設定されるサーバ設定ファイル名称設定部11と、サーバ設定ファイル名称設定部11に設定されたファイルから抽出すべき設定項目が設定されるサーバ設定ファイル解析項目設定部12と、サーバ設定ファイル名称設定部11に設定されたファイルを解析してサーバ設定ファイル解析項目設定部12に設定された設定項目の値を抽出するサーバ設定ファイル解析実行部13と、サーバ設定ファイル解析実行部13によって抽出された値を記憶するサーバ設定ファイル解析結果記憶部14と、を有する。
ここで、サーバ設定ファイル解析項目設定部12に設定される設定項目は、アプリケーションサーバのコンフィギュレーションファイルで設定可能な項目であれば何でもよい。例えば、解析対象のアプリケーションサーバがウェブサーバの場合に、ウェブサーバの公開ディレクトリなどがある。また、それらの項目を設定する際には、コンフィギュレーションファイル上で当該の項目を設定する際に使用される文字列や記号などを用いる。
サーバ設定ファイル解析実行部13は、サーバ設定ファイル名称設定部11に設定されたファイルから、サーバ設定ファイル解析項目設定部12で設定された設定項目の設定値を、アプリケーションサーバ毎のコンフィギュレーションファイル設定様式に従い抽出する。
サーバ設定ファイル解析結果記憶部14は、サーバ設定ファイル解析実行部13によって抽出された値を記憶する。
ファイル抽出部20は、解析対象とするファイルの範囲を設定する検索範囲設定部21と、検索範囲設定部21に設定された範囲に含まれるファイルから特定の条件を満たすファイルを抽出するための検索条件が設定されるファイル抽出設定部22と、検索範囲設定部21に設定されたファイルからファイル抽出設定部22に設定された条件を満たすファイルを抽出するファイル抽出実行部23と、ファイル抽出実行部23によって抽出されたファイルの名称を記憶するファイル名称記憶部24とを有している。
ここで、検索範囲設定部21には、例えば、ファイルシステムの、ディレクトリのパスおよび/またはディレクトリのパスの集合などが該当する。
ファイル抽出設定部22は、検索範囲設定部21に設定された範囲に含まれるファイルを再帰的に検索し、当該のファイルからエンドユーザからの入力を受付けているものを抽出するための検索条件が設定されるものであり、検索条件としては、ファイルが1つもしくは複数の異なる文字列を含む、ファイル名称に特定の拡張子を含む、ファイルが1つもしくは複数の異なる文字列を含むとともにファイル名称に特定の拡張子が含まれているなど、ファイル中に含まれる文字列、およびファイルの名称に含まれる拡張子によって論理積や論理和で表現される。
ファイル抽出実行部23は、検索範囲設定部21に設定された範囲のファイルから、ファイル抽出設定部22に設定された条件を満たすファイルを再帰的に検索し、条件を満たすファイルの名称を抽出する。
ファイル名称記憶部24は、ファイル抽出実行部23によって抽出されたファイルの名称を記憶する。
プログラム抽出部30は、解析対象のファイルの名称が設定される解析ファイル設定部31と、解析ファイル設定部31に設定されたファイルから呼び出されるアプリケーションプログラムのファイル名を抽出するためのキーワードが設定されるファイル解析条件設定部32と、解析ファイル設定部31に設定されたファイルからファイル解析条件設定部32で設定された条件を満たすファイルの名称を抽出するファイル解析実行部33と、ファイル解析実行部33によって抽出されたアプリケーションプログラムのファイルの名称を記憶するプログラム名称記憶部34とを有している。
ここで、ファイル設定部31には、ファイルシステム上でのファイルの名称を表すパス、または複数のファイルを表すパスの集合などが該当する。
ファイル解析条件設定部32は、ファイル設定部31に設定されたファイルの内容を解析し、当該のファイルからエンドユーザが入力したデータの処理を行うために呼び出すプログラムのファイルの名称を抽出するためのキーワードを設定するものであり、ファイル設定部31で設定されたファイルで使用されているプログラミング言語が外部のプログラムファイルを呼び出す際に使用する関数名や記述形式を表現するための、文字列および/または条件式などが該当する。
ファイル解析実行部33は、解析ファイル設定部31に設定されたファイルからファイル解析条件設定部32で設定されたや条件の基で呼び出される外部のプログラムファイルの名称を抽出する。
プログラム名称記憶部34は、ファイル解析実行部33で抽出された外部のプログラムファイルの名称を記憶する。
データベース抽出部40は、解析対象のアプリケーションプログラムの名称が設定されるアプリケーションプログラム設定部41と、アプリケーションプログラム設定部41に設定されたファイルがデータの挿入、参照、更新、および削除を行う際に利用するデータベースやファイルの名称を抽出するためのキーワードを設定するアプリケーションプログラム解析条件設定部42と、アプリケーションプログラム設定部41に設定されたファイルからアプリケーションプログラム解析条件設定部42で設定された条件を満たす、データベースおよび/またはファイルの名称を抽出するアプリケーションプログラム解析実行部43と、アプリケーションプログラム解析実行部43によって抽出された、データベースおよび/またはファイルの名称を記憶するデータベース名称記憶部44とを有する。
ここで、アプリケーションプログラム設定部41には、ファイルシステム上でのファイルの名称を表すパスや、複数のパスの集合などが該当する。
アプリケーションプログラム解析条件設定部42は、アプリケーションプログラム設定部41に設定されたプログラムファイルの内容を解析し、当該のプログラムファイルがエンドユーザが入力したデータに基づいてデータの挿入、参照、更新、および削除などを行う際に利用するデータベースやファイルの名称を抽出するためのキーワードを設定するものであり、当該の、プログラムファイルで使用されているプログラミング言語でデータベースに接続し、挿入、参照、更新、および削除などの処理を行う際に利用される関数名や記述形式などの文字列、および当該のプログラムファイルで使用されているプログラミング言語でファイルの挿入、参照、更新、および削除などの処理を行う際に利用される関数名や、記述形式などの文字列が該当する。
アプリケーションプログラム解析実行部43は、アプリケーションプログラム設定部41に設定されたファイルからアプリケーションプログラム解析条件設定部42に設定された関数名や記述形式に基づいて利用されている、データベースおよび/またはファイルの名称を抽出する処理を行う。
データベース名称記憶部44は、アプリケーションプログラム解析実行部43で抽出されたデータベースやファイルの名称を記憶する。
入出力管理部50は、サーバ設定ファイル名称設定部11、検索範囲設定部21、解析ファイル設定部31、アプリケーションプログラム設定部41、およびデータ取得設定部51への値の設定、および、サーバ設定ファイル解析結果記憶部14、ファイル名称記憶部24、プログラム名称記憶部34、およびデータベース名称記憶部44の値を取得するデータ取得設定部51と、サーバ設定ファイル名称設定部11、検索範囲設定部21、解析ファイル設定部31、アプリケーションプログラム設定部41、データ取得設定部51、アプリケーションプログラム設定部41への値の設定、およびサーバ設定ファイル解析結果記憶部14、ファイル名称記憶部24、プログラム名称記憶部34、データベース名称記憶部44からの値の取得をどのような順序で行うかを管理する管理部52と、を有する。
ここで、データ取得設定部51は、管理部52の管理する処理順序に従い、同一もしくは通信回線を介して接続された複数の異なる情報抽出装置の設定ファイル解析部10、ファイル抽出部20、プログラム抽出部30、およびデータベース抽出部40に対してデータの取得や設定を行う機能を有する。
管理部52は、データ取得設定部51の処理順序を示す記憶域を有し、該記憶域は処理順序を示すための識別子と、設定対象の情報抽出装置の識別情報と、サーバ設定ファイル名称設定部11、検索範囲設定部21、解析ファイル設定部31、アプリケーションプログラム設定部41、データ取得設定部51、アプリケーションプログラム設定部41への値の設定やサーバ設定ファイル解析結果記憶部14、ファイル名称記憶部24、プログラム名称記憶部34、およびデータベース名称記憶部44、およびユーザ入出力のいずれに対して処理を行うか識別する情報と、を記憶する領域、また、設定ファイル解析部10、ファイル抽出部20、プログラム抽出部30、データベース抽出部40に対して処理の実行を命令する機能と、データ取得設定部51に対して値の取得と設定の実行を命令する機能と、を有する。
次に、情報記憶装置1の動作を説明する。
図2は、設定ファイル解析部10、ファイル抽出部20、プログラム抽出部30、データベース抽出部40が連携してファイル名を抽出する動作を示すフローチャートである。
まず、不図示の入力装置やプログラムを介してデータベースもしくはファイル名の抽出要求が入力されると、管理部52が設定ファイル解析部10に対して処理の開始を通知し(ステップ101)、ファイル解析部10の処理が開始され(ステップ102)、処理が完了すると管理部52へ処理の完了が通知される(ステップ103)。
管理部52は、設定ファイル解析部10から処理完了通知を受け取ると、データ取得設定部51に対してサーバ設定ファイル解析結果記憶部14の結果を取得し検索範囲設定部21へ値の設定を行う処理の実行を命令し(ステップ104)、命令を受けたデータ取得設定部51は、処理を実行し(ステップ105)、処理が完了すると管理部52へ処理完了が通知される(ステップ106)。
管理部52は、データ取得設定部51から処理完了通知を受け取ると、ファイル抽出部20に対して処理の開始を通知し(ステップ107)、ファイル抽出部20の処理が開始され(ステップ108)、処理が完了すると管理部52へ処理の完了が通知される(ステップ109)。
管理部52は、ファイル抽出部20から処理完了通知を受け取ると、データ取得設定部51に対してファイル名称結果記憶部24の結果を取得し解析ファイル設定部31へ値の設定を行う処理の実行を命令し(ステップ110)、命令を受けたデータ取得設定部51は、処理を実行し(ステップ111)、処理が完了すると管理部52へ処理完了が通知される(ステップ112)。
管理部52は、データ取得設定部51から処理完了通知を受け取ると、プログラム抽出部30に対して処理の開始を通知し(ステップ113)、プログラム抽出部30の処理が開始され(ステップ114)、処理が完了すると、管理部52へ処理の完了が通知される(ステップ115)。
管理部52は、プログラム抽出部30から処理完了通知を受け取ると、データ取得設定部51に対してプログラム名称結果記憶部34の結果を取得しアプリケーションプログラム設定部41へ値の設定を行う処理の実行を命令し(ステップ116)、命令を受けたデータ取得設定部51は処理を実行し(ステップ117)、処理が完了すると管理部52へ処理完了が通知される(ステップ118)。
管理部52は、データ取得設定部51から処理完了通知を受け取ると、データベース抽出部40に対して処理の開始を通知し(ステップ119)、データベース抽出部40の処理が開始され(ステップ120)、処理が完了すると管理部52へ処理の完了が通知される(ステップ121)。
管理部52は、データベース抽出部40から処理完了通知を受け取ると、データ取得設定部51に対してデータベース名称結果記憶部44の結果を取得し、結果を出力するように命令し(ステップ122)、命令を受けたデータ取得設定部51は、処理を実行しデータをファイルや標準出力に出力し(ステップ123)、処理が完了すると管理部52へ処理完了が通知される(ステップ124)。
管理部52は、データ取得設定部51から処理完了通知を受け取ると、不図示の出力装置またはプログラムに対して処理の完了を通知し処理を終える。
図3は、設定ファイル解析部10の動作を示すフローチャートである。
管理部52より処理実行の命令を受けると、設定ファイル解析部10は、サーバ設定ファイル名称設定部11を参照し、ファイル名称(例えばファイルシステムにおける絶対パス)が設定されているかいないかの判断を実行し(ステップ201)、ファイル名が設定されているサーバ設定ファイル解析項目設定部12を参照し、解析項目(例えばウェブサーバにおける公開ディレクトリやCGIプログラムを保存するためのディレクトリなどを設定するための文字列)が設定されているかいないかの判断を実行し(ステップ202)、値が設定されている場合には、サーバ設定ファイル解析実行部13がファイルから指定された項目の設定値(例えばウェブサーバにおける公開ディレクトリの絶対パスやCGIプログラムを保存するディレクトリの絶対パス)を抽出し(ステップ203)、サーバ設定ファイル解析結果記憶部14に設定値を保存し(ステップ204)、管理部52へ設定ファイル解析部10の処理が完了したことを通知する(ステップ205)。
サーバ設定ファイル名称設定部11にファイル名称が設定されていない場合(ステップ201)、もしくはサーバ設定ファイル解析項目設定部12に抽出する項目が設定されていない場合(ステップ202)は、管理部52に対して値が設定されていないことを通知し(ステップ206)、処理を完了する。
図4は、ファイル抽出部20の動作を示すフローチャートである。
管理部52より、処理実行の命令を受けると、ファイル抽出部20は、検索範囲設定部21を参照し、検索対象とするファイルの範囲(例えばファイルシステム上でディレクトリを表すパス、もしくは複数のディレクトリの集合など)が設定されているかいないかの判断を実行し(ステップ301)、値が設定されている場合には、ファイル抽出設定部22を参照し、ファイルの抽出条件(例えば特定のファイル拡張子がつけられたファイルや、ファイルの本文に特定の文字列もしくは特定の文字列の集合、ファイル名の拡張子と本文中に含まれる文字列の組み合わせなど)が設定されているかいないかの判断を実行し(ステップ302)、値が設定されている場合には、ファイル抽出実行部23が検索範囲設定部21で指定された範囲のファイルから、ファイル抽出設定部22で設定された条件を満たすファイルの名称(ファイルシステム内におけるパスおよび複数ファイルの場合はパスの集合)を抽出し(ステップ303)、ファイル名称結果記憶部24に設定値を保存し(ステップ304)、管理部52へファイル抽出部20の処理が完了したことを通知する(ステップ305)。
検索範囲設定部21に検索対象とするファイルの範囲が設定されていない場合(ステップ301)、もしくはファイル抽出設定部22にファイルの抽出条件が設定されていない場合(ステップ302)は、管理部52に対して値が設定されていないことを通知し(ステップ306)、処理を完了する。
図5は、プログラム抽出部30の動作を示すフローチャートである。
管理部52より処理実行の命令を受けると、プログラム抽出部30は、解析ファイル設定部31を参照し、解析対象とするファイルの名称(例えばファイルシステムにおけるファイルのパスやファイルのパスの集合など)が設定されているかいないかの判断を実行し(ステップ401)、値が設定されている場合には、ファイル解析条件設定部32を参照し、プログラムの解析条件(例えば、特定の言語で外部のファイルを参照、もしくは、外部のファイルとデータの授受を行う際に使用される関数の名称、およびその関数に渡される引数を抽出するなど。)が設定されているかいないかの判断を実行し(ステップ402)、解析条件が設定されている場合には、ファイル解析実行部33が解析ファイル設定部31で指定されたファイルから、ファイル解析条件設定部32で設定された文字列の組み合わせ(例えばプログラム言語における関数名とその引数など)を抽出し(ステップ403)、プログラム名称記憶部34に解析対象のファイル名、抽出された文字列を保存し(ステップ404)、管理部52へファイル抽出部20の処理が完了したことを通知する(ステップ405)。
解析ファイル設定部31に解析対象とするファイルの名称が設定されていない場合(ステップ401)、もしくはファイル抽出設定部22にファイルの抽出条件が設定されていない場合(ステップ402)は、管理部52に対して値が設定されていないことを通知し(ステップ406)、処理を完了する。
図6は、データベース抽出部40の動作を示すフローチャートである。
管理部52より処理実行の命令を受けると、データベース抽出部40は、アプリケーションプログラム設定部41を参照し、解析対象とするアプリケーションプログラムファイルの名称(例えばファイルシステムにおけるファイルのパスやファイルのパスの集合など)が設定されているかいないかの判断を実行し(ステップ501)、値が設定されている場合には、アプリケーションプログラム解析条件設定部42を参照し、プログラムの解析条件(例えば、特定の言語で外部のファイルやデータベースを参照、もしくは、外部のファイルやデータベースとデータの送受信を行う際に使用される関数の名称、およびその関数に渡される引数を抽出するなど。)が設定されているかいないかの判断を実行し(ステップ502)、解析条件が設定されている場合には、アプリケーションプログラム解析実行部43がアプリケーションプログラム設定部41で指定されたファイルから、アプリケーションプログラム解析条件設定部42で設定された文字列の組み合わせ(例えばプログラム言語における関数名とその引数など)を抽出し(ステップ503)、データベース名称記憶部44に解析対象のファイル名、抽出された文字列を保存し(ステップ304)、管理部52へデータベース抽出部40の処理が完了したことを通知する(ステップ505)。
アプリケーションプログラム設定部41に解析対象とするアプリケーションプログラムの名称が設定されていない場合(ステップ501)、もしくはアプリケーションプログラム解析条件設定部41にファイルの抽出条件が設定されていない場合(ステップ502)は、管理部52に対して値が設定されていないことを通知し(ステップ506)、処理を完了する。
なお、情報処理装置1の機能は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
また、以上で説明した情報抽出装置1の各構成要素を複数の異なる情報抽出装置に配置し、設定ファイル解析部10、ファイル抽出部20、プログラム抽出部30、およびデータベース抽出部40それぞれの処理を、通信回線を介して接続した複数の情報抽出装置で実行するようにしてもよい。
また、以上で説明した情報抽出装置1の設定ファイル解析部10、ファイル抽出部20、プログラム抽出部30、およびデータベース抽出部40の処理を管理部に命令を与えることでいずれかの手段を繰り返す、もしくはいずれかの手段を省略するなどして実行するようにしてもよい。
なお、本実施形態において、情報抽出装置1は、サーバ設定ファイル名称設定部11やサーバ設定ファイル解析結果記憶部14や検索範囲設定部21やファイル名称記憶部24や解析ファイル設定部31やプログラム名称記憶部34やアプリケーションプログラム設定部41やデータベース名称記憶部44に読み書きされる情報を一時的に記憶するキャッシュ、等を備えることもできるが、説明を分かりやすくするために説明を省略している。
以上説明したように、本実施形態によれば、ユーザが入力したデータが保存されている、データベースおよび/またはファイルの名称の抽出要求があった場合に、プログラム言語使用で決められた関数名や、ファイルシステムにおけるパス名など、ユーザが入力するデータによらない値を用いてユーザが入力するデータが保存されている、データベースおよび/またはファイルの名称を抽出することができる。
また、本実施形態によれば、ユーザが入力したデータが保存されている、データベースおよび/またはファイルの名称の抽出要求があった場合に、プログラム言語仕様で決められた関数名や、ファイルシステムにおけるパス名などを用いてユーザが入力するデータが保存されているデータベース、および/またはファイルの名称を抽出するため、ユーザの入力したデータが暗号化されて保存されている場合にもその保存場所を抽出することができる。
また、本実施形態によれば、ユーザが入力したデータが保存されているデータベース、および/またはファイルの名称の抽出要求があった場合に、該データベースおよび/またはファイルのデータの挿入、参照、更新、削除などを行うプログラム、およびそのプログラムを呼び出すプログラムとプログラム間の構造を把握することができるため、システムへのセキュリティ対策に有効な情報が得られる。
本発明の一実施の形態による情報抽出装置の構成を示すブロック図である。 図1の情報抽出装置の動作を示すフローチャートである。 図1の情報抽出装置の設定ファイル解析部の動作を示すフローチャートである。 図1の情報抽出装置のファイル抽出部の動作を示すフローチャートである。 図1の情報抽出装置のプログラム抽出部の動作を示すフローチャートである。 図1の情報抽出装置のデータベース抽出部の動作を示すフローチャートである。
符号の説明
1 情報抽出装置
10 設定ファイル解析部
11 サーバ設定ファイル名称設定部
12 サーバ設定ファイル解析項目設定部
13 サーバ設定ファイル解析実行部
14 サーバ設定ファイル解析結果記憶部
20 ファイル抽出部
21 検索範囲設定部
22 ファイル抽出設定部
23 ファイル抽出実行部
24 ファイル名称記憶部
30 プログラム抽出部
31 解析ファイル設定部
32 ファイル解析条件設定部
33 ファイル解析実行部
34 プログラム名称記憶部
40 データベース抽出部
41 アプリケーションプログラム設定部
42 アプリケーションプログラム解析条件設定部
43 アプリケーションプログラム解析実行部
44 データベース名称記憶部
50 入出力管理部
51 データ取得設定部
52 管理部

Claims (7)

  1. アプリケーションサーバの設定ファイルを解析し、特定の設定項目の設定値を抽出する設定ファイル解析手段と、
    特定のディレクトリに配置されたファイルのソースコードを解析し、特定のキーワードを含むファイルの名称を抽出するファイル抽出手段と、
    指定されたファイルのコードを解析し、該ファイルがデータの処理を行う際に協調して処理を行うプログラムのファイル名称を抽出するプログラム抽出手段と、
    指定されたプログラムのファイルを解析し、該プログラムがデータの挿入、参照、更新および削除を行う際に利用するデータベースの名称および/または該プログラムがデータの挿入、参照、更新、および削除を行う際に利用するファイルの名称を抽出するデータベース抽出手段と、
    前記設定ファイル解析手段、前記ファイル抽出手段、前記プログラム抽出手段、および前記データベース抽出手段それぞれの入出力データを管理し、データの受け渡しを行う入出力管理手段と、
    を有する情報抽出装置。
  2. 前記設定ファイル解析手段が、
    アプリケーションサーバの設定ファイルの名称を設定するサーバ設定ファイル名称設定手段と、
    前記サーバ設定ファイル名称設定手段で設定された名称のファイルの解析条件である設定項目を設定するサーバ設定ファイル解析項目設定手段と、
    前記サーバ設定ファイル名称設定手段で設定された名称のファイルを前記サーバ設定ファイル解析項目設定手段で設定された解析条件で解析し、設定項目の設定値を取得するサーバ設定ファイル解析実行手段と、
    前記サーバ設定ファイル解析実行手段で取得された設定値を保存するサーバ設定ファイル解析結果記憶手段と、
    を有する請求項1に記載の情報抽出装置。
  3. 前記ファイル抽出手段が、
    検索範囲となるファイルを設定する検索範囲設定手段と、
    前記検索範囲設定手段で設定されたファイルから、ファイルを抽出する条件である抽出キーワードおよび/またはファイルを抽出する条件であるファイル拡張子を設定するファイル抽出条件設定手段と、
    前記検索範囲設定手段で設定されたファイルから前記ファイル抽出条件設定手段で設定された条件を満たすファイルの名称を抽出するファイル抽出実行手段と、
    前記ファイル抽出実行手段で抽出されたファイルの名称を記憶するファイル名称記憶手段と、
    を有する請求項1に記載の情報抽出装置。
  4. 前記プログラム抽出手段が、
    解析対象となるファイルを指定する解析ファイル設定手段と、
    前記解析ファイル設定手段で設定されたファイルの解析条件を設定するファイル解析条件設定手段と、
    前記解析ファイル設定手段で設定されたファイルを、前記ファイル解析条件設定手段で設定された条件で検索し、協調して動作するアプリケーションプログラムの名称を抽出するファイル解析実行手段と、
    前記ファイル解析実行手段で抽出されたアプリケーションプログラムの名称を保存するプログラム名称記憶手段と、
    を有する請求項1に記載の情報抽出装置。
  5. 前記データベース抽出手段が、
    解析対象となるアプリケーションプログラムを設定するアプリケーションプログラム設定手段と、
    前記アプリケーションプログラム設定手段で設定されたアプリケーションプログラムの解析条件を設定するアプリケーションプログラム解析条件設定手段と、
    前記アプリケーションプログラム設定手段で設定されたアプリケーションプログラムを前記アプリケーションプログラム解析条件設定手段で設定された条件で解析し、データの挿入、参照、更新、および削除を行う際に利用するデータベースおよび/またはデータの挿入、参照、更新、および削除を行う際に利用するファイルの名称を抽出するアプリケーションプログラム解析実行手段と、
    前記アプリケーションプログラム解析実行手段で抽出されたデータベースおよび/または前記アプリケーションプログラム解析実行手段で抽出されたファイルの名称を保存するデータベース名称記憶手段と、
    を有する請求項1に記載の情報抽出装置。
  6. 前記入出力管理手段が、前記設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段それぞれの入力データを設定し、前記設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段の出力データを取得するデータ取得設定手段と、前記設定ファイル解析手段、ファイル抽出手段、プログラム抽出手段、およびデータベース抽出手段の入出力データ処理シーケンスを管理する管理手段と、を有する請求項1に記載の情報抽出装置。
  7. 請求項1から6のいずれかに記載の情報抽出装置の機能をコンピュータに実行させるためのプログラム。
JP2004254422A 2004-09-01 2004-09-01 情報抽出装置 Pending JP2006072628A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004254422A JP2006072628A (ja) 2004-09-01 2004-09-01 情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004254422A JP2006072628A (ja) 2004-09-01 2004-09-01 情報抽出装置

Publications (1)

Publication Number Publication Date
JP2006072628A true JP2006072628A (ja) 2006-03-16

Family

ID=36153206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004254422A Pending JP2006072628A (ja) 2004-09-01 2004-09-01 情報抽出装置

Country Status (1)

Country Link
JP (1) JP2006072628A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007105710A1 (ja) 2006-03-16 2007-09-20 Nissan Motor Co., Ltd. 通気量可変布帛、吸音材および車両用部品
CN102637118A (zh) * 2012-05-04 2012-08-15 珠海金山办公软件有限公司 插入或删除电子表格中单元格或行列的方法及其装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007105710A1 (ja) 2006-03-16 2007-09-20 Nissan Motor Co., Ltd. 通気量可変布帛、吸音材および車両用部品
CN102637118A (zh) * 2012-05-04 2012-08-15 珠海金山办公软件有限公司 插入或删除电子表格中单元格或行列的方法及其装置
US10198421B2 (en) 2012-05-04 2019-02-05 Zhuhai Kingsoft Office Software Co., Ltd Method for inserting or deleting cells, rows or columns in spreadsheet and a device therefor

Similar Documents

Publication Publication Date Title
CN102483765B (zh) 文件搜索系统和程序
US8301437B2 (en) Tokenization platform
JP2008102765A (ja) 検索処理方法及び検索システム
JP5600736B2 (ja) データベース管理方法およびシステム
Holzmann et al. Archivespark: Efficient web archive access, extraction and derivation
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
JP4237813B2 (ja) 構造化文書管理システム
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JPH11143885A (ja) 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体及び情報発信方法及び装置及び情報発信プログラムを格納した記憶媒体
JP2006072628A (ja) 情報抽出装置
JP2002197115A (ja) 評価基準データを用いたウェブページ検索方法及び記憶媒体
JP2006185059A (ja) コンテンツ管理装置
JP5187064B2 (ja) Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
US8775528B2 (en) Computer readable recording medium storing linking keyword automatically extracting program, linking keyword automatically extracting method and apparatus
JP2006085565A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
KR100775852B1 (ko) 응용 프로그램의 자원 검색 시스템 및 방법
JP4057997B2 (ja) スクリプト付き文書処理装置、文書取得装置、スクリプト付き文書処理システム、スクリプト付き文書処理方法およびその方法をコンピュータに実行させるためのプログラム
JP2002108887A (ja) 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
WO2017177332A1 (en) Systems and methods for collecting digital forensic evidence
JP3977632B2 (ja) 情報フィルタ用urlリスト拡張方法、装置、情報フィルタ用urlリスト拡張プログラム、および同プログラムを記録した記録媒体
JP2009043083A (ja) データベース接続システム、データベース接続用プログラムおよびデータベース接続方法
JP2005084904A (ja) 文書収集装置、文書検索装置及び文書収集検索システム