JP2001101049A - ファイル復元装置 - Google Patents

ファイル復元装置

Info

Publication number
JP2001101049A
JP2001101049A JP27362199A JP27362199A JP2001101049A JP 2001101049 A JP2001101049 A JP 2001101049A JP 27362199 A JP27362199 A JP 27362199A JP 27362199 A JP27362199 A JP 27362199A JP 2001101049 A JP2001101049 A JP 2001101049A
Authority
JP
Japan
Prior art keywords
file
format
data
information
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27362199A
Other languages
English (en)
Inventor
Seiichi Amada
誠一 天田
Mitsuru Matsui
充 松井
Toshio Tokita
俊雄 時田
Hiroyuki Mamada
裕幸 儘田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP27362199A priority Critical patent/JP2001101049A/ja
Publication of JP2001101049A publication Critical patent/JP2001101049A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 入力データファイルが未知の形式であっても
データファイルの内容を見たい。 【解決手段】 形式情報データベース2とデータ照合処
理装置4と復元処理装置5により入力データファイルを
復元できない場合、特徴解析処理装置6により入力デー
タファイルの特徴を解析し、形式推定処理装置7により
解析情報データベース3の既知の形式のデータの特徴を
用いて入力データファイルの形式を推定し、復元処理装
置5により復元し、データ確認処理装置8により復元し
た内容の確認を利用者に促す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、データファイル
の復元に関するものである。以下に述べる実施の形態に
おいて、復元(従来技術における復元は除く)とは、特
定のアプリケーションで作成されたファイルであるが、
その特定のアプリケーションで利用できない状態になっ
ているファイルを、その特定のアプリケーションで利用
できる状態に戻すことをいう。例えば、ファイル名の一
部に用いられている拡張子が削除又は変更されている場
合、正しい拡張子を付与したり、データファイルの一部
が破壊されて、本来の形式ではないように偽装されてい
るファイルを修復したり、本来のデータファイルを他の
データファイルの中に埋め込んで隠蔽したものを取り出
したり、圧縮されたファイルを解凍したり、分割された
複数のファイルを結合したりすることをいう。
【0002】
【従来の技術】図7は、例えば、従来のデータファイル
の復元方式であり、既知のファイル形式のファイルのみ
を復元することを可能としている。図において、9はデ
ータファイルの形式情報を格納する形式情報データベー
ス、10は入力されたデータファイルと形式情報データ
ベース9から取り出した情報を照合するデータ照合処理
装置、11は入力されたデータファイルを利用者が確認
可能なデータファイルに復元する復元処理装置である。
復元されたデータファイルは、例えば、テキストや画像
や音声等のデータファイルであり、圧縮や分割されてい
たデータファイルを復元したものであり、特定のアプリ
ケーションから生成されたデータファイル等である。
【0003】次に、動作について説明する。従来の技術
は、まず、形式情報データベース9からデータファイル
の形式に関する情報を取り出す。取り出したデータファ
イルの情報と入力データファイルとをデータ照合処理装
置10で照合する。データの照合に成功した場合は、復
元処理装置11においてデータファイルを復元する。例
えば、形式情報データベース9に、拡張子がTXTのフ
ァイルはテキストファイルであるという情報がある場
合、入力データファイルの拡張子がTXTであれば、デ
ータ照合処理装置10は、入力データファイルをテキス
トファイルとして判定し、復元処理装置11は、テキス
トエディタを用いて入力データファイルの内容を表示
(復元)する。図7に示す従来のデータファイルの復元
方式における復元とは、単にデータファイルの内容を表
示することを意味しており、この従来技術の復元(表
示)は、以下に述べる実施の形態における復元の一部分
にすぎない。
【0004】
【発明が解決しようとする課題】従来のデータファイル
の復元方式は、形式情報データベース9に格納されてい
ないデータファイルの形式については復元できないとい
う問題点があった。
【0005】この発明は、上記のような問題点を解決す
るためになされたもので、入力データファイルが未知の
データファイルの形式であった場合でも、データファイ
ルの特徴を解析し、その結果からデータファイルの形式
を推定することによりデータファイルの復元することを
その目的とする。
【0006】
【課題を解決するための手段】この発明に係るファイル
復元装置は、ファイル形式が既知のデータファイルの特
徴を格納する解析情報データベースと、ファイル形式が
未知のデータファイルを入力し、入力したデータファイ
ルの特徴を解析する特徴解析処理装置と、解析情報デー
タベースが格納している特徴と特徴解析処理装置が解析
した特徴とに基づいて、データファイルの形式を推定す
る形式推定処理装置と、形式推定処理装置により推定さ
れた形式に基づいてデータファイルを復元する復元処理
装置とを有することを特徴とする。
【0007】上記ファイル復元装置は、更に、データフ
ァイル形式の情報を格納する形式情報データベースと、
データファイルと形式情報データベースの情報とを照合
して、データファイルの形式を判定するデータ照合処理
装置とを備え、上記形式情報データベースは、新たなフ
ァイル形式の情報を追加又は更新し、上記データ照合処
理装置は、追加又は更新された形式情報データベースを
参照してデータファイルの形式を判定し、上記復元処理
装置は、データ照合処理装置が判定した形式に基づいて
データファイルを復元することを特徴とする。
【0008】上記特徴解析処理装置は、新たなファイル
形式のデータファイルが持つ特徴を解析する演算装置を
追加し、解析情報データベースは、新たなファイル形式
のデータファイルが持つ特徴を格納し、上記形式推定処
理装置は、特徴解析処理装置に追加された演算装置によ
り解析された特徴が解析情報データベースに格納した特
徴と一致する場合に、入力したデータファイルが新たな
ファイル形式のファイルであるということを推定するこ
とを特徴とする。
【0009】上記ファイル復元装置は、更に、入力した
データファイルの履歴を格納する履歴データベースを備
え、上記履歴データベースに格納されたデータファイル
の中で復元できなかったデータファイルを再び入力して
復元することを特徴とする。
【0010】上記ファイル復元装置は、形式が未知の複
数のデータファイルの特徴を抽出、解析、蓄積すること
により、学習的にファイル形式を推定し、データファイ
ルを復元することを特徴とする。
【0011】上記特徴解析処理装置は、データファイル
の特徴を複数の解析項目により解析することを特徴とす
る。
【0012】上記複数の解析項目は、少なくともデータ
ファイルの属性情報と統計情報とのいずれかを含むこと
を特徴とする。
【0013】この発明に係るファイル復元装置は、特定
のアプリケーションにより作成された所定の形式を持つ
データファイルの所定の位置にある値の特徴情報をマジ
ック情報として記憶するマジック情報ファイルと、ファ
イル形式が判別できないファイルを入力し、入力したフ
ァイルの所定の位置にある値と上記マジック情報ファイ
ルに記憶されたマジック情報とを照合して、入力したフ
ァイルのファイル形式を推定するファイル形式推定サブ
システムと、ファイル形式推定サブシステムが推定した
ファイル形式を用いて入力したファイルの内容が認識で
きるように復元するファイル復元サブシステムとを備え
たことを特徴とする。
【0014】上記ファイル形式推定サブシステムは、更
に、データファイルのファイル形式特有の特徴をチェッ
クすることにより、入力したファイルのファイル形式を
推定することを特徴とする。
【0015】上記ファイル復元装置は、更に、ファイル
形式推定サブシステムが推定したファイル形式に依存し
て得られるファイル特有属性情報を抽出して保存すると
ともに、圧縮ファイルの伸長と、エンコードファイルの
デコードと、アーカイブファイルの展開と、分割ファイ
ルの結合とのいずれの処理が可能であるかを解析するフ
ァイル情報取得サブシステムを備えたことを特徴とす
る。
【0016】上記ファイル復元装置は、更に、ファイル
に偽装処理又は隠蔽処理がされているかを解析又は検出
するファイル偽装/隠蔽解析サブシステムを備えたこと
を特徴とする。
【0017】上記ファイル復元サブシステムは、偽装さ
れたファイルの修正と、隠蔽されたファイルの抽出と、
圧縮ファイルの伸長と、エンコードファイルのデコード
と、アーカイブファイルの展開と、分割ファイルの結合
とを試みることによりファイルの復元を行うことを特徴
とする。
【0018】上記ファイル復元装置は、更に、ファイル
形式が特定できなかったファイルの特徴を抽出して保存
するファイル特徴解析サブシステムを備えたことを特徴
とする。
【0019】
【発明の実施の形態】実施の形態1.図1は、本発明の
構成を示す図である。図1のメイン処理部は、例えば、
コンピュータである。メイン処理部内の図1に示した各
処理装置は演算装置であり、CPUやメモリや回路やフ
ァームウェアやソフトウェアプログラムで構成すること
ができる。図において、1は入力されたデータファイル
それ自身及び復元の成否、特徴解析の結果情報及びファ
イル形式の推定情報を全て格納する履歴情報データベー
ス、2はデータファイルの形式情報及びデータファイル
の内容を確認するのに必要なアプリケーション等を格納
する形式情報データベース、3はデータファイルの特徴
解析の処理結果の情報を格納する解析情報データベー
ス、4は形式情報データベース2の情報と処理中のデー
タファイルの情報とを照合するデータ照合処理装置、5
は形式情報データベース2の情報に基づき処理中のデー
タファイルを復元する復元処理装置、6はデータファイ
ルの特徴を解析する特徴解析処理装置、7は形式不明な
データファイルの形式を推定する形式推定処理装置、8
は形式情報データベース2の情報に基づきデータファイ
ルの内容を利用者が確認するデータ確認処理装置であ
る。形式情報データベース2、特徴解析処理装置6及び
データ確認処理装置8は随時更新及び追加(更新又は追
加)され、それに伴い解析情報データベース3の内容も
更新及び追加(更新又は追加)される。
【0020】図2は、図1の特徴解析処理装置6の構成
を示す図である。特徴解析処理装置6は、複数の解析項
目1,2,・・・,nを処理する複数の(n個の)演算
装置から構成されている。特徴解析処理装置6は、演算
装置の集合である。複数の解析項目とは、例えば、デー
タファイルの属性情報の解析項目であり、或いは、デー
タファイルの統計情報の解析項目等である。
【0021】例えば、データファイルの属性情報の解析
としては、拡張子の解析、データファイルのヘッダ部に
ある所定の値の解析、或いは、データファイルの所定の
位置にあるコード(例えば、マジックナンバー)の解
析、データファイルのサイズの解析、或いは、データフ
ァイルのファイル名の長さによる解析等が考えられる。
また、データファイルの統計情報の解析としては、コー
ドの出現周期性の解析、コードの出現頻度解析(特定コ
ードの出現の偏り)、ビット0とビット1の出現頻度解
析、或いは、特定の識別子やタグ(例えば、HTMLフ
ァイルの<>タグやCSVファイルのカンマ)の出現頻
度解析、或いは、線形複雑度の解析等が考えられる。
【0022】図3は、図1のデータ確認処理装置8の構
成を示す図である。データ確認処理装置8は、複数の確
認項目1,2,・・・,mを処理するm個の演算装置か
ら構成されている。データ確認処理装置8は、演算装置
の集合である。複数の確認項目とは、例えば、テキスト
エディタによるテキストファイルの表示機能であり、画
像ファイルの表示機能であり、音声ファイルの再生機能
等である。形式情報データベース2の内容の更新及び追
加(更新又は追加)に伴い、新たな確認項目が更新及び
追加(更新又は追加)される。例えば、HTML形式の
データファイルの形式の情報が形式情報データベース2
の内容に追加された場合、HTML形式のデータファイ
ルの表示機能としてブラウザが追加される。
【0023】データファイルは、以下に示すような異な
る記録媒体を用いて、かつ、異なる媒体フォーマット形
式を用いて記録されている。また、そのデータファイル
の文字コードやファイル形式や数値形式や拡張子や圧縮
形式等も千差万別である。
【0024】例えば、データファイルの保存形式として
は、以下のようなものが考えられる。 1.記録媒体 フレキシブルディスク(FD) メモリカード コンパクトディスク(CD) デジタルバーサタイルディスク(DVD) 光ディスク 2.フォーマット形式 DOSフォーマット JISフォーマット 3.文字コード Ebcdicコード ISOコード ASCIIコード ANSIコード JISコード UNIXコード 4.ファイル形式 テキストファイル バイナリファイル 5.数値形式 整数型 浮動小数点型 パック型 アンパック型 BCD型 6.拡張子 BMP JPEG GIF PICT TIFF CSV TXT HTML XML SGML DOC EXE PDF 7.圧縮形式 ZIP LHA
【0025】前述した形式は、一例であり、この他にも
いろいろな形式が存在している。また、時とともに新た
な形式が追加されていく。
【0026】取得したデータファイルの形式が未知の場
合には、従来は、自己の持つコンピュータにインストー
ルされているアプリケーションプログラムを用いて、そ
のデータファイルが読み込めるかどうかを1つ1つアプ
リケーション毎にチェックする作業を行なわなければな
らない。また、もし作成者の意図により、そのデータフ
ァイルの一部分が故意に破壊されている場合、或いは、
そのデータファイルの全部又は一部分が他のデータファ
イルに隠されてしまった場合、そのデータファイルを作
成したアプリケーションプログラムと同一のアプリケー
ションプログラムを用いても、そのデータファイルを読
み込むことが不可能になってしまう。また、新たなアプ
リケーションの出現やアプリケーションのバージョンア
ップ版の出現により、新たなファイル形式が誕生する
と、既存のアプリケーションや旧バージョンのアプリケ
ーションでは、その新たなファイル形式のファイルを読
み込んで利用することができなくなってしまう。
【0027】この実施の形態においては、未知のデータ
ファイルのファイル形式を判定し、或いは、推定し、記
録されているデータファイルの内容を利用者が利用でき
る形に復元するものである。即ち、この実施の形態は、
利用者にはアクセス方法が分からない電子データであっ
て、利用者が直接感知することができない電子データ
を、利用者が知覚することができる形式にして出力する
装置を提供するものであり、例えば、電子データを利用
者が視覚的に利用できる形式に表示したり、プリントし
たりすることができる装置を提供するものである。
【0028】ここでは、説明を簡単にするために、この
システムでは未知のデータファイルが格納された記録媒
体を物理的に扱うことができる周辺機器(例えば、フレ
キシブルディスクドライブやCDドライブやメモリカー
ドドライブ)が存在し、媒体フォーマット形式が扱える
システム、即ち、ファイルの内容は分からないが、少な
くとも未知のデータファイルのリードは可能であるシス
テムであることを前提に説明する。
【0029】この実施の形態において、形式情報データ
ベース2には、既に分かっているデータファイル形式の
情報を、予め格納しておく。例えば、テキストファイル
形式のデータファイルには、拡張子としてTXTが用い
られることが分かっている場合には、形式情報データベ
ース2には、拡張子がTXTのファイルは、テキスト形
式のファイルであるという情報を予め記憶しておく。デ
ータ照合処理装置4は、入力データファイルの拡張子を
参照し、拡張子がTXTである場合には、テキストファ
イルであると判定する。復元処理装置5は、データ照合
処理装置4の判定結果に基づき、入力データファイルを
テキストファイルとして復元処理する。この場合は、復
元処理は何もしない(復元処理する必要がない)。そし
て、データ確認処理装置8は、そのデータファイルの内
容を表示、或いは、印刷する。また、例えば、HTML
ファイルには、<HTML>と</HTML>とのマー
クアップタグが必須である場合には、形式情報データベ
ース2には、<HTML>と</HTML>とのマーク
アップタグがあるファイルは、HTML形式のファイル
であるという情報を予め記憶しておく。データ照合処理
装置4が、その情報を用いて入力された拡張子のないデ
ータファイルがHTMLファイルであると判定すると、
復元処理装置5は、そのデータファイルに拡張子HTM
Lを付与する。そして、データ確認処理装置8は、その
データファイルの内容を表示、或いは、印刷する。
【0030】もし、入力データファイルの拡張子が全く
ない状態で入力された場合には、データ照合処理装置4
は、形式情報データベース2に拡張子がTXTである場
合にはテキストファイルであるという情報しかなけれ
ば、形式情報データベース2を参照してもその入力デー
タファイルの形式を判定することができない。
【0031】解析情報データベース3には、予め、例え
ば、テキストファイル形式のデータの統計情報を格納し
ておく。例えば、1バイトコードが00からFFで表現
され、かつ、テキストファイルに用いられる文字コード
が41からDFの間のみである場合に、サンプル用のテ
キストファイルの各文字コードの出現頻度を統計データ
として解析情報データベース3に予め格納しておく。特
徴解析処理装置6は、入力データファイルの各コードの
出現頻度を解析する。解析の結果、入力データファイル
には、41からDFまでのコードのみしか使われていな
いことが判明した場合には、解析情報データベース3に
記憶されたテキストファイルの特徴と一致することにな
る。形式推定処理装置7は、この結果から入力データフ
ァイルがテキストファイルであることを推定する。復元
処理装置5は、この推定結果に基づき、ファイル名に拡
張子TXTを付与することにより、入力データファイル
をテキストファイルとして復元する。データ確認処理装
置8は、テキストファイルの表示機能であるテキストエ
ディタを起動し、復元処理装置5が復元したデータを入
力して表示することにより推定が正しいか否かを利用者
に確認してもらう。
【0032】次に、動作について説明する。図4は、本
発明の基本処理の流れを示すフローである。まず、デー
タファイルの入力により、履歴情報データベース1にデ
ータファイルを格納する(S1,S2)。形式情報デー
タベース2の情報と入力データファイルとをデータ照合
処理装置4において照合する(S3)。データファイル
の形式照合に成功した場合は、形式情報データベース2
の情報に基づき復元処理装置5においてデータファイル
を復元する(S4)。復元したデータファイルが利用者
にとって確認可能な形式かどうかを形式情報データベー
ス2の情報に基づき判別する(S5)。もしくは、設定
により(S51)、履歴情報データベースに処理の結果
を格納し(S15)、処理を終了する。例えば、復元し
たデータファイルが複数のファイルを1つにまとめた
(例えば、LHAやTAR)アーカイブファイルである
かどうかを確認する。アーカイブファイルのままでは、
利用者が利用できないので、更に、S3に戻り、形式の
照合を行い、アーカイブファイルの展開を行うことによ
り復元が行われる。アーカイブファイルでない場合に
は、次のS6に移る。S5において判別に成功した場合
は、利用者がデータファイルの内容を形式情報データベ
ース2の情報に基づきデータ確認処理装置8により確認
する(S6)。もしくは、設定により(S61)、履歴
情報データベースに処理の結果を格納し(S15)、処
理を終了する。このS6による利用者の確認とは、例え
ば、表示装置に復元した情報を表示したり、或いは、プ
リンタに印字して利用者が認識できる状態になっている
かどうかを利用者にファイルの内容を確認させるもので
ある。この確認は、視覚又は聴覚により行われる。S5
において利用者が確認できない形式(例えば、アーカイ
ブファイル)の場合は、改めてデータ照合処理装置4に
おいて形式情報データベース2の情報に基づきデータフ
ァイルの形式照合を実行する(S3)。S6において利
用者が確認に成功した場合は、履歴情報データベースに
処理の結果を格納し(S15)、処理を終了する。S6
において、利用者が内容の確認に失敗した場合は、履歴
情報データベースに処理の結果を格納し(S15)、改
めてデータ照合処理装置4において形式情報データベー
ス2の情報に基づきデータファイルの形式照合を実行す
る(S3)。S3においてデータファイルの形式照合に
失敗した場合は、特徴解析処理装置6により、データフ
ァイルの特徴解析を処理する(S7)。例えば、データ
ファイルのコードの出現頻度の統計解析を行ったり、デ
ータファイルのビット0とビット1の出現頻度の統計解
析を行ったり、データファイルの中に使われている特定
のタグや識別子の頻度を解析する。或いは、データファ
イルの属性情報としてヘッダ部の特定の値を参照した
り、データファイルの所定の位置にあるコードを取得し
たりして図2に示すn個の解析項目について特徴を解析
する。データファイルの特徴解析を処理した結果は、解
析情報データベース3に格納する(S8)。次に、解析
情報データベース3に予め格納した既知のデータファイ
ルの特徴と特徴解析処理装置6が解析情報データベース
3に格納した未知のデータファイルのn個の特徴情報と
に基づいて、形式推定処理装置7によりデータファイル
の形式を推定する(S9)。特徴が一致する場合又は類
似する場合は、その未知のデータファイルの形式を既知
のデータファイルの形式と同一の形式であると(優先順
位をつけて)推定する。特徴が全く非類似のときは、推
定失敗となる。S9においてデータファイルの形式の推
定に成功した場合は、形式情報データベース2の情報に
基づき復元処理装置5によりデータファイルを復元する
(S10)。復元したデータファイルが、利用者にとっ
て確認可能な形式かどうかを形式情報データベース2の
情報に基づき判別する(S11)。もしくは、設定によ
り(S111)、履歴情報データベースに処理の結果を
格納し(S15)、処理を終了する。S11において判
別に成功した場合は、利用者がデータファイルの内容を
形式情報データベース2の情報に基づきデータ確認処理
装置8により確認する(S12)。もしくは、設定によ
り(S121)、履歴情報データベースに処理の結果を
格納し(S15)、処理を終了する。S11において利
用者が確認不可能な形式(例えば、アーカイブファイ
ル)の場合は、データ照合処理装置4において形式情報
データベース2の情報に基づきデータファイルの形式照
合を実行する(S31,S3)。S12において利用者
の確認に成功した場合は、推定が正しかったことになる
ので、データファイルの属性情報(又は統計情報)を形
式情報データベース2に格納し(S13)、データ確認
処理装置8の内容を更新もしくは追加して(S14)、
履歴情報データベースに処理の結果を格納し(S1
5)、処理を終了する。データファイルの属性情報(又
は統計情報)を形式情報データベース2に格納する理由
は、次回、同一形式のデータファイルが入力された場合
に、そのデータファイルの判定に役立てるためである
(学習機能)。データ確認処理装置8の内容を更新もし
くは追加する理由は、次回の確認処理の際に、そのデー
タファイルをどの機能(どのプログラム)を用いて確認
させるかを覚えておくためである。S12において利用
者の確認に失敗した場合は、その推定が間違っていたこ
とになるので、改めて形式推定処理装置7においてデー
タファイルの形式推定を実行する。或いは、次に優先順
位の高いものを選択する(S91,S9)。S9におい
てデータファイルの形式の推定に失敗した場合は、履歴
情報データベース1に格納された当該データファイルに
対して、データファイルの形式の推定に失敗したことを
記録してから(S15)処理を終了する。以上の処理
は、1つまたは複数のデータファイルを処理する場合が
ある。
【0033】以上のように、特徴解析処理装置6と形式
推定処理装置7により、データファイルの特徴を解析
し、データファイルの形式を推定するようにしているの
で、未知の形式のデータファイルを復元することができ
る。また、データ確認処理装置8を備えることにより、
復元したデータファイルの内容を利用者が確認すること
ができる。また、データファイルが故意に改ざんされて
いる場合、或いは、データファイルが一部破壊されてし
まった場合でも、そのデータファイルの属性情報が残っ
ている場合又は統計情報が変わらない場合には、データ
ファイルの形式を推定して復元することができる。
【0034】実施の形態2.以上の実施の形態1では、
データファイルの特徴を解析し、データファイルの形式
を推定し、未知の形式のデータファイルを復元できるす
るようにしたものであるが、次に、形式情報データベー
ス2の情報を更新及び追加(更新又は追加)することに
より、これまで復元に失敗したデータファイルの再処理
を実行する場合の実施の形態を示す。
【0035】履歴情報データベース1には、入力された
データファイルが全て履歴情報として格納してある。こ
の履歴情報データベース1に格納されたデータファイル
の中で復元に失敗したデータファイルを再処理するのが
この実施の形態である。再処理する前に、形式情報デー
タベース2が更新、或いは、追加されていることが前提
となる。例えば、実施の形態1で示した図4において、
S13において形式情報データベース2が更新されてい
る。即ち、実施の形態1の動作中に形式情報データベー
ス2が自動的に更新され、推定された新たなファイル形
式が自動的に登録されている。この更新は、このシステ
ムがデータファイルの特徴を抽出、解析、蓄積すること
により、学習しながらデータファイルの形式を推定し、
データファイルを復元することを示している。また、形
式情報データベース2の追加又は更新は、前述した図4
に示す動作中に自動的に行われる以外に、この装置の利
用者により手作業で新たなファイルの形式の情報が追加
されても構わない。例えば、新しいアプリケーションや
新バージョンが新しいファイル形式を用いる場合には、
その新しいファイル形式の情報を利用者が手作業により
登録する。
【0036】図5は、このような場合の処理の流れを示
すフローである。形式情報データベース2の情報を更新
及び追加(更新又は追加)する(S21,S13)。解
析情報データベース3の情報を更新及び追加(更新又は
追加)する(S22,S8)。データ確認処理装置8の
更新及び追加(更新又は追加)を行う(S23,S1
4)。上記S21〜S23の処理は、実施の形態1で示
したS13,S8,S14の処理そのものであっても構
わないし、利用者が手作業で行っても構わない。
【0037】以下に述べるS1〜S6,S15の動作
は、実施の形態1で示したS1〜S6,S15の動作と
同じである。違うところは、データファイルが履歴情報
データベース1から入力される点である。しかもその入
力されるデータファイルは、以前に復元が失敗している
データファイルのみ選択されて入力される点である。以
下、S1〜S6,S15の動作を簡単に説明する。履歴
情報データベース1からデータファイルを取り出す(S
1)。形式情報データベース2から取り出した情報と入
力データファイルとをデータ照合処理装置4において照
合する(S3)。データファイル形式の照合に成功した
場合は、形式情報データベース2の情報に基づき復元処
理装置5によりデータファイルを復元する(S4)。復
元したデータファイルが利用者にとって確認可能な形式
かどうかを形式情報データベース2の情報に基づき判別
する(S5)。もしくは、設定により(S51)、履歴
情報データベースに処理の結果を格納し(S15)、処
理を終了する。S5において判別に成功した場合は、デ
ータ確認処理装置8により利用者がデータファイルの内
容を形式情報データベース2の情報に基づき確認する
(S6)。もしくは、設定により(S61)、履歴情報
データベースに処理の結果を格納し(S15)、処理を
終了する。S5において判別に失敗した場合は、改めて
データ照合処理装置4によりデータファイルの形式の照
合を形式情報データベース2の情報に基づき実行する
(S3)。S6において利用者の確認に成功した場合
は、履歴情報データベースに処理の結果を格納し(S1
5)、処理を終了する。S6において利用者の確認に失
敗した場合は、改めてデータ照合処理装置4によりデー
タファイルの形式照合を形式情報データベース2の情報
に基づき実行する(S3)。S3においてデータファイ
ルの形式の照合に失敗した場合は、履歴情報データベー
スに処理の結果を格納し(S15)、処理を終了する。
【0038】以上のように、履歴情報データベース1及
び形式情報データベース2を備えることにより、継続し
て学習的なデータファイルの復元処理を実行可能として
いる。この実施の形態によれば、形式情報データベース
2が更新されていくことにより以前復元することができ
なかったデータファイルを再び入力し、形式情報データ
ベース2に新たに追加された情報を用いてデータ照合処
理装置4がデータファイルの形式を判定し、復元処理装
置5がその判定した形式に基づいてデータファイルを復
元することが可能になる。
【0039】なお、図5においては、形式情報データベ
ース2からデータファイルを入力する場合を示したが、
図4に示したように、オリジナルのデータファイルから
入力する場合であっても構わない。
【0040】実施の形態3.以上の実施の形態2では、
形式情報データベース2を更新及び追加(更新又は追
加)した場合のものであるが、続いて、特徴解析処理装
置6の解析項目を更新及び追加(更新又は追加)した場
合の実施の形態を示す。この実施の形態3で、特徴解析
処理装置6に新たな解析項目を追加することにより、前
述した実施の形態1又は2により自動的に(或いは、手
作業により)解析情報データベース3に蓄積されていた
解析情報を役立てることができる。即ち、過去の解析情
報を用いて新たなファイル形式を推定することが可能に
なり、継続して学習的なデータファイルの復元処理を実
行可能としている。
【0041】図6は、このような場合の処理の流れを示
すフローである。特徴解析処理装置6の内容を更新する
(S24)。即ち、特徴解析処理装置6に対して新たな
ファイル形式が持つ統計的特徴、或いは、新たなファイ
ル形式が有する属性情報を解析する演算装置を追加す
る。解析情報データベース3の内容を更新及び追加(更
新又は追加)する(S25)。この解析情報データベー
ス3の内容の追加又は更新は、実施の形態1又は2で述
べたS8又はS22により自動的に行われる(学習機
能)。或いは、特別に利用者が手作業により解析情報デ
ータベース3を追加又は更新しても構わない。
【0042】以下述べるS1〜S15の処理は、実施の
形態1で示したS1〜S15の処理と同様である。以下
に、簡単な説明を行う。履歴情報データベース1から復
元が失敗したデータファイルを取り出す(S1)。この
入力は履歴情報データベース1からではなく、オリジナ
ルのデータファイルから行っても構わない。特徴解析処
理装置6により、データファイルの特徴解析を実行し
(S7)、その結果を解析情報データベース3に格納す
る(S8)。解析情報データベース3の情報から形式推
定処理装置7によりデータファイルの形式を推定する
(S9)。S9においてデータファイル形式の推定に成
功した場合は、データファイルを復元する(S10)。
データファイルが利用者にとって確認可能な形式かどう
かを判別する(S11)。もしくは、設定により(S1
11)、履歴情報データベースに処理の結果を格納し
(S15)、処理を終了する。S11において判別に成
功した場合は、データ確認処理装置8によりデータファ
イルの内容を利用者が確認する(S12)。もしくは、
設定により(S121)、履歴情報データベースに処理
の結果を格納し(S15)、処理を終了する。S11に
おいて判別に失敗した場合は、改めてデータ照合処理装
置4によりデータファイルの形式の照合を実行する(S
3)。S12において利用者の確認に成功した場合は、
形式情報データベース2に復元したデータファイルの属
性情報等を格納し(S13)、データ確認処理装置8の
内容を更新及び追加(更新又は追加)して(S14)、
履歴情報データベースに処理の結果を格納し(S1
5)、処理を終了する。S12において利用者の確認に
失敗した場合は、改めて形式推定処理装置7によりデー
タファイルの形式の推定を実行する(S9)。S3にお
いてデータファイルの形式の照合に成功した場合は、改
めて復元処理装置5によりデータファイルの復元を実行
する(S10)。S3においてデータファイルの形式の
照合に失敗した場合は、特徴解析処理装置6により改め
てデータファイルの特徴解析処理を実行する(S7)。
S9においてデータファイルの形式の推定に失敗した場
合は、履歴情報データベースに処理の結果を格納し(S
15)、処理を終了する。
【0043】以上のように、特徴解析処理装置6の解析
項目を更新することにより、学習的なデータファイルの
復元処理を実行可能としているので、これまで復元に失
敗していたデータファイルの復元が可能となっている。
【0044】実施の形態4.この実施の形態において
は、前述した実施の形態1〜3が実装されるシステムに
ついて説明する。なお、以下の「1.システム概要」、
「2.システム機能仕様」、「3.画面仕様」に記述さ
れたファイル仕様とテーブル仕様と外部モジュールのイ
ンタフェースは、「4.データ仕様」に記述してあるの
で、適時参照されたい。 1.システム概要 本システムは、自動的にファイルフォーマットを推定、
隠蔽されている情報の抽出、未知フォーマットの特徴を
抽出・蓄積を行う。ユーザが未知ファイルを解析する場
合に本システムがそのサポートを行う事で、解析作業の
効率化を目的とする。以下に、システムの機能を示す。 (1)ファイルフォーマットの推定。 (2)ファイルの展開/伸長/結合/デコード。 (3)偽装/隠蔽処理されたファイルの修正/抽出。 (4)未知ファイルフォーマットの特徴情報の蓄積。
【0045】2.システム機能仕様 システムは、図8のサブシステムから構成される。
【0046】2.1 全体制御サブシステム 図9に示すように、システム全体の制御を行う。
【0047】2.1.1 初期化機能 システムの初期化を行う。初期化時に行う処理は以下の
通り。 (1)初期設定ファイルの読み込み (2)マジック情報ファイルの読み込み (3)偽装情報ファイルの読み込み (4)隠蔽情報ファイルの読み込み (5)外部モジュールのローディング
【0048】2.1.2 推定処理制御機能 推定処理制御機能は推定処理全体の制御を行い、他のサ
ブシステムの機能を呼び出す。
【0049】2.1.2.1 推定方法 推定方法には次の3通りの方法がある。 (1)情報解析 ユーザが指定したファイル(解析項目リスト)に対して
ファイル形式推定/ファイル情報解析を行う。 (2)復元 解析項目リストに対して、情報解析、抽出/修正/展開
/伸長/結合/デコードを行う。復元ファイルについて
は行わない。また、復元の際は可能な処理を図10の優
先順位で実行する。 (3)再帰復元 解析項目リスト、復元ファイルに対して再帰的に(復元
ファイルを含む全てに対して)復元を行う。推定処理制
御の基本的な処理フローを、図11に示す。
【0050】2.1.2.2 エラー処理 推定処理中にエラーが発生した場合、図12のように処
理する。
【0051】2.1.3 外部モジュール制御機能 ファイルフォーマット特有な情報を解析するには外部モ
ジュールを用いる。外部モジュールはファイルフォーマ
ット毎にマジック情報ファイルに定義し、起動時に動的
にロードする。解析可能なファイルフォーマットが増え
た場合、マジック情報ファイルに記述を追加し、外部モ
ジュールを作成する事でフォーマットの追加を可能とす
る。外部モジュール制御機能の主な機能を、以下及び図
13に示す。 (1)外部モジュールのロード (2)外部モジュール内の関数の呼び出し
【0052】2.1.4 解析ログ管理機能 推定処理の解析過程を解析ログとして10世代保存す
る。ただし、以下の条件で世代を変更する。 (1)ログファイルのサイズが1MBを越えた時。 (2)ログのクリア要求が発生した時。ただし、ログフ
ァイルのサイズが0バイトの場合は、世代変更を行わな
い。解析ログの内容は「4.2.5 解析ログファイ
ル」参照。
【0053】2.2 画面制御サブシステム ユーザインタフェースの全てを管理し、遷移/画面の動
きを制御する。画面遷移、画面の動きは画面仕様を参
照。
【0054】2.3 ファイル形式推定サブシステム 対象ファイルを解析し、ファイルフォーマットを推定す
る。
【0055】2.3.1 推定方法 システムが推定できるフォーマットは、図14のように
分類できる。ファイル形式推定サブシステムはこれらの
フォーマットを以下の方法で推定する。 (1)マジックナンバーによる推定 マジック情報テーブルと推定対象ファイルのマジックナ
ンバーを比較し、推定を行う。マジックナンバーは以下
の情報で表現可能な固定値とする。 1)バイト位置 ファイル先頭からのバイト数。 2)型 バイト位置で指定された箇所の値の型。数値型または文
字列型。 3)比較方法 比較演算で表現可能。 4)値 比較値。10進数、16進数、文字列で表現可能。 例)10バイト目が0x1000。0バイト目が1より
大きい。5バイト目から“abcd”の文字列がある。 (2)データ形式による推定 フォーマットに特有なデータ形式の特徴をチェックし、
ファイルフォーマットを推定する。推定はマジック情報
ファイルで指定された外部モジュールにより解析を行
う。
【0056】2.3.2 推定対象 図16のファイルの推定が可能とする。
【0057】2.3.3 推定結果 推定処理の結果として、図17の情報を解析結果テーブ
ルに書き込む。
【0058】2.4 ファイル情報取得サブシステム ファイル形式推定サブシステムで推定したファイルフォ
ーマットからの詳細情報の抽出と、フォーマット特有処
理(伸長、展開など)を行う。図18に示すように、フ
ォーマットに特有な情報の取得、伸長、展開方法などは
フォーマット依存であり、すべて専用モジュールを用い
て行う。共通的な情報の取得以外はフォーマット毎にモ
ジュールを用意する。
【0059】2.4.1 共通属性情報取得機能 図19に示すように、ファイルフォーマットとは独立的
な共通属性情報を取得する。解析処理後、図20の情報
を解析結果テーブルに保存する。
【0060】 2.4.2 ファイル特有属性情報取得機能 図21に示すように、外部モジュールの情報取得機能を
呼び出し、ファイルフォーマットに特有な情報を取得す
る。解析処理後、図22の情報を解析結果テーブルに保
存する。
【0061】2.5 偽装/隠蔽解析サブシステム 偽装/隠蔽処理されたファイルの検出/解析を行う。偽
装/隠蔽解析サブシステムは、図23の機能から構成さ
れる。図24に示すように、偽装解析、隠蔽解析は共に
外部モジュールで行う。外部モジュールは偽装情報ファ
イル、隠蔽情報ファイルにより指定する。
【0062】2.5.1 偽装解析 偽装解析では偽装処理が施されたファイルの偽装方法を
検出する。ただし、偽装解析では検出のみで、偽装の修
正は行わない。検出可能な偽装方法を、図25に示す。
偽装検出処理後、図26の情報を解析結果テーブルに書
き込む。
【0063】2.5.1.1 拡張子偽装 ファイル形式推定サブシステムの推定結果を元に、通常
の拡張子と実際の拡張子が異なっているかをチェックす
る。拡張子偽装の場合、ファイル自体への修正は発生す
る事は無く、修正処理を有効にしない。
【0064】2.5.2 隠蔽解析 隠蔽解析では隠蔽処理が施されたファイルの隠蔽方法と
隠蔽されたデータを検出する。ただし、隠蔽解析ではデ
ータの抽出は行わない。検出可能な隠蔽方法を、図27
に示す。図27において、「不明」とは、現在隠蔽方法
が「不明」であり、自動学習により又は手作業により将
来隠蔽方法と検出方法が追加されることを示している。
隠蔽検出処理後、図28の情報を解析結果テーブルに書
き込む。
【0065】2.6 ファイル復元サブシステム ファイル情報解析結果を元に、ファイルの復元を行う。
ファイル復元サブシステムは、図29の機能から構成さ
れる。
【0066】2.6.1 復元ファイル管理機能 解析対象のファイルを復元する場合、解析対象のメディ
アに変更が加わる事が無いよう、復元ファイルの管理を
行う。復元されたファイルを以下の方法で管理する。 (1)オリジナルのファイルに修正を加える場合はテン
ポラリディレクトリにコピーして管理する。 (2)アーカイブファイル等から複数の復元ファイルが
展開される場合など、復元することにより既存のファイ
ルを破壊しないよう管理する。 (3)エンコードファイルデコードなどで、復元前のフ
ァイル名と復元後のファイル名に変更が生じない場合、
ファイル名が重複しないようファイルを管理する。
【0067】2.6.2 偽装ファイル修正機能 図30に示すように、偽装解析結果を元に、偽装処理さ
れたファイルの修正を行う。複数の修正が可能な場合
は、全ての修正の結果を復元ファイルとして生成する。 (1)偽装拡張子修正 修正処理なし。
【0068】2.6.3 隠蔽ファイル抽出機能 隠蔽解析結果を元に、隠蔽処理されたファイルから隠蔽
情報を抽出する。隠蔽処理はファイルフォーマットによ
り異なる為、ここではその方法を定義しない。抽出処理
を行った場合、図31の情報を解析結果テーブルに保存
する。
【0069】2.6.4 圧縮ファイル伸長機能 圧縮処理されたファイル(LHAなどのアーカイブ機能
を含むファイルフォーマットは除く)を伸長する。伸長
処理はファイルフォーマットにより異なる為、ここでは
その方法を定義しない。伸長処理を行った場合、図32
の情報を解析結果テーブルに保存する。
【0070】2.6.5 アーカイブファイル展開機能 アーカイブファイル(LHAなどの圧縮機能を持つファ
イルフォーマットを含む)を展開する。展開処理はファ
イルフォーマットにより異なる為、ここではその方法を
定義しない。展開処理を行った場合、図33の情報を解
析結果テーブルに保存する。
【0071】2.6.6 分割ファイル結合機能 分割ファイルを結合する。結合処理はファイルフォーマ
ットにより異なる為、ここではその方法を定義しない。
結合処理を行った場合、図34の情報を解析結果テーブ
ルに保存する。
【0072】 2.6.7 エンコードファイルデコード機能 例えば、MIME(マルチパーパス・インターネット・
メール・エクステンション)やUUENCODEの方式
でエンコードされたファイルをデコードする。デコード
処理はファイルフォーマットにより異なる為、ここでは
その方法を定義しない。デコード処理を行った場合、図
35の情報を解析結果テーブルに保存する。
【0073】2.7 マジック情報編集サブシステム マジック情報ファイル、偽装情報ファイル、隠蔽情報フ
ァイルの編集を行う。
【0074】2.8 ファイル特徴解析サブシステム フォーマットを特定できなかった場合、そのファイルの
特徴を抽出しデータベースに保存する。
【0075】3.画面仕様 3.1 概要 システムは、図36の画面から構成される。ファイル解
析画面からの遷移を図37に示す。図37は、小さい文
字のため判読不可能かもしれないが、図38以降に、図
37の各画面の拡大図を示している。図37からは、画
面遷移のみを理解されたい。
【0076】3.2 ファイル解析画面 3.2.1 機能 ファイル解析のメインとなる画面で、推定処理の実行、
推定結果等の情報を表示する。
【0077】3.2.2 画面構成(図38参照)
【0078】3.2.3 ボタンの動作(図39参照)
【0079】3.2.4 メニューの動作 3.2.4.1 ファイルメニュー(図40参照)
【0080】 3.2.4.2 編集メニュー(図41参照)
【0081】 3.2.4.3 表示メニュー(図42参照)
【0082】 3.2.4.4 ヘルプメニュー(図43参照)
【0083】3.2.5 解析状態表示エリアの動作 3.2.5.1 表示内容 解析状態表示エリアは、図44,図45に示すように、
ファイルの解析状態を木構造で表示する。
【0084】3.2.5.2 操作 解析状態表示エリアでのマウス操作は、図46の通り。
【0085】3.2.5.3 処理時の動作 推定処理により、図47のような動作を行う。
【0086】3.3 ファイル選択画面 3.3.1 機能解析対象のファイル/ディレクトリを
選択し、ファイル解析画面の解析状態表示エリアに項目
を追加する。
【0087】3.3.2 画面構成(図48参照)
【0088】3.3.3 ボタンの動作(図49参照)
【0089】3.4 ファイル詳細情報画面 3.4.1 機能対象ファイルの詳細な解析結果を表示
する。
【0090】3.4.2 画面構成(図50参照)
【0091】3.4.3 表示項目 表示する情報は、図51の通り。
【0092】3.4.4 ボタンの動作(図52参照)
【0093】3.5 偽装/隠蔽情報詳細画面 3.5.1 機能 ファイルに施された偽装の詳細情報を表示する。
【0094】3.5.1.2 画面構成(図53参照)
【0095】3.5.3 表示項目 表示する情報は、図54の通り。
【0096】3.5.4 ボタンの動作(図55参照)
【0097】3.6 解析ログ表示画面 3.6.1 機能 推定処理の過程を解析ログとしてテキスト形式で表示す
る。
【0098】3.6.2 画面構成(図56参照)
【0099】3.6.3 ボタンの動作(図57参照)
【0100】3.6.4 メニューの動作 3.6.4.1 ファイルメニュー(図58参照)
【0101】 3.6.4.2 編集メニュー(図59参照)
【0102】3.7 属性検索画面 3.7.1 機能 ファイル解析画面での解析結果をもとに属性検索を行
い、ファイル解析画面の対象となる項目を強調表示す
る。
【0103】3.7.2 画面構成(図60参照)
【0104】3.7.3 検索項目 検索可能な情報は、図61の通り。
【0105】3.7.4 ボタンの動作(図62参照)
【0106】3.8 解析ログ検索画面 3.8.1 機能 解析ログの文字列検索を行い、解析ログ表示画面の対象
文字列を強調表示する。
【0107】3.8.2 画面構成(図63参照)
【0108】3.8.3 ボタンの動作(図64参照)
【0109】4.データ仕様 4.1 エラーメッセージ仕様(図65参照)
【0110】4.2 ファイル仕様 図66に、ファイル仕様を示す。
【0111】4.2.1 初期設定ファイル WindowsのINIファイル形式とする。
【0112】4.2.2 マジック情報ファイル WindowsのINIファイル形式で表現する(図6
7参照)。magicの詳細は、図68の通りである。
【0113】4.2.3 偽装情報ファイル 図69に、偽装情報ファイルの構成を示す。
【0114】4.2.4 隠蔽情報ファイル 図70に、隠蔽情報ファイルの構成を示す。偽装情報フ
ァイルと同一構成である。
【0115】4.2.5 解析ログファイル 解析ログファイルには、図71のような解析情報を記録
する。エラーが発生した場合には、その内容を記録す
る。
【0116】4.3 テーブル仕様(構造体仕様) テーブル仕様を、図72に示す。構造体の関係図を、図
73,図74に示す。
【0117】 4.3.1 解析項目リスト(図75参照)
【0118】4.3.2 解析結果(図76参照)
【0119】 4.3.3 偽装/隠蔽リスト(図77参照)
【0120】 4.3.4 偽装/隠蔽情報(図78参照)
【0121】4.3.5 マジック情報(図79参照)
【0122】 4.3.6 マジックナンバー定義(図80参照)
【0123】4.4 外部モジュールインタフェース 外部モジュールとのインタフェースを、以下に示す。
【0124】4.4.1 通常ファイルの外部モジュー
ル(図81参照)
【0125】4.4.1.1 初期化(図82参照) 外部モジュールロード時に呼び出す。
【0126】 4.4.1.2 フォーマット推定(図83参照) マジックナンバーが存在しないファイルフォーマットの
推定処理
【0127】4.4.1.3 詳細解析(図84参照)
【0128】4.4.1.4 伸長/展開/結合/デコ
ード(図85参照) 復元処理を実行する。
【0129】 4.4.1.5 ファイル特有情報変換(図86参照) ファイル特有情報をテキストに変換する。
【0130】4.4.2 偽装/隠蔽ファイルの外部モ
ジュール(図87参照)
【0131】4.4.2.1 初期化(図88参照)
【0132】4.4.2.2 解析(図89参照)
【0133】4.4.2.3 復元(図90参照)
【0134】
【発明の効果】以上のように、この発明の実施の形態
1,4によれば、未知の形式のデータファイルの学習的
な復元が可能という効果がある。また、実施の形態2及
び3及び4によれば、未知のデータファイルの継続的な
解析、推定、復元処理が可能という効果がある。
【図面の簡単な説明】
【図1】 実施の形態1の構成図。
【図2】 特徴解析処理装置6の構成図。
【図3】 データ確認処理装置8の構成図。
【図4】 実施の形態1の処理の流れを示すフロー図。
【図5】 実施の形態2の処理の流れを示すフロー図。
【図6】 実施の形態3の処理の流れを示すフロー図。
【図7】 従来の構成図。
【図8】 実施の形態4のシステム機能仕様を示す図。
【図9】 全体制御サブシステムを示す図。
【図10】 復元可能な処理の優先順位を示す図。
【図11】 推定処理制御機能の制御フロー図。
【図12】 エラー処理を示す図。
【図13】 外部モジュール制御機能を示す図。
【図14】 システムが推定できるフォーマットを示す
図。
【図15】 ファイル形式推定サブシステムの動作を示
す図。
【図16】 推定対象を示す図。
【図17】 推定結果を示す図。
【図18】 ファイル情報取得サブシステムを示す図。
【図19】 共通情報取得機能を示す図。
【図20】 解析結果処理後の解析結果テーブルを示す
図。
【図21】 ファイル特有属性情報取得機能を示す図。
【図22】 解析結果処理後の解析結果テーブルを示す
図。
【図23】 偽装/隠蔽解析サブシステムを示す図。
【図24】 偽装/隠蔽情報解析を示す図。
【図25】 検出可能な偽装方法を示す図。
【図26】 偽装検出処理後の解析結果テーブルを示す
図。
【図27】 検出可能な隠蔽方法を示す図。
【図28】 隠蔽検出処理後の解析結果テーブルを示す
図。
【図29】 ファイル復元サブシステムを示す図。
【図30】 偽装ファイル修正機能を示す図。
【図31】 抽出を行った場合の解析結果テーブルを示
す図。
【図32】 伸長処理を行った場合の解析結果テーブル
を示す図。
【図33】 展開処理を行った場合の解析結果テーブル
を示す図。
【図34】 結合処理を行った場合の解析結果テーブル
を示す図。
【図35】 デコード処理を行った場合の解析結果テー
ブルを示す図。
【図36】 画面仕様を示す図。
【図37】 ファイル解析画面からの画面遷移図。
【図38】 ファイル解析画面構成図。
【図39】 ボタンの動作を示す図。
【図40】 ファイルメニューを示す図。
【図41】 編集メニューを示す図。
【図42】 表示メニューを示す図。
【図43】 ヘルプメニューを示す図。
【図44】 解析状態表示エリアを示す図。
【図45】 解析状態表示エリアの項目名とその内容を
示す図。
【図46】 解析状態表示エリアでのマウス操作を示す
図。
【図47】 処理時の動作を示す図。
【図48】 ファイル選択画面構成図。
【図49】 ボタンの動作を示す図。
【図50】 ファイル詳細情報画面構成図。
【図51】 表示項目を示す図。
【図52】 ボタンの動作を示す図。
【図53】 偽装/隠蔽情報画面構成図。
【図54】 表示項目を示す図。
【図55】 ボタンの動作を示す図。
【図56】 解析ログ表示画面構成図。
【図57】 ボタンの動作を示す図。
【図58】 ファイルメニューを示す図。
【図59】 編集メニューを示す図。
【図60】 属性検索画面構成図。
【図61】 検索項目を示す図。
【図62】 ボタンの動作を示す図。
【図63】 解析ログ検索画面構成図。
【図64】 ボタンの動作を示す図。
【図65】 エラーメッセージ仕様を示す図。
【図66】 ファイル仕様を示す図。
【図67】 マジック情報ファイルを示す図。
【図68】 マジックの詳細を示す図。
【図69】 偽装情報ファイル構成を示す図。
【図70】 隠蔽情報ファイル構成を示す図。
【図71】 解析ログファイルを示す図。
【図72】 テーブル仕様を示す図。
【図73】 マジック情報ファイルのデータ構造と偽装
/隠蔽情報ファイルのデータ構造とを示す図。
【図74】 解析項目のデータ構造を示す図。
【図75】 解析項目リストを示す図。
【図76】 解析結果を示す図。
【図77】 偽装/隠蔽リストを示す図。
【図78】 偽装/隠蔽情報を示す図。
【図79】 マジック情報を示す図。
【図80】 マジックナンバー定義を示す図。
【図81】 通常ファイルの外部モジュールを示す図。
【図82】 初期化モジュールのインタフェースを示す
図。
【図83】 フォーマット推定モジュールのインタフェ
ースを示す図。
【図84】 詳細解析モジュールのインタフェースを示
す図。
【図85】 伸長/展開/結合/デコードモジュールの
インタフェースを示す図。
【図86】 ファイル特有情報変換モジュールのインタ
フェースを示す図。
【図87】 偽装/隠蔽ファイルの外部モジュールを示
す図。
【図88】 初期化モジュールのインタフェースを示す
図。
【図89】 解析モジュールのインタフェースを示す
図。
【図90】 復元モジュールのインタフェースを示す
図。
【符号の説明】
1 履歴情報データベース、2 形式情報データベー
ス、3 解析情報データベース、4 データ照合処理装
置、5 復元処理装置、6 特徴解析処理装置、7 形
式推定処理装置、8 データ確認処理装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 時田 俊雄 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 儘田 裕幸 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B082 DC07 GA01 5E501 AC20 BA20 EA34 FA46

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 ファイル形式が既知のデータファイルの
    特徴を格納する解析情報データベースと、 ファイル形式が未知のデータファイルを入力し、入力し
    たデータファイルの特徴を解析する特徴解析処理装置
    と、 解析情報データベースが格納している特徴と特徴解析処
    理装置が解析した特徴とに基づいて、データファイルの
    形式を推定する形式推定処理装置と、 形式推定処理装置により推定された形式に基づいてデー
    タファイルを復元する復元処理装置とを有することを特
    徴とするファイル復元装置。
  2. 【請求項2】 上記ファイル復元装置は、更に、 データファイル形式の情報を格納する形式情報データベ
    ースと、 データファイルと形式情報データベースの情報とを照合
    して、データファイルの形式を判定するデータ照合処理
    装置とを備え、 上記形式情報データベースは、新たなファイル形式の情
    報を追加又は更新し、上記データ照合処理装置は、追加
    又は更新された形式情報データベースを参照してデータ
    ファイルの形式を判定し、上記復元処理装置は、データ
    照合処理装置が判定した形式に基づいてデータファイル
    を復元することを特徴とする請求項1記載のファイル復
    元装置。
  3. 【請求項3】 上記特徴解析処理装置は、新たなファイ
    ル形式のデータファイルが持つ特徴を解析する演算装置
    を追加し、 解析情報データベースは、新たなファイル形式のデータ
    ファイルが持つ特徴を格納し、 上記形式推定処理装置は、特徴解析処理装置に追加され
    た演算装置により解析された特徴が解析情報データベー
    スに格納した特徴と一致する場合に、入力したデータフ
    ァイルが新たなファイル形式のファイルであるというこ
    とを推定することを特徴とする請求項1記載のファイル
    復元装置。
  4. 【請求項4】 上記ファイル復元装置は、更に、 入力したデータファイルの履歴を格納する履歴データベ
    ースを備え、上記履歴データベースに格納されたデータ
    ファイルの中で復元できなかったデータファイルを再び
    入力して復元することを特徴とする請求項2又は3記載
    のファイル復元装置。
  5. 【請求項5】 上記ファイル復元装置は、形式が未知の
    複数のデータファイルの特徴を抽出、解析、蓄積するこ
    とにより、学習的にファイル形式を推定し、データファ
    イルを復元することを特徴とする請求項1〜4いずれか
    記載のファイル復元装置。
  6. 【請求項6】 上記特徴解析処理装置は、データファイ
    ルの特徴を複数の解析項目により解析することを特徴と
    する請求項1〜5いずれか記載のファイル復元装置。
  7. 【請求項7】 上記複数の解析項目は、少なくともデー
    タファイルの属性情報と統計情報とのいずれかを含むこ
    とを特徴とする請求項6記載のファイル復元装置。
  8. 【請求項8】 特定のアプリケーションにより作成され
    た所定の形式を持つデータファイルの所定の位置にある
    値の特徴情報をマジック情報として記憶するマジック情
    報ファイルと、 ファイル形式が判別できないファイルを入力し、入力し
    たファイルの所定の位置にある値と上記マジック情報フ
    ァイルに記憶されたマジック情報とを照合して、入力し
    たファイルのファイル形式を推定するファイル形式推定
    サブシステムと、 ファイル形式推定サブシステムが推定したファイル形式
    を用いて入力したファイルの内容が認識できるように復
    元するファイル復元サブシステムとを備えたことを特徴
    とするファイル復元装置。
  9. 【請求項9】 上記ファイル形式推定サブシステムは、
    更に、データファイルのファイル形式特有の特徴をチェ
    ックすることにより、入力したファイルのファイル形式
    を推定することを特徴とする請求項8記載のファイル復
    元装置。
  10. 【請求項10】 上記ファイル復元装置は、更に、ファ
    イル形式推定サブシステムが推定したファイル形式に依
    存して得られるファイル特有属性情報を抽出して保存す
    るとともに、圧縮ファイルの伸長と、エンコードファイ
    ルのデコードと、アーカイブファイルの展開と、分割フ
    ァイルの結合とのいずれの処理が可能であるかを解析す
    るファイル情報取得サブシステムを備えたことを特徴と
    する請求項8又は9記載のファイル復元装置。
  11. 【請求項11】 上記ファイル復元装置は、更に、ファ
    イルに偽装処理又は隠蔽処理がされているかを解析又は
    検出するファイル偽装/隠蔽解析サブシステムを備えた
    ことを特徴とする請求項10記載のファイル復元装置。
  12. 【請求項12】 上記ファイル復元サブシステムは、 偽装されたファイルの修正と、 隠蔽されたファイルの抽出と、 圧縮ファイルの伸長と、 エンコードファイルのデコードと、 アーカイブファイルの展開と、 分割ファイルの結合とを試みることによりファイルの復
    元を行うことを特徴とする請求項11記載のファイル復
    元装置。
  13. 【請求項13】 上記ファイル復元装置は、更に、ファ
    イル形式が特定できなかったファイルの特徴を抽出して
    保存するファイル特徴解析サブシステムを備えたことを
    特徴とする請求項8〜13いずれか記載のファイル復元
    装置。
JP27362199A 1999-09-28 1999-09-28 ファイル復元装置 Pending JP2001101049A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27362199A JP2001101049A (ja) 1999-09-28 1999-09-28 ファイル復元装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27362199A JP2001101049A (ja) 1999-09-28 1999-09-28 ファイル復元装置

Publications (1)

Publication Number Publication Date
JP2001101049A true JP2001101049A (ja) 2001-04-13

Family

ID=17530283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27362199A Pending JP2001101049A (ja) 1999-09-28 1999-09-28 ファイル復元装置

Country Status (1)

Country Link
JP (1) JP2001101049A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216286A (ja) * 2004-01-30 2005-08-11 Microsoft Corp コード・フリー・ファイルの検出
WO2008041318A1 (fr) * 2006-10-02 2008-04-10 Pioneer Corporation Dispositif, procédé et programme de démarrage d'une application, et support d'enregistrement
JPWO2006046665A1 (ja) * 2004-10-27 2008-05-22 株式会社ジャストシステム 文書処理装置及び文書処理方法
JP2009042851A (ja) * 2007-08-06 2009-02-26 Sb System Kk 電子情報保存方法及び装置、電子情報分割保存方法及び装置、電子情報復元処理方法及び装置並びにそれらのプログラム
JP2010277487A (ja) * 2009-05-29 2010-12-09 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2011221876A (ja) * 2010-04-12 2011-11-04 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
CN102713834A (zh) * 2009-11-13 2012-10-03 起元技术有限责任公司 管理记录格式信息
JP2012243042A (ja) * 2011-05-18 2012-12-10 Nintendo Co Ltd 情報処理システム、情報処理装置、情報処理プログラムおよび情報処理方法
JP2015036696A (ja) * 2013-08-12 2015-02-23 日本電気株式会社 音源供給装置及び音源供給方法
US9858168B2 (en) 2014-08-28 2018-01-02 International Business Machines Corporation Method for estimating format of log message and computer and computer program therefor

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216286A (ja) * 2004-01-30 2005-08-11 Microsoft Corp コード・フリー・ファイルの検出
JPWO2006046665A1 (ja) * 2004-10-27 2008-05-22 株式会社ジャストシステム 文書処理装置及び文書処理方法
WO2008041318A1 (fr) * 2006-10-02 2008-04-10 Pioneer Corporation Dispositif, procédé et programme de démarrage d'une application, et support d'enregistrement
JP2009042851A (ja) * 2007-08-06 2009-02-26 Sb System Kk 電子情報保存方法及び装置、電子情報分割保存方法及び装置、電子情報復元処理方法及び装置並びにそれらのプログラム
JP4689644B2 (ja) * 2007-08-06 2011-05-25 Sbシステム株式会社 電子情報分割保存処理方法及び装置、電子情報分割復元処理方法及び装置並びにそれらのプログラム
JP2010277487A (ja) * 2009-05-29 2010-12-09 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2013511097A (ja) * 2009-11-13 2013-03-28 アビニシオ テクノロジー エルエルシー レコード形式情報の管理
CN102713834A (zh) * 2009-11-13 2012-10-03 起元技术有限责任公司 管理记录格式信息
KR101755365B1 (ko) 2009-11-13 2017-07-10 아브 이니티오 테크놀로지 엘엘시 레코드 포맷 정보의 관리
US10445309B2 (en) 2009-11-13 2019-10-15 Ab Initio Technology Llc Managing record format information
JP2011221876A (ja) * 2010-04-12 2011-11-04 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2012243042A (ja) * 2011-05-18 2012-12-10 Nintendo Co Ltd 情報処理システム、情報処理装置、情報処理プログラムおよび情報処理方法
JP2015036696A (ja) * 2013-08-12 2015-02-23 日本電気株式会社 音源供給装置及び音源供給方法
US9858168B2 (en) 2014-08-28 2018-01-02 International Business Machines Corporation Method for estimating format of log message and computer and computer program therefor
US9875171B2 (en) 2014-08-28 2018-01-23 International Business Machines Corporation Method for estimating format of log message and computer and computer program therefor

Similar Documents

Publication Publication Date Title
JP4774145B2 (ja) 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム
US7617451B2 (en) Structuring data for word processing documents
US7316015B2 (en) Method, apparatus, and program for constructing an execution environment, and computer readable medium recording program thereof
US7631022B2 (en) Information processing apparatus and recording medium
US8566080B2 (en) Method and system for processing text
US8341197B2 (en) Encoder, decoder, their methods, programs thereof, and recording media having programs recorded thereon
CN106844102B (zh) 数据恢复方法和装置
KR101727860B1 (ko) 문서 파일의 복구 장치 및 그 방법
US7188278B1 (en) Method, system, and apparatus for utilizing compressed program code in the boot block portion of a computer BIOS
US10044801B1 (en) Backup of user data with validity check
JP2001101049A (ja) ファイル復元装置
KR20090063025A (ko) 플래시 메모리를 복구하는 임베디드 시스템 및 그 방법
US7996364B2 (en) Information processing apparatus and control method thereof, and document verification apparatus and control method thereof
JP2001067348A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
US7240066B2 (en) Unicode transitional code point database
CN112230947A (zh) 一种操作系统的升级方法、升级系统
US7603390B2 (en) Methods and systems for recovering data from corrupted archives
CN107220146B (zh) 一种文件扫描恢复方法及装置
US6697813B1 (en) Data structures and methods for imaging computer readable media
CN111698330B (zh) 存储集群的数据恢复方法、装置及服务器
US6357002B1 (en) Automated extraction of BIOS identification information for a computer system from any of a plurality of vendors
US7415665B2 (en) Methods and systems for compressing markup language files
KR100567813B1 (ko) 텐덤 시스템의 트랜잭션 분석 시스템
KR102400723B1 (ko) Fat32를 기반으로 하는 삭제 파일의 메타데이터 복구 장치 및 그 방법
JP3465600B2 (ja) 画面情報保存・復元システムおよび画面情報保存・復元方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040514

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041018