JP2010067047A - 特徴抽出方法及び装置 - Google Patents

特徴抽出方法及び装置 Download PDF

Info

Publication number
JP2010067047A
JP2010067047A JP2008233418A JP2008233418A JP2010067047A JP 2010067047 A JP2010067047 A JP 2010067047A JP 2008233418 A JP2008233418 A JP 2008233418A JP 2008233418 A JP2008233418 A JP 2008233418A JP 2010067047 A JP2010067047 A JP 2010067047A
Authority
JP
Japan
Prior art keywords
child
parent
log
uri
type identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008233418A
Other languages
English (en)
Other versions
JP5298717B2 (ja
Inventor
Naoteru Akaboshi
直輝 赤星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008233418A priority Critical patent/JP5298717B2/ja
Priority to US12/492,833 priority patent/US8015147B2/en
Publication of JP2010067047A publication Critical patent/JP2010067047A/ja
Application granted granted Critical
Publication of JP5298717B2 publication Critical patent/JP5298717B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】多階層サーバシステムのログから、業務処理を特徴付けるURIの部分を抽出する。
【解決手段】本特徴抽出方法は、下位階層サーバへのメッセージに含まれる業務種別識別子と下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログの各々について、当該子ログに含まれる開始時刻から終了時刻までを包含する開始時刻及び終了時刻を含む親ログである包含親ログを特定し、子ログに含まれる業務種別識別子と包含親ログに含まれるURIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして登録する工程と、子親関係候補テーブルから、業務種別識別子毎にカウント値が最も大きい上記組み合わせに含まれるURIのパスを抽出する工程と、子親関係リストにおいて、URIのパスが、他のセットにおけるURIのパスと不一致となるセットを出力する工程とを含む。
【選択図】図4

Description

本技術は、複数階層サーバシステムにおいて実施される業務を区別し且つ上位階層のウェブサーバへのメッセージに含まれるURI(Uniform Resource Identifier)の特徴部分を抽出する技術に関する。
ウェブ(Web)サイトのアクセス履歴を解析して、販売戦略などに役立てようという動きが広がっており、動的に生成されるWebページ(cgi、jsp、asp、php等のファイルタイプを含むページ)の分析機能として、URL(Uniform Resource Locator)パラメータ分析機能が利用されている。
一方、Webシステムは、図1に示すような多階層のサーバシステムで構成されることが多い。すなわち、インターネット等には負荷分散装置が接続しており、その配下に、第一層としてWebサーバ、第二層としてアプリケーションサーバ、第三層としてDBサーバが設けられている。そして、例えばユーザ端末からHTTP(Hyper Text Transfer Protocol)でメッセージが、インターネット及び負荷分散装置を介してWebサーバに送信されると、Webサーバが処理Aを行って、アプリケーションサーバにIIOP(Internet Inter-ORB Protocol)でリクエストを送信する。アプリケーションサーバは、処理Cを行って、さらにIIOPでDBサーバに対してSQLリクエストを送信する。DBサーバは、処理Dを行って、その結果をアプリケーションサーバに送信する。アプリケーションサーバは、DBサーバから処理結果を受信して処理Dを行って、その結果をWebサーバに送信する。Webサーバは、アプリケーションサーバから処理結果を受信して、処理Bを実施して、最終的な処理結果を負荷分散装置及びインターネット等を介してユーザ端末に送信する。
この際、ユーザ端末から送られてくるHTTPメッセージには、例えばマシン名であるhogehoge.comに対応するIPアドレスと、パス及びパラメータ部分である/ugogo.cgi?sid=1000&target=1(/ugogo.cgiがパスを表し、「?」又は「;」以降のsid=1000&target=1がパラメータ部を表す)とが含まれる。本願では、分かりやすくIPアドレスをマシン名に直してパス及びパラメータ部分を連結した、以下のような形式で示す場合もある。
http://hogehoge.com/ugogo.cgi?sid=1000&target=1
なお、httpはスキームを表している。
図2に示すように、URIにおいてパスまでの静的な部分を見ただけでは、どのような処理が行われているのか不明であり、動的な部分であるパラメータ部分、特にtarget変数の値によって、HTTPメッセージに対して、処理Aが実施されるのか、処理Bが実施されるのかを区別できる。このように、パラメータ部分は処理の内容の選択手段やデータとしての意味を有している。
しかし、従来のWebログ解析ツールでは、変数等を列挙したり出現回数や割合を提示するに留まっており、変数の意味や機能に着目した解析はできない。
また、処理Aと処理Bが実行されることが分かったとしても、処理Aに対応するHTTPメッセージはどれで、処理Bに対応するHTTPメッセージはどれなのかを特定することが難しい場合がある。基本的には図1に示すように、上位のサーバにおける、処理開始時刻から処理終了時刻までの時間間隔は、下位のサーバにおける、処理開始時刻から処理終了時刻までの時間間隔を包含するようになるが、各サーバにおけるログのみを特にWebサーバ側で見た場合には、正しくHTTPメッセージと業務処理とが対応付けられない場合もある。
特開2006−11683号公報 特開2006−323471号公報
以上述べたように、従来技術では、多階層のサーバシステムのログデータから、業務処理とメッセージとの関係を適切に抽出したり、業務処理を特徴付けるパスやパラメータを抽出することができなかった。
従って、本技術の目的は、多階層のサーバシステムのログデータから、実施される業務処理を特徴付け且つ上位階層のWebサーバへのメッセージに含まれるURIの特徴部分を抽出することである。
本特徴抽出方法は、複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出する方法であって、下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、ウェブサーバへのメッセージに含まれるURIとメッセージに応じてウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、子ログに含まれる業務種別識別子と包含親ログに含まれるURIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして子親関係候補テーブルに登録する登録ステップと、子親関係候補テーブルから、業務種別識別子毎にカウント値が最も大きい上記組み合わせに含まれるURIのパスを抽出し、業務種別識別子と抽出されたURIのパスとのセットを子親関係リストに登録する子親関係確定ステップと、子親関係リストにおいて、URIのパスが、他の上記セットにおけるURIのパスと不一致となるセットが存在するか判断するステップと、URIのパスが、他の上記セットにおけるURIのパスと不一致となるセットが存在する場合、当該セットを出力するステップとを含む。
多階層のサーバシステムのログデータから、実施される業務処理を特徴付け且つ上位階層のWebサーバへのメッセージに含まれるURIの特徴部分を抽出することができる。
図3に、本技術の一実施の形態におけるシステム概要を示す。例えばインターネット等のネットワーク1には、複数のユーザ端末3と、分析の対象ITシステム5とが接続されており、ユーザ端末3と対象ITシステム5とはネットワーク1を介して通信を行っている。対象ITシステム5は、例えばWebサーバ51と、アプリケーションサーバ52と、DBサーバ53とで3層サーバシステムを構成している。但し、対象ITシステム5は、2層であってもよいし、さらに多階層であってもよい。
本実施の形態では、分析装置7が、Webサーバ51及びアプリケーションサーバ52に接続されており、上位階層のWebサーバ51で生成されるログ(以下親ログと呼ぶ)と、下位階層のアプリケーションサーバ52で生成されるログ(以下子ログと呼ぶ)とを取得して、以下で述べる処理を実施するものとする。
図4に、分析装置7の構成を示す。分析装置7は、Webサーバ51及びアプリケーションサーバ52から親ログ及び子ログを取得するログ取得部71と、ログ取得部71によって取得された親ログを格納する親ログ格納部72と、ログ取得部71によって取得された子ログを格納する子ログ格納部73と、親ログ格納部72と子ログ格納部73とに格納されているデータを用いて子親関係構築等の処理を行う子親関係構築部74と、子親関係構築部74によって生成される子親関係候補表を格納する子親関係候補表格納部75と、子親関係構築部74によって確定された子親関係を格納する子親関係リスト格納部76と、子親関係構築部74によって抽出され且つ以下の処理に関係する親ログを格納する抽出親ログ格納部77と、子親関係リスト格納部76と抽出親ログ格納部77とに格納されているデータを用いて業務処理に関係するURIの特徴部分を抽出する処理を実施する特徴部分抽出部78と、子親関係リスト格納部76に最終的に格納されているデータを用いて分析結果を出力する出力部79とを有する。
以下、図5乃至図28を用いて、分析装置7の処理内容を説明する。まず、ログ取得部71は、Webサーバ51から親ログを取得して親ログ格納部72に格納すると共に、アプリケーションサーバ52から子ログを取得して子ログ格納部73に格納する(ステップS1)。図6Aに、親ログ格納部72に格納されるデータの一例を示す。図6Aでは、古い順に上から順番にログが並べられる例を示している。各ログには、元のURI(例えば、/axis/services/sample.asp?target=1&value=1234&ssid=1245 HTTP/1.0)と、純粋URI(すなわちパス)(例えば、/axis/services/sample.asp)と、パラメータ部params(例えばtarget=1&value=1234&ssid=1245)と、バージョンver(例えばHTTP/1.0)と、開始時刻(例えばts1)と、終了時刻(例えばte1)とが含まれる。
元のURIは、HTTPメッセージのヘッダ部分の一行目に記述されている。HTTPメッセージのヘッダ部分には他のヘッダ項目も含まれているが、本実施の形態では不要である。HTTPメッセージのボディ部分も不要である。
元のURIにおいて「?」又は「;」によってパスとパラメータ部とが分離可能であり、パラメータ部においても「&」又は「;」によって、各パラメータ(変数=値)に分離可能である。すなわち、上の例ではtarget、value、ssidが変数であり、1、1234、1245がそれぞれの変数の値である。バージョンも、HTTPメッセージ・ヘッダの一行目のパラメータ部の後ろに記述されており、分離可能である。
開始時刻は、本親ログについてのHTTPメッセージを受信して処理を開始した時刻であり、終了時刻は、当該HTTPメッセージに対する応答を送信した時刻である。
また、図6Bに子ログ格納部73に格納されるデータの一例を示す。図6Bにおいても、図6Aのように、古い順に上から順番にログが並べられている。各ログには、IIOPのメッセージに含まれるURL(例えばIIOP−method01。業務種別識別子として作用する。)と、開始時刻(例えばtcs1)と、終了時刻(例えばtce1)とが含まれる。
図5の説明に戻って、次に、子親関係構築部74は、子−親関係候補生成処理を実施する(ステップS3)。この子−親関係候補生成処理については、図7乃至図17を用いて説明する。
まず、子−親関係候補生成処理の前提について説明しておく。図1に示したように、HTTPメッセージを受信して処理を行うWebサーバの処理と、WebサーバからIIOPのメッセージを受信して処理を行うアプリケーションサーバの処理には、親子関係が存在する。図1のようにメッセージの一連の流れをリアルタイムに把握できれば、親子関係ははっきりしており、親処理から子処理を特定することは難しくない。しかしながら、リアルタイムにメッセージの一連の流れを把握することは不可能で、後から親ログ及び子ログといった形で分離されてしまったデータを用いて関係を特定する必要がある。
基本的には図1にも示した処理時間の包含関係があるので、親ログから子ログを特定することも可能ではある。しかしながら、包含関係を親ログから見て判断すると、埋もれてしまう業務処理が存在することが分かってきた。具体的には、バックアップなどの定期的に行われる処理(重要な業務だとバックアップ処理を短周期で行う)について子ログが生成されるとすると、外部からのHTTPメッセージに応じて生成される親ログとは無関係であるにもかかわらず、たまたま処理時間に包含関係が存在していると、親子関係が抽出されてしまう。また、このようなバックアップ処理の場合、親ログが存在するわけではないので、親子関係が特定されない子ログが大量に発生して検討されないという問題も生ずる。
従って、本実施の形態では、子ログの方が実際に行われる業務処理を特定するのに確実なデータであるものとして、子ログをベースに子親関係を特定することとする。
子−親関係候補生成においては、図7に示すように、親の処理の処理時間が、子の処理の処理時間を完全に包含していれば、親ログのURIのパス(例えばugogo.cgi)と、子ログのURI(例えばIIOP−method1。以下、業務種別識別子とも呼ぶ。)とのペアを子−親候補として特定して問題ない。
一方、図8に示すように、親の処理の処理時間が、子の処理の処理時間を完全に包含しているわけではない場合には、子−親候補として特定しない。
さらに、図9に示すように、親の処理の処理時間が、2つの子の処理の処理時間を完全に包含する場合には、いずれが子−親候補として特定すべきかは、これだけを見ても分からない。少なくともいずれかが、たまたま一見して同期しているようなタイミングで実施されているので、以下で述べるように統計的にいずれの子ログが、親ログのURIのパスと対応付けられるかが決められる。
次に、図10乃至図17を用いて子−親関係候補生成処理を具体的に説明する。まず、子親関係構築部74は、子ログカウンタiを1に初期化する(ステップS21)。そして、子ログ格納部73においてi番目の子ログが存在するか判断する(ステップS23)。存在しない場合には、元の処理に戻る。
一方、i番目の子ログが存在する場合には、i番目の子ログを子ログ格納部73から読み出す(ステップS25)。また、親ログカウンタjを1に初期化する(ステップS27)。さらに、親ログ格納部72から、j番目の親ログを読み出す(ステップS29)。そして、i番目の子ログとj番目の親ログが子−親関係についての条件を満たすか判断する(ステップS31)。図7に示すような親の処理時間と子の処理時間との関係があるか判断する。より具体的には、親開始時刻<子開始時刻且つ親終了時刻>子終了時刻を満たすか判断する。
子−親関係についての条件が満たされないと判断された場合には、ステップS37に移行する。一方、子−親関係についての条件が満たされる場合には、フラグを1にセットし(ステップS33)、今回の子親関係に基づき、子親関係候補表格納部75に格納されている子親関係表を更新する(ステップS35)。子親関係候補表の一例を図11に示す。図11の例では、子の業務種別識別子の列と、親候補の列とが設けられており、子の業務種別(図11では簡易的に示してI1、I2、I3)毎に、親候補のURIのパス(図11ではH1が登録されている。なお、統計的な処理を行うため、業務種別識別子の出現頻度及びURIのパスの出現頻度も登録される。図11の例では、業務種別識別子の横の括弧で出現頻度を表しており、URIのパスの横の括弧で出現頻度を表している。
従って、ステップS35では、初めて検出された業務種別識別子であれば、子の列に当該業務種別識別子を登録すると共に、親候補の列にURIのパスも登録して、出現頻度を1に設定する。また、業務種別識別子は既に検出されているが、URIのパスとの組み合わせが初めてであれば、業務識別子の出現頻度を1インクリメントすると共に、既検出の業務種別識別子が登録された行における親候補の列に当該URIのパスを登録し、さらに当該URIのパスの出現頻度を1に設定する。業務種別識別子とURIのパスとの組み合わせが既に登録されている場合には、当該業務種別識別子の行において両方の出現頻度を1インクリメントする。
具体例を、図12を用いて説明する。図12において、上段のHTTPにおいては、親ログについての開始時刻tsと終了時刻teとの関係を表しており、下段のIIOPにおいては、子ログについての開始時刻tcsと終了時刻tceとの関係を表している。ここでは、2つの親ログと、3つの子ログがあることを前提にすると、業種別識別子がI1の子ログの処理時間については、URIのパスがH1の親ログの処理時間と、URIのパスがH2の親ログの処理時間の両方に包含されている。従って、図13に示すように、子親関係候補表において、子の列には、出現頻度「1」で且つ業務種別識別子I1が登録されると共に、当該業務種別識別子I1の行には親候補としてURIのパスH1で出現頻度「1」とURIのパスH2で出現頻度「1」とが登録される。また、業務種別識別子I2の子ログの処理時間については、URIのパスがH1の親ログの処理時間に包含される。従って、図13に示すように、子親関係候補表において、子の列には、出現頻度「1」で且つ業務種別識別子I2が登録されると共に、当該業務種別識別子I2の行には親候補としてURIのパスH1で出現頻度「1」が登録される。なお、業務種別識別子I3の処理時間を、いずれの親ログの処理時間も包含することはない。従って、図13に示すように、子親関係候補表において、子の列には、出現頻度「1」で且つ業務種別識別子I3が登録されると共に、当該業務種別識別子I3の行には親候補として「なし」で出現頻度「1」が登録される。このような親候補「なし」についてはステップS35では登録されないが、以下で述べるステップS45では登録される。
なお、ここで親ログ格納部72において、子親関係についての条件を満たしたj番目の親ログに対応して、業務種別識別子(例えばIIOP−method1)を登録しておく。例えば、図14に示すように、親ログに対して、子ログに含まれる業務種別識別子(URI)を対応付ける。図14では、図10のような状況は想定していないので、1つの親ログに1つの業務種別識別子が対応付けられているが、複数の業務種別識別子が対応付けられる場合もある。このような親ログ格納部72の更新を行うことによって、後の処理が簡単になる。
図10の処理の説明に戻って、jを1インクリメントし(ステップS37)、j番目の親ログが存在するか判断する(ステップS39)。j番目の親ログが存在する場合にはステップS27に戻る。一方、j番目の親ログが存在しない場合には、端子Aを介して図15の処理に移行する。
図15の処理の説明に移行して、次に、フラグが1にセットされているか判断する(ステップS41)。一度でも子親関係についての条件を満たしてステップS33を通過した場合には、フラグが1にセットされており、子親関係候補表に「なし」を登録することはない。従って、フラグが1にセットされている場合には、次の処理のためにフラグをクリアする(ステップS43)。そしてステップS47に移行する。
一方、フラグが1にセットされていない場合には、全ての親ログについて子親関係についての条件を満たさなかったことを意味する。従って、処理に係る子ログに対して親「なし」として子親関係候補表を更新する(ステップS45)。すなわち、図12の業務種別識別子I3の場合のように、I3が初めて登録される場合には、業務種別識別子I3及び出現頻度「1」を子の列に登録すると共に、当該業務種別識別子I3についての行に、親候補として「なし」及び出現頻度「1」を登録する。また、業務種別識別子I3が既に登録されているが、初めて「なし」が発生した場合には、子の列において業務種別識別子I3の出現頻度を1インクリメントし、当該業務種別識別子I3の行において親候補として「なし」及び出現頻度「1」を登録する。さらに、業務種別識別子I3及び親候補「なし」の組み合わせが既に登録済みである場合には、当該業務種別識別子の行においてそれぞれの出現頻度を1インクリメントする。そしてステップS47に移行する。
上でも述べたが、図16に示すように、バックアップ処理などのために業務種別識別子I1を含むメッセージが定期的に出力されていたとすると、当該業務種別識別子がI1の子ログの処理時間が、ある親ログの処理時間とたまたま同期して、URIのパスがH1の親ログの処理時間に包含されることがある。図16では、子ログが5個あって、そのうち3つについて対応する親ログが存在せず、残りの2つについてはURIのパスがH1の親ログが見つかってしまい、図17に示すような子親関係候補表ができる。すなわち、子ログに対して親候補「なし」が優勢である。以下でも述べるが、最終的に親候補「なし」の出現頻度が最大であれば、業務種別識別子I1に対応する親は存在しないと判断され、ユーザに提示される。すなわち、業務種別識別子I1に係る処理は、Webサーバ51とは関係はないと認識することができる。
一方、従来技術のように、親ログから子ログを探索すると、URIのパスH1について業務種別識別子I1の子ログが2つ見つかって、URIのパスH1と業務種別識別子I1とが親子関係として認定されてしまう可能性がある。すなわち、子親関係についての条件を満たさない残りの3つの子ログは無視されてしまう。本実施の形態によれば、このような間違った親子関係を特定することを防止することができる。
その後、iを1インクリメントして(ステップS47)、端子Bを介して図10のステップS25に戻る。
以上のような処理を実施することによって、子親関係についての条件を満たす、業務種別識別子及びURIのパスとの組み合わせが、出現頻度と共に子親関係候補表に適切に登録されることになる。従来技術のように、無視される子ログは存在せず、業務処理実体を正しく反映している。
図5の説明に戻って、子親関係構築部74は、子親関係候補表格納部75に格納されている子親関係候補表の各行について、最も頻度の高いURIのパス又は「なし」を選択することによって、子親関係を確定し、その結果を子親関係リスト格納部76に格納する(ステップS5)。図11の例では、業務種別識別子I1については、URIのパスH1が選択され、業務種別識別子I2については、URIのパスH2が選択され、業務種別識別子I3については、「なし」が選択される。
以下の説明のために、例えば図18に示すようなデータが得られたものとする。図18の例では、子ログの業務種別識別子IIOP−method1と親ログのURIのパス/ugogo.cgiとのセットと、子ログの業務種別識別子IIOP−method2と親ログのURIのパス/ugogo.cgiとのセットと、子ログの業務種別識別子IIOP−method3と親ログのURIのパス/gaogao.cgiとのセットと、子ログの業務種別識別子IIOP−method4と親ログのURIのパス/hegehege.cgiとのセットと、子ログの業務種別識別子IIOP−method5と親ログのURIのパス/hegehege.cgiとのセットと、子ログの業務種別識別子IIOP−method10と親ログのURIのパス「なし」とのセットとが登録されるものとする。なお、フラグの列と、変数+値の列には、ステップS5の段階では値は入らない。
次に、子親関係構築部74は、確定した子親関係毎に、該当する親ログを、親ログ格納部72から抽出し、抽出親ログ格納部77に格納する(ステップS7)。親ログ格納部72に対して、子親関係リストにおける子親関係毎に、当該子親関係に含まれるURIのパス及び業務種別識別子で検索し、該当する親ログを抽出する。抽出親ログ格納部77には、図14に示すようなデータフォーマットで親ログを格納しておく。このようなデータを用意することによって以下で述べる処理が高速化される。
次に、特徴部分抽出部78は、親についての特徴部分抽出処理を実施する(ステップS9)。親についての特徴部分抽出処理については、図19乃至図27を用いて説明する。まず、特徴部分抽出部78は、子親関係分類処理を実施する(ステップS51)。子親関係分類処理については、図20を用いて説明する。
まず、特徴部分抽出部78は、子親関係のカウンタiを1に初期化する(ステップS61)。そして、子親関係リスト格納部76においてi番目の子親関係に、既にフラグ設定済みであるか判断する(ステップS63)。ここでi番目の子親関係についてフラグが設定済みであればステップS75に移行する。
一方、i番目の子親関係についてフラグが設定されていない場合には、当該子親関係のレコードについてURIのパスが登録されているか判断する(ステップS65)。例えば、図18のような子親関係リストの場合には6番目の子親関係のように、URIのパスが「なし」となっているか確認するものである。
URIのパスが「なし」になっている場合には、i番目の子親関係に対して、処理済みフラグをセットする(ステップS73)。図18の例では、6番目の子親関係に対して処理済みを表すCフラグをセットしている。処理済みということは、これ以上この子親関係については処理しなくとも良いということで、このような場合にはHTTPメッセージとは関係なく業務種別識別子についての業務処理が行われているということを意味している。そして処理はステップS75に移行する。
一方、URIのパスが登録されている場合には、子親関係リストにおいて、i番目の子親関係におけるURIのパスと一致するURIのパスを含む他の子親関係を探索する(ステップS67)。i番目の子親関係におけるURIのパスと同じURIのパスを含む他の子親関係が存在しない場合には(ステップS69:Noルート)、ステップS73に移行する。図18の例では、3番目の子親関係におけるURIのパスは、/gaogao.cgiであり、これと一致するURIのパスを含む子親関係は存在しない。従って、3番目の子親関係にはCフラグを設定する。これは、これ以上この子親関係については処理しなくとも良いということで、このような場合にはURIのパラメータ部を用いずともURIのパスだけで、業務処理種別を特定できるということである。
一方、i番目の子親関係におけるURIのパスを含む他の子親関係が見つかった場合(ステップS69:Yesルート)、すなわち探索成功の場合には、子親関係リストにおいて、該当する子親関係に対して、同一のパターンであることを特定するためのパターンフラグをセットする(ステップS71)。図18の例では、1番目の子親関係を処理した場合、/ugogo.cgiというURIのパスを含む他の子親関係を探索すると、2番目の子親関係が特定される。従って、2つの子親関係に対して同一パターンであることを表すP1フラグをセットする。これによって、この2つの子親関係についてはパラメータ部の分析が必要ということになる。同様に、4番目の子親関係を処理した場合、/hegehege.cgiというURIのパスを含む他の子親関係を探索すると、5番目の子親関係が特定される。従って、この2つの子親関係に対して同一パターンであることを表すP2フラグをセットする。
その後、iを1インクリメントし(ステップS75)、i番目の子親関係が存在するか判断する(ステップS77)。i番目の子親関係が存在する場合にはステップS63に戻る。一方、i番目の子親関係が存在しない場合には、元の処理に戻る。
これによって、同一パターンフラグがセットされている子親関係については、以下で述べるようなパラメータ部の解析を行い、業務処理を特徴付ける変数+値のセットを特定する。
図19の処理の説明に戻って、次に、特徴部分抽出部78は、変数抽出処理を実施する(ステップS55)。変数抽出処理については図21乃至図25を用いて説明する。
まず、iを1に初期化し(ステップS91)、パターンフラグがセットされているi番目の子親関係に該当する親ログを、抽出親ログ格納部77から抽出する(ステップS93)。例えば図18の1番目の子親関係であれば、URIのパスが/ugogo.cgiであり、業務種別識別子としてIIOP−method1が登録されている親ログを抽出する。そうすると、例えば図22に示すような親ログに含まれるパラメータ部分が得られるものとする。同様に、図18の2番目の子親関係であれば、URIのパスが/ugogo.cgiであり、業務種別識別子としてIIOP−method2が登録されている親ログを抽出する。そうすると、例えば図23に示すような親ログに含まれるパラメータ部分が得られるものとする。
次に、抽出された親ログから全変数種別を特定する(ステップS95)。図22の場合には、ssid、uid及びtargetが得られる。また、図23の場合にも、ssid、uid及びtargetが得られる。そして、jを1に初期化し(ステップS97)、j番目の変数の値は全て一致するか判断する(ステップS99)。j番目の変数の値が全て一致しているわけではない場合にはステップS103に移行する。一方、j番目の変数の値が全て一致している場合には、j番目の変数及びその値を、子親関係リストにおいて処理に係る子親関係に対応して登録する(ステップS101)。
例えば図22の場合には、sid、ssid及びuidについては変数の値は一致していない。一方、targetについては変数の値は「2」で一致する。そこで、1番目の子親関係の行において、変数+値の列に、target=2を登録する。同様に図23の場合にも、sid、ssid及びuidについては変数の値は一致していない。一方、targetについては変数の値は「3」で一致するそこで、2番目の子親関係の行において、変数+値の列に、target=3を登録する。
なお、以下の説明のために、図18の4番目の子親関係について抽出される親ログが図24に示すようなパラメータ部分を含み、5番目の子親関係について抽出される親ログが図25に示すようなパラメータ部分を含むものとする。この場合、ステップS101を実施すると、図24の例の場合には、子親関係リストにおいて、4番目の子親関係の行において、変数+値としてkk=3及びtarget=2が登録される。また、図25の例の場合には、子親関係リストにおいて、5番目の子親関係の行において、変数+値としてkk=2及びtarget=2が登録される。
その後、jを1インクリメントし(ステップS103)、j番目の変数が存在するか判断する(ステップS105)。j番目の変数が存在する場合にはステップS99に戻る。一方、j番目の変数が存在しない場合には、iを1インクリメントする(ステップS107)。そして、i番目の子親関係が存在するか判断する(ステップS109)。i番目の子親関係が存在する場合にはステップS93に戻る。一方、i番目の子親関係が存在しない場合には、元の処理に戻る。
このような処理を行うことによって、業務処理毎に、当該業務処理を特徴付ける可能性のあるパラメータ部分を特定することができる。この段階で子親関係リストを出力するようにしても、ユーザは、業務処理を特徴付けるパラメータ部分を完全ではないにしても把握することができる。
図19の処理の説明に戻って、特徴部分抽出部78は、特徴変数抽出処理を実施する(ステップS57)。特徴変数抽出処理については、図26及び図27を用いて説明する。
まず、特徴部分抽出部78は、同一パターンフラグがセットされている未処理の子親関係を1つ特定する(ステップS81)。例えば、図18の例では、パターンフラグP1の2つの子親関係、及びパターンフラグP2の2つの子親関係が特定される。
そして、特定された子親関係における未処理の子親関係を1つ特定する(ステップS83)。例えば図18の例で1番目の子親関係を特定する。そして、特定された子親関係について登録されている変数及び値の各セットを、同一パターンフラグがセットされている他の子親関係の変数及び値のセットと比較し、一致する場合には、該当するセットを全て削除する(ステップS85)。パターンフラグP1の2つの子親関係の場合、変数targetは一致するが、その値は一致していないので、パターンフラグP1の2つの子親関係について削除される変数及び値のセットは存在しない。一方、パターンフラグP2の2つの子親関係の場合、変数及び値のセットtarget=2は、2つの子親関係で一致しているので削除され、変数kkについては値が一致しないので削除されない。
このように処理されると、図18の子親関係リストは、図27に示されるような状態になる。変更点は、4番目及び5番目の子親関係において、変数及び値のセットtarget=2が削除された点である。
その後、同一パターンフラグがセットされている子親関係で未処理のものがないか確認して(ステップS87)、未処理のものがある場合にはステップS83に移行する。一方、同一パターンフラグがセットされている子親関係を全て処理した場合には、同一パターンフラグがセットされている子親関係について全て処理したか判断する(ステップS89)。未処理のものがあれば、ステップS81に移行する。一方、未処理のものがない場合には、元の処理に戻る。
このようにすれば、パラメータ部分に変数及び値の複数のセットが含まれる場合でも、その中で業務を特徴付ける変数及び値を抽出することができる。
図5の処理の説明に戻って、出力部79は、子親関係リスト格納部76に格納されている子親関係リストを表示装置やプリンタなどの出力装置に出力する(ステップS11)。
例えば、図28に示すようなデータが出力される。図28の例では、6つの業務処理をそれぞれグループとして、該当するURL(=分析対象マシン名+パス。分析対象マシン名はユーザによって入力されたデータを用いても良いし、IPアドレスからDNS(Domain Name Server)から逆引きして特定しても良い。)と、当該業務を特徴付けるCGIの変数及び値とが列挙されている。但し、グループ6については、HTTPメッセージとは無関係に実施される業務処理であるので、URLとCGIについては「なし」ということになっている。また、グループ3については、URLで特徴付けられるので、CGIについては「なし」ということになっている。
このような出力を見れば、URL全体の中でどの部分に注目すれば、システムの処理がどのように切り替えられるのかを把握できるようになる。
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、上で述べた処理フローについては処理結果が変わらなければ、順番を入れ替えたり、並列実行させるようにしても良い。またデータテーブルの構成やフラグの構成についても同様の効果を得られる場合には、どのように変更しても良い。
なお、分析装置7は、コンピュータ装置であって、図29に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上説明した実施の形態をまとめると以下のようになる。
本特徴抽出方法は、複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出する方法であって、下位階層サーバへのメッセージに含まれる業務種別識別子(例えばIIOP−method1等)と当該メッセージに応じて下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、ウェブサーバへのメッセージに含まれるURIとメッセージに応じてウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、子ログに含まれる業務種別識別子と包含親ログに含まれるURIのパス(例えば/hogehoge.cgiなど)とを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして子親関係候補テーブルに登録する登録ステップと、子親関係候補テーブルから、業務種別識別子毎にカウント値が最も大きい上記組み合わせに含まれるURIのパスを抽出し、業務種別識別子と抽出されたURIのパスとのセットを子親関係リストに登録する子親関係確定ステップと、子親関係リストにおいて、URIのパスが、他の上記セットにおけるURIのパスと不一致となるセットが存在するか判断するステップと、URIのパスが、他の上記セットにおけるURIのパスと不一致となるセットが存在する場合、当該セットを出力するステップとを含む。
このようにすれば、URIのパスだけで特徴付けられる業務処理を特定することができる。
また、上で述べた登録ステップが、特定された包含親ログに、対応する子ログに含まれる業務種別識別子を対応付けて記憶装置に格納するステップを含むようにしてもよい。また、本特徴抽出方法において、子親関係リストから、URIのパスが、他のセットにおけるURIのパスと一致するセットのグループを抽出するステップと、抽出されたセットのグループに含まれる各セットについて、当該セットに含まれるURIのパス及び業務種別識別子に該当する親ログを記憶装置から抽出するステップと、抽出されたセットのグループに含まれる各セットについて、抽出された親ログに含まれるURIのパラメータ部分において、抽出された全ての親ログで共通する変数及び当該変数の値のセットを抽出し、子親関係リストに登録するステップとをさらに含むようにしても良い。このようにすれば、URIのパラメータ部分において、業務処理を特徴付ける変数及び値のセットを抽出することができる。
さらに、本特徴抽出方法において、抽出されたセットのグループについて、子親関係リストにおいて登録されている変数及び当該変数の値のセットのうち一致するセットを、子親関係リストから削除するステップと、子親関係リストのデータを出力するステップと、をさらに含むようにしても良い。このようにすれば、URIのパラメータ部分において、業務処理を最も特徴付ける変数及び値のセットを抽出する。
また、上で述べた登録ステップが、包含親ログが存在しない子ログについて、当該子ログに含まれる業務種別識別子と対応無しを表すデータとの組み合わせを子親関係候補テーブルに登録すると共に、当該業務種別識別子と対応無しを表すデータとの組み合わせをカウントして子親関係候補テーブルに登録するステップを含むようにしてもよい。そして、上で述べた子親関係確定ステップが、特定の業務種別識別子について、最もカウント値が大きい組み合わせに対応無しを表すデータが含まれる場合に、子親関係リストに、当該特定の業務種別識別子と対応無しを表すデータとのセットを登録するステップを含むようにしてもよい。そして、本特徴抽出方法において、特定の業務種別識別子と、対応するURIが存在しないことを表すデータとを出力するステップをさらに含むようにしてもよい。
このようにすれば、上位階層のウェブサーバへのメッセージ対する処理に関連しない業務処理を特定することができるようになる。
なお、上記方法は、コンピュータと当該コンピュータによって実行されるプログラムとの組み合わせにて実行される場合があり、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
(付記1)
複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出するプログラムであって、
前記下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて前記下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各前記子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、前記ウェブサーバへのメッセージに含まれるURIと前記メッセージに応じて前記ウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、前記子ログに含まれる業務種別識別子と前記包含親ログに含まれる前記URIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして前記子親関係候補テーブルに登録する登録ステップと、
前記子親関係候補テーブルから、前記業務種別識別子毎に前記カウント値が最も大きい前記組み合わせに含まれる前記URIのパスを抽出し、前記業務種別識別子と抽出された前記URIのパスとのセットを子親関係リストに登録する子親関係確定ステップと、
前記子親関係リストにおいて、前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在するか判断するステップと、
前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在する場合、当該セットを出力するステップと、
を、コンピュータに実行させる特徴抽出プログラム。
(付記2)
前記登録ステップが、
特定された前記包含親ログに、対応する前記子ログに含まれる業務種別識別子を対応付けて記憶装置に格納するステップ
を含み、
前記子親関係リストから、前記URIのパスが、他の前記セットにおける前記URIのパスと一致するセットのグループを抽出するステップと、
抽出された前記セットのグループに含まれる各前記セットについて、当該セットに含まれる前記URIのパス及び前記業務種別識別子に該当する親ログを前記記憶装置から抽出するステップと、
抽出された前記セットのグループに含まれる各前記セットについて、抽出された前記親ログに含まれる前記URIのパラメータ部分において、抽出された全ての前記親ログで共通する変数及び当該変数の値のセットを抽出し、前記子親関係リストに登録するステップと、
をさらに前記コンピュータに実行させる付記1記載の特徴抽出プログラム。
(付記3)
抽出された前記セットのグループについて、前記子親関係リストにおいて登録されている前記変数及び当該変数の値のセットのうち一致するセットを、前記子親関係リストから削除するステップと、
前記子親関係リストのデータを出力するステップと、
をさらに前記コンピュータに実行させる付記2記載の特徴抽出プログラム。
(付記4)
前記登録ステップが、
前記包含親ログが存在しない子ログについて、当該子ログに含まれる業務種別識別子と対応無しを表すデータとの組み合わせを前記子親関係候補テーブルに登録すると共に、当該業務種別識別子と前記対応無しを表すデータとの組み合わせをカウントして前記子親関係候補テーブルに登録するステップ
を含み、
前記子親関係確定ステップが、
特定の業務種別識別子について、最もカウント値が大きい前記組み合わせに前記対応無しを表すデータが含まれる場合に、前記子親関係リストに、当該特定の業務種別識別子と前記対応無しを表すデータとのセットを登録するステップ
を含み、
前記特定の業務種別識別子と、対応するURIが存在しないことを表すデータとを出力するステップ
をさらに前記コンピュータに実行させるための付記1記載の特徴抽出プログラム。
(付記5)
複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出する方法であって、
前記下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて前記下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各前記子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、前記ウェブサーバへのメッセージに含まれるURIと前記メッセージに応じて前記ウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、前記子ログに含まれる業務種別識別子と前記包含親ログに含まれる前記URIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして前記子親関係候補テーブルに登録する登録ステップと、
前記子親関係候補テーブルから、前記業務種別識別子毎に前記カウント値が最も大きい前記組み合わせに含まれる前記URIのパスを抽出し、前記業務種別識別子と抽出された前記URIのパスとのセットを子親関係リストに登録する子親関係確定ステップと、
前記子親関係リストにおいて、前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在するか判断するステップと、
前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在する場合、当該セットを出力するステップと、
を含み、コンピュータにより実行される特徴抽出方法。
(付記6)
複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出する特徴抽出装置であって、
前記下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて前記下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各前記子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、前記ウェブサーバへのメッセージに含まれるURIと前記メッセージに応じて前記ウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、前記子ログに含まれる業務種別識別子と前記包含親ログに含まれる前記URIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして前記子親関係候補テーブルに登録し、前記子親関係候補テーブルから、前記業務種別識別子毎に前記カウント値が最も大きい前記組み合わせに含まれる前記URIのパスを抽出し、前記業務種別識別子と抽出された前記URIのパスとのセットを子親関係リストに登録する子親関係構築手段と、
前記子親関係リストにおいて、前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在するか判断する特徴部分抽出手段と、
前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在する場合、当該セットを出力する出力手段と、
を有する特徴抽出装置。
多階層システムの処理の概要を説明するための図である。 業務種別とホスト名及びパスとパラメータ部分との関係を表す模式図である。 システム全体の装置構成を示す図である。 分析装置の機能ブロック図である。 分析装置におけるメインの処理フローを示す図である。 親ログ格納部に格納されるデータの一例を示す図である。 子ログ格納部に格納されるデータの一例を示す図である。 子親関係を説明するための図である。 子親関係を説明するための図である。 子親関係を説明するための図である。 子−親関係候補生成処理の処理フローを示す図である。 子親関係候補表の一例を示す図である。 親ログの処理時間と子ログの処理時間との関係を示す図である。 子親関係候補表の一例を示す図である。 親ログ格納部に格納される変更後データの一例を示す図である。 子−親関係候補生成処理の処理フローを示す図である。 親ログの処理時間と子ログの処理時間との関係を示す図である。 子親関係候補表の一例を示す図である。 子親関係リストの一例を示す図である。 親についての特徴部分抽出処理の処理フローを示す図である。 子親関係分類処理の処理フローを示す図である。 変数抽出処理の処理フローを示す図である。 パラメータ部分の特徴部分を説明するための図である。 パラメータ部分の特徴部分を説明するための図である。 パラメータ部分の特徴部分を説明するための図である。 パラメータ部分の特徴部分を説明するための図である。 特徴変数抽出処理の処理フローを示す図である。 子親関係リストの一例を示す図である。 出力例を示す図である。 コンピュータの機能ブロック図である。
符号の説明
7 分析装置
71 ログ取得部 72 親ログ格納部
73 子ログ格納部 74 子親関係構築部
75 子親関係候補表格納部 76 子親関係リスト格納部
77 抽出親ログ格納部 78 特徴部分抽出部
79 出力部

Claims (6)

  1. 複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出するプログラムであって、
    前記下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて前記下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各前記子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、前記ウェブサーバへのメッセージに含まれるURIと前記メッセージに応じて前記ウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、前記子ログに含まれる業務種別識別子と前記包含親ログに含まれる前記URIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして前記子親関係候補テーブルに登録する登録ステップと、
    前記子親関係候補テーブルから、前記業務種別識別子毎に前記カウント値が最も大きい前記組み合わせに含まれる前記URIのパスを抽出し、前記業務種別識別子と抽出された前記URIのパスとのセットを子親関係リストに登録する子親関係確定ステップと、
    前記子親関係リストにおいて、前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在するか判断するステップと、
    前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在する場合、当該セットを出力するステップと、
    を、コンピュータに実行させる特徴抽出プログラム。
  2. 前記登録ステップが、
    特定された前記包含親ログに、対応する前記子ログに含まれる業務種別識別子を対応付けて記憶装置に格納するステップ
    を含み、
    前記子親関係リストから、前記URIのパスが、他の前記セットにおける前記URIのパスと一致するセットのグループを抽出するステップと、
    抽出された前記セットのグループに含まれる各前記セットについて、当該セットに含まれる前記URIのパス及び前記業務種別識別子に該当する親ログを前記記憶装置から抽出するステップと、
    抽出された前記セットのグループに含まれる各前記セットについて、抽出された前記親ログに含まれる前記URIのパラメータ部分において、抽出された全ての前記親ログで共通するパラメータ及び当該パラメータの値のセットを抽出し、前記子親関係リストに登録するステップと、
    をさらに前記コンピュータに実行させる請求項1記載の特徴抽出プログラム。
  3. 抽出された前記セットのグループについて、前記子親関係リストにおいて登録されている前記パラメータ及び当該パラメータの値のセットのうち一致するセットを、前記子親関係リストから削除するステップと、
    前記子親関係リストのデータを出力するステップと、
    をさらに前記コンピュータに実行させる請求項2記載の特徴抽出プログラム。
  4. 前記登録ステップが、
    前記包含親ログが存在しない子ログについて、当該子ログに含まれる業務種別識別子と対応無しを表すデータとの組み合わせを前記子親関係候補テーブルに登録すると共に、当該業務種別識別子と前記対応無しを表すデータとの組み合わせをカウントして前記子親関係候補テーブルに登録するステップ
    を含み、
    前記子親関係確定ステップが、
    特定の業務種別識別子について、最もカウント値が大きい前記組み合わせに前記対応無しを表すデータが含まれる場合に、前記子親関係リストに、当該特定の業務種別識別子と前記対応無しを表すデータとのセットを登録するステップ
    を含み、
    前記特定の業務種別識別子と、対応するURIが存在しないことを表すデータとを出力するステップ
    をさらに前記コンピュータに実行させるための請求項1乃至3のいずれか一つに記載の特徴抽出プログラム。
  5. 複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出する方法であって、
    前記下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて前記下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各前記子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、前記ウェブサーバへのメッセージに含まれるURIと前記メッセージに応じて前記ウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、前記子ログに含まれる業務種別識別子と前記包含親ログに含まれる前記URIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして前記子親関係候補テーブルに登録する登録ステップと、
    前記子親関係候補テーブルから、前記業務種別識別子毎に前記カウント値が最も大きい前記組み合わせに含まれる前記URIのパスを抽出し、前記業務種別識別子と抽出された前記URIのパスとのセットを子親関係リストに登録する子親関係確定ステップと、
    前記子親関係リストにおいて、前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在するか判断するステップと、
    前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在する場合、当該セットを出力するステップと、
    を含み、コンピュータにより実行される特徴抽出方法。
  6. 複数階層サーバシステムにおける下位階層サーバで実施される業務を区別し、上位階層のウェブサーバへのメッセージに含まれるURIの特徴部分を抽出する特徴抽出装置であって、
    前記下位階層サーバへのメッセージに含まれる業務種別識別子と当該メッセージに応じて前記下位階層サーバで実施された処理の開始時刻及び終了時刻とを含む子ログを格納する子ログデータ格納部に格納されている各前記子ログについて、当該子ログに含まれる開始時刻から終了時刻までを包含する時間間隔を規定する開始時刻及び終了時刻を含む親ログである包含親ログを、前記ウェブサーバへのメッセージに含まれるURIと前記メッセージに応じて前記ウェブサーバで実施された処理の開始時刻及び終了時刻と含む親ログを格納する親ログデータ格納部から特定し、前記子ログに含まれる業務種別識別子と前記包含親ログに含まれる前記URIのパスとを子親関係候補テーブルに登録すると共に、当該業務種別識別子と当該URIのパスとの組み合わせをカウントして前記子親関係候補テーブルに登録し、前記子親関係候補テーブルから、前記業務種別識別子毎に前記カウント値が最も大きい前記組み合わせに含まれる前記URIのパスを抽出し、前記業務種別識別子と抽出された前記URIのパスとのセットを子親関係リストに登録する子親関係構築手段と、
    前記子親関係リストにおいて、前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在するか判断する特徴部分抽出手段と、
    前記URIのパスが、他の前記セットにおける前記URIのパスと不一致となるセットが存在する場合、当該セットを出力する出力手段と、
    を有する特徴抽出装置。
JP2008233418A 2008-09-11 2008-09-11 特徴抽出方法及び装置 Expired - Fee Related JP5298717B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008233418A JP5298717B2 (ja) 2008-09-11 2008-09-11 特徴抽出方法及び装置
US12/492,833 US8015147B2 (en) 2008-09-11 2009-06-26 Feature extraction method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008233418A JP5298717B2 (ja) 2008-09-11 2008-09-11 特徴抽出方法及び装置

Publications (2)

Publication Number Publication Date
JP2010067047A true JP2010067047A (ja) 2010-03-25
JP5298717B2 JP5298717B2 (ja) 2013-09-25

Family

ID=42038749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008233418A Expired - Fee Related JP5298717B2 (ja) 2008-09-11 2008-09-11 特徴抽出方法及び装置

Country Status (2)

Country Link
US (1) US8015147B2 (ja)
JP (1) JP5298717B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015095065A (ja) * 2013-11-12 2015-05-18 富士通株式会社 分析方法、分析装置、及び分析プログラム
US9164980B2 (en) 2011-06-03 2015-10-20 Fujitsu Limited Name identification rule generating apparatus and name identification rule generating method
JP2017058915A (ja) * 2015-09-16 2017-03-23 Kddi株式会社 相互関連イベント抽出プログラム、装置及び方法
EP3944040A1 (en) 2020-07-21 2022-01-26 Hitachi, Ltd. Process model creation system, and process model creation method

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738656B2 (en) * 2010-08-23 2014-05-27 Hewlett-Packard Development Company, L.P. Method and system for processing a group of resource identifiers
US8499065B2 (en) 2010-09-30 2013-07-30 The Nielsen Company (Us), Llc Methods and apparatus to distinguish between parent and child webpage accesses and/or browser tabs in focus
US9635404B2 (en) 2013-04-24 2017-04-25 The Nielsen Company (Us), Llc Methods and apparatus to correlate census measurement data with panel data
JP6273866B2 (ja) * 2014-01-29 2018-02-07 富士通株式会社 制御プログラム、制御装置および制御方法
US9826359B2 (en) 2015-05-01 2017-11-21 The Nielsen Company (Us), Llc Methods and apparatus to associate geographic locations with user devices
US11188941B2 (en) 2016-06-21 2021-11-30 The Nielsen Company (Us), Llc Methods and apparatus to collect and process browsing history
CN111090569A (zh) * 2019-12-11 2020-05-01 深圳震有科技股份有限公司 一种调度系统及基于调度系统的关系日志生成方法、介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011683A (ja) * 2004-06-24 2006-01-12 Fujitsu Ltd システム分析プログラム、システム分析方法及びシステム分析装置
JP2006323471A (ja) * 2005-05-17 2006-11-30 Fujitsu Ltd サービス処理状況分析プログラム、サービス処理状況分析方法、およびサービス処理状況分析装置
JP2007304647A (ja) * 2006-05-08 2007-11-22 Fujitsu Ltd リクエスト種別プログラム、リクエスト種別装置およびリクエスト種別方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011683A (ja) * 2004-06-24 2006-01-12 Fujitsu Ltd システム分析プログラム、システム分析方法及びシステム分析装置
JP2006323471A (ja) * 2005-05-17 2006-11-30 Fujitsu Ltd サービス処理状況分析プログラム、サービス処理状況分析方法、およびサービス処理状況分析装置
JP2007304647A (ja) * 2006-05-08 2007-11-22 Fujitsu Ltd リクエスト種別プログラム、リクエスト種別装置およびリクエスト種別方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9164980B2 (en) 2011-06-03 2015-10-20 Fujitsu Limited Name identification rule generating apparatus and name identification rule generating method
JP2015095065A (ja) * 2013-11-12 2015-05-18 富士通株式会社 分析方法、分析装置、及び分析プログラム
US9632899B2 (en) 2013-11-12 2017-04-25 Fujitsu Limited Method for analyzing request logs in advance to acquire path information for identifying problematic part during operation
JP2017058915A (ja) * 2015-09-16 2017-03-23 Kddi株式会社 相互関連イベント抽出プログラム、装置及び方法
EP3944040A1 (en) 2020-07-21 2022-01-26 Hitachi, Ltd. Process model creation system, and process model creation method

Also Published As

Publication number Publication date
JP5298717B2 (ja) 2013-09-25
US8015147B2 (en) 2011-09-06
US20100077092A1 (en) 2010-03-25

Similar Documents

Publication Publication Date Title
JP5298717B2 (ja) 特徴抽出方法及び装置
JP4300808B2 (ja) 統合ログ表示方法及びシステム
JP4097602B2 (ja) 情報解析方法及び装置
US9300755B2 (en) System and method for determining information reliability
US7657515B1 (en) High efficiency document search
JP5035068B2 (ja) サービス処理状況分析プログラム、サービス処理状況分析装置、およびサービス処理状況分析方法
US8930447B2 (en) Method, apparatus, and program for usability analysis of web applications
CN101196899B (zh) 用于处理xml表格中的输入的方法和系统
US20100058118A1 (en) Storage medium recording information reacquisition procedure generation program and information reacquisition procedure generation apparatus
US7577641B2 (en) Computer-implemented system and method for analyzing search queries
TW200935260A (en) System and method for inclusion of interactive elements on a search results page
Upstill et al. Predicting fame and fortune: pagerank or indegree?
JP2010128928A (ja) 検索システム及び検索方法
CN104268289A (zh) 链接url的失效检测方法和装置
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
JP6523799B2 (ja) 情報分析システム、情報分析方法
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP2006243832A (ja) ワークフロー検索システム
JP2009093554A (ja) 検索支援方法、検索支援システム、アプリケーションサーバ、及び検索支援プログラム
JP3955069B2 (ja) 特許出願データ分析支援システム
JPH11306160A (ja) サービス利用履歴からのサービス単位の抽出方法、抽出装置及び抽出プログラムを記録した記録媒体
JP5799790B2 (ja) 分析装置、分析プログラムおよび分析方法
CN113065078B (zh) 模拟用户行为拨测web网站多级域名的统计分析方法
JP5652519B2 (ja) 情報検索方法、プログラム及び装置
JP2014191365A (ja) 多階層システムに含まれる処理システムの分類装置及び多階層システムに含まれる処理システムの分類プログラム並びに多階層システムに含まれる処理システムの分類方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees