JP5364012B2 - データ抽出装置、データ抽出方法、および、データ抽出プログラム - Google Patents
データ抽出装置、データ抽出方法、および、データ抽出プログラム Download PDFInfo
- Publication number
- JP5364012B2 JP5364012B2 JP2010033528A JP2010033528A JP5364012B2 JP 5364012 B2 JP5364012 B2 JP 5364012B2 JP 2010033528 A JP2010033528 A JP 2010033528A JP 2010033528 A JP2010033528 A JP 2010033528A JP 5364012 B2 JP5364012 B2 JP 5364012B2
- Authority
- JP
- Japan
- Prior art keywords
- http
- pair
- request
- url
- data extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
また、HTTPリクエストURLの拡張子に対してフィルタリングを行ったとしても、近年増加しているAPIなどへのHTTPリクエストは、拡張子がないためフィルタリング条件をすり抜けてしまうため、Webページの閲覧履歴として抽出すべきHTTPリクエストを見逃してしまう。
前記データ抽出装置が、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、
前記トラフィック抽出部が、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエストにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、
前記レスポンスフィルタ部が、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、
前記リクエストフィルタ部が、
前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、
その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、
連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、
前記データ抽出部が、前記リクエストフィルタ部の特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする。
ここで、前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエスト内のGET_URLの拡張子、および、前記HTTPリクエスト内のAcceptタグにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出してもよい。
また、前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、HTTPリクエストURIを取得し、その取得したHTTPリクエストURIのドメイン名から抽出したキーワード群のうちの、あらかじめ登録されている除外キーワードを除いたものをキーワードの文字列として抽出して、前記記憶手段に記憶してもよい。
例えば、トラフィック抽出部は、広告用画像データなどのテキスト以外のHTTPリクエストを除去することで、ノイズの誤抽出(false positive)を抑制する。
次に、レスポンスフィルタ部は、テキストの種別を示すキーワードが含まれているHTTPレスポンスを抽出することで、正解抽出の見逃し(false negative)を抑制する。
そして、リクエストフィルタ部は、リファラ(参照元URL)が連続するHTTPペアを特定することで、APIへのHTTPリクエストなどの、トラフィック抽出部では除去できないHTTPリクエストを除去する。
前記リストチェック部が、前記リクエストフィルタ部によって特定されなかった所定数のHTTPペア群それぞれの参照元URLにおいて、所定メッセージ数内に重複する同一参照元URLが出現しなかったとき、その参照元URLが出現したHTTPペアを特定し、
前記データ抽出部は、前記リクエストフィルタ部および前記リストチェック部がそれぞれ特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする。
前記ハッシュ関数は、エントリに含まれるハッシュキーを入力パラメータとする関数であり、そのハッシュキーには、前記リクエストフィルタ部が抽出する前記要求URLと参照元URLとをそれぞれ用いることを特徴とする。
ユーザ端末3から入力されたWebサーバ4へのHTTPリクエストは、トラフィック抽出装置1に入り、Webサーバ4へ送信される。そして、HTTPリクエストへの応答としてのWebサーバ4からのHTTPレスポンスは、トラフィック抽出装置1に入り、ユーザ端末3へ送信される。以下、HTTPリクエストと、その応答としてのHTTPレスポンスとの組を、HTTPペアと表記する。
嗜好情報分析装置2は、トラフィック抽出装置1によるトラフィックの抽出結果から取得される嗜好情報をもとに、その分析処理を実行する。
手順(1):HTTPリクエストのGET_URLの拡張子を参照して、該当するHTTPリクエストを除外する処理。除外する拡張子は、テキストファイル以外の情報(画像データなど)を含む拡張子であり、例えば、「jpg jpeg gif flv swf css js jsp ico png xls」である。
手順(2):HTTPリクエストのAcceptタグを参照して、該当するHTTPリクエストを除外する処理。Acceptに「image/*」が含まれるものを除外する。URLに.jpgなどの拡張子が無くても、Acceptタグにimage/pngなどと書かれている(htmlの<IMG src="url">をブラウザが実行するとAcceptタグを付けてHTTPリクエストを送信することを利用)。
手順(3):HTTPリクエストのHTTPメソッドがGET/POST以外のHTTPリクエストは、ユーザの嗜好情報抽出に無関係であるため、フィルタリングし除外する。
手順(4):前記の手順(1)〜手順(3)のいずれにも該当しない(除外されない)HTTPリクエストに対応するHTTPレスポンスを抽出する。例えば、HTTPリクエストのGET_URLの拡張子が無い場合や、拡張子「.cgi」や、拡張子「.html」は、キーワードが記載されている可能性があるトラフィックなので、除外しないようにする。
なお、嗜好情報抽出部12は、ユーザ端末3とWebサーバ4との間のトラフィックデータについて、複数のユーザ端末3による個々のトラフィックデータが同時に流れることを考慮して、ユーザごとにトラフィックデータを抽出したデータを、抽出情報データベース50(詳細は、図2参照)へと書き出す。
嗜好情報データベース60は、嗜好情報として、閲覧したWebページの概要となるキーワードの集合や、ユーザごとの閲覧したWebページの遷移履歴、検索キーワード、投稿文章などの嗜好分析用情報を時系列に格納するデータベースである。
そして、リクエストフィルタ部14は、直後の所定期間内に同じリファラを有するHTTPリクエストが複数連続で出現した場合(API呼出があった場合、他のページへの遷移があった場合など)、そのリファラが示すURLへユーザの閲覧対象が遷移したと判定する。
さらに、リクエストフィルタ部14は、リファラが無いHTTPペア(ブックマークなどからのアクセスを抽出するため)や、連続で出現したリファラが示すURLを「GET_URL」とするHTTPペア(複数のメッセージのうちの先頭のHTTPペア)を、嗜好情報データベース60に保存する(データ抽出部16に保存を指示する)。なお、本実施形態では「HTTPペア」のことを、適宜「メッセージ」とも呼ぶ。
そして、リクエストフィルタ部14は、入力されたHTTPペアを、後段のリストチェック部15へと出力する。
ユーザ管理用構造体52は、システムのユーザごとに作成される構造体であり、2つのハッシュマップ(URLマップ53およびリファラマップ54)それぞれへのポインタから構成される。
リファラマップ54は、システムのユーザごとに作成されるハッシュマップであり、0個以上のデータ履歴構造体55をエントリとして格納する。リファラマップ54は、エントリ間を前後それぞれのポインタで接続することにより、エントリ間の順序性を保持するハッシュマップである。
「URL」は、HTTPリクエストからGETまたはPOSTで指定されるURLをパース(走査)したものである。
「リファラヘッダ」HTTPリクエストからリファラヘッダを取り出したものである。
「HTTPリクエスト」は、HTTPリクエストデータへのポインタである。
「HTTPレスポンス」は、HTTPレスポンスデータへのポインタである。
「送信フラグ」は、「0x00:未送信」または「0x01:送信済」のいずれかを示す。
ユーザ嗜好ベクトルマップ61は、データ抽出部16による各ユーザのデータ抽出処理ごとのユーザ嗜好ベクトル構造体62をエントリとするハッシュマップであり、そのハッシュキーとしてHTTPリクエストのドメイン名から切り出したキーワードが設定される。
ユーザ嗜好ベクトル構造体62は、項目として、ユーザIDと、時刻と、キーワードと、HTTPリクエストカウンタと、HTTPレスポンスカウンタとを含む構造体である。
項目「時刻」は、1970年1月1日からの秒形式で示されるデータであり、キーワードの抽出時刻を示す。
項目「HTTPリクエストカウンタ」は、HTTPリクエストにキーワードが含まれていた場合にインクリメントするカウンタである。
項目「HTTPレスポンスカウンタ」は、HTTPレスポンスにキーワードが含まれていた場合にインクリメントするカウンタである。
以下の各手順が、図4(a)に記載されている丸数字で示されている。
手順(1)ユーザ(ユーザ端末3)が、WebサイトBをHTTPリクエストで要求する(Referer=A、GET_URL=B)。
手順(2)WebサイトBのデータ(htmlファイル)が、HTTPレスポンスで応答される。
手順(3)WebサイトBのhtmlファイルに含まれている各種リンク(Webページの画像や広告情報などを取得するためのリンク)それぞれについてのHTTPリクエストが発行されるが、キーワード抽出には不要なデータであるので、トラフィック抽出部11の抽出からは除外される(例えば、拡張子「jpg」の画像データなど)。
手順(4)WebサイトBのhtmlファイルに含まれているWebサイトCへのリンクにより、WebサイトCをHTTPリクエストで要求する(Referer=B、GET_URL=C)。
図4(b)の左下の吹き出し内で示したRequestメッセージには、RefererとGET_URLとが含まれている。リクエストフィルタ部14では、GET_URL「http://B.jp/」を含むHTTPペアの後に、Referer「http://B.jp/」を含むHTTPペアが複数回連続で出現しているので、GET_URL「http://B.jp/」を含むHTTPペアをデータ抽出対象とする。
なお、吹き出し内の表で示す例では、API呼出や、他のページへの遷移があった場合のみリファラが一致するため、最後に遷移したWebページは、抽出できない。そこで、同一のRefererが複数回連続で出現しない場合でも、以下に示す「抽出パケットの条件(3つの条件のうちのいずれかを満たす)」を設けることで、リクエストフィルタ部14およびリストチェック部15によるHTTPペアのデータ抽出対象とすることができる。
・Refererが無いメッセージ(ブックマークなどからのアクセス)
・Refererがある場合、かつ、所定メッセージ数内に同一Refererが出現した場合は先頭のメッセージのみ
・Refererがある場合、かつ、所定メッセージ数内にRefererが1つしかないメッセージ
一方、図4(b)の右下の表(トラフィック抽出部11に直接流入したリクエスト)においては、トラフィック抽出部11が、「GET_URL」の拡張子が「a.jpg」などの画像データであるときには、そのHTTPペアを嗜好情報抽出部12に出力しない旨が例示されている。
「key_hash」は、ハッシュ関数h2(z)により求められたハッシュ値である。
「key_data」は、ハッシュキーのデータであり、例えば、URLやリファラである。
「time」は、格納した時刻である。
「value」は、登録データであり、例えば、URLやリファラである。URLマップ53やリファラマップ54では、データ履歴構造体55を登録データとして格納する。
「next」は、次チェインへのポインタである。なお、key_hashの値が重複したときには、「next」を用いて、重複するエントリ間をポインタで接続することにより、key_hashの値が重複する複数のエントリを1つのハッシュマップに共存することを許可する。このチェインする特徴は、主に、URLマップ53にて使用される。
「before」は、前エントリへのポインタである。
「after」は、後エントリへのポインタである。なお、複数のエントリを、「before」と「after」とを用いて先頭から順に接続することにより、エントリの順序性を保持する。この順序性は、主に、リファラマップ54にて使用される。また、「before」および「after」で規定されるエントリ間の前後関係は、URLマップ53でチェインしている場合には、一番古い(一番前に位置する)エントリを検索して削除するために使用される。
(1)HTTPデータの追加処理(URLマップ53およびリファラマップ54に対して)
(2)HTTPデータの削除処理(URLマップ53およびリファラマップ54に対して)
(3)エントリの検索処理
キーをz、登録データをvとするとき、エントリの格納位置をハッシュ値h1(z)として求める。
格納されている値がnullの場合、エントリを格納する。このとき、格納するエントリのkey_hashはハッシュ関数h2(z)によって求められ、key_dataにz、valueに登録データv、next、before、afterをnullで設定する。
新たにキーをz’、登録データをv’としたとき、ハッシュ値h1(z’)がハッシュ値h1(z)と衝突したときは、ハッシュ値h2(z)を求め、エントリのkey_hashと比較する。
key_hashが等しいエントリが存在した場合は、key_dataを直接比較し同一キーか判断する。キーが重複していない場合は、チェインしている最後のエントリのnextに、衝突したデータを登録する。
ただし、エントリのtimeが指定値以上離れていた場合、登録内容を差し替えてデータを登録する。timeの設定は、設定ファイルにより指定される。
また、衝突時のチェイン数に上限を設け、上限を超える場合はエラーとして登録を行わない。最大チェイン数は設定ファイルにより指定される。
URLマップ53へのデータ登録では、URLをkey_dataとし、URLマップ53へデータ履歴構造体55を登録する。key_dataを引数としてハッシュ関数h1からハッシュ値を求め、URLマップ53に登録を行う。登録の差異、キー(h1)が重複した場合は、エントリをチェインして管理する。
リファラマップ54へのデータ登録では、リファラをキーにリファラマップ54へデータ履歴構造体55を登録する。登録データは順序性を管理するため、前および後のエントリへのポインタをハッシュマップ内に保持する。キーが重複していた場合、エラーとして登録は行わない。
キーzの情報をハッシュマップから削除する場合、h1(z)によりエントリの格納位置を求め、格納されているエントリを解放し、nullを設定する。
ただし、エントリがチェインしている(衝突してエントリがリンクしている)場合は、h2(z)を求め、key_hashが等しいエントリを削除し、エントリのnextポインタを適切に再設定する。
URLマップ53からのデータ削除では、URLをキーにURLマップ53を検索する。キーに該当するデータが存在した場合は、該当するエントリがチェインしているか判定する。チェインしていない場合は、そのエントリをそのまま削除する。そのエントリがチェインしている場合は、チェインしているエントリのより先頭に位置するエントリ(一番古い)の削除を行う。
リファラマップ54からのデータ削除では、リファラをキーにデータを検索し、該当するデータがある場合は、該当のエントリを削除する。この際、削除対象エントリの前および後にて管理しているポインタを更新する。
キーをzとして検索を実行するとき、エントリの格納位置をハッシュ値h1(z)として求める。格納されている値がnull以外の場合は、エントリを求め、valueを返却する。ただし、エントリがチェインしている場合は、nextポインタのエントリを参照し、key_hashが等しいエントリが存在しないことを確認する。エントリが等しい場合は、key_data自体を比較し、正しいデータを判断する。
該当するユーザIDが存在した場合は、検索したユーザ管理情報よりURLマップ53とリファラマップ54とを用いて以降の処理を行う。
該当するユーザIDが存在しない場合は、新規ユーザIDのユーザ管理用構造体52と、そのユーザ管理用構造体52に対応する空の2つのハッシュマップ(URLマップ53とリファラマップ54)を生成し、ユーザ管理用マップ51へ登録する。
S103において、入力リファラが抽出できたか否かを判定する。S103でYesならS104へ進み、Noならデータ履歴構造体55をデータ抽出部16に受け渡してHTTPデータの抽出処理(後記する図8の処理)を呼び出してから、S110へ進む。
S104として、入力リファラをキーにURLマップ53を検索する。つまり、URLマップ53のエントリであるデータ履歴構造体55から、入力リファラと一致するデータ履歴構造体55の「URL」項目を検索する。該当するデータ履歴構造体55が存在するときには、S105へ進み、該当するデータ履歴構造体55が存在しないときには、S107へ進む。
S106として、S104で検索したデータ履歴構造体55の「送信フラグ」項目の値を「0x01:送信済」に設定し、そのデータ履歴構造体55をデータ抽出部16に受け渡してHTTPデータの抽出処理(後記する図8の処理)を呼び出してから、S109へ進む。
S108として、S107で検索したデータ履歴構造体55をリファラマップ54から削除する。また、S104と同様に、入力URLをキーにURLマップ53を検索し、合致するデータ履歴構造体55をURLマップ53から削除する。
S110として、トラフィック抽出部11から入力されたHTTPデータを送信済データとして(「送信フラグ」項目の値に「0x01:送信済」を設定して)、URLマップ53およびリファラマップ54へ登録し、リストチェック部15の処理を実行し、フローチャートを終了する。
S122として、リファラマップ54に格納されている最大リスト数を超過するHTTPデータ(データ履歴構造体55)の送信フラグが「未送信」か否かを判定する。S122でYesならS123へ進み、NoならS124へ進む。
S123として、未送信のHTTPデータをデータ抽出部16(後記する図8の処理)へ受け渡す。
S124として、リファラマップ54に格納されている最大リスト数を超過するHTTPデータを削除する。
例えば、HTTPリクエストURI「http://www.hogehoge.foo.co.jp/」からドメイン情報として、ドメイン名「hogehoge.foo」を抽出し、さらにそのドメインから2つのキーワード「hogehogeとfoo」)を抽出する。
まず、HTTPリクエストURIからドメイン名の切り出し処理として、あらかじめ設定ファイルに登録されている除外キーワード「http://www.」および「.co.jp/」をHTTPリクエストURIから抽出して除外する。
次に、ドメイン名からキーワードの切り出し処理は、ドメイン名を.(ドット)で分割したものをキーワードとすることで実現できる。
S211として、HTTPリクエストURIからクエリを抽出する。クエリの抽出処理は、具体的には、HTTPリクエストURIの先頭から’?’を探索し、その後に現れる文字列をクエリとすることで実現できる。
S212として、S211で抽出したクエリを「&」をキーにして分割する。これをarray[n-1](nは分割数)の配列へ格納する。
S213として、array[]の配列要素を先頭から[n-1]番目まで1つずつ順に選択する。以下、現在選択している配列要素をarray[i]とする。
S214として、array[i]の文字列と、設定ファイルの文字列とが一致するか否かを判定する。一致しない場合は、S213に戻って、次の要素を選択する(iをインクリメント)。一致するときには、S215へ進む。
S215として、array[i]の文字列を「=」にて分割し、key(左辺)とvalue(右辺)との組とする。さらに、valueに「%」が含まれていた場合は、URLデコードを行う。
S216として、S215の文字列に対して、文字コード変換を行う。文字コード変換に失敗した場合は、失敗したキーワードは無効とする。
S217として、S216で得られたvalueをキーワードとして嗜好情報データベース60に登録する。つまり、データ抽出部16は、ユーザ嗜好ベクトルマップ61からキー(得られたvalue)に該当するユーザ嗜好ベクトル構造体62を検索する。検索できたときには、該当するユーザ嗜好ベクトル構造体62のHTTPリクエストカウンタをインクリメントする。検索できないときには、ユーザ嗜好ベクトル構造体62を生成しHTTPリクエストカウンタを「1」として、ユーザ嗜好ベクトルマップ61に登録する。
S221として、HTTPレスポンスのhtmlファイルに含まれるWebページの概要を把握するために、html内metaタグのkeywordに含まれる単語を抽出する。多くのWebページにはmetaタグのkeywordに、各Webページを検索エンジンの上位にするためのキーワードが人為的に埋め込まれており、これを抽出することで、Webページの概要を把握する。
S222として、S221で抽出したキーワードを嗜好情報データベース60に登録する。つまり、データ抽出部16は、ユーザ嗜好ベクトルマップ61からキー(S221で抽出したキーワード)に該当するユーザ嗜好ベクトル構造体62を検索する。検索できたときには、該当するユーザ嗜好ベクトル構造体62のHTTPレスポンスカウンタをインクリメントする。検索できないときには、ユーザ嗜好ベクトル構造体62を生成しHTTPレスポンスカウンタを「1」として、ユーザ嗜好ベクトルマップ61に登録する。
トラフィック抽出装置1は、ネットワークトラフィックに含まれる各種データ(P2P、FTP、メディアデータ、テキストデータ)から、HTTPによるサイトアクセスに含まれるテキストデータを取得する。テキストデータは、容易に取得できてデータ量も少ない上、意味情報として加工もしやすい。
つまり、トラフィック抽出装置1は、ユーザ端末3による一般的な検索行動やWebページのアクセスから、ユーザの嗜好情報を判別する前のトラフィックフィルタリングを行う。さらに、嗜好情報分析装置2は、トラフィック抽出装置1の抽出結果を分析する。
これにより、サービスプロバイダは、嗜好情報分析装置2の分析結果を参照することで、トラフィック抽出装置1のユーザに対するターゲッティング広告などのサービスに二次利用することができる。
まず、リクエストフィルタ部14は、ユーザが遷移したURLを抽出するために、HTTPリクエスト発生時にGETに含まれる参照元URLを抽出し、直後にそのURLを参照元とするHTTPリクエストが複数連続で出現した場合、そのURLへ遷移したものとする。このことで、あるユーザが遷移したURLに絞ってHTTPペアを抽出することができる。
次に、リストチェック部15は、同一リファラが複数続かない場合でも遷移したとみなすケースをチェックする。これにより、最後に遷移したWebページを抽出できるため、高速にユーザの試行に関連する情報を抽出することが可能となる。
2 嗜好情報分析装置
3 ユーザ端末
4 Webサーバ
11 トラフィック抽出部
12 嗜好情報抽出部
13 レスポンスフィルタ部
14 リクエストフィルタ部
15 リストチェック部
16 データ抽出部
50 抽出情報データベース
51 ユーザ管理用マップ
52 ユーザ管理用構造体
53 URLマップ
54 リファラマップ
55 データ履歴構造体
60 嗜好情報データベース
61 ユーザ嗜好ベクトルマップ
62 ユーザ嗜好ベクトル構造体
Claims (9)
- Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置であって、
前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、
前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエスト内のGET_URLの拡張子、および、前記HTTPリクエスト内のAcceptタグにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、
前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、
前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、
その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、
連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、
前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする
データ抽出装置。 - Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置であって、
前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、
前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエストにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、
前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、
前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、
その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、
連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、
前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、HTTPリクエストURIを取得し、その取得したHTTPリクエストURIのドメイン名から抽出したキーワード群のうちの、あらかじめ登録されている除外キーワードを除いたものをキーワードの文字列として抽出して、前記記憶手段に記憶することを特徴とする
データ抽出装置。 - 前記データ抽出装置は、さらに、リストチェック部を備えており、
前記リストチェック部は、前記リクエストフィルタ部によって特定されなかった所定数のHTTPペア群それぞれの参照元URLにおいて、所定メッセージ数内に重複する同一参照元URLが出現しなかったとき、その参照元URLが出現したHTTPペアを特定し、
前記データ抽出部は、前記リクエストフィルタ部および前記リストチェック部がそれぞれ特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする
請求項1または請求項2に記載のデータ抽出装置。 - 前記記憶手段には、複数のHTTPペアを格納するためのデータ構造として、1つのHTTPペアを1つのエントリとし、エントリの格納位置をハッシュ関数によって特定する前記ハッシュマップが格納され、
前記ハッシュ関数は、エントリに含まれるハッシュキーを入力パラメータとする関数であり、そのハッシュキーには、前記リクエストフィルタ部が抽出する前記要求URLと参照元URLとをそれぞれ用いることを特徴とする
請求項1ないし請求項3のいずれか1項に記載のデータ抽出装置。 - Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置によるデータ抽出方法であって、
前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、
前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエスト内のGET_URLの拡張子、および、前記HTTPリクエスト内のAcceptタグにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、
前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、
前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、
その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、
連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、
前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする
データ抽出方法。 - Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置によるデータ抽出方法であって、
前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、
前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエストにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、
前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、
前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、
その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、
連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、
前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、HTTPリクエストURIを取得し、その取得したHTTPリクエストURIのドメイン名から抽出したキーワード群のうちの、あらかじめ登録されている除外キーワードを除いたものをキーワードの文字列として抽出して、前記記憶手段に記憶することを特徴とする
データ抽出方法。 - 前記データ抽出装置は、さらに、リストチェック部を備えており、
前記リストチェック部は、前記リクエストフィルタ部によって特定されなかった所定数のHTTPペア群それぞれの参照元URLにおいて、所定メッセージ数内に重複する同一参照元URLが出現しなかったとき、その参照元URLが出現したHTTPペアを特定し、
前記データ抽出部は、前記リクエストフィルタ部および前記リストチェック部がそれぞれ特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする
請求項5または請求項6に記載のデータ抽出方法。 - 前記記憶手段には、複数のHTTPペアを格納するためのデータ構造として、1つのHTTPペアを1つのエントリとし、エントリの格納位置をハッシュ関数によって特定する前記ハッシュマップが格納され、
前記ハッシュ関数は、エントリに含まれるハッシュキーを入力パラメータとする関数であり、そのハッシュキーには、前記リクエストフィルタ部が抽出する前記要求URLと参照元URLとをそれぞれ用いることを特徴とする
請求項5ないし請求項7のいずれか1項に記載のデータ抽出方法。 - 請求項5ないし請求項8のいずれか1項に記載のデータ抽出方法を、コンピュータである前記データ抽出装置に実行させるためのデータ抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010033528A JP5364012B2 (ja) | 2010-02-18 | 2010-02-18 | データ抽出装置、データ抽出方法、および、データ抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010033528A JP5364012B2 (ja) | 2010-02-18 | 2010-02-18 | データ抽出装置、データ抽出方法、および、データ抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011170597A JP2011170597A (ja) | 2011-09-01 |
JP5364012B2 true JP5364012B2 (ja) | 2013-12-11 |
Family
ID=44684662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010033528A Expired - Fee Related JP5364012B2 (ja) | 2010-02-18 | 2010-02-18 | データ抽出装置、データ抽出方法、および、データ抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5364012B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101206602B1 (ko) * | 2011-04-15 | 2012-11-29 | 엔에이치엔(주) | Vpn을 사용한 모바일 네트워크의 트래픽 측정 방법 및 장치 |
EP2605480B1 (en) * | 2011-12-15 | 2014-06-04 | Mitsubishi Electric R&D Centre Europe B.V. | Apparatus and method for HTTP analysis |
JP5856988B2 (ja) * | 2013-02-04 | 2016-02-10 | 日本電信電話株式会社 | 通信分類装置及び方法及びプログラム |
JP6025152B2 (ja) * | 2014-01-20 | 2016-11-16 | Necパーソナルコンピュータ株式会社 | 情報処理装置、制御方法、及びプログラム |
RU2599949C1 (ru) * | 2015-04-16 | 2016-10-20 | Федеральное государственное бюджетное учреждение науки Институт автоматики и электрометрии Сибирского отделения Российской академии наук (ИАиЭ СО РАН) | Способ фильтрации потока нттр-пакетов на основе пост-анализа запросов к интернет-ресурсу и устройство фильтрации для его реализации |
JP6825379B2 (ja) * | 2017-01-19 | 2021-02-03 | 富士通株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185787A (ja) * | 1997-09-05 | 1999-03-30 | Toshiba Corp | リンク構造を有する情報の検索方法及び登録方法 |
JP3664923B2 (ja) * | 1999-10-27 | 2005-06-29 | シャープ株式会社 | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007241378A (ja) * | 2006-03-06 | 2007-09-20 | Data Henkan Kenkyusho:Kk | 検索装置及びそのプログラム |
-
2010
- 2010-02-18 JP JP2010033528A patent/JP5364012B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011170597A (ja) | 2011-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7594011B2 (en) | Network traffic monitoring for search popularity analysis | |
US10025855B2 (en) | Federated community search | |
US8584233B1 (en) | Providing malware-free web content to end users using dynamic templates | |
US9304979B2 (en) | Authorized syndicated descriptions of linked web content displayed with links in user-generated content | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
JP5364012B2 (ja) | データ抽出装置、データ抽出方法、および、データ抽出プログラム | |
US8255519B2 (en) | Network bookmarking based on network traffic | |
US20110302148A1 (en) | System and Method for Indexing Food Providers and Use of the Index in Search Engines | |
US20120284270A1 (en) | Method and device to detect similar documents | |
US20050149500A1 (en) | Systems and methods for unification of search results | |
US20070294265A1 (en) | Identification of content downloaded from the internet and its source location | |
CN110430188B (zh) | 一种快速url过滤方法及装置 | |
US8180751B2 (en) | Using an encyclopedia to build user profiles | |
JP2014502753A (ja) | ウェブページ情報の検出方法及びシステム | |
US20100125781A1 (en) | Page generation by keyword | |
CN105812417B (zh) | 远端服务器、路由器及不良网页信息过滤方法 | |
US10491606B2 (en) | Method and apparatus for providing website authentication data for search engine | |
KR102169143B1 (ko) | 유해 콘텐츠 웹 페이지 url 필터링 장치 | |
Deka | NoSQL web crawler application | |
CN110413861B (zh) | 基于网络爬虫的链接提取方法、装置、设备及存储介质 | |
JP4286828B2 (ja) | Webページ巡回装置及びWebページ巡回プログラム | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
KR20150048831A (ko) | 소외 광고용 소셜 컨텍스트 | |
CA2921758A1 (fr) | Scripts automatises d'extraction et d'indexation d'information avec analyseur de paquets | |
JP5165717B2 (ja) | デッドリンク判定装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110825 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5364012 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |