JP5011185B2 - 情報分析装置、情報分析方法、及び情報分析プログラム - Google Patents
情報分析装置、情報分析方法、及び情報分析プログラム Download PDFInfo
- Publication number
- JP5011185B2 JP5011185B2 JP2008081952A JP2008081952A JP5011185B2 JP 5011185 B2 JP5011185 B2 JP 5011185B2 JP 2008081952 A JP2008081952 A JP 2008081952A JP 2008081952 A JP2008081952 A JP 2008081952A JP 5011185 B2 JP5011185 B2 JP 5011185B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- page
- access
- unit
- access information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方、商品販売者のインターネットを利用したマーケティングの目的の一つは、バナー広告やポイント付与等の様々な手段を用いて、消費者を自社のウェブページに誘導し、最終的に消費者の商品購入(コンバージョン)に結び付けることにある。
このようなインターネットを利用したマーケティングにおいて、上述の口コミ情報を提供する消費者間コミュニケーションサイト等、自社のウェブページへの誘導元となるウェブページの情報は、商品販売者である企業にとって、無視できないものになりつつある。
特許文献1には、評価対象のウェブページを参照している参照元のウェブページのテキストに基づいて、評価対象ウェブページを評価するウェブページ評価システムが記載されている。また、特許文献2には、ウェブページ作成者等の行動に基づいて、そのウェブページのネットワークにおける役割や特徴等を分類する分類方法が記載されている。
また、上述の従来の分類方法では、ウェブページに記載された内容までは分析をしておらず、ウェブページの記載内容である口コミ情報等、消費者の購買行動に大きな影響を与える情報により分類した情報を提供できないという欠点がある。
上記構成によると、情報分析装置は、商品の購入又はサービスの契約に関するページへの到達率を算出することができ、参照元のウェブページをその記載内容により分類した情報、及び、商品購入又はサービスの契約に結びついた情報を提供することができる。
を備える。
上記構成によると、情報分析装置は、例えば、商品購入に結び付いたウェブページへの到達率が高い参照元ページの所在情報を出力ことができ、該参照元ページからの誘導を増やすことにより、効率的に商品購入に結び付いたウェブページへの到達、つまり、商品購入を増やすことができる。
これにより、情報分析装置は、参照元ページの分類ごとに、商品の購入又はサービスの契約に関するページへの到達率を算出することができ、参照元のウェブページをその記載内容により分類した情報、及び、商品購入又はサービスの契約に結びついた情報を提供することができる。
以下、図面を参照しながら本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態に係る情報分析装置10の構成を示す概略ブロック図である。
情報分析装置10は、参照ページ情報記憶部101、アクセス情報記憶部102、参照元ページ情報解析部103、アクセス情報解析結果記憶部104、特徴抽出部105、アクセス情報分類部106、アクセス情報分類結果記憶部107、到達率算出部108、到達率算出結果記憶部109、及び、推奨ページ出力部110を含んで構成される。
具体的に、参照ページ分類情報は、参照ページに掲載された商品又はサービスの分類を示す商品IDであり、また、到達識別情報は、商品の購入やサービスの契約を完了したページ等、商品の購入に結び付くページを算出対象であることを示す「1」とする。つまり、到達率は、商品の購入率やサービスの契約率(コンバージョン率)を意味することとなる。以下、到達識別情報をコンバージョンフラグといい、到達率をコンバージョン率という。
具体的に、参照元ページ情報解析部103は、アクセス情報記憶部102が記憶するアクセスログに含まれる参照元ページのURLにアクセスし、HTML(HyperTextMarkupLanguage)ファイルを取得する。そして、参照元ページ情報解析部103は、該取得した参照元ページのHTMLファイルのデータに含まれる単語の出現頻度を算出する。参照元ページ情報解析部103の機能についての詳細は、後述する。
具体的に、アクセス情報解析結果記憶部104は、アクセス情報記憶部102が記憶するアクセスログのセッションIDごとに、該セッションIDの参照元ページURLと、該参照元ページURLに対応する参照元ページ情報解析部103が算出した各単語の出現頻度と、を含むアクセスログ単語解析データを、アクセス情報解析結果テーブル(図6)に格納して記憶する。
具体的に、特徴抽出部105は、アクセスログ単語解析データついて、各単語の出現頻度を成分として主成分分析を行い、各アクセスログ単語解析データの成分を特徴が現れる主成分に変換する。特徴抽出部105の機能についての詳細は、後述する。
具体的に、アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が変換した主成分を、K−means法(K平均法)等を用いることにより、参照元ページ解析情報をセグメント化、すなわち、クラスタに分類する。アクセス情報分類部106の機能についての詳細は、後述する。
具体的に、到達率算出部108は、アクセス情報分類結果テーブルのデータについて、同一のクラスタ番号、及び同一の商品IDであるデータのうち、コンバージョンフラグが「1」であるデータの割合を算出する。
具体的に、例えば、推奨ページ出力部110は、コンバージョン率算出結果テーブルより、商品IDごとにコンバージョン率が最も高いクラスタ番号を特定し、商品IDとクラスタ番号に対応する参照元ページURLを出力する。しかし、本発明はこれに限らず、例えば、コンバージョン率の閾値を予め記憶し、該閾値を超えるコンバージョン率となる商品IDとクラスタ番号とを特定し、該特定した商品IDとクラスタ番号に対応する参照元ページURLを出力してもよい。
また、参照元ページ情報解析部103、特徴抽出部105、アクセス情報分類部106、到達率算出部108、及び推奨ページ出力部110は、情報分析装置10が記憶媒体の保持するプログラムを読み出し実行することにより、又は、電子回路により実現される。
まず、商品・サービス情報テーブルについて説明をする。商品・サービス情報テーブルは、リレーショナル形式のデータベースにより管理されている。
図2は、本発明の第1の実施形態に係る商品・サービス情報テーブルの一例を示す概略図である。図示するように、商品・サービス情報テーブルは、行と列からなる2次元の表形式のデータであり、商品ID、商品名、参照ページURL(リクエストURL)、コンバージョンフラグの各項目の列を有している。この商品・サービス情報テーブルの主キーは、参照ページURLである。
図3は、本発明の第1の実施形態に係るアクセスログテーブルの一例を示す概略図である。図示するように、アクセスログテーブルは、行と列からなる2次元の表形式のデータであり、参照ページの参照ごとに払いだされるセッションID、参照ページにアクセスした時間、参照元ページURL(リファラURL)、参照ページURL、ニュースやブログ等で分類するページのカテゴリの各項目の列を有している。このアクセスログテーブルの主キーは、セッションIDである。
図4は、本発明の第1の実施形態に係る参照元ページの分類動作を示すフロー図である。
まず、参照元ページ情報解析部103は、解析対象となる単語を選択する(S101)。そして、参照元ページ情報解析部103は、該選択した単語の出現頻度を算出する(S102)。次に、アクセス情報解析結果記憶部104は、セッションIDごとのデータであって、参照元ページ情報解析部103が算出した単語の出現頻度を含むデータであるアクセスログ単語解析データを記憶する(S103)。
以下、参照元ページの分類動作について詳細を説明する。
参照元ページ情報解析部103は、アクセスログテーブルに含まれる参照元ページURLから取得したHTMLファイルについて、解析対象となる単語を選択する。
参照元ページ情報解析部103は、まず、アクセスログテーブルに格納された1つのアクセスログjについて、取得したHTMLファイルのデータに含まれる単語iの出現回数を数え、tfi,j(以下、tf(term frequency)値という)を求める。ここで、単語iは、「記事」、「リンク」等の単語の一つであり、例えば、自然言語処理の基礎技術である形態素解析を用いて定めてもよいし、予め単語候補を定めてもよい。
本実施形態では、参照元ページ情報解析部103は、tfiの値が高い順に60個の単語を選択するとする。
例えば、図5は、アクセス情報分類部106が選択した単語「記事」について、アクセスログテーブルの全てのアクセスログには、「492」回出現したことを表わしている。
なお、図5では、単語を名詞に限定した結果を表わしているが、本発明はこれに限らず、例えば、形容詞等の単語に対しても同様の分析が可能である。
参照元ページ情報解析部103は、例えば、アクセスログj(アクセスログjのセッションIDをセッションIDjとする)に対応する選択単語iの出現頻度wi,jを、式(3)により算出する。
図6は、本発明の第1の実施形態に係るアクセス情報解析結果テーブルの一例を示す概略図である。図示するように、アクセス情報解析結果テーブルは、行と列からなる2次元の表形式のデータであり、セッションID、時間、参照元ページURL、選択単語iの出現頻度の各項目の列を有している。アクセス情報解析結果テーブルの各行は、アクセスログテーブルの各行について、参照元ページURLに対応する各単語の出現頻度を付加したものであり、アクセスログ単語解析データである。このアクセス情報解析結果テーブルの主キーは、セッションIDである。
そして、該アクセスログ単語解析データは、該取得したHTMLファイルのデータに、単語「銘柄」が「6」、単語「投資」が「4」、単語「メール」が「1」、単語「機能」が「0」、単語「サーバ」が「0」の出現頻度で出現したことを表わしている。なお、図6では、60単語のうち5つの単語についてのみ出現頻度を記載している。
特徴抽出部105は、アクセスログ単語解析データについて、各単語の出現頻度を成分とした主成分分析を行う。
なお、アクセス情報解析結果テーブルが格納するセッションIDは、アクセス情報記憶部102が記憶するアクセスログのセッションIDと対応しているので、アクセスログ単語解析データについての主成分分析は、アクセス情報記憶部102が記憶するアクセスログについての主成分分析と同等である。
以下、主成分分析について説明をする。
ここで、Kは、選択単語の数であり、本実施形態では、K=60である。
アクセスログ単語解析データの第m主成分の分散V(zm)は、以下の式(6)となる。
また、λm(m=1、2、・・・、P≦K=60)とし、λ1≧λ2≧・・・≧λPとする。なお、第m主成分zj,mの分散V(zm)は、λmとなる。
特徴抽出部105は、後述する第1主成分からの寄与率の合計である累積寄与率が所定の閾値以上となる主成分数を主成分数Pとする。なお、寄与率とは、主成分の情報への寄与を示す指標であり、寄与率の値が大きい主成分は、情報への寄与が大きいと解釈される。
また、第1主成分から第P主成分までの累積寄与率δは、式(10)より計算される。
特徴抽出部105は、例えば、累積寄与率δが80%以上となる主成分数Pを主成分と決定する。具体的に、図7では、第10主成分の累積寄与率が81.1%となり、80%を超えているので、主成分数Pを10と決定する。
アクセスログ単語解析データjについて、選択単語iの出現頻度wi,jと第m主成分zj,mとの相関を示す因子負荷量rm,pは、式(11)で計算される。
図8は、単語の出現頻度ごとに、第1主成分負荷量、第2主成分負荷量を示している。例えば、第1主成分は、第1主成分負荷量は、「銘柄」、「注目」、「投資」の単語に対する負荷量の絶対値が大きく、「評価・推奨・利益追求に関する成分」であるという特徴を表わしていると解釈できる。
アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が変換した成分を、K−means法(K平均法)等を用いることにより、参照元ページ解析情報をセグメント化、すなわち、クラスタに分類する。
本実施形態では、アクセス情報分類部106は、K−3、つまり、分類するクラスタを3つとして、アクセスログ単語解析データjに対応する主成分zj,mを分類する。
この図は、単語「メール」、「銘柄」の出現頻度を、それぞれ縦軸、横軸とした空間である。この図は、該空間にベクトルa1、ベクトルa2が存在し、ベクトルa1の方向を第1主成分の軸、ベクトルa2の方向を第2主成分の軸とした場合の図である。
この図の空間にプロットされた黒い点は、アクセスログ単語解析データjについて、単語「銘柄」、「メール」の出現頻度をプロットした点であり、一つの点が一のアクセスログ単語解析データに対応する。
この図の×が後述するクラスタ分類の基準点であり、アクセスログ単語解析データは、3つのクラスタであるクラスタ1、クラスタ2、クラスタ3に分類されている。
次に、アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が抽出した主成分の距離が最も近い基準点を特定し、アクセスログ単語解析データは、該特定した基準点のクラスタに属するとする。このようにして、アクセス情報分類部106は、アクセスログ単語解析データの集合であるクラスタを生成する。
次に、アクセス情報分類部106は、各クラスタに属するアクセスログ単語解析データについて主成分の重心を計算する。
そして、アクセス情報分類部106は、該計算した重心を新たな基準点とし、再度、各参照元ページ解析情報の最も近い基準点を算出してクラスタを再生成する。アクセス情報分類部106は、該再生成を繰り返し、全てのアクセスログ単語解析データについて、属するクラスタに変化がない場合、各アクセスログ単語解析データが属するクラスタを、分類するクラスタとして確定する。
アクセス情報分類部106は、該クラスタを確定したアクセスログ単語解析データのセッションIDに対し、該分類結果であるクラスタ番号を関係付けてアクセス情報分類結果記憶部107に記憶する。
なお、全体のコンバージョン率は、アクセス情報分類結果テーブルの全てのデータのうち、該データの商品IDが同一であるデータについて、コンバージョンフラグが「1」であるデータの割合である。
つまり、商品ID「12345」の商品について、クラスタ1に属する参照元ページからアクセスした場合に、コンバージョン率(購入率)が高いことを表わしている。よって、商品ID「12345」の商品について、ユーザをクラスタ1に属する参照元ページから誘導すれば、高い購入率となることが予想される。
推奨ページ出力部110は、コンバージョン率算出結果テーブルより、商品IDごとに、コンバージョン率が最も高いクラスタ番号を特定する。そして、推奨ページ出力部110は、商品ごとに、アクセス情報分類結果テーブルより該特定したクラスタ番号に属する参照元URLを抽出して出力する。
推奨ページ出力部110の出力データは、商品ID、クラスタ番号、参照元ページURLからなるデータである。
アクセスログ単語解析データについて第m主成分を第m主成分得点といい、各クラスタの第m主成分得点の平均は、各クラスタの特徴を表わす。
図13は、本発明の第1の実施形態に係る主成分得点データの一例を示す概略図である。図は、各クラスタについて、クラスタに属するアクセスログの主成分得点の平均値を示すデータであり、対象となる主成分ごとに、クラスタ1、クラスタ2、クラスタ3の主成分得点を示している。
図13では、例えば、クラスタ1は、第1主成分の傾向が非常に強く、図8で示した解釈により、「利益追求の情報提供、評価・推奨を行っているページ」と特徴づけることができる。
参照ページ情報記憶部101とアクセス情報記憶部102は、それぞれ、商品・サービス情報テーブルとアクセスログテーブルのデータを記憶する(S201)。
次に、アクセス情報解析結果記憶部104は、アクセスログログに参照元ページ情報解析部103が算出した各単語の出現頻度を付加したアクセスログ単語解析データを、アクセス情報解析結果テーブルに格納して記憶する。そして、特徴抽出部105は、アクセスログ単語解析データについて、各単語の出現頻度を成分とした主成分分析を行い、主成分の累積寄与率が所定の閾値(80%)以上になる主成分に変換する(S203)。
次に、アクセス情報分類部106は、アクセスログ単語解析データについて、特徴抽出部105が変換した主成分を、クラスタ分類する(S204)。
次に、推奨ページ出力部110は、商品IDごとに到達率算出部108が算出したコンバージョン率が最も高いクラスタ番号を特定し、該特定したクラスタ番号に対応する参照元ページURLを出力する(S206)。
これにより、情報分析装置は、参照元のウェブページをその記載内容により分類した情報、及び、商品購入に結びついた情報を提供することができる。
以下、図面を参照しながら本発明の第2の実施形態について説明する。
第1の実施形態では、商品IDごとにコンバージョン率が高い参照元ページのURLを出力したが、本実施形態では、商品販売者のウェブページにリンクを張るリンク対象ページ(誘導元ページ)のURLを入力することで、該リンク対象ページで高いコンバージョン率が予想される商品IDを出力する。
具体的に、誘導元ページ解析情報入力部204は、リンク対象ページ解析結果テーブルからリンク対象ページ単語解析データを入力し、誘導元ページ分類特定部205に出力する。
なお、本実施形態では、リンク対象ページ解析結果テーブルからリンク対象ページ単語解析データを入力しているが、本発明はこれに限らず、例えば、リンク対象ページ単語解析データを予め特定しておき、管理者用のウェブ画面等から入力してもよい。
具体的に、誘導元ページ分類特定部205は、誘導元ページ解析情報入力部204から入力されたリンク対象ページ単語解析データの選択単語iの出現頻度viについて、式(8)で計算したベクトルamを代入した式(12)で、第1主成分z1から第10主成分z10の各主成分に変換する。
そして、誘導元ページ分類特定部205は、アクセス情報分類部106がクラスタ分類でクラスタを確定した際に用いた基準点であって、式(12)で変換した主成分が最も近い基準点に対応するクラスタのクラスタ番号を特定する。
具体的に、例えば、推奨商品出力部207は、コンバージョン率算出結果テーブル(図11)より、誘導元ページ分類特定部205が特定したリンク対象ページのクラスタ番号について、コンバージョン率が最も高い商品IDを特定し、該商品IDを出力する。
さらに、推奨商品出力部207は、コンバージョン率が入力された所定の閾値以上の商品ID、及びリンク対象ページのクラスタ番号に関係づく参照元ページ解析情報について、主成分がリンク対象ページ単語解析データと最も類似する、つまり、主成分の距離が最も近い参照元ページ解析情報を特定し、該参照元ページ解析情報に関係づく商品IDを出力してもよい。
また、誘導元ページ情報解析部202、誘導元ページ解析情報入力部204、誘導元ページ分類特定部205、及び推奨商品出力部207は、情報分析装置20が記憶媒体の保持するプログラムを読み出し実行することにより、又は、電子回路により実現される。
まず、リンク対象ページ情報テーブルについて説明をする。リンク対象ページ情報テーブルは、リレーショナル形式のデータベースにより管理されている。
図16は、本発明の第2の実施形態に係るリンク対象ページ情報テーブルの一例を示す概略図である。図示するように、リンク対象ページ情報テーブルは、行と列からなる2次元の表形式のデータであり、外部ページID、リンク対象ページURLの各項目の列を有している。このリンク対象ページ情報テーブルの主キーは、外部ページIDである。
例えば、図16では、外部ページID「abc12345」のリンク対象ページのURLは、「http://xxxabc・・・co.jp」であることを表わしている。
図17は、本発明の第2の実施形態に係るリンク対象ページ解析結果テーブルの一例を示す概略図である。図示するように、リンク対象ページ解析結果テーブルは、行と列からなる2次元の表形式のデータであり、外部ページID、リンク対象ページURL、選択単語iの出現頻度の各項目の列を有している。このリンク対象ページ解析結果テーブルの主キーは、外部ページIDである。
例えば、図17では、外部ページID「abc12345」で、URLが「http://xxxabc・・・co.jp」のリンク対象ページのHTMLデータには、単語「銘柄」が「0」、単語「投資」が「1」、単語「メール」が「5」、単語「機能」が「3」、単語「サーバ」が「0」の出現頻度で出現したことを表している。
図18は、本発明の第2の実施形態に係るリンク対象ページ分類結果テーブルの一例を示す概略図である。図示するように、リンク対象ページ分類結果テーブルは、行と列からなる2次元の表形式のデータであり、外部ページID、リンク対象ページURL、クラスタ番号の各項目の列を有している。このリンク対象ページ分類結果テーブルの主キーは、外部ページIDである。
例えば、図18では、外部ページID「abc12345」で、URLが「http://xxxabc・・・co.jp」のリンク対象ページについてのリンク対象ページ単語解析データは、クラスタ番号「02」のクラスタに属していることを表している。
推奨商品出力部207の出力データは、外部ページID、リンク対象ページURL、商品IDからなるデータである。
図19では、例えば、外部ページID「abc12345」で、URLが「http://xxxabc・・・co.jp」のリンク対象ページの属するクラスタでは、商品ID「98765」の商品が最もコンバージョン率が高いことを表わしている。
誘導元ページ情報記憶部201は、リンク対象ページ情報テーブルを記憶する(S301)。次に、誘導元ページ情報解析部202は、リンク対象ページURLから各参照元ページの情報を取得し、該情報に含まれる単語の出現頻度を算出する(S302)。次に、誘導元ページ解析情報入力部204は、外部ページIDと、該リンク対象ページの文書情報に含まれる単語の出現頻度を含むリンク対象ページ単語解析データを入力する(S303)。
この際、リンク対象ページの作成者は、該リンク対象ページよりコンバージョン率が高い商品を特定し、該特定した商品が掲載された参照ページにリンクを張ることにより、効率的に参照ページでの商品購入を増やすことができ、該購入に応じて高い収入を得ることができる。一方、商品販売者は、広告を出すリンク対象ページよりコンバージョン率が高い商品を特定し、該特定した商品を掲載した商品購入ページにリンクをした広告を出すことにより、効率的に商品の購入数を増やすことができる。
201・・・誘導元ページ情報記憶部、202・・・誘導元ページ情報解析部、203・・・誘導元ページ解析結果記憶部、204・・・誘導元ページ解析情報入力部、205・・・誘導元ページ分類特定部、206・・・誘導元ページ分類結果記憶部、207・・・推奨商品出力部(推奨分類出力部)
Claims (7)
- ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、
前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と、
前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する参照元ページ情報解析部と、
前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する前記参照元ページ情報解析部が算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する特徴抽出部と、
前記アクセス情報記憶部が記憶するアクセス情報について、前記特徴抽出部が変換した主成分が類似するアクセス情報の集合に分類するアクセス情報分類部と、
前記アクセス情報分類部が分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する到達率算出部と
を備えることを特徴とする情報分析装置。 - 参照ページ情報記憶部は、前記参照ページの文書情報を分類する参照ページ分類情報を記憶し、
前記到達率算出部は、前記アクセス情報分類部が分類した同一の集合に属し、前記参照ページ情報記憶部が記憶する参照ページ分類情報が同一のアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する
ことを特徴とする請求項1に記載の情報分析装置。 - 前記参照ページ分類情報は、商品又はサービスについての分類情報であり、
前記到達識別情報は、商品の購入又はサービスの契約に関するページを到達率の算出対象とする情報である
ことを特徴とする請求項2に記載の情報分析装置。 - 参照ページへの誘導元のウェブページである誘導元ページの識別情報と、該誘導元ページの文書情報に含まれる単語の出現頻度とを入力する誘導元ページ解析情報入力部と、
前記誘導元ページ解析情報入力部から入力された誘導元ページの各単語の出現頻度を前記特徴抽出部が変換した特徴が現れる主成分に変換し、該主成分が類似する前記アクセス情報分類部が分類した集合を特定する誘導元ページ分類特定部と、
前記誘導元ページ分類特定部が特定した集合について、前記到達率算出部が算出した到達率に基づき参照ページ分類情報を出力する推奨分類出力部と
を備えることを特徴とする請求項2又は請求項3に記載の情報分析装置。 - 前記到達率算出部が算出した到達率に基づき前記参照元ページ分類情報を特定し、該特定した参照元ページ分類情報に対応する前記アクセス情報分類結果記憶部が記憶する参照元ページの所在情報を出力する推奨ページ出力部
を備えることを特徴とする請求項1から請求項4のいずれかに記載の情報分析装置。 - ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、
前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と
を備える情報分析装置における情報分析方法であって、
前記情報分析装置が、前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する第1の過程と、
前記情報分析装置が、前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する第1の過程にて算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する第2の過程と、
前記情報分析装置が、前記アクセス情報記憶部が記憶するアクセス情報について、第2の過程にて変換した主成分が類似するアクセス情報の集合に分類する第3の過程と、
前記情報分析装置が、第3の過程にて分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する第4の過程と
を有することを特徴とする情報分析方法。 - ウェブページへのアクセスごとの情報であって、該アクセスにより参照された参照ページの所在情報と、該ページへのアクセス前に参照された参照元ページの所在情報と含む情報であるアクセス情報を予め記憶するアクセス情報記憶部と、
前記参照ページの所在情報と該参照ページが到達率の算出対象か否かを示す到達識別情報とを予め記憶する参照ページ情報記憶部と
を備える情報分析装置のコンピュータを
前記アクセス情報記憶部が記憶する参照元ページの所在情報に基づき参照元ページの文書情報を取得し、該文書情報に含まれる単語の出現頻度を算出する参照元ページ情報解析手段、
前記アクセス情報記憶部が記憶するアクセス情報について、該アクセス情報の参照ページ所在情報に対応する参照元ページ情報解析手段にて算出した各単語の出現頻度を成分として主成分分析を行い、各アクセス情報の成分を特徴が現れる主成分に変換する特徴抽出手段、
前記アクセス情報記憶部が記憶するアクセス情報について、特徴抽出手段にて変換した主成分が類似するアクセス情報の集合に分類するアクセス情報分類手段、
アクセス情報分類手段にて分類した同一の集合に属するアクセス情報のうち、前記参照ページ情報記憶部に記憶された参照ページの所在情報であって、前記到達率の算出対象である到達識別情報に対応する参照ページの所在情報を含むアクセス情報の割合を表わす到達率を算出する到達率算出手段、
として機能させるための情報分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008081952A JP5011185B2 (ja) | 2008-03-26 | 2008-03-26 | 情報分析装置、情報分析方法、及び情報分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008081952A JP5011185B2 (ja) | 2008-03-26 | 2008-03-26 | 情報分析装置、情報分析方法、及び情報分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009237824A JP2009237824A (ja) | 2009-10-15 |
JP5011185B2 true JP5011185B2 (ja) | 2012-08-29 |
Family
ID=41251705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008081952A Expired - Fee Related JP5011185B2 (ja) | 2008-03-26 | 2008-03-26 | 情報分析装置、情報分析方法、及び情報分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5011185B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6324331B2 (ja) * | 2015-02-17 | 2018-05-16 | 三菱電機株式会社 | サーバ装置及びクライアント装置及びグルーピング方法及びグルーピングプログラム |
JP6062514B2 (ja) * | 2015-09-17 | 2017-01-18 | ヤフー株式会社 | 収益指標値生成システム及び収益指標値生成方法 |
JP7134814B2 (ja) * | 2018-09-28 | 2022-09-12 | キヤノン株式会社 | システム、ページデータ出力方法、及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188737A (ja) * | 2000-01-05 | 2001-07-10 | Toshiba Corp | 分類識別装置 |
JP2005242711A (ja) * | 2004-02-26 | 2005-09-08 | Value Commerce Co Ltd | 広告配信管理ネットワークシステム |
JP2005339419A (ja) * | 2004-05-31 | 2005-12-08 | Nomura Research Institute Ltd | Webページ評価システム及びWebページ評価方法 |
JP4398353B2 (ja) * | 2004-12-09 | 2010-01-13 | 日本電信電話株式会社 | Webページの特徴別分類装置およびWebページの特徴別分類プログラム |
JP2006323629A (ja) * | 2005-05-19 | 2006-11-30 | Kan:Kk | ウェブサーバのページ更新のための情報を解析するサーバ、ウェブサーバ及びページ更新方法 |
JP2007323334A (ja) * | 2006-05-31 | 2007-12-13 | Waakuatto:Kk | Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム |
JP2008026972A (ja) * | 2006-07-18 | 2008-02-07 | Fujitsu Ltd | ウェブサイト構築支援システム、ウェブサイト構築支援方法およびウェブサイト構築支援プログラム |
-
2008
- 2008-03-26 JP JP2008081952A patent/JP5011185B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009237824A (ja) | 2009-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10146743B2 (en) | Systems and methods for optimizing content layout using behavior metrics | |
CN101517967B (zh) | 网站的流量预测 | |
US20190220902A1 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
JP6250106B1 (ja) | 情報解析装置、情報解析方法、および情報解析プログラム | |
US20190213194A1 (en) | System and method for information recommendation | |
CN112200601B (zh) | 物品推荐方法、装置及可读存储介质 | |
JP5253519B2 (ja) | スマートテキストを生成するための方法、装置、及び記憶媒体 | |
US20230089850A1 (en) | Real-time product environmental impact scoring | |
JP6405343B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111429214B (zh) | 一种基于交易数据的买卖双方匹配方法及装置 | |
JPWO2017203672A1 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
JP5772599B2 (ja) | テキストマイニングシステム、テキストマイニング方法および記録媒体 | |
US10394804B1 (en) | Method and system for increasing internet traffic to a question and answer customer support system | |
JP5011185B2 (ja) | 情報分析装置、情報分析方法、及び情報分析プログラム | |
US20130332440A1 (en) | Refinements in Document Analysis | |
US20220114624A1 (en) | Digital Content Text Processing and Review Techniques | |
JP2006004098A (ja) | 評価情報生成装置、評価情報生成方法、及びプログラム | |
JP5603678B2 (ja) | 需要予測装置及び需要予測方法 | |
US20130054501A1 (en) | Optimizing selection and ordering of items displayed | |
JP6258246B2 (ja) | 解析装置、解析方法及びプログラム | |
Thorleuchter et al. | Using Webcrawling of Publicly Available Websites to Assess E-commerce Relationships | |
JP6173586B2 (ja) | ユーザの検索行為に基づいてデータマイニングを行う方法及び装置 | |
JP6993955B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6809148B2 (ja) | プログラムおよび組み合わせ抽出システム | |
JP2021140646A (ja) | ターゲットユーザ特徴抽出方法、ターゲットユーザ特徴抽出システム及びターゲットユーザ特徴抽出サーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5011185 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150608 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |