JP2010072727A - 履歴処理装置、履歴処理方法および履歴処理プログラム - Google Patents

履歴処理装置、履歴処理方法および履歴処理プログラム Download PDF

Info

Publication number
JP2010072727A
JP2010072727A JP2008236758A JP2008236758A JP2010072727A JP 2010072727 A JP2010072727 A JP 2010072727A JP 2008236758 A JP2008236758 A JP 2008236758A JP 2008236758 A JP2008236758 A JP 2008236758A JP 2010072727 A JP2010072727 A JP 2010072727A
Authority
JP
Japan
Prior art keywords
history data
history
processing
data
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008236758A
Other languages
English (en)
Other versions
JP5079642B2 (ja
Inventor
Shoichi Nagano
翔一 長野
Hiroyuki Takahashi
寛幸 高橋
Tetsuya Nakagawa
哲也 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008236758A priority Critical patent/JP5079642B2/ja
Publication of JP2010072727A publication Critical patent/JP2010072727A/ja
Application granted granted Critical
Publication of JP5079642B2 publication Critical patent/JP5079642B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザの行動に伴う履歴情報を高精度に分類することを課題とする。
【解決手段】履歴処理装置は、まず、時系列で記録されたユーザの行動履歴データに含まれる各履歴データを履歴集合に分類するため第一の条件に基づいて、各履歴データをいくつかの履歴集合に分類する第一処理を実行する。第一処理終了後、履歴処理装置は、履歴データの記録時点および履歴データ間の類似度に関する第二の条件に基づいて、第一処理により集合に分類されずに残された孤立データを集合のいずれかに組み込む第二処理を実行する。
【選択図】 図2

Description

この発明は、履歴処理装置、履歴処理方法および履歴処理プログラムに関する。
従来、ウェブページの閲覧、機械操作、位置情報などユーザの行動に伴う様々な履歴情報を、各履歴情報について算出される類似度に基づいて、類似する履歴情報をクラスタリングして、クラスタリングされた類似履歴の集合からユーザの興味や要求を捉える技術が存在する。
例えば、非特許文献1では、ユーザの閲覧履歴を解析し、ベクトル化した特徴値からユーザの興味の遷移を抽出する方法が提案されている。また、非特許文献2では、ウェブ上でリンクを辿りながらウェブページを移動するユーザの行動に着目し、ユーザの興味を抽出する方法が提案されている。
また、上述した非特許文献1や非特許文献2において、類似する履歴情報をクラスタリングする技術としては、k‐means法(非特許文献3参照)、x‐means法(非特許文献4参照)、ウォード法、最短距離法(非特許文献5参照)、二段階クラスタリング(非特許文献6参照)などの既存技術の採用が考えられる。
山田、中小路、上田、「インターネットユーザ間の長期にわたる興味遷移パターンの抽出と比較」、第19回人工知能学会全国大会、2005 酒井、高田、島川、「リンク航行に着目した行動ターゲティングによるユーザの興味の抽出」、電気情報通信学会第18回データ工学ワークショップ、2007 S.Guha, R.Rastogi, and K.Shim, "CURE: An Efficient Clustering Algorithm for Large Database", in Proc. of the ACM SIGMOD international Conference on Management of Data, pp.73-80 1998 D.Pelleg, A.Moore, "X-means: Extending K-means with efficient estimation of the number of clusters." In Proceedings of the 17th International Conf. on Machine Learning, pages 727-734. Morgan Kaufmann San Francisco, CA, 2000 B.S.Everitt: Cluster Analysis, Edward Arnold, third edition, 1993 片岡、上田、村上、辰巳、「人物名に着目した二段階クラスタリングによるWeb上の同姓同名人物の分離」、第22回人工知能学会全国大会、2008
ところで、例えば、ウェブページの閲覧行動が無秩序に行われるケースは稀であり、意味的に類似した情報を連続して取得しようとユーザにより試みられる場合が多い。そのため、ウェブページの閲覧履歴は、意味的に類似した閲覧履歴の集合(閲覧履歴群)が複数連なって閲覧履歴を構成する場合が多い。また、タブブラウザの普及やPCの共有化などにより、閲覧される情報ごとに類似する複数の閲覧履歴群が並存するケースが増加する傾向になる。
しかしながら、上記した類似する履歴情報をクラスタリングする技術では、例えば、ウェブページなどの閲覧履歴など、閲覧される情報ごとに類似する複数の閲覧履歴集合が並存するケースを想定したものではない。また、図20に示すように、クラスタリングの基準となる融合基準に近いデータを十分に確保できない場合には、類似する閲覧履歴集合に孤立データが融合されると、閲覧履歴集合の融合基準が移動してしまうので、クラスタリング時に誤解析の連鎖が発生し、クラスタリングの精度が低下するという問題点があった。なお、図20は、従来技術の問題点を説明するための図である。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、複数の閲覧履歴集合が並存する場合のクラスタリング処理に適用可能であるとともに、ユーザの行動に伴う履歴情報を高精度に分類することが可能な履歴処理装置、履歴処理方法および履歴処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、時系列で記録されたユーザの行動履歴データに関する処理を行う履歴処理装置であって、全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および前記履歴データ間の類似度に関する第一の条件に基づいて、前記各履歴データをいくつかのグループに分類する第一処理手段と、前記記録時点および前記類似度に関する第二の条件に基づいて、前記第一処理手段により前記グループに分類されずに残された各履歴データを前記グループのいずれかに組み込むが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の条件を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行する第二処理手段と、を備えたことを特徴とする。
また、本発明は、時系列で記録されたユーザの行動履歴データに関する処理を行う履歴処理方法であって、全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および前記履歴データ間の類似度に関する第一の条件に基づいて、前記各履歴データをいくつかのグループに分類する第一処理ステップと、前記記録時点および前記類似度に関する第二の条件に基づいて、前記第一処理ステップにより前記グループに分類されずに残された各履歴データを前記グループのいずれかに組み込むが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の条件を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行する第二処理ステップと、を含んだことを特徴とする。
また、本発明は、時系列で記録されたユーザの行動履歴データに関する処理をコンピュータに実行させる履歴処理プログラムであって、全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および前記履歴データ間の類似度に関する第一の条件に基づいて、前記各履歴データをいくつかのグループに分類する第一処理手順と、前記記録時点および前記類似度に関する第二の条件に基づいて、前記第一処理手順により前記グループに分類されずに残された各履歴データを前記グループのいずれかに組み込むが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の条件を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行する第二処理手順と、をコンピュータに実行させることを特徴とする。
本発明によれば、クラスタリングの処理過程の中で、孤立した履歴情報が類似履歴群に融合されることにより、融合基準が移動して誤解析が連鎖することを防止しつつ、ユーザの行動に伴う履歴情報を高精度に分類できる。また、複数の履歴集合が並存する場合のクラスタリング処理を実現できる。
以下に添付図面を参照して、この発明に係る履歴処理装置、履歴処理方法および履歴処理プログラムの実施例を詳細に説明する。なお、以下では、本発明に係る履歴処理装置の骨子について説明した後に、かかる履歴処理装置の一実施形態として実施例1〜5を説明する。
[用語の説明]
まず、以下の実施例で登場する主要な用語について簡単に説明する。以下の実施例の中で登場する「行動履歴」とは、ウェブページ閲覧、機械操作や位置情報などユーザのある瞬間の所作に伴って、時系列で記録される履歴をいう。
[履歴処理装置の骨子]
図1〜3を参照しつつ、本発明に係る履歴処理装置の骨子について説明する。本発明に係る履歴処理装置の骨子は、以下に説明する実施例に共通する概念である。図1〜3は、本発明に係る履歴処理装置の骨子を説明するための図である。
図1に示すように、本発明に係る履歴処理装置は、まず、時系列で記録されたユーザの行動履歴データに含まれる各履歴データを履歴集合に分類するため第一の条件に基づいて、各履歴データをいくつかの履歴集合に分類する第一処理を実行する。
ここで、第一の条件とは、履歴データの記録時点および履歴データ間の類似度に関する条件である。例えば、図1に示すように、行動履歴データに含まれる履歴データ間の類似度が、閾値「a(aは0よりも大きな数)」以上「1」未満の範囲にあり、履歴データ間の履歴データ数が「n個(nは0よりも大きな数)」以下の範囲にあることを第一の条件とする。また、類似度とは、例えば、履歴データがウェブページの閲覧履歴である場合には、ウェブページの本文の意味的類似度を既存の技術で算出したものなどが該当する。そして、履歴処理装置は、第一の条件を満足する履歴データを履歴集合に分類する。
第一処理終了後、本発明に係る履歴処理装置は、図2に示すように、履歴データの記録時点および履歴データ間の類似度に関する第二の条件に基づいて、第一処理により集合に分類されずに残された孤立データを集合のいずれかに組み込む第二処理を実行する。
ここで、第二の条件とは、第一の条件と同様に、履歴データの記録時点および履歴データ間の類似度に関する条件である。例えば、図2に示すように、行動履歴データに含まれる履歴データ間の類似度が、閾値「b(bは0よりも大きな数)」以上「a」未満の範囲にあり、履歴データ間の履歴データ数が「n個(nは0よりも大きな数)」以下の範囲にあることを第二の条件とする。そして、履歴処理装置は、第一処理により集合に分類されずに残された孤立データについて、第一処理により分類された履歴集合の中から、孤立データとの間で第二の条件を満足する履歴データ数が一定割合以上を占める履歴集合を特定し、特定された履歴集合への組み込みを実行する。
さらに、本発明に係る履歴処理装置は、第二処理において、履歴集合のいずれかに組み込まれずに残された孤立データが存在する場合には、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、第二の条件を変更して、残された孤立データの履歴集合のいずれかへの組み込みを実行する。
例えば、履歴処理装置は、第二の条件における閾値「b」をより小さな閾値「c」に変更して、閾値「c」以上「a」未満の範囲にあり、履歴データ数「n個」以下の範囲にあるという条件に基づいて、残された孤立データの履歴集合のいずれかへの組み込みを実行する。さらに、孤立データが存在する場合には、第二の条件における閾値「c」よりも小さな閾値「d」に変更して、閾値「d」以上「a」未満の範囲にあり、履歴データ数「n個」以下の範囲にあるという条件に基づいて、残された孤立データの履歴集合のいずれかへの組み込みを実行する。このようにして、孤立データを履歴集合のいずれかへ組み込む。
上述してきたように、まず、第一処理を実行することで、行動履歴データに含まれる各履歴データを比較的繋がりの強い(より類似した)履歴集合に分類する。第一処理終了後、第二処理を実行することで、図3に示すように、履歴集合に分類されずに残された孤立データの中から、第一処理における履歴データ間の繋がりよりも弱い繋がりを有するものを、第一処理で分類された履歴集合のいずれかに組み込む。
このようなことから、本発明に係る履歴処理装置は、融合基準が移動して誤解析が連鎖することを防止でき、ユーザの行動に伴う履歴情報を高精度に分類できる。
さらに言えば、ユーザの行動に伴って時系列に記録される行動履歴データは、類似履歴データ群(クラスタ)が連なって構成されるのが通常であるが、時間の経過とともにユーザの行動傾向が遷移するので、履歴データを分類するためには局所解を重視した分類を行う必要がある。既存のクラスタリング技術では、例えば、最短距離法による階層クラスタリングを実行することにより、局所解を重視した分類を行うことができる。しかしながら、最短距離法による階層クラスタリングでは、併合されたクラスタが連鎖的に併合の対象となるチェイニング効果のため、他のクラスタリング手法(例えば、ウォード法)に比べて著しく分類精度が低下してしまう。これに対して、本発明に係る履歴処理装置は、上記チェインニング効果によって誤解析が連鎖的に発生するのが分類処理の後半部であることに着目し、既に形成されているクラスタ要素と併合要素との相関を考慮することで、局所解を重視しながら高い分類精度を実現する。なお、クラスタの分割数を予め与えることなくクラスタリング処理が可能であるという副次的な効果も有する。
以下では、実施例1に係る履歴処理装置の概要および特徴、かかる履歴処理装置の構成および処理を順に説明し、最後に実施例1による効果を説明する。
[履歴処理装置の概要および特徴(実施例1)]
まず、図4〜図7を参照しつつ、実施例1に係る履歴処理装置の概要および特徴を説明する。図4〜図7は、実施例1に係る履歴処理装置の概要および特徴を説明するための図である。
実施例1に係る履歴処理装置は、ユーザのウェプページ閲覧に伴って時系列で記録された閲覧履歴データに関する処理を実行することを概要とする。そして、実施例1に係る履歴処理装置は、複数の過程(過程1〜過程n)からなる処理を順に実行することにより、閲覧履歴データを閲覧履歴集合に分類するための融合基準が移動して誤解析が連鎖することを防止しつつ、閲覧履歴データを高精度に分類でき、さらに、複数の閲覧履歴集合が並存する場合のクラスタリング処理を実現する点に主たる特徴がある。
この主たる特徴について説明すると、実施例1に係る履歴処理装置は、図4に示すように、第一条件に基づいて、強い繋がりを持つ閲覧履歴データをそれぞれ一つの閲覧履歴集合に分類するための処理(過程1)を実行する。
具体的には、実施例1に係る履歴処理装置は、閲覧履歴データのウェプページ本文をそれぞれ取得し、取得されたウェブページを用いて、閲覧履歴データ間の意味的類似度を既存技術により算出する。
意味的類似度の算出後、実施例1に係る履歴処理装置は、閲覧履歴データを閲覧履歴集合に分類するため第一条件に基づいて、各閲覧履歴データをいくつかの履歴集合に分類する処理(過程1)を実行する。
具体的には、第一条件として予め設定された閲覧履歴データ間の意味的類似度に関する条件(閾値「a(aは0よりも大きな数)」以上「1」未満)、および閲覧履歴データ間の閲覧履歴データ数に関する条件(「n個(nは0よりも大きな数)」以下)を満足する閲覧履歴データのペアを抽出し、抽出された閲覧履歴データのペアを全て結合することにより閲覧履歴集合を形成して過程1を終了する。
過程1の終了後、実施例1に係る履歴処理装置は、図5に示すように、第二条件に基づいて、過程1により集合に分類されずに残された孤立データを過程1で形成された閲覧履歴集合のいずれかに組み込む処理(過程2)を実行する。
具体的には、実施例1に係る履歴処理装置は、過程1で形成された閲覧履歴集合の中から、孤立データとの間で、第二条件として予め設定された意味的類似度に関する条件(閾値「b(bは0よりも大きな数)」以上「a」未満)を満足し、かつ第二条件として予め設定された閲覧履歴データ数に関する条件(「n個(nは0よりも大きな数)」以下)を満足する履歴データ数が一定割合以上を占める閲覧履歴集合を特定する。そして、特定された履歴集合への孤立データの組み込みを実行して過程2を終了する。すなわち、第二の条件を満足する孤立データと、閲覧履歴集合内の履歴データとのペアを弱い繋がりを有するものとして特定し、閲覧履歴集合に含まれる閲覧履歴データの一定割合以上に対して弱い繋がりを有する孤立データを、その閲覧履歴集合に組み込む。
実施例1に係る履歴処理装置は、過程2を終了した時点で、閲覧履歴集合のいずれかに組み込まれずに残された孤立データが存在する場合には、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、第二条件を変更して、残された孤立データを閲覧履歴集合のいずれかへ組み込むための処理(過程3〜n)を実行する。
例えば、実施例1に係る履歴処理装置は、第二の条件における閾値「b」をより小さな閾値「c」に変更して、過程1で形成された閲覧履歴集合内のいずれかの閲覧履歴データとの間の意味的類似度が閾値「c」以上「a」未満の範囲にあり、この閲覧履歴データとの間の閲覧履歴データ数「n個」以下の範囲にあるという条件に基づいて、残された孤立データを閲覧履歴集合のいずれかへ組み込む(過程3)。それでも孤立データが残存する場合には、前述と同様な方法で第二条件における閾値の条件を変更して、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、処理(過程4〜n)を繰り返す。
また、閲覧履歴データ間の意味的類似度を算出するための既存技術として、例えば、図6に示すように、TF/IDF法およびベクトル空間法を採用することができる。
上述してきたようにして、実施例1に係る履歴処理装置は、複数の過程(過程1〜過程n)からなる処理を順に実行することにより、以下に説明するような処理結果が得られる。すなわち、図7に示すような閲覧履歴データについて処理が行われると、過程1により、ID59〜61の閲覧履歴データ、ID63および64の閲覧履歴データ、ID65および67の閲覧履歴データが、それぞれ一つの閲覧履歴集合に分類される。
さらに、図7に示すように、過程2によって、ID63および64の閲覧履歴データからなる閲覧履歴集合に、ID66の閲覧履歴データが組み込まれる。そして、最終的に、ID59〜61の閲覧履歴データからなる閲覧履歴集合(Y地域で繋がりを有する集合)、ID63、64および66の閲覧履歴データからなる閲覧履歴集合(電磁気学で繋がりを有する集合)、ID65および67の閲覧履歴データからなる閲覧履歴集合(化学で繋がりを有する集合)、ID62からなる閲覧履歴集合に分類される。
このようなことから、実施例1に係る履歴処理装置は、上述した主たる特徴のように、閲覧履歴データを閲覧履歴集合に分類するための融合基準が移動して誤解析が連鎖することを防止しつつ、閲覧履歴データを高精度に分類できる。さらに、例えば、Y地域で繋がりを有する集合、電磁気学で繋がりを有する集合、化学で繋がりを有する集合など、複数の閲覧履歴集合が並存する場合のクラスタリング処理を実現する。
[履歴処理装置の構成(実施例1)]
次に、図8〜図10を用いて、実施例1に係る履歴処理装置の構成を説明する。図8は、実施例1に係る全体構成を説明するための図である。図9は、実施例1に係るユーザPCの構成を示す図である。図10は、実施例1に係る履歴処理装置の構成を示す図である。
図8に示すように、実施例1に係る履歴処理装置20は、ユーザPC10や情報提供装置30、他の履歴処理装置20’、通信網1と通信可能な状態で接続される。なお、通信網1は、例えば、公衆電話網やインターネット、LANやWANなどによって形成される通信網である。
そして、図9に示すように、ユーザPC10は履歴取得部11を有する。履歴取得部11は、ブラウザなどのソフトウェア上の処理開始トリガーを通じて、ユーザから履歴処理要求があると、通信網1等を利用してユーザにより閲覧されたウェプページの閲覧履歴データを取得し、取得した閲覧履歴データの一覧(例えば、図7参照)を履歴処理装置20に送信する。また、ユーザPC10は、後述する履歴処理装置20から、分類された閲覧履歴データを受信して、ディスプレイなどに出力表示する。
分類された複数の閲覧履歴データの並存状況、および遷移が構造的に出力表示されることにより、ユーザPC10のユーザの記憶補助や発想支援が実現される。
ここで、履歴取得部11により取得される閲覧履歴データは、処理番号、時間(時刻)、タイトルおよびURL等を時系列で並べて構成されたデータである。ここで、閲覧履歴データとは、ネットワーク(公衆電話網やインターネット、LANやWANなどによって形成される通信網)を利用して、ユーザが閲覧したウェプページの閲覧行動の記録を示す履歴データを指し、処理番号、時間(時刻)、タイトルおよびURL等で構成されたデータを想定している。
処理番号は、ユーザPC10に閲覧履歴が記録された際に、順番に割り振られる一意な自然数であり、例えば、「1」から順番に割り振られる。時間(時刻)は、ユーザがユーザPC10を操作してウェプページを閲覧した瞬間の時刻等の情報であり、例えば、西暦、月、日および時刻(時・分・秒)で構成される。タイトルは、HTML(Hyper Text Markup Language)ソース上で、<title>と</title>で囲まれる文字列であり、一般的に、ユーザPC10で起動されたブラウザ上部に表示される。URL(Uniform Resource Locator)は、ユーザがアクセスした通信網1上の情報資源(ウェブページ)の場所を示す文字列であり、一般的に、ユーザPC10で起動されたブラウザ上部に表示される。
なお、図9では、実施例1に係るユーザPC10を説明する上で必要となる処理部のみを図示し、その他の処理部(例えば、キーボードやマウス、マイクなどを備えて構成される入力部、モニタ(若しくはディスプレイ、タッチパネル)やスピーカを備えて構成され出力部、履歴処理装置20や情報提供装置30との間でやり取りされる各種情報に関する通信を制御する通信制御IF部等)は省略する。
情報提供装置30は、キーワードでタグ付けされた情報群(例えば、ウェブページ)を保持しており、後述する履歴処理装置20から分類された閲覧履歴データが受信されると、保持している情報群とのマッチングを行って、ユーザPC10にマッチングした情報を配信する。
例えば、情報提供装置30は、行動ターゲティング広告(BTA:behavioral targeting advertise)をユーザPC10に提供する場合には、履歴処理装置20により分類された閲覧履歴群に含まれるキーワードと、提供候補となる行動ターゲティング広告にタグ付けされたキーワードとが一致する広告をユーザに提供する。
履歴処理装置20’は、後述する履歴処理装置20と同一の構成を有するので、説明は省略する。
図10に示すように、履歴処理装置20は、履歴間類似度算出部21および分類処理部22を有する。
履歴間類似度算出部21は、ユーザPC10から閲覧履歴データの一覧(図7参照)を受信すると、各閲覧履歴データに対応するURLにアクセスしてソースを取得し、取得したソースからHTMLタグやメニュー、広告といったテキストを除去したウェブページ本文を取得する。
そして、履歴間類似度算出部21は、取得したウェブページ本文を用いて、閲覧履歴データ間の意味的類似度を既存技術により算出する。例えば、履歴間類似度算出部21は、共起頻度を用いて文書群における単語の重要度をTF/IDF法等の既存技術によって算出する。そして、TF/IDF法により算出された重要度を用いてベクトル空間法等の既存技術により意味的類似度を算出する。そして、算出された意味的類似度は「0〜1」の数値で表され、「1」に近づくほど類似しているものとされる。
具体的には、履歴間類似度算出部21は、図6に示すように、まず、取得したウェブページが日本語の文書テキストの場合は、形態素解析器を用いて文書テキストを単語(形態素)に分割する。形態素解析後、TF/IDF法により、分割した各単語(形態素)に重要度を付与し、各単語(形態素)と重要度のセットを複数持つリストで文書テキストを表現する。そして、ベクトル空間法により、文書テキスト内の各単語(形態素)と重要度のセットをベクトルとして取り扱い、比較対象となる両文書テキストのベクトルの偏角の余弦値を求め、この値を類似度とする。
なお、意味的類似度を算出する既存技術として、シソーラス階層やN−gram、編集距離を利用した手法を採用することもできる。
分類処理部22は、閲覧履歴データを閲覧履歴集合に分類するため第一の条件に基づいて、各閲覧履歴データをいくつかの履歴集合に分類する処理(過程1)を実行する(例えば、図1参照)。
具体的には、第一条件として予め設定された意味的類似度に関する条件(閾値「a(aは0よりも大きな数)」以上「1」未満)、および閲覧履歴データ間の閲覧履歴データ数に関する条件(「n個(nは0よりも大きな数)」以下)を満足する閲覧履歴データ群をそれぞれ特定する。そして、特定された閲覧履歴データ群をそれぞれ一つの集合として分類して過程1を終了する。
過程1の終了後、分類処理部22は、図5に示すように、過程1により集合に分類されずに残された孤立データを第二の条件に照らし合わせて、過程1で形成された閲覧履歴集合のいずれかに組み込む処理(過程2)を実行する(例えば、図2参照)。
具体的には、分類処理部22は、過程1で形成された閲覧履歴集合の中から、孤立データとの間で、第二条件として予め設定された意味的類似度に関する条件(閾値「b(bは0よりも大きな数)」以上「a」未満)を満足し、かつ第二条件として予め設定された閲覧履歴データ数に関する条件(「n個(nは0よりも大きな数)」以下)を満足する履歴データ数が一定割合以上を占める閲覧履歴集合を特定する。そして、特定された履歴集合への孤立データの組み込みを実行して過程2を終了する。すなわち、第二の条件を満足する孤立データと、閲覧履歴集合内の履歴データとのペアを弱い繋がりを有するものとして特定し、閲覧履歴集合に含まれる閲覧履歴データの一定割合以上に対して弱い繋がりを有する孤立データを、その閲覧履歴集合に組み込む。
さらに、分類処理部22は、過程2を終了した時点で、閲覧履歴集合のいずれかに組み込まれずに残された孤立データが存在する場合には、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、第二条件を変更して、残された孤立データを閲覧履歴集合のいずれかへ組み込むための処理(過程3〜n)を実行する。
例えば、分類処理部22は、第二の条件における閾値「b」をより小さな閾値「c」に変更して、過程1で形成された閲覧履歴集合内のいずれかの閲覧履歴データとの間の意味的類似度が閾値「c」以上「a」未満の範囲にあり、この閲覧履歴データとの間の閲覧履歴データ数「n個」以下の範囲にあるという条件に基づいて、残された孤立データを閲覧履歴集合のいずれかへ組み込む(過程3)。それでも孤立データが残存する場合には、前述と同様な方法で第二条件における閾値の条件を変更して、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、処理(過程4〜n)を繰り返す。
そして、分類処理部22は、閲覧履歴データの分類が完了すると、分類された閲覧履歴データをユーザPC10、情報提供装置30および他の履歴処理装置20’に送信する。
[履歴処理装置による処理(実施例1)]
続いて、図11を用いて、ユーザPC10による処理を説明した後に、図12および図13を用いて、実施例1に係る履歴処理装置による処理を説明する。図11は、実施例1に係るユーザPC10による処理の流れを示す図である。図12および図13は、実施例1に係る履歴処理装置による処理の流れを示す図である。
[ユーザPC10による処理]
図11に示すように、ブラウザなどのソフトウェア上の処理開始トリガーを通じて、ユーザから履歴処理要求があると(ステップS1肯定)、履歴取得部11は、通信網1等を利用してユーザにより閲覧されたウェプページの閲覧履歴データを取得し(ステップS2)、取得した閲覧履歴データの一覧(例えば、図7参照)を履歴処理装置20に送信する(ステップS3)。
[履歴処理装置による処理]
図12に示すように、ユーザPC10から閲覧履歴データの一覧(図7参照)を受信すると(ステップS1肯定)、履歴間類似度算出部21は、各閲覧履歴データに対応するURLにアクセスしてソースを取得し、取得したソースからHTMLタグやメニュー、広告といったテキストを除去したウェブページ本文を取得する(ステップS2)。
そして、履歴間類似度算出部21により閲覧履歴データ間の意味的類似度の算出が完了した後、分類処理部22は、複数の過程(過程1〜過程n)からなる処理を順に実行して、閲覧履歴データを分類する履歴分類処理(図13参照)を実行する(ステップS3)。そして、分類処理部22は、分類された閲覧履歴データをユーザPC10、情報提供装置30および他の履歴処理装置20’に送信する(ステップS4)。
図13を用いて、図12に示す履歴分類処理について詳述する。図13に示すように、分類処理部22は、閲覧履歴データを閲覧履歴集合に分類するため第一の条件に基づいて、各閲覧履歴データをいくつかの履歴集合に分類する処理(過程1)を実行する(ステップS1)。具体的には、第一条件として予め設定された意味的類似度に関する条件(閾値「a(aは0よりも大きな数)」以上「1」未満)、および閲覧履歴データ間の閲覧履歴データ数に関する条件(「n個(nは0よりも大きな数)」以下)を満足する閲覧履歴データ群をそれぞれ特定する。そして、特定された閲覧履歴データ群をそれぞれ一つの集合として分類して過程1を終了する。
過程1の終了後、分類処理部22は、図5に示すように、過程1により集合に分類されずに残された孤立データを第二の条件に照らし合わせて、過程1で形成された閲覧履歴集合のいずれかに組み込む処理(過程2)を実行する(ステップS2)。具体的には、分類処理部22は、過程1で形成された閲覧履歴集合の中から、孤立データとの間で、第二条件として予め設定された意味的類似度に関する条件(閾値「b(bは0よりも大きな数)」以上「a」未満)を満足し、かつ第二条件として予め設定された閲覧履歴データ数に関する条件(「n個(nは0よりも大きな数)」以下)を満足する履歴データ数が一定割合以上を占める閲覧履歴集合を特定する。そして、特定された履歴集合への孤立データの組み込みを実行して過程2を終了する。すなわち、第二の条件を満足する孤立データと、閲覧履歴集合内の履歴データとのペアを弱い繋がりを有するものとして特定し、閲覧履歴集合に含まれる閲覧履歴データの一定割合以上に対して弱い繋がりを有する孤立データを、その閲覧履歴集合に組み込む。
そして、分類処理部22は、過程2を終了した時点で、分類完了(閲覧履歴集合のいずれかに組み込まれずに残された孤立データが存在しない)の確認を行う(ステップS3)。確認の結果、分類が完了している場合(閲覧履歴集合のいずれかに組み込まれずに残された孤立データが存在しない場合)には(ステップS3肯定)、履歴分類処理を終了する。
一方、確認の結果、分類が完了していない場合(閲覧履歴集合のいずれかに組み込まれずに残された孤立データが存在する場合)には(ステップS3否定)、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、第二条件を変更して、残された孤立データを閲覧履歴集合のいずれかへ組み込むための処理(過程3〜n)を実行する(ステップS4)。
例えば、分類処理部22は、第二の条件における閾値「b」をより小さな閾値「c」に変更して、過程1で形成された閲覧履歴集合内のいずれかの閲覧履歴データとの間の意味的類似度が閾値「c」以上「a」未満の範囲にあり、この閲覧履歴データとの間の閲覧履歴データ数「n個」以下の範囲にあるという条件に基づいて、残された孤立データを閲覧履歴集合のいずれかへ組み込む(過程3)。それでも孤立データが残存する場合には、前述と同様な方法で第二条件における閾値の条件を変更して、残された孤立データが閲覧履歴集合のいずれかへ組み込まれるまで、処理(過程4〜n)を繰り返す。なお、孤立データ数が一つとなった場合には、その孤立データを一つの閲覧履歴集合とみなして処理を終了するようにしてもよい。
[実施例1による効果]
上述してきたように、実施例1によれば、閲覧履歴データを閲覧履歴集合に分類するための融合基準が移動して誤解析が連鎖することを防止しつつ、閲覧履歴データを高精度に分類できる。さらに、例えば、図7に示すように、Y地域で繋がりを有する集合、電磁気学で繋がりを有する集合、化学で繋がりを有する集合など、複数の閲覧履歴集合が並存する場合のクラスタリング処理を実現する。
上記の実施例1では、ユーザの行動履歴データとして、ウェブページの閲覧履歴データを例に挙げて説明したが、異種行動についての複数の履歴データを分類する場合にも、上記の実施例1で説明した履歴処理装置20を同様に適用することができる。そこで、以下では、図14を用いて、ウェブページの閲覧履歴データ、およびメールの送受信履歴データが混在する場合の履歴処理装置20による処理の流れを説明する。図14は、実施例2に係る履歴処理装置の処理の流れを示す図である。
図14に示すように、ユーザPC10から閲覧履歴データ(一覧)、およびメール送受信履歴データを受信すると(ステップS1肯定)、履歴間類似度算出部21は、メール送受信履歴からメール本文を取得する(ステップS2)。また、履歴間類似度算出部21は、各閲覧履歴データに対応するURLにアクセスしてソースを取得し、取得したソースからHTMLタグやメニュー、広告といったテキストを除去したウェブページ本文を取得する(ステップS3)。
そして、履歴間類似度算出部21は、メール本文とウェブページ本文を同様に取り扱って、上記の実施例1で説明したのと同様な方法(例えば、図6参照)で、履歴データ間の類似度を算出する。
そして、履歴間類似度算出部21により履歴データ間の意味的類似度の算出が完了した後、分類処理部22は、上記の実施例1と同様な方法で、複数の過程(過程1〜過程n)からなる処理を順に実行して、履歴データを分類する履歴分類処理(図13参照)を実行する(ステップS4)。そして、分類処理部22は、分類された履歴データをユーザPC10、情報提供装置30および他の履歴処理装置20’に送信する(ステップS5)。
上述してきたように、実施例2によれば、異種行動についての複数の履歴データが混在する場合であっても、高精度に履歴データを分類できる。また、例えば、ウェブページの閲覧履歴データ、およびメールの送受信履歴データを分類した履歴データの提供を受けたユーザは、ウェプページのリンクを辿るための記憶の足がかりとして、メールを利用することができる。
例えば、プロキシなどを介して、複数のユーザが同一のユーザIDによりウェブページを閲覧している場合の閲覧履歴データを、上述してきた履歴処理装置20により分類することで、ユーザごとに閲覧行動を識別に利用することもできる。そこで、以下では、実施例3に係る全体構成、および実施例3に係る履歴処理装置の処理について説明する。
[全体構成(実施例3)]
図15は、実施例3に係る全体構成を示す図である。同図に示すように、実施例3に係る履歴処理装置20は、情報提供装置30および他の履歴処理装置20’に接続されるとともに、プロキシ40を介して複数のユーザが同一のユーザIDを用いてアクセスするアクセス先サーバ50に接続される。
[履歴処理装置による処理(実施例3)]
図16は、実施例3に係る履歴処理装置による処理の流れを示す図である。同図に示すように、履歴処理装置20の履歴間類似度算出部21は、ユーザIDが同一である閲覧履歴データをアクセス先サーバ50から取得する(ステップS1)。
以降の処理の流れは、上述した実施例1、2と基本的には同様(図12、図14等参照)であり、履歴間類似度算出部21により閲覧履歴データ間の意味的類似度の算出が完了した後、分類処理部22は、複数の過程(過程1〜過程n)からなる処理を順に実行して、閲覧履歴データを分類する履歴分類処理(図13参照)を実行する(ステップS3)。そして、分類処理部22は、分類された閲覧履歴データをアクセス先サーバ50に送信する(ステップS4)。
上述してきたように、実施例3によれば、同一のユーザIDを用いた複数のユーザに関する閲覧履歴データを高精度に分類できる。したがって、同一の閲覧履歴集合に分類された閲覧履歴は、同一のユーザによるものであることを推測することができるので、ユーザごとに閲覧行動を識別できる。例えば、分類された閲覧履歴データを受信したアクセス先サーバ50は、ユーザAの閲覧行動として識別された閲覧履歴集合が車をキーワードとして繋がりを有する場合には、車に関する閲覧履歴集合内の熱力学のコンテンツに対して車の広告を掲載するなど、ユーザごとに広告配信を行うことが可能である。また、ユーザBがアクセス先サーバ50への規約違反を行った場合には、ユーザBが有する閲覧履歴集合内のアクセスを制限することで、ユーザBの閲覧行動に対してアクセス制限を行うことができる。
上述してきた履歴処理装置20による履歴分類処理は、実世界上の行動履歴(例えば、ショッピングなど、ユーザの行動に伴う行動履歴)にも同様に適用可能である。そこで、以下では、実施例4に係る履歴処理装置の構成および処理を順に説明する。なお、ユーザの行動としてショッピングを例に取り上げる。
[履歴処理装置の構成(実施例4)]
図17は、実施例4に係る全体構成を示す図である。同図に示すように、実施例4に係る履歴処理装置20は、行動履歴作成部23をさらに有し、ユーザPC10や情報提供装置30、通信網1だけでなく、ユーザが所有する端末60と通信可能な状態で接続される点が上記の実施例1とは異なる。
端末60は位置情報取得部61を有する。位置情報取得部61は、緯度や経度などの指標によってユーザの現在位置を数値化した位置情報を、履歴処理装置20が設定するタイミングで送信する。
履歴処理装置20の行動履歴作成部23は、端末60から位置情報を受信すると、位置データベースサーバに問い合わせて、位置情報に関する情報を参照し、取得する。位置情報に関する情報としては、サービス提供者、地域名、印象語、取扱商品、紹介文などの情報が該当する。そして、行動履歴作成部23は、位置情報(緯度や経度)と位置情報に関する情報とを対応づけたものをユーザの行動履歴データとして作成し、蓄積する。
履歴処理装置20の履歴間類似度算出部21は、以下に説明するような方法で、行動履歴作成部23により作成された行動履歴データ間の類似度を算出する。例えば、コーパスに基づいた共起頻度を参考にして、行動履歴データに含まれる印象語間の距離を算出し、算出された距離の逆数を行動履歴データ間の類似度とする。また、行動履歴データに含まれる位置情報を用いて、行動履歴データに対応する地域間の物理的な距離を算出し、算出された距離の逆数を行動履歴データ間の類似度とする。また、上述した実施例1における意味的類似度の算出方法(例えば、図6参照)を用いて、行動履歴データに含まれる紹介文間の意味的類似度を算出し、行動履歴データ間の類似度とする。また、行動履歴データに含まれる取扱商品の一致度(例えば、「一致=1」、「不一致=0.5」などのデフォルト値)または一致度の積を類似度とする。
履歴間類似度算出部21による類似度算出完了後、履歴処理装置20の分類処理部22は、上述した骨子(例えば、図1〜図3参照)に説明した方法を採用して、複数の過程(過程1〜過程n)からなる処理を順に実行し、行動履歴データを分類する履歴分類処理を行う。そして、分類処理装置22は、分類された行動履歴データをユーザPC10、情報提供装置30、他の履歴処理装置20’に送信する。なお、行動履歴データ間について算出した類似度は、相対的かつ概念的な類似度であり、例えば、上記の実施例1で説明した意味的類似度のように、数値範囲が「0〜1」の範囲に制限されるものではなく、上記の骨子において説明した第一条件および第二条件の数値的な条件も、行動履歴データ間について算出された類似度に応じて適宜変更される。
[履歴処理装置による処理(実施例4)]
図18は、実施例4に係る履歴処理装置による処理の流れを示す図である。同図に示すように、履歴処理装置20の行動履歴作成部23は、端末60から位置情報を受信すると、位置データベースサーバに問い合わせて、位置情報に関する情報を取得し、位置情報(緯度や経度)と対応づけたものをユーザの行動履歴データとして作成する(ステップS1)。
履歴間類似度算出部21による類似度算出完了後、履歴処理装置20の分類処理部22は、上述した骨子(例えば、図1〜図3参照)に説明した方法を採用して、複数の過程(過程1〜過程n)からなる処理を順に実行し、行動履歴データを分類する履歴分類処理を行う(ステップS2)。そして、分類処理装置22は、分類された行動履歴データをユーザPC10、情報提供装置30、他の履歴処理装置20’に送信する(ステップS3)。
上述してきたように、実施例4によれば、実世界上の行動履歴データ(例えば、ショッピングなど、ユーザの行動に伴う行動履歴データ)にも同様に高精度に分類できる。
さて、これまで本発明に係る履歴処理装置の一実施形態として実施例1〜4を説明してきたが、本発明に係る履歴処理装置(または、その機能)は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に係る履歴処理装置の他の実施形態について説明する。
(1)特定のウェブサイトでの利用
上記の実施例で説明してきた履歴処理装置20は、特定のウェブサイト内でも同様に利用することができる。
すなわち、ユーザがユーザPC10を用いて特定のウェブサイトにアクセスする。特定のウェブサイトを有する履歴処理装置20は、ユーザの閲覧履歴データを取得し、各閲覧履歴データ内のURLにアクセスして、ソースデータからHTMLのタグを削除したウェブページ本文を取得する。以降は、上述した実施例と同様であるので説明を省略する。
(2)履歴処理装置と同様の機能をユーザPCに適用
また、上記の実施例で説明してきた履歴処理装置20の各種処理機能(例えば、図12、図13等参照)をユーザPC10に適用して、ユーザPC10において、上記の実施例で説明してきた履歴処理装置20と同様の処理を実行させるようにしてもよい。
例えば、ユーザPC10は、ブラウザなどのソフトウェア上の処理開始トリガーを通じて、ユーザから閲覧履歴取得要求があると、ユーザにより閲覧されたウェプページの閲覧履歴データを取得し、各閲覧履歴データ内のURLにアクセスして、ソースデータからHTMLのタグを削除したウェブページ本文を取得する。以降のユーザPC10における処理は、上述した実施例の履歴処理装置20と同様であるので説明を省略する。
(3)外部機器の利用
また、上記の実施例で説明してきた履歴処理装置20の各種処理機能(例えば、図13および図14等参照)が適用されたユーザPC10が、各種外部機器(CD、DVD、USB、携帯電話、PDAやPHSなど)などから履歴データを取得するようにしてもよい。
例えば、ユーザPC10は、登録した各種外部機器が接続され、ブラウザなどの外部機器上の処理開始トリガーを通じて閲覧履歴取得要求があると、各種デバイスから閲覧履歴データを取得する。そして、ユーザPC10は、取得した閲覧履歴データを履歴処理装置20へ送信する。以降は、上述した実施例と同様であるので説明を省略するが、外部機器が通信機器である場合には、履歴処理装置20から提供された閲覧履歴データを通信機器上に表示することもできる。
(4)装置構成等
また、例えば、図10に示した履歴処理装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、履歴処理装置20の分散・統合の具体的形態は図示のものに限られず、例えば、履歴間類似度算出部21と分散処理部22とを統合するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、履歴処理装置20にて行なわれる各処理機能(図12、図13等参照)は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(5)履歴処理プログラム
また、上記の実施例で説明した履歴処理装置20の各種の処理(例えば、図12、図13等参照)は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、図19を用いて、上記の実施例と同様の機能を有する履歴処理プログラムを実行するコンピュータの一例を説明する。図19は、履歴処理プログラムを実行するコンピュータを示す図である。
同図に示すように、履歴処理装置としてコンピュータ70は、通信制御部71、HDD72、RAM73およびCPU74をバス80で接続して構成される。
ここで、通信制御部71は、ユーザPC10や情報提供装置30等との間でやり取りされる各種情報データに関する通信を制御する。HDD72は、CPU74による各種処理の実行に必要な情報を記憶する。RAM73は、各種情報を一時的に記憶する。CPU74は、各種演算処理を実行する。
そして、HDD72には、図19に示すように、上記の実施例に示した履歴処理装置の各処理部と同様の機能を発揮する履歴処理プログラム72aと、履歴処理用データ72bとがあらかじめ記憶されている。なお、この履歴処理プログラム72aを適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。
そして、CPU74が、この履歴処理プログラム72aをHDD72から読み出してRAM73に展開することにより、図19に示すように、履歴処理プログラム72aは履歴処理プロセス73aとして機能するようになる。そして、履歴処理プロセス73aは、履歴処理用データ72b等をHDD72から読み出して、RAM73において自身に割り当てられた領域に展開し、この展開したデータ等に基づいて各種処理を実行する。なお、履歴処理プロセス73aは、例えば、図10に示した履歴処理装置20の履歴間類似度算出部21や分類処理部22、図17に示した行動履歴作成部23等において実行される処理にそれぞれ対応する。
なお、上記した履歴処理プログラム72aについては、必ずしも最初からHDD72に記憶させておく必要はなく、例えば、コンピュータ70に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ70に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ70がこれらから各プログラムを読み出して実行するようにしてもよい。
(6)履歴処理方法
上記の実施例で説明した履歴処理装置20により、以下のような履歴処理方法が実現される。
すなわち、時系列で記録されたユーザの行動履歴データに関する処理を行う履歴処理方法であって、全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および履歴データ間の類似度に関する第一の条件に基づいて、各履歴データをいくつかのグループに分類する第一処理ステップと(例えば、図13のステップS1参照)、履歴データの記録時点および履歴データ間の類似度に関する第二の条件に基づいて、第一処理ステップによりグループに分類されずに残された各履歴データをグループのいずれかに組み込むが(例えば、図13のステップS2参照)、グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データがグループのいずれかへ組み込まれるまで、第二の条件を変更して、残された履歴データのグループのいずれかへの組み込みを実行する(例えば、図13のステップS4参照)第二処理ステップと、を含んだ履歴処理方法が実現される。
以上のように、本発明に係る履歴処理装置、履歴処理方法および履歴処理プログラムは、時系列で記録されたユーザの行動履歴データに含まれる各履歴データを履歴集合に分類する場合に有用であり、特に、ユーザの行動に伴う履歴情報を高精度に分類することに適する。
本発明に係る履歴処理装置の骨子を説明するための図である。 本発明に係る履歴処理装置の骨子を説明するための図である。 本発明に係る履歴処理装置の骨子を説明するための図である。 実施例1に係る履歴処理装置の概要および特徴を説明するための図である。 実施例1に係る履歴処理装置の概要および特徴を説明するための図である。 実施例1に係る履歴処理装置の概要および特徴を説明するための図である。 実施例1に係る履歴処理装置の概要および特徴を説明するための図である。 実施例1に係る全体構成を説明するための図である。 実施例1に係るユーザPCの構成を示す図である。 実施例1に係る履歴処理装置の構成を示す図である。 実施例1に係るユーザPCによる処理の流れを示す図である。 実施例1に係る履歴処理装置による処理の流れを示す図である。 実施例1に係る履歴処理装置による処理の流れを示す図である。 実施例2に係る履歴処理装置の処理の流れを示す図である。 実施例3に係る全体構成を示す図である。 実施例3に係る履歴処理装置による処理の流れを示す図である。 実施例4に係る全体構成を示す図である。 実施例4に係る履歴処理装置による処理の流れを示す図である。 履歴処理プログラムを実行するコンピュータを示す図である。 従来技術の問題点を説明するための図である。
符号の説明
1 通信網
10 ユーザPC
11 履歴取得部
20、20’ 履歴処理装置
21 履歴間類似度算出部
22 分類処理部
23 行動履歴作成部
30 情報提供装置
40 プロキシ
50 アクセス先サーバ
60 端末
61 位置情報取得部
70 コンピュータ(履歴処理装置)
71 通信制御部
72 HDD(Hard Disk Drive)
72a 履歴処理プログラム
72b 履歴処理用データ
73 RAM(Random Access Memory)
73a 履歴処理プロセス
74 CPU(Central Processing Unit)
80 バス

Claims (8)

  1. 時系列で記録されたユーザの行動履歴データに関する処理を行う履歴処理装置であって、
    全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および前記履歴データ間の類似度に関する第一の条件に基づいて、前記各履歴データをいくつかのグループに分類する第一処理手段と、
    前記記録時点および前記類似度に関する第二の条件に基づいて、前記第一処理手段により前記グループに分類されずに残された各履歴データを前記グループのいずれかに組み込むが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の条件を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行する第二処理手段と、
    を備えたことを特徴とする履歴処理装置。
  2. 前記第一処理手段は、前記記録時点が第一の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が第一の閾値を超えているという第一の条件を満足するか否かに基づいて、全行動履歴データに含まれる各履歴データをいくつかのグループに分類し、
    前記第二処理手段は、前記グループに分類されずに残された履歴データについて、前記記録時点が第二の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が前記第一の閾値よりも小さな第二の閾値を超えているという第二の条件を満足する履歴データ数が所定の割合以上を占める前記グループを特定して、特定されたグループへの組み込みを実行するが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の閾値よりも小さな値に当該第二の閾値を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行することを特徴とする請求項1に記載の履歴処理装置。
  3. 前記第一処理手段は、前記記録時点が第一の範囲内にあり、かつ所定の指標に基づいて算出された前記履歴データのテキストデータ間の意味的類似度が第一の閾値を超えているという第一の条件を満足するか否かに基づいて、全行動履歴データに含まれる各履歴データをいくつかのグループに分類し、
    前記第二処理手段は、前記グループに分類されずに残された履歴データについて、前記記録時点が第二の範囲内にあり、かつ所定の指標に基づいて算出された前記意味的類似度が前記第一の閾値よりも小さな第二の閾値を超えているという第二の条件を満足する履歴データ数が所定の割合以上を占める前記グループを特定して、特定されたグループへの組み込みを実行することを特徴とする請求項2に記載の履歴処理装置。
  4. ユーザの移動に伴って記録される位置情報と、当該位置情報に紐付けるための付与情報とを対応付けたデータを前記行動履歴データとして生成する行動履歴データ生成手段をさらに備え、
    前記第一処理手段は、前記位置情報の記録時点が第一の範囲内にあり、かつ前記位置情報および/または前記付与情報を用いて、所定の指標に基づいて算出された行動履歴データ間の類似度が第一の閾値を超えているという第一の条件を満足するか否かに基づいて、前記行動履歴データ生成手段により生成された全行動履歴データに含まれる各履歴データをいくつかのグループに分類し、
    前記第二処理手段は、前記グループに分類されずに残された履歴データについて、前記記録時点が第二の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が前記第一の閾値よりも小さな第二の閾値を超えているという第二の条件を満足する履歴データ数が所定の割合以上を占める前記グループを特定して、特定されたグループへの組み込みを実行することを特徴とする請求項1に記載の履歴処理装置。
  5. 時系列で記録されたユーザの行動履歴データに関する処理を行う履歴処理方法であって、
    全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および前記履歴データ間の類似度に関する第一の条件に基づいて、前記各履歴データをいくつかのグループに分類する第一処理ステップと、
    前記記録時点および前記類似度に関する第二の条件に基づいて、前記第一処理ステップにより前記グループに分類されずに残された各履歴データを前記グループのいずれかに組み込むが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の条件を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行する第二処理ステップと、
    を含んだことを特徴とする履歴処理方法。
  6. 前記第一処理ステップは、前記記録時点が第一の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が第一の閾値を超えているという条件を満足するか否かに基づいて、全行動履歴データに含まれる各履歴データをいくつかのグループに分類し、
    前記第二処理ステップは、前記グループに分類されずに残された履歴データについて、前記記録時点が第二の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が前記第一の閾値よりも小さな第二の閾値を超えているという第二の条件を満足する履歴データ数が所定の割合以上を占める前記グループを特定して、特定されたグループへの組み込みを実行するが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の閾値よりも小さな値に当該第二の閾値を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行することを特徴とする請求項5に記載の履歴処理方法。
  7. 時系列で記録されたユーザの行動履歴データに関する処理をコンピュータに実行させる履歴処理プログラムであって、
    全行動履歴データに含まれる各履歴データを所定のグループに分類するための履歴データの記録時点および前記履歴データ間の類似度に関する第一の条件に基づいて、前記各履歴データをいくつかのグループに分類する第一処理手順と、
    前記記録時点および前記類似度に関する第二の条件に基づいて、前記第一処理手順により前記グループに分類されずに残された各履歴データを前記グループのいずれかに組み込むが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の条件を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行する第二処理手順と、
    をコンピュータに実行させることを特徴とする履歴処理プログラム。
  8. 前記第一処理手順は、前記記録時点が第一の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が第一の閾値を超えているという条件を満足するか否かに基づいて、全行動履歴データに含まれる各履歴データをいくつかのグループに分類し、
    前記第二処理手順は、前記グループに分類されずに残された履歴データについて、前記記録時点が第二の範囲内にあり、かつ所定の指標に基づいて算出された前記類似度が前記第一の閾値よりも小さな第二の閾値を超えているという第二の条件を満足する履歴データ数が所定の割合以上を占める前記グループを特定して、特定されたグループへの組み込みを実行するが、前記グループのいずれかに組み込まれずに残された履歴データが存在する場合には、当該残された履歴データが前記グループのいずれかへ組み込まれるまで、前記第二の閾値よりも小さな値に当該第二の閾値を変更して、前記残された履歴データの前記グループのいずれかへの組み込みを実行することを特徴とする請求項7に記載の履歴処理プログラム。
JP2008236758A 2008-09-16 2008-09-16 履歴処理装置、履歴処理方法および履歴処理プログラム Expired - Fee Related JP5079642B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008236758A JP5079642B2 (ja) 2008-09-16 2008-09-16 履歴処理装置、履歴処理方法および履歴処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008236758A JP5079642B2 (ja) 2008-09-16 2008-09-16 履歴処理装置、履歴処理方法および履歴処理プログラム

Publications (2)

Publication Number Publication Date
JP2010072727A true JP2010072727A (ja) 2010-04-02
JP5079642B2 JP5079642B2 (ja) 2012-11-21

Family

ID=42204481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008236758A Expired - Fee Related JP5079642B2 (ja) 2008-09-16 2008-09-16 履歴処理装置、履歴処理方法および履歴処理プログラム

Country Status (1)

Country Link
JP (1) JP5079642B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093803A (ja) * 2010-10-22 2012-05-17 Nippon Telegr & Teleph Corp <Ntt> 閲覧ログ解析装置及び閲覧ログ解析プログラム
JP2013058176A (ja) * 2011-09-09 2013-03-28 Kddi Corp 通信サービスにおける地理的領域の価値を判定するサーバ装置及びプログラム
WO2013094426A1 (ja) * 2011-12-22 2013-06-27 株式会社日立製作所 行動属性分析方法および装置
JP2014502392A (ja) * 2010-11-25 2014-01-30 サムスン エレクトロニクス カンパニー リミテッド コンテンツ提供方法及びそのシステム
WO2016194909A1 (ja) * 2015-06-02 2016-12-08 日本電信電話株式会社 アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム
US20210110403A1 (en) * 2019-10-15 2021-04-15 Microsoft Technology Licensing, Llc Semantic sweeping of metadata enriched service data

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093803A (ja) * 2010-10-22 2012-05-17 Nippon Telegr & Teleph Corp <Ntt> 閲覧ログ解析装置及び閲覧ログ解析プログラム
JP2014502392A (ja) * 2010-11-25 2014-01-30 サムスン エレクトロニクス カンパニー リミテッド コンテンツ提供方法及びそのシステム
US9465863B2 (en) 2010-11-25 2016-10-11 Samsung Electronics Co., Ltd. Content-providing method and system
KR101802332B1 (ko) 2010-11-25 2017-12-29 삼성전자주식회사 컨텐츠 제공 방법 및 그 시스템
JP2013058176A (ja) * 2011-09-09 2013-03-28 Kddi Corp 通信サービスにおける地理的領域の価値を判定するサーバ装置及びプログラム
WO2013094426A1 (ja) * 2011-12-22 2013-06-27 株式会社日立製作所 行動属性分析方法および装置
JP2013131170A (ja) * 2011-12-22 2013-07-04 Hitachi Ltd 行動属性分析方法および装置
WO2016194909A1 (ja) * 2015-06-02 2016-12-08 日本電信電話株式会社 アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム
JPWO2016194909A1 (ja) * 2015-06-02 2018-04-05 日本電信電話株式会社 アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム
US10462168B2 (en) 2015-06-02 2019-10-29 Nippon Telegraph And Telephone Corporation Access classifying device, access classifying method, and access classifying program
US20210110403A1 (en) * 2019-10-15 2021-04-15 Microsoft Technology Licensing, Llc Semantic sweeping of metadata enriched service data
US11587095B2 (en) * 2019-10-15 2023-02-21 Microsoft Technology Licensing, Llc Semantic sweeping of metadata enriched service data

Also Published As

Publication number Publication date
JP5079642B2 (ja) 2012-11-21

Similar Documents

Publication Publication Date Title
US8051080B2 (en) Contextual ranking of keywords using click data
US7716216B1 (en) Document ranking based on semantic distance between terms in a document
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
US8965894B2 (en) Automated web page classification
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
US9251249B2 (en) Entity summarization and comparison
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN104899322A (zh) 搜索引擎及其实现方法
JP5079642B2 (ja) 履歴処理装置、履歴処理方法および履歴処理プログラム
Li et al. Mining user reviews for mobile app comparisons
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
US10198497B2 (en) Search term clustering
CN110245357B (zh) 主实体识别方法和装置
US8365064B2 (en) Hyperlinking web content
Sabri et al. WEIDJ: Development of a new algorithm for semi-structured web data extraction
Selvadurai A natural language processing based web mining system for social media analysis
Rose et al. Efficient Webpage Retrieval Using WEGA
Ojokoh et al. Online question answering system
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
US8832082B2 (en) Presentation of search results with diagrams
JP2013084216A (ja) 定型文判別装置及び定型文判別方法
Liu et al. User Behaviors in Related Word Retrieval and New Word Detection: A Collaborative Perspective
JP2011086278A (ja) 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
Singh et al. Clustering of blogs with enhanced semantics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100723

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110520

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120829

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5079642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees