JP5384567B2 - 潜在クラス分析装置、潜在クラス分析方法及びプログラム - Google Patents
潜在クラス分析装置、潜在クラス分析方法及びプログラム Download PDFInfo
- Publication number
- JP5384567B2 JP5384567B2 JP2011142977A JP2011142977A JP5384567B2 JP 5384567 B2 JP5384567 B2 JP 5384567B2 JP 2011142977 A JP2011142977 A JP 2011142977A JP 2011142977 A JP2011142977 A JP 2011142977A JP 5384567 B2 JP5384567 B2 JP 5384567B2
- Authority
- JP
- Japan
- Prior art keywords
- address
- probability
- latent class
- access
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、本発明は、各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウント手段と、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成手段と、前記潜在クラス生成手段によって生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出手段と、前記潜在クラス生成手段によって生成された潜在クラスに含まれる生起確率と、前記帰属確率算出手段によって算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出手段と、ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出手段と、前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段とを有し、前記カウント手段は、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、前記潜在クラス生成手段は、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出手段によって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス分析装置を提供する。
また、本発明は、各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得ステップと、前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウントステップと、前記カウントステップにおけるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成ステップと、前記潜在クラス生成ステップにおいて生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出ステップと、前記潜在クラス生成ステップにおいて生成された潜在クラスに含まれる生起確率と、前記帰属確率算出ステップにおいて算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出ステップと、ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶ステップと、前記履歴取得ステップにおいて取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出ステップと、前記第一抽出ステップにおいて抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出ステップと、前記第二抽出ステップにおいて抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出ステップとを有し、前記カウントステップにおいては、前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出ステップにおいて抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、前記潜在クラス生成ステップにおいては、前記カウントステップにおけるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出ステップによって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス分析方法を提供する。
また、本発明は、コンピュータを、各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウント手段と、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成手段と、前記潜在クラス生成手段によって生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出手段と、前記潜在クラス生成手段によって生成された潜在クラスに含まれる生起確率と、前記帰属確率算出手段によって算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出手段と、ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出手段と、前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段として機能させるためのプログラムであって、前記カウント手段は、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、前記潜在クラス生成手段は、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出手段によって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成するプログラムを提供する。
<構成>
図1は、本発明の実施形態に係る通信システム1の構成を示す図である。通信システム1は、移動通信ネットワーク10と、複数のユーザによってそれぞれ利用される移動通信装置20と、移動通信ネットワーク10にゲートウェイ設備を介して接続されたインターネット50と、このゲートウェイ設備に設けられた潜在クラス分析装置30と、インターネット50に接続された複数のウェブサーバ装置40とを備えている。
アドレス集合Vpに属する或るアドレスvpに対するユーザdのアクセス確率をq(vp|d)とすると、潜在クラスzを用いた周辺化を行うことにより、アクセス確率q(vp|d)は、次式で表される。
帰属確率を算出した時点から多くの時間が経過していない場合、ユーザの潜在クラスは変わらないと考えられるため、算出済みの帰属確率をp(z|d)として用いればよい。
一方、p(vp|z)は、潜在クラスzにおけるアドレスvpへのアクセスの生起確率であるため、潜在クラスzの生成時にアドレスvpがURL辞書に含まれていたならば、アドレスvpへのアクセスの生起確率は、生成された潜在クラスzに含まれていることになる。従って、生成された潜在クラスzからアドレスvpの生起確率を抽出し、この生起確率をp(vp|z)として用いればよい。
このように、アクセス確率算出部333は、潜在クラス生成部332bで生成された潜在クラスと、帰属確率算出部332cで算出された帰属確率とに基づいて、アクセス確率を算出する。
具体的には、アドレスv'lに対応するカテゴリの上位概念のカテゴリのうち、生成済みの潜在クラスに生起確率が含まれているアドレスであり、かつ、最も下位のカテゴリに対応するアドレスvlをURL辞書で特定し、潜在クラスzにおけるアドレスvlへのアクセスの生起確率p(vl|z)を抽出する。そうすると、アドレスvlに対応するカテゴリはアドレスv'lに対応するカテゴリの上位概念であることから、p(v'l|z)≒p(vl|z)となる。
このように、アクセス確率算出部333は、アクセス確率の算出対象であるアドレスへのアクセスの生起確率が潜在クラスに含まれていない場合には、URL辞書において当該アドレスに対応するカテゴリの上位概念のカテゴリに対応する上位概念アドレスを特定し、特定された上位概念アドレスへのアクセスの生起確率を潜在クラスから抽出し、抽出された生起確率と、帰属確率算出部332cで算出された帰属確率とを用いてアクセス確率を算出する。
次に図7を参照して、潜在クラス分析装置30の制御部31の動作について詳細に説明する。まず、制御部31は、アクセス履歴からそれぞれのセッションを特定し、特定したセッションに相当するアクセス履歴からURLを抽出して、第一のURL集合を生成する(ステップS101)。セッションを特定する方法の一つは、前述したように、アクセス履歴に含まれている時刻に基づき、前順と後順の各アクセスの時間間隔が閾値を超えたか否かという判断に基づいて決定する方法である。例えば、閾値を30分とした場合には、あるユーザが30分以上の期間にわたってウェブサーバ装置40にアクセスしなかった場合には、セッションが終了したとみなす、といった具合である。
以上が、本実施形態の動作である。
ウェブサーバ装置40にアクセスするときのユーザの意図は、例えばそのウェブサーバ装置40への1つのセッションを始めたときから終えるときまでは有効といえるが、そのセッション中の意図が、それ以外のセッション中においてまで有効であるとは言えない。上記実施形態によれば、ユーザが同一ないし類似の意図をもってアクセスを行っていると想定されるセッション単位で第一のURL集合の抽出を行っているから、潜在クラス分析の精度が向上する。
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
<変形例1>
実施形態において、ウェブページつまり情報にアクセスする通信装置として、移動通信装置20を例示したが、通信装置の種類はこれに限らず、例えば、情報が蓄積されたネットワークに有線で接続された固定型の通信装置、例えばパーソナルコンピュータなどであってもよい。制御部31は、ユーザに割り当てられるユーザIDとして、通信端末に割り当てられる装置IDを用いてもよい。また、情報が蓄積されたネットワークは、インターネット50に限らず、どのようなネットワークでもよい。このとき、ネットワーク上において情報が格納されている位置を示すアドレスの種類は、URLに限らず、ネットワークの種類に応じて変わり得る。また、潜在クラス分析装置30は、単一の装置ではなく、互いに通信可能に接続された複数の装置から構成されていてもよい。
通信装置がアクセスする情報の抽象的な意味を表す意味情報として、カテゴリという用語を用い、URL辞書ではそのカテゴリとURLとが対応付けられて記述されていると説明した。この「カテゴリ」という用語の範疇には、アクセス対象となる情報の抽象的な意味を表し、かつ、お互いの間に上位又は下位の階層関係が規定されているものが全て含まれる。
図7のステップS101において、制御部31は、URLに加えて、URL辞書においてそのURLに対応付けられているカテゴリを抽出し、これを第一のURL集合、第二のURL集合及び第三のURL集合に含めるようにしてもよい。さらに、制御部31は、第三のURL集合に含まれるURLに対する潜在クラス分析処理と同じ処理を、その第三のURL集合に含まれるカテゴリに対しても同様に行うようにしてもよい。これにより、URLだけではなく、カテゴリそのものを単語とみなして、潜在クラス分析を行うことが可能となる。
実施形態において、制御部31は、一つのセッションに含まれるアクセス履歴を判断する根拠として、そのアクセス履歴に含まれる時刻を用いていた。制御部31がアクセス履歴を1または複数のアクセスからなるセッション毎に分類する方法はこれに限らない。要するに、アクセス履歴にはこの分類を行うための分類情報が含まれており、制御部31がこれを用いて分類を行うようにすればよい。この分類情報の一つの例が時刻であるが、これ以外にも、例えば通信装置がアクセスを行ったときの位置や、通信装置の装置IDなどが考えられる。通信装置がアクセスを行ったときの位置を用いる場合、その通信装置の位置を測位する機能をその通信装置やネットワークに設け、潜在クラス分析装置30はその位置をアクセス履歴として取得する。また、通信装置の装置IDを用いる場合、潜在クラス分析装置30は通信装置の装置IDをアクセス履歴として取得する。
ところで、制御部31は、実施形態のようなアクセス履歴をセッション単位で分類しなくてもよい。なぜなら、制御部31は、より上位の意味を持つカテゴリに属するURLを抽出し、これを潜在クラス分析に用いているので、仮にアクセス履歴をセッション単位で分類しなかったとしても、URLの抽象化を行わない場合と比べた場合には潜在クラス分析の精度が向上することを期待できるからである。このように、アクセス履歴をセッション単位で分類しない場合、第一のURL抽出部331aに相当する制御部31は、アクセス履歴から、各URLに対応するユーザID毎にアクセス情報を抽出する処理のみを行う。つまり、第一のURL抽出部331aが発揮する機能として必須なのは、アクセス履歴から各URLに対応するユーザID毎にアクセス情報を抽出することであって、これからさらにアクセス履歴をセッション単位で分類することは付加的な機能である。
URLがユーザによって指定される操作がなされたことを示す操作情報がアクセス履歴に含まれるようにし、制御部31は、図7のステップS101において、操作情報が対応付けられているアドレスのみを抽出して第一のURL集合を生成してもよい。この場合、通信装置が、通信装置に表示されたURLに対しユーザによる操作があったことを示す操作情報を、そのURLを含むウェブサーバ装置宛てのリクエストに付加する。潜在クラス分析装置30はそのリクエストをアクセス履歴として取得する。特にプロキシサーバ装置で蓄積されるようなアクセス履歴においては、ユーザがアクセスしたウェブページにおいてHTML(HyperText Markup Language)のAタグなどのリンクによって対応付けられたインラインオブジェクトの取得クエリであったり、ユーザの意図と関係なくリクエストされる広告ページのクエリであったりといった、多数のURLがアクセス先として含まれている。これらは、ユーザの潜在的な意図によってアクセスされたURLとは言えないので、第一のURL集合に含めるべきではない。上記のような操作情報を用いれば、ユーザの意図が反映されたアクセスのみを潜在クラス分析の対象とすることが可能となる。
潜在クラス分析装置30が用いる潜在クラス分析モデルは、実施形態に例示したLDAに限らず、ネットワーク上へのアドレスへのアクセス回数を入力とし、潜在クラス及び帰属確率を出力とするものであれば、どのようなものでもよい。
本発明は、潜在クラス分析装置やこれを含む通信システムだけでなく、コンピュータが行う潜在クラス分析方法や、コンピュータを潜在クラス分析装置として機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。
また、本発明を、潜在クラス分析モデルに入力する情報を生成するための第3のURL集合を抽出するアドレス抽出装置、アドレス抽出方法及びプログラムの発明として捉えることも可能である。この場合において、本発明の課題は、ネットワーク上の情報にアクセスするユーザの潜在的な意図をより正確に抽出するということである。
Claims (7)
- 各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、
前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウント手段と、
前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成手段と、
前記潜在クラス生成手段によって生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出手段と、
前記潜在クラス生成手段によって生成された潜在クラスに含まれる生起確率と、前記帰属確率算出手段によって算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出手段と、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と
を有し、
前記アクセス確率算出手段は、前記アドレスに対するアクセスの生起確率が前記潜在クラスに含まれない場合に、当該アドレスに対応するカテゴリの上位概念のカテゴリに対応するアドレスである上位概念アドレスを前記辞書によって特定し、当該上位概念アドレスへのアクセスの生起確率を前記潜在クラスから抽出し、当該生起確率と前記帰属確率とに基づいてアクセス確率を算出する
潜在クラス分析装置。 - 前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出手段と、
前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、
前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段と
を有し、
前記カウント手段は、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、
前記潜在クラス生成手段は、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出手段によって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する
請求項1に記載の潜在クラス分析装置。 - 各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、
前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウント手段と、
前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成手段と、
前記潜在クラス生成手段によって生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出手段と、
前記潜在クラス生成手段によって生成された潜在クラスに含まれる生起確率と、前記帰属確率算出手段によって算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出手段と、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、
前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出手段と、
前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、
前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段と
を有し、
前記カウント手段は、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、
前記潜在クラス生成手段は、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出手段によって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する
潜在クラス分析装置。 - 各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得ステップと、
前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウントステップと、
前記カウントステップにおけるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成ステップと、
前記潜在クラス生成ステップにおいて生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出ステップと、
前記潜在クラス生成ステップにおいて生成された潜在クラスに含まれる生起確率と、前記帰属確率算出ステップにおいて算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出ステップと、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶ステップと
を有し、
前記アクセス確率算出ステップにおいては、前記アドレスに対するアクセスの生起確率が前記潜在クラスに含まれない場合に、当該アドレスに対応するカテゴリの上位概念のカテゴリに対応するアドレスである上位概念アドレスを前記辞書によって特定し、当該上位概念アドレスへのアクセスの生起確率を前記潜在クラスから抽出し、当該生起確率と前記帰属確率とに基づいてアクセス確率を算出する
潜在クラス分析方法。 - 各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得ステップと、
前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウントステップと、
前記カウントステップにおけるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成ステップと、
前記潜在クラス生成ステップにおいて生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出ステップと、
前記潜在クラス生成ステップにおいて生成された潜在クラスに含まれる生起確率と、前記帰属確率算出ステップにおいて算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出ステップと、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶ステップと、
前記履歴取得ステップにおいて取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出ステップと、
前記第一抽出ステップにおいて抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出ステップと、
前記第二抽出ステップにおいて抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出ステップと
を有し、
前記カウントステップにおいては、前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出ステップにおいて抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、
前記潜在クラス生成ステップにおいては、前記カウントステップにおけるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出ステップによって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する
潜在クラス分析方法。 - コンピュータを、
各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、
前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウント手段と、
前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成手段と、
前記潜在クラス生成手段によって生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出手段と、
前記潜在クラス生成手段によって生成された潜在クラスに含まれる生起確率と、前記帰属確率算出手段によって算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出手段と、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段
として機能させるためのプログラムであって、
前記アクセス確率算出手段は、前記アドレスに対するアクセスの生起確率が前記潜在クラスに含まれない場合に、当該アドレスに対応するカテゴリの上位概念のカテゴリに対応するアドレスである上位概念アドレスを前記辞書によって特定し、当該上位概念アドレスへのアクセスの生起確率を前記潜在クラスから抽出し、当該生起確率と前記帰属確率とに基づいてアクセス確率を算出する
プログラム。 - コンピュータを、
各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、
前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記アドレスにアクセスした回数を当該アドレス毎にカウントするカウント手段と、
前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記アドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する潜在クラス生成手段と、
前記潜在クラス生成手段によって生成された潜在クラスに対する前記ユーザの帰属確率を算出する帰属確率算出手段と、
前記潜在クラス生成手段によって生成された潜在クラスに含まれる生起確率と、前記帰属確率算出手段によって算出された帰属確率とに基づいて、前記ユーザが前記アドレスに対してアクセスする確率を表すアクセス確率を算出するアクセス確率算出手段と、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、
前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報毎に抽出する第一抽出手段と、
前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、
前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段
として機能させるためのプログラムであって、
前記カウント手段は、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレス毎にカウントし、
前記潜在クラス生成手段は、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、前記第三抽出手段によって抽出されたアドレスに対するアクセスの生起確率の分布を表す潜在クラスを生成する
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011142977A JP5384567B2 (ja) | 2011-06-28 | 2011-06-28 | 潜在クラス分析装置、潜在クラス分析方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011142977A JP5384567B2 (ja) | 2011-06-28 | 2011-06-28 | 潜在クラス分析装置、潜在クラス分析方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013011952A JP2013011952A (ja) | 2013-01-17 |
JP5384567B2 true JP5384567B2 (ja) | 2014-01-08 |
Family
ID=47685801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011142977A Expired - Fee Related JP5384567B2 (ja) | 2011-06-28 | 2011-06-28 | 潜在クラス分析装置、潜在クラス分析方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5384567B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5944878B2 (ja) * | 2013-10-18 | 2016-07-05 | ヤフー株式会社 | 判定装置、判定方法及び判定プログラム |
JP5985543B2 (ja) * | 2014-07-07 | 2016-09-06 | ヤフー株式会社 | 情報集計装置、情報集計方法及び情報集計プログラム |
JP6171061B2 (ja) * | 2016-08-02 | 2017-07-26 | ヤフー株式会社 | 情報集計装置、情報集計方法及び情報集計プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4822317B2 (ja) * | 2005-10-03 | 2011-11-24 | Kddi株式会社 | レコメンド方法およびシステムならびにレコメンドプログラムおよびその記憶媒体 |
JP2010102385A (ja) * | 2008-10-21 | 2010-05-06 | Kddi Corp | ユーザ分類装置、広告配信装置、ユーザ分類方法、広告配信方法、およびプログラム |
-
2011
- 2011-06-28 JP JP2011142977A patent/JP5384567B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013011952A (ja) | 2013-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Adamic et al. | Friends and neighbors on the web | |
JP2021108183A (ja) | 意図推薦方法、装置、機器及び記憶媒体 | |
US8626768B2 (en) | Automated discovery aggregation and organization of subject area discussions | |
Jiang et al. | Mining search and browse logs for web search: A survey | |
US9607081B2 (en) | Ontology based categorization of users | |
Adnan et al. | Promoting where, when and what? An analysis of web logs by integrating data mining and social network techniques to guide ecommerce business promotions | |
JP5100855B2 (ja) | 潜在クラス分析装置、潜在クラス分析方法及びプログラム | |
KR102216755B1 (ko) | 콘텐츠 및 제품을 연동시키는 태그 분석 서비스 제공 방법 | |
Kumar | World towards advance web mining: A review | |
Dohare et al. | Novel web usage mining for web mining techniques | |
Wu et al. | Recommendation system design for college network education based on deep learning and fuzzy uncertainty | |
JP5384567B2 (ja) | 潜在クラス分析装置、潜在クラス分析方法及びプログラム | |
Antoniou et al. | A Semantic Web Personalizing Technique: The Case of Bursts in Web Visits | |
Farina et al. | Interest identification from browser tab titles: A systematic literature review | |
Kumar et al. | A survey on pattern discovery of web usage mining | |
Wei et al. | Algorithm of mining sequential patterns for web personalization services | |
Peska et al. | Recommending for disloyal customers with low consumption rate | |
Mfenyana et al. | Development of a Facebook crawler for opinion trend monitoring and analysis purposes: case study of government service delivery in Dwesa | |
Jain et al. | A survey paper on techniques and applications of web usage mining | |
Zubi et al. | Using web logs dataset via web mining for user behavior understanding | |
JP5634859B2 (ja) | サイトクラスタシステムおよびサイトクラスタ方法 | |
Maheswari et al. | Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining | |
Jiang et al. | A personalized search engine model based on RSS User's interest | |
Chen et al. | The best answers? Think twice: identifying commercial campagins in the CQA forums | |
KR102381132B1 (ko) | 세션 정보 저장 및 렌더링을 이용한 세션 리플레이 서비스 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5384567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |