JP2021140648A

JP2021140648A - 情報処理システムおよび情報処理方法

Info

Publication number: JP2021140648A
Application number: JP2020039860A
Authority: JP
Inventors: 央岩瀬; Hiroshi Iwase
Original assignee: Thinkerinc
Current assignee: Thinkerinc
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2021-09-16
Anticipated expiration: 2040-03-09
Also published as: JP6751960B1

Abstract

【課題】ユーザの行動の類似性に関する指標値の導出に関し、指標値の精度が低下することを防止しつつ、導出に利用するユーザの行動に関する情報の情報量が多大になることを抑制する。【解決手段】情報処理サーバ１は、アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換する変換部１１と、一のユーザの行動について変換部により変換された行動文字列と、他のユーザの行動について変換部により変換された行動文字列との編集距離を導出する導出部１２とを備え、ユーザにより行われたアクションのそれぞれが何であったか、および、各アクションが行われた時系列的な順番について、情報の一部が欠落していない情報であって文字列からなる情報を用いて、類似性に関する指標値たる編集距離を導出する。【選択図】図１

Description

本発明は、情報処理システムおよび情報処理システムによる情報処理方法に関し、特に、ユーザの行動を示す情報を対象として処理を実行する情報処理システムおよび情報処理方法に用いて好適なものである。

従来、ユーザがあるサイトでウェブページを閲覧したときの行動（閲覧行動と呼ばれる、閲覧したウェブページがどのような態様で移り変わっていったかというもの）や、ある店舗においてユーザがとった行動等のユーザの行動を分析するシステムが知られている。例えば、特許文献１には、アクセスログに基づいてユーザの閲覧行動を記録し、閲覧行動を分析して、各種予測を実行するシステムが記載されている。

特開２００６−３２３６２９号公報

複数のユーザの行動を分析する際には、異なるユーザの行動について類似性に関する指標値を導出することが非常に有効である。分析にあたって、異なる２つの行動の類似性の判定が可能となり、これにより、類似する行動をグループ化して分析したり、複数の行動を類型化して分析したりすることが可能となるからである。そして、異なるユーザの行動の類似性に関する指標値の導出は、それぞれのユーザの行動に関する情報を用いて行われることになるが、指標値の導出に際して用いるユーザの行動に関する情報の情報量が多大になることを抑制し、かつ、情報量が多大になることを抑制したことに起因して指標値の精度が低下するといった事態が発生しないようにしたいとするニーズがある。ユーザの行動に関する情報の情報量が多大になると処理負荷が増大し、オーバーフロー等の悪影響が発生する可能性があるからである。また、情報の一部を削減することによって情報量を少なくすることは可能であるが、この場合には当然、指標値の精度が下がってしまい、このような事態は本末転倒だからである。

本発明は、このような問題を解決するために成されたものであり、ユーザの行動の類似性に関する指標値の導出に関し、指標値の精度が低下することを防止しつつ、導出に利用するユーザの行動に関する情報の情報量が多大になることを抑制することを目的とする。

上記した課題を解決するために、本発明では、アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換する。そして、一のユーザの行動についての行動文字列と、他のユーザの行動についての行動文字列との編集距離を導出するようにしている。

上記のように構成した本発明において、変換後の行動文字列が、ユーザの行動の類似性に関する指標値たる編集距離の導出に用いるユーザの行動に関する情報に相当する。この行動文字列は、ユーザにより行われたアクションのそれぞれが何であったか、および、各アクションが行われた時系列的な順番について、情報の一部を欠落させることなくユーザの行動を表現した情報と言える。そして本発明では、このような行動文字列を用いて、ユーザの行動の類似性に関する指標値（編集距離）を導出する構成のため、情報の一部の欠落に起因した指標値（編集距離）の精度の低下を防止できる。更に、行動文字列は、ユーザが行ったアクションを表す文字が並んで構成された情報であり、アクション１つ１つを表す情報が非常に小さく、かつ、ユーザが行っていないアクションに関連する情報が含まれていないため、情報量が少ない。つまり、本発明によれば、ユーザの行動に関する情報の情報量が多大になることを抑制できる。

本発明の一実施形態に係る情報処理サーバの機能構成例、および、情報処理サーバを含む制御システムの構成例を示す図である。記憶部に記憶された各種データの内容を示す図である。ネットワークの一例を示す図である。横軸が注文無閲覧割合であり、縦軸が注文有閲覧割合の２次元空間にウェブページをプロットした図である。行動モデリング部の動作の説明に利用する図である。情報提供ページの一例を示す図である。本発明の一実施形態に係る情報処理サーバの動作例を示すフローチャートである。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態に係る情報処理サーバ１および関連する複数の装置からなる制御システム２のシステム構成を、情報処理サーバ１の機能構成例を示すブロック図と共に示す図である。情報処理サーバ１は、特許請求の範囲の「情報処理システム」に相当する。図１で示すように、制御システム２は、情報処理サーバ１と、ウェブサーバ３と、端末４とを含んで構成され、これら装置がネットワークＮを介して接続されている。

ウェブサーバ３は、ウェブサイト開設者によりウェブサイトが開設されたサーバである。以下、ウェブサーバ３に開設されたウェブサイトを特に「専用ウェブサイト」という。本実施形態では、説明の便宜のため、ウェブサイト開設者は、商品Ｉを業として販売する企業であり、専用ウェブサイトは、その商品Ｉが宣伝されると共に、その商品Ｉをオンライン上で注文できるサイトであるものとする。つまり、専用ウェブサイトは、ユーザが商品Ｉを注文するという反応を行うことを誘導するサイトである。専用ウェブサイトは、複数のウェブページを含んで構成されている。本実施形態では、専用ウェブサイトは、ページＨ１〜Ｈ７の７個のウェブページを少なくとも含んで構成されているものとする。なお、本実施形態では、説明の便宜のため、１つのウェブサイト（専用ウェブサイト）を対象として情報処理サーバ１が実行する処理を説明するが、実際には、情報処理サーバ１は、複数のウェブサイトを対象として、以下で説明する処理を実行する。

端末４は、ウェブブラウザが搭載されたコンピュータである。端末４は、ウェブブラウザが搭載されたコンピュータであれば、その形態は何でもよい。端末４は、例えば、スマートフォン、タブレット型コンピュータ、ノートＰＣ、デスクトップＰＣである。図１では、無数に存在する端末４の１つを例示的に示している。以下の説明では、端末４により専用ウェブサイトを閲覧する者を「ユーザ」という。

図１で示すように、情報処理サーバ１は、機能構成として、通信部１０、変換部１１、導出部１２、クラスタ形成部１３、行動モデリング部１４および情報提供部１５を備えている。上記各機能ブロック１０〜１５は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１０〜１５は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また、情報処理サーバ１は、記憶手段として、記憶部１７を備えている。記憶部１７に記憶されたデータの内容については後述する。なお、図１では、情報処理サーバ１を１つのブロックにより表しているが、これは情報処理サーバ１が単一のサーバ装置により構成されることを意味するものではない。情報処理サーバ１は、複数の装置により構成されてもよく、所定のシステムの一部であってもよい。

通信部１０は、所定の通信規格に従って、ネットワークＮと接続する装置と通信する。

情報処理サーバ１は、記憶部１７に記憶されたデータに基づいてユーザによる専用ウェブサイトの閲覧行動を分析し、更に、分析結果に基づいて閲覧行動に関する有益な情報をウェブサイト開設者に提供する。以下、閲覧行動の分析から、情報の提供に至るまでの情報処理サーバ１の動作について詳述する。

情報処理サーバ１の動作の説明に先立って、まず、閲覧履歴データ２０および一連閲覧行動データ２１の内容について説明する。図２（Ａ）は、閲覧履歴データ２０の内容の一例を示す図である。閲覧履歴データ２０は、１つ以上のレコードを有する関係データベース型のデータであり、図２（Ａ）で示すように、各レコードは、行動ＩＤが格納される行動ＩＤフィールドと、ページＩＤが格納されるページＩＤフィールドと、閲覧順番を示す閲覧順番情報が格納される閲覧順番フィールドと、閲覧時間を示す閲覧時間情報が格納される閲覧時間フィールドとを有している。

行動ＩＤとは、一連閲覧行動に対して一意に付与されるＩＤである。一連閲覧行動とは、ユーザが、専用ウェブサイト内の何れかのウェブページの閲覧を開始してから、専用ウェブサイト内でウェブページを遷移させ（ただし、ウェブページの遷移が１度も行われなくてもよい）、専用ウェブサイト内のウェブページの閲覧を終了するまでの一連の閲覧行動であり、各ウェブページが閲覧された順番と、各ウェブページが閲覧された閲覧時間により把握される。専用ウェブサイト内のウェブページの閲覧が終了するとは、例えば、専用ウェブサイト以外のウェブサイトのウェブページに遷移したり、ウェブブラウザが閉じられて専用ウェブサイトのウェブページの表示が終了したりすることを意味する。

本実施形態では、一連閲覧行動において、ある１つのページの閲覧を開始してから、その１つのページの閲覧を終了するまでの連続した行動を「単体閲覧行動」と定義する。一連閲覧行動は１つ以上の単体閲覧行動により構成される。また、一連閲覧行動の中に、同じウェブページの閲覧に係る単体閲覧行動が複数、含まれる場合もある。例えば、あるユーザが、ページＨ１→ページＨ２→ページＨ１とウェブページを遷移させた場合、１つ目のページＨ１の閲覧、２つ目のページＨ２の閲覧、３つ目のページＨ１の閲覧がそれぞれ「単体閲覧行動」に相当し、３つの単体閲覧行動により一連閲覧行動が構成されることになる。

ページＩＤとは、専用ウェブサイトのウェブページのそれぞれに付与された識別情報であり、本実施形態では、ページＨ１〜Ｈ７にそれぞれ、ｈ１〜ｈ７のページＩＤが付与されている。閲覧順番とは、一連閲覧行動において、対応する単体閲覧行動の順番（何番目か）を意味する。閲覧時間とは、対応する単体閲覧行動において、対応するウェブページが閲覧された時間の長さを意味する。

閲覧履歴データ２０において、行動ＩＤの値が共通する一群のレコードは、ユーザによる一連閲覧行動を示している。また、レコードの１つ１つは、単体閲覧行動を示している。例えば、図２（Ａ）で例示する閲覧履歴データ２０の上から５つのレコードに注目し、これら５つのレコードは、行動ＩＤの値が共通しているため、一連閲覧行動を示していることが分かる。そして、各レコードのページＩＤフィールドの値および閲覧順番フィールドの値により、ページＨ１→ページＨ２→ページＨ１→ページＨ２→ページＨ３の順番でウェブページが遷移したことが分かり、更に、各レコードの閲覧時間フィールドの値により、ユーザがページＨ１、Ｈ２、Ｈ１、Ｈ２、Ｈ３がこの順番で、２０、３０、４０、５０、６０分ずつ閲覧されたことが分かる。

図２（Ｂ）は、一連閲覧行動データ２１の内容の一例を示す図である。一連閲覧行動データ２１は、１つ以上のレコードを有する関係データベース型のデータであり、図２（Ｂ）で示すように、各レコードは、行動ＩＤが格納される行動ＩＤフィールドと、注文有無情報が格納される注文有無フィールドと、行動文字列（後述）が格納される行動文字列フィールドと、クラスタＩＤ（後述）が格納されるクラスタＩＤフィールドとを有している。注文有無情報は、対応する一連閲覧行動において、商品Ｉの注文が行われたか否かを示す情報である。例えば、図２（Ｂ）の１件目のレコードは、行動ＩＤ：Ａ１の一連閲覧行動において、商品Ｉの注文が行われたことを示している。変換部１１による変換処理が行われる前は、各レコードの行動文字列フィールドの値、および、クラスタＩＤフィールドの値はヌル値とされる。

閲覧履歴データ２０および一連閲覧行動データのレコードの生成は、情報処理サーバ１により適宜、行われる。情報処理サーバ１がこれらデータにレコードを生成する方法はどのような方法であってもよい。一例として、ウェブサーバ３が、端末４のウェブブラウザからのＨＴＴＰリクエストに応じて応答するＨＴＭＬファイルにスクリプト（いわゆるタグ）が組み込まれる。そして、このスクリプトの機能により、ウェブブラウザから情報処理サーバ１に対して、閲覧履歴データ２０および一連閲覧行動データ２１のレコードの生成に必要な情報が適宜、送信され、情報処理サーバ１は、ウェブブラウザから受信する情報に基づいてこれらデータにレコードを生成する。また、本実施形態では、閲覧履歴データ２０および一連閲覧行動データ２１のレコードの生成を情報処理サーバ１が行う構成としているが、これを情報処理サーバ１以外のサーバが行うようにし、情報処理サーバ１がこのサーバからデータの提供を受ける構成としてもよい。

変換部１１は、閲覧履歴データ２０について、行動ＩＤの値が共通するレコード群（以下「一連レコード群」という）毎に、変換処理を実行して行動文字列を生成し、一連閲覧行動データ２１に登録する。以下、処理の対象となる一連レコード群を処理対象レコード群といい、処理対象レコード群を対象として変換部１１により実行される変換処理について説明する。なお、図２（Ａ）の例では、レコードＲＡ１〜ＲＡ５の５つのレコードからなるレコード群Ｇ１は、一連レコード群の１つである。

ここで、専用ウェブサイトに含まれるウェブページのそれぞれには、事前にアルファベット一文字が割り当てられている。なお、各ウェブページに割り当てられたアルファペット一文字の値は相互に異なっており、異なるウェブページに共通する値のアルファベットが割り当てられることはない。本実施形態では、ページＨ１、Ｈ２、Ｈ３、Ｈ４、Ｈ５、Ｈ６、Ｈ７にはそれぞれ、文字「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」が割り当てられている。

変換処理において、変換部１１は、処理対象レコード群が示す一連閲覧行動について、各単体閲覧行動において閲覧されたウェブページに割り当てられた文字が、閲覧順番に従って並んだ行動文字列を生成する。その際、変換部１１は、単体閲覧行動の閲覧時間が長ければ長いほど、連続回数が多くなるように、その単体閲覧行動において閲覧されたウェブページに割り当てられた文字を連続させる。本実施形態では、閲覧時間が「０分」を上回り「１０分」以下の場合、連続回数は「１回」、「１０分」を上回り「２０分」以下の場合、連続回数は「２回」、「２０分」を上回り「３０分」以下の場合、連続回数は「３回」・・・というように、「１０（ｋ−１）＜閲覧時間≦１０ｋ」のときの連続回数は「ｋ回」とされる。

以下、変換処理について、適宜、処理対象レコード群が図２（Ａ）のレコード群Ｇ１であるものとしてより詳細に説明する。まず、変換部１１は、処理対象レコード群が示す各単体閲覧行動について、変換する文字と、繰り返し回数とを特定する。例えば、図２（Ａ）を参照し、レコードＲＡ１が示す単体閲覧行動のページＩＤは「ｈ１」であるため、変換部１１は、変換する文字を「Ａ」とし、更に、閲覧時間は「２０分」であるため、連続回数を「２回」とする。同様にして、変換部１１は、レコードＲＡ２が示す２つ目の単体閲覧行動について、変換する文字を「Ｂ」とし連続回数を「３回」とし、また、レコードＲＡ３が示す３つ目の単体閲覧行動について、変換する文字を「Ａ」とし連続回数を「４回」とし、また、レコードＲＡ４が示す４つ目の単体閲覧行動について、変換する文字を「Ｂ」とし連続回数を「５回」とし、また、レコードＲＡ５が示す５つ目の単体閲覧行動について、変換する文字を「Ｃ」とし連続回数を「６回」とする。

次いで、変換部１１は、単体閲覧行動のそれぞれについて、変換すると決定した文字を、決定した連続回数だけ連続した文字列（一文字の場合もある）を、閲覧順番で並べた文字列を生成する。このようにして生成された文字列が「行動文字列」である。レコード群Ｇ１についての行動文字列は、「ＡＡＢＢＢＡＡＡＡＢＢＢＢＢＣＣＣＣＣＣ」となる。

行動文字列は、単体閲覧行動において閲覧されたウェブページが何であったか（＝ユーザにより行われたアクションのそれぞれが何であったか）、および、各単体閲覧行動が行われた時系列的な順番について、情報の一部を欠落させることなくユーザの行動を表現した情報と言える。特に、本実施形態に係る行動文字列は、単体閲覧行動のそれぞれについての閲覧時間が反映された情報ということができる。なお、行動文字列の具体的な生成方法は例示した方法に限られないことは勿論である。

変換部１１は、閲覧履歴データ２０に含まれる一連レコード群（行動ＩＤの値が共通する一群のレコード）のそれぞれについて変換処理を行って、行動文字列を生成する。次いで、変換部１１は、一連閲覧行動データ２１の各レコードの行動文字列フィールドに、対応する行動文字列のそれぞれを格納する。

導出部１２は、変換部１１による行動文字列の生成、一覧閲覧行動データ２１への登録が完了した後、以下の処理を実行する。すなわち、導出部１２は、一連閲覧行動データ２１の２つのレコードの組み合わせの全てについて、組み合わせ毎に行動文字列と行動文字列との編集距離を導出する第１導出処理を実行する。従って、仮に一連閲覧行動データ２１にレコードＲＸ１〜ＲＸ４の４つレコードがあったとしたら、変換部１１は、第１導出処理において、ＲＸ１およびＲＸ２、ＲＸ１およびＲＸ３、ＲＸ１およびＲＸ４、ＲＸ２およびＲＸ３、ＲＸ２およびＲＸ４、ＲＸ３およびＲＸ４の６通りの組み合わせのそれぞれについて、行動文字列と行動文字列との編集距離を導出する。

本実施形態では、導出部１２は、一の行動文字列と他の行動文字列との編集距離として、標準化されたレーベンシュタイン距離を導出する。周知の通り、一の文字列と他の文字列とのレーベンシュタイン距離は、一の文字列に対して編集処理（挿入／削除／置換）を行って他の文字列へ変換するときの最小編集距離のことである。レーベンシュタイン距離の導出および標準化は、編集処理のコストが適切に定められた上で、既存のアルゴリズムによって実行される。以上のようにして編集距離が導出されるため、一の行動文字列と他の行動文字列とについて導出された編集距離が短いほど、これら行動文字列の類似性が高く、編集距離が長いほど、これら行動文字列の類似性が低い。

２つのレコードの組み合わせの全てについて、組み合わせ毎に編集距離を導出した後、導出部１２は、編集距離のそれぞれが、行動ＩＤの組み合わせと対応付けて記録された編集距離データ２２を生成し、記憶部１７に記憶する。図２（Ｃ）は、編集距離データ２２の内容の一例を示す図である。編集距離データ２２は、１つ以上のレコードを有する関係データベース型のデータであり、図２（Ｃ）で示すように、各レコードは、２つの行動ＩＤの組み合わせのうち一方の行動ＩＤが格納される第１行動ＩＤフィールドと、他方の行動ＩＤが格納される第２行動ＩＤフィールドと、編集距離が格納される編集距離フィールドとを備えている。図２（Ｃ）で例示する編集距離データ２２の１件目のレコードは、行動ＩＤ：Ａ１に対応する行動文字列と、行動ＩＤ：Ａ２に対応する行動文字列との編集距離が「０．５」であることを示している。

クラスタ形成部１３は、導出部１２により編集距離データ２２が生成された後、編集距離データ２２に基づいて、一連閲覧行動のそれぞれをグループ分けし、複数のクラスタを形成する第１クラスタ形成処理を実行する。詳述すると、まず、クラスタ形成部１３は、編集距離データ２２に基づいて、一連閲覧行動のそれぞれがノードとして存在し、かつ、編集距離が閾値Ｔ１以下のノード同士がリンクで接続されたネットワークを導出する。図３は、ネットワークの一例を説明に適した態様で模式的に示す図である。図３において、白丸はノードを示し、白丸内の情報は行動ＩＤを示している。図３で例示するネットワークでは、行動ＩＤ：Ａ１のノードと、行動ＩＤ：Ａ２のノードとはリンクで接続されているが（従って、行動ＩＤ：Ａ１の行動文字列と行動ＩＤ：Ａ２の行動文字列との編集距離は、閾値Ｔ１以下である）、行動ＩＤ：Ａ１のノードと行動ＩＤ：Ａ５のノードとはリンクで接続されていない（従って、行動ＩＤ：Ａ１の行動文字列と行動ＩＤ：Ａ５の行動文字列との編集距離は、閾値Ｔ１を上回っている）。

次いで、クラスタ形成部１３は、モジュラリティが最大化するようにノード（＝一連閲覧行動）をグループ分けし、１つ以上のクラスタを形成する。周知の通り、モジュラリティは、「ネットワークにおけるリンクの総数に対するクラスタ内の割合の和」から「ノードから出る辺の個数は変えずにランダムに点を繋ぎ変えた際に、同じクラスタにノードが繋がる期待値」を引いた値として定義されるものである。モジュラリティが最大化するようにノードをグループ分けすることにより、ある１つのクラスタ内に属するノード（一連閲覧行動）同士は編集距離が短い（＝類似性が高い）一方、あるクラスタに属するノード（一連閲覧行動）とそのクラスタ以外のクラスタに属するノード（一連閲覧行動）との編集距離が長い（＝類似性が低い）状態となるように複数のクラスタが形成される。

クラスタを形成した後、クラスタ形成部１３は、ルールに従ってクラスタのそれぞれに一意な値のクラスタＩＤを付与する。そして、クラスタ形成部１３は、一連閲覧行動データ２１の各レコードのクラスタＩＤフィールドに、対応するクラスタＩＤを格納する。なお、本実施形態では、クラスタ形成部１３は、モジュラリティの導出の前提となるネットワークについて、リンクの向きや、リンクの重みがないネットワークを導出したが、当然、向きや重みが考慮されたネットワークを導出する構成でもよい。また、クラスタに分割する方法は、モジュラリティを用いた手法に限られず、ある１つのクラスタ内に属する一連閲覧行動同士は編集距離が短い（＝類似性が高い）一方、あるクラスタに属する一連閲覧行動とそのクラスタ以外のクラスタに属する一連閲覧行動との編集距離が長い（＝類似性が低い）状態となるように、クラスタが形成されればよい。

変換部１１は、クラスタ形成部１３により複数のクラスタが形成された後、クラスタのそれぞれを対象として、以下の処理を実行する。以下、クラスタ形成部１３が処理の対象とするクラスタを「処理対象クラスタ」と表現し、変換部１１の処理について詳述する。

変換部１１は、一連閲覧行動データ２１に基づいて、処理対象クラスタに属する一連閲覧行動を分析し、ウェブページ毎に、「商品Ｉの注文が行われた一連閲覧行動（以下「注文有行動」という）の個数」に占める「ウェブページの閲覧が行われた一連閲覧行動の個数」の割合（以下「注文有閲覧割合」という）、および、「商品Ｉの注文が行われてない一連閲覧行動（以下「注文無行動」という）の個数」に占める「ウェブページの閲覧が行われた一連閲覧行動の個数」の割合（以下「注文無閲覧割合」という）を導出する。なお、ある一連閲覧行動において、あるウェブページが閲覧されたかどうかは、そのウェブページに割り当てられた文字が、その一連閲覧行動を示す文字列に含まれているか否かによって判定できる。

例えば、処理対象クラスタについて、処理対象クラスタに属する一連閲覧行動の個数が「１５０個」であり、そのうち商品Ｉの注文が行われた一連閲覧行動の個数が「１００個」であり、商品Ｉの注文が行われていない一連閲覧行動の個数が「５０個」であったとする。この場合において、商品Ｉの注文が行われた一連閲覧行動のうち、ウェブページＨ１の閲覧が行われている一連閲覧行動が「８０個」であったとすると、変換部１１は、ウェブページＨ１についての注文有閲覧割合として、「８０％」（＝８０／１００）を導出する。また、商品Ｉの注文が行われていない一連閲覧行動のうち、ウェブページＨ１の閲覧が行われている一連閲覧行動が「５個」であったとすると、変換部１１は、ウェブページＨ１についての注文無閲覧割合として、「１０％」（＝５／５０）を導出する。つまり、ウェブページＨ１についての注文有閲覧割合は、商品Ｉの注文が行われた行動の個数に対する、ウェブページＨ１の閲覧が行われた行動の個数の割合を意味する。また、ウェブページＨ１についての注文無閲覧割合は、商品Ｉの注文が行われていない行動の個数に対する、ウェブページＨ１閲覧が行われた行動の個数の割合を意味する。

図４は、横軸が注文無閲覧割合であり、縦軸が注文有閲覧割合の２次元空間に、ウェブページのそれぞれをプロットした様子の一例を示す図である。図４において、例えば、符号ｈ１の点で示すウェブページＨ１は、注文無閲覧割合および注文有閲覧割合が共に「９０％」程度であることを示し、符号Ｈ２の点で示すウェブページＨ２は、注文無閲覧割合が「６０％」程度であり、注文有閲覧割合が「２０％」程度であることを示している。

図４において、原点を通る傾き「１」の直線Ｓ１上、または、直線Ｓ１の近傍にプロットされるウェブページは、注文無閲覧割合の値と注文有閲覧割合の値とが等しいか非常に近いウェブページである。以下、このようなウェブページを「拮抗ページ」という。この拮抗ページについては、以下のことが言える。すなわち、拮抗ページは、商品Ｉの注文に至った一連閲覧行動において閲覧された割合と、商品Ｉの注文に至っていない一連閲覧行動において閲覧された割合とがほぼ同じ（或いは同じ）であり、「商品Ｉを注文する」という行動（反応）をユーザが行うにあたって、閲覧されること或いは閲覧されないことが、それほど影響を与えない（少なくとも、影響を判定できない）ページであると言える。

また、図４において、直線Ｓ１の下側であって、直線Ｓ１から離間した領域ＡＲ１にプロットされたウェブページは、注文無閲覧割合の値が、注文有閲覧割合の値に比して相当に大きいウェブページである。以下、このようなウェブページを「非注文傾向ページ」という。この非注文傾向ページについては、以下のことが言える。すなわち、非注文傾向ページは、商品Ｉの注文に至った一連閲覧行動において閲覧された割合に比して、商品Ｉの注文に至っていない一連閲覧行動において閲覧された割合が相当に大きく、「商品Ｉを注文する」という行動（反応）に「閲覧されないこと」が良い影響を与えていること、および、「商品Ｉを注文する」という行動に「閲覧されること」が悪い影響を与えていることが推定できるページであると言える。

また、図４において、直線Ｓ２の上側であって、直線Ｓ１から離間した領域ＡＲ２にプロットされたウェブページは、注文有閲覧割合の値が、注文無閲覧割合の値に比して相当に大きいウェブページである。以下、このようなウェブページを「注文傾向ページ」という。この注文傾向ページについては、以下のことが言える。すなわち、注文傾向ページは、商品Ｉの注文に至っていない一連閲覧行動において閲覧された割合に比して、商品Ｉの注文に至った一連閲覧行動において閲覧された割合が相当に大きく、「商品Ｉを注文する」という行動（反応）に「閲覧されること」が良い影響を与えていること、および、「商品Ｉを注文する」という行動に「閲覧されないこと」が悪い影響を与えていることが推定できるページであると言える。

以上のことから、非注文傾向ページおよび注文傾向ページは、商品Ｉを注文するという反応に対して影響を与えていることが推定され、その影響は、注文有閲覧割合と注文無閲覧割合との差が大きいほど、換言すれば、図４の２次元空間において、プロットされた点が直線Ｓ１から離れているほど大きいということが言える。これを踏まえ、変換部１１は、処理対象クラスタに属する一連閲覧行動を対象として、ウェブページのそれぞれについての注文有閲覧割合および注文無閲覧割合を導出した後、図４の２次元空間上に各ウェブページをプロットし、各ウェブページと直線Ｓ１との距離（ウェブページを示す点から直線Ｓ１に下した垂線の距離。以下、「離間距離」という）を導出する。そして、変換部１１は、ウェブページ毎に離間距離に応じて付加回数を導出する（付加回数の利用態様については後述）。本実施形態では、複数の閾値が予め定められており、変換部１１は、離間距離が、最も小さい閾値以下の場合は、付加回数を「０回」とし、以後、閾値を超えるたびに付加回数を１つずつ増加させる。この結果、図４のグラフにおいて直線Ｓ１の近辺にプロットされるウェブページの付加回数は「０回」となり、直線Ｓ１から離れれば離れるほど、付加回数が多くなる。

ここで、本実施形態では、クラスタ毎に、各ウェブページの注文有閲覧割合および注文無閲覧割合に基づいて離間距離を導出し、ウェブページ毎の付加回数を導出している（従って、ある共通するウェブページについて、一のクラスタと他のクラスタとで付加回数が異なる場合もある）。これは、以下の理由による。すなわち、ある１つのクラスタに属する一連閲覧行動のそれぞれは、基本的には相互に類似性が高い。上述したように、各クラスタは、モジュラリティが最も高まるように形成されているからである。とすると、注文傾向ページおよび非注文傾向ページは、近似する行動群の中で、商品Ｉの注文がなされた行動と商品Ｉの注文がなされなかった行動とで、閲覧したか否かが決定的に異なっているウェブページであり、商品Ｉの注文という反応に影響を与えていることを強く推定できる。このような強い推定は、行動の近似という点で無秩序な行動群を分析対象とした場合には、得ることができない。これを踏まえると、クラスタ毎に離間距離を導出することによって、「商品Ｉの注文」という行動に対する影響が大きいという点について妥当性、適格性が高い離間距離を導出することができ、離間距離に基づいて導出される付加回数についても妥当性、適格性を高めることができる。

ウェブページのそれぞれについて付加回数を導出した後、変換部１１は、一連閲覧行動データ２１にアクセスし、処理対象クラスタに属する一連閲覧行動に対応するレコードのそれぞれの行動文字列に対して補正処理を施し、値を更新する。以下、補正処理を施す対象の行動文字列を「処理対象行動文字列」と表現し、処理対象行動文字列に対して施される補正処理について詳述する。

補正処理において、変換部１１は、処理対象行動文字列のうち、単体閲覧行動を示す文字群（１つの文字の場合もある）のそれぞれについて、文字群を構成する文字が示すウェブページ（＝単体閲覧行動において閲覧されたウェブページ）について導出した付加回数分、同じ文字が連続させる。例えば、補正処理を施す前の行動文字列が「ＡＡＢＢＢＡＡＡＡＢＢＢＢＢＣＣＣＣＣＣ」であったとする。最初の２文字「ＡＡ」、次の３文字「ＢＢＢ」、次の４文字「ＡＡＡＡ」、次の５文字「ＢＢＢＢＢＢ」、次の６文字「ＣＣＣＣＣＣ」がそれぞれ、単体閲覧行動を示す文字群に相当する。また、文字「Ａ」が示すウェブページＨ１について導出された付加回数が「１回」、文字「Ｂ」が示すウェブページＨ２について導出された付加回数が「２回」、文字「Ｃ」が示すウェブページＨ３について導出された付加回数が「０回」であったとする。この場合、変換部１１は、補正処理を施すことによって、新たな文字列「ＡＡ‘Ａ’ＢＢＢ‘ＢＢ’ＡＡＡＡ‘Ａ’ＢＢＢＢＢ‘ＢＢ’ＣＣＣＣＣＣ」（ただし、‘’は見やすさのために付加したもの）を生成する。以下、補正処理が施された行動文字列を「補正行動文字列」という。処理対象クラスタに属する全てのレコードの行動文字列について、補正処理が施されると、全てのレコードの行動文字列フィールドに格納された値が、補正行動文字列となる。

ここで、補正処理が施される行動文字列は、上述した通り、各単体閲覧行動が行われた時系列的な順番、および、単体閲覧行動のそれぞれについての閲覧時間が反映された情報である。そして、補正処理が施されることによって生成された補正行動文字列は、これらに加え、単体閲覧行動において閲覧したウェブページの「商品Ｉを購入する」という反応に対する影響の強さが反映された情報と言うことができる。

以上のようにして、変換部１１は、クラスタ毎に、ウェブページのそれぞれについて付加回数を導出すると共に、付加回数に基づいて行動文字列に補正処理を施して補正行動文字列を生成し、生成した補正行動文字列によって一連閲覧行動データ２１に登録された行動文字列を更新する。

導出部１２は、一連閲覧行動データ２１の全てのレコードについて変換部１１により補正処理が施された後、一連閲覧行動データ２１の２つのレコードの組み合わせの全てについて、補正行動文字列と補正行動文字列との編集距離を導出する第２導出処理を実行する。編集距離データ２２の各レコードの編集距離フィールドの値を、新たに導出した編集距離で更新する。以下、補正行動文字列と補正行動文字列との編集距離を「補正編集距離」という。

クラスタ形成部１３は、導出部１２により編集距離データ２２の各レコードの補正距離が補正編集距離に更新された後、編集距離データ２２に基づいて、一連閲覧行動のそれぞれをグループ分けし、複数のクラスタを形成する第２クラスタ形成処理を実行する。以下、第２クラスタ形成処理により形成されたクラスタを特に「新クラスタ」という。新クラスタの形成は、上述した第１クラスタ形成処理と同様の方法（モジュラリティを用いた方法）で行われる。次いで、クラスタ形成部１３は、ルールに従って新クラスタのそれぞれに新クラスタＩＤを付与すると共に、一連閲覧行動データ２１にアクセスし、それぞれのレコードのクラスタＩＤフィールドの値を、新たに付与した新クラスタＩＤにより更新する。

以上のようにして形成された新クラスタは、以下のことが言える。すなわち、補正行動文字列は、各単体閲覧行動が行われた時系列的な順番、および、単体閲覧行動のそれぞれについての閲覧時間に加え、「商品Ｉを購入する」という反応に対するウェブページ毎の影響の強さが反映された情報である。従って、導出部１２の第２導出処理により導出される補正編集距離は、第１導出処理により導出される（補正前の）編集距離よりも、「商品Ｉを購入する」という反応に対する影響の強いウェブページの閲覧態様が、より強く値に影響した指標値であり、この点で、行動の類似性を図る指標値としての妥当性が高い。そして、「商品Ｉを購入する」という反応に対する影響の強いウェブページの閲覧態様がより影響しているという点で妥当性が高い補正編集距離に基づいて形成されたクラスタについても、このような点で妥当性が高いということができる。

行動モデリング部１４は、クラスタ形成部１３により第２クラスタ形成処理が実行された後、新クラスタのそれぞれを対象として行動モデリング処理を実行する。以下、行動モデリング処理を実行する対象の新クラスタを「処理対象新クラスタ」と表現し、行動モデリング処理について詳述する。

行動モデリング処理において、まず、行動モデリング部１４は、一連閲覧行動データ２１を参照し、処理対象新クラスタのレコードのうち、注文有行動に対応するレコードを取得する。図５（Ａ）は、このようにして取得されたレコードにおける行動ＩＤおよび補正行動文字列の一例を示している。次いで、行動モデリング部１４は、取得したレコードを対象として、２つのレコードの組み合わせの全てについて、補正行動文字列と補正行動文字列との最大共通部分列（いわゆるＬＣＳ）を導出する。最大共通部分列の導出は、既存のアルゴリズムにより適切に実行される。図５（Ｂ）は、図５（Ａ）で例示した４つのレコードについて、２つのレコードの組み合わせ毎に導出された最大共通部分列を示す図である。図５（Ｂ）では、例えば、行動ＩＤ：Ｘ１の補正行動文字列「ＡＢＣＤＥＦＧ」と、行動ＩＤ：Ｘ２の補正行動文字列「ＡＢＤＧＣ」とについて導出された最大共通部分列が「ＡＢＤＧ」であることが示されている。

次いで、行動モデリング部１４は、導出した最大共通部分列のそれぞれを、各最大共通部分列における文字の順序が維持されるように結合することによって、文字列を生成する。以下、このようにして生成された文字列を「共通行動文字列」という。図５（Ｃ）は、図５（Ｂ）で示す６つの最大共通部分列に基づいて生成される共通行動文字列「ＡＢＣＤＣＥＦＧ」と共に、この共通行動文字列において、６つの最大共通部分列を構成する文字がどこに配置されているかを示している。図５（Ｃ）により、共通行動文字列が、６つの最大共通文字列のそれぞれが、各最大共通文字列における文字の順序が維持された状態で結合されることによって生成されていることが分かる。このようにして生成された共通行動文字列は、処理対象新クラスタに属する一連閲覧行動のうち、注文有行動のそれぞれを、１つの行動として抽象化して表した情報ということができる。

行動モデリング処理において、更に、行動モデリング部１４は、一連閲覧行動データ２１を参照し、処理対象新クラスタのレコードのうち、注文無行動に対応するレコードを取得する。次いで、行動モデリング部１４は、取得したレコードに基づいて、上述した方法で、共通行動文字列を生成する。以上のように、行動モデリング部１４は、行動モデリング処理において、処理対象新クラスタに属する注文有行動についての共通行動文字列、および、注文無行動についての共通行動文字列を導出する。行動モデリング部１４は、新クラスタのそれぞれを対象として行動モデリング処理を実行し、新クラスタのそれぞれについて注文有行動についての共通行動文字列、および、注文無行動についての共通行動文字列を生成する。

新クラスタのそれぞれについて注文有行動についての共通行動文字列、および、注文無行動についての共通行動文字列を生成した後、行動モデリング部１４は、新クラスタの新クラスタＩＤと、注文有行動についての共通行動文字列および注文無行動についての共通行動文字列とが対応付けて登録された行動モデリングデータ２３を生成し、記憶部１７に記憶する。図２（Ｄ）は、行動モデリングデータ２３の内容の一例を示している。図２（Ｄ）で示すように、行動モデリングデータ２３の１件のレコードは、新クラスタＩＤが格納される新クラスタＩＤフィールドと、注文有行動についての共通行動文字列が格納される注文有行動フィールドと、注文無行動について共通行動文字列が格納される注文無行動フィールドとを有している。

情報提供部１５は、サイト開設者からの要求に応じて、行動モデリングデータ２３に基づいて、専用ウェブサイトの閲覧に関する有益な情報を提供する。詳述すると、サイト開設者（サイト開設者が組織である場合には、組織としてのサイト開設者に所属する人物）は、所定の装置のウェブブラウザを起動し、情報処理サーバ１の所定のＵＲＬにアクセス（ＨＴＴＰリクエスト）させる。所定のＵＲＬは、サイト開設者に事前に通達され、また、詳細は省略するが所定のＵＲＬへのアクセスがあった場合には、適切な方法で認証が行われる。

情報処理サーバ１の所定のＵＲＬにアクセスがあると、情報提供部１５は、行動モデリングデータ２３を参照して、情報提供ページ２４（図６）を表示させるＨＴＭＬファイルを生成する。次いで、情報提供部１５は、生成したＨＴＭＬファイルをアクセス元の装置に応答する。装置のウェブブラウザは、受信したＨＴＭＬファイルに基づいて情報提供ページ２４を表示装置に表示する。

図６は、情報提供ページ２４の一例を示す図である。図６で例示する情報提供ページ２４は、択一的に選択可能な５つの大項目Ｋ１〜Ｋ５を有する。大項目は、新クラスタのそれぞれに対応している。従って、図６の例では、新クラスタは、５つ存在することになるが、仮に新クラスタが１０個ある場合は、大項目は１０個、存在することになる。図６の例では、大項目Ｋ１〜Ｋ５はそれぞれ、新クラスタＩＤがＹ１〜Ｙ５の新クラスタに対応しているものとする。

大項目のそれぞれには、択一的に選択可能な注文タブ２５および非注文タブ２６の２つのタブが従属している。あるクラスタに対応する大項目の注文タブ２５が選択されると、そのクラスタに属する注文有行動についての共通行動文字列が表す行動が、図式化された上で表示される。また、あるクラスタに対応する大項目の非注文タブ２６が選択されると、そのクラスタに属する注文無行動についての共通行動文字列が表す行動が、図式化された上で表示される。図６では、新クラスタＩＤ：Ｙ１のクラスタに対応する大項目Ｋ１の注文タブ２５が選択された様子を示している。従って、図６では、新クラスタＩＤ：Ｙ１の新クラスタに属する注文有行動についての共通行動文字列が表す文字が、図式化された上で表示されている。なお、識別情報Ｙ１のクラスタに属する注文有行動についての共通行動文字列は、「ＡＢＣＤ」である。

図６の表示内容についてより詳細に説明すると、図６において左右方向に延びる棒状の棒オブジェクト２８は、共通行動文字列により表される行動が行われた期間を示しており、図中で左から右へ向かって時間が経過している。棒オブジェクト２８上に描画された黒丸のアクションポイントＡＰは、共通行動文字列が示す一覧閲覧行動のうち単体閲覧行動の始まりを示しており、アクションポイントＡＰ毎に、吹き出し３０が付加されている。各吹き出し３０には、単体閲覧行動によって閲覧されたウェブページのタイトルが記述されている。

図６の棒オブジェクト２８では、共通行動文字列「ＡＢＣＤ」の１つ目の単体閲覧行動（最初の１文字「Ａ」により表される行動）の開始位置（＝棒オブジェクト２８の左端）に１つ目のアクションポイントＡＰ１が描画され、当該１つ目のアクションポイントＡＰ１に付加された吹き出し３０には、文字「Ａ」が割り当てられているウェブページＨ１のタイトルが記述されている。同様に、２つ目の単体閲覧行動の開始位置に２つ目のアクションポイントＡＰ２が描画されると共に、対応する吹き出し３０に文字「Ｂ」が割り当てられているウェブページＨ２のタイトルが記述される。吹き出し３０には、対応するウェブページが注文傾向ページである場合には、その旨が記述され、対応するウェブページが非注文傾向ページである場合には、その旨が記述されている。

サイト開設者は、情報提供ページ２４の大項目の状態を参照することにより、自身が開設する専用ウェブサイトについて、いくつのクラスタが存在するか、つまり、類似する行動をグループ分けしたときに、いくつのクラスタに分けることができるかを認識できる。更に、サイト開設者は、何れかの大項目を選択し、更に注文タブ２５または非注文タブ２６を選択し、表示内容を確認することにより、クラスタのそれぞれについて、商品を注文したユーザが典型的にはどのような行動をとっているか、および、商品を注文しなかったユーザが典型的にはどのような行動をとっているかを確認できる。特に、サイト開設者は、典型的な行動において、注文傾向ページまたは非注文傾向ページがどのような態様で閲覧されたかを認識できる。

以上説明したように、本実施形態において、行動文字列（補正行動文字列も含む）は、ユーザの行動の類似性に関する指標値たる編集距離の導出に用いる「ユーザの行動に関する情報」に相当する。この行動文字列は、ユーザにより行われた単体閲覧行動（アクション）のそれぞれが何であったか、および、各単体閲覧行動（アクション）が行われた時系列的な順番について、情報の一部を欠落させることなくユーザの行動を表現した情報と言える。そして本実施形態では、このような行動文字列を用いて、ユーザの行動の類似性に関する指標値（編集距離）を導出する構成のため、情報の一部の欠落に起因した指標値（編集距離）の精度の低下を防止できる。更に、本実施形態では、ユーザの行動の類似性に関する指標値として、行動文字列間の編集距離を導出する構成のため、ユーザの行動に関する情報が文字の組み合わせからなっているという特徴を効果的に利用して、高い精度でユーザの行動の類似性に関する指標値を導出できる。更に、行動文字列は、ユーザが行った単体閲覧行動（アクション）を表す文字が並んで構成された情報であり、単体閲覧行動（アクション）１つ１つを表す情報が非常に小さく、かつ、ユーザが行っていない単体閲覧行動（アクション）に関連する情報が含まれていないため、情報量が少ない。つまり、本実施形態によれば、ユーザの行動に関する情報の情報量が多大になることを抑制できる。

次に、情報処理サーバ１の動作例について図７のフローチャートを用いて説明する。図７で示すように、変換部１１は、閲覧履歴データ２０について、行動ＩＤの値が共通するレコード群毎に変換処理を実行して行動文字列を生成し、一連閲覧行動データ２１に登録する（ステップＳＡ１）。次いで、導出部１２は、第１導出処理を実行する（ステップＳＡ２）。上述したように、ステップＳＡ２の第１導出処理では、導出部１２は、一連閲覧行動データ２１の２つのレコードの組み合わせの全てについて、組み合わせ毎に行動文字列と行動文字列との編集距離を導出する。次いで、クラスタ形成部１３は、第１クラスタ形成処理を実行する（ステップＳＡ３）。上述したように、第１クラスタ形成処理では、クラスタ形成部１３は、一連閲覧行動をグループ分けして、クラスタを形成する。

次いで、変換部１１は、クラスタ毎に、各ウェブページの注文有閲覧割合および注文無閲覧割合に基づいて離間距離を導出し、ウェブページ毎の付加回数を導出する（ステップＳＡ４）。次いで、変換部１１は、一連閲覧行動データ２１にアクセスし、クラスタ毎に、導出したウェブページ毎の付加回数に基づいて補正処理を施し、行動文字列の値を更新する（ステップＳＡ５）。次いで、導出部１２は、第２導出処理を実行する（ステップＳＡ６）。ステップＳＡ６の第２導出処理において、導出部１２は、一連閲覧行動データ２１の２つのレコードの組み合わせの全てについて、補正行動文字列と補正行動文字列との編集距離を導出する。次いで、クラスタ形成部１３は、第２クラスタ形成処理を実行し、新クラスタを形成する（ステップＳＡ７）。次いで、行動モデリング部１４は、新クラスタ毎に、注文無行動についての共通行動文字列、および、注文有行動についての共通行動文字列を導出し、これらが登録された行動モデリングデータ２３を生成する（ステップＳＡ８）。上述したように、ステップＳＡ８において生成された行動モデリングデータ２３は、情報提供部１５による情報提供に際して利用される。

以上、本発明の一実施形態について説明したが、上記実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

例えば、編集距離はレーベンシュタイン距離に限られない。すなわち、編集距離は、異なる文字列間の類似性に関連する指標であって、編集処理の多寡によって換算される値であればよい。

また、上記実施形態では、ある１つのウェブページの閲覧を単体閲覧行動としたが、この点について、スクロール可能に構成されたウェブページの特定の領域の閲覧を、１つの単体閲覧行動として定義するようにしてもよい。単純化した例を用いてより詳しく説明すると、今、上下方向に長いウェブページが存在し、このウェブページは、基本的にはスクロールして閲覧されることが想定されているものとする。この場合において、ウェブページを、上下方向に複数の領域に分割しておき、各領域についてそれぞれ文字を割り当てておき、各領域の閲覧について、単体閲覧行動として、行動文字列の文字を構成するようにしてもよい。

上記実施形態では、ウェブページに割り当てられる文字をアルファベット一文字としたが、文字は、アルファベット一文字に限られない。すなわち、文字列を構成可能な文字（例えば、記号でもよい）であって、その文字によって構成される文字に基づいて編集距離を導出可能であればよい。

また、上記実施形態では、対象とするウェブサイト（専用ウェブサイト）が誘導するユーザの反動は、商品Ｉの購入であったが、ウェブサイトが誘導するユーザの反動は、当然、上記実施形態で例示したものに限られない。一例として、何らかのサービスに対する会員登録や、パンフレットの請求、リンク先への遷移、イベントへの参加等であってもよい。

また、上記実施形態では、各種データの内容について、適宜、図を用いて説明したが、各種データの内容は、例示した内容に限定されない。

また、上記実施形態では、導出部１２により導出された編集距離（補正編集距離も含む）は、クラスタを形成するためのネットワークを導出するにあたっての行動の類似性の判定に利用されていた。より詳しくは、編集距離は、ノードとノードとの間にリンクを形成するか否かを判定するための指標値として利用されていた。しかしながら、編集距離の利用方法は、例示したものに限られない。例えば、選択された任意の２つの一連閲覧行動が類似するか否かを判定するために使用されたり、編集距離自体の分布を統計学的に分析する際に使用されたりしてもよい。

また、上記実施形態では、クラスタ形成部１３によるクラスタ形成に関し、編集距離に基づく第１クラスタ形成処理、および、補正編集距離に基づく第２クラスタ形成処理の双方が実行される構成であったが、第１クラスタ形成処理のみ行って、クラスタを形成する構成でもよい。また、上記実施形態では、変換部１１は、閲覧時間を反映して行動文字列を生成したが、閲覧時間を反映しない行動文字列を生成してもよい。つまり、行動文字列の生成に際し、アクションが継続して行われた時間が長いほど文字の連続回数を多くするという処理は必須ではなく、このような処理が行われない構成でもよい。

また、上記実施形態では、同一のウェブサイト内のウェブページを閲覧する行動を一覧閲覧行動とし、この一覧閲覧行動が、行動文字列に変換される対象であった。しかしながら、行動文字列に変換される対象となる行動（以下「対象行動」という）は、上記実施形態で例示した一覧閲覧行動に限られない。例えば、同一のウェブサイト内のウェブページの閲覧だけではなく、複数のウェブサイトの閲覧が、対象行動に含まれてもよい。また例えば、ウェブサイトの閲覧に加えて、他のアクションが対象行動に含まれる構成でもよい。他のアクションとは、例えば、電話（例えば、問い合わせのための電話）である。この場合、電話するという行動にも文字が割り当てられ、例えば、「ウェブページｐの閲覧」（文字「Ｐ」が割り当てられているものとする）→「ウェブページｑの閲覧」（文字「Ｑ」が割り当てられているものとする）→「所定の電話番号への電話」（文字「Ｒ」が割り当てられているものとする）の順番で行動が行われたとすると、変換部１１は、ユーザの行動を行動文字列「ＰＱＲ」に変換する。

また例えば、ある店舗に来店した顧客の行動が対象行動とされてもよい。例えば、まず、店舗のフロアが複数の領域に分割され、領域のそれぞれに事前に文字が割り当てられる。そして、複数の顧客のそれぞれについて、店舗のフロアにおける移動経路がトレースされ、例えば、ある顧客について、「領域ｌ」（文字「Ｌ」が割り当てられているものとする）→「領域ｍ」（文字「Ｍ」が割り当てられているものとする）→「領域ｎ」（文字「Ｎ」が割り当てられているものとする）の順に移動したとしたら、変換部１１は、ユーザの行動を行動文字列「ＬＭＮ」に変換する。

また、上記実施形態において、情報処理サーバ１の機能ブロックが実行するとした処理の全部または一部を情報処理サーバ１と通信可能な外部装置が実行する構成でもよい。この場合、情報処理サーバ１と外部装置とが協働して「情報処理システム」として機能する。外部装置は、例えば、情報処理サーバ１のリクエストに応じて処理を実行するクラウドサーバである。一例として、変換部１１の処理の全部または一部を外部装置が実行する構成としてもよく、また、導出部１２の処理の全部または一部を外部装置が実行する構成としてもよい。

１情報処理サーバ（情報処理システム）
１１変換部
１２導出部
１３クラスタ形成部
１４行動モデリング部

Claims

アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換する変換部と、
一のユーザの行動について前記変換部により変換された前記行動文字列と、他のユーザの行動について前記変換部により変換された前記行動文字列との編集距離を導出する導出部と、
を備えることを特徴とする情報処理システム。
各アクションは、まとまった時間、継続して行われるものであり、
前記変換部は、ユーザの行動を示す情報を前記行動文字列へ変換する際、各アクションについて、アクションが継続して行われた時間が長いほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項１に記載の情報処理システム。
前記変換部は、ユーザの行動を示す情報を前記行動文字列へ変換する際、各アクションについて、重要性の高いアクションほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項１または２に記載の情報処理システム。
２つ以上のユーザの行動を、前記導出部により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成するクラスタ形成部を更に備え、
前記クラスタ形成部は、１つのクラスタ内に属する各ユーザの行動を示す前記行動文字列間の編集距離が短くなり、あるクラスタに属するユーザの行動を示す前記行動文字列とそのクラスタ以外の各クラスタに属するユーザの行動を示す前記行動文字列との編集距離が長くなるようにクラスタを形成することを特徴とする請求項１から３の何れか１項に記載の情報処理システム。
前記クラスタ形成部は、ユーザの行動のそれぞれをノードとし、ユーザの行動を示す前記行動文字列間の編集距離が一定以下の２つのノードをリンクで接続したネットワークについてモジュラリティを導出し、モジュラリティが最大化するようにクラスタを形成することを特徴とする請求項４に記載の情報処理システム。
前記クラスタ形成部により形成されたクラスタのそれぞれについて、クラスタに属するユーザの行動の前記行動文字列の２つの組み合わせ毎に最大共通部分列を導出し、２つの前記行動文字列の組み合わせ毎に導出した前記最大共通部分列のそれぞれを、各最大共通文字列における文字の順序が維持された状態で結合して新たな文字列を導出する行動モデリング部を更に備えることを特徴とする請求項４または５に記載の情報処理システム。
アクションには、所定のウェブサイトに含まれる１つのウェブページまたは１つのウェブページにおける特定の領域の閲覧が含まれることを特徴とする請求項１に記載の情報処理システム。
前記変換部は、ユーザの行動を前記行動文字列へ変換する際、ウェブページの閲覧に係るアクションのそれぞれについて、閲覧時間が長いほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項７に記載の情報処理システム。
前記所定のウェブサイトは、ユーザが所定の反応を行うことを誘導するものであり、
前記変換部は、ユーザの行動を前記行動文字列へ変換する際、ウェブページの閲覧に係るアクションのそれぞれについて、ユーザが前記所定の反応をすること或いは前記所定の反応をしないことに対する影響度の高いアクションほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項７または８に記載の情報処理システム。
２つ以上のユーザの行動を、前記導出部により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成するクラスタ形成部を更に備えることを特徴とする請求項７から９の何れか１項に記載の情報処理システム。
前記所定のウェブサイトは、ユーザが所定の反応を行うことを誘導するものであり、
２つ以上のユーザの行動を、前記導出部により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成するクラスタ形成部を更に備え、
前記変換部は、ユーザの行動のそれぞれを前記行動文字列に変換し、
前記導出部は、ユーザの行動の２つの組み合わせ毎に、前記行動文字列間の編集距離を導出する第１導出処理を実行し、
前記クラスタ形成部は、２つ以上のユーザの行動を、前記導出部の前記第１導出処理により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成する第１クラスタ形成処理を実行し、
前記変換部は、前記クラスタ形成部の前記第１クラスタ形成処理により形成されたクラスタ毎に、ウェブページのそれぞれについて、前記所定の反応がなされた場合に閲覧されていた傾向の強さ或いは前記所定の反応がなされなかった場合に閲覧されていた傾向の強さを導出し、ユーザの行動を示す前記行動文字列それぞれについて、ユーザの行動が属するクラスタにおいて前記所定の反応がなされた場合に閲覧されていた傾向が強いウェブページの閲覧に係るアクションほど、或いは、前記所定の反応がなされなかった場合に閲覧されていた傾向が強いウェブページの閲覧に係るアクションほど連続回数が多くなるように、割り当てられた文字を連続させる補正処理を実行し、
前記導出部は、前記変換部により前記補正処理が実行された後、２つのユーザの行動の２つの組み合わせ毎に、前記行動文字列間の編集距離を導出する第２導出処理を実行し、
前記クラスタ形成部は、前記導出部の前記第２導出処理により導出された編集距離に基づいて複数のクラスタを形成する第２クラスタ形成処理を実行する
ことを特徴とする請求項７から９の何れか１項に記載の情報処理システム。
前記クラスタ形成部は、１つのクラスタ内に属する各ユーザの行動を示す前記行動文字列間の前記編集距離が短くなり、あるクラスタに属するユーザの行動を示す前記行動文字列とそのクラスタ以外の各クラスタに属するユーザの行動を示す前記行動文字列との前記編集距離が長くなるようにクラスタを形成することを特徴とする請求項１０または１１に記載の情報処理システム。
前記クラスタ形成部は、ユーザの行動のそれぞれをノードとし、ユーザの行動を示す前記行動文字列間の前記編集距離が一定以下の２つのノードをリンクで接続したネットワークについてモジュラリティを導出し、モジュラリティが最大化するようにクラスタを形成することを特徴とする請求項１２に記載の情報処理システム。
前記クラスタ形成部により形成されたクラスタのそれぞれについて、クラスタに属するユーザの行動の前記行動文字列の２つの組み合わせ毎に最大共通部分列を導出し、２つの前記行動文字列の組み合わせ毎に導出した前記最大共通部分列のそれぞれを、各最大共通文字列における文字の順序が維持された状態で結合して新たな文字列を導出する行動モデリング部を更に備えることを特徴とする請求項１０から１３の何れか１項に記載の情報処理システム。
情報処理システムの変換部が、アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換するステップと、
前記情報処理システムの導出部が、一のユーザの行動について前記変換部により変換された前記行動文字列と、他のユーザの行動について前記変換部により変換された前記行動文字列との編集距離を導出するステップと、
を含むことを特徴とする情報処理方法。