JP2021140648A - 情報処理システムおよび情報処理方法 - Google Patents

情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
JP2021140648A
JP2021140648A JP2020039860A JP2020039860A JP2021140648A JP 2021140648 A JP2021140648 A JP 2021140648A JP 2020039860 A JP2020039860 A JP 2020039860A JP 2020039860 A JP2020039860 A JP 2020039860A JP 2021140648 A JP2021140648 A JP 2021140648A
Authority
JP
Japan
Prior art keywords
action
cluster
user
character string
browsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020039860A
Other languages
English (en)
Other versions
JP6751960B1 (ja
Inventor
央 岩瀬
Hiroshi Iwase
央 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thinkerinc
Original Assignee
Thinkerinc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thinkerinc filed Critical Thinkerinc
Priority to JP2020039860A priority Critical patent/JP6751960B1/ja
Application granted granted Critical
Publication of JP6751960B1 publication Critical patent/JP6751960B1/ja
Publication of JP2021140648A publication Critical patent/JP2021140648A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザの行動の類似性に関する指標値の導出に関し、指標値の精度が低下することを防止しつつ、導出に利用するユーザの行動に関する情報の情報量が多大になることを抑制する。【解決手段】情報処理サーバ1は、アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換する変換部11と、一のユーザの行動について変換部により変換された行動文字列と、他のユーザの行動について変換部により変換された行動文字列との編集距離を導出する導出部12とを備え、ユーザにより行われたアクションのそれぞれが何であったか、および、各アクションが行われた時系列的な順番について、情報の一部が欠落していない情報であって文字列からなる情報を用いて、類似性に関する指標値たる編集距離を導出する。【選択図】図1

Description

本発明は、情報処理システムおよび情報処理システムによる情報処理方法に関し、特に、ユーザの行動を示す情報を対象として処理を実行する情報処理システムおよび情報処理方法に用いて好適なものである。
従来、ユーザがあるサイトでウェブページを閲覧したときの行動(閲覧行動と呼ばれる、閲覧したウェブページがどのような態様で移り変わっていったかというもの)や、ある店舗においてユーザがとった行動等のユーザの行動を分析するシステムが知られている。例えば、特許文献1には、アクセスログに基づいてユーザの閲覧行動を記録し、閲覧行動を分析して、各種予測を実行するシステムが記載されている。
特開2006−323629号公報
複数のユーザの行動を分析する際には、異なるユーザの行動について類似性に関する指標値を導出することが非常に有効である。分析にあたって、異なる2つの行動の類似性の判定が可能となり、これにより、類似する行動をグループ化して分析したり、複数の行動を類型化して分析したりすることが可能となるからである。そして、異なるユーザの行動の類似性に関する指標値の導出は、それぞれのユーザの行動に関する情報を用いて行われることになるが、指標値の導出に際して用いるユーザの行動に関する情報の情報量が多大になることを抑制し、かつ、情報量が多大になることを抑制したことに起因して指標値の精度が低下するといった事態が発生しないようにしたいとするニーズがある。ユーザの行動に関する情報の情報量が多大になると処理負荷が増大し、オーバーフロー等の悪影響が発生する可能性があるからである。また、情報の一部を削減することによって情報量を少なくすることは可能であるが、この場合には当然、指標値の精度が下がってしまい、このような事態は本末転倒だからである。
本発明は、このような問題を解決するために成されたものであり、ユーザの行動の類似性に関する指標値の導出に関し、指標値の精度が低下することを防止しつつ、導出に利用するユーザの行動に関する情報の情報量が多大になることを抑制することを目的とする。
上記した課題を解決するために、本発明では、アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換する。そして、一のユーザの行動についての行動文字列と、他のユーザの行動についての行動文字列との編集距離を導出するようにしている。
上記のように構成した本発明において、変換後の行動文字列が、ユーザの行動の類似性に関する指標値たる編集距離の導出に用いるユーザの行動に関する情報に相当する。この行動文字列は、ユーザにより行われたアクションのそれぞれが何であったか、および、各アクションが行われた時系列的な順番について、情報の一部を欠落させることなくユーザの行動を表現した情報と言える。そして本発明では、このような行動文字列を用いて、ユーザの行動の類似性に関する指標値(編集距離)を導出する構成のため、情報の一部の欠落に起因した指標値(編集距離)の精度の低下を防止できる。更に、行動文字列は、ユーザが行ったアクションを表す文字が並んで構成された情報であり、アクション1つ1つを表す情報が非常に小さく、かつ、ユーザが行っていないアクションに関連する情報が含まれていないため、情報量が少ない。つまり、本発明によれば、ユーザの行動に関する情報の情報量が多大になることを抑制できる。
本発明の一実施形態に係る情報処理サーバの機能構成例、および、情報処理サーバを含む制御システムの構成例を示す図である。 記憶部に記憶された各種データの内容を示す図である。 ネットワークの一例を示す図である。 横軸が注文無閲覧割合であり、縦軸が注文有閲覧割合の2次元空間にウェブページをプロットした図である。 行動モデリング部の動作の説明に利用する図である。 情報提供ページの一例を示す図である。 本発明の一実施形態に係る情報処理サーバの動作例を示すフローチャートである。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態に係る情報処理サーバ1および関連する複数の装置からなる制御システム2のシステム構成を、情報処理サーバ1の機能構成例を示すブロック図と共に示す図である。情報処理サーバ1は、特許請求の範囲の「情報処理システム」に相当する。図1で示すように、制御システム2は、情報処理サーバ1と、ウェブサーバ3と、端末4とを含んで構成され、これら装置がネットワークNを介して接続されている。
ウェブサーバ3は、ウェブサイト開設者によりウェブサイトが開設されたサーバである。以下、ウェブサーバ3に開設されたウェブサイトを特に「専用ウェブサイト」という。本実施形態では、説明の便宜のため、ウェブサイト開設者は、商品Iを業として販売する企業であり、専用ウェブサイトは、その商品Iが宣伝されると共に、その商品Iをオンライン上で注文できるサイトであるものとする。つまり、専用ウェブサイトは、ユーザが商品Iを注文するという反応を行うことを誘導するサイトである。専用ウェブサイトは、複数のウェブページを含んで構成されている。本実施形態では、専用ウェブサイトは、ページH1〜H7の7個のウェブページを少なくとも含んで構成されているものとする。なお、本実施形態では、説明の便宜のため、1つのウェブサイト(専用ウェブサイト)を対象として情報処理サーバ1が実行する処理を説明するが、実際には、情報処理サーバ1は、複数のウェブサイトを対象として、以下で説明する処理を実行する。
端末4は、ウェブブラウザが搭載されたコンピュータである。端末4は、ウェブブラウザが搭載されたコンピュータであれば、その形態は何でもよい。端末4は、例えば、スマートフォン、タブレット型コンピュータ、ノートPC、デスクトップPCである。図1では、無数に存在する端末4の1つを例示的に示している。以下の説明では、端末4により専用ウェブサイトを閲覧する者を「ユーザ」という。
図1で示すように、情報処理サーバ1は、機能構成として、通信部10、変換部11、導出部12、クラスタ形成部13、行動モデリング部14および情報提供部15を備えている。上記各機能ブロック10〜15は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック10〜15は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また、情報処理サーバ1は、記憶手段として、記憶部17を備えている。記憶部17に記憶されたデータの内容については後述する。なお、図1では、情報処理サーバ1を1つのブロックにより表しているが、これは情報処理サーバ1が単一のサーバ装置により構成されることを意味するものではない。情報処理サーバ1は、複数の装置により構成されてもよく、所定のシステムの一部であってもよい。
通信部10は、所定の通信規格に従って、ネットワークNと接続する装置と通信する。
情報処理サーバ1は、記憶部17に記憶されたデータに基づいてユーザによる専用ウェブサイトの閲覧行動を分析し、更に、分析結果に基づいて閲覧行動に関する有益な情報をウェブサイト開設者に提供する。以下、閲覧行動の分析から、情報の提供に至るまでの情報処理サーバ1の動作について詳述する。
情報処理サーバ1の動作の説明に先立って、まず、閲覧履歴データ20および一連閲覧行動データ21の内容について説明する。図2(A)は、閲覧履歴データ20の内容の一例を示す図である。閲覧履歴データ20は、1つ以上のレコードを有する関係データベース型のデータであり、図2(A)で示すように、各レコードは、行動IDが格納される行動IDフィールドと、ページIDが格納されるページIDフィールドと、閲覧順番を示す閲覧順番情報が格納される閲覧順番フィールドと、閲覧時間を示す閲覧時間情報が格納される閲覧時間フィールドとを有している。
行動IDとは、一連閲覧行動に対して一意に付与されるIDである。一連閲覧行動とは、ユーザが、専用ウェブサイト内の何れかのウェブページの閲覧を開始してから、専用ウェブサイト内でウェブページを遷移させ(ただし、ウェブページの遷移が1度も行われなくてもよい)、専用ウェブサイト内のウェブページの閲覧を終了するまでの一連の閲覧行動であり、各ウェブページが閲覧された順番と、各ウェブページが閲覧された閲覧時間により把握される。専用ウェブサイト内のウェブページの閲覧が終了するとは、例えば、専用ウェブサイト以外のウェブサイトのウェブページに遷移したり、ウェブブラウザが閉じられて専用ウェブサイトのウェブページの表示が終了したりすることを意味する。
本実施形態では、一連閲覧行動において、ある1つのページの閲覧を開始してから、その1つのページの閲覧を終了するまでの連続した行動を「単体閲覧行動」と定義する。一連閲覧行動は1つ以上の単体閲覧行動により構成される。また、一連閲覧行動の中に、同じウェブページの閲覧に係る単体閲覧行動が複数、含まれる場合もある。例えば、あるユーザが、ページH1→ページH2→ページH1とウェブページを遷移させた場合、1つ目のページH1の閲覧、2つ目のページH2の閲覧、3つ目のページH1の閲覧がそれぞれ「単体閲覧行動」に相当し、3つの単体閲覧行動により一連閲覧行動が構成されることになる。
ページIDとは、専用ウェブサイトのウェブページのそれぞれに付与された識別情報であり、本実施形態では、ページH1〜H7にそれぞれ、h1〜h7のページIDが付与されている。閲覧順番とは、一連閲覧行動において、対応する単体閲覧行動の順番(何番目か)を意味する。閲覧時間とは、対応する単体閲覧行動において、対応するウェブページが閲覧された時間の長さを意味する。
閲覧履歴データ20において、行動IDの値が共通する一群のレコードは、ユーザによる一連閲覧行動を示している。また、レコードの1つ1つは、単体閲覧行動を示している。例えば、図2(A)で例示する閲覧履歴データ20の上から5つのレコードに注目し、これら5つのレコードは、行動IDの値が共通しているため、一連閲覧行動を示していることが分かる。そして、各レコードのページIDフィールドの値および閲覧順番フィールドの値により、ページH1→ページH2→ページH1→ページH2→ページH3の順番でウェブページが遷移したことが分かり、更に、各レコードの閲覧時間フィールドの値により、ユーザがページH1、H2、H1、H2、H3がこの順番で、20、30、40、50、60分ずつ閲覧されたことが分かる。
図2(B)は、一連閲覧行動データ21の内容の一例を示す図である。一連閲覧行動データ21は、1つ以上のレコードを有する関係データベース型のデータであり、図2(B)で示すように、各レコードは、行動IDが格納される行動IDフィールドと、注文有無情報が格納される注文有無フィールドと、行動文字列(後述)が格納される行動文字列フィールドと、クラスタID(後述)が格納されるクラスタIDフィールドとを有している。注文有無情報は、対応する一連閲覧行動において、商品Iの注文が行われたか否かを示す情報である。例えば、図2(B)の1件目のレコードは、行動ID:A1の一連閲覧行動において、商品Iの注文が行われたことを示している。変換部11による変換処理が行われる前は、各レコードの行動文字列フィールドの値、および、クラスタIDフィールドの値はヌル値とされる。
閲覧履歴データ20および一連閲覧行動データのレコードの生成は、情報処理サーバ1により適宜、行われる。情報処理サーバ1がこれらデータにレコードを生成する方法はどのような方法であってもよい。一例として、ウェブサーバ3が、端末4のウェブブラウザからのHTTPリクエストに応じて応答するHTMLファイルにスクリプト(いわゆるタグ)が組み込まれる。そして、このスクリプトの機能により、ウェブブラウザから情報処理サーバ1に対して、閲覧履歴データ20および一連閲覧行動データ21のレコードの生成に必要な情報が適宜、送信され、情報処理サーバ1は、ウェブブラウザから受信する情報に基づいてこれらデータにレコードを生成する。また、本実施形態では、閲覧履歴データ20および一連閲覧行動データ21のレコードの生成を情報処理サーバ1が行う構成としているが、これを情報処理サーバ1以外のサーバが行うようにし、情報処理サーバ1がこのサーバからデータの提供を受ける構成としてもよい。
変換部11は、閲覧履歴データ20について、行動IDの値が共通するレコード群(以下「一連レコード群」という)毎に、変換処理を実行して行動文字列を生成し、一連閲覧行動データ21に登録する。以下、処理の対象となる一連レコード群を処理対象レコード群といい、処理対象レコード群を対象として変換部11により実行される変換処理について説明する。なお、図2(A)の例では、レコードRA1〜RA5の5つのレコードからなるレコード群G1は、一連レコード群の1つである。
ここで、専用ウェブサイトに含まれるウェブページのそれぞれには、事前にアルファベット一文字が割り当てられている。なお、各ウェブページに割り当てられたアルファペット一文字の値は相互に異なっており、異なるウェブページに共通する値のアルファベットが割り当てられることはない。本実施形態では、ページH1、H2、H3、H4、H5、H6、H7にはそれぞれ、文字「A」、「B」、「C」、「D」、「E」、「F」、「G」が割り当てられている。
変換処理において、変換部11は、処理対象レコード群が示す一連閲覧行動について、各単体閲覧行動において閲覧されたウェブページに割り当てられた文字が、閲覧順番に従って並んだ行動文字列を生成する。その際、変換部11は、単体閲覧行動の閲覧時間が長ければ長いほど、連続回数が多くなるように、その単体閲覧行動において閲覧されたウェブページに割り当てられた文字を連続させる。本実施形態では、閲覧時間が「0分」を上回り「10分」以下の場合、連続回数は「1回」、「10分」を上回り「20分」以下の場合、連続回数は「2回」、「20分」を上回り「30分」以下の場合、連続回数は「3回」・・・というように、「10(k−1)<閲覧時間≦10k」のときの連続回数は「k回」とされる。
以下、変換処理について、適宜、処理対象レコード群が図2(A)のレコード群G1であるものとしてより詳細に説明する。まず、変換部11は、処理対象レコード群が示す各単体閲覧行動について、変換する文字と、繰り返し回数とを特定する。例えば、図2(A)を参照し、レコードRA1が示す単体閲覧行動のページIDは「h1」であるため、変換部11は、変換する文字を「A」とし、更に、閲覧時間は「20分」であるため、連続回数を「2回」とする。同様にして、変換部11は、レコードRA2が示す2つ目の単体閲覧行動について、変換する文字を「B」とし連続回数を「3回」とし、また、レコードRA3が示す3つ目の単体閲覧行動について、変換する文字を「A」とし連続回数を「4回」とし、また、レコードRA4が示す4つ目の単体閲覧行動について、変換する文字を「B」とし連続回数を「5回」とし、また、レコードRA5が示す5つ目の単体閲覧行動について、変換する文字を「C」とし連続回数を「6回」とする。
次いで、変換部11は、単体閲覧行動のそれぞれについて、変換すると決定した文字を、決定した連続回数だけ連続した文字列(一文字の場合もある)を、閲覧順番で並べた文字列を生成する。このようにして生成された文字列が「行動文字列」である。レコード群G1についての行動文字列は、「AABBBAAAABBBBBCCCCCC」となる。
行動文字列は、単体閲覧行動において閲覧されたウェブページが何であったか(=ユーザにより行われたアクションのそれぞれが何であったか)、および、各単体閲覧行動が行われた時系列的な順番について、情報の一部を欠落させることなくユーザの行動を表現した情報と言える。特に、本実施形態に係る行動文字列は、単体閲覧行動のそれぞれについての閲覧時間が反映された情報ということができる。なお、行動文字列の具体的な生成方法は例示した方法に限られないことは勿論である。
変換部11は、閲覧履歴データ20に含まれる一連レコード群(行動IDの値が共通する一群のレコード)のそれぞれについて変換処理を行って、行動文字列を生成する。次いで、変換部11は、一連閲覧行動データ21の各レコードの行動文字列フィールドに、対応する行動文字列のそれぞれを格納する。
導出部12は、変換部11による行動文字列の生成、一覧閲覧行動データ21への登録が完了した後、以下の処理を実行する。すなわち、導出部12は、一連閲覧行動データ21の2つのレコードの組み合わせの全てについて、組み合わせ毎に行動文字列と行動文字列との編集距離を導出する第1導出処理を実行する。従って、仮に一連閲覧行動データ21にレコードRX1〜RX4の4つレコードがあったとしたら、変換部11は、第1導出処理において、RX1およびRX2、RX1およびRX3、RX1およびRX4、RX2およびRX3、RX2およびRX4、RX3およびRX4の6通りの組み合わせのそれぞれについて、行動文字列と行動文字列との編集距離を導出する。
本実施形態では、導出部12は、一の行動文字列と他の行動文字列との編集距離として、標準化されたレーベンシュタイン距離を導出する。周知の通り、一の文字列と他の文字列とのレーベンシュタイン距離は、一の文字列に対して編集処理(挿入/削除/置換)を行って他の文字列へ変換するときの最小編集距離のことである。レーベンシュタイン距離の導出および標準化は、編集処理のコストが適切に定められた上で、既存のアルゴリズムによって実行される。以上のようにして編集距離が導出されるため、一の行動文字列と他の行動文字列とについて導出された編集距離が短いほど、これら行動文字列の類似性が高く、編集距離が長いほど、これら行動文字列の類似性が低い。
2つのレコードの組み合わせの全てについて、組み合わせ毎に編集距離を導出した後、導出部12は、編集距離のそれぞれが、行動IDの組み合わせと対応付けて記録された編集距離データ22を生成し、記憶部17に記憶する。図2(C)は、編集距離データ22の内容の一例を示す図である。編集距離データ22は、1つ以上のレコードを有する関係データベース型のデータであり、図2(C)で示すように、各レコードは、2つの行動IDの組み合わせのうち一方の行動IDが格納される第1行動IDフィールドと、他方の行動IDが格納される第2行動IDフィールドと、編集距離が格納される編集距離フィールドとを備えている。図2(C)で例示する編集距離データ22の1件目のレコードは、行動ID:A1に対応する行動文字列と、行動ID:A2に対応する行動文字列との編集距離が「0.5」であることを示している。
クラスタ形成部13は、導出部12により編集距離データ22が生成された後、編集距離データ22に基づいて、一連閲覧行動のそれぞれをグループ分けし、複数のクラスタを形成する第1クラスタ形成処理を実行する。詳述すると、まず、クラスタ形成部13は、編集距離データ22に基づいて、一連閲覧行動のそれぞれがノードとして存在し、かつ、編集距離が閾値T1以下のノード同士がリンクで接続されたネットワークを導出する。図3は、ネットワークの一例を説明に適した態様で模式的に示す図である。図3において、白丸はノードを示し、白丸内の情報は行動IDを示している。図3で例示するネットワークでは、行動ID:A1のノードと、行動ID:A2のノードとはリンクで接続されているが(従って、行動ID:A1の行動文字列と行動ID:A2の行動文字列との編集距離は、閾値T1以下である)、行動ID:A1のノードと行動ID:A5のノードとはリンクで接続されていない(従って、行動ID:A1の行動文字列と行動ID:A5の行動文字列との編集距離は、閾値T1を上回っている)。
次いで、クラスタ形成部13は、モジュラリティが最大化するようにノード(=一連閲覧行動)をグループ分けし、1つ以上のクラスタを形成する。周知の通り、モジュラリティは、「ネットワークにおけるリンクの総数に対するクラスタ内の割合の和」から「ノードから出る辺の個数は変えずにランダムに点を繋ぎ変えた際に、同じクラスタにノードが繋がる期待値」を引いた値として定義されるものである。モジュラリティが最大化するようにノードをグループ分けすることにより、ある1つのクラスタ内に属するノード(一連閲覧行動)同士は編集距離が短い(=類似性が高い)一方、あるクラスタに属するノード(一連閲覧行動)とそのクラスタ以外のクラスタに属するノード(一連閲覧行動)との編集距離が長い(=類似性が低い)状態となるように複数のクラスタが形成される。
クラスタを形成した後、クラスタ形成部13は、ルールに従ってクラスタのそれぞれに一意な値のクラスタIDを付与する。そして、クラスタ形成部13は、一連閲覧行動データ21の各レコードのクラスタIDフィールドに、対応するクラスタIDを格納する。なお、本実施形態では、クラスタ形成部13は、モジュラリティの導出の前提となるネットワークについて、リンクの向きや、リンクの重みがないネットワークを導出したが、当然、向きや重みが考慮されたネットワークを導出する構成でもよい。また、クラスタに分割する方法は、モジュラリティを用いた手法に限られず、ある1つのクラスタ内に属する一連閲覧行動同士は編集距離が短い(=類似性が高い)一方、あるクラスタに属する一連閲覧行動とそのクラスタ以外のクラスタに属する一連閲覧行動との編集距離が長い(=類似性が低い)状態となるように、クラスタが形成されればよい。
変換部11は、クラスタ形成部13により複数のクラスタが形成された後、クラスタのそれぞれを対象として、以下の処理を実行する。以下、クラスタ形成部13が処理の対象とするクラスタを「処理対象クラスタ」と表現し、変換部11の処理について詳述する。
変換部11は、一連閲覧行動データ21に基づいて、処理対象クラスタに属する一連閲覧行動を分析し、ウェブページ毎に、「商品Iの注文が行われた一連閲覧行動(以下「注文有行動」という)の個数」に占める「ウェブページの閲覧が行われた一連閲覧行動の個数」の割合(以下「注文有閲覧割合」という)、および、「商品Iの注文が行われてない一連閲覧行動(以下「注文無行動」という)の個数」に占める「ウェブページの閲覧が行われた一連閲覧行動の個数」の割合(以下「注文無閲覧割合」という)を導出する。なお、ある一連閲覧行動において、あるウェブページが閲覧されたかどうかは、そのウェブページに割り当てられた文字が、その一連閲覧行動を示す文字列に含まれているか否かによって判定できる。
例えば、処理対象クラスタについて、処理対象クラスタに属する一連閲覧行動の個数が「150個」であり、そのうち商品Iの注文が行われた一連閲覧行動の個数が「100個」であり、商品Iの注文が行われていない一連閲覧行動の個数が「50個」であったとする。この場合において、商品Iの注文が行われた一連閲覧行動のうち、ウェブページH1の閲覧が行われている一連閲覧行動が「80個」であったとすると、変換部11は、ウェブページH1についての注文有閲覧割合として、「80%」(=80/100)を導出する。また、商品Iの注文が行われていない一連閲覧行動のうち、ウェブページH1の閲覧が行われている一連閲覧行動が「5個」であったとすると、変換部11は、ウェブページH1についての注文無閲覧割合として、「10%」(=5/50)を導出する。つまり、ウェブページH1についての注文有閲覧割合は、商品Iの注文が行われた行動の個数に対する、ウェブページH1の閲覧が行われた行動の個数の割合を意味する。また、ウェブページH1についての注文無閲覧割合は、商品Iの注文が行われていない行動の個数に対する、ウェブページH1閲覧が行われた行動の個数の割合を意味する。
図4は、横軸が注文無閲覧割合であり、縦軸が注文有閲覧割合の2次元空間に、ウェブページのそれぞれをプロットした様子の一例を示す図である。図4において、例えば、符号h1の点で示すウェブページH1は、注文無閲覧割合および注文有閲覧割合が共に「90%」程度であることを示し、符号H2の点で示すウェブページH2は、注文無閲覧割合が「60%」程度であり、注文有閲覧割合が「20%」程度であることを示している。
図4において、原点を通る傾き「1」の直線S1上、または、直線S1の近傍にプロットされるウェブページは、注文無閲覧割合の値と注文有閲覧割合の値とが等しいか非常に近いウェブページである。以下、このようなウェブページを「拮抗ページ」という。この拮抗ページについては、以下のことが言える。すなわち、拮抗ページは、商品Iの注文に至った一連閲覧行動において閲覧された割合と、商品Iの注文に至っていない一連閲覧行動において閲覧された割合とがほぼ同じ(或いは同じ)であり、「商品Iを注文する」という行動(反応)をユーザが行うにあたって、閲覧されること或いは閲覧されないことが、それほど影響を与えない(少なくとも、影響を判定できない)ページであると言える。
また、図4において、直線S1の下側であって、直線S1から離間した領域AR1にプロットされたウェブページは、注文無閲覧割合の値が、注文有閲覧割合の値に比して相当に大きいウェブページである。以下、このようなウェブページを「非注文傾向ページ」という。この非注文傾向ページについては、以下のことが言える。すなわち、非注文傾向ページは、商品Iの注文に至った一連閲覧行動において閲覧された割合に比して、商品Iの注文に至っていない一連閲覧行動において閲覧された割合が相当に大きく、「商品Iを注文する」という行動(反応)に「閲覧されないこと」が良い影響を与えていること、および、「商品Iを注文する」という行動に「閲覧されること」が悪い影響を与えていることが推定できるページであると言える。
また、図4において、直線S2の上側であって、直線S1から離間した領域AR2にプロットされたウェブページは、注文有閲覧割合の値が、注文無閲覧割合の値に比して相当に大きいウェブページである。以下、このようなウェブページを「注文傾向ページ」という。この注文傾向ページについては、以下のことが言える。すなわち、注文傾向ページは、商品Iの注文に至っていない一連閲覧行動において閲覧された割合に比して、商品Iの注文に至った一連閲覧行動において閲覧された割合が相当に大きく、「商品Iを注文する」という行動(反応)に「閲覧されること」が良い影響を与えていること、および、「商品Iを注文する」という行動に「閲覧されないこと」が悪い影響を与えていることが推定できるページであると言える。
以上のことから、非注文傾向ページおよび注文傾向ページは、商品Iを注文するという反応に対して影響を与えていることが推定され、その影響は、注文有閲覧割合と注文無閲覧割合との差が大きいほど、換言すれば、図4の2次元空間において、プロットされた点が直線S1から離れているほど大きいということが言える。これを踏まえ、変換部11は、処理対象クラスタに属する一連閲覧行動を対象として、ウェブページのそれぞれについての注文有閲覧割合および注文無閲覧割合を導出した後、図4の2次元空間上に各ウェブページをプロットし、各ウェブページと直線S1との距離(ウェブページを示す点から直線S1に下した垂線の距離。以下、「離間距離」という)を導出する。そして、変換部11は、ウェブページ毎に離間距離に応じて付加回数を導出する(付加回数の利用態様については後述)。本実施形態では、複数の閾値が予め定められており、変換部11は、離間距離が、最も小さい閾値以下の場合は、付加回数を「0回」とし、以後、閾値を超えるたびに付加回数を1つずつ増加させる。この結果、図4のグラフにおいて直線S1の近辺にプロットされるウェブページの付加回数は「0回」となり、直線S1から離れれば離れるほど、付加回数が多くなる。
ここで、本実施形態では、クラスタ毎に、各ウェブページの注文有閲覧割合および注文無閲覧割合に基づいて離間距離を導出し、ウェブページ毎の付加回数を導出している(従って、ある共通するウェブページについて、一のクラスタと他のクラスタとで付加回数が異なる場合もある)。これは、以下の理由による。すなわち、ある1つのクラスタに属する一連閲覧行動のそれぞれは、基本的には相互に類似性が高い。上述したように、各クラスタは、モジュラリティが最も高まるように形成されているからである。とすると、注文傾向ページおよび非注文傾向ページは、近似する行動群の中で、商品Iの注文がなされた行動と商品Iの注文がなされなかった行動とで、閲覧したか否かが決定的に異なっているウェブページであり、商品Iの注文という反応に影響を与えていることを強く推定できる。このような強い推定は、行動の近似という点で無秩序な行動群を分析対象とした場合には、得ることができない。これを踏まえると、クラスタ毎に離間距離を導出することによって、「商品Iの注文」という行動に対する影響が大きいという点について妥当性、適格性が高い離間距離を導出することができ、離間距離に基づいて導出される付加回数についても妥当性、適格性を高めることができる。
ウェブページのそれぞれについて付加回数を導出した後、変換部11は、一連閲覧行動データ21にアクセスし、処理対象クラスタに属する一連閲覧行動に対応するレコードのそれぞれの行動文字列に対して補正処理を施し、値を更新する。以下、補正処理を施す対象の行動文字列を「処理対象行動文字列」と表現し、処理対象行動文字列に対して施される補正処理について詳述する。
補正処理において、変換部11は、処理対象行動文字列のうち、単体閲覧行動を示す文字群(1つの文字の場合もある)のそれぞれについて、文字群を構成する文字が示すウェブページ(=単体閲覧行動において閲覧されたウェブページ)について導出した付加回数分、同じ文字が連続させる。例えば、補正処理を施す前の行動文字列が「AABBBAAAABBBBBCCCCCC」であったとする。最初の2文字「AA」、次の3文字「BBB」、次の4文字「AAAA」、次の5文字「BBBBBB」、次の6文字「CCCCCC」がそれぞれ、単体閲覧行動を示す文字群に相当する。また、文字「A」が示すウェブページH1について導出された付加回数が「1回」、文字「B」が示すウェブページH2について導出された付加回数が「2回」、文字「C」が示すウェブページH3について導出された付加回数が「0回」であったとする。この場合、変換部11は、補正処理を施すことによって、新たな文字列「AA‘A’BBB‘BB’AAAA‘A’BBBBB‘BB’CCCCCC」(ただし、‘’は見やすさのために付加したもの)を生成する。以下、補正処理が施された行動文字列を「補正行動文字列」という。処理対象クラスタに属する全てのレコードの行動文字列について、補正処理が施されると、全てのレコードの行動文字列フィールドに格納された値が、補正行動文字列となる。
ここで、補正処理が施される行動文字列は、上述した通り、各単体閲覧行動が行われた時系列的な順番、および、単体閲覧行動のそれぞれについての閲覧時間が反映された情報である。そして、補正処理が施されることによって生成された補正行動文字列は、これらに加え、単体閲覧行動において閲覧したウェブページの「商品Iを購入する」という反応に対する影響の強さが反映された情報と言うことができる。
以上のようにして、変換部11は、クラスタ毎に、ウェブページのそれぞれについて付加回数を導出すると共に、付加回数に基づいて行動文字列に補正処理を施して補正行動文字列を生成し、生成した補正行動文字列によって一連閲覧行動データ21に登録された行動文字列を更新する。
導出部12は、一連閲覧行動データ21の全てのレコードについて変換部11により補正処理が施された後、一連閲覧行動データ21の2つのレコードの組み合わせの全てについて、補正行動文字列と補正行動文字列との編集距離を導出する第2導出処理を実行する。編集距離データ22の各レコードの編集距離フィールドの値を、新たに導出した編集距離で更新する。以下、補正行動文字列と補正行動文字列との編集距離を「補正編集距離」という。
クラスタ形成部13は、導出部12により編集距離データ22の各レコードの補正距離が補正編集距離に更新された後、編集距離データ22に基づいて、一連閲覧行動のそれぞれをグループ分けし、複数のクラスタを形成する第2クラスタ形成処理を実行する。以下、第2クラスタ形成処理により形成されたクラスタを特に「新クラスタ」という。新クラスタの形成は、上述した第1クラスタ形成処理と同様の方法(モジュラリティを用いた方法)で行われる。次いで、クラスタ形成部13は、ルールに従って新クラスタのそれぞれに新クラスタIDを付与すると共に、一連閲覧行動データ21にアクセスし、それぞれのレコードのクラスタIDフィールドの値を、新たに付与した新クラスタIDにより更新する。
以上のようにして形成された新クラスタは、以下のことが言える。すなわち、補正行動文字列は、各単体閲覧行動が行われた時系列的な順番、および、単体閲覧行動のそれぞれについての閲覧時間に加え、「商品Iを購入する」という反応に対するウェブページ毎の影響の強さが反映された情報である。従って、導出部12の第2導出処理により導出される補正編集距離は、第1導出処理により導出される(補正前の)編集距離よりも、「商品Iを購入する」という反応に対する影響の強いウェブページの閲覧態様が、より強く値に影響した指標値であり、この点で、行動の類似性を図る指標値としての妥当性が高い。そして、「商品Iを購入する」という反応に対する影響の強いウェブページの閲覧態様がより影響しているという点で妥当性が高い補正編集距離に基づいて形成されたクラスタについても、このような点で妥当性が高いということができる。
行動モデリング部14は、クラスタ形成部13により第2クラスタ形成処理が実行された後、新クラスタのそれぞれを対象として行動モデリング処理を実行する。以下、行動モデリング処理を実行する対象の新クラスタを「処理対象新クラスタ」と表現し、行動モデリング処理について詳述する。
行動モデリング処理において、まず、行動モデリング部14は、一連閲覧行動データ21を参照し、処理対象新クラスタのレコードのうち、注文有行動に対応するレコードを取得する。図5(A)は、このようにして取得されたレコードにおける行動IDおよび補正行動文字列の一例を示している。次いで、行動モデリング部14は、取得したレコードを対象として、2つのレコードの組み合わせの全てについて、補正行動文字列と補正行動文字列との最大共通部分列(いわゆるLCS)を導出する。最大共通部分列の導出は、既存のアルゴリズムにより適切に実行される。図5(B)は、図5(A)で例示した4つのレコードについて、2つのレコードの組み合わせ毎に導出された最大共通部分列を示す図である。図5(B)では、例えば、行動ID:X1の補正行動文字列「ABCDEFG」と、行動ID:X2の補正行動文字列「ABDGC」とについて導出された最大共通部分列が「ABDG」であることが示されている。
次いで、行動モデリング部14は、導出した最大共通部分列のそれぞれを、各最大共通部分列における文字の順序が維持されるように結合することによって、文字列を生成する。以下、このようにして生成された文字列を「共通行動文字列」という。図5(C)は、図5(B)で示す6つの最大共通部分列に基づいて生成される共通行動文字列「ABCDCEFG」と共に、この共通行動文字列において、6つの最大共通部分列を構成する文字がどこに配置されているかを示している。図5(C)により、共通行動文字列が、6つの最大共通文字列のそれぞれが、各最大共通文字列における文字の順序が維持された状態で結合されることによって生成されていることが分かる。このようにして生成された共通行動文字列は、処理対象新クラスタに属する一連閲覧行動のうち、注文有行動のそれぞれを、1つの行動として抽象化して表した情報ということができる。
行動モデリング処理において、更に、行動モデリング部14は、一連閲覧行動データ21を参照し、処理対象新クラスタのレコードのうち、注文無行動に対応するレコードを取得する。次いで、行動モデリング部14は、取得したレコードに基づいて、上述した方法で、共通行動文字列を生成する。以上のように、行動モデリング部14は、行動モデリング処理において、処理対象新クラスタに属する注文有行動についての共通行動文字列、および、注文無行動についての共通行動文字列を導出する。行動モデリング部14は、新クラスタのそれぞれを対象として行動モデリング処理を実行し、新クラスタのそれぞれについて注文有行動についての共通行動文字列、および、注文無行動についての共通行動文字列を生成する。
新クラスタのそれぞれについて注文有行動についての共通行動文字列、および、注文無行動についての共通行動文字列を生成した後、行動モデリング部14は、新クラスタの新クラスタIDと、注文有行動についての共通行動文字列および注文無行動についての共通行動文字列とが対応付けて登録された行動モデリングデータ23を生成し、記憶部17に記憶する。図2(D)は、行動モデリングデータ23の内容の一例を示している。図2(D)で示すように、行動モデリングデータ23の1件のレコードは、新クラスタIDが格納される新クラスタIDフィールドと、注文有行動についての共通行動文字列が格納される注文有行動フィールドと、注文無行動について共通行動文字列が格納される注文無行動フィールドとを有している。
情報提供部15は、サイト開設者からの要求に応じて、行動モデリングデータ23に基づいて、専用ウェブサイトの閲覧に関する有益な情報を提供する。詳述すると、サイト開設者(サイト開設者が組織である場合には、組織としてのサイト開設者に所属する人物)は、所定の装置のウェブブラウザを起動し、情報処理サーバ1の所定のURLにアクセス(HTTPリクエスト)させる。所定のURLは、サイト開設者に事前に通達され、また、詳細は省略するが所定のURLへのアクセスがあった場合には、適切な方法で認証が行われる。
情報処理サーバ1の所定のURLにアクセスがあると、情報提供部15は、行動モデリングデータ23を参照して、情報提供ページ24(図6)を表示させるHTMLファイルを生成する。次いで、情報提供部15は、生成したHTMLファイルをアクセス元の装置に応答する。装置のウェブブラウザは、受信したHTMLファイルに基づいて情報提供ページ24を表示装置に表示する。
図6は、情報提供ページ24の一例を示す図である。図6で例示する情報提供ページ24は、択一的に選択可能な5つの大項目K1〜K5を有する。大項目は、新クラスタのそれぞれに対応している。従って、図6の例では、新クラスタは、5つ存在することになるが、仮に新クラスタが10個ある場合は、大項目は10個、存在することになる。図6の例では、大項目K1〜K5はそれぞれ、新クラスタIDがY1〜Y5の新クラスタに対応しているものとする。
大項目のそれぞれには、択一的に選択可能な注文タブ25および非注文タブ26の2つのタブが従属している。あるクラスタに対応する大項目の注文タブ25が選択されると、そのクラスタに属する注文有行動についての共通行動文字列が表す行動が、図式化された上で表示される。また、あるクラスタに対応する大項目の非注文タブ26が選択されると、そのクラスタに属する注文無行動についての共通行動文字列が表す行動が、図式化された上で表示される。図6では、新クラスタID:Y1のクラスタに対応する大項目K1の注文タブ25が選択された様子を示している。従って、図6では、新クラスタID:Y1の新クラスタに属する注文有行動についての共通行動文字列が表す文字が、図式化された上で表示されている。なお、識別情報Y1のクラスタに属する注文有行動についての共通行動文字列は、「ABCD」である。
図6の表示内容についてより詳細に説明すると、図6において左右方向に延びる棒状の棒オブジェクト28は、共通行動文字列により表される行動が行われた期間を示しており、図中で左から右へ向かって時間が経過している。棒オブジェクト28上に描画された黒丸のアクションポイントAPは、共通行動文字列が示す一覧閲覧行動のうち単体閲覧行動の始まりを示しており、アクションポイントAP毎に、吹き出し30が付加されている。各吹き出し30には、単体閲覧行動によって閲覧されたウェブページのタイトルが記述されている。
図6の棒オブジェクト28では、共通行動文字列「ABCD」の1つ目の単体閲覧行動(最初の1文字「A」により表される行動)の開始位置(=棒オブジェクト28の左端)に1つ目のアクションポイントAP1が描画され、当該1つ目のアクションポイントAP1に付加された吹き出し30には、文字「A」が割り当てられているウェブページH1のタイトルが記述されている。同様に、2つ目の単体閲覧行動の開始位置に2つ目のアクションポイントAP2が描画されると共に、対応する吹き出し30に文字「B」が割り当てられているウェブページH2のタイトルが記述される。吹き出し30には、対応するウェブページが注文傾向ページである場合には、その旨が記述され、対応するウェブページが非注文傾向ページである場合には、その旨が記述されている。
サイト開設者は、情報提供ページ24の大項目の状態を参照することにより、自身が開設する専用ウェブサイトについて、いくつのクラスタが存在するか、つまり、類似する行動をグループ分けしたときに、いくつのクラスタに分けることができるかを認識できる。更に、サイト開設者は、何れかの大項目を選択し、更に注文タブ25または非注文タブ26を選択し、表示内容を確認することにより、クラスタのそれぞれについて、商品を注文したユーザが典型的にはどのような行動をとっているか、および、商品を注文しなかったユーザが典型的にはどのような行動をとっているかを確認できる。特に、サイト開設者は、典型的な行動において、注文傾向ページまたは非注文傾向ページがどのような態様で閲覧されたかを認識できる。
以上説明したように、本実施形態において、行動文字列(補正行動文字列も含む)は、ユーザの行動の類似性に関する指標値たる編集距離の導出に用いる「ユーザの行動に関する情報」に相当する。この行動文字列は、ユーザにより行われた単体閲覧行動(アクション)のそれぞれが何であったか、および、各単体閲覧行動(アクション)が行われた時系列的な順番について、情報の一部を欠落させることなくユーザの行動を表現した情報と言える。そして本実施形態では、このような行動文字列を用いて、ユーザの行動の類似性に関する指標値(編集距離)を導出する構成のため、情報の一部の欠落に起因した指標値(編集距離)の精度の低下を防止できる。更に、本実施形態では、ユーザの行動の類似性に関する指標値として、行動文字列間の編集距離を導出する構成のため、ユーザの行動に関する情報が文字の組み合わせからなっているという特徴を効果的に利用して、高い精度でユーザの行動の類似性に関する指標値を導出できる。更に、行動文字列は、ユーザが行った単体閲覧行動(アクション)を表す文字が並んで構成された情報であり、単体閲覧行動(アクション)1つ1つを表す情報が非常に小さく、かつ、ユーザが行っていない単体閲覧行動(アクション)に関連する情報が含まれていないため、情報量が少ない。つまり、本実施形態によれば、ユーザの行動に関する情報の情報量が多大になることを抑制できる。
次に、情報処理サーバ1の動作例について図7のフローチャートを用いて説明する。図7で示すように、変換部11は、閲覧履歴データ20について、行動IDの値が共通するレコード群毎に変換処理を実行して行動文字列を生成し、一連閲覧行動データ21に登録する(ステップSA1)。次いで、導出部12は、第1導出処理を実行する(ステップSA2)。上述したように、ステップSA2の第1導出処理では、導出部12は、一連閲覧行動データ21の2つのレコードの組み合わせの全てについて、組み合わせ毎に行動文字列と行動文字列との編集距離を導出する。次いで、クラスタ形成部13は、第1クラスタ形成処理を実行する(ステップSA3)。上述したように、第1クラスタ形成処理では、クラスタ形成部13は、一連閲覧行動をグループ分けして、クラスタを形成する。
次いで、変換部11は、クラスタ毎に、各ウェブページの注文有閲覧割合および注文無閲覧割合に基づいて離間距離を導出し、ウェブページ毎の付加回数を導出する(ステップSA4)。次いで、変換部11は、一連閲覧行動データ21にアクセスし、クラスタ毎に、導出したウェブページ毎の付加回数に基づいて補正処理を施し、行動文字列の値を更新する(ステップSA5)。次いで、導出部12は、第2導出処理を実行する(ステップSA6)。ステップSA6の第2導出処理において、導出部12は、一連閲覧行動データ21の2つのレコードの組み合わせの全てについて、補正行動文字列と補正行動文字列との編集距離を導出する。次いで、クラスタ形成部13は、第2クラスタ形成処理を実行し、新クラスタを形成する(ステップSA7)。次いで、行動モデリング部14は、新クラスタ毎に、注文無行動についての共通行動文字列、および、注文有行動についての共通行動文字列を導出し、これらが登録された行動モデリングデータ23を生成する(ステップSA8)。上述したように、ステップSA8において生成された行動モデリングデータ23は、情報提供部15による情報提供に際して利用される。
以上、本発明の一実施形態について説明したが、上記実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
例えば、編集距離はレーベンシュタイン距離に限られない。すなわち、編集距離は、異なる文字列間の類似性に関連する指標であって、編集処理の多寡によって換算される値であればよい。
また、上記実施形態では、ある1つのウェブページの閲覧を単体閲覧行動としたが、この点について、スクロール可能に構成されたウェブページの特定の領域の閲覧を、1つの単体閲覧行動として定義するようにしてもよい。単純化した例を用いてより詳しく説明すると、今、上下方向に長いウェブページが存在し、このウェブページは、基本的にはスクロールして閲覧されることが想定されているものとする。この場合において、ウェブページを、上下方向に複数の領域に分割しておき、各領域についてそれぞれ文字を割り当てておき、各領域の閲覧について、単体閲覧行動として、行動文字列の文字を構成するようにしてもよい。
上記実施形態では、ウェブページに割り当てられる文字をアルファベット一文字としたが、文字は、アルファベット一文字に限られない。すなわち、文字列を構成可能な文字(例えば、記号でもよい)であって、その文字によって構成される文字に基づいて編集距離を導出可能であればよい。
また、上記実施形態では、対象とするウェブサイト(専用ウェブサイト)が誘導するユーザの反動は、商品Iの購入であったが、ウェブサイトが誘導するユーザの反動は、当然、上記実施形態で例示したものに限られない。一例として、何らかのサービスに対する会員登録や、パンフレットの請求、リンク先への遷移、イベントへの参加等であってもよい。
また、上記実施形態では、各種データの内容について、適宜、図を用いて説明したが、各種データの内容は、例示した内容に限定されない。
また、上記実施形態では、導出部12により導出された編集距離(補正編集距離も含む)は、クラスタを形成するためのネットワークを導出するにあたっての行動の類似性の判定に利用されていた。より詳しくは、編集距離は、ノードとノードとの間にリンクを形成するか否かを判定するための指標値として利用されていた。しかしながら、編集距離の利用方法は、例示したものに限られない。例えば、選択された任意の2つの一連閲覧行動が類似するか否かを判定するために使用されたり、編集距離自体の分布を統計学的に分析する際に使用されたりしてもよい。
また、上記実施形態では、クラスタ形成部13によるクラスタ形成に関し、編集距離に基づく第1クラスタ形成処理、および、補正編集距離に基づく第2クラスタ形成処理の双方が実行される構成であったが、第1クラスタ形成処理のみ行って、クラスタを形成する構成でもよい。また、上記実施形態では、変換部11は、閲覧時間を反映して行動文字列を生成したが、閲覧時間を反映しない行動文字列を生成してもよい。つまり、行動文字列の生成に際し、アクションが継続して行われた時間が長いほど文字の連続回数を多くするという処理は必須ではなく、このような処理が行われない構成でもよい。
また、上記実施形態では、同一のウェブサイト内のウェブページを閲覧する行動を一覧閲覧行動とし、この一覧閲覧行動が、行動文字列に変換される対象であった。しかしながら、行動文字列に変換される対象となる行動(以下「対象行動」という)は、上記実施形態で例示した一覧閲覧行動に限られない。例えば、同一のウェブサイト内のウェブページの閲覧だけではなく、複数のウェブサイトの閲覧が、対象行動に含まれてもよい。また例えば、ウェブサイトの閲覧に加えて、他のアクションが対象行動に含まれる構成でもよい。他のアクションとは、例えば、電話(例えば、問い合わせのための電話)である。この場合、電話するという行動にも文字が割り当てられ、例えば、「ウェブページpの閲覧」(文字「P」が割り当てられているものとする)→「ウェブページqの閲覧」(文字「Q」が割り当てられているものとする)→「所定の電話番号への電話」(文字「R」が割り当てられているものとする)の順番で行動が行われたとすると、変換部11は、ユーザの行動を行動文字列「PQR」に変換する。
また例えば、ある店舗に来店した顧客の行動が対象行動とされてもよい。例えば、まず、店舗のフロアが複数の領域に分割され、領域のそれぞれに事前に文字が割り当てられる。そして、複数の顧客のそれぞれについて、店舗のフロアにおける移動経路がトレースされ、例えば、ある顧客について、「領域l」(文字「L」が割り当てられているものとする)→「領域m」(文字「M」が割り当てられているものとする)→「領域n」(文字「N」が割り当てられているものとする)の順に移動したとしたら、変換部11は、ユーザの行動を行動文字列「LMN」に変換する。
また、上記実施形態において、情報処理サーバ1の機能ブロックが実行するとした処理の全部または一部を情報処理サーバ1と通信可能な外部装置が実行する構成でもよい。この場合、情報処理サーバ1と外部装置とが協働して「情報処理システム」として機能する。外部装置は、例えば、情報処理サーバ1のリクエストに応じて処理を実行するクラウドサーバである。一例として、変換部11の処理の全部または一部を外部装置が実行する構成としてもよく、また、導出部12の処理の全部または一部を外部装置が実行する構成としてもよい。
1 情報処理サーバ(情報処理システム)
11 変換部
12 導出部
13 クラスタ形成部
14 行動モデリング部

Claims (15)

  1. アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換する変換部と、
    一のユーザの行動について前記変換部により変換された前記行動文字列と、他のユーザの行動について前記変換部により変換された前記行動文字列との編集距離を導出する導出部と、
    を備えることを特徴とする情報処理システム。
  2. 各アクションは、まとまった時間、継続して行われるものであり、
    前記変換部は、ユーザの行動を示す情報を前記行動文字列へ変換する際、各アクションについて、アクションが継続して行われた時間が長いほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項1に記載の情報処理システム。
  3. 前記変換部は、ユーザの行動を示す情報を前記行動文字列へ変換する際、各アクションについて、重要性の高いアクションほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項1または2に記載の情報処理システム。
  4. 2つ以上のユーザの行動を、前記導出部により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成するクラスタ形成部を更に備え、
    前記クラスタ形成部は、1つのクラスタ内に属する各ユーザの行動を示す前記行動文字列間の編集距離が短くなり、あるクラスタに属するユーザの行動を示す前記行動文字列とそのクラスタ以外の各クラスタに属するユーザの行動を示す前記行動文字列との編集距離が長くなるようにクラスタを形成することを特徴とする請求項1から3の何れか1項に記載の情報処理システム。
  5. 前記クラスタ形成部は、ユーザの行動のそれぞれをノードとし、ユーザの行動を示す前記行動文字列間の編集距離が一定以下の2つのノードをリンクで接続したネットワークについてモジュラリティを導出し、モジュラリティが最大化するようにクラスタを形成することを特徴とする請求項4に記載の情報処理システム。
  6. 前記クラスタ形成部により形成されたクラスタのそれぞれについて、クラスタに属するユーザの行動の前記行動文字列の2つの組み合わせ毎に最大共通部分列を導出し、2つの前記行動文字列の組み合わせ毎に導出した前記最大共通部分列のそれぞれを、各最大共通文字列における文字の順序が維持された状態で結合して新たな文字列を導出する行動モデリング部を更に備えることを特徴とする請求項4または5に記載の情報処理システム。
  7. アクションには、所定のウェブサイトに含まれる1つのウェブページまたは1つのウェブページにおける特定の領域の閲覧が含まれることを特徴とする請求項1に記載の情報処理システム。
  8. 前記変換部は、ユーザの行動を前記行動文字列へ変換する際、ウェブページの閲覧に係るアクションのそれぞれについて、閲覧時間が長いほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項7に記載の情報処理システム。
  9. 前記所定のウェブサイトは、ユーザが所定の反応を行うことを誘導するものであり、
    前記変換部は、ユーザの行動を前記行動文字列へ変換する際、ウェブページの閲覧に係るアクションのそれぞれについて、ユーザが前記所定の反応をすること或いは前記所定の反応をしないことに対する影響度の高いアクションほど連続回数が多くなるように、割り当てられた文字を連続させることを特徴とする請求項7または8に記載の情報処理システム。
  10. 2つ以上のユーザの行動を、前記導出部により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成するクラスタ形成部を更に備えることを特徴とする請求項7から9の何れか1項に記載の情報処理システム。
  11. 前記所定のウェブサイトは、ユーザが所定の反応を行うことを誘導するものであり、
    2つ以上のユーザの行動を、前記導出部により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成するクラスタ形成部を更に備え、
    前記変換部は、ユーザの行動のそれぞれを前記行動文字列に変換し、
    前記導出部は、ユーザの行動の2つの組み合わせ毎に、前記行動文字列間の編集距離を導出する第1導出処理を実行し、
    前記クラスタ形成部は、2つ以上のユーザの行動を、前記導出部の前記第1導出処理により導出された編集距離に基づいてグループ分けし、複数のクラスタを形成する第1クラスタ形成処理を実行し、
    前記変換部は、前記クラスタ形成部の前記第1クラスタ形成処理により形成されたクラスタ毎に、ウェブページのそれぞれについて、前記所定の反応がなされた場合に閲覧されていた傾向の強さ或いは前記所定の反応がなされなかった場合に閲覧されていた傾向の強さを導出し、ユーザの行動を示す前記行動文字列それぞれについて、ユーザの行動が属するクラスタにおいて前記所定の反応がなされた場合に閲覧されていた傾向が強いウェブページの閲覧に係るアクションほど、或いは、前記所定の反応がなされなかった場合に閲覧されていた傾向が強いウェブページの閲覧に係るアクションほど連続回数が多くなるように、割り当てられた文字を連続させる補正処理を実行し、
    前記導出部は、前記変換部により前記補正処理が実行された後、2つのユーザの行動の2つの組み合わせ毎に、前記行動文字列間の編集距離を導出する第2導出処理を実行し、
    前記クラスタ形成部は、前記導出部の前記第2導出処理により導出された編集距離に基づいて複数のクラスタを形成する第2クラスタ形成処理を実行する
    ことを特徴とする請求項7から9の何れか1項に記載の情報処理システム。
  12. 前記クラスタ形成部は、1つのクラスタ内に属する各ユーザの行動を示す前記行動文字列間の前記編集距離が短くなり、あるクラスタに属するユーザの行動を示す前記行動文字列とそのクラスタ以外の各クラスタに属するユーザの行動を示す前記行動文字列との前記編集距離が長くなるようにクラスタを形成することを特徴とする請求項10または11に記載の情報処理システム。
  13. 前記クラスタ形成部は、ユーザの行動のそれぞれをノードとし、ユーザの行動を示す前記行動文字列間の前記編集距離が一定以下の2つのノードをリンクで接続したネットワークについてモジュラリティを導出し、モジュラリティが最大化するようにクラスタを形成することを特徴とする請求項12に記載の情報処理システム。
  14. 前記クラスタ形成部により形成されたクラスタのそれぞれについて、クラスタに属するユーザの行動の前記行動文字列の2つの組み合わせ毎に最大共通部分列を導出し、2つの前記行動文字列の組み合わせ毎に導出した前記最大共通部分列のそれぞれを、各最大共通文字列における文字の順序が維持された状態で結合して新たな文字列を導出する行動モデリング部を更に備えることを特徴とする請求項10から13の何れか1項に記載の情報処理システム。
  15. 情報処理システムの変換部が、アクションの連続として定義されるユーザの行動を示す情報を、アクション毎に付与された文字が、アクションが行われた順番で並ぶ文字列である行動文字列に変換するステップと、
    前記情報処理システムの導出部が、一のユーザの行動について前記変換部により変換された前記行動文字列と、他のユーザの行動について前記変換部により変換された前記行動文字列との編集距離を導出するステップと、
    を含むことを特徴とする情報処理方法。
JP2020039860A 2020-03-09 2020-03-09 情報処理システムおよび情報処理方法 Active JP6751960B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020039860A JP6751960B1 (ja) 2020-03-09 2020-03-09 情報処理システムおよび情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020039860A JP6751960B1 (ja) 2020-03-09 2020-03-09 情報処理システムおよび情報処理方法

Publications (2)

Publication Number Publication Date
JP6751960B1 JP6751960B1 (ja) 2020-09-09
JP2021140648A true JP2021140648A (ja) 2021-09-16

Family

ID=72333498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020039860A Active JP6751960B1 (ja) 2020-03-09 2020-03-09 情報処理システムおよび情報処理方法

Country Status (1)

Country Link
JP (1) JP6751960B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386406B (zh) * 2020-10-16 2024-04-09 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089692A (ja) * 2012-10-05 2014-05-15 Ntt Docomo Inc 情報提供サーバ
JP2014123198A (ja) * 2012-12-20 2014-07-03 International Business Maschines Corporation リクエストおよびレスポンスのペアを監視するためのルールを抽出するためのコンピュータ実装方法、プログラム、および、システム
WO2015140947A1 (ja) * 2014-03-19 2015-09-24 楽天株式会社 情報処理装置、情報処理方法及びプログラム
JP2015230717A (ja) * 2014-06-06 2015-12-21 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
JP2016038822A (ja) * 2014-08-08 2016-03-22 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
WO2018159362A1 (ja) * 2017-03-03 2018-09-07 日本電信電話株式会社 ログ分析装置、ログ分析方法およびログ分析プログラム
JP2018181326A (ja) * 2017-04-06 2018-11-15 ネイバー コーポレーションNAVER Corporation ディープラーニングを活用した個人化商品推薦

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089692A (ja) * 2012-10-05 2014-05-15 Ntt Docomo Inc 情報提供サーバ
JP2014123198A (ja) * 2012-12-20 2014-07-03 International Business Maschines Corporation リクエストおよびレスポンスのペアを監視するためのルールを抽出するためのコンピュータ実装方法、プログラム、および、システム
WO2015140947A1 (ja) * 2014-03-19 2015-09-24 楽天株式会社 情報処理装置、情報処理方法及びプログラム
JP2015230717A (ja) * 2014-06-06 2015-12-21 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
JP2016038822A (ja) * 2014-08-08 2016-03-22 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
WO2018159362A1 (ja) * 2017-03-03 2018-09-07 日本電信電話株式会社 ログ分析装置、ログ分析方法およびログ分析プログラム
JP2018181326A (ja) * 2017-04-06 2018-11-15 ネイバー コーポレーションNAVER Corporation ディープラーニングを活用した個人化商品推薦

Also Published As

Publication number Publication date
JP6751960B1 (ja) 2020-09-09

Similar Documents

Publication Publication Date Title
US10235425B2 (en) Entity fingerprints
US8893076B2 (en) Configurable computation modules
US20160132904A1 (en) Influence score of a brand
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
JP2019519027A (ja) 履歴ログからの学習と、etlツール内のデータアセットに関するデータベースオペレーションの推奨
KR20180118597A (ko) 네트워크 액세스 행동을 식별하는 방법 및 장치, 서버와 저장 매체
JP2017515216A (ja) 行動計量学を使用してコンテンツレイアウトを最適化するためのシステムおよび方法
US20160117328A1 (en) Influence score of a social media domain
JP2009193465A (ja) 情報処理装置、情報提供システム、情報処理方法、およびプログラム
WO2022142001A1 (zh) 基于多评分卡融合的目标对象评价方法及其相关设备
WO2013073377A1 (ja) 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
JP2020521232A (ja) デジタル通信ネットワーク上の複数のデバイスにわたるデジタルタッチポイントを確立するための分散ノードクラスタ
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
JP6696568B2 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP5264813B2 (ja) 評価装置、評価方法及び評価プログラム
JP2017208025A (ja) 情報配信装置、情報配信方法および情報配信プログラム
JP2015166989A (ja) 情報処理装置および情報分析方法
JP5772599B2 (ja) テキストマイニングシステム、テキストマイニング方法および記録媒体
JP6751960B1 (ja) 情報処理システムおよび情報処理方法
US11308044B2 (en) Rule based decisioning on metadata layers
JP6397098B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP5011185B2 (ja) 情報分析装置、情報分析方法、及び情報分析プログラム
CN113792039B (zh) 数据处理方法及装置、电子设备、存储介质
CN115293291A (zh) 排序模型的训练方法、排序方法、装置、电子设备及介质
CN115187330A (zh) 基于用户标签的产品推荐方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200518

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200518

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200811

R150 Certificate of patent or registration of utility model

Ref document number: 6751960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250