JP5620933B2 - エンタープライズウェブマイニングシステム及び方法 - Google Patents

エンタープライズウェブマイニングシステム及び方法 Download PDF

Info

Publication number
JP5620933B2
JP5620933B2 JP2012045476A JP2012045476A JP5620933B2 JP 5620933 B2 JP5620933 B2 JP 5620933B2 JP 2012045476 A JP2012045476 A JP 2012045476A JP 2012045476 A JP2012045476 A JP 2012045476A JP 5620933 B2 JP5620933 B2 JP 5620933B2
Authority
JP
Japan
Prior art keywords
data
prediction
model
web
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2012045476A
Other languages
English (en)
Other versions
JP2012113744A (ja
Inventor
パブロ タマヨ,
パブロ タマヨ,
ミツコウスキー,ヤチェック
ヤチェック ミツコウスキー,
マルコス カンポス,
マルコス カンポス,
Original Assignee
オラクル・インターナショナル・コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オラクル・インターナショナル・コーポレイション filed Critical オラクル・インターナショナル・コーポレイション
Publication of JP2012113744A publication Critical patent/JP2012113744A/ja
Application granted granted Critical
Publication of JP5620933B2 publication Critical patent/JP5620933B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Description

関連出願のクロスリファレンス
2000年9月28日に出願した仮出願第60/235926号の35U.S.C(米国特許法)第119条(e)下の利益は、本明細書の請求項に示されている。
本発明の分野
本発明は、オンライン予測及びリコメンデーションを生成するエンタープライズウェブマイニングシステムに関するものである。
本発明の背景
データマイニングは、データ群から隠れたパターンを検出することが可能な技術である。真のデータマイニングは、提示されているデータをそこで変更することでなく、そのデータ間での未知の関係を前もって発見することである。データマイニングは、通常、データベースシステム内のソフトウェアとして、あるいはデータベースシステム関連ソフトウェアとして実現される。データマイニングソフトウェアの有効性を改善する場合には、2つの主要な分野がある。1つ目は、データマイニングソフトウェアがデータ間の関係を発見することで、特定技術及び処理を改善することができる。このような改善には、演算速度、より精度の高い関係の決定、及びデータ間の新たなタイプの関係の発見がある。2つ目は、有効なデータマイニング技術及び処理を与えることで、より多くのデータを取得してデータマイニング結果を改善することである。付加的なデータを様々な方法で取得することができ、新規のソースのデータを取得しても良く、既存のソースのデータから付加的なタイプのデータを取得しても良く、既存のソースから、既存のタイプの付加的なデータを取得しても良い。
典型的な企業は、膨大な量のソースデータと、膨大な様々なタイプのデータを有している。例えば、企業は、製品の在庫レベルに関するデータを含む在庫制御システム、製品を説明するデータを含むカタログシステム、製品の消費者による注文に関するデータを含む注文システム、製品の製造及び出荷の費用に関するデータを含む会計システム等を持つことができる。加えて、いくつかのソースのデータは専用データネットワークに接続することができる一方で、別のソースのデータはインターネットのような公衆データネットワークに接続し、かつアクセス可能とすることができる。
データマイニングを個別のソースのデータに適用することは有効となっているが、エンタープライズワイドのデータマイニングにはそれほど有効となっていない。エンタープライズデータマイニングを実行するための従来の技術は、マニュアル操作によるいくつかのデータ統合、前処理、マイニング及び解析ツールを含んでいる。この従来処理は費用がかかり、かつ時間を浪費するので、多くの企業にとっては、たいていは適したものとになっていない。ワールドワイドウェブトランザクション及び行動に関連するデータを含むインターネットベースのデータソースの到来は、この問題を悪化させている。特に、インターネットベースのデータソースを含むエンタープライズワイドのデータマイニングを自動的にかつ経済的な方法で実行する技術の必要性が生じている。
本発明の要約
本発明は、エンタープライズ−ワイドウェブデータマイニングシステム、コンピュータプログラム製品、及びその動作の方法であり、これは、インターネットベースのデータソースを使用し、また、自動化かつコスト的に有効な方法で動作する。
本発明に従えば、エンタープライズウェブマイニングを行う方法は、複数のデータソースからデータを収集する工程と、収集データを統合する工程と、収集データを使用して、複数のデータマイニングモデルを生成する工程と、リコメンデーションあるいは予測に対する受信リクエストに応答して、予測あるいはリコメンデーションを生成する工程とを備える。
本発明の構成では、収集する工程は、複数のデータソースからデータを取得する工程と、取得データから所望の出力に関連するデータを選択する工程と、選択データを前処理する工程と、前処理選択データから複数のデータベーステーブルを構築する工程を備える。複数のデータソースは、専用アカウントあるいはユーザベースデータと、補完外部データと、ウェブサーバデータと、ウェブトランザクションデータとを備える。ウェブサーバデータは、転送制御プロトコル/インターネットプロトコルパケットスニッフィングによって取得されるウェブトラフィックデータ、ウェブサーバのアプリケーションプログラムインタフェースから取得されるウェブトラフィックデータ及びウェブサーバのログファイルの少なくとも1つを備える。
本発明の別の構成では、取得データは、複数種類のデータからなり、統合する工程は、コヒーレントフォーマットの収集データからなる統合化データベースを形成する工程を備える。モデルを生成する工程は、モデルを生成するために使用されるアルゴリズムを選択する工程と、選択アルゴリズムと統合化データベースに含まれるデータを使用して少なくとも1つのモデルを生成する工程と、少なくとも1つのモデルを配置する工程とを備える。少なくとも1つのモデルを配置する工程は、モデルを実現するプログラムコードを生成する工程を備える。オンライン予測あるいはリコメンデーションを生成する工程は、予測あるいはリコメンデーションに対するリクエストを受信する工程と、統合化データベースに含まれるデータを使用してモデルのスコアリングを行う工程と、生成されたスコアに基づいて予測あるいはリコメンデーションを生成する工程と、予測あるいはリコメンデーションを送信する工程とを備える。
一実施形態では、選択データを前処理する工程は、データクリーニング、来訪者識別、セッション再構築、ウェブページのナビゲーションとコンテンツページへの分類、経路確立及びファイル名のページタイトルへの変換の少なくとも1つで、選択データに対して実行する工程とを備える。別の実施形態では、選択データを前処理する工程は、ウェブサーバによって処理されたデータの所定要素を収集する工程とを備える。
本発明に従えば、エンタープライズウェブマイニングシステムは、複数のデータソースと接続されているデータベースと、そのデータベースはデータソースから収集されるデータを記憶するために動作可能であり、ウェブサーバとデータベースに接続されているデータマイニングエンジンと、そのデータマイニングエンジンは収集データを使用して複数のデータマイニングモデルを生成するために動作可能であり、ネットワークに接続されているサーバと、そのサーバは、ネットワークを介して予測あるいはリコメンデーションに対するリクエストを受信し、データマイニングモデルを使用して予測あるいはリコメンデーションを生成し、生成された予測あるいはリコメンデーションを送信するために動作可能である。
本発明の別の構成では、データベースは、収集データから構築される複数のデータベーステーブルからなる。複数のデータソースは、専用アカウントあるいはユーザベースデータと、補完外部データと、ウェブサーバデータと、ウェブトランザクションデータとを備える。ウェブサーバデータは、転送制御プロトコル/インターネットプロトコルパケットスニッフィングによって取得されるウェブトラフィックデータ、ウェブサーバのアプリケーションプログラムインタフェースから取得されるウェブトラフィックデータ及びウェブサーバのログファイルの少なくとも1つである。
本発明の別の構成では、複数のデータベーステーブルは、コヒーレントフォーマットの収集データからなる統合化データベースを形成する。データマイニングエンジンは、更に、モデルを生成するために使用されるアルゴリズムを選択し、選択アルゴリズムと統合化データベースに含まれるデータを使用して少なくとも1つのモデルを生成し、少なくとも1つのモデルを配置するために動作可能である。配置モデルは、モデルを実現するプログラムコードからなる。サーバは、統合化データベースに含まれるデータを使用してモデルのスコアリングを行い、生成されたスコアに基づいて予測あるいはリコメンデーションを生成することによって、予測あるいはリコメンデーションを生成するために動作可能である。
本発明の別の構成では、システムは、選択データを前処理するデータ前処理エンジンを更に備える。データベースは、前処理選択データから構築される複数のデータベーステーブルを備える。複数のデータソースは、専用アカウントあるいはユーザベースデータと、補完外部データと、ウェブサーバデータと、ウェブトランザクションデータとを備える。ウェブサーバデータは、転送制御プロトコル/インターネットプロトコルパケットスニッフィングによって取得されるウェブトラフィックデータ、ウェブサーバのアプリケーションプログラムインタフェースから取得されるウェブトラフィックデータ及びウェブサーバのログファイルの少なくとも1つである。複数のデータベーステーブルは、コヒーレントフォーマットの収集データからなる統合化データベースを形成する。データマイニングエンジンは、更に、モデルを生成するために使用されるアルゴリズムを選択し、選択アルゴリズムと統合化データベースに含まれるデータを使用して少なくとも1つのモデルを生成し、少なくとも1つのモデルを配置するために動作可能である。配置モデルは、モデルを実現するプログラムコードからなる。サーバは、統合化データベースに含まれるデータを使用してモデルのスコアリングを行い、生成されたスコアに基づいて予測あるいはリコメンデーションを生成することによって、予測あるいはリコメンデーションを生成するために動作可能である。データ前処理エンジンは、データクリーニング、来訪者識別、セッション再構築、ウェブページのナビゲーションとコンテンツページへの分類、経路確立及びファイル名のページタイトルへの変換の少なくとも1つを、選択データに対して実行することによって選択データを前処理する。データ前処理エンジンは、ウェブサーバによって処理される所定要素のデータを収集することによって選択データを処理する。
本発明を組み込むシステム例のブロック図である。 本発明を組み込むシステム例のブロック図である。 本発明に従う、エンタープライズウェブマイニングシステムの一実施形態のブロック図である。 本発明に従う、エンタープライズウェブマイニングシステムの一実施形態のブロック図である。 図3に示されるデータマイニングサーバのブロック図である。 図4に示されるデータベース管理システムのブロック図である。 ウェブ、電子商取引及びエンタープライズビジネスによって使用されるデータ範囲を示す図である。 本発明の情報フローを示す図である。 本発明に従う、エンタープライズウェブマイニングシステムの一実施形態のブロック図である。 図9に示されるシステムで実現される方法及び技術的な構成のブロック図である。 図10に示される構成で実現されるエンタープライズウェブマイニングの処理のフロー図である。 図11に示されるモデル生成工程のフロー図である。 図11に示されるモデルスコアリング工程及び予測/リコメンデーション生成工程のデータフロー図である。 データ、演繹及び帰納モデル間の関係を示す図である。 本発明で使用される訓練テーブルのフォーマット例を示す図である。 図15に示される訓練テーブルのエントリー群のフォーマット例を示す図である。 ナイーブ ベイズ アルゴリズム及び判断ツリーの少なくとも一方を使用して生成される帰納モデル例を示す図である。 クラスタリング及び関連付けアルゴリズムを使用して生成される帰納モデル例を示す図である。
本発明の詳細説明
本発明は、特に、インターネットベースのデータソースを含むエンタープライズワイドのデータマイニングを自動的にかつ経済的な方法で実行する技術である。インターネットベースのデータソースを含むエンタープライズデータマイニングを含むこの技術は、エンタープライズウェブマイニングと称することもできる。エンタープライズウェブマイニングは、企業、倉庫及びウェブトランザクションコンポーネントを有する複数のデータ集中データソース及びリポジトリ(集積所)(repositories)を含んでいる。本発明の方法及びフレームワークは、機械学習モデルのようなデータマイニング帰納モデルを構築するために適している方法にこれらのデータソースを組み込み、ウェブ及び汎用リレーショナルデータベース管理システムの機能の範囲で、様々なタイプの予測及びリコメンデーション問題を解決するための機能を提供する。予測及びリコメンデーション機能とは別に、本発明は、クリックストリームと他のウェブ生成データと、汎用データベースとの間でのパターンと重要な関係を発見する機能を提供する。本発明は、予測精度を改善し、複雑な行動を取り込み、かつ説明する機能を提供し、様々なビジネス上の問題において、価値の高い予測及びリコメンデーションを行う機能を提供する。
定義
ウェブマイニング − ウェブデータに含まれる関係を自動的に検討しパターンを発見する方法及びデータマイニングアルゴリズムを使用すること、このパターンは、実行可能なビジネスの決定を行い、かつパーソナライゼーション(人格化)及び1対1のビジネス情報をサポートするために使用することができる。
リコメンデーション − 個人のプリファレンスを考慮し、かつ特定の人格化動作をできる限り可能にする予測を行うリアルタイムリコメンデーション。顕在リコメンデーションは、クロスセル(cross−sell)あるいはアップセル(up−sell)要素(item)に対して使用することができる。潜在リコメンデーションは、ウェブサイトコンテンツ、ナビゲーション及び他のタイプの間接的な広告に対して使用することができる。
エンタープライズウェブマイニング(EWM) − 企業、倉庫及びウェブトランザクションコンポーネントを有する複数のデータ集中データソース及び集積所の集合を組み込むデータマイニング
潜在データ − ウェブ利用者の動作、例えば、クリック、購入及びオーディオトラックの聴取時間のような動作から取得される。
顕在データ − ウェブ利用者の質問に対する回答、例えば、Amazon.comの本の格付けのような回答から取得される。
システム
本発明を組み込むシステム100のブロック図の一例を図1に示す。システム100は、複数のユーザシステム102を含み、これは、例えば、インターネット104のようなデータ通信ネットワークを通信可能に接続されている、ユーザによって操作されるパーソナルコンピュータシステムである。ユーザシステム102は、情報に対するリクエストを生成し、インターネット104を介してウェブサーバ106へ送信する。典型的には、この情報のリクエストは、ユーザからの入力に応答して、ユーザシステム102上で動作するブラウザソフトウェアによって生成される。この情報のリクエストは、ウェブサーバ106によって受信され、処理され、通常は、そのリクエスト情報にを含む応答がウェブサーバ106からユーザシステムへ送信される。データマイニング/データ処理システム108は、ウェブサーバ106と通信可能に接続されており、ユーザシステム102からウェブサーバ106によって受信される情報のリクエストに関連する情報を受信する。システム108によって受信される情報には、実際のリクエスト自身が含まれ、これには、ウェブサーバ106によって処理あるいは生成されているリクエストに関連する他の情報を含むことができる、あるいはウェブサーバ106自身によって生成される情報に対するリクエストを含むことができる。システム108は、その受信情報を処理し、適切な応答を行う。例えば、受信情報がユーザシステム102からのリクエスト、あるいはこれらのリクエストに関連する情報である場合、システム108はデータベースにその情報を記憶する、かつ/あるいは適切な情報を抽出するためにデータベースのデータマイニングを実行する。同様に、受信情報がシステム106で生成された情報に対するリクエストである場合、システム108は、典型的には、そのリクエストに対する応答となる情報を抽出するためにデータベースのデータマイニングを実行する。
従来からのデータマイニングは、利用者データ及びトランザクションが完全に構築され、かつ適切に定義されているデータベースを組み込むために適用される。インターネットは、新規でかつ複雑な環境の発生に伴うすべての事象を変更し、この新規でかつ複雑な環境は、ウェブポータル及びサーチエンジンからの動的なクリックストリームデータから、たえず成長しているEコマース(電子商取引)(E−commerce)サイトまで、はては従来の企業の倉庫までの範囲のエンタープライズデータを含んでいる。本発明は、新規な環境にけるビジネスの問題を適切に扱うデータマイニングに対して拡張されている方法を使用している。この目的を達成するために、本発明は、貧弱なウェブEコマースから、図2に示されるような、伝統的な企業及びビジネスまでのデータマイニング要求のすべての範囲に及んでいる。図2に示されるように、本発明は、様々なデータのソースに接続されているデータマイニング/データ処理システム202を含んでいる。例えば、システム202は、システム204A〜204Nのような複数の内部あるいは専用データソースに接続することができる。システム204A〜204Nは、公にはアクセスすることができないものを含む、任意のタイプのデータソース、倉庫あるいは集積所であり得る。このようなシステムの例には、在庫管理システム、会計システム、スケジュール管理システム等が含まれる。システム202は、様々な方法でインターネット208を介してアクセス可能な複数の専用データソースに接続することもできる。このようなシステムは、図2に示されるシステム206A〜206Nを含んでいる。システム206A〜206Nは、インターネット208を介して公的にアクセスすることができ、これは、暗号化通信技術を使用して専用的にアクセスすることが可能である、あるいは公的にかつ専用的にアクセスすることができる。システム202は、インターネット208を介して他のシステムと接続することもできる。例えば、システム210は、暗号化通信を使用してインターネット208を介してシステム202へ専用的にアクセスすることが可能であり、一方で、システム212は、インターネット208を介して公的にアクセスすることが可能である。
システム202に接続されているシステムに対する共通スレッドは、接続されているシステムのすべてが、システム202に対するデータの潜在的なソースとなっている。これに含まれるデータは、任意のオリジナルソースからの任意のタプで、かつ任意のフォーマットであり得る。システム202は、利用可能なデータすべてを利用する機能を有している。
エンタープライズウェブマイニングシステム108の一実施形態を図3に示す。図3に示される実施形態では、データマイニングサーバ302は、データベース管理システム304から分離されている。データベース管理システム304は、図1に示される専用及び公開データソースのようなデータソース306と接続されている。データベース管理システムは、データ308と、データベース管理システム(DBMS)エンジン310の2つの主要構成要素を含んでいる。データ308は、典型的には、複数のデータテーブルで構成されているデータに加えて、そのデータへのアクセスを容易にするインデックス及び他の構造を含んでいる。DBMSエンジン310は、典型的には、データベースのクエリーを受信し、処理するソフトウェアを含み、そのクエリーを満足するデータを取得し、かつそのクエリーに対する応答を生成して送信する。好ましくは、DBMSエンジン310は、構造化クエリー言語(SQL)記述の形式でクエリーを受信する。データマイニングサーバ302は、ユーザ308のような1人以上のユーザからデータマイニング処理データに対するリクエストを受信し、そのデータに対するリクエストを処理し、データベースクエリーを生成してデータベース管理システム304へ送信し、そのクエリーに対する応答を受信し、そのクエリーを処理して、かつそのユーザへ応答を送信する。
エンタープライズウェブマイニングシステム108の別の実施形態を図4に示す。図4に示される実施形態では、データマイニング機能は、データベース管理システム402に含まれている。データベース管理システム402は、図1に示される専用及び公開データデータソースのようなデータソース404に接続されている。データベース管理システムは、データ406とデータベース管理システム(DBMS)エンジン408の2つの主要構成要素を含んでいる。データ406は、典型的には、複数のデータテーブルで構成されているデータに加えて、そのデータへのアクセスを容易にするインデックス及び他の構造を含んでいる。DBMSエンジン408は、典型的には、データベースのクエリーを受信し、処理するソフトウェアを含み、そのクエリーを満足するデータを取得し、かつそのクエリーに対する応答を生成して送信する。DBMSエンジン408は、データマイニング部410を含み、これは、ユーザ412のような1人以上のユーザからのデータマイニング処理データに対するリクエストのために、データを取得し、そのデータのデータマイニング処理を実行する機能を有するDBMSエンジン408を提供する。
図3に示されるデータマイニングサーバ302のブロック図の一例を図5に示す。データマイニングサーバ302は、典型的には、パーソナルコンピュータ、ワークステーション、サーバシステム及びミニコンピュータあるいはメインフレームコンピュータのようなプログラム化汎用コンピュータシステムである。データマイニングサーバ302は、プロセッサ(CPU)502、入力/出力回路504、ネットワークアダプタ506及びメモリ508を含んでいる。CPU502は、本発明の機能を実行するためのプログラム命令群を実行する。典型的には、CPU502は、インテル ペンティアム(登録商標)プロセッサのようなマイクロプロセッサであるが、ミニコンピュータあるいはメインフレームコンピュータプロセッサであっても良い。入力/出力回路504は、データマイニングサーバ302に対するデータの入出力を行う機能を提供する。例えば、入力/出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ等のような入力デバイスを含むことができ、ビデオアダプタ、モニタ、プリンタ等のような出力デバイスを含むことができ、かつモデム等のような入力/出力デバイスを含むことができる。ネットワークアダプタ506は、ネットワーク510とデータマイニングサーバ302とを接続する。ネットワーク510は、イーサネット(登録商標)、トークンリング、インターネットあるいは専用あるいは公衆LAN/WANのような標準的なローカルエリアネットワーク(LAN)あるいはワイドエリアネットワーク(WAN)であっても良い。
メモリ508は、本発明のデータマイニング機能を実行するための、CPU502によって実行されるプログラム命令群を記憶し、かつCPU502によって使用されかつ処理されるデータを記憶する。メモリ508は、電気的メモリデバイスを含むことができ、これには、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、プログラマブルリードオンリメモリ(PROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、フラッシュメモリ等があり、また、電気機械式メモリを含むことができ、これには、磁気ディスクドライブ、テープドライブ、光ディスクドライブ等があり、これらの電気機械式メモリは、例えば、統合化トライブエレクトロニクス(IDE)インタフェース、あるいはその変形あるいは拡張である拡張IDE(EIDE)あるいはウルトラダイレクトメモリアクセス(UDMA)、あるいはスモールコンピュータシステムインタフェース(SCSI)規格インタフェース、あるいはその変形あるいは拡張であるファストSCSI、ワイドSCSI、ファストアンドワイドSCSI等、あるいはファイバチャネル調停ループ(FC−AL)インタフェースを使用することができる。
メモリ508は、データ512、処理ルーチン514及びオペレーティングシステム516を含んでいる。データ512は、図3に示されるデータベース管理システム304から検索され、かつデータマイニング機能に対して使用されるデータを含んでいる。処理ルーチン514は、本発明によって実行されるデータマイニング処理を実現するソフトウェアルーチンである。オペレーティングシステム520は、システム全体の機能を提供する。
図4に示されるデータベース管理システム402のブロック図の一例を図6に示す。データベース管理システム402は、典型的には、パーソナルコンピュータ、ワークステーション、サーバシステム及びミニコンピュータあるいはメインフレームコンピュータのようなプログラム化汎用コンピュータシステムである。データベース管理システム402は、プロセッサ(CPU)602、入力/出力回路604、ネットワークアダプタ606及びメモリ608を含んでいる。CPU602は、本発明の機能を実行するためのプログラム命令群を実行する。典型的には、CPU602は、インテル ペンティアム(登録商標)プロセッサのようなマイクロプロセッサであるが、ミニコンピュータあるいはメインフレームコンピュータプロセッサであっても良い。入力/出力回路604は、データベース管理システム402に対するデータの入出力を行う機能を提供する。例えば、入力/出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ等のような入力デバイスを含むことができ、ビデオアダプタ、モニタ、プリンタ等のような出力デバイスを含むことができ、かつモデム等のような入力/出力デバイスを含むことができる。ネットワークアダプタ606は、ネットワーク610とデータマイニングサーバ202とを接続する。ネットワーク610は、イーサネット(登録商標)、トークンリング、インターネットあるいは専用あるいは公衆LAN/WANのような標準的なローカルエリアネットワーク(LAN)あるいはワイドエリアネットワーク(WAN)であっても良い。
メモリ608は、データベース管理システム402の機能を実行するための、CPU602によって実行されるプログラム命令群を記憶し、かつCPU602によって使用されかつ処理されるデータを記憶する。メモリ608は、電気的メモリデバイスを含むことができ、これには、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、プログラマブルリードオンリメモリ(PROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、フラッシュメモリ等があり、また、電気機械式メモリを含むことができ、これには、磁気ディスクドライブ、テープドライブ、光ディスクドライブ等があり、これらの電気機械式メモリは、例えば、統合化トライブエレクトロニクス(IDE)インタフェース、あるいはその変形あるいは拡張である拡張IDE(EIDE)あるいはウルトラダイレクトメモリアクセス(UDMA)、あるいはスモールコンピュータシステムインタフェース(SCSI)規格インタフェース、あるいはその変形あるいは拡張であるファストSCSI、ワイドSCSI、ファストアンドワイドSCSI等、あるいはファイバチャネル調停ループ(FC−AL)インタフェースを使用することができる。
メモリ608は、データ406、データベース管理処理ルーチン612、データマイニング処理ルーチン614及びオペレーティングシステム616を含んでいる。データ406は、典型的には、複数のデータテーブルで構成されているデータに加えて、そのデータへのアクセスを容易にするインデックス及び他の構造を含んでいる。データベース管理処理ルーチン612は、データベースクエリー処理のようなデータベース管理機能を提供するソフトウェアルーチンである。データマイニング処理ルーチン614は、本発明によって実行されるデータマイニング処理を実現するソフトウェアルーチンである。好ましくは、このデータマイニング処理は、データベース管理処理に統合される。例えば、データマイニング処理は、標準SQLあるいは拡張SQL記述のどちらかの形式のデータベースクエリーを受信することによって初期化されても良い。オペレーティングシステム620は、システム全体の機能を提供する。
ウェブ、eコマース及びエンタープライズビジネスによって使用されるデータ範囲の例を図7に示す。伝統的な従来型の企業(brick and mortar enterprises)702は、典型的には、大量の企業管理(warehousing)データを使用しており、そのデータベースにはウェブデータはわずかあるいは全く持っていない。一方、真のウェブベースのビジネスの領域、例えば、ウェブポータルあるいはサーチエンジンは、主要なウェブトランザクションを記憶し、かつ企業データについてはわずかにあるいは全く持つことがない。多くの企業は、過度ではなく、むしろウェブと企業ビジネスの混合型706に属しており、そのため、企業管理データとウェブトランザクションデータの両タイプのデータを持っている。
ウェブエンタープライズあるいはeコマースサイトが従来よりのデータマイニングにもたらす条件や変更を視覚的に示す方法としては、ウェブサイトが「仮想百貨店」であることを想定する方法がある。これは、従来の百貨店と、以下の3点が異なる。
i)ユーザを識別でき、かついくつかの場合にはタグ付けすることができる。
ii)正確な閲覧あるいは購入経路を記録することができる
iii)店舗の構成(仮想百貨店、セールスエージェントの特徴等)を動的に変更して、各顧客毎にカスタマイズすることができる。
本発明の情報フロー図の一例を図8に示す。情報は、ウェブ、個々のユーザの行動と情報に対する特定リクエスト、加えて、他のソースから収集される。例えば、ウェブ802から収集される情報は、クリックストリーム及びウェブオグラフィック(webographics)情報804、調査及びサーチリクエスト806、登録情報808、企業データベース管理システム情報及びデモグラフィック情報810及び、取引貨幣、金融情報等の会計情報812を含んでいる。この情報は統合され、エンタープライズウェブマイニングシステム814に送信される。エンタープライズウェブマイニングシステム814は、ウェブサーバ816でその統合データを受信し、そのデータを適宜、ウェブ倉庫818及び内部データベース820の少なくとも一方に記憶する。データマイニングエンジン822及びオンライン解析処理(OLAP)機能824は、ウェブ倉庫818及び内部データベース820に記憶されているデータを取得して解析し、消費者828あるいは他のユーザへの送信対象となる、カスタム化かつ/あるいはパーソナライズ化情報826を生成する。データマイニングエンジン822は、データに隠されているパターンを発見する一方で、OLAP機能824はデータの多次元解析を提供する。生成されるカスタム化かつパーソナライズ化情報のタイプの例には、選択されたウェブページのコンテンツ、ページ間のナビゲーション、広告、消費者サービス情報、検索結果、クロスセリング情報、リンク、ショートカット、製品、プロモーション、メーリング及びコールセンター情報が含まれる。
多くのデータマイニングの問題には、3つのパラダイム、つまり、管理学習、関連解析及びクラスタリングの1つに従って説明される。これらのパラダイムは、リスクアセスメント、消耗(attrition)及び保有モデリング、キャンペーンマーケティング、不正検出、消費者プロファイリング、利益及びクロスセリングのような、企業とデータベースマイニングにおける様々な問題に適用されている。これらの適用問題は、通常、アカウントあるいはユーザ中心の観点から検討される。各ユーザのすべての関連情報はマージされ、1つのレコードにまとめられる。入力データセットは、通常は、大量の専用2次元テーブルのようになっており、このテーブルの列には、属性(固有パラメータ)が対応付けられている。管理学習方法においては、ある特定列を、データマイニングモデルの従属パラメータとして使用される「ターゲット」を提供する。関連モデリングは、小規模構成方法(即ち、特定ターゲットフィールドとは別に)で、関係、つまり、共通パターン及び傾向の発見を試行する。これらの関係は、データセットの異なる属性間の統計的相互関係によって支援され、独立、補助及び信頼閾値を与えることによって抽出される。関連解析は、典型的には、トランザクションあるいはマーケットバスケットデータに適用される。この場合、データセットは、個々の売上に対応する要素のバスケットあるいはグループのリストとなっているトランザクションデータを構成する。ここでも、データセットは、2次元テーブルであるが、この場合は、潜在的にかなり散在している状態である。クラスタリングは、データ削減及びクラス発見のために使用される。これは、グループを類似グループに記録する一般相関関係構造発見するための方法である。クラスタリングは、アカウントあるいはトランザクションベースのデータセットの両方に適用される。多くのデータマイニングツールセットは、これらのパラダイムのインスタンス(例証)を提供するアルゴリズムをサポートしているが、1つの問題に3つのパラダイムが共通してかかわることはない。
多くの一般的に実用化されているエンタープライズウェブマイニング(EWM)は、集中データソースと、企業、倉庫及びウェブトランザクションコンポーネントを有する保管場所の集合を含んでいる。この異種混交状態にある結果、本発明は、3つの学習パラダイムをサポートし、図3に示されるウェブエンタープライズの範囲に従う様々なタイプのマイニング問題をシステムが解決することを可能にするのに適している方法で、これらのデータソースを合体しなければならない。本発明の範囲の一側面は、アカウント中心ウェブデータによって増大されている企業RDBMS上で伝統的なデータマイニングモデリングを実行する機能を提供することにある。本発明の範囲の別側面は、サーチエンジンのようなサイトで必要とされるである、真のトランザクショナル関連解析を実行する機能を提供することにある。多くのウェブサイトと企業活動は、どこでも中心となっている。
つまり、本発明は、以下の機能を提供する。
・ウェブサーバデータからセッション情報の抽出
・ウェブサイトの来訪者の行動をその来訪者のプリファレンスについてのデータに変換
・ウェブトランザクション及び閲覧行動データを消費者情報とデモグラフィックに統合
・入力ウェブ及び企業データとして使用する様々なマイニング問題(例えば、クロスセリング、アップセリング、マーケットセグメンテーション、消費者確保及び利益)のサポート
・興味深く、かつ関連のあるパターン、クラスタ、トランザクション及びユーザ消費者データでの関係の発見の支援
本発明で実行される重要な機能は、コヒーレントな方法で、多くの既存情報の集合体、記憶及び決定要素を統合することである。これを実行するために、統合処理手順とユーザインタフェースが定義されなければならない。
これは、3種類のウェブマイニングを区別するのに有効である。ウェブに展開されている汎用のデータマイニングからなるウェブマイニングは、広告、クロスセリング等に対するセグメンテーションモデルの結果を使用するためのウェブページ機能を提供する。クリックストリームデータのデータマイニングからなるウェブマイニングは、統計的利用明細、オンラインパーソナライズ化リコメンデーション及びオンラインパーソナライズ化ナビゲーション及び汎用コンテンツを生成する機能を提供する。本発明によって提供される、完全自立エンタープライズウェブマイニングは、取得、クロスセリング及び保有を含む企業/ウェブ消費者のライフサイクル全体を網羅するクリックストリーム及び概念的なクラスと、伝統的なマイニングを統合する機能を提供する。加えて、人工的なインテリジェンスセールスエージェントで動的なパーソナライズ仮想ストアを実現する機能を提供する。
本発明の別の重要な構成は、パーソナライゼーションアプリケーションがある。パーソナライゼーションアプリケーションは統合ソフトウェアアプリケーションであり、これは、ウェブサイトに対し、ウェブサイト来訪者及び消費者に提供するリコメンデーションをカスタマイズあるいはパーソナライズする方法を提供する。
リコメンデーションは、ウェブサイトへの各来訪者毎にパーソナライズ化される。これは、広範囲で、一般的な市場区分にリコメンデーションを適応させるという固有の効果を有している。リコメンデーションは、ナビゲーション動作、格付け、購入、加えて、デモグラフィックデータのような来訪者のデータ及び行動に基づいている。
パーソナライゼーションアプリケーションはデータを収集して、それを使用して予測モデルを構築する、この予測モデルは、「リンクxとyをクリックし、かつaとbのデモグラフィック特性を有している操作者はzを購入する傾向がある」といような形式のパーソナライズ化リコメンデーションをサポートする。
パーソナライゼーションアプリケーションは、ウェブへの来訪者のセッション中は、リアルタイムで来訪者の行動をそのリコメンデーションに組み込む。例えば、パーソナライゼーションアプリケーションは、クリックされているリンクはない等の、ウェブサイトを介する来訪者のナビゲーションを記録する。これらはすべて、その来訪者用として記憶される。来訪者は、例えば、書籍あるいは映画の類の格付けを行うためのウェブサイトのリクエストに応答することができ、この格付けは、その来訪者に対して記憶されるデータの一部となる。来訪者に対するウェブベースの行動のすべては、データベースに保存される、このデータベースは、パーソナライゼーションアプリケーションがその行動を使用して予測モデルを構築するために使用するデータベースである。このデータは、予測精度が向上することによって、次のセッションで収集されるデータとともに更新することができる。
パーソナライゼーションアプリケーションは、既存のウェブアプリケーションと協働して動作する。ウェブアプリケーションは、パーソナライゼーションアプリケーションに要求して、ある行動を記憶し、そのデータはパーソナライゼーションアプリケーションによってスキーマに保存される。ウェブアプリケーションは、パーソナライゼーションアプリケーションに要求して、ウェブサイトの来訪者によって購入されそうな製品のリストと、来訪者の現在の行動と、ウェブアプリケーションに処理される別のスキーマに従うリコメンデーションのリストとを生成する。
第3のスキーマは、管理スケジュールと行動を保持する。
パーソナライゼーションアプリケーションは、以下の4種類のデータを収集する。
・ナビゲーション的行動
・格付け
・購入
・デモグラフィックデータ
これらによって、ナビゲーション的行動は、かなりの柔軟性を持たすことができる。ウェブアプリケーションがヒット(ページの閲覧、リンク/要素(アイテム)(item)等のクリック操作)を検討したいということを表現することができる。
ウェブサイトへの来訪者には2種類あり、登録来訪者(消費者)と未登録来訪者(ビジター)がある。消費者に対しては、パーソナライゼーションアプリケーションは、その消費者に対して時系列に収集された履歴データ及び現在のセッションのデータの両方に対してと、デモグラフィックデータを有している。ビジターに対しては、履歴データは存在しない、そのため、リコメンデーションは、可能である場合には、現在のセッションの行動とデモグラフィックに基づいている。
好ましくは、パーソナライゼーションアプリケーションは、REAPI(リコメンデーションエンジンアプリケーションプログラミングインタフェース)によって提供されるJava(登録商標)コールを使用してデータを収集する。これらのコールは、セッションIDによって識別される特定セッションに対するリコメンデーションエンジンキャッシュに情報を追加する。リコメンデーションエンジンは、REAPIコールで処理される以下の論証の1つを参照することによって、正しいセッションIDを発見する、このREAPIコールには、appSessionID−−セッションフル(sessionful)ウェブアプリケーション(つまり、各セッションに対して識別子を記憶するアプリケーション)によって使用される、customerID−−セッションレス(sessionless)ウェブアプリケーション(つまり、各セッションに対して識別子を記憶しないアプリケーション)によって使用される、がある。より詳細には、収集されたデータは、JServ(Java(登録商標)サーバ)のデュアルバッファキャッシュに一時的に記憶される。定期的に、JServバッファは更新され、データは適切なリコメンデーションエンジンスキーマに送信される。次に、セッションデータが使用され、履歴データと組み合わされて、リコメンデーションを生成する。そして、リコメンデーションエンジンインスタンスは、定期的に、終了しているあるいはタイムアウトしているセッションに対するマイニングテーブルリポジトリ(repository)(MTR)にデータを更新する。リコメンデーションエンジンは、そのコンフィギュレーションパラメータによって特定されるタイプのデータソースとともにデータのみをMTRに更新する。MTR内のデータは、次に、将来配置する予測モデルを構築するために使用される。
いくつかのウェブアプリケーションはセッションフルである、即ち、それらはウェブサイトへ来訪する各ユーザに対するセッションを生成する。それ以外はセッションレス(ステートレス(stateless))である、即ち、それらはセッションを生成しない。コールしているウェブアプリケーションがセッションフルあるいはセッションレスであろうとをなかろうと、パーソナライゼーションアプリケーションは常にセッションフルであり、パーソナライゼーションアプリケーションは常に内部にセッションを生成し、ウェブサイトが存在する場合には、そのセッションをウェブサイトのセッションへ割り当てる。パーソナライゼーションアプリケーションセッション中には、ウェブアプリケーションは、データ及びリクエストリコメンデーションの少なくとも一方を収集することができる。
パーソナライゼーションアプリケーションは、そのデータを使用してデータマイニングモデルを構築する。このモデルは、ウェブサイトの来訪者が興味を持っているかあるいは購入しようとしているかを予測する。この予測は、ウェブサイトの来訪者の直前のセッション、現在のセッション及びデモグラフィック情報に対して収集されたデータに基づいている。パーソナライゼーションアプリケーションアプリケーションの管理者は、モデルあるいはモデル群を構築するために必要な情報と、加えて、データベース接続に関する情報を含むパッケージを定義する。パーソナライゼーションの管理者は、そのパッケージを構築し、かつそのパッケージをリコメンデーションを生成するリコメンデーションエンジン群(RE群)に配置するためのスケジュールを生成し、管理する。いくつかのパッケージを有するリコメンデーションエンジンは、リコメンデーションエンジンフレーム(REフレーム)群にグループ化される。これらとその関連する用語は、次のセクションでより完全に定義する。
パーソナライゼーションアプリケーションは、ウェブアプリケーションによって要求されるリコメンデーションのタイプに依存する、様々なデータマイニングアルゴリズムを使用する。特に有効な2つのアルゴリズムは、状態可能性に関連するベイズ(Bayes)理論に基づいている。これらのアルゴリズムを以下に説明する。
本発明に従う、エンタープライズウェブマイニングシステム900の一実施形態のブロック図の例を図9に示す。図9は、物理的及び論理的構成要素の例であり、これは、本発明のエンタープライズウェブマイニングシステムを構成するように組み合わされている。システム900は、複数のデータソース902、データ処理エンジン903、ウェブ倉庫あるいはウェブデータ保管庫904、ウェブサーバ906、データマイニングエンジン908、報告エンジン910及びウェブポータルページ912を含んでいる。データソース902は、企業データ914、外部データ916、ウェブトランザクションデータ918及びウェブサーバデータ919を含んでいる。企業データ914は、伝統的な専用の企業データベースあるいはアカウントあるいはユーザベースのレコードを記憶するデータ保管庫を含んでいる。例えば、名前、年齢、購入されたサービスあるいは商品の量、初期製造からの経過時間等がある。外部データ916は、外部デモグラフィックのような相補データと、外部ソースから取得される他のデータを含んでいる。ウェブトランザクションデータ918は、ウェブを介して完了している購入、情報要求等のトランザクションに関するデータを含んでいる。ウェブデータ919は、TCP/IPパケットスニッフィング(sniffing)(実データ収集)によるウェブトラフィックデータ、ウェブサーバのAPIへ直接アクセスすることによって取得されるデータ及びウェブサーバログファイルを含んでいる。
ウェブ倉庫904は、ORACLE8I(登録商標)のような任意の標準大規模リレーショナルデータベースシステムを使用して構築される。特別に設計されているスキーマは、マイニング処理とウェブサイト動作の有効な報告をサポートする。ウェブ倉庫は、データマイニングデータを記憶し、これは、通常、データマイニングモデルを構築するために使用されるデータテーブルで構成される。ウェブサーバ906は、APACHE(登録商標)、NASPI(登録商標)及び、ISAPI(登録商標)のような任意の標準ウェブサーバに基づいていても良い。ウェブサーバ906は、ウェブアプリケーション920、アプリケーションプログラムインタフェース922及びリアルタイムリコメンデーションエンジン924を含むように拡張されている。ウェブアプリケーション920は、API922を使用してデータを収集し、リアルタイムリコメンデーションエンジン924からリコメンデーションを要求することができる任意のアプリケーションを含んでいても良い。API922は、ウェブアプリケーション920によって使用されるルーチン、プロトコル及びツールのセットである。APIの機能は、データ収集及び前処理と、リアルタイムリコメンデーションの2つのグループに分けることができる。リアルタイムリコメンデーションエンジン924は、データマイニングエンジン908によって、オフラインで構築されたモデルを使用して、リアルタイムリコメンデーション(予測)を提供する。また、リアルタイムリコメンデーションエンジン924は、ウェブアプリケーション920からリアルタイムデータを収集する機能を提供する。ウェブアプリケーション920は、API922を介して、リアルタイムリコメンデーションエンジン924と通信する。
データ処理エンジン903は、抽出及び変換コンポーネントを提供する、これは、ウェブログと他の企業情報ソースからデータを抽出し、それをデータマイニングモデル構造に適している形式に変換する。データ処理エンジン903には、いくつかのメインサブコンポーネントが存在する。マッピング及び選択コンポーネントは、企業データソース914から得られる企業データベーステーブルを読み出し、特定フィールドをアカウントベースのマイニングテーブルに割り当てる。ウェブデータ変換コンポーネントは、実際のログファイルを読み出し、任意に、外部データソース916からトランザクションサマリーを読み出し、それらを本発明によって使用されるトランザクションベースマイニングスキーマ(TBMS)へ変換する。また、ウェブデータ変換コンポーネントは、言語解析と、オリジナルと変換されたウェブデータ上のキーワード抽出を実行して、概念テーブル、概念ベースのマイニングスキーマ(CBMS)を実行する。
データマイニングエンジン908は、ORACLE DRAWIN4.0(登録商標)のような任意の標準データマイニング技術に基づいていても良い。データマイニングエンジン908は、いくつかの機械学習技術を使用してデータマイニングモデルを生成する。各機械学習技術は、各モードに対して適切なモデル構築機能を提供する1つ以上のモジュールで実施される。好ましくは、サポートされている機械学習技術は、ナイーブ ベイズ(Naive Bayes)モデリング、関連ルール及び帰納モデルの生成用の判断ツリーモデルを含んでいる。ナイーブ ベイズ モデルは、高速インクリメンタル学習機能を提供する。分類及び回帰ツリー(CART)のタイプの判断ツリーは、トランスペアレントで、かつ強力なオンラインルールを提供し、バッチによって処理されても良い。加えて、自己構築マップクラスタリングモジュールは、セグメンテーションとプロファイリングを行うための機能を提供する。サポートされているウェブマイニング方法は、広範囲のエンドユーザ機能を実行するための機能を提供する。例えば、本発明は、オンライン消費者のライフサイクルをサポートすることができ、これは、消費者獲得、消費者成長、消費者確保及びライフタイム有益性のような要素を含んでいる。付加的な例としては、最適化あるいはウェブサイト構築を介するクリックが含まれる。
報告エンジン910は、サイト統計、時間単位での、ブラウザから購入者への切替、時間単位でのリコメンデーション有効性、時間単位での多くのクロスセリング製品、製品単位でのクロスセリング用の製品のような様々な報告及び結果のサマリーを提供する。
ウェブポータルページ912は、システムのコンポーネントのすべてにアクセスするための、主要なグラフィカルユーザインタフェース(GUI)を提供する。ウェブポータルページ912は、ポートレットの集合として構築され、これは、主要なコンポーネントへのエントリーポイントとして機能する。逆に、各コンポーネントは、主要な操作とパラメータがウェブページコンテンツの一部として提供されるメインページを有している。これらのコンポーネントページにおいては、例えば、「チェックボックス」の選択によって、カスタマイズが可能である。ウェブサイトのパーソナライゼーション処理の構成は、ポータルページ912を介して管理され、これは、GUIと他の主要なコンポーネントを有するインタフェースで実現される。
フレームワーク
図9、10及び11は、本発明の様々な構成を示しており、また、最良の組み合わせを示している。図9は、本発明のエンタープライズウェブマイニングシステムを形成するように組み合わされている物理的及び論理的構成要素の例である。図10は、本発明のエンタープライズウェブマイニングシステムのデータフローの例である。つまり、図9は、エンタープライズウェブマイニングシステムを構成する物理的及び論理的構成要素を表現しており、一方、図10は、図9に示される物理的及び論理的構成要素によって生成され、記憶されるデータと、また、実行される処理を表現している。図11は、図9に示される物理的及び論理的構成要素によって実行される処理のフロー図である。この処理は、図10でも示される。
図9に示されるシステムで実現されるエンタープライズウェブマイニングシステム1000の方法及び技術的フレームワークのデータフロー図の例である図10によれば、システム1000は、複数のデータソースを含み、これには、企業データベース914によって通常提供される企業消費者データ1002、外部データベース916によって通常提供される補助あるいは外部消費者データ1004、ウェブデータベース919によって通常提供されるウェブサーバデータ1006、ウェブトランザクションデータベース918によって通常提供されるウェブトランザクション及び来訪者データ1008がある。システム1000は、複数のデータ処理部を含んでおり、これには、特徴選択・マッピング部1010及び1012、ウェブデータ処理部1013があり、これらは、通常、データ処理エンジン903で実現される。システム1000は、複数のデータテーブルを含んでおり、これには、アカウントベースのテーブル1014、トランザクションベースのテーブル1016、トランザクションサマリーテーブル1018があり、これらはウェブ倉庫904に通常記憶されている。システム1000は、複数の未訓練データマイニングモデルを含んでおり、これには、管理学習モデル1022、クラスタリングモデル1024、関連モデル1026及び統計解析モデル1028があり、これらは、データマイニングエンジン908によって通常処理(訓練)される。システム1000は、複数の訓練化データマイニングモデルを含んでおり、これには、統計サマリー1030、関連ルール1032、クラスタ/セグメント1034、スコアリングモデル&ルール1036、加えて、ブロック1040に含まれている、レポート、視覚化、スコア及び配置モデルがある。訓練化データマイニングモデルはデータマイニングエンジン908によって通常処理され、これは、ブロック1040の配置モデルを生成する。配置モデルは、リアルタイムリコメンデーションエンジン924によって使用され、動的ウェブページ、予測及びリコメンデーション1042を生成する。ブロック1040のレポートは、報告エンジン910によって通常生成される。その他のオンライン処理は、オンライン解析処理(OLAP)エンジン1038によって実行される。
ここで、図10に示されるフレームワークで実現されるエンタープライズウェブマイニングに対する処理1000のフロー図の例である図11を参照する。処理1100の4つのメインステップは、データ収集1102、データ統合1104、モデル生成1106、オンラインリコメンデーション1108である。図10及び図11を一緒に説明し、これは最良の組み合わせである。図9の物理的及び論理的構成要素も参照する。処理1100はステップ1102で開始し、ここでは、データが収集され、処理1100の残りのステップで使用可能な形式のデータを生成するために処理される。ステップ1102は、複数のステップを含んでいる。ステップ1102は、ステップ1102−1で開始し、ここでは、図9に示されるデータソース902のような、システム1000が操作するデータソースからデータが取得される。データソースには、企業消費者データ1002を提供する企業データベース914、補完消費者データ1004を提供する外部データベース916、ウェブトランザクション・来訪者データ1008を提供するウェブトランザクションデータベース918、ウェブサーバデータ1006を提供するウェブサーバデータベース919がある。データソースから取得されるデータは、システム1000のブロック1002、1004、1006及び1008として示されている。ステップ1102−2では、システムからの指定データに関連するデータが、取得されているデータ群から選択される。ステップ1102−3では、選択データは、データが使用可能で、適切な形式にする等のことを満足するために、前処理がなされる。ステップ1102−2及び1102−3で実行された処理は、システム1000のブロック1010、1012及び1013で示され、これは、データ前処理エンジン903によって通常実行される。ステップ1102−4では、システム1000のテーブル1014、1016及び1018のような、システムによって使用れるデータテーブルが構築され、これは、通常、ウェブ倉庫904に記憶される。
処理1000のステップ1104は、様々なタイプのデータの統合を含み、これらのデータは、コヒーレントフォーマットで集約されたデータのすべてを含む統合データベースを形成するために収集されたものである。例えば、ウェブベースのデータは、各ユーザに対するアカウントベースのデータとともに統合されても良い。同様に、様々な量で、かつ異なるタイプのデータを有する様々なタイプのユーザに対するデータが統合されても良い。形成された統合データは、アカウントベースのテーブル1014、トランザクションベースのテーブル1016及びトランザクションサマリー1018を含んでいる。このデータは、ウェブ倉庫904に通常記憶される。
処理1100のステップ1106は、モデルの生成及び配置を含んでおり、このモデルは、オンラインリコメンデーション及び予測を実行するために使用される。ステップ1106の処理は、データマイニングエンジン908によって通常実行される。ステップ1106は、複数のステップを含んでいる。ステップ1106は、モデルセットアップステップ1106−1で開始し、ここでは、モデルを生成するために使用されるアルゴリズムが選択され、セットアップされる。アルゴリズムと対応するデータ構造が一旦選択され、セットアップされると、これらは、モデル1022、1024、1026及び1028のような未訓練モデルと見なされる。ステップ1106−2では、モデルのロジック、状態及び決定を定義する情報のような訓練モデルを形成する表現が、訓練データを使用して生成される。これらの訓練モデルは、統計的サマリー1030、関連ルール1032、クラスタ/セグメント1034及びスコアリングモデル&ルール1036を含んでいても良い。ステップ1106−3では、システム1000のブロック1030、1032、1034及び1036のような生成モデルの表現が評価され、かつそのモデルの品質を改善するために改良される。ステップ1106−4では、評価モデルが適切なフォーマットに符号化され、例えば、ブロック1040で使用するために配置される。
処理1100のステップ1108は、オンラインユーザの動作に応答するオンラインリコメンデーションの生成を含んでいる。ステップ1108の処理は、リアルタイムリコメンデーションエンジン924によって通常実行される。ステップ1108は、後述する複数のステップを含んでいる。
ステップ1102、1004、1006及び1108を詳細に説明する。
データ収集
処理1100のデータ収集ステップ1102は、取得1102−1、選択1102−2、データのプレデータマイニング処理1102−3及びデータテーブルの構築1102−4を含み、これらは、システム1000で実現されるウェブマイニング処理で使用される。利用されるデータソースには、企業消費者データ1002、補完あるいは外部データ1004、ウェブサーバデータ1006、ウェブトランザクション・来訪者データ1008がある。企業消費者データ1002は、伝統的な企業データベースあるいはデータ保管庫を含んでおり、これは、アカウントあるいはユーザベースのレコードを記憶している。例えば、名前、年齢、サービスあるいは商品の購入量、初期生成からの経過時間等がある。補完データ1004は、外部デモグラフィックス及び外部ソースから取得される他のデータのような補完データを含んでいる。
ウェブサーバデータ1006は、TCP/IPパケットスニッフィング(sniffing)(生データ収集)からのウェブトラフィックデータ、ウェブサーバのAPIへのダイレクトアクセスによって取得されるデータ及びウェブサーバログファイルを含んでいる。TCP/IPパケットスニッフィングは、ウェブサーバに対するTCP/IPパケットの送受信を監視することによる実際のデータ収集を提供する。この技術は、従来よりのログファイル以上の、いくつかの利点を有している。例えば、パケットスニッフィングは、リアルタイムデータ収集を提供することができ、これは、「POST」変数、「HOST」ヘッダ等のようなログファイルで検出されない情報を取得することができ、また、これは、ログファイルフォーマットと、使用しているオペレーティングシステムとは独立しているので、任意のウェブサーバをサポートすることができる。ウェブサーバのAPIへのダイレクトアクセスは、SSL暗号化を使用するサイトに対して必要である。この場合のTCP/IPパケットスニッフィングは、パケットが暗号化されていないので、有効ではない。ウェブサーバログファイルは、多くのウェブサーバによって保持される基本情報がほとんどである。ウェブサーバログファイルは、通常は、テキストファイル(ASCII)であり、この各行には、どのコンピュータがサーバへのリクエストを行い、どのファイルが要求されたかについての情報を含んでいる。ログファイルには様々なフィールドが含んでおり、例えば、インターネットプロバイダIPアドレス、識別フィールド、保護エリアへのアクセスを行うために来訪者が必要となる認証ユーザ名、トランザクションのグリニッジ標準時(GMT)での日時、トランザクションに含まれるファイル名に続く「GET」、「POST」あるいは「HEAD」のようなトランザクション方法、ウェブサーバからのステータスあるいはエラーコード、リクエスト中にクライアントへ転送されるバイト数、リクエストを行った時の来訪者が閲覧しているページ及びサイト、リクエストを行うために使用されるブラウザ及びオペレーティングシステムを識別するコード、ブラウザからの任意のクッキー情報がある。様々なウェブサーバが、異なる形態でこれらの情報を記憶している。APACHE(登録商標)、LOTUS DOMINO(登録商標)、MICROSOFT INTERNET SERVER(IIS)(登録商標)、NETSCAPE SUITESPOT(登録商標)及びO’REILLY WEBSITE(登録商標)を含むいくつかの汎用的なサーバは、本発明を組み込むことができる。
ウェブトランザクションデータ1008は、ウェブサイトセッションと来訪者からのトランザクションデータを含んでいる。
特徴選択及びマッピング部1010及び1012は、企業データベーステーブルに存在する汎用属性と特定特徴間の基本マッピングを実行する。企業データベーステーブルの特徴は、指定された出力に対する関係及び条件の少なくとも一方に基づいて選択される。データベースの特徴の選択は直接的なものであり、あるいは、ナイーブ ベイズのような機会学習アルゴリズムあるいはロジスティックリグレッション(Logistic Regression)のような統計的解析を、多くの関連特徴を選択するために使用しても良い。特定関連特徴の選択は、データマイニング処理で使用されるデータベースの次元数を削減するためにかなり重要である。基本企業RDB1002と補完RDB1004の両方に対する特徴選択のアプリケーションは、類似している。
データ収集処理によって構築されるデータマイニングテーブルの例には、アカウントベーステーブル1014、トランザクションベーステーブル1016及びトランザクションサマリーテーブル1018がある。これらのテーブルの構造は、以下で説明する。ウェブデータに基づいているマイニングテーブルを構築する2つの基本処理が存在し、それは、ウェブデータ前処理と所定データ収集である。ウェブデータ前処理は、ウェブデータ前処理部1013によって実行される。ウェブマイニングと他のデータマイニング動作を区別するキー要素の1つは、来訪者トランザクションと経路確立を識別するために使用される方法である。その結果、システムの重要な要素はウェブサーバアクセスログからの前処理及びトランザクションレコードの導出である。ウェブアクセスデータはトランザクションベースである必要がなく、極端に大きく、かつかなり粗く(極微に)することができる。ブロック1018によって実行されるウェブデータ前処理は、データクリーニング、来訪者識別、セッションの再構築、ウェブページのナビゲーションとコンテンツページへの分類、経路確立及びファイル名のページタイトルへの変換を含んでいる。
データクリーニングは、たいてはかなり冗長であるウェブサーバログファイルから、冗長なあるいは無関係な情報を除去する。データクリーニングは、ログファイルから有益な情報を取得する前に必要である。
ウェブサイトへの来訪者の識別である来訪者識別は、通常は、コンピュータIPアドレスを使用して実行する、これは、ウェブサーバへのすべてのリクエストがこの情報を含んでいるからである。これは完全な技術ではない、なぜなら、複数の来訪者が同一のIPアドレスを共有することができ、大組織及び多くのインターネットサービスプロバイダによって使用される慣行であるからである。より正確な来訪者識別は、クッキーと認証ユーザ名から取得することができる。
セッションは、短時間の来訪者によって行われるURLリクエストのセットをコンパイルすることによって再構築されても良い。
経路確立は、あるセッションでの来訪者に続く特定経路を再構築する処理である。これは、セッションのログファイルエントリへのリンクと、時間単位でのエントリの記憶を実行する。サイト全体の経路解析は、最頻経由経路及びナビゲーション問題のような有益な識見を提供することができる。ファイル名は、前処理段階でページタイトルに変換しても良い。要求されたページのファイル名は、たいていは、関連するページタイトルに変換される、これは、主要なウェブサイトが、各ページに対して(HTML <TITLE>タグを使用する)タイトルを含んでいるからである。同様に、IPアドレスは、ドメインネームに変換することができる。ウェブサーバログファイルの各エントリは、ビジターのIPアドレスを含んでいる。このIPアドレス自身の番号は、さほどの情報を提供するものではない。しかしながら、来訪者のIPアドレスは、ドメインネームシステム(DNS)を使用する固有のドメインネームに変換することができる。そして、これは、来訪者のドメインネームの拡張子を解析することによって来訪者が存在する場所を推定することができる。いくつかの拡張子としては、.au(オーストラリア)、.br(ブラジル)及び.uk(英国)がある。
既存ウェブログファイルと、マイニングテーブルを生成する他のクリックストリームレコードは、前処理というよりも、データ収集APIの一部としてウェブサーバページによって処理される所定要素として収集されても良い。この方法では、与えられる要素(URL、バナー、製品広告等)が、その要素がユーザによって前もって定義されている場合にのみモデルに現れる。このモデルでは、前処理はかなり簡略される、なぜなら、ほとんどの処理を行うことなく、システムは、情報を収集し、マイニングテーブルを更新することができるからである。対象となるウェブ要素の事前定義と、ユーザセッションのオンライントラッキング、データ収集APIへの主要なイベント(関連要素のクリック)の処理が、ユーザに強いられることである。ユーザに必要とされる余計な作業は、APIリコメンデーションの結果オブジェクトが適切に構築されるかどうかを最小に維持することである。例えば、リコメンデーションリクエストに対する結果オブジェクトの属性の1つは、データ収集APIコールに対して必要とされるパラメータとすることができる。この方法の利点は、システムがほとんどの任意のウェブサーバソフトウェアと一緒に動作することであり、このウェブサーバソフトウェアは、動的ウェブページ(スクリプト)をサポートし、ウェブ解析パッケージに依存しない。欠点は、ユーザがより多くの情報を提供し、収集しなければならないことと、履歴データがシステムによって容易に使用できないことである。データの適切な前処理がコンサルティングサービスを介して実現される場合は、履歴クリックストリームデータを使用することも可能である。
データ統合
処理1000のステップ1102でのデータ統合は、収集された様々なタイプのデータの統合を含んでおり、コヒーレントフォーマットで収集されているデータのすべてを含む統合データベースを形成する。この目的の1つは、分類法あるいは統計的分類の生成であり、これは、データテーブル形式で属性毎にグループ化する。このグループ化は、データマイニングモデルの分析力を向上する。データ統合の別の目的は、プロファイルの生成である。例えば、ウェブサイトへの来訪者には、主要な2種類のタイプが存在し、これは、未登録来訪者、いわゆる閲覧者と、登録来訪者ー、いわゆる消費者が存在する。ウェブサイトは、登録来訪者に対しては、利用可能なデモグラフィックと閲覧データを有している一方で、未登録来訪者に対しては閲覧データのみを有している。その結果、2種類のタイプの来訪者は、消費者アカウントとのデータ統合には異なるレベルを必要とする。未登録消費者は、自身の閲覧行動、例えば、使用したキーワード、使用時間、選択したリンク等に基づいて「プロファイル」することができる。この行動は、複数のセッションと、リンクされている外部デモグラフィックを介して記録することができ、かつ同様の登録消費者からの情報を生成することができる。一方、登録消費者からの情報は、閲覧行動に付加されている外部デモグラフィックでより容易に補足することができる。
モデル生成
処理1100のステップ1106でのモデル生成は、オンラインリコメンデーションと予測を実行するために使用されるモデルの生成を含んでいる。モデル生成ステップ1106のデータフロー図を、図12に示す。コンフィグレーション(configuration)1202は、要素(アイテム)、製品、属性等の情報を定義し、これらは、特定地域のユーザに関係するものである。スキーマ1204は、特定状況で構築されるモデルのタイプを定義する。コンフィグレーション1202とスキーマ1204はモデルセットアップステップ1106−1に入力され、これは、訓練n用のモデルをセットアップする。特に、モデルセットアップステップ1106−1は、訓練対象の未訓練モデル1208を選択する。未訓練モデル1208は、アルゴリズム1210を含んでおり、これは、実際のモデルを構築するために訓練データを処理する。例えば、アルゴリズム1210は、ナイーブ ベイズ アルゴリズム1212、再帰分類ツリーアルゴリズム(CART)1214、及び関連ルール1216を含んでいても良い。モデルを構築するために使用されるアルゴリズムは、スキーマ1204の定義に基づいてモデルセットアップステップ1106−1で選択される。このようなスキーマの例を、テーブルAに示す。
[テーブルA]
加えて、モデルセットアップステップ1106−1は、訓練パラメータ1218を生成し、設定する。訓練パラメータ118は、アルゴリズムがどのようにしてモデルを構築するかを制御するために、アルゴリズムに入力されるパラメータである。訓練データ1220は、実際のモデルを構築するために使用されるアルゴリズムに入力されるデータである。訓練パラメータ1218、モデルセットアップステップ1106−1で選択されたアルゴリズム1210を含む未訓練モデル1208及びデータ1220は、訓練ステップ1106−2に入力される。
訓練ステップ1106−2は、選択されたアルゴリズム1210を起動し、訓練パラメータ1218を使用してこれらを初期化し、そのアルゴリズムで訓練データ1220を処理し、訓練モデル1224を生成する。訓練モデル1224は、動作モデルを構成するロジック、状態及び決定を実現する表現である。訓練モデル1224は、評価ステップ1106−3に入力され、ここで、モデルの品質を改善するために、モデルを評価し、改良する。この改良モデルは、ステップ1106−4で配置される出力230となる。
ステップ1106−4で、出力モデル1230が適切なフォーマットで符号化され、予測あるいはリコメンデーションを行うために配置される。
本実施形態では、2つのレベルモデル構築設定がサポートされており、それは関数とアルゴリズムである。関数レベル設定が特定アルゴリズム設定を特定しない場合、適切なアルゴリズムが選択され、関連パラメータ用のデフォルトを提供する。一般的には、関数レベルでのモデル構築は、ユーザに対しトランスペアレントなデータマイニングの多くの技術的な詳細を作成する。モデルは、データマイニングサーバ(DMS)で構築される。モデルが構築された後でも、それはDMSに存在し、そのユーザ特定固有名でアクセスすることができる。モデル構築用の典型的なステップは以下のようになっている。
1.入力データの生成(既存データ、例えば、テーブルあるいはファイルとマイニングデータオブジェクトとの関連付けによる)
2.関数設定オブジェクトの生成
3.ロジカルデータ仕様の生成、及び関数設定との関連付け
4.データ使用仕様の生成、及び関数設定との関連付け
5.アルゴリズム設定の生成(オプション)
6.構築モデルの起動
モデルテストは、モデルの精度の評価を行う。ナイーブ ベイズ アルゴリズムによって生成されるような分類モデルをテストすることができる。モデルが構築された後、モデルテストは、モデルが新規のデータセットに適用される場合のモデルの予測の精度を演算する。テスト結果は、マイニングテスト結果オブジェクトに記憶される。分類テスト結果には、データマイナーに、モデルによって生成される分類エラーのタイプと度合いを理解させることを可能にする混同(confusion)マトリクスを含んでいる。テスト演算は、モデルをテストするために既に構築されているモデルとデータの名前を入力する。テストデータは、モデルを構築するために使用されるロジカルデータ仕様に従わせなければならない。
オンラインリコメンデーション
データへのデータマイニングモデルの適用は、関連性のスコアあるいは予測を出力する。ナイーブ ベイズ アルゴリズムによって生成される分類モデルのスコアを出力することができる。スコアをつけるデータは、訓練データと互換性のある属性を持たなければならない、つまり、同一名の各データタイプの属性のスーパーセットあるいは適切なマッピングを持たなければならない。演算の適用結果は、ユーザによって特定されるスキーマに配置される。ユーザは、結果として得られる内容を特定する。例えば、ユーザは、スコアと関連性に従って、マイニングデータで提供される各レコード用のテーブルに出力する消費者識別属性を要求することができる。
スコアリング処理中に計算されるある有益な量は、ナイーブ ベイズアルゴリズム(これは、ターゲット属性は、2つの値を確実に取得する)によって生成される、バイナリ分類モデルに対するリフトとなる。指定されたポジティブ・ネガティブ値が与えられると、それらの値がポジティプなインスタンスとしてどの程度信頼して予測されるかに従って、テストケースが記憶される(最も信頼のあるポジティブが最初に現れ、最も信頼のあるネガティブが最後に現れる)。この順序付けに基づいて、これらは、四分位数(quantiles)に分けられる。そして、以下の統計値が計算される。
・ある四分位数の目標密度は、その四分位数の全インスタンス数で分割される四分位数内のポジティブインスタンスの実際の数である。
・累積目標密度は、第n四分位数を介して計算される目標密度である。
・四分位数リフトは、全テストデータの目標密度と、四分位数に対する目標密度との比である。
・四分位数に対するレコードの累積割合は、第n四分位数によって表現されるすべてのテストケースの割合であり、これは、最も信頼性のあるポジティブの端部から、その四分位数を含むところの部分である。
・四分位数の目標累積数は、(上述のように定義される)第n四分位数内のポジティプインスタンスの実際の数である。
・非目標累積数は、(上述のように定義される)第n四分位数のネガティブインスタンスの実際の数である。
・四分位数の累積リフトは、全テストデータの目標密度と、累積目標密度との比である。
処理1100のステップ1108は、オンラインユーザの動作に応答するオンラインリコメンデーションの生成を含んでいる。ステップ1108は、複数のステップを含んでおり、これは、アプリケーションに依存してかなり変化する場合がある。オンラインリコメンデーション処理の例は、図11のステップ1108として示される。ステップ1108の処理は、ステップ1108−1で開始し、ここでは、ウェブ消費者はリコメンデーションに使用することができる潜在あるいは顕在データを入力する。ステップ1108−2では、ウェブアプリケーションからデータが送信され、APIを介してリコメンデーションエンジンで受信される。ステップ1108−3では、現在の消費者あるいは将来の消費者についての予測を行うために、そのデータが記憶される。ステップ1108−4では、ウェブアプリケーションは、APIを使用して、1つ以上の予測及びリコメンデーションの少なくとも一方に対する質問をリコメンデーションエンジンに行う。例えば、予測/リコメンデーションは、ウェブ消費者が何を好み、かつ彼あるいは彼女がどの程度それを好んでいるかについてを取得することができる。予測/リコメンデーションは、製品、コンテンツ、サイト構造等とすることができる。ステップ1108−5では、リコメンデーションエンジンは、適切なモデルをコールし、それらのモデルを使用するデータのスコアリングを行うことによって、予測/リコメンデーションに対するAPIリクエストを処理する。ステップ1108−6では、リコメンデーションエンジンは、スコアがつけられたデータに基づいて、予測/リコメンデーションを生成する。ステップ1108−7では、リコメンデーションエンジンは、ウェブアプリケーションに対する予測/リコメンデーションに復帰する。ステップ1108−8では、ウェブアプリケーションは、予測/リコメンデーションを使用してhtmlコードを動的に生成し、かつそれをウェブクライアントへ返信する。
リコメンデーションに質問を行うウェブアプリケーションは、様々な技術、例えば、JAVA SERVER PAGES(登録商標)(JSP)、SEVERLETS(登録商標)及びCOLDFUSION(登録商標)で実現することができる。JSP(登録商標)及びSERVLETS(登録商標)は、SERVLETS(登録商標)及びJSP(登録商標)を処理することができるウェブサーバが必要となる。COLDFUSION(登録商標)アプリケーションは、COLDFUSION WEB APPLICATION SERVER(登録商標)上で動作する。
処理1100のステップ1108−5と1108−6のデータフロー図を、図13に示す。ユーザデータ1302及び指定結果データ1304は、予測セットアップステップ1108−5−1に入力される。ユーザデータ1302は、ユーザによって指定される予測/リコメンデーションのタイプに関連するデータ、ユーザによって指定される予測/リコメンデーションにおける制約に関連するデータ、あるいはウェブサイトを閲覧中のユーザが現在行っている特定動作に関連するデータを含んでいても良い。指定結果データ1304は、予測及びリコメンデーションのタイプの定義を含み、かつエンタープライズウェブマイニングシステムのオペレータによって指定される予測及びリコメンデーションにおける制約を含んでいる。例えば、ユーザデータ1302は、ユーザが購入している要素に関連する情報を含んでおり、また、指定結果データ1304は、指定結果がユーザの購入から示唆される別の製品のリコメンデーションとなることを示しても良い。
予測セットアップステップS1108−5−1は、ルール1308を含む訓練化モデル1306を選択し、また、予測パラメータ1310を選択して生成し、更に、スコアリングデータ1312を生成するために、入力ユーザデータ1302と指定結果データ1304を使用する。訓練モデル1306は、処理1100のモデル生成ステップ1106で生成される。各モデルは、図12に示されるように、モデル生成ステップ1230から出力され、処理1100のステップ1106−4で予測あるいはリコメンデーションを行うために適切なフォーマットに符号化され、配置されている。予測セットアップステップ1108−5−1は、ユーザデータ1302と指定結果データ1304に基づいて、スコアリングステップ1108−5−2で使用するために配置モデル1314を選択する。予測パラメータ1310は、スコアリングデータ1312に対する配置モデルのスコアリングを制御するために、スコアリング処理1108−5に入力され、かつスコア化ルールの選択と予測及びリコメンデーションの生成を制御するために、選択及び予測/リコメンデーション処理1108−6に入力されるパラメータである。予測セットアップステップ1108−5−1は、ユーザデータ1302と指定結果データ1304に基づいて、スコアリングステップ1108−5−2で使用するための予測パラメータ1310を選択し、生成する。予測セットアップステップ1108−5−1は、入力ユーザデータ1302と指定結果データ1304に基づいて、スコアリングデータ1312を生成する。
選択された配置モデル1314、予測パラメータ1310及びスコアリングデータ1312は、スコアリングステップ1108−5−2に入力される。スコアリングステップ1108−5−2では、スコアリングデータ1312が、予測パラメータ1310による制御によって、選択された配置モデル1314に従って処理され、スコアリングデータ1312のデータセットにおける各行データに対する1以上のスコアを生成する。各行のスコアリングデータに対するスコアは、スコアリングデータの行がモデルの特徴とどの程度一致するか、その一致でどの程度信頼が置けるか、ルールからの出力予測/リコメンデーションがどの程度真実に近いかを示す指標であり、かつそれ以外の統計的指標となる。スコア化データ1316は、対応するスコア1320と各スコア化行のデータに対する他の情報に従って、スコアリングステップ1108−5−2から出力される。
スコア化データ1316は、選択及び予測/リコメンデーション生成ステップに入力され、このステップは、行データに関連するスコア1320を評価し、行データの少なくとも一部を選択する。選択された行データは、選択基準を満足するスコアを有している。選択基準は、指定結果データ1304によって定義されても良く、かつ/あるいは選択/生成ステップ1108−6に含まれる所定あるいはデフォルト基準によって定義されても良い。加えて、選択基準は、選択対象となる予測/リコメンデーション数に制限を設けても良く、あるいは関連するスコアに基づいて、予測/リコメンデーションがソート対象であることを示しても良い。選択された行データは、処理1100のステップ1108−7の送信に対し、ステップ1108−6から予測/リコメンデーションとして出力される。
計算モデル
本発明は、ほとんどの汎用概念のエンタープライズウェブマイニングをサポートするために、管理及び未管理データマイニング機能及びアルゴリズムを組み込む総合コンピュータモデルを使用し、かつデータ抽出、モデル構築及びモデル配置処理での主要コンポーネントを識別する、方法及びテクニカルフレームワークを使用する。システムモデル全体は、1つ以上のモデリングアルゴリズムを使用して構築される複数の独立モデルを含んでいる。
本発明によって、生成され、かつ使用されるモデルのタイプは、いくつかの一般クラスにカテゴライズされる。これらのクラスには、帰納モデル、管理学習モデル、関連及び一時パターン解析を使用するモデル、クラスタリング解析を使用するモデルがある。
帰納モデルは、データの関係、相関及び傾向を取得する真の一般概念及び高レベル表現を提供する。データ間の関係、演繹及び帰納モデルは図13に示される。帰納モデルは、任意の予想化仮定は想定せず、かつデータに対し排他的に動作しない。これらは、オンラインリコメンデーションを予測し、かつ行うための、最も強力な技術である。
管理化学習モデリングは、消費者アカウントベースのデータに適用する伝統的な管理化学習方法に基づいている。これには、従属変数としてモデルが使用するモデルである明確に定義されたターゲットフィールドが存在する。このタイプのモデルは、既存の企業あるいはウェブセッションレコード上に構築するモデルを使用する一般分類に対してかなり有用である。一旦訓練されたこれらのモデルは、既存レコードあるいは新規レコードの予測(スコアリング/リコメンデーション)のプロファイリング及びセグメンテーションを提供する。
本発明によって使用される管理化学習アルゴリズムは、分類及び回帰ツリー(CART)タイプとナイーブ ベイズの判断ツリーを含んでいる。CARTは、かなり強力な非パラメータ型分類及び回帰方法であり、これは、正確で、かつ容易に解釈可能なモデルを生成する。これは、判断ツリールールベースの方法の好適な大きな分類表現である。判断ツリーの良い特徴は、モデルがトランスペアレントであり、かつ平易な英語、PL/SQL、Java(登録商標)あるいは記憶手順のルールのセットとして表現できることである。これは、モデルを、エンタープライズ−ワイドのビジネスアプリケーション、解析ツールに基づくクエリー及び一般的なeコマースに対する理想的なモデルとなる。
典型的には、管理化学習モデルは、オフラインで構築され、その後、この生成されたモデルが、バッチスコアリングあるいはオンライン予測に対して使用される。このパラダイム下では、システムは、3種類の機能をサポートする。1つ目は、モデルを改良するために、デフォルトパラメータを使用して、あるいは修正パラメータを使用してモデルを構築できることである。これは、CARTあるいはナイーブ ベイズを使用して実行される。2つ目は、新規のレコードのテーブルに、伝統的なデータマイニングスコアリング技術を使用してスコアをつけることができることである。3つ目は、モデルを配置できることである。これは、独立スタンドアローンJava(登録商標)形式のモデルをエクスポートし、かつウェブサーバに統合することによって実行され、そうすることで、オンザフライで新規のレコードのスコアを付けるために、あるいはウェブページの行動を変更するために、オンラインで使用することができる。特に、モデルは、ナビゲーションパスを変更、例えば、リンクを変更することで、ターゲットフィールドに対するポジティブ結果を最大化する、あるいはモデルは、コンテンツの変更、例えば、広告及びリコメンデーションを示すことで、ターゲットフィールドのポジティブ結果を最大化にする。このスキームをユーザに容易にアクセス可能にするために、基本手順を実現する適切なユーザインタフェースが利用可能である。
この管理学習スキームに対する潜在的な改良には、オンライン学習の導入がある。この場合、モデルは、データストリームの先頭に順に構築される。モデル構築処理は常に動作しているので、更新モデルがオンラインで使用するために常に利用可能となる。これは、モデルを、最近傾向及びデータストリームの変更状態により適切に適合させることが可能である。この場合、データストリームは、ウェブサーバを生成するクリックストリームとすることができる。
ナイーブ ベイズは、一般予測あるいは特徴選択に対する概算化モデルを提供する高速アルゴリズムである。これは、このモデルが各入力フィールドとターゲット間の相関関係だけを考慮するために、「ナイーブ」と呼ばれる。予測は、各ターゲット値に対する状態可能性の相対比率に基づいて実行される。
関連及び一時パターン解析を使用して構築するモデルは、ウェブトランザクションベースのテーブルに適用されるマーケットバスケット解析の伝統的な関連ルールを使用する。このようなモデルは、トランザクション中に頻繁に現れる要素の組み合わせを検出し、これらをフォームのルールとして表現する、つまり、要素A及び要素Bである場合、要素Cというように表現する。各ルールは、サポートレベル(即ち、ルールに従うレコード数)と信頼レベル(即ち、他のルールがどれくらい前例の事項を共有しているか)パラメータによって特徴付けられる。一時パターン解析は、要素の特定の組み合わせの発生を考慮するだけでなく、時系列でのその組み合わせの特定シーケンスを考慮する。ウェブトランザクションベースのテーブルの厳密なフォーマットは、特定データマイニングタスクに依存する。例えば、マイニング関連ルールは、一時情報は必要ではない、そのため、時間情報はフィルタアウトすることができる。一方、マイニング一時パターンは、トランザクション時間に従うトランザクションの順序づけを必要とする。ウェブデータの量及び大量の特徴空間は、疎状態を考慮するために特別なデータ表現を必要とする。
クラスタリング解析は、一般的には、クラス発見の内容で実行され、不明なグループあるいはクラスの検出を実行する、このグループあるいはクラスは、手近なレコードに対する分類法あるいは少数の適切な表現(重心)を検出することによるデータ削減に対する分類法を定義する。本発明では、クラスタリング解析アルゴリズムは、基本クラスタリングを提供するために、k手段(k−means)及び自己組織化マップ(SOM)を含んでいる。このアルゴリズムに加えて、クラスタ有効化及び解析(視覚化)に対する方法は、処理結果の使用及び評価を容易にする。クラスタリングに対する重要なアプリケーションのほとんどは、アカウントベースのテーブルのコンテキストに存在するが、トランザクションベースのテーブルでもクラスタ化することができる。クラスタリングは、データセット中の十分にサポートされている構造を示し、そして、目的のターゲットクラスとの相関をとるために使用することもできる。これは、統合クラス開発及び解釈方法に等価である。
パーソナライゼーションアプリケーションは、モデルを生成するために、関連ルール及びベイジアン(Bayesian)アルゴリズムの特定例を使用する、これは、パーソナライズ化リコメンデーションを生成するために使用される。2つのアルゴリズムとして、
・予測関連ルール
・トランザクション ナイーブ ベイズ
がある。
予測関連ルール
最もなじみのある関連ルールには、「マーケットバスケット解析」として知られているものがある、即ち、この関連ルールとは、「ビールを購入する人の80パーセントは、ポテトチップも購入する」といような買い物かごに入るものがどのようなものと一緒であるかについてのルールである。関連ルールアルゴリズムは、トランザクションで頻繁に発生する要素の組み合わせを検出し、それらの要素を、Aが先行し、Bがそれに続く関係にある「Aならば、Bである」といような「ならば〜である」というルールとして表現する。(尚、この命題の前後に1つ以上の要素を配置することができ、例えば、「A,Bならば、Cで、D及びE」といようにすることができる。予測関連ルールに対しては、後ろには1つ要素だけが存在する。)
このようなルールをたくさん検出できるという結果になる、−−、この試行は、意味のある、あるいは興味深いルール、及び実行可能なビジネス判断を導き出すルールを検出することである。この例には、「ビールとプリッツを購入する人の80パーセントは、チョコレートも購入する」がある。この組み合わせは、自明ではなく、配置レイアウトの変更、例えば、ビールが販売されている場所の近くにチョコレートの配置を移動することで導き出せるものである。
一方、「絵の具を購入する人の80パーセントは絵筆も購入する」といようなルールは、自明なことであるのであまり有用でなく、店内でこれらの商品配置を変更することで導き出せるものでもない、つまり、これらの商品はおそらく近い場所に予め配置されているからである。同様に、「歯磨き粉とティッシュを購入する人の80パーセントはトマトを購入する」は自明ではないが、任意の実行可能なビジネス判断を導くのにはおそらく有用とならないからである。
有用あるいは興味深いルールを識別するために、3つの尺度、サポート、信頼及びリフトが導入されている。
サポートは、まず、どのルールが強力なサポートを有するか、即ち、データベース中の多くの例に基づいているルールを判断する。サポートは、ルール、即ち、A及びBの両方を含むバスケットに従うレコードの比率である。
信頼は、次に、どのルールが信頼が高いか、即ち、Aのすべてのインスタンスの比率とするルール(A及びBの両方を含む)に従うインスタンスを判断する。例えば、Aのインスタンスを10個有しており、Bのインスタンスを8個有していると仮定すると、残りの2個のインスタンスはBを有していない。信頼は、10の内の8、あるいは80パーセントとなる。
リフトは、Aが与えられているBを有する機会と、任意のバスケット内でBを有する機会とを比較する。これらの3つの内、リフトは最も有用である、なぜなら、これは、予測性を改善するからである。
トランザクショナル ナイーブ ベイズ
ナイーブ ベイズは、管理学習モジュールのタイプであり、これは、学習を試行するモデルの入力ターゲットマッピングの例を含んでいる。このようなモデルは、従前のデータの評価に基づいて、新規なデータについての予測を行う。様々なタイプのモデルが、従前のデータからの学習への様々な内在方法を有している。ナイーブ ベイズ アルゴリズムは、自身が予測を行うベイズ理論の計算を使用する。
ベイズ理論は、状態確率に関するものである。これは、インスタンスに現象が与えられると、特定予測イベントの確率は以下の3種類の数以外の数で計算されることが言える、つまり、特定事象を無視(これは、従前確率と呼ばれる)する、一般的な類似状況での予測の確率の数と、特定予測が正しいことが与えられていて現象を参照する確率を計測する数と、その予測(即ち、可能性のある予測が与えられている現在の現象を参照する確率を計測する、一般的な予測の確率)に対する類似製品の各可能性のある予測(提示される1つを含む)に対する総和によって分割される数以外の数で計算される。
簡略化する仮定(「ナイーブ」部分)は、予測が与えられている現象の部分の組み合わせの確率であり、これは、単に、予測が与えられている現象の個々の部分の確率の製品となる。この仮定は、相互の干渉なしで、ある現象の部分が別の部分と独立して動作している場合に真となる。それ以外の場合では、仮定は、真の値を単に概算する。実際でも、概算は、モデルの予測精度を大幅に落とすことは通常なく、コンピュータで実行可能なアルゴリズムと処理しにくいアルゴリズム間での違いが生じるだけである。
他の管理化学習モジュールと比較すると、ナイーブ ベイズは、簡略性と速度の面で有利である。また、それ自身で、増分学習及び分散学習をサポートする拡張性を持っている。
「トランザクショナル ナイーブ ベイズ」は、同一のアルゴリズムで、入力がフォーマットされる過程を参照する。以下のテーブルは、伝統的なデータフォーマットの例を示していろい、このテーブルは、要素(消費者、リンゴ、オレンジ、梨及びバナナ)列と、消費者(ジョー、ジム、ジェフ)の行を有し、各テーブルのセルには0あるいは1が入っている、この値は、例えば、ジョーがリンゴ(なし)、オレンジ(なし)、梨(なし)、あるいはバナナ(あり)を購入しているかどうかを示すものである。
[テーブル]
伝統的なデータレイアウトは、通常、すべての値がゼロとなるまばらな行列を生成する、このレイアウトは、データベースの空間をより多く必要とし、より多くの計算回数を必要とする。トランザクションベースのフォーマットは、基本的には、2つの列を有し、これは、消費者と「ヒット(照合)」である。ジョーに対しては、テーブルのセルは「バナナ」を含み、
ジョー バナナ
ジム リンゴ、バナナ
ジェフ オレンジ
となる。
トランザクショナルフォーマットは、チェックリストというよりもむしろ「買い物かご」の類と見なされ、消費者が商品の派生物を購入する場合により適している。トランザクショナルフォーマットは、この主の問題に対して、データベースにデータが記憶される過程となる利点を有している。
データマイニングオブジェクト
訓練テーブル
モデルは、選択されたモデリングアルゴリズムを訓練データを用いて訓練することによって生成される。一回訓練されると、モデルは、予測及びリコメンデーションの少なくとも一方を行うために使用することができる。訓練テーブルをより有用に理解するために、いくつかの単語を定義する。「セッション」は、ユーザのウェブセッションを特徴づける要素と及び製品のリストである。セッションは、登録あるいは未登録消費者によって、来訪された、クリックされた、タイプされた、あるいは購入されたトランザクション要素を含んでいる。また、これには、サーチエンジンあるいはウェブフォーム上で使用されるキーワードも含まれる。セッションは、サイトを介して消費者が製品をナビゲートする、ブラウズするあるいは購入するような要素のクリックストリーム要素のセットを生成する。
「要素(item)」は、ウェブセッション中のクリックストリーム要素である。例えば、特定ウェブページ、URLリンク、フォーム等である。主要なタイプは、
要素(item)は、
単純ウェブ要素(URL、図画等)
製品
キーワード
要素クラス(分類法)
である。
「属性」は、消費者に関する情報、例えば、年齢、入力デモグラフィックのような情報を表現するアカウントテーブルの列である。
「製品」は、典型的に提案される関心要素及びそれに関連するリコメンデーションである。製品は、セッション要素とアカウントベースの要素の両方である。
「消費者」は、ウェブサイトへの来訪者、あるいは登録され、かつ既にアカウントが存在する既存の消費者である。登録されている消費者、あるいは企業データベースに既に情報が取り込まれている消費者は「アカウント」がとられており、かつアカウントIDとこれに関連するアカウントテーブルエントリを有している。ウェブサイトをナビゲートする消費者は登録によっては識別されない、あるいは他の手段がアカウントエントリではなくセッションエントリを生成する。
一般的には、訓練データは、図15に示されるテーブルの3種類に統合される。第1のタイプのテーブルは、伝統的な企業マイニングテーブル1502であり、ここでは、例えば、各行は消費者に対応し、各列は、年齢、アカウントタイプ、支払状況等の属性である。例えば、テーブル1502では、行1504−1は消費者1に対応し、行1504−Nは消費者Nに対応し、列1506Aは属性Aに対応し、列1506Bは属性Bに対応し、列1506Cは属性Cに対応する。
アカウント属性の例には、以下の
アカウントID(消費者アカウントの固有識別子)
消費者名
消費者所在地
IP(消費者のインターネットアドレス)
eメール(消費者のeメールアドレス)
年齢(消費者の年齢)
<attribute x>デモグラフィックあるいは他のアカウント情報
<attribute y>デモグラフィックあるいは他のアカウント情報
アカウント開始日(アカウントが生成された日)
アカウント終了日(アカウントが終了された日)
アカウントタイプ(消費者のタイプ、例えば、個人、法人等)
製品リスト(消費者が過去に購入した製品のリスト)
が含まれる。
第2のタイプのテーブル、例えば、テーブル1508は、ウェブセッションによって生成されたエントリ、好ましくは、細かい量レベルでのエントリを表現しており、これには、特定ウェブページに来訪された場合等を示すためのフラグを含んでいる。つまり、テーブル1508では、行1510−1はセッション1に対応し、列1510−NはセッションNに対応する。各セッションは、典型的には、セッションを初期化する及びセッションに参加するの少なくとも一方を行う特定ユーザあるいは消費者に関連付けられている。同様に、列1512Xはウェブページに対応し、列1512YはウェブページYに対応し、及び列1512ZはウェブページZに対応する。2種類のサブテーブルが存在し、これは、ウェブセッションについてのデータを含んでいる。1つ目のサブテーブルはセッションマイニングテーブルであり、これは、特定セッションについての情報を記憶している。セッションマイニングテーブルのデータの例は、以下の、
セッション(ウェブセッションである場合の固有識別子)
アカウント(既存消費者に関連付けられているアカウントが利用可能な場合)
要素リスト(要素、キーワード、あるいはセッション中に来訪された、クリックされたあるいは購入された製品のリスト)
要素クラス(要素及びキーワードリストに関連付けられている分類法)
を含んでいる。
2つ目のサブテーブルはセッションサマリーマイニングテーブルであり、これは、複数のウェブセッションを抜粋しているデータを記憶している。セッションサマリーマイニングテーブルのデータの例は、以下の、
アカウント(消費者アカウントの固有識別子)
要素リスト(全消費者セッション中の要素を抜粋するリスト)
要素クラス(全消費者セッションの分類法を抜粋するリスト)
セッションのリスト(このアカウントに関連付けられているセッションのリスト)
を含んでいる。
第3のタイプのテーブル、例えば、テーブル1514は概念テーブルであり、ここでは、テーブル1508のセッション情報をより高いレベルで意味分類が模倣している。例えば、テーブル1514は、一般クラス、例えば、「玩具=真」でのメンバーシップを表現する一般分類のキーワードを含んでいる、これは、あるセッションで、玩具製品を導くいくつかのハイパーリンクがクリックされたこと、あるいは単語「玩具」がウェブサーバのサーチエンジンで使用されたことを表現している。つまり、テーブル1514では、行1516−1はキーワード1に対応し、行1516−NはキーワードNに対応し、列1518は対応する。
図16は、図15に示される訓練テーブルのエントリーフォーマットの例である。
図15に示されるテーブルは、モデル構築処理に入力される情報を統合する。本システムは、エンタープライズに渡って様々なタイプのデータ上で動作するとすぐに、適切なマッピングがそのデータに対して構築される。ベイズアルゴリズム及び判断ツリーの少なくとも一方を使用する帰納モデルの例が、図17に示される。図15のテーブル1502のユーザ及びアカウントデータ、例えば、電話使用データ1702及びユーザ年齢データ1704は、モデルからの出力を生成するために使用され、これは、churn1706に対するターゲットである。同様に、図15のテーブル1502のユーザ及びアカウントデータ、例えば、ユーザ年齢データ1704、テーブル1508のセッションデータ、例えば、ユーザが再帰ユーザであるかどうかのデータ1708及びユーザがマップページに来訪したかどうかのデータ1710、図15のテーブル1514のキーワードデータ、例えば、キーワード「ホテル」によるサーチ1712が、モデルからの出力を生成するために使用され、これは、eトラベルリンク1714を示すターゲット動作となる。
クラスタリング及び関連を使用する帰納モデルの例を、図18に示す。クラスタリングの例としては、図15のテーブル1502のユーザ及びアカウントデータ、例えば、電話使用データ1802、ユーザ年齢データ1804及び発呼カード使用データ1806は、モデル化されるクラスタのデータを配置するために解析される。関連の例としては、図15のテーブル1508のセッションデータ、例えば、モデムリンクでユーザがクリックしたかどうかのデータ1808及びユーザが製品ページに来訪したかどうかのデータ、及び図15のテーブル1514のキーワードデータ、例えば、キーワード「コンピュータ」1812によるサーチ1812が、モデル化されるデータ間の関連を判定するために解析される。
物理的データ記述
物理的データ記述オブジェクトは、マイニング、例えば、データがトランザクショナフォーマットであり、かつ様々なデータ列の役割を演じるかどうかに対して使用される物理的なデータの特徴を特定する。物理的データ記述オブジェクトによって参照されるデータは、いくつかの方法で使用することができ、これには、モデル構築、スコアリング、リフト計算、統計的解析等がある。データマイニング物理的データは、2つのフォーマット、
・トランザクショナル
・非トランザクショナル
の内の1つであることが好ましい。
これらのフォーマットは、与えられているデータベーステーブルに記憶されている各ケースをどのように解釈するかを記述する。
トランザクショナルデータフォーマット:トランザクショナルデータフォーマットでは、各ケースは、スキーマロールシーケンスID、属性名及び値とともにテーブルに複数のレコードとして記憶される。シーケンスIDは、トランザクショナルテーブル中の複数レコードに関連する整数である。属性名は、属性名を含むストリングである。値は、属性値の表現する整数である。データマイニングシステムは、モデル構築を容易にするために、データの離散化(バイナリ化)をサポートしている。データマイニングシステムの離散化は、データマイニングアルゴリズムによって必要とされるデータをバイナリ化するために使用することができる。
非トランザクショナルフォーマット:非トランザクショナルフォーマットでは、各ケースは、テーブルに1つのレコード(行)として記憶される。非トランザクショナルデータは、各レコードを固有に識別するキー列を提供する必要はない。しかしながら、キーは、管理化学習用のスコアを与えるケースを関連付けるために、リコメンデーションされる。データマイニング動作(構築、適用、テスト及びリフトの計算)は、非トランザクショナルデータを離散化(バイナリ化)することが必要である。データマイニングシステムの離散化は、データをバイナリ化するために使用することができる。詳細な説明については、このチャプターの以下の「離散化」を参照されたい。データマイニングアルゴリズムは、モデルを構築する前に、すべての非トランザクショナルデータをトランザクショナルデータに自動的に変換する。
マイニングモデル
マイニングモデルオブジェクトは、マイニング設定記述に基づいているモデルの構築結果である。モデルの表現は、ユーザによって特定されるアルゴリズムあるいは配下のDMSによって選択されるアルゴリズムに依存する。モデルは、例えば、関連ルールから生成されるルールを試験するための、あるいは分類モデルのデータのスコアを付けるための、直接検査用に使用することができる。データマイニングシステムは、DMS中の独立して名前が付けられたエンティティとして、マイニングモデルの持続性をサポートする。マイニングモデルは、それを構築するために使用されるMFSのコピーを含んでいる。
マイニング結果
マイニング結果オブジェクトは、以下のマイニング動作、適用、テストあるいはリフトの計算の1つの最終生成物を含んでいる。データマイニングシステムは、DMSで独立して名前が付けられているエンティティとして、マイニング結果の持続性をサポートする。マイニング結果オブジェクトは、開始時間及び終了時間、使用されるモデル名、入力データ位置及びデータマイニング動作用の(任意の)出力データ位置を含んでいる。適用結果は、結果に対する宛先テーブル(スキーマ及びテーブル空間)の名前を付ける。ソーステーブルは、スコアリング用の適用機能に入力されるテーブルである。分類テスト結果は、精度があり、かつ乱雑マトリクスを参照するテーブルである。
ユーザ及びアプリケーションビュー
有効なエンタープライズデータマイニングシステムは、動的なオンライン予測及びリコメンデーションを提供する必要がある。これらは、「入力」あるいは「ターゲット」として様々なウェブページ要素を分類するより多くのあるいはより少ない一般的な方法で提供することができる。入力は、多くの共通要素、例えば、特定クリック、リンク、サーチウインドウ等を表現し、これは、帰納モデルへの潜在的な入力として使用される。これらの要素は、実際のモデル入力となる前に、相当の前処理が必要となるが、これはその前処理の基本入力となる。ターゲットは、モデルによって取得された従前の行動に基づくモデル、予測あるいはリコメンドを要求する要素である。この両者に向けられる製品は、非専門ユーザに対する利益を最大にするためには有用であるが、より多くの特定問題あるいはアプリケーション指向定義の追加の概念レイヤーが必要となる。このレイヤーは、条件リストで示される消費者ライフサイクルCRMオリエンテーションに対応する。この持続性によって、いくつかのアプリケーション指向方法及びユーザインタフェースが、伝統的なCRMビジネス及びマーケティング概念の周辺で構築することができる。
クロスセリング
クロスセリングは、おそらく、既存消費者に対する広告及び製品リコメンデーションをもっとも直接的に使用するものである。技術的には、これは、少なくとも3つのケースで解釈される。
・最新物のようなバスケットを購入する場合に、消費者が通常が購入する製品の確認
・消費者の購入と、消費者の現在のバスケットに対する類似購入パターンとに基づいて製品を提案
・類似購入パターンだけではなく、類似デモグラフィック及びブラウジングパターンに基づいて製品を提案
後半の2つのケースは、新規な要素(消費者によって決して購入されていなかった要素)の提案を可能にする。最初の2つのケースは、トランザクションテーブル中のデータの使用を可能にするだけである。最後のケースは、3つのテーブルのすべてのデータを使用する。
製品リコメンデーションは、いくつかの方法を介して取得することができる。
・明快な判断ツリーあるいは関連ルール
・K−最近傍の近隣:類似購入パターンを有する消費者のクエリーあるいは類似サーチ
判断ツリー及び関連ルールは、ショッピングカート履歴、あるいは前もって構築されている企業レコードの要約(モデル)に基づいてリコメンデーションに復帰する。K−最近傍の近隣は、各消費者の総計トランザクションのテーブルに対する現在のショッピングカートのスコアを付ける。各可能なリコメンドされた製品に対する信頼測定は、3つの方法のすべてに対して構築することができる。これらの信頼測定は、ビジネスルールから導出される重み付けで補完されるべきである。例えば、製品AはBよりもより購入されやすいが、製品Bによる利益のほうが高く、販売者の観点からは製品Bをより販売対象とする製品にすることが好ましい。キーとなる測定は、リコメンデーションによって期待される利益であり、つまり、(購入となるリコメンデーションの確率(信頼度))x利益である。これが、なぜアプリケーション指向レイヤーが必要であるかの明快な例となる。様々なテーブルの全てが使用される上述の第3のケースでは、2段階処理がおそらく好ましい。まず、消費者プロファイルが、消費者をデモグラフィック及びブラウジング行動クラスタに割り当てることによって再現される。次に、リコメンデーションが、同一のプロファイルに属する消費者から生成されるトランザクションだけを考慮して計算される。これに関連することは、例えば、類似のデモグラフィックを用いて、消費者間の類似のバスケットを参照すべきことである。
アップセリング(Up−Selling)
アップセリングは、クロスセリング方法に極めて類似しているが、このアップセリングは、従前の登録履歴を持たない新規の消費者を主要に扱う。
セグメンテーション
セグメンテーションは、プロファイリングクラスタあるいは未クラスタ化消費者データを使用して実行することができる。これは高速で、かつ様々な種類の事例を高速に実行することができる。未クラスタ化消費者データのケースではより遅くなるが、より精度が高くなる。セグメンテーションのケースでは、測定結果が選択される必要がある。例えば、ドルでの購入は、消費者(あるいはクラスタ)を不良、平均、良好消費者のいずれかに分類するために使用することができる。
消費者確保/チューン(churn)
消費者確保あるいは回転(チューン)を判定するために、システムは、消費者履歴の測定結果の移動平均に対する適切なメトリック、例えば、ドルでの購入、来訪回数の変動の情報を取得し続ける。測定結果が下がる場合、消費者がおそらく「チューニング」している状態にある。測定結果が向上している場合、デモグラフィックの変動の兆候が現れている可能性がある。消費者のデータをより多く取得することができる、ユーザが感謝する提案は、良好な消費者を確保する/良好な消費者に特典を与えるために使用することができ、かつその消費者を新規のセグメントに再割当するための新規データを取得するために使用することができる。
利益
利益は、セグメンテーションと、消費者のセグメントの測定結果の平均に対するメトリック(例えば、ドルでの購入、来訪回数)の変動の追跡の維持を必要とする。消費者が所定閾値(平均)を下まわる場合、システムは販売の促進を行う。
オフラインウェブマーケットバスケット解析
オフラインウェブマーケットバスケット解析は、伝統的なマーケットバスケット解析を、「仮想スーパーマーケット」として見立てたウェブサイトへ拡張したものである。システムは、ウェブクリックストリーム中の共通の傾向及び相関を検出し、モデルを構築し、そしてバッチリポートを生成する。この単純な機能は、多くの既存のクリックストリーム解析製品には依然として含まれていない。
本発明はデータ処理システムの全機能のコンテキスト(context)で説明しているが、本発明の処理が命令群と様々な形態からなるコンピュータ可読媒体の形式で分散することができ、かつ本発明が分散を実行するために実際に使用される信号搬送媒体の形式に関係なく平等に適用することが当業者には明らかであることに注意することが重要である。コンピュータ可読媒体の例には、例えば、フロッピー(登録商標)ディスク、ハードディスクドライブ、RAM及びCD−ROMのような記録可能形式の媒体に加えて、例えば、デジタル及びアナログ通信リンクのような伝送形式の媒体が含まれる。
本発明の特定の実施形態が説明されているが、上述の実施形態と同等の他の実施形態が存在することが当業者によって理解されるであろう。従って、本発明は特定の実施形態に限定されるものではなく、添付の請求項の範囲によって限定されるものであることが理解されるであろう。

Claims (9)

  1. コンピュータで実行される、エンタープライズウェブマイニングを行う方法であって、
    前記コンピュータの少なくとも1つのプロセッサが、前記コンピュータに接続されている複数のデータソースから複数種類のデータを収集するステップと、
    前記少なくとも1つのプロセッサが、前記収集された複数種類のデータから後続の処理で使用可能な形式のデータを生成して、属性毎にグループ化し、ユーザ毎のデータに統合することによりデータベースを形成するステップと、
    前記少なくとも1つのプロセッサが、モデルのタイプを規定するスキーマに基づいてアルゴリズムを選択するステップとを含み、前記スキーマは、データのタイプと要素数とに応じたアルゴリズムを規定しており
    前記少なくとも1つのプロセッサが、当該アルゴリズムと、当該アルゴリズムがどのようにしてモデルを構築するかを制御するために当該アルゴリズムに入力されるパラメータと、前記形成されたデータベースに含まれるデータとに基づいて、データマイニングモデルを生成するステップと、
    前記少なくとも1つのプロセッサが、ウェブサイトのユーザから、前記コンピュータの通信インターフェイスを介して、リコメンデーションあるいは予測に使用するために入力されるユーザデータを受信するステップとを含み、前記ユーザデータは、予測あるいはリコメンデーションのタイプに関連するデータ、および、予測あるいはリコメンデーションにおける制約に関するデータを含み
    前記少なくとも1つのプロセッサが、前記ユーザデータと指定結果データと基づいてデータマイニングモデルをコールするステップとを含み、前記指定結果データは、予測あるいはリコメンデーションのタイプの定義と、予測およびリコメンデーションにおける制約とを含み
    前記少なくとも1つのプロセッサが、前記データマイニングモデルを使用するデータをスコアリングするステップと、
    前記少なくとも1つのプロセッサが、前記スコアリングされたデータに基づいて予測あるいはリコメンデーションを生成するステップとを含み、
    前記予測あるいはリコメンデーションを生成するステップは、前記ユーザデータと前記指定結果データとに基づいて、予測あるいはリコメンデーションの選択のために用いられる予測パラメータを選択するステップを含む、方法。
  2. 前記スコアリングするステップは、前記形成されたデータベースにおける各行データに対する1以上のスコアを生成することを含む、請求項1に記載の方法。
  3. 前記予測あるいはリコメンデーションを生成するステップは、前記形成されたデータベースにおける行データに関連するスコアを評価して、行データの少なくとも一部を選択することを含む、請求項1または2に記載の方法。
  4. 前記複数種類のデータを収集するステップは、データを前処理することを含み、
    前記前処理は、ウェブサイトへの来訪者の識別である来訪者識別と、あるセッションでの来訪者に続く特定経路を再構築する処理とを含み、
    前記特定経路を再構築する処理は、当該セッションのログファイルエントリへのリンク付けと、時間で各エントリを並べ替えることとを含む、請求項1〜のいずれか1項に記載の方法。
  5. データマイニングシステムであって、
    メモリと、
    前記メモリに結合されて複数の命令を実行するためのプロセッサとを備え、
    前記複数の命令は、
    前記コンピュータに接続されている複数のデータソースから複数種類のデータを収集することと、
    前記収集された複数種類のデータから後続の処理で使用可能な形式のデータを生成して、属性毎にグループ化し、ユーザ毎のデータに統合することによりデータベースを形成することと、
    モデルのタイプを規定するスキーマに基づいてアルゴリズムを選択することとを含み、前記スキーマは、データのタイプと要素数とに応じたアルゴリズムを規定しており
    当該アルゴリズムと、当該アルゴリズムがどのようにしてモデルを構築するかを制御するために当該アルゴリズムに入力されるパラメータと、前記形成されたデータベースに含まれるデータとに基づいて、データマイニングモデルを生成することと、
    ウェブサイトのユーザから、前記コンピュータの通信インターフェイスを介して、リコメンデーションあるいは予測に使用するために入力されるユーザデータを受信することとを含み、前記ユーザデータは、予測あるいはリコメンデーションのタイプに関連するデータ、および、予測あるいはリコメンデーションにおける制約に関するデータを含み
    前記ユーザデータと指定結果データと基づいてデータマイニングモデルをコールすることを含み、前記指定結果データは、予測あるいはリコメンデーションのタイプの定義と、予測およびリコメンデーションにおける制約とを含み
    前記データマイニングモデルを使用するデータをスコアリングすることと、
    前記スコアリングされたデータに基づいて、予測あるいはリコメンデーションを生成することとを含み、
    前記予測あるいはリコメンデーションを生成することは、前記ユーザデータと前記指定結果データとに基づいて、予測あるいはリコメンデーションの選択のために用いられる予測パラメータを選択することを含む、データマイニングシステム。
  6. 前記スコアリングすることは、前記形成されたデータベースにおける各行データに対する1以上のスコアを生成することを含む、請求項に記載のデータマイニングシステム。
  7. 前記予測あるいはリコメンデーションを生成することは、前記形成されたデータベースにおける行データに関連するスコアを評価して、行データの少なくとも一部を選択することを含む、請求項5または6に記載のデータマイニングシステム。
  8. 前記複数種類のデータを収集することは、データを前処理することを含み、
    前記前処理は、ウェブサイトへの来訪者の識別である来訪者識別と、あるセッションでの来訪者に続く特定経路を再構築する処理とを含み、
    前記特定経路を再構築する処理は、当該セッションのログファイルエントリへのリンク付けと、時間で各エントリを並べ替えることとを含む、請求項のいずれか1項に記載のデータマイニングシステム。
  9. 請求項1〜のいずれかに記載の方法をコンピュータに実現させるためのプログラムを格納したコンピュータ読み取り可能なデータ記録媒体。
JP2012045476A 2000-09-28 2012-03-01 エンタープライズウェブマイニングシステム及び方法 Expired - Lifetime JP5620933B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US23592600P 2000-09-28 2000-09-28
US60/235,926 2000-09-28
US09/963,401 2001-09-27
US09/963,401 US6836773B2 (en) 2000-09-28 2001-09-27 Enterprise web mining system and method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002531039A Division JP5525673B2 (ja) 2000-09-28 2001-09-27 エンタープライズウェブマイニングシステム及び方法

Publications (2)

Publication Number Publication Date
JP2012113744A JP2012113744A (ja) 2012-06-14
JP5620933B2 true JP5620933B2 (ja) 2014-11-05

Family

ID=26929324

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002531039A Expired - Lifetime JP5525673B2 (ja) 2000-09-28 2001-09-27 エンタープライズウェブマイニングシステム及び方法
JP2012045476A Expired - Lifetime JP5620933B2 (ja) 2000-09-28 2012-03-01 エンタープライズウェブマイニングシステム及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002531039A Expired - Lifetime JP5525673B2 (ja) 2000-09-28 2001-09-27 エンタープライズウェブマイニングシステム及び方法

Country Status (6)

Country Link
US (1) US6836773B2 (ja)
EP (1) EP1360608A2 (ja)
JP (2) JP5525673B2 (ja)
AU (2) AU2001291248B2 (ja)
CA (1) CA2424487C (ja)
WO (1) WO2002027529A2 (ja)

Families Citing this family (344)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444308B2 (en) 2001-06-15 2008-10-28 Health Discovery Corporation Data mining platform for bioinformatics and other knowledge discovery
US7921068B2 (en) * 1998-05-01 2011-04-05 Health Discovery Corporation Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources
US7343413B2 (en) 2000-03-21 2008-03-11 F5 Networks, Inc. Method and system for optimizing a network by independently scaling control segments and data flow
US7962603B1 (en) 2000-06-06 2011-06-14 Nobuyoshi Morimoto System and method for identifying individual users accessing a web site
US7389208B1 (en) * 2000-06-30 2008-06-17 Accord Solutions, Inc. System and method for dynamic knowledge construction
US6785666B1 (en) * 2000-07-11 2004-08-31 Revenue Science, Inc. Method and system for parsing navigation information
US7330850B1 (en) * 2000-10-04 2008-02-12 Reachforce, Inc. Text mining system for web-based business intelligence applied to web site server logs
US20040236673A1 (en) * 2000-10-17 2004-11-25 Eder Jeff Scott Collaborative risk transfer system
US7406434B1 (en) * 2000-12-15 2008-07-29 Carl Meyer System and method for improving the performance of electronic media advertising campaigns through multi-attribute analysis and optimization
US6636850B2 (en) * 2000-12-28 2003-10-21 Fairisaac And Company, Inc. Aggregate score matching system for transaction records
US20020143925A1 (en) * 2000-12-29 2002-10-03 Ncr Corporation Identifying web-log data representing a single user session
US20020116213A1 (en) * 2001-01-30 2002-08-22 Manugistics, Inc. System and method for viewing supply chain network metrics
US20040215551A1 (en) * 2001-11-28 2004-10-28 Eder Jeff S. Value and risk management system for multi-enterprise organization
US20020107719A1 (en) * 2001-02-07 2002-08-08 Tsang You Mon System of analyzing networked searches within business markets
US8788452B2 (en) * 2001-03-08 2014-07-22 Deloitte Development Llc Computer assisted benchmarking system and method using induction based artificial intelligence
US7376576B2 (en) * 2001-03-16 2008-05-20 Portblue Corporation Decision making and implementation system
US6820089B2 (en) * 2001-04-05 2004-11-16 International Business Machines Corporation Method and system for simplifying the use of data mining in domain-specific analytic applications by packaging predefined data mining models
US6823323B2 (en) * 2001-04-26 2004-11-23 Hewlett-Packard Development Company, L.P. Automatic classification method and apparatus
US7058590B2 (en) * 2001-05-04 2006-06-06 Hewlett-Packard Development Company, L.P. System and method for generating conversion-related estimates utilizing adaptive sample size
US8140378B2 (en) * 2004-07-09 2012-03-20 Shopper Scientist, Llc System and method for modeling shopping behavior
US7006982B2 (en) * 2001-05-15 2006-02-28 Sorensen Associates Inc. Purchase selection behavior analysis system and method utilizing a visibility measure
US7933797B2 (en) * 2001-05-15 2011-04-26 Shopper Scientist, Llc Purchase selection behavior analysis system and method
US7428526B2 (en) * 2001-05-29 2008-09-23 Claritas, Inc. Household level segmentation method and system
US7555442B1 (en) * 2001-06-14 2009-06-30 Verizon Laboratories, Inc. Estimating business targets
AU2002304006A1 (en) * 2001-06-15 2003-01-02 Biowulf Technologies, Llc Data mining platform for bioinformatics and other knowledge discovery
US20030004781A1 (en) * 2001-06-18 2003-01-02 Mallon Kenneth P. Method and system for predicting aggregate behavior using on-line interest data
WO2003001335A2 (en) * 2001-06-22 2003-01-03 Gene Logic, Inc. Platform for management and mining of genomic data
US6785689B1 (en) * 2001-06-28 2004-08-31 I2 Technologies Us, Inc. Consolidation of multiple source content schemas into a single target content schema
WO2003005168A2 (en) * 2001-07-06 2003-01-16 Clickfox, Llc Use of various methods to reconstruct experiences of web site visitors
US7165105B2 (en) * 2001-07-16 2007-01-16 Netgenesis Corporation System and method for logical view analysis and visualization of user behavior in a distributed computer network
US6865573B1 (en) * 2001-07-27 2005-03-08 Oracle International Corporation Data mining application programming interface
US7092936B1 (en) * 2001-08-22 2006-08-15 Oracle International Corporation System and method for search and recommendation based on usage mining
US7840934B2 (en) * 2001-08-29 2010-11-23 Hewlett-Packard Development Company, L.P. Method and system for integrating workflow management systems with business-to-business interaction standards
US20030065558A1 (en) * 2001-09-12 2003-04-03 Cameron Shaw Method and apparatus for multi-vendor powered business portal with intelligent service promotion and user profile gathering
US7346843B2 (en) * 2001-09-18 2008-03-18 International Business Machines Corporation Low-latency, incremental rendering in a content framework
US7035944B2 (en) * 2001-09-19 2006-04-25 International Business Machines Corporation Programmatic management of software resources in a content framework environment
US7069197B1 (en) * 2001-10-25 2006-06-27 Ncr Corp. Factor analysis/retail data mining segmentation in a data mining system
US20030084034A1 (en) * 2001-11-01 2003-05-01 Richard Fannin Web-based search system
US20030115099A1 (en) * 2001-11-01 2003-06-19 Burns Stanley S. Method of automated online media planning and buying
US20030088491A1 (en) * 2001-11-07 2003-05-08 International Business Machines Corporation Method and apparatus for identifying cross-selling opportunities based on profitability analysis
US7523065B2 (en) * 2001-12-12 2009-04-21 Asset Trust, Inc. Risk transfer supply chain system
US20050119959A1 (en) * 2001-12-12 2005-06-02 Eder Jeffrey S. Project optimization system
US20030115105A1 (en) * 2001-12-14 2003-06-19 Ncr Corporation Personal data mining on the web
US7162480B2 (en) * 2001-12-26 2007-01-09 Sbc Technology Resources, Inc. Usage-based adaptable taxonomy
US20030128236A1 (en) * 2002-01-10 2003-07-10 Chen Meng Chang Method and system for a self-adaptive personal view agent
US6912555B2 (en) * 2002-01-18 2005-06-28 Hewlett-Packard Development Company, L.P. Method for content mining of semi-structured documents
US7020643B2 (en) * 2002-01-25 2006-03-28 Microsoft Corporation Method and system for clickpath funnel analysis
US7099880B2 (en) * 2002-01-31 2006-08-29 International Business Machines Corporation System and method of using data mining prediction methodology
US20040205157A1 (en) * 2002-01-31 2004-10-14 Eric Bibelnieks System, method, and computer program product for realtime profiling of web site visitors
US20030163513A1 (en) * 2002-02-22 2003-08-28 International Business Machines Corporation Providing role-based views from business web portals
US7185085B2 (en) * 2002-02-27 2007-02-27 Webtrends, Inc. On-line web traffic sampling
US6970882B2 (en) * 2002-04-04 2005-11-29 International Business Machines Corporation Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US20030191727A1 (en) * 2002-04-04 2003-10-09 Ibm Corporation Managing multiple data mining scoring results
US20080015871A1 (en) * 2002-04-18 2008-01-17 Jeff Scott Eder Varr system
US7219104B2 (en) * 2002-04-29 2007-05-15 Sap Aktiengesellschaft Data cleansing
US7010526B2 (en) * 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US7328192B1 (en) * 2002-05-10 2008-02-05 Oracle International Corporation Asynchronous data mining system for database management system
US7882127B2 (en) * 2002-05-10 2011-02-01 Oracle International Corporation Multi-category support for apply output
US7092941B1 (en) * 2002-05-23 2006-08-15 Oracle International Corporation Clustering module for data mining
US7370002B2 (en) * 2002-06-05 2008-05-06 Microsoft Corporation Modifying advertisement scores based on advertisement response probabilities
US8428998B2 (en) * 2002-06-06 2013-04-23 Verizon Laboratories Inc. Estimating business targets
US7970640B2 (en) * 2002-06-12 2011-06-28 Asset Trust, Inc. Purchasing optimization system
US20040006738A1 (en) * 2002-07-02 2004-01-08 Pamela Szabo Source of record manager
US7627688B1 (en) * 2002-07-09 2009-12-01 Vignette Corporation Method and system for detecting gaps in a data stream
US7461120B1 (en) 2002-07-09 2008-12-02 Vignette Corporation Method and system for identifying a visitor at a website server by requesting additional characteristic of a visitor computer from a visitor server
US7603430B1 (en) 2002-07-09 2009-10-13 Vignette Corporation System and method of associating events with requests
US6945458B1 (en) * 2002-07-29 2005-09-20 Bowe Bell + Howell Postage Systems Company Data collection and maintenance database method and apparatus
US8631142B2 (en) * 2002-08-07 2014-01-14 International Business Machines Corporation Inserting targeted content into a portlet content stream
US7594004B2 (en) * 2002-08-09 2009-09-22 Paul Silverthorne System, computer product and method for event monitoring with data centre
US7454423B2 (en) * 2002-09-06 2008-11-18 Oracle International Corporation Enterprise link for a software database
US8165993B2 (en) * 2002-09-06 2012-04-24 Oracle International Corporation Business intelligence system with interface that provides for immediate user action
US7412481B2 (en) 2002-09-16 2008-08-12 Oracle International Corporation Method and apparatus for distributed rule evaluation in a near real-time business intelligence system
US8255454B2 (en) 2002-09-06 2012-08-28 Oracle International Corporation Method and apparatus for a multiplexed active data window in a near real-time business intelligence system
US7912899B2 (en) 2002-09-06 2011-03-22 Oracle International Corporation Method for selectively sending a notification to an instant messaging device
US7899879B2 (en) 2002-09-06 2011-03-01 Oracle International Corporation Method and apparatus for a report cache in a near real-time business intelligence system
US7945846B2 (en) * 2002-09-06 2011-05-17 Oracle International Corporation Application-specific personalization for data display
US7047230B2 (en) * 2002-09-09 2006-05-16 Lucent Technologies Inc. Distinct sampling system and a method of distinct sampling for optimizing distinct value query estimates
US7668917B2 (en) 2002-09-16 2010-02-23 Oracle International Corporation Method and apparatus for ensuring accountability in the examination of a set of data elements by a user
US7401158B2 (en) 2002-09-16 2008-07-15 Oracle International Corporation Apparatus and method for instant messaging collaboration
US20040070606A1 (en) * 2002-09-27 2004-04-15 Dan Yang Method, system and computer product for performing e-channel analytics
US7318056B2 (en) * 2002-09-30 2008-01-08 Microsoft Corporation System and method for performing click stream analysis
US7636709B1 (en) * 2002-10-03 2009-12-22 Teradata Us, Inc. Methods and systems for locating related reports
US20040068514A1 (en) * 2002-10-04 2004-04-08 Parvathi Chundi System and method for biotechnology information access and data analysis
US7853684B2 (en) * 2002-10-15 2010-12-14 Sas Institute Inc. System and method for processing web activity data
US20040111314A1 (en) * 2002-10-16 2004-06-10 Ford Motor Company Satisfaction prediction model for consumers
AU2003274424A1 (en) * 2002-10-24 2004-05-13 Immediad Aps System for presenting and controlling information on a display device
US7707059B2 (en) * 2002-11-22 2010-04-27 Accenture Global Services Gmbh Adaptive marketing using insight driven customer interaction
US7698163B2 (en) * 2002-11-22 2010-04-13 Accenture Global Services Gmbh Multi-dimensional segmentation for use in a customer interaction
US7401057B2 (en) * 2002-12-10 2008-07-15 Asset Trust, Inc. Entity centric computer system
US8015054B2 (en) * 2003-03-05 2011-09-06 Hewlett-Packard Development Company, L.P. Method and system for generating recommendations
US7904823B2 (en) 2003-03-17 2011-03-08 Oracle International Corporation Transparent windows methods and apparatus therefor
US7747571B2 (en) * 2003-04-15 2010-06-29 At&T Intellectual Property, I,L.P. Methods, systems, and computer program products for implementing logical and physical data models
US7707170B2 (en) * 2003-04-15 2010-04-27 At&T Intellectual Property, I, L.P. Methods, systems, and computer program products for implementing data transformation processes
US8203967B2 (en) 2003-04-15 2012-06-19 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for implementing a standardized interpretive engine
US7725434B2 (en) * 2003-04-15 2010-05-25 At&T Intellectual Property, I, L.P. Methods, systems, and computer program products for automatic creation of data tables and elements
US7743021B2 (en) * 2003-04-15 2010-06-22 At&T Intellectual Property, I,L.P. Methods, systems, and computer program products for data processing control
US7350187B1 (en) 2003-04-30 2008-03-25 Google Inc. System and methods for automatically creating lists
US7360215B2 (en) * 2003-05-15 2008-04-15 Sap Ag Application interface for analytical tasks
US7694307B2 (en) * 2003-05-15 2010-04-06 Sap Ag Analytical task invocation
US20040249914A1 (en) * 2003-05-21 2004-12-09 Flocken Philip A. Computer service using automated local diagnostic data collection and automated remote analysis
US9069666B2 (en) * 2003-05-21 2015-06-30 Hewlett-Packard Development Company, L.P. Systems and methods for controlling error reporting and resolution
US7085762B2 (en) 2003-05-22 2006-08-01 International Business Machines Corporation Methods, systems and computer program products for web services access of analytical models
US7543051B2 (en) * 2003-05-30 2009-06-02 Borland Software Corporation Method of non-intrusive analysis of secure and non-secure web application traffic in real-time
US20040243555A1 (en) * 2003-05-30 2004-12-02 Oracle International Corp. Methods and systems for optimizing queries through dynamic and autonomous database schema analysis
CA2533007A1 (en) * 2003-06-10 2005-01-06 Citibank, N.A. System and method for analyzing marketing efforts
US20040254902A1 (en) * 2003-06-11 2004-12-16 Von Klleeck David Lawrence Second Opinion Selection System
US8666983B2 (en) * 2003-06-13 2014-03-04 Microsoft Corporation Architecture for generating responses to search engine queries
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
US7328201B2 (en) * 2003-07-18 2008-02-05 Cleverset, Inc. System and method of using synthetic variables to generate relational Bayesian network models of internet user behaviors
US8458033B2 (en) * 2003-08-11 2013-06-04 Dropbox, Inc. Determining the relevance of offers
US7567979B2 (en) * 2003-08-15 2009-07-28 Microsoft Corporation Expression-based web logger for usage and navigational behavior tracking
EP1510934A1 (en) * 2003-08-27 2005-03-02 Sony NetServices GmbH Inter-host web log reporting
US7426520B2 (en) 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
US8527332B2 (en) * 2003-09-29 2013-09-03 International Business Machines Corporation Incentive-based website architecture
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US20050097088A1 (en) * 2003-11-04 2005-05-05 Dominic Bennett Techniques for analyzing the performance of websites
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US20050114382A1 (en) * 2003-11-26 2005-05-26 Lakshminarayan Choudur K. Method and system for data segmentation
US8341017B2 (en) 2004-01-09 2012-12-25 Microsoft Corporation System and method for optimizing search result listings
US7444327B2 (en) * 2004-01-09 2008-10-28 Microsoft Corporation System and method for automated optimization of search result relevance
US7848909B2 (en) * 2004-01-14 2010-12-07 Sap Aktiengesellschaft Computing prediction results during an unbroken online interactive session
US7519566B2 (en) * 2004-02-11 2009-04-14 Oracle International Corporation Method and apparatus for automatically and continuously updating prediction models in real time based on data mining
WO2005079262A2 (en) * 2004-02-13 2005-09-01 Citibank, N.A. Method and system for conducting customer needs, staff development, and persona-based customer routing analysis
TWI369616B (en) * 2004-02-27 2012-08-01 Eplus Capital Inc System and method for user creation and direction of a rich-content life-cycle
US20050195966A1 (en) * 2004-03-03 2005-09-08 Sigma Dynamics, Inc. Method and apparatus for optimizing the results produced by a prediction model
US7467399B2 (en) 2004-03-31 2008-12-16 International Business Machines Corporation Context-sensitive confidentiality within federated environments
US7367011B2 (en) * 2004-04-13 2008-04-29 International Business Machines Corporation Method, system and program product for developing a data model in a data mining system
US7995735B2 (en) * 2004-04-15 2011-08-09 Chad Vos Method and apparatus for managing customer data
US7933762B2 (en) * 2004-04-16 2011-04-26 Fortelligent, Inc. Predictive model generation
US7730003B2 (en) * 2004-04-16 2010-06-01 Fortelligent, Inc. Predictive model augmentation by variable transformation
US7725300B2 (en) * 2004-04-16 2010-05-25 Fortelligent, Inc. Target profiling in predictive modeling
US7562058B2 (en) * 2004-04-16 2009-07-14 Fortelligent, Inc. Predictive model management using a re-entrant process
US8170841B2 (en) * 2004-04-16 2012-05-01 Knowledgebase Marketing, Inc. Predictive model validation
US8165853B2 (en) * 2004-04-16 2012-04-24 Knowledgebase Marketing, Inc. Dimension reduction in predictive model development
US20050234761A1 (en) * 2004-04-16 2005-10-20 Pinto Stephen K Predictive model development
US20050240468A1 (en) * 2004-04-21 2005-10-27 Claritas, Inc. Method and apparatus for population segmentation
US20050240462A1 (en) * 2004-04-21 2005-10-27 Inman Kenneth L Method and apparatus for population segmentation
US8229882B2 (en) * 2004-05-28 2012-07-24 International Business Machines Corporation System and method for business intelligence metadata exchange
US7565369B2 (en) * 2004-05-28 2009-07-21 International Business Machines Corporation System and method for mining time-changing data streams
US7716225B1 (en) 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US7774298B2 (en) * 2004-06-30 2010-08-10 Sap Ag Method and system for data extraction from a transaction system to an analytics system
US7379939B2 (en) * 2004-06-30 2008-05-27 International Business Machines Corporation Methods for dynamic classification of data in evolving data stream
US8078607B2 (en) * 2006-03-30 2011-12-13 Google Inc. Generating website profiles based on queries from webistes and user activities on the search results
US8620915B1 (en) 2007-03-13 2013-12-31 Google Inc. Systems and methods for promoting personalized search results based on personal information
US8321545B2 (en) * 2004-07-15 2012-11-27 Symbol Technologies, Inc. Service oriented platform architecture for a wireless network
US8572233B2 (en) * 2004-07-15 2013-10-29 Hewlett-Packard Development Company, L.P. Method and system for site path evaluation using web session clustering
US7720720B1 (en) * 2004-08-05 2010-05-18 Versata Development Group, Inc. System and method for generating effective recommendations
US7698170B1 (en) * 2004-08-05 2010-04-13 Versata Development Group, Inc. Retail recommendation domain model
US7873606B2 (en) * 2004-08-24 2011-01-18 Oracle International Corporation Advisor framework, systems, methods and software for implementing the same
WO2006036150A1 (en) 2004-09-28 2006-04-06 Nielsen Media Research, Inc Data classification methods and apparatus for use with data fusion
US7694311B2 (en) * 2004-09-29 2010-04-06 International Business Machines Corporation Grammar-based task analysis of web logs
US7657535B2 (en) * 2004-10-01 2010-02-02 International Business Machines Corporation Technique for data mining using a web service
US7797197B2 (en) * 2004-11-12 2010-09-14 Amazon Technologies, Inc. Method and system for analyzing the performance of affiliate sites
US8874570B1 (en) 2004-11-30 2014-10-28 Google Inc. Search boost vector based on co-visitation information
US20060184655A1 (en) * 2004-12-30 2006-08-17 Brandon Shalton Traffic analysis
US8639629B1 (en) * 2005-02-02 2014-01-28 Nexus Payments, LLC System and method for accessing an online user account registry via a thin-client unique user code
US8768838B1 (en) 2005-02-02 2014-07-01 Nexus Payments, LLC Financial transactions using a rule-module nexus and a user account registry
US20060206479A1 (en) * 2005-03-10 2006-09-14 Efficient Frontier Keyword effectiveness prediction method and apparatus
US7881986B1 (en) 2005-03-10 2011-02-01 Amazon Technologies, Inc. Method and system for event-driven inventory disposition
US8447664B1 (en) 2005-03-10 2013-05-21 Amazon Technologies, Inc. Method and system for managing inventory by expected profitability
US7685195B2 (en) * 2005-03-24 2010-03-23 Sas Institute Inc. Systems and methods for analyzing web site search terms
US20060218132A1 (en) * 2005-03-25 2006-09-28 Oracle International Corporation Predictive data mining SQL functions (operators)
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US8713025B2 (en) 2005-03-31 2014-04-29 Square Halt Solutions, Limited Liability Company Complete context search system
US8433592B2 (en) * 2005-04-14 2013-04-30 Avraham Y. Goldratt Institute, Lp Method and system for determining buffer inventory size
US20070022079A1 (en) 2005-05-03 2007-01-25 Greg Benson Trusted decision support system and method
US7676400B1 (en) * 2005-06-03 2010-03-09 Versata Development Group, Inc. Scoring recommendations and explanations with a probabilistic user model
US20060293950A1 (en) * 2005-06-28 2006-12-28 Microsoft Corporation Automatic ad placement
JP4504878B2 (ja) * 2005-06-30 2010-07-14 株式会社野村総合研究所 文書処理装置
US7512626B2 (en) * 2005-07-05 2009-03-31 International Business Machines Corporation System and method for selecting a data mining modeling algorithm for data mining applications
EP1910918A2 (en) * 2005-07-15 2008-04-16 Fetch Technologies Method and system for automatically extracting data from web sites
US8117203B2 (en) * 2005-07-15 2012-02-14 Fetch Technologies, Inc. Method and system for automatically extracting data from web sites
US8719255B1 (en) 2005-08-23 2014-05-06 Amazon Technologies, Inc. Method and system for determining interest levels of online content based on rates of change of content access
US7774335B1 (en) * 2005-08-23 2010-08-10 Amazon Technologies, Inc. Method and system for determining interest levels of online content navigation paths
JP4241705B2 (ja) * 2005-09-30 2009-03-18 ブラザー工業株式会社 情報管理装置、及び、プログラム
US8306986B2 (en) * 2005-09-30 2012-11-06 American Express Travel Related Services Company, Inc. Method, system, and computer program product for linking customer information
US7607577B1 (en) 2005-10-19 2009-10-27 Amazon Technologies, Inc. Method and system for analyzing inventory purchasing opportunities with respect to inventory health
US7657503B1 (en) 2005-11-29 2010-02-02 At&T Corp. System and method for generating statistical descriptors for a data stream
US7653659B2 (en) 2005-12-12 2010-01-26 International Business Machines Corporation System for automatic arrangement of portlets on portal pages according to semantical and functional relationship
US8712828B2 (en) * 2005-12-30 2014-04-29 Accenture Global Services Limited Churn prediction and management system
US7509308B2 (en) * 2006-01-09 2009-03-24 International Business Machines Corporation Method, apparatus and system for business performance monitoring and analysis using metric network
US20070185867A1 (en) * 2006-02-03 2007-08-09 Matteo Maga Statistical modeling methods for determining customer distribution by churn probability within a customer population
US7996251B2 (en) 2006-02-22 2011-08-09 24/7 Customer, Inc. System and method for customer requests and contact management
US9129290B2 (en) * 2006-02-22 2015-09-08 24/7 Customer, Inc. Apparatus and method for predicting customer behavior
US8396741B2 (en) * 2006-02-22 2013-03-12 24/7 Customer, Inc. Mining interactions to manage customer experience throughout a customer service lifecycle
US7761321B2 (en) 2006-02-22 2010-07-20 24/7 Customer, Inc. System and method for customer requests and contact management
US7565335B2 (en) * 2006-03-15 2009-07-21 Microsoft Corporation Transform for outlier detection in extract, transfer, load environment
US8498915B2 (en) 2006-04-02 2013-07-30 Asset Reliance, Inc. Data processing framework for financial services
US20070282859A1 (en) * 2006-04-26 2007-12-06 Click Forensics, Inc. Method for collecting online visit activity
US20070255701A1 (en) * 2006-04-28 2007-11-01 Halla Jason M System and method for analyzing internet content and correlating to events
US20070266036A1 (en) * 2006-05-15 2007-11-15 Microsoft Corporation Unbounded Redundant Discreet Fact Data Store
US20080005098A1 (en) * 2006-06-30 2008-01-03 Holt Alexander W System for using business value of performance metrics to adaptively select web content
US9135626B2 (en) * 2006-06-30 2015-09-15 Nokia Technologies Oy Advertising middleware
US7707161B2 (en) * 2006-07-18 2010-04-27 Vulcan Labs Llc Method and system for creating a concept-object database
US7890885B2 (en) 2006-08-21 2011-02-15 International Business Machines Corporation Content navigational shortcuts for portal environments
US20080065476A1 (en) * 2006-09-07 2008-03-13 Loyalty Builders, Inc. Online direct marketing system
US7552112B2 (en) * 2006-09-18 2009-06-23 Yahoo! Inc. Discovering associative intent queries from search web logs
US7930197B2 (en) * 2006-09-28 2011-04-19 Microsoft Corporation Personal data mining
US20080104101A1 (en) * 2006-10-27 2008-05-01 Kirshenbaum Evan R Producing a feature in response to a received expression
US8249908B2 (en) 2006-11-30 2012-08-21 Google Inc. Targeted content request
US7836004B2 (en) * 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
US8010403B2 (en) * 2006-12-29 2011-08-30 American Express Travel Related Services Company, Inc. System and method for targeting transaction account product holders to receive upgraded transaction account products
US20080162518A1 (en) * 2007-01-03 2008-07-03 International Business Machines Corporation Data aggregation and grooming in multiple geo-locations
US20080201206A1 (en) 2007-02-01 2008-08-21 7 Billion People, Inc. Use of behavioral portraits in the conduct of E-commerce
US20090076988A1 (en) * 2007-02-14 2009-03-19 Stanelle Evan J Method and system for optimal choice
US20080208735A1 (en) * 2007-02-22 2008-08-28 American Expresstravel Related Services Company, Inc., A New York Corporation Method, System, and Computer Program Product for Managing Business Customer Contacts
MY151687A (en) * 2007-03-02 2014-06-30 Manual System Sdn Bhd E A method of data storage and management
US7822755B2 (en) * 2007-03-06 2010-10-26 Yahoo! Inc. Methods of processing and segmenting web usage information
US20080222105A1 (en) * 2007-03-09 2008-09-11 Joseph Matheny Entity recommendation system using restricted information tagged to selected entities
US20080270398A1 (en) * 2007-04-30 2008-10-30 Landau Matthew J Product affinity engine and method
US20080294673A1 (en) * 2007-05-25 2008-11-27 Microsoft Corporation Data transfer and storage based on meta-data
US20080301016A1 (en) * 2007-05-30 2008-12-04 American Express Travel Related Services Company, Inc. General Counsel's Office Method, System, and Computer Program Product for Customer Linking and Identification Capability for Institutions
US8171001B2 (en) * 2007-06-27 2012-05-01 International Business Machines Corporation Using a data mining algorithm to generate rules used to validate a selected region of a predicted column
US8166000B2 (en) * 2007-06-27 2012-04-24 International Business Machines Corporation Using a data mining algorithm to generate format rules used to validate data sets
US8401987B2 (en) * 2007-07-17 2013-03-19 International Business Machines Corporation Managing validation models and rules to apply to data sets
WO2009017158A1 (ja) * 2007-08-01 2009-02-05 Nec Corporation 変換プログラム探索システムおよび変換プログラム探索方法
US8515988B2 (en) * 2007-09-24 2013-08-20 Microsoft Corporation Data paging with a stateless service
US8060502B2 (en) 2007-10-04 2011-11-15 American Express Travel Related Services Company, Inc. Methods, systems, and computer program products for generating data quality indicators for relationships in a database
US20090276403A1 (en) * 2008-04-30 2009-11-05 Pablo Tamayo Projection mining for advanced recommendation systems and data mining
US20090299796A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Configuration of resources for an entity
US8639570B2 (en) * 2008-06-02 2014-01-28 Microsoft Corporation User advertisement click behavior modeling
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table
WO2010009314A2 (en) * 2008-07-16 2010-01-21 University Of Miami System and method of using automated collaborative filtering for decision-making in the presence of data imperfections
US20100070871A1 (en) * 2008-09-12 2010-03-18 International Business Machines Corporation Extendable Recommender Framework for Web-Based Systems
US8316020B1 (en) * 2008-12-09 2012-11-20 Amdocs Software Systems Limited System, method, and computer program for creating a group profile based on user profile attributes and a rule
US20100161385A1 (en) * 2008-12-19 2010-06-24 Nxn Tech, Llc Method and System for Content Based Demographics Prediction for Websites
US8185432B2 (en) * 2009-05-08 2012-05-22 Sas Institute Inc. Computer-implemented systems and methods for determining future profitability
US20100325126A1 (en) * 2009-06-18 2010-12-23 Rajaram Shyam S Recommendation based on low-rank approximation
US8682935B2 (en) * 2009-09-30 2014-03-25 Sap Portals Israel Ltd. System and method for application navigation
US10721269B1 (en) 2009-11-06 2020-07-21 F5 Networks, Inc. Methods and system for returning requests with javascript for clients before passing a request to a server
US11403568B2 (en) 2010-01-06 2022-08-02 Integral Ad Science, Inc. Methods, systems, and media for providing direct and hybrid data acquisition approaches
US20110251878A1 (en) * 2010-04-13 2011-10-13 Yahoo! Inc. System for processing large amounts of data
US9141625B1 (en) 2010-06-22 2015-09-22 F5 Networks, Inc. Methods for preserving flow state during virtual machine migration and devices thereof
US10015286B1 (en) 2010-06-23 2018-07-03 F5 Networks, Inc. System and method for proxying HTTP single sign on across network domains
US8347100B1 (en) 2010-07-14 2013-01-01 F5 Networks, Inc. Methods for DNSSEC proxying and deployment amelioration and systems thereof
US20120143700A1 (en) * 2010-09-25 2012-06-07 Santanu Bhattacharya Method and system for designing social media campaign
US9043220B2 (en) * 2010-10-19 2015-05-26 International Business Machines Corporation Defining marketing strategies through derived E-commerce patterns
EP2633667B1 (en) 2010-10-29 2017-09-06 F5 Networks, Inc System and method for on the fly protocol conversion in obtaining policy enforcement information
US9177321B2 (en) 2010-12-21 2015-11-03 Sitecore A/S Method and a system for analysing traffic on a website by means of path analysis
US10135831B2 (en) 2011-01-28 2018-11-20 F5 Networks, Inc. System and method for combining an access control system with a traffic management system
US8447665B1 (en) 2011-03-30 2013-05-21 Amazon Technologies, Inc. Removal of expiring items from inventory
US8572243B2 (en) * 2011-06-10 2013-10-29 Google Inc. Video aware paths
US9246819B1 (en) 2011-06-20 2016-01-26 F5 Networks, Inc. System and method for performing message-based load balancing
US8868480B2 (en) 2011-07-01 2014-10-21 Truecar, Inc. Method and system for selection, filtering or presentation of available sales outlets
US9081866B2 (en) 2011-09-23 2015-07-14 Oracle International Corporation Dynamic display of web page content based on a rules system
US8666848B1 (en) 2011-10-04 2014-03-04 Amazon Technologies, Inc. Continuous planning review system
US9270766B2 (en) 2011-12-30 2016-02-23 F5 Networks, Inc. Methods for identifying network traffic characteristics to correlate and manage one or more subsequent flows and devices thereof
US10230566B1 (en) 2012-02-17 2019-03-12 F5 Networks, Inc. Methods for dynamically constructing a service principal name and devices thereof
US9231879B1 (en) 2012-02-20 2016-01-05 F5 Networks, Inc. Methods for policy-based network traffic queue management and devices thereof
US8930303B2 (en) 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
EP2853074B1 (en) 2012-04-27 2021-03-24 F5 Networks, Inc Methods for optimizing service of content requests and devices thereof
US10387911B1 (en) 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
EP2862138A4 (en) * 2012-06-18 2016-02-24 Servicesource Internat Inc CALIBRATION AND ONLINE COMPARATIVE ANALYSIS FOR RECURRENT CIRCULATING ASSETS
US9652776B2 (en) 2012-06-18 2017-05-16 Greg Olsen Visual representations of recurring revenue management system data and predictions
US20140122176A1 (en) 2012-06-18 2014-05-01 ServiceSource International, Inc. Predictive model of recurring revenue opportunities
US8874499B2 (en) * 2012-06-21 2014-10-28 Oracle International Corporation Consumer decision tree generation system
US20140025437A1 (en) * 2012-07-13 2014-01-23 Quosal, Llc Success guidance method, apparatus, and software
US10261938B1 (en) 2012-08-31 2019-04-16 Amazon Technologies, Inc. Content preloading using predictive models
US9317812B2 (en) * 2012-11-30 2016-04-19 Facebook, Inc. Customized predictors for user actions in an online system
US9589149B2 (en) 2012-11-30 2017-03-07 Microsoft Technology Licensing, Llc Combining personalization and privacy locally on devices
WO2014100616A1 (en) 2012-12-21 2014-06-26 Truecar, Inc. Pay-per-sale system, method and computer program product therefor
US11669584B2 (en) 2013-02-10 2023-06-06 Wix.Com Ltd. System and method for third party application activity data collection
US10375155B1 (en) 2013-02-19 2019-08-06 F5 Networks, Inc. System and method for achieving hardware acceleration for asymmetric flow connections
US10565208B2 (en) 2013-03-26 2020-02-18 Microsoft Technology Licensing, Llc Analyzing multiple data streams as a single data object
US9420100B2 (en) 2013-07-26 2016-08-16 Accenture Global Services Limited Next best action method and system
US10176240B2 (en) * 2013-09-12 2019-01-08 VoltDB, Inc. Methods and systems for real-time transactional database transformation
US20150081396A1 (en) * 2013-09-18 2015-03-19 Edwin Andrew MILLER System and method for optimizing business performance with automated social discovery
US9489419B2 (en) * 2013-09-18 2016-11-08 9Lenses, Inc. System and method for optimizing business performance with automated social discovery
US9049221B1 (en) 2013-11-12 2015-06-02 Emc Corporation Detecting suspicious web traffic from an enterprise network
US9338187B1 (en) * 2013-11-12 2016-05-10 Emc Corporation Modeling user working time using authentication events within an enterprise network
US9516039B1 (en) 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
US10187317B1 (en) 2013-11-15 2019-01-22 F5 Networks, Inc. Methods for traffic rate control and devices thereof
WO2015074079A1 (en) 2013-11-18 2015-05-21 ServiceSource International, Inc. User task focus and guidance for recurring revenue asset management
AU2014358700B2 (en) * 2013-12-04 2019-08-15 Wix.Com Ltd. System and method for third party application activity data collection
US9846885B1 (en) * 2014-04-30 2017-12-19 Intuit Inc. Method and system for comparing commercial entities based on purchase patterns
US10015143B1 (en) 2014-06-05 2018-07-03 F5 Networks, Inc. Methods for securing one or more license entitlement grants and devices thereof
US11838851B1 (en) 2014-07-15 2023-12-05 F5, Inc. Methods for managing L7 traffic classification and devices thereof
US10122630B1 (en) 2014-08-15 2018-11-06 F5 Networks, Inc. Methods for network traffic presteering and devices thereof
US11488086B2 (en) 2014-10-13 2022-11-01 ServiceSource International, Inc. User interface and underlying data analytics for customer success management
US10182013B1 (en) 2014-12-01 2019-01-15 F5 Networks, Inc. Methods for managing progressive image delivery and devices thereof
US9626453B2 (en) * 2014-12-23 2017-04-18 Sap Se Analytic solution with a self-learning and context-sensitive semantic layer
US11895138B1 (en) 2015-02-02 2024-02-06 F5, Inc. Methods for improving web scanner accuracy and devices thereof
US9965779B2 (en) * 2015-02-24 2018-05-08 Google Llc Dynamic content display time adjustment
US10834065B1 (en) 2015-03-31 2020-11-10 F5 Networks, Inc. Methods for SSL protected NTLM re-authentication and devices thereof
JP6705123B2 (ja) * 2015-04-17 2020-06-03 富士ゼロックス株式会社 購買意欲推定プログラム及び情報処理装置
US10505818B1 (en) 2015-05-05 2019-12-10 F5 Networks. Inc. Methods for analyzing and load balancing based on server health and devices thereof
US11350254B1 (en) 2015-05-05 2022-05-31 F5, Inc. Methods for enforcing compliance policies and devices thereof
US10191966B2 (en) * 2015-07-08 2019-01-29 Business Objects Software Ltd. Enabling advanced analytics with large data sets
CN106708815B (zh) * 2015-07-15 2021-09-17 中兴通讯股份有限公司 数据处理方法、装置和系统
US10318864B2 (en) 2015-07-24 2019-06-11 Microsoft Technology Licensing, Llc Leveraging global data for enterprise data analytics
US10679141B2 (en) * 2015-09-29 2020-06-09 International Business Machines Corporation Using classification data as training set for auto-classification of admin rights
US10497044B2 (en) 2015-10-19 2019-12-03 Demandware Inc. Scalable systems and methods for generating and serving recommendations
US10904360B1 (en) * 2015-12-02 2021-01-26 Zeta Global Corp. Method and apparatus for real-time personalization
US11757946B1 (en) 2015-12-22 2023-09-12 F5, Inc. Methods for analyzing network traffic and enforcing network policies and devices thereof
US10404698B1 (en) 2016-01-15 2019-09-03 F5 Networks, Inc. Methods for adaptive organization of web application access points in webtops and devices thereof
US11178150B1 (en) 2016-01-20 2021-11-16 F5 Networks, Inc. Methods for enforcing access control list based on managed application and devices thereof
US10797888B1 (en) 2016-01-20 2020-10-06 F5 Networks, Inc. Methods for secured SCEP enrollment for client devices and devices thereof
US10909209B2 (en) 2016-01-29 2021-02-02 Oracle International Corporation Dynamic insertion of content into webpages
US10997613B2 (en) * 2016-04-29 2021-05-04 Ncr Corporation Cross-channel recommendation processing
US10791088B1 (en) 2016-06-17 2020-09-29 F5 Networks, Inc. Methods for disaggregating subscribers via DHCP address translation and devices thereof
US11063758B1 (en) 2016-11-01 2021-07-13 F5 Networks, Inc. Methods for facilitating cipher selection and devices thereof
US10505792B1 (en) 2016-11-02 2019-12-10 F5 Networks, Inc. Methods for facilitating network traffic analytics and devices thereof
US9805071B1 (en) * 2016-11-10 2017-10-31 Palantir Technologies Inc. System and methods for live data migration
US10268536B2 (en) 2016-11-30 2019-04-23 Oracle International Corporation Secure debugging with an encrypted token
US10979305B1 (en) * 2016-12-29 2021-04-13 Wells Fargo Bank, N.A. Web interface usage tracker
US10514827B2 (en) 2017-02-10 2019-12-24 Microsoft Technology Licensing, Llc Resequencing actionable task structures for transforming data
US10481766B2 (en) * 2017-02-10 2019-11-19 Microsoft Technology Licensing, Llc Interfaces and methods for generating and applying actionable task structures
US10521448B2 (en) 2017-02-10 2019-12-31 Microsoft Technology Licensing, Llc Application of actionable task structures to disparate data sets for transforming data in the disparate data sets
US10812266B1 (en) 2017-03-17 2020-10-20 F5 Networks, Inc. Methods for managing security tokens based on security violations and devices thereof
US10972453B1 (en) 2017-05-03 2021-04-06 F5 Networks, Inc. Methods for token refreshment based on single sign-on (SSO) for federated identity environments and devices thereof
US11343237B1 (en) 2017-05-12 2022-05-24 F5, Inc. Methods for managing a federated identity environment using security and access control data and devices thereof
US11122083B1 (en) 2017-09-08 2021-09-14 F5 Networks, Inc. Methods for managing network connections based on DNS data and network policies and devices thereof
CN111611618B (zh) 2017-10-31 2023-08-04 创新先进技术有限公司 一种数据统计方法和装置
US20190180255A1 (en) * 2017-12-12 2019-06-13 Capital One Services, Llc Utilizing machine learning to generate recommendations for a transaction based on loyalty credits and stored-value cards
CN108053120B (zh) * 2017-12-15 2020-09-01 阿里巴巴集团控股有限公司 一种模型整合方法及装置
US11928716B2 (en) 2017-12-20 2024-03-12 Sap Se Recommendation non-transitory computer-readable medium, method, and system for micro services
US11397907B1 (en) * 2018-01-26 2022-07-26 EMC IP Holding Company LLC Centralized enterprise integration and services monitoring portal
US10558454B2 (en) 2018-06-04 2020-02-11 Palantir Technologies Inc. Constraint-based upgrade and deployment
US11157544B2 (en) * 2018-09-19 2021-10-26 International Business Machines Corporation Online site prediction and mitigation
US10776252B1 (en) * 2018-11-27 2020-09-15 Walgreen Co. Crowd-sourced automatic generation of user interface tests for enterprise-specific mobile applications
US20200167666A1 (en) * 2018-11-28 2020-05-28 Citrix Systems, Inc. Predictive model based on digital footprints of web applications
US10521220B1 (en) 2018-12-18 2019-12-31 Palantir Technologies Inc. Systems and methods for coordinating the deployment of components to defined user groups
WO2020128936A2 (en) * 2018-12-20 2020-06-25 Germishuys Dennis Mark Association determination
BR112021013355A2 (pt) * 2019-01-08 2021-09-14 Oro Agri Inc. Composição agrícola antipatogênica líquida, e método de diluir uma composição agrícola antipatogênica líquida
US11093885B2 (en) 2019-01-22 2021-08-17 International Business Machines Corporation Operations augmented enterprise collaborative recommender engine
US11106861B2 (en) 2019-02-01 2021-08-31 Sap Se Logical, recursive definition of data transformations
US11487721B2 (en) 2019-04-30 2022-11-01 Sap Se Matching metastructure for data modeling
US20210012219A1 (en) * 2019-07-10 2021-01-14 Sap Se Dynamic generation of rule and logic statements
US11080717B2 (en) 2019-10-03 2021-08-03 Accenture Global Solutions Limited Method and system for guiding agent/customer interactions of a customer relationship management system
CN111177220B (zh) * 2019-12-26 2022-07-15 中国平安财产保险股份有限公司 基于大数据的数据分析方法、装置、设备及可读存储介质
KR102340744B1 (ko) * 2020-02-24 2021-12-16 박승현 직원관리를 위한 직장인 서버, 및 이를 이용한 시스템
US20210398012A1 (en) * 2020-06-17 2021-12-23 International Business Machines Corporation Method and system for performing data pre-processing operations during data preparation of a machine learning lifecycle
JPWO2022014698A1 (ja) 2020-07-17 2022-01-20
EP3958197A1 (en) * 2020-08-17 2022-02-23 Hexaware Technologies Limited An enterprise software development dashboard tool
CN112150264A (zh) * 2020-10-13 2020-12-29 信阳农林学院 一种基于云平台的企业财务收支分析系统
CN112668836B (zh) * 2020-12-07 2024-04-05 数据地平线(广州)科技有限公司 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
JP7317171B2 (ja) 2021-12-03 2023-07-28 株式会社Doctorbook プログラム、情報処理装置及び情報処理方法
WO2023126888A1 (en) * 2021-12-30 2023-07-06 Content Square SAS Presenting cross-sell products for given product
US11948162B2 (en) 2021-12-30 2024-04-02 Content Square SAS Presenting cross-sell products for a given product
US11930054B2 (en) * 2022-01-31 2024-03-12 American Express Travel Related Services Company, Inc. Holistic user engagement across multiple communication channels
US20230274292A1 (en) * 2022-02-28 2023-08-31 Intuit Inc. Churn prevention using graphs
US20230274291A1 (en) * 2022-02-28 2023-08-31 Intuit Inc. Churn prediction using clickstream data
CN115190026A (zh) * 2022-05-09 2022-10-14 广州中南网络技术有限公司 一种互联网数字循环方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5692107A (en) 1994-03-15 1997-11-25 Lockheed Missiles & Space Company, Inc. Method for generating predictive models in a computer system
JPH09297686A (ja) * 1996-05-07 1997-11-18 Mitsubishi Electric Corp データマイニング装置
US5870559A (en) * 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
US5974572A (en) * 1996-10-15 1999-10-26 Mercury Interactive Corporation Software system and methods for generating a load test using a server access log
US5970464A (en) * 1997-09-10 1999-10-19 International Business Machines Corporation Data mining based underwriting profitability analysis
US6151601A (en) * 1997-11-12 2000-11-21 Ncr Corporation Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area
US6128624A (en) * 1997-11-12 2000-10-03 Ncr Corporation Collection and integration of internet and electronic commerce data in a database during web browsing
US6151584A (en) * 1997-11-20 2000-11-21 Ncr Corporation Computer architecture and method for validating and collecting and metadata and data about the internet and electronic commerce environments (data discoverer)
US6324533B1 (en) * 1998-05-29 2001-11-27 International Business Machines Corporation Integrated database and data-mining system
AU6412399A (en) * 1998-10-02 2000-04-26 Ncr Corporation Analytic logical data model
CN1347529A (zh) * 1999-01-15 2002-05-01 米泰吉公司 数据仓库环境下使信息可视化的方法
US6466970B1 (en) * 1999-01-27 2002-10-15 International Business Machines Corporation System and method for collecting and analyzing information about content requested in a network (World Wide Web) environment
US6449739B1 (en) * 1999-09-01 2002-09-10 Mercury Interactive Corporation Post-deployment monitoring of server performance

Also Published As

Publication number Publication date
AU2001291248B2 (en) 2006-08-31
US6836773B2 (en) 2004-12-28
EP1360608A2 (en) 2003-11-12
CA2424487C (en) 2012-11-27
JP5525673B2 (ja) 2014-06-18
AU9124801A (en) 2002-04-08
WO2002027529A3 (en) 2003-08-28
JP2004519758A (ja) 2004-07-02
WO2002027529A2 (en) 2002-04-04
US20020083067A1 (en) 2002-06-27
JP2012113744A (ja) 2012-06-14
CA2424487A1 (en) 2002-04-04

Similar Documents

Publication Publication Date Title
JP5620933B2 (ja) エンタープライズウェブマイニングシステム及び方法
US20050102292A1 (en) Enterprise web mining system and method
AU2001291248A1 (en) Enterprise web mining system and method
CN100401292C (zh) 用于使用倾向分析进行搜索查询处理的系统和方法
Srivastava et al. Web mining–concepts, applications and research directions
Nasraoui et al. A web usage mining framework for mining evolving user profiles in dynamic web sites
Eirinaki et al. Web mining for web personalization
US6151601A (en) Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area
US7165105B2 (en) System and method for logical view analysis and visualization of user behavior in a distributed computer network
US6839680B1 (en) Internet profiling
Wang Web mining and knowledge discovery of usage patterns
Baoyao Intelligent Web Usage Mining
Buchner et al. An internet-enabled knowledge discovery process
Markellou et al. Personalized e-commerce recommendations
Sathiyamoorthi Data mining and data warehousing: introduction to data mining and data warehousing
Zumstein et al. A fuzzy Web analytics model for Web mining
Desikan et al. Web mining for business computing
Zhang et al. The Application Research on Web Log Mining in E-Marketing
Giha et al. Customer profiling and segmentation based on association rule mining technique
Shinde et al. The hybrid web personalised recommendation based on web usage mining
Holland Preference mining and preference repositories: design, algorithms and personalized applications
CN117237038A (zh) 一种基于流量引擎的商品精准曝光处理系统
Hanyang et al. Research on data mining in e-business websites
Rahman A Data Mining Framework for Automatic Online Customer Lead Generation
Au A Study of Application of Web Mining for e-Commerce: Tools and Methodology

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140218

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140919

R150 Certificate of patent or registration of utility model

Ref document number: 5620933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250