JP5078674B2 - 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム - Google Patents

分析システム、情報処理装置、アクティビティ分析方法、およびプログラム Download PDF

Info

Publication number
JP5078674B2
JP5078674B2 JP2008051431A JP2008051431A JP5078674B2 JP 5078674 B2 JP5078674 B2 JP 5078674B2 JP 2008051431 A JP2008051431 A JP 2008051431A JP 2008051431 A JP2008051431 A JP 2008051431A JP 5078674 B2 JP5078674 B2 JP 5078674B2
Authority
JP
Japan
Prior art keywords
information
node
user
network
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008051431A
Other languages
English (en)
Other versions
JP2009211211A (ja
Inventor
明子 鈴木
弘揮 ▲柳▼澤
一星 吉田
ルディ・レイモンド・ハリー・プテラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008051431A priority Critical patent/JP5078674B2/ja
Priority to US12/395,031 priority patent/US8095652B2/en
Publication of JP2009211211A publication Critical patent/JP2009211211A/ja
Application granted granted Critical
Publication of JP5078674B2 publication Critical patent/JP5078674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles

Description

本発明は、ネットワークを使用するユーザの特徴付けに関し、より詳細には、情報を相互に伝搬するネットワーク・ノードの情報伝播における特性を使用して、ユーザの分析を行う、分析システム、情報処理装置、アクティビティ分析方法、およびプログラムに関する。
近年、コンピュータ、通信装置などの処理能力の向上に伴い、インターネットやWAN(Wide Area Network)などのネットワークを介して情報通信が行われている。ネットワークは、クライアント・コンピュータ(以下単に、クライアントとして参照する。)と、サーバ・コンピュータ(以下単にサーバとして参照する。)を含んで構成されており、クライアントおよびサーバがネットワーク・ノードを構成している。
クライアントは、ユーザを固有に識別するためのユーザIDにより特定されるユーザにより操作される。ユーザは、ネットワークを介してサーバに対して各種の要求を送付し、サーバによる処理結果を受領して、テキスト、イメージ、動画データ、音声データ、マルティメディア・データなど、種々のコンテンツを含む情報を、サーバに登録し、またサーバから取得して、各種の処理、例えば、検索、商品購買、投稿、チャット、ブログ(Weblog)のアップデートなどを含む行動をサーバから提供されるSNS(Social Network Service)を介して行っている。
サーバがユーザに対してSNS機能を提供している場合、ユーザはクライアントを介してブログに日記を書く、他人のブログを読むなどのアクションを通じて、情報の受発信を行っている。以下、「情報の発信」とは、サーバに対して情報をアップロードすることを意味し、「情報の受信」とは、サーバからの情報の取得を意味する。
一般的には、ユーザがネットワークに対して行うアクティビティは、ユーザのネットワークに対する嗜好性、目的、アクセス態様に応じて異なるものということができる。例えば、特定のクライアントは、ブログ・システムに対して毎日のように日記をアップロードする。また、他のクライアントは、日記をアップロードするのではなく、すでに登録された情報に対してコメントや投稿などを行うアクティビティを有している。また、さらに他のクライアントは、専ら情報検索のみを行い、情報をダウンロードするアクティビティを有する。これら、ネットワークに対してアクティビティの異なるクライアントは、ネットワークに対する要求も異なることが考えられる。
これまで、ネットワークを伝搬する情報を検出するシステムについて検討されており、例えば、特開2006−259801号公報(特許文献1)では、自発的な参加に伴う組織、コミュニティ、電子掲示板、メーリングリストなど、クライアントが任意参加でき、あらかじめクライアントが規定されていない「インフォーマル」なネットワーク要素で伝搬される情報を管理する、情報利用状況分析表示装置を開示している。
特許文献1に開示された情報利用状況分析表示装置は、クライアントが任意的に参加することができるネットワーク要素内で伝搬される情報と、当該ネットワーク要素外で伝搬される情報の利用状況を検出し、ネットワークの構成要素による情報の利用状況を表示することで、インフォーマルなネットワーク要素を経営資源として利用可能とするものである。
また、特開2007−264718号公報(特許文献2)では、ユーザの回覧したファイル間で伝搬している語から、ユーザの興味の対象をリアルタイムに推定する技術を開示している。特許文献2では、ユーザが回覧したファイルの履歴からファイルに含まれる複数の語を取得し、伝搬する語のファイル内における出現の程度を示すIDF値を求め、ユーザの興味の変化をリアルタイムに推定するものである。
さらに、特開平5−233719号公報(特許文献3)では、情報間の関連性を、特徴表現文と、各情報の発生時刻データとを使用して関連度を計算することにより関連付ける技術を開示する。
特開2006−259801号公報 特開2007−264718号公報 特開平5−233719号公報
特許文献1では、ネットワーク要素を介して伝搬される情報を利用する構成要素による情報の利用状況を取得することにより、インフォーマルなネットワーク構成要素に含まれるユーザなどについての情報を取得するものである。ユーザ間での情報の伝搬を分析すれば、情報の伝搬経路をトレースすることは可能となる。しかしながら、ユーザのネットワークでの情報伝播を使用して当該ユーザがネットワーク上でどのような役割を有しているか、すなわちユーザのネットワーク上でのアクティビティは、単に情報伝播を使用した有向グラフを生成するだけでは、解析することはできなかった。
また、上述したユーザのネットワーク上でのアクティビティを解析することは、ネットワークを介してユーザが取得を希望する情報の違いを反映するものと考えられる。この点で、特許文献1は、情報伝播経路を取得することを可能とするものの、クライアントがどのような目的で当該情報伝播経路を構成したかを検出するものではない。
特許文献2に記載されたユーザの興味の変化は、ユーザが特定のコンテンツを閲覧する場合に適用されるものであり、ユーザのネットワークを介したアクティビティの特徴付けを行うものではない。
さらに、特許文献3に開示された技術は、情報間の関連づけを行うことを解決課題とするものであり、ユーザのネットワーク上でのアクティビティを特徴付けることを課題とするものではない。
すなわち、ネットワーク上での情報伝播について、その伝播経路のみではなく、伝播経路上でのユーザのアクティビティを検出して、ユーザを特徴付け、当該特徴付けによってサーバなどの情報処理装置によるネットワークを介した情報配信に反映させることで、ネットワークに対してアクセスするユーザに対してより効率的な情報配信を行うことができるものと期待できる。
すなわち、これまで、クライアントを介してネットワークに接続されたユーザがどのような目的をもって情報を伝搬したのかを検出して登録し、ユーザのネットワーク上でのアクティビティを、サーバの処理に反映させる技術が必要とされていた。
また、これまで、ユーザのネットワーク上でのアクティビティを検出してユーザを特徴付けることを可能とする技術が必要とされていた。
本発明は、上記従来技術に鑑みてなされたものであり、ネットワークを介した情報の伝搬からネットワーク・ノードを構成するユーザのアクティビティを検出する、分析システム、情報処理装置、アクティビティ分析方法、およびプログラムを提供することを目的とする。
さらに本発明は、ネットワークを介した情報の伝搬を検出することにより、ネットワークに対するユーザのアクティビティでユーザを特徴付けすることを可能とする、分析システム、情報処理装置、アクティビティ分析方法、およびプログラムを提供することを目的とする。
さらに本発明は、ユーザのネットワークに対するアクティビティを、サーバといった情報処理装置の情報配信処理に反映させる、分析システム、情報処理装置、アクティビティ分析方法、およびプログラムを提供することを目的とする。
本発明では、SNSなどを使用して、ネットワーク・ユーザによる情報の流れを、「情報を書く→別のユーザがその情報を読む」、または「情報を読む→別の情報を書く」というユーザのアクションを含めて検出し、ユーザを特徴付けるものである。
本発明では、情報伝播の経路の他、情報伝播の方向を情報への行動タイプを使用して検出し、情報伝播グラフとして参照される有向グラフとして登録する。情報伝播グラフは、ユーザのネットワークに対する情報発信源としてのアクティビティを数値化するために利用される。情報は、ネットワーク上に登録されるか修正された段階で、当該アクションが終了した時刻を示すタイムスタンプとともに情報伝播グラフのノードとして登録される。各ノードは、時系列的に検査され、時間的により遅く登録されたノードを作成したユーザが、時間的により早くに登録されたノードを読んだか否かの判断によりリンクが生成される。
このため、本発明の情報伝播グラフは、ユーザによるネットワークを介した、一定の情報属性に関連する行動ログを反映する。各ノードについて、情報伝播グラフを使用してノード属性およびリンク属性を参照してノードが情報発信源として機能したことを示すノード特徴量をタイムスタンプの新しい側から古い側にリンクを経由して累積計算させることで、ルート側のノードの情報発信源としてのアクティビティが数値化される。
数値化されたノードのアクティビティは、ユーザを固有に識別するためのユーザIDについて統計的に処理され、ユーザのネットワーク上での情報発信源としての尺度を与えるユーザ特徴量の数値化に利用される。
以上の処理によって生成された情報伝播グラフを使用したユーザ特徴量は、情報処理装置が当該クライアントへと配信する情報の属性を変更するために利用される。また、ユーザ特徴量は、特定のキーワードにより指定される属性を有する情報に関連し、クライアントを介してネットワークにアクセスするユーザのネットワーク・アクティビティを反映した情報配信、効果分析、SNSなどの特定のネットワーク・サービスの内部での情報発信源となるユーザをトレースするために利用することができる。
<セクション1:ハードウェア基盤>
以下、本発明を実施の形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本実施形態の分析システム100の実施形態を示す。分析システム100は、ネットワーク106と、ネットワーク106に接続され、ユーザにより操作されて、ネットワーク106を介してサーバ104にアクセスする複数のクライアント108、112、114を含んで構成されている。
また、ネットワーク106には、サーバ104に蓄積されたコンテンツおよびブラウザ・ログなどを含む行動ログを使用してユーザを特徴付ける分析サーバ102が接続されている。サーバ104は、特に限定されるものではないが、ウェブ・サーバ、SNSサーバ、メール・サーバなどとして構成することができる。本実施形態では、ネットワーク106は、インターネットなどのネットワークを含むことが好ましいが、インターネット以外にもWAN(Wide Area Network)、LAN(Local Area Network)などを含んで構成されていてもよい。
また、分析サーバ102は、図1に示すように、サーバ104とは分離して構成されたウェブ・サーバなどとして構成することができる。また、他の実施形態では、分析サーバ102およびサーバ104の機能を統合して単一サーバまたはラックマウントタイプの機能統合サーバ120として実装することができる。この実施形態の場合、分析サーバ102、サーバ104は、それぞれサーバ120の分離された機能モジュールまたは分離されたシンサーバ、アプライアンス・サーバとして実装することができる。なお、分析サーバ102およびサーバ104の機能モジュールおよびハードウェアの詳細構成については、特定の用途または目的に応じて適宜設定することができる。
上述した分析サーバ102、サーバ104は、情報処理装置として実装されており、PENTIUM(登録商標)、PENTIUM(登録商標)互換チップ、などのCISCアーキテクチャのマイクロプロセッサ(MPU)、または、POWER PC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを実装することができる。また、各サーバ102、104は、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)などのオペレーティング・システムにより制御されている。また、分析サーバ102、サーバ104は、C++、JAVA(登録商標)、JAVA(登録商標)BEANS、PERL、RUBYなどのプログラミング言語を使用して実装される、CGI、サーブレット、APACHEなどのサーバ・プログラムを実行し、クライアント108、112、114からの要求を処理する。
クライアント108、112、114と、サーバ104との間は、TCP/IPなどのトランザクション・プロトコルに基づき、HTTPプロトコルなどのファイル転送プロトコルを使用するトランザクションを使用したネットワークで接続されている。クライアント108、112、114は、サーバ104にアクセスし、ファイルのアップロード、ダウンロード、ブログ書込み、ブログ読出し、感想・意見の記述、チャット、フォーム送信、フォーム・ダウンロード、コンテンツ・アップロード、コンテンツ・ダウンロードなどを行っている。以下、ユーザがクライアントを使用してサーバ104に対してネットワークを介して行うファイル操作を行動タイプとして参照する。また、ユーザがネットワーク106に対して情報を発信する、情報発信源となる傾向を、ユーザのアクティビティとして参照する。
なお、用語「情報」とは、テキスト、イメージ、動画データ、音声データ、マルティメディア・データなど、コンピュータがアクセス可能な形式で作成されたデータ構造体を意味し、以下、特定の実施形態において、コンテンツとして参照する。
クライアント108、112、114は、パーソナル・コンピュータまたはワークステーションなどを使用して実装でき、また、そのマイクロプロセッサは、これまで知られたいかなるシングルコア・プロセッサまたはデュアルコア・プロセッサを含んでいてもよい。また、クライアント108、112、114は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MAC OSなど、いかなるオペレーティング・システムにより制御されてもよい。また、クライアント108、112、114は、Internet Explorer(商標)、Mozilla、Opera、Netscape Navigator(商標)などのブラウザ・ソフトウェアを使用して、サーバ104にアクセスし、情報取得、情報生成などの処理を行う。
クライアント108、112、114、後述する管理者端末110、各サーバは、それぞれRAM、ハードディスク装置、CD−RW、DVD−RW、USBポートなどを含んで構成されており、プログラムの実行空間を確保し、かつデータの書込み・読出しが可能とされている。
また、ネットワーク106には、分析サーバ102の設定を行うための管理端末110が接続されている。管理端末110は、上述したクライアント108、112、114と概ね同様の機能構成とすることができる。管理者端末110は、管理者用パスワード、ログイン・ネームなどを使用して条件設定を行うためのウェブ・ページなどにアクセスし、設定条件を、例えばフォームなどの形式で送信することにより、分析サーバ102に対して取得させ、特徴付けするユーザに関連するコンテンツ属性を指定する。分析サーバ102は、分析処理を行うサーバ・プログラムを起動すると、取得した設定条件を使用して、当該コンテンツ属性に関連するユーザのアクティビティを分析し、ユーザのアクティビティに関連した特徴付けを実行している。
コンテンツ属性は、コンテンツ特性値により指定される。コンテンツ特性値は、種々の設定条件を使用して決定することができるが、本実施形態では、コンテンツ種類に関わらず、コンテンツが含む付されたキーワードを使用してコンテンツ属性とすることができる。キーワードは、コンテンツが含むテキストまたは音声データなどから取得することができる。コンテンツ属性を提供するための対象領域は、コンテンツのタイトル、メタデータ、または要約などを用いることができる。
また、コンテンツ特性値は、コンテンツが音声を含むマルティメディア・データである場合、音声データ部分を、音声変換プログラムを使用してテキスト・データに変換し、コンテンツ属性を取得するために利用することができる。この他、特定のファイル・タイプを、例えば拡張子を指定することなどにより指定することもできるし、コンテンツ内のヘッダ部分に記述される特定の制御データなどを指定することができる。
なお、図1では、管理者端末110は、ネットワーク106を介して分析サーバ102に条件設定を行うものとして説明する。しかしながら、他の実施形態では、管理者端末110は、分析サーバ102に対してローカル・エリア・ネットワーク(LAN)で接続された端末として構成することもできる。さらに他の実施形態では、管理者端末110を特に設けることなく、分析サーバ102に対してVGA、XGAケーブル、USBなどで接続されたディスプレイ装置、キーボード、マウスなどを使用して直接条件設定を行う実施形態とすることができる。
図1に説明する実施形態では、分析サーバ102は、コンテンツ属性を決定するための条件が設定された後、適切なタイミングで、サーバ104から、条件設定により指定されるコンテンツ自体、またはコンテンツ識別値(以下、コンテンツIDとして参照する。)を取得する。そして、サーバ104から、行動ログ・データを取得して、取得したコンテンツ属性に関連する行動履歴データを使用してユーザの特徴付けを実行する。なお、以下、本実施形態では、行動履歴データについて、ユーザのネットワーク106を介したサーバ104などへの行動ログを示すものとして、行動ログ・データとして参照するが、以下の処理に適切な形式である限り、ログ・データとして管理されるデータでなくともよい。
図2は、図1に示した分析サーバ102の機能ブロック200である。分析サーバ102には、プログラムおよびハードウェアが協働して複数の機能ブロックとして示された各機能手段が提供されている。分析サーバ102は、通信制御部218と、情報伝播グラフ取得部212と、キーワード情報記憶部214と、キーワード抽出部216とを含んでいる。通信制御部218は、NIC(ネットワーク・インタフェース・カード)およびソフトウェアによりネットワーク・アダプタとして構成されている。また、分析サーバ102がディスプレイ装置、キーボードなどを実装している場合、通信制御部218は、USBホスト・インタフェースとして実装することができる。
通信制御部218は、ネットワーク106を介して管理者端末110から条件設定を受領して、情報伝播グラフ取得部212によるコンテンツ属性に関連してクライアント間の情報伝播グラフを生成する。本実施形態では、設定条件としては、キーワードを使用するものとして説明するが、設定条件は特に限定されるものではない。以下、設定条件として機能するキーワード(セット)を、属性指定キーワードとして参照する。
キーワード抽出部216は、本実施形態の属性抽出部として機能し、情報記憶部として機能するコンテンツ記憶部232に格納されたコンテンツの情報特性値として機能するキーワードを抽出し、コンテンツが含むキーワードを、コンテンツIDに対応付けて索引リストを作成し、索引リスト保管している。キーワード情報記憶部214は、説明する実施形態では、設定条件として取得した属性指定キーワードを保管している。
キーワード情報記憶部214は、本実施形態では、設定条件情報記憶部として機能する。キーワード情報記憶部214は、キーワード抽出部216が管理する索引リストに対して属性指定キーワードWを使用して検索を実行し、検索条件にヒットしたコンテンツIDの集合としてユーザ分析の対象となるコンテンツ集合を生成する。生成したコンテンツ集合は、分析サーバ214の適切な記憶領域に送られて、情報伝播グラフ取得部212による処理のために提供される。行動ログ記憶部230は、サーバ104のブラウザ・ログとして保存するデータ自体、またはサーバ104に対するアクセスログ・データを蓄積する記憶装置内に構成されている。
情報伝播グラフ取得部212は、行動ログ取得部230に格納されたデータを取得して、クライアント−サーバ−他クライアント間の情報伝播をトレースし、特定のクライアントに関連するユーザの特徴付けを実行する。情報伝播グラフ取得部212が作成した情報伝播グラフを、ハードディスク装置またはRAMなどの適切な記憶領域に構成した情報伝播グラフ記憶部220に格納する。なお、行動ログ記憶部230およびコンテンツ記憶部232は、分離したサーバ104に実装されていてもよく、また同一のサーバ120として構成される場合には、サーバ120のハードディスク装置内の適切な領域にグローバル・データとして格納することができる。
一方、通信制御部218は、受領した条件設定を、特徴ユーザ計算部222に送付して、特徴ユーザ計算部222でのユーザ特徴付けのために利用させている。特徴ユーザ計算部222は、より詳細には、ノード特徴量計算部と、ユーザ特徴量計算部とを含んで実装されて、ノード特徴量から、ノード間に割り当てた有向リンクの時系列的な関連性を使用して積算することで数値化して生成されたユーザ特徴量を、ユーザ特徴量記憶部224に格納させている。
なお、本実施形態では、ノードとは、サーバ104に格納されたコンテンツから抽出されるデータ構造を意味する。ノードは、特定のコンテンツ属性を有し、当該コンテンツが生成または編集され、当該生成・編集の行動タイプが完了した段階で、コンテンツを識別するコンテンツID、生成・編集終了時のタイムスタンプ、ユーザID、読み出し回数など、特定の目的に応じてノードを特徴付けるための他のデータなどにより記述される。また、ノード特徴量計算部およびユーザ特徴量計算部の処理については、その処理とともにより詳細に後述する。
情報伝播グラフ記憶部220から情報伝播グラフを読出して、情報伝播に関連するノードを取得する。特徴ユーザ計算部222は、取得した各データを使用して有向グラフからユーザごとの特徴量を計算し、コンテンツ属性に関連した特徴量に基づいてネットワーク106に対するアクティビティの観点からユーザの特徴付けを行い、その結果をユーザ特徴量記憶部224に登録し、ユーザ分析の結果として格納する。
ユーザ特徴量は、その後、サーバ104などにおいて、ユーザID/コンテンツ属性/特徴量などを対応させたテーブルとして作成され、サーバ104が、バナー広告を表示させ、またバナー広告の効果を確認するなどの処理のために利用される。また、特定のコンテンツ属性を有するコンテンツの情報発信源として機能するユーザをトレースするためにも利用することができる。サーバ104が、ユーザ特徴量を使用する場合、本実施形態のサーバ104は、ユーザがキーワードを入力する前に、ユーザのコンテンツ属性に関連付けられたユーザ特徴量を利用して高い効率でのバナー広告を提供することが可能となる。
また、他の実施形態では、サーバ104または分析サーバ102は、特定コンテンツに関連して情報発信の高いユーザや情報受信の高いユーザを識別させることで、当該ユーザのネットワーク106上でのアクティビティを利用した情報伝播解析のための情報を提供することが可能となる。
<セクション2:ネットワーク上でのユーザ・アクティビティ>
図3は、行動ログ記憶部230に格納される行動ログ・データおよびコンテンツ記憶部232に格納されるコンテンツの実施形態を示す。行動ログ・データ300は、ユーザIDで固有に識別されるユーザが特定のコンテンツに対して、ネットワーク106を介してどのようなアクションを行ったかを記録する。図3に示すように、行動ログ・データ300は、ユーザIDを登録するフィールド302と、当該ユーザIDで識別されるユーザが、ネットワーク106を介して行ったアクションを登録するフィールド304と、ユーザがアクションの対象としたコンテンツのコンテンツIDと、ユーザが特定のコンテンツに対してアクションを行い、当該アクションが終了した時刻をその日付とともに登録するフィールド308とを含んでいる。なお、図3のフィールド308には、簡略化して日付のみを示している。
行動ログ・データ300についてさらに説明すると、例えば、ユーザIDがAで指定されるユーザは、タイムスタンプ=2008/2/10 21:10:36(2008年2月10日、21時10分36秒)にコンテンツID=100で指定されるコンテンツを書込み、その書込みを終了させている。また、ユーザID=Bで指定されるユーザは、コンテンツID=100を読取り、タイムスタンプ=2008年2月11日10時38分15秒に読取りトランザクションを終了させている。
以下同様に、行動ログ・データ300は、ユーザID=Cのユーザが読取りを行い、次いで、ユーザID=BのユーザがコンテンツID=200のコンテンツの書込みを行い、ユーザID=CのユーザがコンテンツID=200のコンテンツの読取りを行ったことを記録している。したがって、行動ログ・データ300を使用することにより、ユーザIDで指定される特定のユーザのネットワーク106を介したコンテンツに対するアクティビティをトレースすることができる。
また、コンテンツ・リスト350は、コンテンツを固有に識別するためのコンテンツIDを登録するフィールド352と、コンテンツの作成が終了した時刻に対応するタイムスタンプを登録するフィールド354と、コンテンツの内容を登録するフィールド356とを含んで構成されている。コンテンツが作成されると、作成されたコンテンツに対して固有のコンテンツIDが割当てられ、次いでタイムスタンプが割当てられる。これらの割当てが終了した段階で、サーバ104など行動ログ・データを管理する情報処理装置は、行動ログ・データ300に、ユーザID、アクティビティである行動タイプを登録し、コンテンツID、タイムスタンプをフィールド306、フィールド308に登録することにより、図3に示した各データ構造が、ユーザがサーバ104などにアクセスするごとに蓄積されて行く。
図4は、本実施形態でユーザの行動タイプ400の概略図である。ユーザの行動タイプ400は、大きく情報発信タイプ410と、情報受信タイプ420とに分類される。情報発信タイプ410の行動内容としては、「書く」、「送る」、「アップロードする」、「メール送信」、「フォーム送信」などが考えられる。また、情報受信タイプ420の行動内容としては、「読む」、「見る/視る」、「聴く」、「ダウンロードする」、「メール受信」、「フォーム受信」などが考えられる。なお、これらの行動タイプは、例示的なものであり、さらに他の行動内容についても行動ログ・データ300の行動タイプとして登録することができる。
また、ユーザのアクションの対象となる情報種類430は、サーバ104などが取り扱うことができる情報全体となるが、例示的には、日記(ブログ)、コメント、メッセージ、動画、フォトアルバム、音楽、レビュー、ニュース、コミュニティ記事、商品記事などを挙げることができる。ただし、これらの情報種類は、例示的なものであり、情報種類430に限定されるものではない。
以上のように、行動ログ・データ300を使用すれば、ユーザIDで指定されるユーザがコンテンツに対して、どのような行動タイプのアクションを行ったかについてはトレースすることが可能である。しかしながら、行動ログ・データ300だけでは、当該ユーザIDで指定されるユーザがネットワーク106にアクセスする場合の行動パターンを判断することができない。ユーザがネットワーク106にアクセスする場合について以下に検討する。ユーザは、ネットワーク106にアクセスしてそのアクティビティを発生させる場合、特定の内容を有するコンテンツに対しては、書込みやアップロードが多く行われると考えられる。
また、同一のユーザであっても、特定の内容を有しないコンテンツに対しては何らのアクションも発生させないか、または情報受信タイプ420の行動タイプのみしか発生させないことが想定できる。すなわち、従来技術であっても行動ログを利用すれば、サーバ104などの処理に基づいて、情報伝播経路をトレースすることは可能となる。しかしながら、ユーザを、コンテンツ属性に関連付け、ユーザのネットワーク上での嗜好性に関連して情報伝播上でのアクティビティにより特徴付けを行うことはできない。
本実施形態の分析サーバ102は、コンテンツ属性に関連してユーザのネットワーク106上でのアクティビティを特徴付けする。分析サーバ102の処理は、行動ログ記憶部230から行動ログ・データ300を読出すとともに、コンテンツ記憶部232に記憶されているコンテンツを取得して、コンテンツが含むキーワードにより、コンテンツを索引付けする。本実施形態の分析サーバ102は、当該キーワードによる索引付けと行動ログ・データとを使用して、ユーザのコンテンツ属性に関連するアクティビティの特徴付けを行う。以下、分析サーバ102が実行するアクティビティ分析方法について詳細に説明する。
<セクション3:ユーザ特徴付け処理>
3−1.前処理
図5は、分析サーバ102が実行するユーザ特徴付け処理のためのプリプロセッシング(前処理)に対応するキーワード抽出およびキーワードによるコンテンツの索引付け処理のフローチャートである。図5の処理は、ステップS500から開始し、ステップS501で、コンテンツ記憶部232内にキーワード抽出が終了していないコンテンツがあるか否かを判断する。なお、ステップS501の処理は、分析サーバ102が、定期的にコンテンツ記憶部232を検索し、前回登録されているコンテンツ以後に追加された追加コンテンツについてのみ適用することができる。また、未処理か否かの判断については、コンテンツに対して処理済みか否かのフラグを設定して処理済みを索引付けすることもできる。また、より好ましい実施形態では、分析サーバ102が保有しているコンテンツIDと、コンテンツ記録部232内に格納されたコンテンツIDとを比較し、分析サーバ102が保有しているコンテンツIDよりも最近のタイムスタンプを有するコンテンツを処理対象として登録し、処理済みに対応してキューから処理したコンテンツのコンテンツIDを削除することで未処理/処理の判断を行うこともできる。
未処理のコンテンツがまだ存在する場合(yes)ステップS502で、未処理のコンテンツCを取得して、ステップS503で言語処理により、コンテンツCからキーワードを抽出する。キーワードの抽出は、これまで知られたいかなる方法によって行うことができ、例えば形態素解析の技術を適用することができる。また、実施形態としては、抽出されるキーワードの質を高めるために、抽出されたキーワード群から、そのコンテンツを良く特徴付けるようなキーワードを選択するための方法として、TF(Term Frequency)法、IDF(Inverted Document Frequency)法、これらの値を乗算して得られるTF−IDF法などを適用することもできる。
また、他の実施形態では、ユーザの行動マトリクスを基準としたキーワード抽出方法であって、アトーニードケット番号JP9070196(出願番号:特願2007−336919)として参照される方法も使用することができる。行動マトリクスとは、ユーザの行動と、その行動とともに用いられたテキスト中から抽出されたキーワードより構成される行列であり、各要素にはある時刻までに蓄積されたキーワードの出現頻度に基づいて生成された値が記入される。行動マトリクスの構成について概略的に説明すると、行動マトリクスは、ユーザが行った行動aに伴うテキストdから抽出されるキーワードW={w1,w2,w3,...}を、行動aに対応させる形で蓄積したものである。
ある行動ajにおいて伴われるテキストd中にキーワードwiが1回出現すると、行動マトリクスのi行j列要素に1(あるいはこれに重みを乗算した値)が記入される。また、行動マトリクスは、ある時刻Tにおける行動マトリクスは、次の時刻Ti+1においてΔT=Ti+1−Tの間の行動マトリクス(一時行動マトリクスと呼ぶ)を重み付けして混合する形で更新することにより生成され、特徴的なキーワードを、行動マトリクスの特異値として生成させることで、膨大なキーワードの中から、特徴的なキーワードを抽出することができる。
ステップS504では、抽出したキーワードをコンテンツIDに対応付けて登録し、索引リストを生成させ、再度、ステップS501に処理を分岐させ、ステップS501の処理で、未処理のコンテンツが存在しなくなるまでステップS502〜ステップS504の処理を繰り返して実行させる。ステップS501で、未処理のコンテンツがなくなった場合(no)、処理をステップS505に分岐させて、処理を終了させる。
なお、図5に説明した処理は、専用モジュールを使用して行うこともできる。しかしながら、分析サーバ102が、検索エンジンのために作成されたキーワード抽出モジュールを併用できる場合には、分析サーバ102の専用機能モジュールとして実装する必要はない。
図6は、図5に説明したプリプロセッシングにより生成された索引リスト600の実施形態である。図6に示す索引リスト600は、コンテンツIDを登録するフィールド610と、抽出されたキーワードリストを登録するフィールド620とで形成されていて、コンテンツIDと、コンテンツIDで指定されるコンテンツが含むキーワードとを対応付けることが可能とされている。分析サーバ102は、図6に示した索引リストに対して管理者端末110が設定した属性指定キーワードを使用して、指定されたコンテンツ属性を有するコンテンツを抽出し、抽出したコンテンツに関連してユーザのアクティビティを決定する。
なお、キーワードは、コンテンツのいかなる部分からでも生成することができ、コンテンツ本文、コンテンツの要約、コンテンツのタイトル、その他のメタデータ、またはコンテンツがマルチメディア・コンテンツや音響データである場合、テキストに変換できるデータ部分を、例えば、音声−テキスト変換ソフトウェア(例示的には、VIAVOICE(登録商標)など)を使用してテキスト変換された部分から、キーワードを抽出することができる。
3−2.分析対象のコンテンツ集合生成
図7は、属性指定キーワードを使用した、指定された属性を有するコンテンツを検索する処理の実施形態のフローチャートを示す。図7の処理は、ステップS700から開始し、ステップS701で、属性指定キーワードを取得する。属性指定キーワードは、分析サーバ102のユーザまたはクライアントが分析したいユーザを特徴付けることが可能なキーワード、または通常ではキーワードセットである。属性指定キーワードの取得は、通信制御部218からネットワーク106を介して都度取得することもできるし、予め分析サーバ102に登録しておき、図7の処理が開始される段階で、メモリ、ハードディスク装置などから読出して取得してもよい。
ステップS702では、検索対象とするコンテンツCを600で指定し、ステップS703では、コンテンツCが、キーワードWとして設定されたキーワードの内の少なくとも1つを含むか否かを判断する。この判定は、索引リスト600のコンテンツIDを指定して、属性指定キーワードが含むキーワードを個別に検索することにより実行される。なお、キーワードが複数ある場合、キーワード間の論理的な関係は、OR、ANDなどをいかなるように組み合わせて検索式を生成することができる。
なお、ステップS703の検索は、データベース・ソフトウェアまたはJAVA(登録商標)などのオブジェクト指向プログラミングを使用して、キーワード検索専用のプログラムを実装することにより行われる。ステップS703の検索につき、複数キーワードが存在し、キーワード間がそれぞれORで結合されている場合、ステップS703では、コンテンツCが属性指定キーワードを少なくとも1つ含む場合(yes)、ステップS704でコンテンツCをコンテンツ集合に加え、ステップS706に処理を分岐させる。
一方、ステップS703で、コンテンツCが属性指定キーワードをまったく含まない場合(no)、ステップS706で、未処理のコンテンツが残されているか否かを判断する。未処理のコンテンツが存在する場合(yes)、処理をステップS702に分岐させ、さらに属性指定キーワードによるコンテンツの抽出を実行する。一方、ステップS706で、未処理のコンテンツが無くなった場合(no)、索引リスト600に登録されたコンテンツ全部について抽出が終了したので、ステップS707でコンテンツ集合を決定し、メモリまたはハードディスク装置に出力させ、以後の処理のために格納する。
図8は、図7のステップS703およびステップS704のコンテンツ抽出処理を、作成されるデータ構造を用いて説明する概略図である。図8に示すように、分析サーバ102は、索引リスト600のフィールド610からコンテンツIDを指定し、当該コンテンツIDに対応付けられ、フィールド620として登録されたキーワードリストに対して属性指定キーワードの集合であるWを使用してその存在を照会する。図8に示した実施形態では、属性指定キーワード集合=Wには、海外旅行、万里の長城、中国の3キーワードが含まれている。
分析サーバ102は、索引リスト600を検索し、属性指定キーワードWが含むキーワードを含むコンテンツIDを抽出し、テーブルに登録して行く。図8では、コンテンツID=100は、キーワード=海外旅行を含み、コンテンツID=300は、キーワード=海外旅行を含み、またコンテンツID=400は、キーワード=万里の長城を含むためテーブルに抽出され、コンテンツ集合800が生成されている。
3−3.情報伝播グラフ:データ構成
図9は、分析サーバ102が、行動ログ・データ900から、コンテンツ間の情報伝播の関係を生成する処理の概略図を示す。便宜上、図9に示した行動ログ・データ900は、図8で説明した処理により生成されたコンテンツ集合に関連して行動ログ・データ300を検索して生成されたデータ構造体として構成される行動ログ・データであるものとして説明を行う。なお、さらに他の実施形態では、行動ログ・データ900は、行動ログ・データをオンザフライに検索し、ヒットするごとに順次情報伝播グラフ取得部に通知されてもよい。
分析サーバ102は、行動ログ・データ900に含まれるコンテンツを情報伝播の関係を示すため情報伝播グラフ910として登録する。情報伝播グラフ910は、有向グラフとして作成され、情報伝播グラフ910のノードは、ユーザがネットワーク106を介してコンテンツを作成し、当該コンテンツの作成または編集が終了したことに対応して登録される。
この判断は、行動ログ・データ900のユーザIDに対応するコンテンツID、行動タイプおよびタイムスタンプを参照して行われる。すなわち、情報伝播グラフ910のノードとしてコンテンツを登録する処理は、行動タイプ=write(ブログ書込み、感想書込み、アップロードなど、サーバ104に対してコンテンツを追加する処理全般を意味する。)であり、タイムスタンプが登録されているコンテンツIDを参照して実行される。
より具体的には、情報伝播グラフ910の生成は、図9に示した行動ログ・データ900から、行動タイプ=writeであるコンテンツIDを取得し、説明する実施形態では、そのタイムスタンプが最も古い値を有するコンテンツIDを、情報伝播グラフ910を指定してノードとして登録する。そして、順次タイムスタンプの古い順に行動タイプ=writeであるコンテンツIDを抽出してノードを登録する。ノードには、ノードを固有に識別させるためのノード識別値である、ノードIDが登録されている。
また、ノード、例えば、ノードID_2には、情報伝播グラフ910上のノードを特徴付けるノード属性960が登録されている。ノード属性960は、図示した実施形態では、コンテンツID、タイムスタンプ、コンテンツを生成したユーザのユーザID、当該ノードの読出し回数、その他、ユーザを特徴付けるための特定の用途に適合するいかなるパラメータでも、以後の特徴付処理のために登録しておくことができる。
また、異なるノード間には、ノード間を連結する有向リンクが提供されていて、異なるノード920、930、940、950の間の時系列的な関係を規定している。図9に示すように、有向リンクには、図9に示すように出発リンクと、入来リンクとが存在する。出発リンクは、例えば、リンクID_Lで示すように、タイムスタンプが古いノードからタイムスタンプが新しいノードに向かって、タイムスタンプの古いノードから発生するリンクとして参照される。また、入来リンクとは、リンクID_Mで示すように、ノードID_4から見た場合に、タイムスタンプの古いノードから、ノードID_4のノードに入来する有向リンクとして参照される。
さらに、有向リンクには、リンクの属性を特定する、リンク属性970が登録されている。リンク属性970としては、ノード属性960と同様に、分析の目的に応じていかなるパラメータでも含ませることができる。例示的な目的で、図9に示した実施形態では、リンクID、リンク元コンテンツID、リンク先コンテンツID、リンク元へのアクセスがいつ行われたかを示すリンク元アクセスタイムスタンプなどが登録されている。
なお、本実施形態では、コンテンツは、時系列的に見て累積的に作成され、有向リンクは、リンク元のコンテンツの影響を受け、一定の条件を満たして時系列的に新しく作成されたコンテンツに向かって生成される。このため、過去に作成されたコンテンツは、以後に作成されたコンテンツの影響を受けて編集された場合でも、時系列的にはより新しいコンテンツとして行動ログ・データに登録されるので、情報伝播グラフは、ループを構成しない、DAG(Directed Acyclic Graph)として生成することができる。このため、本実施形態では、有向グラフの内、DAGとして参照される有向グラフを生成させ、DAGについて適用される各種論理処理の適用が保証される。なお、リンク生成処理についてはより詳細に後述する。
図10は、情報伝播グラフ910を情報処理装置上で定義するためのデータ構造の概略図を示す。図10に示すデータ構造は、ノード・リスト100およびリンク・リスト1050を含む構成として例示的に示されている。ノード・リスト100は、生成されたノードの有向グラフ上での特性およびノード属性を登録する。ノード・リスト1000には、ノードIDを登録するフィールド1010と、ノード属性を登録するフィールド1020とを含んでいる。分析サーバ102は、ノードの情報を取得したい場合、ノード・リスト1000を参照して、そのノードIDおよびノード属性1020を取得し、ユーザ分析のために利用する。
また、ノード・リスト1000は、出発リンクを登録するフィールド1030と、入来リンクを登録するフィールド1040とを含んで構成される。フィールド1030は、特定のノードがユーザによって作成されるノードを発生させたかを示す尺度も与え、例えば、ノードID_3のノードは、他のノードに対して1リンク分の影響を与え、ノードID_1およびノードID_2のノードは、それぞれ他のノードの生成に対して2リンク分の影響を与えていることが、フィールド1030に登録されたリンク数をカウントすることによっても判断することができる。また、入来リンクは、当該ノードが他のノードにより複合的な影響を受けていることを示す尺度ということができ、例えば、特定のノードIDについて入来ノードがまったく生成されていないことは、当該コンテンツ集合において最初に生成されたコンテンツを与える可能性があるものということができる。
また、説明する実施形態では、リンク・リスト1050は、ノード・リスト1000とは分離したリストとして構成されている。リンク・リスト1050は、リンクを固有に識別するためのリンクIDを登録するフィールド1060と、リンク属性を登録するフィールド1070とを含んで構成されている。分析サーバ102は、ノード・リスト1000から情報伝播グラフ910をメモリ上に登録する場合、ノード・リスト1000に登録されたリンクIDを参照して、紐付けされたリンク先や、リンク元を参照することが可能となる。なお、図10に示した情報伝播グラフ910の定式化は、あくまでも例示的なものであり、特定のプログラム構成やハードウェアの条件に応じて、単一のリストに統合することもできるし、また、それぞれのフィールドごとに別々にリストを構成することもできるし、また可能な場合、ベクトル形式で登録することもできる。
3−4.情報伝播グラフ生成
情報伝播グラフの作成は、ユーザ分析サーバ102の情報伝播グラフ取得部212が実行する処理である。図11は、分析サーバ102が実行する情報伝播グラフ910および図10の各データ構造を作成する処理のフローチャートの実施形態である。本実施形態の情報伝播グラフの作成処理は、ステップS1100から開始し、定義済み処理であるステップS1101でノード生成処理をコンテンツ集合に対して実行して、ノードおよびノード属性を生成させる。その後、定義済み処理であるステップS1102で、生成したノード間にリンクを生成する処理を実行して、情報伝播グラフを有向グラフとして分析サーバ102に登録し、ステップS1103で処理を終了させる。以下、ステップS1101およびステップS1102の定義済み処理について詳細に説明する。
3−4−1.ノード生成処理(S1101)
図12は、ノード生成処理の実施形態についてのフローチャートである。ノード生成処理は、ステップS1200から開始し、ステップS1201で、例えばコンテンツ集合800のコンテンツIDをキューに登録し、コンテンツ集合の要素として登録された未処理のコンテンツがまだ存在するか否かを判断する。ステップS1201で未処置のコンテンツが残されていなければ(no)、処理をステップS1203に分岐させ、処理を終了させる。一方、ステップS1201の処理で、未処理のコンテンツがまだ存在する場合(yes)、ステップS1202でコンテンツID(X)と、当該コンテンツID(X)に付された時刻t(X)とを取得し、ノード(X、t(X))を生成させる。その後処理をステップS1201に分岐させ、再度、未だ未処理のコンテンツが存在するか否かを判断し、未処理のコンテンツが無くなるまで処理を繰り返し実行する。なお、ステップS1202の処理では、当該ノードのノード識別値を割当て、ノード属性を、図10のノード・リスト1000のそれぞれ対応するフィールドに登録してゆく。
3−4−2.リンク生成処理
リンク生成処理では、生成したノード間にリンクを定義する処理を実行する。図13は、リンク生成処理の実施形態のフローチャートを示す。図13の処理は、ステップS1300から開始し、ステップS1301で、ノードをt(X)の値で昇順にソートし、ソート結果をキューQに登録する。ステップS1302では、Qが空か否かに基づき、リンク生成処理が終了したか否かを判断する。なお、他の実施形態では、キューを使用することなく、処理済みフラグなどを順次設定してゆくことで、リンク生成終了を判断することもできる。
ステップS1302でQが空ではない場合(no)、ステップS1303でノード(X、t(X))をキューから取得する。ステップS1304では、ノード属性に登録されたユーザIDを参照してノード(X、t(X))を作成したユーザのユーザIDを、Person(X)に設定し、Person(X)で指定されたユーザIDを有するユーザが、タイムスタンプt(X)より前に生成したコンテンツのうち、最後に生成したコンテンツのタイムスタンプをtに設定する。また、該当するタイムスタンプがない場合には、t=−∞(負の大数)に設定する。
ステップS1305では、t<t(Y)<t(X)であり、Person(X)として登録されたユーザIDを有するユーザが、コンテンツYを読んだ記録が行動ログ・データ900内に存在するような、コンテンツYが存在するか否かを判断する。この判断は、ノード(X、t(X))が、影響を受けたノードを識別するための処理であり、ノードの時系列上最後尾から処理を進めてゆくことにより有向グラフを効率的に探索することができるためである。なお、行動ログ・データ900内に当該データが存在すれば、図12の処理で、ノード(Y、t(Y))は、既に登録されていることになる。
ステップS1305の処理が肯定的な結果を返す場合(yes)、ステップS1306で、ステップS1305の条件を満たす各ノード(Y、t(Y))について、ノード(X、t(X))をリンク先ノードとし、ノード(Y、t(Y))をリンク元ノードとするリンクを生成し、当該リンクに、例えばリンクID_Kを割当てることにより、リンクを生成する。生成したリンクの情報は、ノード・リスト1000のノード(Y、t(Y))に対応するノード識別値のノード属性に当該ノードのノード属性を記述し、出発リンクにリンクID_Kの値を記述することにより行われる。
一方、ノード(X,t(X))に対応するノード識別値の入来リンクのフィールドには、生成したリンクのリンクIDであるリンクID_Kが記入される。さらに、リンク・リスト1050には、生成したリンクのリンクIDである、リンクID_Kをフィールド1060に記入し、フィールド1070に、リンク元コンテンツID、リンク先コンテンツID、リンク元アクセスタイムスタンプなどを記入して、直隣接するノード間にリンクを生成させる。
その後、処理は、ステップS1304に分岐して、ノード(X,t(X))についてリンクを生成するべきノードが存在しなくなるまでリンク生成を繰り返して実行させる。また、ステップS1305の判断が否定的な結果を返す場合(no)、処理をステップS1302に分岐させ、ステップS1302〜ステップS1306の処理を反復させる。以上の処理により、コンテンツ集合内に存在するノードに関して、情報伝播グラフ910および対応するデータ構造であるノード・リスト1000、リンク・リスト1050が構築される。
さらに他の実施形態では、ステップS1305の判断において、Yを選択する条件として、t(Y)<t(Y′)<t(X)で、Person(Y)=Person(Y′)を満たすコンテンツが見出されないことを制約条件として追加することが好ましい。この理由は、ノード(X、t(X))に対して1階層ごとに関連付けるリンクを確実に生成させるためである。また、これに関連してさらに他の実施形態では、Δt=|t(X)−t(Y)|の値を使用して統計処理を導入し、Δtが大きくなるにつれ、関連性を低下させる重み付け関数を生成させて、同一ユーザの生成した複数のコンテンツY′について、リンク生成を選択することも可能である。
生成された情報伝播グラフは、情報伝播グラフ記憶部220に格納され、以後のユーザ特徴量計算処理のために利用される。
3−4−3.ユーザ特徴量計算
ユーザ特徴量の計算は分析サーバ102の特徴ユーザ計算部222により実行される処理である。図14を参照して、処理を概説する。図14に示されたノード1410〜1470のうち、ユーザ特徴量の計算に先立ち、タイムスタンプが最新のノードから処理を開始して、順次上流側に向かってノード特徴量を累積計算させて行く処理を実行する。具体的には、直接情報を伝播させたノード1450にリンクされた直下流側のノード1440、1460のノード特徴量を計算した後、直接情報を伝播させたノード1450のノード特徴量に累積計算して生成する。例えば、ノード1450のノード特徴量B1は、B1=(A2+C2)として計算することができる。最終的なユーザ特徴量の計算は、当該ユーザが生成させたコンテンツ、すなわちノードについて計算されたノード特徴量を使用して生成させる。ユーザ特徴量は、特定の用途および目的に応じて種々の設定方法を採用することができる。
ユーザ特徴量は、当該ユーザが生成させたノードのうち最もタイムスタンプの古いノードのノード特徴量を、ユーザ特徴量として設定することができる。また、ユーザ特徴量を、ノード特徴量のうち、最も大きな値を有するノードの値と設定することができる。さらに、ユーザ特徴量として、各ノード特徴量の平均値またはトップN(Nは、正の整数である。)のノード特徴量の平均値を採用することもできる。上述したユーザ特徴量は、特定の目的に応じて適宜選択することができ、また他のいかなるスコア付け、ランク付け手法を用いてユーザ特徴量とすることができる。
図15を参照して、ユーザ特徴量計算処理を説明する、ユーザ特徴量計算処理は、ステップS1500から開始し、ステップS1501で、定義済み処理であるノード特徴量を計算し、定義済み処理であるステップS1502で計算したノード特徴量からユーザ特徴量を計算する。計算結果は、ステップS1503で、ユーザ特徴量記憶部224に、ユーザIDなどとともに出力・記録される。図15に示した実施形態では、登録するべきユーザについて、ユーザ特徴量の大きなユーザのうち、設定した閾値以上の値を有するユーザを抽出して出力対象としている。
3−4−3−1.ノード特徴量計算処理
図16は、ノード特徴量計算部が実行する処理の実施形態のフローチャートである。図16の処理は、ステップS1600から開始し、ステップS1601で、特徴量が付与されていないノードがまだ存在するか否かを判断する。ステップS1601で特徴量が付与されていないノードが存在しない場合(no)、処理をステップS1606に分岐させて処理を終了する。ステップS1601で、特徴量を計算するべきノードが存在する場合(yes)、ステップS1602で、生成されたタイムスタンプが最新のノードCを取得する。
ステップS1603では、ノードCから直接情報が伝搬したノード集合Lを取得する。その後、ステップS1604では、ノードCに直接情報を伝搬させたノード集合Uを取得し、ステップS1605で、ノードCのノード特徴量を計算する。ノード特徴量の計算には、ノード集合L内のノードに付与されたノード特徴量、ノード集合U、L内のノードとノードCとの間にある、時間的情報、例えば、コンテンツを読んだタイムスタンプおよびコンテンツを書いたタイムスタンプの間隔などを使用することができる。
その後、処理をステップS1601に分岐させ、ステップS1601の判断が否定的な結果を返すまで、処理を繰り返す。上述の処理によって、情報伝播グラフ内の全ノードについてのノード特徴量を計算することが可能となる。
3−4−3−2.ノード特徴量の数値化(ステップS1605)
ノード特徴量の計算を、図17に示す変数定義および情報伝播グラフ1700を使用して説明する。情報伝播グラフ1700は、合計4ノード(4コンテンツ)を含んで構成されるものとして説明する。各ノード1710〜1740は、図10で説明したデータ構造を参照して、ノード識別値ID、ノードIDの作成ユーザIDをU、TGを、ノードIDが作成されたタイムスタンプ、TRijを、ノードIDの作成ユーザがノードIDを読んだ、すなわち、ノードIDに行動モード「read」でアクセスしたタイムスタンプ、Rを、ノードIDが読まれた回数とする。
本実施形態では、ノードを特徴付ける値の求め方の具体例を2つ示す。一つ目の実施形態では、ノードを特徴付ける値として、当該ノードが、早い時期に作成されたこと、多く閲覧され、多くのコンテンツに影響を与えた度合いを、ノード特徴量として定義する。以下上述した特徴を有するユーザを、本実施形態では、アーリー・アダプタ(Early Adopter)として参照する。アーリー・アダプタを見出すためのノード特徴量の計算は、以下の条件を仮定することにより行われる。
(1)最初のコンテンツが生成されてからの時間間隔:ΔT=T−TminGが短いこと:(Gは、情報伝播グラフ上での値を意味し、Tは、ノードID=iのタイムスタンプであり、TminGは、G内の最も古いノードのタイムスタンプである。)
(2)読まれた回数Rが多いこと:
(3)子孫数Nが大きいこと:
なお、上記変数中、Nは、情報伝播グラフGの下流に位置するノード数であり、例えば下記式(1)で計算することができる。
Figure 0005078674
として定義することができる
以上の仮定に基づき、アーリー・アダプタ度を下記式(2)で定義することができる。
Figure 0005078674
上記式(1)中、f(ΔT)は、ΔTGの単調非増加関数であり、f(ΔTGminG)=1、f(ΔTGmaxG)≒0を満たす関数である。また、g(R)、h(N)は、それぞれR、Nの単調非減少関数で、最小値=0、最大値=1である。また、w、w、wは、f、
g、hに対するそれぞれの重みである。
より具体的には、上記式(2)は、下記式(3)として具体的に記述することができる。
Figure 0005078674
上記式(3)中、Rmaxは、最も読まれたノードの読まれた回数であり、#Vは、情報伝播グラフGの全ノード数である。なお、上記式は、本実施形態の説明の目的で説明したものであり、本発明は、特定の実施形態に限定されるものではない。
3−4−4.ユーザ特徴量の定量化(ステップS1502)
以上に説明した数値化方法を使用して、計算されたノード特徴量を使用して、ユーザ特徴量を計算する。計算されたユーザ特徴量は、ユーザがどの程度アーリー・アダプタとして機能するかを特徴付ける値となる。図18は、ユーザ特徴量の計算処理の実施形態のフローチャートを示す。図18の処理は、ステップS1800から開始し、ステップS1801で、特徴量が付与されていないノードがまだ存在するか否かを判断する。ステップS1801で特徴量が付与されていないノードが存在しない場合(no)、処理をステップS1805に分岐させて処理を終了する。ステップS1801で、特徴量を計算するべきノードが存在する場合(yes)、ステップS1802で、ユーザ特徴量が付与されていないユーザuを取得する。ステップS1803では、ユーザuが生成したコンテンツ集合Uを取得する。
ステップS1084では、ノード集合U内のノードに付与されたノード特徴量を使用して、ユーザuのユーザ特徴量を計算する。ステップS1804の後、処理をステップS1801に分岐させ、ユーザ特徴量が付与されていないユーザIDのユーザがいなくなるまで、処理を反復させる。なお、ユーザ特徴量の計算では、ユーザ特徴量を、ノード特徴量のうち、最も大きな値を有するノードの値と設定することができる。さらに、各ノード特徴量の平均値またはトップN(Nは、正の整数である。)のノード特徴量の平均値を採用することもできる。
さらに、ノードが作成された際の時間差を使用してユーザ特徴量を生成する処理は、SNSなどのサービス内で、特定の話題が盛り上がり、また下火になり、再度盛り上がるなどの複雑な挙動を示す。この様な場合、最初のピークから正確にアーリー・アダプタの特徴量を与えるため、ΔT=T−TminGを使用して重み付き平均を使用し、下記式(4)で与えられるユーザ特徴量を用いることができる。
Figure 0005078674
なお、上記式(4)中、Kは、ユーザuが生成した情報に対応する添え字の集合である。
上記式(4)中、EA(u)は、各ユーザの作成したノードに付与されたノード特徴量DEA(i)の、f(ΔT)による重み付き平均であり、kは、ユーザuが生成したノード数であり、f(ΔT)は、単調非増加関数であり、f(ΔTmin)=1、f(ΔTmax)≒0を満たす関数である。より具体的に、時間差が大きくなるにしたがって、指数関数的に参照が少なくなるという経験的な場合、上記式(4)は、下記式(5)で良好に再現することができる。
Figure 0005078674
もう一つの実施形態では、ノードを特徴付ける値として、当該ノードが他のコンテンツを読んでから作成されるまでの時刻の和が短いこと、閲覧された中でコンテンツを作成した数が多いこと、多くのコンテンツに影響を与えたこと、の度合いをノード特徴量として定義する。以下上述した情報発信源として機能する特徴を有したユーザを、本実施形態では情報伝播ユーザ(インフルエンサ)として参照する。インフルエンサを見出すための特徴量は、条件を仮定することにより行われる。
(1)他のコンテンツを読んでから作成されるまでの時間差ΔTRji=(TRji−TG)の積算値が短いこと:
(2)読取りアクションが行われたノードのうちで、子ノードがより多数作成される、すなわちni/Riが大きいこと:(ただしniは子ノード数)
(3)子孫数Nが大きいこと:
以上の仮定に基づき、各ノードiのインフルエンサ度DIF(i)を、下記式(6)で定義することができる。
Figure 0005078674
上記式(6)中、各式は、以下の通り定義される。
Figure 0005078674
上述した定義を使用して、好適な実施形態でのインフルエンサ度DIF(i)は、下記式(8)で定義することができる。
Figure 0005078674
上述したインフルエンサ度DIF(i)の定式化を使用して、特定のユーザuに対するインフルエンサ度IF(u)は、下記式(9)で与えられ、各ユーザの作成したノードについて計算されたノード特徴量DIF(i)の平均値として与えることができる。
Figure 0005078674
なお、上記式(9)中、Kは、ユーザuが生成した情報に対応する添え字の集合である。
これまで本発明を、実施形態をもって説明してきたが、本発明によれば、ネットワークに接続されたクライアントがどのような目的をもって情報を伝搬したのかを検出して登録し、クライアントのネットワーク上でのアクティビティを、サーバの処理に反映させることが可能となり、ネットワークに対する情報発信源となっているユーザを特定のコンテンツ属性に関連させて抽出することが可能となる。また、本発明によれば、情報伝播グラフの作成に基づいて特定のコンテンツ属性に関連するユーザを効率的に特定することが可能となる。なお、本発明の各機能処理部は、上述した実施形態の構成に限定されるものではなく、特定の実装形態に応じて、複数の機能を統合した機能処理部として実装するこができる。またこれとは逆に、特定の機能処理部は、さらに複数の機能処理部に分割して実装されてもよい。
本実施形態の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、当該プログラムは、ハードディスク装置、CD−ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
本実施形態の分析システム100の実施形態を示した図。 図1に示した分析サーバ102の機能ブロックを示した図。 行動ログ記憶部230に格納される行動ログ・データおよびコンテンツ記憶部232に格納されるコンテンツの実施形態を示した図。 本実施形態でユーザの行動タイプ400の概略図。 分析サーバ102が実行するユーザ特徴付け処理のためのプリプロセッシング(前処理)に対応するキーワード抽出およびキーワードによるコンテンツの索引付け処理のフローチャート。 図5に説明したプリプロセッシングにより生成された索引リスト600の実施形態を示した図。 属性指定キーワードを使用した、指定された属性を有するコンテンツを検索する処理の実施形態のフローチャート 図7のステップS703およびステップS704のコンテンツ抽出処理を、作成されるデータ構造を用いて説明する概略図。 分析サーバ102が、行動ログ・データ900から、コンテンツ間の情報伝播の関係を生成する処理の概略図。 情報伝播グラフ910を情報処理上で定義するためのデータ構造の概略図。 分析サーバ102が実行する情報伝播グラフ910および図10の各データ構造を作成する処理のフローチャート。 ノード生成処理の実施形態に付いてのフローチャート。 リンク生成処理の実施形態のフローチャート。 ユーザ特徴量の計算は分析サーバが実行するユーザ特徴量の計算処理の概略図。 ユーザ特徴量計算処理の実施形態のフローチャート。 ノード特徴量計算部が実行する処理の実施形態のフローチャート。 ノード特徴量の計算のために使用する変数定義および情報伝播グラフの説明図。 ユーザ特徴量を得るための計算処理の実施形態のフローチャート。
符号の説明
100…分析システム、102…分析サーバ、104…サーバ、106…ネットワーク、108、112、114…クライアント、110…管理者端末、120…機能統合サーバ、200…機能ブロック(分析サーバ)、212…情報伝播グラフ取得部、214…キーワード情報記憶部、216…キーワード抽出部、218…通信制御部、220…情報伝播グラフ記憶部、222…特徴ユーザ計算部、224…ユーザ特徴量記憶部、230…行動ログ記憶部、232…コンテンツ記憶部、300、900…行動ログ・データ、350…コンテンツ・リスト、600…索引リスト、800…コンテンツ集合、910…情報伝播グラフ、1000…ノード・リスト、1050…リンク・リスト

Claims (17)

  1. ネットワーク上での情報発生源のアクティビティを分析する分析システムであって、前記分析システムは、
    前記ネットワーク上で伝送される情報から情報特性値を抽出し、情報識別値に対応付けて前記情報特性値を登録する索引リストを生成する属性抽出部と、
    前記情報に関連した前記ネットワーク上での行動タイプ、ユーザを固有に識別するユーザID、および前記情報を対応付けて記録する行動履歴データから、設定条件により抽出された属性を有する前記情報に関連して前記行動履歴データを検索し、前記ネットワーク上での、前記情報の生成または編集に対応して前記情報をノードとして登録し、前記行動タイプを使用して、前記ノードの時系列的な生成を示すリンクで連結したグラフを生成する情報伝播グラフ取得部と、
    前記グラフの前記ノードの前記ネットワーク上でのアクティビティを示す尺度であるノード特徴量を計算し、前記ノード特徴量を前記グラフのリンクの上流側に向かって積算し前記ユーザの前記情報発生源としてのアクティビティを数値化する特徴ユーザ計算部と
    を含む、分析システム。
  2. 前記分析システムは、前記情報を蓄積する情報記憶部および前記行動履歴データを収集する行動履歴記憶部を含むサーバを含み、前記情報伝播グラフ取得部は、前記サーバが蓄積した前記情報および前記行動履歴データを取得して、前記サーバを経由して伝播した前記情報について前記グラフを生成する、請求項1に記載の分析システム。
  3. 前記分析システムは、通信制御部を含み、前記設定条件を前記通信制御部を介して取得し、前記情報の前記属性を設定する、請求項2に記載の分析システム。
  4. 前記サーバは、SNSサーバ、またはウェブ・サーバである、請求項3に記載の分析システム。
  5. ネットワーク上での情報発生源のアクティビティを分析する情報処理装置であって、前記情報処理装置は、
    前記ネットワーク上で伝送される情報から情報特性値を抽出し、情報識別値に対応付けて前記情報特性値を登録する索引リストを生成する属性抽出部と、
    前記情報に関連した前記ネットワーク上での行動タイプ、ユーザを固有に識別するユーザID、および前記情報を対応付けて登録する行動履歴データから、情報属性を指定するための設定条件により抽出された属性を有する前記情報に関連して行動履歴データを検索し、前記情報の前記ネットワーク上での生成または編集に対応して前記情報をノードとして登録し、前記行動タイプを使用して、前記ノードの時系列的な生成を示すリンクで連結したグラフを生成する情報伝播グラフ取得部と、
    前記グラフの前記ノードの前記ネットワーク上でのアクティビティを示す尺度であるノード特徴量を計算し、前記ノード特徴量を前記グラフのリンクの上流側に向かって積算し前記ユーザの前記情報発生源としてのアクティビティを数値化する特徴ユーザ計算部と
    を含む、情報処理装置。
  6. 前記ネットワークに接続され、前記情報を蓄積する情報記憶部および前記行動履歴データを収集する行動履歴記憶部を含むサーバを含み、前記情報処理装置は、情報伝播グラフ取得部は、前記サーバが蓄積した前記情報および前記行動履歴データを取得して、前記サーバを経由して伝播した前記情報について前記グラフを生成する、請求項5に記載の情報処理装置。
  7. 前記情報処理装置は、通信制御部を含み、前記設定条件を前記通信制御部を介して取得し、前記情報の前記属性を設定する、請求項6に記載の情報処理装置。
  8. 前記サーバは、SNSサーバまたはウェブ・サーバである、請求項7に記載の情報処理装置。
  9. 前記情報処理装置は、前記サーバの機能モジュールとされる、請求項6に記載の情報処理装置。
  10. ネットワーク上での情報発生源のアクティビティを分析するコンピュータが実行するアクティビティ分析方法であって、前記方法は、前記コンピュータが、
    前記ネットワーク上で伝送される情報から情報特性値を抽出し、情報識別値に対応付けて前記情報特性値を登録する索引リストを生成するステップと、
    前記情報に関連した前記ネットワーク上での行動タイプ、ユーザを固有に識別するユーザID、および前記情報を対応付けて登録する行動履歴データから、情報属性を指定するための設定条件により抽出された属性を有する前記情報に関連して行動履歴データを検索するステップと、
    前記情報の前記ネットワーク上での生成または編集に対応して前記情報をノードとして登録し、前記行動タイプを使用して、前記ノードの時系列的な生成を示すリンクで連結したグラフを生成するステップと、
    前記グラフの前記ノードの前記ネットワーク上でのアクティビティを示す尺度であるノード特徴量を計算するステップと、
    前記ノード特徴量を前記グラフのリンクの上流側に向かって積算し前記ユーザの前記情報発生源としてのアクティビティを数値化するステップと
    を実行する、アクティビティ分析方法。
  11. 前記グラフを生成するステップは、前記情報および前記行動履歴データを取得して、前記サーバを経由して伝播され、前記設定条件により属性が指定された前記情報について前記グラフを生成するステップを含む、請求項10に記載のアクティビティ分析方法。
  12. 前記設定条件は、キーワードであり、前記設定条件を前記通信制御部を介して取得し、前記情報の前記属性を設定するために設定条件情報記憶部に格納するステップを含む、請求項11に記載のアクティビティ分析方法。
  13. 前記アクティビティを数値化し、格納するステップは、SNSサーバ、またはウェブ・サーバにアクセスする前記ユーザの情報発信源として機能する前記アクティビティを数値化する、請求項12に記載のアクティビティ分析方法。
  14. ネットワーク上での情報発生源のアクティビティを分析するコンピュータが実行するアクティビティ分析プログラムであって、前記コンピュータが、
    前記ネットワーク上で伝送される情報から情報特性値を抽出し、情報識別値に対応付けて前記情報特性値を登録する索引リストを生成するステップと、
    前記情報に関連した前記ネットワーク上での行動タイプ、ユーザを固有に識別するユーザID、および前記情報を対応付けて登録する行動履歴データから、情報属性を指定するための設定条件により抽出された属性を有する前記情報に関連して行動履歴データを検索するステップと、
    前記情報の前記ネットワーク上での生成または編集に対応して前記情報をノードとして登録し、前記行動タイプを使用して、前記ノードの時系列的な生成を示すリンクで連結したグラフを生成するステップと、
    前記グラフの前記ノードが情報発生源として機能する尺度であるノード特徴量を計算するステップと、
    前記ノード特徴量を前記グラフのリンクの上流側に向かって積算し前記ユーザの前記情報発生源としてのアクティビティを数値化するステップと
    を実行する、アクティビティ分析プログラム。
  15. 前記グラフを生成するステップは、前記情報および前記行動履歴データを取得して、前記サーバを経由して伝播され、前記設定条件により属性が指定された前記情報について前記グラフを生成するステップを含む、請求項14に記載のアクティビティ分析プログラム。
  16. 前記設定条件は、キーワードであり、前記設定条件を前記通信制御部を介して取得し、前記情報の前記属性を設定するために設定条件情報記憶部に格納するステップを含む、請求項14に記載のアクティビティ分析プログラム。
  17. 前記アクティビティを数値化し、格納するステップは、SNSサーバ、またはウェブ・サーバにアクセスする前記ユーザの情報発信源として機能する前記アクティビティを数値化する、請求項14に記載のアクティビティ分析プログラム。
JP2008051431A 2008-02-29 2008-02-29 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム Active JP5078674B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008051431A JP5078674B2 (ja) 2008-02-29 2008-02-29 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
US12/395,031 US8095652B2 (en) 2008-02-29 2009-02-27 Analysis system, information processing apparatus, activity analysis method and program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008051431A JP5078674B2 (ja) 2008-02-29 2008-02-29 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2009211211A JP2009211211A (ja) 2009-09-17
JP5078674B2 true JP5078674B2 (ja) 2012-11-21

Family

ID=41014030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008051431A Active JP5078674B2 (ja) 2008-02-29 2008-02-29 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム

Country Status (2)

Country Link
US (1) US8095652B2 (ja)
JP (1) JP5078674B2 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005004014A2 (en) * 2003-06-30 2005-01-13 Sap Aktiengesellschaft Configurable process scheduling
JP5324824B2 (ja) * 2008-05-27 2013-10-23 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム
US8291054B2 (en) * 2008-05-27 2012-10-16 International Business Machines Corporation Information processing system, method and program for classifying network nodes
CN101616101B (zh) * 2008-06-26 2012-01-18 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置
WO2010061537A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 検索装置、検索方法、及びプログラムが格納された記録媒体
JP4550939B1 (ja) * 2009-09-17 2010-09-22 株式会社野村総合研究所 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2011108102A (ja) * 2009-11-19 2011-06-02 Sony Corp ウェブサーバ、ウェブブラウザおよびウェブシステム
US20110225170A1 (en) * 2010-03-11 2011-09-15 Microsoft Corporation Adaptable relevance techniques for social activity streams
US9530166B2 (en) 2010-04-21 2016-12-27 Facebook, Inc. Social graph that includes web pages outside of a social networking system
JP2012053716A (ja) * 2010-09-01 2012-03-15 Research Institute For Diversity Ltd 思考モデルの作成方法、思考モデルの作成装置及び思考モデルの作成プログラム
FR2972822A1 (fr) * 2011-03-18 2012-09-21 Semiocast Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques
US9942334B2 (en) * 2013-01-31 2018-04-10 Microsoft Technology Licensing, Llc Activity graphs
CN104111935B (zh) * 2013-04-17 2017-02-01 腾讯科技(深圳)有限公司 一种推送微博的方法及系统、服务器
US10007897B2 (en) 2013-05-20 2018-06-26 Microsoft Technology Licensing, Llc Auto-calendaring
US9594607B2 (en) * 2013-08-09 2017-03-14 Facebook, Inc. Identifying software application events
JP2015090589A (ja) * 2013-11-06 2015-05-11 ソニー株式会社 認証制御システム、認証制御方法およびプログラム
JP2015153091A (ja) * 2014-02-13 2015-08-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
US9852208B2 (en) * 2014-02-25 2017-12-26 International Business Machines Corporation Discovering communities and expertise of users using semantic analysis of resource access logs
US9754049B2 (en) * 2014-09-30 2017-09-05 International Business Machines Corporation Characterizing success pathways in networked graphs
CN105577712B (zh) * 2014-10-10 2019-06-11 腾讯科技(深圳)有限公司 一种文件上传方法、装置和系统
US10182029B2 (en) 2015-02-20 2019-01-15 International Business Machines Corporation Estimation of information diffusion route on computer mediated communication network
WO2016175829A1 (en) * 2015-04-30 2016-11-03 Hewlett Packard Enterprise Development Lp Mapping nodes in a network
US10025346B2 (en) * 2015-12-09 2018-07-17 Red Hat, Inc. Timestamp alignment across a plurality of computing devices
US10606866B1 (en) 2017-03-30 2020-03-31 Palantir Technologies Inc. Framework for exposing network activities
JP6913312B2 (ja) * 2018-02-28 2021-08-04 日本電信電話株式会社 データ処理装置及びデータ転送方法
CN108307480B (zh) * 2018-04-16 2021-01-01 京信通信系统(中国)有限公司 微基站的用户设备行为信息获取方法、装置和微基站
CN114363198B (zh) * 2022-01-14 2023-07-21 深圳市优网科技有限公司 数据采集方法及装置、存储介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3090233B2 (ja) 1992-02-18 2000-09-18 日本電信電話株式会社 複合的な情報間の関連性識別方法
US6332154B2 (en) * 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
US6317722B1 (en) * 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US7013337B2 (en) * 2000-05-12 2006-03-14 Isochron, Llc Method and system for the optimal formatting, reduction and compression of DEX/UCS data
JP2002290471A (ja) * 2001-03-28 2002-10-04 Fuji Xerox Co Ltd コミュニケーション分析装置
JP2005250947A (ja) * 2004-03-05 2005-09-15 Mitsubishi Electric Information Systems Corp チャットログ管理システム、サーバ装置、及び、チャットログ管理方法
JP2006065734A (ja) * 2004-08-30 2006-03-09 Internatl Business Mach Corp <Ibm> ネットワークを介して情報を提供するシステムおよび方法
JP4650039B2 (ja) 2005-03-15 2011-03-16 富士ゼロックス株式会社 情報利用状況分析表示装置および方法
US7694212B2 (en) * 2005-03-31 2010-04-06 Google Inc. Systems and methods for providing a graphical display of search activity
JP2007128163A (ja) * 2005-11-01 2007-05-24 Internatl Business Mach Corp <Ibm> 人物間の関連性を評価するシステム
JP2007264718A (ja) 2006-03-27 2007-10-11 Yafoo Japan Corp ユーザ興味分析装置、方法、プログラム

Also Published As

Publication number Publication date
JP2009211211A (ja) 2009-09-17
US20090222557A1 (en) 2009-09-03
US8095652B2 (en) 2012-01-10

Similar Documents

Publication Publication Date Title
JP5078674B2 (ja) 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
US10824682B2 (en) Enhanced online user-interaction tracking and document rendition
Tatar et al. From popularity prediction to ranking online news
Das et al. Creating meaningful data from web logs for improving the impressiveness of a website by using path analysis method
WO2018036272A1 (zh) 新闻内容的推送方法、电子装置及计算机可读存储介质
US8694374B1 (en) Detecting click spam
US20140358911A1 (en) Search and discovery system
JP5438087B2 (ja) 広告配信装置
KR20080068825A (ko) 디스플레이를 위한 고품질 리뷰 선택
KR20110009198A (ko) 최다 클릭된 다음 객체들을 갖는 검색 결과
US20140101134A1 (en) System and method for iterative analysis of information content
JP2011022705A (ja) 証跡管理方法、システム、及びプログラム
JP6059314B1 (ja) 推定装置、推定方法及び推定プログラム
RU2583764C1 (ru) Способ обработки запроса пользователя на доступ к веб-ресурсу и сервер
JP2010044462A (ja) コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム
US9020962B2 (en) Interest expansion using a taxonomy
Kim et al. Explicit in situ user feedback for web search results
CN111159519B (zh) 一种基于网站点击流的公共安全舆情分析方法
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP2017167829A (ja) 検出装置、検出方法及び検出プログラム
KR102081553B1 (ko) 문화 매체를 위한 홍보 컨텐츠의 빅데이터 기반 모니터링 시스템
KR101277300B1 (ko) 맞춤형 광고 제공 방법 및 장치
US8832067B2 (en) Indirect data searching on the internet
US8832066B2 (en) Indirect data searching on the internet
JP5410359B2 (ja) クエリ選択装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5078674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250