CN100530183C - 一种收集用户数据的系统及方法 - Google Patents

一种收集用户数据的系统及方法 Download PDF

Info

Publication number
CN100530183C
CN100530183C CNB2006100810235A CN200610081023A CN100530183C CN 100530183 C CN100530183 C CN 100530183C CN B2006100810235 A CNB2006100810235 A CN B2006100810235A CN 200610081023 A CN200610081023 A CN 200610081023A CN 100530183 C CN100530183 C CN 100530183C
Authority
CN
China
Prior art keywords
user
module
information
descriptor
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100810235A
Other languages
English (en)
Other versions
CN1983264A (zh
Inventor
胡立新
钟杰萍
舒琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2006100810235A priority Critical patent/CN100530183C/zh
Priority to US11/684,839 priority patent/US7801891B2/en
Publication of CN1983264A publication Critical patent/CN1983264A/zh
Application granted granted Critical
Publication of CN100530183C publication Critical patent/CN100530183C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种收集用户数据的系统,同时还公开了一种收集用户数据的方法。本发明方案通过建立存储用户数据的用户兴趣数据模型,在用户应用浏览器/文档处理时,触发信息收集代理模块收集用户操作事件信息,利用收集到的用户操作事件信息修正用户兴趣数据模型的信息提取用户关注的信息如主题词,并利用提取到的用户关注的信息不断修正用户兴趣数据模型的信息,有效地对用户兴趣和关注点进行了跟踪。本发明方案对用户干扰小,收集的用户信息精度高,有效地体现出了用户的兴趣所在。能够有效地收集用户数据,体现用户的兴趣所在。

Description

一种收集用户数据的系统及方法
技术领域
本发明涉及智能应用业务,尤指一种收集用户数据的系统及方法。
背景技术
目前,信息产业处于一个高速发展的大变革时代,整个产业将不可避免的经历从接入为主,业务为主到用户为主的阶段。无论是电信运营商,还是互联网企业都在为了抢夺用户资源进行着激烈的竞争,各种无线增值业务、互联网增值业务在这些企业所占营收比重都在不断提升,而对客户的细致分类则具有非常重要的战略意义。科学的分类方法在对用户实施营销时,能够做到有的放矢,有针对性地为客户量身定制产品和服务,保证在提高客户价值的同时,提高自身的服务水平。
为了提高服务水平,收集用户数据,建立数据模型,挖掘出用户潜在的消费需求是非常重要的。只有获得用户数据,才能掌握用户的习惯和兴趣所在,为用户提供更好的服务。
为了获得用户的兴趣爱好,网络浏览器大多可以通过四种途径来发现浏览器用户的数据:
1.统计已访问网站内容的统一资源定位(URL)地址。
2.分析用户收藏夹或浏览器Web缓冲区(Web Cache)中的数据。
3.服务器主动向用户询问,用户作答的方式,如问卷调查等。
4.分析Web服务器日志数据来获得。
上述收集用户兴趣爱好的方法,集中起来存在如下一些缺点:收集过程需要用户参与,对用户干扰较大;可以收集的用户关注内容不全面,精确度不够高;不能有效地跟踪用户兴趣和关注点的迁移。
发明内容
有鉴于此,本发明的主要目的在于提供一种收集用户数据的系统,能够有效地收集用户数据。
本发明的另一目的在于提供一种收集用户数据的方法,能够有效地收集用户数据。
为达到上述目的,本发明的技术方案具体是这样实现的:
一种收集用户数据的方法,建立存储用户数据的用户兴趣数据模型,该方法包括以下步骤:
A.用户应用浏览器/文档处理时,触发用户操作事件信息的收集,对收集的用户操作事件对应的用户操作内容进行分析,获取基于文本字符类型格式的用户操作内容;对获得的用户操作内容进行自动切词处理,获取临时主题词并存储在临时词根表中,选择临时词根表中出现频数高的主题词存入系统词根表中,
B.根据系统词根表的信息,修正用户兴趣数据模型的信息。
步骤A中所述触发用户操作事件信息的收集为:通过事件消息触发收集用户操作事件信息。
所述事件消息为发送事件消息,该发送事件消息至少包括:
用于标识接收事件消息的信息收集代理模块的进程的进程标识符、用于表示发送的消息的类型的消息标识符、用于标识操作的事件标识、应用对象句柄。
所述应用对象句柄为:操作文档对象在内存中的地址。
步骤A所述对收集的用户操作事件信息对应的用户操作内容进行分析包括,:
对接收到的事件消息进行过滤处理,提取需要处理的事件消息对应的用户操作内容,获取基于文本字符类型格式的用户操作内容;
所述选择临时词根表中出现频数高的主题词存入系统词根表之后、步骤B之前,进一步的处理包括,计算并存储系统词根表中主题词的变化率和频数。
所述对接收到的事件消息进行过滤处理,提取需要处理的事件消息对应的用户操作内容具体为:
预先设置过滤条件,如果接收到的事件消息是与预设的过滤条件相匹配的过滤事件,则继续执行提取该接收到的事件消息对应的用户操作内容的步骤,否则,结束。
所述过滤条件为:通过定制的用户接口UI界面设定的事件;或者系统预先设定的默认的事件。
所述提取用户操作内容的方法为:
根据所述事件消息的句柄和进程标识符,向浏览器/文档处理模块发送操作内容请求消息,获取用户操作内容。
所述操作内容请求消息至少包括:用于标识接收事件消息的信息收集代理模块的进程的进程标识符、用于表示发送的消息的类型的消息标识符、用于标识操作的事件标识、应用对象句柄、以及回调函数的句柄。
所述获取用户操作内容的方式为:
对于基于全文操作的内容,直接获取操作文件,并将不同的操作内容的格式转换为预设的系统的中间格式;
对于用户具体的操作内容,采用应用编程接口API钩子函数来获取。
所述用户具体的操作内容包括:鼠标点击、Copy时的鼠标选择内容、鼠标停留时间操作事件。
所述自动切词处理方法为:二元自动切词算法、或词表切词算法。
所述选择出现频数高的主题词的方法为:
预先设置频度阈值,判断主题词的频数是否大于预设频度阈值,若大于,则选择;否则丢弃。
所述计算主题词的变化率的方法为:计算该主题词的频数对时间的导数所得的值。
步骤B具体包括:
B1.系统中的修正模块接收到修正用户兴趣数据模型请求;
B2.对用户兴趣数据模型进行修正处理。
步骤B1中所述修正用户兴趣数据模型请求中携带有用户操作事件的事件标识,该事件标识触发更新用户系统词根表中该事件标识对应的主题词。
所述修正用户兴趣数据模型请求为基于设定事件触发的,或基于收集事件触发的。
步骤B2中所述修正包括:插入主题词、和/或删除存在的主题词、和/或修改主题词的权值。
所述步骤B2中,当修正为修改主题词的权值时,修改的方法为:
B21.根据用户操作,计算所述主题词的权值计算结果Ri;
B22.根据计算得到的权值计算结果Ri,以及所述主题词的频数和变化率,计算该主题词的修正权值Wp (i),并根据该修正权值对用户兴趣数据模型进行修正。
步骤B21中所述计算所述主题词的权值计算结果Ri的方法为:
R i = Σ v ∈ F c v f v ( i ) , 其中,F是阅读时间bt、加入标签bm、拖动滚动条sc和跟随超链接fl用户操作的集合,所述F={bt,bm,sc,fl};cv是系统为该用户操作事件分配的计算权值。i表示当前请求修正的操作的事件标识对应的用户操作事件,Ri表示当前请求修正的操作的事件标识对应的用户操作事件的权值计算结果;fv(i)是一个二值函数。
步骤B22中所述修正的方法为:预先设置最高权值阈值和最低权值阈值;
若所述主题词i的修正权值Wp (i),超过给定的最高权值阈值,则增加相应的用户兴趣数据模型信息中对应的主题词的权值;
若所述主题词i的修正权值Wp (i)在所述最高和最低阈值范围内,则不修改相应的用户兴趣数据模型中对应的主题词的权值;
若所述主题词i的修正权值Wp (i)低于给定的最低权值阈值,则减少相应的用户兴趣数据模型信息中对应的主题词的权值。
步骤B22中所述计算修正权值Wp (i)的方法为:
W P ( i ) = f 1 ( F i , d fi d t , R i ) , 其中,Fi
Figure C20061008102300112
是根据主题词i的频数和变化率计算出来的结果值。
所述用户兴趣数据模型至少包括:用户标识、主题词和主题词的权值。
一种收集用户数据的系统,该系统包括:
浏览器/文档处理模块,接收用户的指令执行操作,并将操作通过事件消息发送给信息收集代理模块;
信息收集代理模块,接收来自浏览器/文档处理模块的事件消息,对收集的用户操作内容进行分析,收集用户操作中所关注的临时数据信息,并存储到收集信息缓存库中;将生成的临时数据信息发送给信息过滤和管理模块;
信息过滤和管理模块,接收来自信息收集代理模块的临时数据信息,生成系统词根表,存入用户信息库;根据用户信息库中的数据信息对用户兴趣数据模型的信息进行维护和管理;向修正模块发送修正请求;
修正模块,接收来自信息过滤和管理模块的修正请求,根据用户信息库中的用户数据信息对用户兴趣数据模型信息进行修正,向信息过滤和管理模块返回修正响应,并用修正后的用户兴趣数据模型更新用户信息库。
该系统进一步包括:数据通信模块,用于联系信息收集代理模块与信息过滤和管理模块。
所述信息收集代理模块包括:
用户事件处理模块,接收来自控制模块的事件通知,并向控制模块返回响应;对接收到的事件进行过滤处理,将接收到的事件中需要处理的事件消息发送给代理控制器;
代理控制器,接收来自用户事件处理模块的事件消息,并返回响应消息;向内容提取模块发送操作内容导入请求;
内容提取模块,接收来自代理控制器的操作内容导入请求,向浏览器/文档处理模块中处理进程的数据模块发送操作内容请求消息,获取用户处理操作的数据信息,将获得的数据信息发送给分析模块;向代理控制器返回操作内容导入响应消息;
分析模块,对接收到的数据信息的词法、语法进行分析,收集用户操作中所关注的临时数据信息,并存储到收集信息缓存库中。
所述信息收集代理模块还包括:
格式转换模块,接收来自内容提取模块的数据信息,将该数据信息的格式转换为预设中间格式后发送给分析模块。
所述信息收集代理模块与浏览器/文档处理模块之间通过插件/组件接口进行数据交互。
由上述技术方案可见,本发明方案通过建立存储用户数据的用户兴趣数据模型,该用户兴趣数据模型至少包括用户标识、主题词和主题词的权值等信息,在用户应用浏览器/文档处理时,触发信息收集代理模块收集用户操作事件信息,利用收集到的用户操作事件信息修正用户兴趣数据模型的信息提取用户关注的信息如主题词,并利用提取到的用户关注的信息不断修正用户兴趣数据模型的信息,有效地对用户兴趣和关注点进行了跟踪。本发明方案对用户干扰小,收集的用户信息精度高,有效地体现出了用户的兴趣所在。
附图说明
图1是本发明收集用户数据的系统组成示意图;
图2是本发明信息收集代理模块与浏览器/文档处理模块的组成示意图;
图3是本发明用户数据提取的流程图;
图4是本发明系统词根表生成流程图;
图5是本发明修正用户兴趣数据模型的流程图。
具体实施方式
本发明的核心思想是:建立存储用户数据的用户兴趣数据模型,在用户应用浏览器/文档处理时,触发收集用户操作事件信息,利用收集到的用户操作事件信息修正用户兴趣数据模型的信息。
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举较佳实施例,对本发明进一步详细说明。
图1是本发明收集用户数据的系统组成示意图,如图1所示,该系统包括以下模块:
浏览器/文档处理模块,用于将用户请求浏览/处理的信息按照用户的要求正确操作,并根据操作触发信息收集代理模块收集用户信息,浏览器/文档处理模块是用户阅读、查看文献的主要方式。浏览器/文档处理模块接收用户的指令执行操作,并将操作通过事件消息发送给信息收集代理模块。浏览器/文档处理模块可以包括IE浏览器、Netscape、firefox、Word、Adobe reader等不同软件组件。
信息收集代理模块,用于监听并收集用户的操作。接收来自浏览器/文档处理模块的事件消息,根据预先设置的事件规则,对收集的用户操作内容进行格式转化和分析,收集用户操作中所关注的临时数据信息如生成一个临时词根表、文档内容等,并存储到收集信息缓存库中;将生成的临时数据信息发送给信息过滤和管理模块。
信息过滤和管理模块,接收来自信息收集代理模块的临时数据信息,生成系统词根表,存入用户信息库;根据用户信息库中的数据信息对用户兴趣数据模型的信息进行维护和管理,比如建立、修改、删除等;向修正模块发送修正请求。
用户信息库作为整个系统的核心数据库,用于记录用户兴趣数据模型的信息和用户的兴趣数据信息如系统词根表信息。
修正模块,接收来自信息过滤和管理模块的修正请求,根据用户信息库中的用户数据信息如系统词根表对用户兴趣数据模型信息进行修正后,向信息过滤和管理模块返回修正响应,并用修正后的用户数据兴趣模型更新用户信息库。
随着用户的操作而不断修正的用户兴趣数据模型,跟踪反应了用户兴趣爱好以及相关关注度,外部系统可以通过用户信息库提取用户相关信息,为业务应用提供了重要的客户依据。
进一步地,考虑到该系统的分布式架构,该系统还包括数据通信模块,用于联系信息收集代理模块与信息过滤和管理模块,数据通信模块的实现机制和原理是基于现有的分布式架构技术,比如:公共对象请求代理结构(CORBA,Common Object Request Broker Architecture),Web Services等。
为了能够跟踪用户的兴趣和关注点,本发明方法根据用户的浏览/文档处理操作触发信息收集代理模块收集相关用户数据信息,并存储到预先建立好的用户兴趣数据模型中,并不断地通过收集到的用户兴趣数据信息对用户兴趣数据模型进行修正,有效地对用户兴趣和关注点进行了跟踪。所述用户兴趣数据模型可以建立在用户信息库中。用户兴趣数据模型由许多兴趣的主题词组成,这里主题词代表着用户的兴趣点,每个主题词都对应一个权值,权值代表了用户对该主题词对应的内容的关注度。收集用户兴趣数据主要是按照用户操作来触发的,比如:点击超链接、标记书签、复制粘贴相关内容、拖动滚动条等。
系统收集到用户兴趣数据后,对用户关注的数据信息作相应的格式转换,由于不同的浏览器/文档处理模块存在各种数据格式,为了便于信息收集代理模块统一管理,信息收集代理模块需要将收集到的数据信息转化为自身支持的中间格式如XML格式、也可以根据用户的操作使用API钩子函数直接获取操作内容,这里通过修改Windows API钩子函数收集的用户操作内容为基于文本字符类型,所以可以不需要进行格式转化处理。然后,信息收集代理模块对收集到的数据信息作语法和词法分析,生成一个临时词根表;再根据词根频数统计算法对临时词根表的内容进行过滤,生成用户系统词根表,这里,词根频数统计具有实时性,可以反映用户的当前兴趣爱好,以及兴趣爱好的迁移,具体实现参见下文;最后,根据生成的用户系统词根表,对用户兴趣数据模型进行修正,修正主要是在用户兴趣数据模型中插入关键主题词、删除存在的主题词和修改主题词的权值等。
图2是本发明信息收集代理模块与浏览器/文档处理模块的组成示意图,如图2所示,浏览器/文档处理模块主要包括数据模块、控制模块和显示模块;信息收集代理模块主要包括:用户事件处理模块、代理控制器、内容提取模块、格式转换模块和分析模块。信息收集代理模块可以作为一个独立的软件组件,也可以作为浏览器/文档处理模块的一个插件。这两种方式并没有本质上区别,浏览器/文档处理模块与信息收集代理模块间存在着插件/组件接口。
下面对浏览器/文档处理模块和信息收集代理模块的组成及交互工作原理详细介绍如下:
目前,大多数的浏览器/文档处理模块都是基于处理逻辑-展现逻辑-控制逻辑(MVC,Model-View-Control)独立处理的设计模式,在MVC模式下,可以将浏览器/文档处理模块主要分为数据模块、显示模块和控制模块。其中,数据模块负责执行应用对象,比如文档、图片等数据内容;显示模块在控制模块的控制下,将所述应用对象显示出来;控制模块对浏览器/文档处理模块中各模块的协调工作进行控制,如响应用户的操作事件、控制数据模块和显示模块响应方式等。
插件/组件接口是信息收集代理模块与浏览器/文档处理模块之间的数据交互接口,如组件对象模型(COM,Component Object Model)接口,COM是微软公司提出的一个组件对象模型接口,是微软对基于Windows应用程序的一项软件组件技术。
信息收集代理模块中各组成模块的详细描述如下:
用户事件处理模块,接收来自控制模块的事件通知,并向控制模块返回响应;对接收到的事件进行过滤处理,将接收到的事件中需要处理的事件消息发送给代理控制器。
代理控制器,接收来自用户事件处理模块的事件消息,并返回响应消息;向内容提取模块发送操作内容导入请求。
内容提取模块,接收来自代理控制器的操作内容导入请求,向浏览器/文档处理模块中处理进程的数据模块发送操作内容请求消息,以获取用户处理操作的数据信息,将获得的数据信息发送给格式转换模块或分析模块;向代理控制器返回操作内容导入响应消息。
格式转换模块,接收来自内容提取模块的数据信息,将该数据信息的格式转换为预设中间格式后发送给分析模块。需要说明的是,如果来自内容提取模块的数据信息为基于文本字符类型的,可以不需要格式转换模块,此时,来自内容提取模块的数据信息直接发送给分析模块。
分析模块,按照预设分析法对接收到的数据信息的词法、语法进行分析,收集用户操作中所关注的临时数据信息如生成一个临时词根表、文档内容等,并存储到收集信息缓存库中。
以上对浏览器/文档处理模块和信息收集代理模块的组成及交互工作原理进行了介绍,假设采用的操作系统是微软公司的Windows系列操作系统,那么,信息收集代理模块中的用户事件处理模块通过插件/组件接口,对浏览器/文档处理模块中的控制模块的事件消息进行侦听,一旦用户触发了控制模块的预设相关操作,用户事件处理模块通知代理控制器,由代理控制器通知内容提取模块获取相关操作内容。图3是本发明用户数据提取的流程图,下面结合图2,描述本发明用户数据收集系统收集数据的过程:
步骤300~步骤302:用户通过浏览器/文档处理模块执行应用对象。
假设所述应用对象是指文档操作,比如用户使用浏览器/文档处理器阅读文档产生的操作,可以包括:打开Open()、剪贴Cut()、拷贝Copy()、粘贴Paste()、前进Forward()、后退Back()等,控制模块负责执行这些文档操作,并向用户返回执行结果。
步骤303~步骤304:控制模块向用户事件处理模块发送事件消息,用户事件处理模块收到事件消息后会向控制模块返回响应。
发送事件消息SendMessage()函数主要包含如表1所示的内容:
Long SendMessage(Long ProcessID,Long Msg,Long Event,HwndConObj,String Param),其中,Long表示长整型数据类型,String表示字符型数据类型。
  参数   描述
  ProcessID   用于标识接收事件消息的信息收集代理模块的进程的进程标识符
  Msg   用于表示发送的消息的类型的消息标识符
  Event   用于标识操作的事件标识
  ConObj   应用对象句柄如文档对象在内存中的地址
  Param   扩展参数
表1
如表1所示,浏览器/文档处理模块和信息收集代理模块一般是两个独立的进程,发送消息的参数表中包括了接收消息的进程标识符ProcessID;Msg可以是操作系统级的消息类型标识,说明发送的是一个什么类型的消息;Event是浏览器/文档处理模块和智能Agent之间自定义的操作事件标识;ConObj是应用对象句柄,也就是操作文档对象在内存中的地址;Param是一些扩展参数,可能包括:内容偏移量、浏览停留时间等。
步骤305:用户事件处理模块对接收到的事件进行过滤处理。
过滤条件取决于预先设定的需要系统响应并收集相关内容的事件,可以通过定制的用户接口(UI)界面对事件进行设定,决定哪些用户事件需要系统响应并收集相关内容,收集方或被收集方均可按照实际情况通过系统提供的接口进行界面事件设定;另外,也可以是系统预先设定的默认的事件。
表2是一种相关事件设定的API函数,
  API函数   相关描述
  Long SetEvent(Long Event[])   事件设定函数
  Long RemoveEvent(Long Event[])   取消相关事件设定
  Long[]QryEvent()   查询设定相关事件
表2
表2中,Event()函数的参数取值的事件类型,与Windows操作系统的消息类似,是预定定义的消息类型,这点具体实现属于本领域技术人员惯用技术手段,不再详述。强调的是用户事件处理模块中预先设置有过滤条件及事件,对接收到的事件进行过滤处理,如接收到的事件消息是预设的过滤事件,则进入下一步;否则,将该事件消息丢弃。
步骤306~步骤307:用户事件处理模块将需要处理的事件消息发送给代理控制器,代理控制器返回响应消息给用户事件处理模块。
步骤308~步骤310:代理控制器向内容提取模块发送操作内容导入请求,内容提取模块执行请求操作后,向代理控制器返回操作内容导入响应消息。
代理控制器需要获取应用处理对象的句柄,同样的,代理控制器模块需要将句柄和参数发送给内容提取模块;内容提取模块根据获得的句柄和进程标识参数发送操作内容请求OnRequst()消息给浏览器/文档处理模块中处理进程的数据模块,以获取用户处理操作的数据内容。其中,请求内容OnRequst()消息包括以下内容:
Long OnRequst(Long ProcessID,Long Msg,Long Event,Hwnd ConObj,String Param,Hwnd WndProc)
 参数   描述
 ProcessID   用于标识接收事件消息的信息收集代理模块的进程的进程标识符
 Msg   用于表示发送的消息的类型的消息标识符
 Event   用于标识操作的事件标识
 ConObj   应用对象句柄如文档对象在内存中的地址
 Param   扩展参数
 WndProc   回调函数的句柄
表3
对于提取用户操作内容的方式可以分为两种:
1)基于全文操作内容的,系统可以直接获取操作文件,并通过格式转换模块的解析器将不同的操作内容的格式转换为标准的中间格式如XML中间格式。
2)针对用户具体的操作内容,比如:鼠标点击、Copy时的鼠标选择内容、鼠标停留时间等,可采用应用编程接口(API,Application ProgrammingInterface)钩子函数来实现。这里以鼠标停留时间选取的内容为例说明一下采用钩子函数获取数据内容的过程:
(1)根据用户操作判断取得鼠标的当前位置;
(2)以鼠标位置为中心生成一个矩形;
(3)挂上API钩子;
(4)让所生成的矩形产生重画消息;
(5)在钩子里等输出字符;
(6)计算鼠标停留在哪些文本内容上,保存该文本内容;
(7)如果获得数据内容则摘掉API钩子。需要说明的是,在一段时间后,无论是否获得数据内容都应该摘掉API钩子;
(8)将获取的数据内容发送给内容提取模块。
Windows系统的所有字符输出都是通过调用TextOut()和ExtTextOut()来实现的,其中TextOut()和ExtTextOut()两个API函数是Windows的图形设备接口(GDI)调用的执行动作,主要负责Windows界面上的字符内容输出。为了获得Windows所有输出的字符,只需要在TextOut()等函数中加入跳转JMP语句,上述流程(3)中所述的钩子其实就是在Windows API函数中加入JMP语句,以跳转到指定地址,一旦跳转跳转到指定地址,便获得输出的字符内容。
下面假设操作系统为Windows系统,以一个操作实例说明收集用户Copy操作内容的过程如下:
通过API函数预先设置相关用户事件,假设Copy操作事件取值为10001011,调用已有API函数中的事件设置函数SetEvent(UE_COPY)在用户事件处理模块中设置Copy操作事件。其中,UE_COPY是10001011的宏定义。
在浏览过程中用户通过Copy(Ctrl+C)操作,将关注的内容放入剪贴板,浏览器/文档处理控制模块响应用户操作,并调用发送事件消息函数SendMessage(1964,WM_OPER,UE_COPY,con_hdc,NULL),将事件消息通过插件/组件接口发送给信息收集代理模块的用户事件处理模块,这里WM_OPER是操作系统定义消息宏定义,con_hdc是Copy内容的指针。
由于用户事件处理模块已经预先设置了Copy操作事件,通过事件过滤处理后,向代理控制器发送时间通知,代理控制器接收到代理通知后,请求内容提取模块提取当前操作内容;内容提取模块调用操作系统的API函数获取当前操作相关内容,在该实施例中,通过Windows的API函数获取剪贴板的方法属于现有的Windows应用编程技术,这里不再详述。然后返回消息给代理控制器。
完成图3所示的用户数据提取过程后,系统对提取的数据内容进行格式转换和词法、语法分析处理。
格式转换的实现在前文已叙述过,就是按照预设中间格式,将接收到的数据信息的格式转换成中间格式。无论采用哪一种方式获取用户操作内容,系统获得的都应该是基于字符文本格式类型的内容,然后通过分析模块对该用户操作内容作切词,生成临时词根库,并存入收集信息缓存库中。下面具体介绍词法、语法分析处理的实现方法:
图4是本发明系统词根表生成流程图,如图4所示,通过对用户操作内容作词法、语法分析处理生成系统词根表主要包括以下步骤:
步骤401:对获得的文本字符类型格式的操作内容进行自动切词处理,生成临时主题词并存储在临时系统词根表中。
自动切词处理是现有技术,比如二元自动切词算法、词表切词算法等,具体实现可以参照相关资料,常用的自动切分算法是将单词按照二元语法方式切分出来,比如:对于“北京天安门”,可切分成“北京京天天安安门”。这样,在查询时,无论是查询“北京”,还是查询“天安门”,将查询词组按同样的规则进行切分:″北京″,″天安安门″,多个主题词之间按与与的关系组合,则能够正确地映射到相应的词根表中。这种方式对于其他亚洲语言如韩文、日文都是通用的。
主题词是获取的用户操作内容中的高频出现的字符串,比如可以预先设置一次数限值,当字符串出现的次数高于该次数限值时,判定该字符串为主题词。主题词必须是具有真实含义的实词,如足球、football等,而语句中常出现的连词、介词、语气助词如又、也、to等不适合作为主题词。
步骤402:计算临时词根表中的主题词的频数,并将频数大于预设频度阈值的主题词存入系统词根表。
词根频数统计算法就是将用户临时词根表中大于预设频度阈值N的高频主题词合并到用户系统词根表中。
步骤403:计算系统词根表中主题词的变化率,并存入系统词根表。
主题词的变化率很好地反应了用户对主题词关注度的迁移,如变化率变小关注度降低、变化率增大关注度提高、如果变化率长期处于低水平值或为接近为零,说明用户可能不再关注该主题词。主题词变化率的计算入公式(1)所示:
主题词的变化率=dFi/dt    (1)
其中,Fi是系统词根表中主题词i的频数。主题词i变化率等于系统词根表中主题词i的频数对时间的导数。
表4是用户临时词根表存储的内容,表5是系统词根表存储的内容。
  主题词  游戏站(Playstation)   篮球   高尔夫
  频率  3   5   1
表4
  主题词  游戏站(Playstation)   篮球   高尔夫
  频率  100   200   20
  变化率  5   10   3
表5
通过公式(1)所示词根频数统计算法,用户系统词根表的统计结果具有了一定实时性,反应了用户兴趣词根和相关词根的变化率。
信息过滤和管理模块对用户系统词根表进行维护和管理,并且结合修正模块,根据系统词根表的信息对用户兴趣数据模型信息进行修正。图5是本发明修正用户兴趣数据模型的流程图,如图5所示,包括以下步骤:
步骤500:信息过滤和管理模块向用户信息库发送更新用户系统词根表请求。
本步骤是将经过信息过滤和管理模块处理后的数据信息存储到用户信息库中,对用户信息库进行更新。
步骤501:用户信息库进行数据库更新操作,更新用户系统词根表。
步骤502:用户信息库返回更新用户系统词根表响应消息给信息过滤和管理模块,表明已完成更新。
步骤503:信息过滤和管理模块向修正模块发送修正用户兴趣数据模型请求。
修正用户兴趣数据模型请求中携带用户操作事件的事件标识,用于触发更新用户系统词根表中该事件标识对应的事件信息。
修正用户兴趣数据模型请求可以是基于设定事件触发的,也可以是基于收集事件触发的。也就是说一种方式是基于预先设定的事件触发如预设时间定时对用户兴趣数据模型进行修正,基于预先设定的事件触发的方式,系统需要预先保存每次修正操作过程中导入系统词根表的主题词的操作事件标识,基本存储结构如表6所示,如表6所示,其中主题词标识/索引保存了每次导入系统词根表的主题词标识、修正标识用于区别不同的修正操作、事件标识记录每次导入系统词根表的操作事件标识。
  修正标识   主题词标识/索引   事件标识
  ModID1   WordID1   EventID1
  ModID1   WordID1   EventID2
  …   …
  ModID3   WordID2   EventID1
  …   …
表6
另一种方式是根据收集操作事件,实时对用户兴趣数据模型进行修正。如果是按照收集操作事件实时修正用户兴趣数据模型信息的方式,信息过滤和管理模块需要将操作的事件标识携带在修正用户兴趣数据模型请求中发送给修正模块。
步骤504:修正模块对用户兴趣数据模型进行修正处理。
修改用户兴趣数据模型信息主要是插入主题词、和/或删除已经存在的主题词、和/或修改主题词的权值。以根据收集操作事件实时修正用户兴趣数据模型为例,给出修正处理方法:
用户兴趣数据模型除了包括主题词频数和主题词的变化率外,还需要考虑用户操作的影响,比如:操作包括:阅读时间(bt)、加入标签(bm)、拖动滚动条(sc)和跟随超链接(fl)等。相关修正的计算如公式(2)所示:
R i = Σ v ∈ F c v f v ( i ) - - - ( 2 )
其中F是阅读时间、加入标签、拖动滚动条和跟随超链接等用户操作的集合,即F={bt,bm,sc,fl},cv是分配给每一个v动作的权值,v动作是用户操作事件的数学符号表示,cv表示系统为该用户操作事件分配的计算权值。i表示当前请求修正的操作的事件标识对应的用户操作事件,Ri表示当前请求修正的操作的事件标识对应的用户操作事件的权值计算结果,用于参与用户兴趣数据模型的更新。fv(i)是一个二值函数,表示用户对主题词的操作事件v的计算函数,当用户对主题词i操作时,v动作的值为1,否则为0。
在对词根i的权值计算结果Ri的基础上,可以更新用户兴趣数据模型,计算如公式(3)所示如下:
W P ( i ) = f ( F i , d Fi d t , R i ) - - - ( 3 )
公式3所示函数描述了综合计算主题词的权值的计算方法,将系统词根表中的主题词的频数、主题词的变化率和通过公式(2)获得的事件操作权值,确定主题词的修正权值。
其中,Wp (i)是主题词的修正权值,Fi
Figure C20061008102300242
是主题词i的频数和变化率,Wp (i)是与Fi
Figure C20061008102300243
及Ri相关的函数,修改原则为:若该主题词i的权值即修正权值Wp很高,超过给定的最高权值阈值,则相应的用户兴趣数据模型信息中对应的主题词的权值就会增加;若该主题词i的权值即修正权值Wp在给定的最高和最低阈值范围内,说明该主题词的权值与用户特征文件中对应主题词的权值基本一致,则相应的用户兴趣数据模型中对应的主题词的权值不做修改;若该主题词i的权值即修正权值Wp很低,低于给定的最低权值阈值,则相应的用户兴趣数据模型信息中对应的主题词的权值就会减少。为了避免用户兴趣数据模型信息中包含的主题词变得越来越庞大,可以设置调整包含在用户兴趣数据模型信息中主题词权值的最低权值阈值,合理地维护用户兴趣数据模型信息。
表7给出了用户兴趣数据模型信息的二维表结构存储示例,表6说明了用户兴趣模型的基本存储结构,至少包括用户标识、主题词集以及主题词的权值信息。这些信息表示了不断修正用户兴趣数据模型的结果。
  用户标识   主题词   权值
  UID1   篮球   95
  UID1   Playstation   65
  UID1   高尔夫   30
  …   …   …
  UID2   足球   70
  …   …   …
表7
步骤505:修正模块向用户信息库发送更新用户兴趣数据模型请求。
该更新用户兴趣数据模型请求中携带有修正后的用户兴趣数据模型信息。
步骤506:用户信息库更新用户兴趣数据模型。
步骤507:用户信息库向修正模块返回更新用户兴趣数据模型响应消息。
步骤508:修正模块向信息过滤和管理模块返回修正用户兴趣数据模型响应消息。
本发明利用提取到的用户关注的信息不断修正用户兴趣数据模型的信息,有效地对用户兴趣和关注点进行了跟踪。本发明方案对用户干扰小,收集的用户信息精度高,有效地体现出了用户的兴趣所在。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (29)

1.一种收集用户数据的方法,其特征在于,建立存储用户数据的用户兴趣数据模型,该方法包括以下步骤:
A.用户应用浏览器/文档处理时,触发用户操作事件信息的收集,对收集的用户操作事件信息对应的用户操作内容进行分析,获取基于文本字符类型格式的用户操作内容;
对获得的用户操作内容进行自动切词处理,获取临时主题词并存储在临时词根表中,选择临时词根表中出现频数高的主题词存入系统词根表中,
B.根据系统词根表的信息,修正用户兴趣数据模型的信息。
2.根据权利要求1所述的方法,其特征在于,步骤A中所述触发用户操作事件信息的收集为:通过事件消息触发收集用户操作事件信息。
3.根据权利要求2所述的方法,其特征在于,所述事件消息为发送事件消息,该发送事件消息至少包括:
用于标识接收事件消息的信息收集代理模块的进程的进程标识符、用于表示发送的消息的类型的消息标识符、用于标识操作的事件标识、应用对象句柄。
4.根据权利要求3所述的方法,其特征在于,所述应用对象句柄为:操作文档对象在内存中的地址。
5.根据权利要求3所述的方法,其特征在于,所述对收集的用户操作事件信息对应的用户操作内容进行分析包括,
对接收到的事件消息进行过滤处理,提取需要处理的事件消息对应的用户操作内容;
所述选择临时词根表中出现频数高的主题词存入系统词根表之后、步骤B之前,进一步包括,计算并存储系统词根表中主题词的变化率和频数。
6.根据权利要求5所述的方法,其特征在于,所述对接收到的事件消息进行过滤处理,提取需要处理的事件消息对应的用户操作内容具体为:
预先设置过滤条件,如果接收到的事件消息是与预设的过滤条件相匹配的过滤事件,则继续执行提取该接收到的事件消息对应的用户操作内容步骤,否则,则结束。
7.根据权利要求6所述的方法,其特征在于,所述过滤条件为:通过定制的用户接口UI界面设定的事件;或者系统预先设定的默认的事件。
8.根据权利要求5所述的方法,其特征在于,所述提取用户操作内容的方法为:
根据所述事件消息的句柄和进程标识符,向浏览器/文档处理模块发送操作内容请求消息,获取用户操作内容。
9.根据权利要求8所述的方法,其特征在于,所述操作内容请求消息至少包括:用于标识接收事件消息的信息收集代理模块的进程的进程标识符、用于表示发送的消息的类型的消息标识符、用于标识操作的事件标识、应用对象句柄、以及回调函数的句柄。
10.根据权利要求8所述的方法,其特征在于,所述获取用户操作内容的方式为:
对于基于全文操作的内容,直接获取操作文件,并将不同的操作内容的格式转换为预设的系统的中间格式;
对于用户具体的操作内容,采用应用编程接口API钩子函数来获取。
11.根据权利要求8所述的方法,其特征在于,所述用户操作内容包括:鼠标点击、Copy时的鼠标选择内容、鼠标停留时间操作事件。
12.根据权利要求1所述的方法,其特征在于,所述自动切词处理方法为:二元自动切词算法、或词表切词算法。
13.根据权利要求1所述的方法,其特征在于,所述选择出现频数高的主题词的方法为:
预先设置频度阈值,判断主题词的频数是否大于预设频度阈值,若大于,则选择;否则丢弃。
14.根据权利要求5所述的方法,其特征在于,所述计算主题词的变化率的方法为:计算该主题词的频数对时间的导数所得的值。
15.根据权利要求1所述的方法,其特征在于,步骤B具体包括:
B1.接收修正用户兴趣数据模型请求,
B2.对用户兴趣数据模型进行修正处理。
16.根据权利要求15所述的方法,其特征在于,步骤B1中所述修正用户兴趣数据模型请求中携带有用户操作事件的事件标识,该事件标识触发更新用户系统词根表中该事件标识对应的主题词。
17.根据权利要求15或16所述的方法,其特征在于,所述修正用户兴趣数据模型请求为基于设定事件触发的,或基于收集事件触发的。
18.根据权利要求15所述的方法,其特征在于,步骤B2中所述修正包括:插入主题词、和/或删除存在的主题词、和/或修改主题词的权值。
19.根据权利要求15所述的方法,其特征在于,所述步骤B2中,当修正为修改主题词的权值时,修改的方法为:
B21.根据用户操作,计算所述主题词的权值计算结果Ri;
B22.根据计算得到的权值计算结果Ri,以及所述主题词的频数和变化率,计算该主题词的修正权值Wp (i),并根据该修正权值对用户兴趣数据模型进行修正。
20.根据权利要求19所述的方法,其特征在于,步骤B21中所述计算所述主题词的权值计算结果Ri的方法为:
R i = Σ v ∈ F c v f v ( i ) , 其中,F是阅读时间bt、加入标签bm、拖动滚动条sc和跟随超链接fl用户操作的集合,所述F={bt,bm,sc,fl};cv是系统为该用户操作事件分配的计算权值;i表示当前请求修正的操作的事件标识对应的用户操作事件,Ri表示当前请求修正的操作的事件标识对应的用户操作事件的权值计算结果;fv(i)是一个二值函数。
21.根据权利要求19或20所述的方法,其特征在于,步骤B22中所述修正的方法为:预先设置最高权值阈值和最低权值阈值;
若所述主题词i的修正权值Wp (i),超过给定的最高权值阈值,则增加相应的用户兴趣数据模型信息中对应的主题词的权值;
若所述主题词i的修正权值Wp (i)在所述最高和最低阈值范围内,则不修改相应的用户兴趣数据模型中对应的主题词的权值;
若所述主题词i的修正权值Wp (i)低于给定的最低权值阈值,则减少相应的用户兴趣数据模型信息中对应的主题词的权值。
22.根据权利要求21所述的方法,其特征在于,步骤B22中所述计算修正权值Wp (i)的方法为:
W P ( i ) = f 1 ( F i , d fi d t , R i ) , 其中,Fi
Figure C2006100810230005C2
是根据主题词i的频数和变化率计算出来的结果值。
23.根据权利要求1所述的方法,其特征在于,所述用户兴趣数据模型至少包括:用户标识、主题词和主题词的权值。
24.一种收集用户数据的系统,其特征在于,该系统包括:
浏览器/文档处理模块,接收用户的指令执行操作,并将操作通过事件消息发送给信息收集代理模块;
信息收集代理模块,接收来自浏览器/文档处理模块的事件消息,对收集的用户操作内容进行分析,收集用户操作中所关注的临时数据信息,并存储到收集信息缓存库中;将生成的临时数据信息发送给信息过滤和管理模块;
信息过滤和管理模块,接收来自信息收集代理模块的临时数据信息,生成系统词根表,存入用户信息库;根据用户信息库中的数据信息对用户兴趣数据模型的信息进行维护和管理;向修正模块发送修正请求;
修正模块,接收来自信息过滤和管理模块的修正请求,根据用户信息库中的用户数据信息对用户兴趣数据模型信息进行修正,向信息过滤和管理模块返回修正响应,并用修正后的用户兴趣数据模型更新用户信息库。
25.根据权利要求24所述的系统,其特征在于,该系统进一步包括:数据通信模块,用于联系信息收集代理模块与信息过滤和管理模块。
26.根据权利要求24或25所述的系统,其特征在于,所述浏览器/文档处理模块包括:
数据模块,执行应用对象;
显示模块,在控制模块的控制下,将所述应用对象显示出来;
控制模块,对所述数据模块和显示模块的协调工作进行控制。
27.根据权利要求26所述的系统,其特征在于,所述信息收集代理模块包括:
用户事件处理模块,接收来自控制模块的事件通知,并向控制模块返回响应;对接收到的事件进行过滤处理,将接收到的事件中需要处理的事件消息发送给代理控制器;
代理控制器,接收来自用户事件处理模块的事件消息,并返回响应消息;向内容提取模块发送操作内容导入请求;
内容提取模块,接收来自代理控制器的操作内容导入请求,向浏览器/文档处理模块中所述数据模块发送操作内容请求消息,获取用户处理操作的数据信息,将获得的数据信息发送给分析模块;向代理控制器返回操作内容导入响应消息;
分析模块,对接收到的数据信息的词法、语法进行分析,收集用户操作中所关注的临时数据信息,并存储到收集信息缓存库中。
28.根据权利要求27所述的系统,其特征在于,所述信息收集代理模块还包括:
格式转换模块,接收来自内容提取模块的数据信息,将该数据信息的格式转换为预设中间格式后发送给分析模块。
29.根据权利要求24所述的系统,其特征在于,所述信息收集代理模块与浏览器/文档处理模块之间通过插件/组件接口进行数据交互。
CNB2006100810235A 2006-05-19 2006-05-19 一种收集用户数据的系统及方法 Active CN100530183C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2006100810235A CN100530183C (zh) 2006-05-19 2006-05-19 一种收集用户数据的系统及方法
US11/684,839 US7801891B2 (en) 2006-05-19 2007-03-12 System and method for collecting user interest data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100810235A CN100530183C (zh) 2006-05-19 2006-05-19 一种收集用户数据的系统及方法

Publications (2)

Publication Number Publication Date
CN1983264A CN1983264A (zh) 2007-06-20
CN100530183C true CN100530183C (zh) 2009-08-19

Family

ID=38165803

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100810235A Active CN100530183C (zh) 2006-05-19 2006-05-19 一种收集用户数据的系统及方法

Country Status (2)

Country Link
US (1) US7801891B2 (zh)
CN (1) CN100530183C (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478245B2 (en) 2007-08-01 2013-07-02 Phunware, Inc. Method and system for rendering content on a wireless device
KR20090034573A (ko) * 2007-10-04 2009-04-08 삼성전자주식회사 컨텐트 제공 방법 및 그 장치와 컨텐트 재생 방법 및 그장치
US9015692B1 (en) * 2007-10-23 2015-04-21 Phunware, Inc. Method and system for customizing content on a server for rendering on a wireless device
CN101266620B (zh) * 2008-04-07 2021-04-16 北京大学 向用户提供目标信息的方法及设备
US8504558B2 (en) * 2008-07-31 2013-08-06 Yahoo! Inc. Framework to evaluate content display policies
US20100107049A1 (en) * 2008-10-23 2010-04-29 International Business Machines Corporation Dynamic Generation of Data Entry Metadata
US8244517B2 (en) 2008-11-07 2012-08-14 Yahoo! Inc. Enhanced matching through explore/exploit schemes
KR20100058833A (ko) * 2008-11-25 2010-06-04 삼성전자주식회사 모바일 기기에서 감지 가능한 사용자의 행위 기반의 사용자기호 마이닝 방법
US20120131440A1 (en) * 2008-11-25 2012-05-24 CompuGroup Medical AG Method For Context-Sensitive Presentation Of Patient-Related Information
US8595068B1 (en) * 2008-12-09 2013-11-26 Galileo Processing, Inc. Portfolio management system
US8301624B2 (en) 2009-03-31 2012-10-30 Yahoo! Inc. Determining user preference of items based on user ratings and user features
US8612435B2 (en) * 2009-07-16 2013-12-17 Yahoo! Inc. Activity based users' interests modeling for determining content relevance
JP5185240B2 (ja) 2009-11-26 2013-04-17 楽天株式会社 サーバ装置、ユーザ関心度算出方法、ユーザ関心度算出プログラム、及び情報提供システム
US8600979B2 (en) 2010-06-28 2013-12-03 Yahoo! Inc. Infinite browse
CN102637170A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种问题推送方法及系统
CN103186565B (zh) * 2011-12-28 2017-02-22 中国移动通信集团浙江有限公司 根据用户网页浏览行为判断用户偏好的方法及装置
JP5781242B2 (ja) * 2012-02-06 2015-09-16 エンパイア テクノロジー ディベロップメント エルエルシー ウェブトラッキング防止
US8886767B1 (en) * 2012-03-16 2014-11-11 Arris Enterprises, Inc. Sharing resources in a local serving office
US9305268B2 (en) * 2012-06-12 2016-04-05 Connotate, Inc. Monitoring and replaying user behaviors on the web
CN103729351B (zh) * 2012-10-10 2017-10-03 阿里巴巴集团控股有限公司 查询词推荐方法及装置
CN103885891B (zh) * 2012-12-24 2017-07-21 腾讯科技(武汉)有限公司 一种信息预读的方法及移动终端
US9582584B2 (en) * 2013-04-23 2017-02-28 Tencent Technology (Shenzhen) Company Limited Method, apparatus and system for filtering data of web page
US10152463B1 (en) * 2013-06-13 2018-12-11 Amazon Technologies, Inc. System for profiling page browsing interactions
CN103744970B (zh) * 2014-01-10 2016-11-23 北京奇虎科技有限公司 一种确定图片的主题词的方法及装置
US10425372B2 (en) * 2015-08-18 2019-09-24 Google Llc Notification targeting based on downstream user engagement
CN105574159B (zh) * 2015-12-16 2019-04-16 浙江汉鼎宇佑金融服务有限公司 一种基于大数据的用户画像建立方法和用户画像管理系统
US10904168B2 (en) 2016-06-03 2021-01-26 Spotify Ab System and method for providing digital media content with a conversational messaging environment
CN108268532A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 页面分析方法和装置
CN107493299A (zh) * 2017-09-20 2017-12-19 杭州安恒信息技术有限公司 一种基于三层架构的用户行为溯源方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US20040172415A1 (en) * 1999-09-20 2004-09-02 Messina Christopher P. Methods, systems, and software for automated growth of intelligent on-line communities
US7062510B1 (en) * 1999-12-02 2006-06-13 Prime Research Alliance E., Inc. Consumer profiling and advertisement selection system
US7213027B1 (en) * 2000-03-21 2007-05-01 Aol Llc System and method for the transformation and canonicalization of semantically structured data
US7437312B2 (en) * 2000-08-23 2008-10-14 Bizrate.Com Method for context personalized web browsing
US6832242B2 (en) * 2000-12-28 2004-12-14 Intel Corporation System and method for automatically sharing information between handheld devices
US20030090515A1 (en) * 2001-11-13 2003-05-15 Sony Corporation And Sony Electronics Inc. Simplified user interface by adaptation based on usage history
US7299457B2 (en) * 2002-01-18 2007-11-20 Clicktracks Analytics, Inc. System and method for reporting user interaction with a web site
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US20040141003A1 (en) * 2003-01-21 2004-07-22 Dell Products, L.P. Maintaining a user interest profile reflecting changing interests of a customer
JP4217957B2 (ja) * 2003-05-14 2009-02-04 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20050222989A1 (en) * 2003-09-30 2005-10-06 Taher Haveliwala Results based personalization of advertisements in a search engine
US7135376B2 (en) * 2003-12-24 2006-11-14 Oki Electric Industry Co., Ltd. Resistance dividing circuit and manufacturing method thereof
US20060107219A1 (en) * 2004-05-26 2006-05-18 Motorola, Inc. Method to enhance user interface and target applications based on context awareness
US9553937B2 (en) 2004-06-28 2017-01-24 Nokia Technologies Oy Collecting preference information
US20060048060A1 (en) * 2004-08-31 2006-03-02 Julia Mohr Intelligent personalization based on usage analysis
US7457825B2 (en) * 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
DE102005051617B4 (de) * 2005-10-27 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
US7904448B2 (en) * 2006-03-29 2011-03-08 Yahoo! Inc. Incremental update of long-term and short-term user profile scores in a behavioral targeting system

Also Published As

Publication number Publication date
CN1983264A (zh) 2007-06-20
US7801891B2 (en) 2010-09-21
US20070271519A1 (en) 2007-11-22

Similar Documents

Publication Publication Date Title
CN100530183C (zh) 一种收集用户数据的系统及方法
CN108363602B (zh) 智能ui界面布局方法、装置、终端设备及存储介质
CN105956082B (zh) 实时数据处理与存储系统
Radecki et al. Industry structure: Electronic delivery's potential effects on retail banking
KR100874334B1 (ko) 검색 기능을 구비한 배너광고 제공 방법 및 시스템, 그리고상기 방법을 실행시키기 위한 프로그램이 기록된컴퓨터에서 판독 가능한 기록 매체
CN106997549A (zh) 一种广告信息的推送方法及系统
US20060218035A1 (en) Method of introducing advertisements and providing the advertisements by using access intentions of internet users and a system thereof
CN106251485B (zh) 一种自助设备统一管理系统
CN101661512A (zh) 一种识别传统表单信息并创建对应Web表单的系统及方法
CN107016103A (zh) 一种构建用户画像的方法及装置
CN100527132C (zh) 分类样本集的优化方法和内容相关广告服务器
CN108366096A (zh) 一种信息订阅方法、终端及计算机可读存储介质
CN106372975A (zh) 一种基于SOAP技术和ActiveX控件技术的发票管理系统
CN104850546A (zh) 移动媒介信息的展示方法和系统
CN110070411A (zh) 房源信息展示方法、装置、设备及存储介质
CN106295382A (zh) 一种信息风险防控方法及装置
CN109902213A (zh) 实时公交服务线路推荐方法、装置与电子设备
KR100792277B1 (ko) 실시간으로 수집된 온라인 유행어 및 시사용어를 이용한타겟팅 광고 방법 및 장치
CN106446149A (zh) 一种通知信息的过滤方法及装置
WO2019151702A1 (ko) 빅데이터 기반 무형저축상품 전자결제를 이용한 결제통합 저축 서비스 제공 방법
CN113344604B (zh) 一种基于用户行为数据及流计算的用户细分方法
EP2503474A1 (en) Database, ticket data management server and index data management program
JP2006277678A (ja) メッセージ生成システム、メッセージ生成方法、およびコンピュータプログラム
CN103106217A (zh) 一种留言信息的处理方法和设备
CN114385899A (zh) 一种基于大数据分析的用户群体精准识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant