CN106484708A - 一种用户行为数据的处理方法和系统 - Google Patents

一种用户行为数据的处理方法和系统 Download PDF

Info

Publication number
CN106484708A
CN106484708A CN201510531738.5A CN201510531738A CN106484708A CN 106484708 A CN106484708 A CN 106484708A CN 201510531738 A CN201510531738 A CN 201510531738A CN 106484708 A CN106484708 A CN 106484708A
Authority
CN
China
Prior art keywords
data
user behavior
user
behavior data
scheduler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510531738.5A
Other languages
English (en)
Inventor
熊中廷
王颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510531738.5A priority Critical patent/CN106484708A/zh
Publication of CN106484708A publication Critical patent/CN106484708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用户行为数据的处理方法和系统,该方法包括:接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;从各数据调度器的硬盘中取出用户行为数据;将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。依据本发明提供的技术方案,首先,实现了对数据持久化的支持,避免了由于数据处理过程中发生意外而导致的数据丢失;其次,保证了数据处理的效率;再次,处理过程中采用从数据调度器的硬盘中主动取数据的模式,可以根据当前数据处理能力以适当的速率消费数据,避免了采用下发数据的模式造成的拒绝服务及网络拥塞等;为进一步的机器学习、行为挖掘和服务推荐等方向提供可靠的数据样本。

Description

一种用户行为数据的处理方法和系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种用户行为数据的处理方法和系统。
背景技术
随着互联网技术的不断发展,互联网产品形式日益多样化,为人们的工作和生活提供了极大的便利。互联网用户通过一系列行为来获得满足自身需求,例如,通过搜索行为获取需要查询的信息,通过下载行为将需要的信息本地化,通过上传行为发布信息等。可以看出,用户的行为反映了用户自身的属性,为了使得互联网产品更加符合用户的需求,为了进一步保障用户与互联网产品之间沟通的顺畅,用户行为数据的采集和处理成为当前的研究热点。
现有技术中,用户行为数据的处理方法大多基于消息队列,消息队列中待处理的消息大多放在机器的内存中,不支持数据持久化,在某些情况下数据处理过程中发生意外时,将造成数据丢失;并且,大部分用户行为数据的处理过程是采用下发数据的模式进行的,该模式无法根据当前数据处理模式调节数据的消耗速率,在处理数据量较大时,容易发生拒绝服务和数据拥塞等问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种用户行为数据的处理方法和系统。
依据本发明的一个方面,提供了一种用户行为数据的处理方法,该方法包括:
接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;
从各数据调度器的硬盘中取出用户行为数据;
将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
可选地,所述将接收到的用户行为数据分发存储到多台数据调度器的硬盘中包括:
对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。
可选地,每条用户行为数据包括:产生该条用户行为数据的用户标识;
则所述将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并包括:
对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;
合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
可选地,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重;
则所述合并该条用户行为数据与所述历史用户行为数据包括:合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。
可选地,所述用户行为包括:搜索行为和/或下载行为。
可选地,该方法进一步包括:
依据当前最新的历史用户行为数据中的用户标识、关键词以及权重,向对应用户推送推广信息。
可选地,在所述将所述合并结果保存到数据存储器中之后,该方法进一步包括:
删除存储在所述数据调度器中的该条用户行为数据。
依据本发明的另一个方面,提供了一种用户行为数据的处理系统,该系统包括:
任务代理器,适于接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;
数据处理器,适于从各数据调度器的硬盘中取出用户行为数据;将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
可选地,所述任务代理器,适于对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。
可选地,每条用户行为数据包括:产生该条用户行为数据的用户标识;
则所述数据处理器,适于对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
可选地,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重;
则所述数据处理器,适于合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。
可选地,所述用户行为包括:搜索行为和/或下载行为。
可选地,该系统进一步包括:
推广服务器,依据当前最新的历史用户行为数据中的用户标识、关键词以及权重,向对应用户推送推广信息。
可选地,所述数据处理器,进一步适于在所述将所述合并结果保存到数据存储器中之后,通知存储该条用户行为数据的数据调度器,使得该数据调度器删除存储其硬盘中的该条用户行为数据。
由上述可知,本发明提供的技术方案将接收到的用户行为数据分发存储到多台数据调度器的硬盘中等待处理,在处理过程中,将从数据调度器的硬盘中取出的用户行为数据与数据存储器中的相应用户行为数据进行合并,得到最新的用户行为数据。在本方案中,首先,将数据放入数据调度器的硬盘中等待处理,实现了对数据持久化的支持,避免了由于数据处理过程中发生意外而导致的数据丢失;其次,由于对数据进行硬盘读写的速度很快,即使对TB级以上数据也能保证常数时间复杂度的处理性能,保证了数据处理的效率;再次,处理过程中采用从数据调度器的硬盘中主动取数据的模式,可以根据当前数据处理能力以适当的速率消费数据,避免了现有技术中采用下发数据的模式造成的拒绝服务及数据拥塞等;以及,经本方案处理后的用户行为数据能够为进一步的机器学习、行为挖掘和服务推荐等方向提供可靠的数据样本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种用户行为数据的处理方法的流程图;
图2示出了根据本发明一个实施例的一种用户行为数据的处理系统的示意图;
图3示出了根据本发明另一个实施例的一种用户行为数据的处理系统的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种用户行为数据的处理方法的流程图。如图1所示,该方法包括:
步骤S110,接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中。
本步骤中,所述数据调度器用于存储待处理的用户行为数据。
步骤S120,从各数据调度器的硬盘中取出用户行为数据。
步骤S130,将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
本步骤中,所述数据存储器中存储了已处理的用户行为数据。
可见,图1所示的方法将接收到的用户行为数据分发存储到多台数据调度器的硬盘中等待处理,在处理过程中,将从数据调度器的硬盘中取出的用户行为数据与数据存储器中的相应用户行为数据进行合并,得到最新的用户行为数据。在本方案中,首先,将数据放入数据调度器的硬盘中等待处理,实现了对数据持久化的支持,避免了由于数据处理过程中发生意外而导致的数据丢失;其次,由于对数据进行硬盘读写的速度很快,即使对TB级以上数据也能保证常数时间复杂度的处理性能,保证了数据处理的效率;再次,处理过程中采用从数据调度器的硬盘中主动取数据的模式,可以根据当前数据处理能力以适当的速率消费数据,避免了现有技术中采用下发数据的模式造成的拒绝服务及数据拥塞等;以及,经本方案处理后的用户行为数据能够为进一步的机器学习、行为挖掘和服务推荐等方向提供可靠的数据样本。
在本发明的一个实施例中,所述将接收到的用户行为数据分发存储到多台数据调度器的硬盘中包括:对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。通过这样的设置,不同数据调度器的硬盘中存储的数据之间没有关联,各数据调度器之间相互独立,数据调度器的增加和减少不需要改变本方案的原有配置,实现了本方案的可扩展性;并且,每个数据调度器的硬盘中存储的用户行为数据依照存储顺序实质上形成一个待处理的数据队列,在数据量大的情况下也能够保证对数据的有序处理。
在本发明的一个实施例中,每条用户行为数据包括:产生该条用户行为数据的用户标识。则图1所示方法的步骤S130将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并包括:
步骤S131,对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据。
步骤S132,合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
例如,从数据调度器的硬盘中取出一条用户行为数据是:用户A在当前统计周期内搜索关键词“文学”10次;对于该条用户行为数据,从数据存储器中获取用户A的历史用户行为数据是:用户A已搜索关键词“文学”50次,且用户A已搜索关键词“历史”30次;将两条用户行为数据进行合并,合并结果是:用户A已搜索关键词“文学”60次,且用户A已搜索关键词“历史”30次;将该合并结果保存到数据存储器中,覆盖原有的用户A已搜索关键词“文学”50次,且用户A已搜索关键词“历史”30次,作为当前最新的历史用户行为数据。可见,处理过程中不仅需要从数据调度器的硬盘中取出用户行为数据,还需要从数据存储器中取出相应的历史用户行为数据,进行合并后再覆盖存储到数据存储器中,采取对双方数据的拉取再合并的模式,可以根据当前数据处理能力以适当的速率消费数据,避免了拒绝服务及数据拥塞等问题,进一步提高数据处理的效率。
在一些实施例中,每条用户行为数据不仅包括用户标识,还可以进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重。则上述步骤S132合并该条用户行为数据与所述历史用户行为数据包括:合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。具体地,所述用户行为包括:搜索行为和/或下载行为。
例如,用户行为数据的形式是:{用户标识;搜索关键词,权重},从数据调度器的硬盘中取出一条用户行为数据是:{用户A;“文学”,5;“历史”,3},对于该条用户行为数据,从数据存储器中获取用户A的历史用户行为数据是:{用户A;“文学”,8;“历史”,7;“军事”,4};其中,待处理的该条用户行为数据表征了:用户A在当前最新的统计周期内,搜索“文学”的概率是5/8,搜索“历史”的概率是3/8,搜索“军事”的概率是0;而用户A的历史用户行为数据表征了:用户A在搜索历史中,搜索“文学”的概率是8/19,搜索“历史”的概率是7/19,搜索“军事”的概率是4/19;将二者合并,则用户A至今,搜索“文学”的概率是5/8+8/19=159/152,搜索“历史”的概率是3/8+7/19=113/152,搜索“军事”的概率是4/19;即合并结果是:{用户A;“文学”,159;“历史”,113;“军事”,32},使其覆盖原有的用户A的历史用户行为数据,作为用户A当前最新的历史用户行为数据。
进一步地,在获得最新的历史用户行为数据后,图1所示的方法进一步包括:依据当前最新的历史用户行为数据中的用户标识、关键词以及权重,向对应用户推送推广信息。沿用上文中的例子,在得到合并结果为{用户A;“文学”,159;“历史”,113;“军事”,32}时,在用户浏览互联网页面时,可以依据各关键词的权重以不同的概率向用户A推送关键词相关的推广信息,如以最高的概率向用户A推送“文学”相关的推广信息,次之,向用户A推送“历史”相关的推广信息,以此类推,能够实现针对用户的需求向用户进行推广信息的推送,符合用户需求。
上文中提到过,将数据放入数据调度器的硬盘中等待处理,实现了对数据持久化的支持,避免了由于数据处理过程中发生意外而导致的数据丢失;在一条数据处理完毕之后,处理后的数据存储到数据存储器中,对应地,该条数据在数据调度器中备份的意义已经不大,为了进一步动态地释放出数据调度器的硬盘空间,在本发明的一个实施例中,在所述将所述合并结果保存到数据存储器中之后,图1所示的方法进一步包括:删除存储在所述数据调度器中的该条用户行为数据。
图2示出了根据本发明一个实施例的一种用户行为数据的处理系统的示意图,如图2所示,该用户行为数据的处理系统200包括:
任务代理器210,适于接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器220的硬盘中。
其中,图2所示的系统中可以包括一个或多个任务代理器210,多个任务代理器210的地位是等价的,且其中的每个任务代理器210与一个任务代理器210的执行逻辑是一致的,因此,图2中仅示出一个任务代理器210作为代表进行说明。
数据调度器220,适于存储用户行为数据。
数据处理器230,适于从各数据调度器220的硬盘中取出用户行为数据;将取出的用户行为数据与数据存储器240中的相应用户行为数据进行合并。
其中,各数据调度器220与数据处理器230的交互关系对应相同,因此,图2中仅示出第一个数据调度器220与多个数据处理器230的交互关系作为代表进行说明。
数据存储器240,适于存储已处理的用户行为数据。
可见,图2所示的系统通过任务代理器将接收到的用户行为数据分发存储到多台数据调度器的硬盘中等待处理,在处理过程中,数据处理器将从数据调度器的硬盘中取出的用户行为数据与数据存储器中的相应用户行为数据进行合并,得到最新的用户行为数据。在本方案中,首先,将数据放入数据调度器的硬盘中等待处理,实现了对数据持久化的支持,避免了由于数据处理过程中发生意外而导致的数据丢失;其次,由于对数据进行硬盘读写的速度很快,即使对TB级以上数据也能保证常数时间复杂度的处理性能,保证了数据处理的效率;再次,处理过程中采用从数据调度器的硬盘中主动取数据的模式,可以根据当前数据处理能力以适当的速率消费数据,形成负载均衡的任务分配模式,避免了现有技术中采用下发数据的模式造成的拒绝服务及数据拥塞等;以及,经本方案处理后的用户行为数据能够为进一步的机器学习、行为挖掘和服务推荐等方向提供可靠的数据样本。
在本发明的一个实施例中,图2所示系统的任务代理器210,适于对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器220的硬盘中。通过这样的设置,不同数据调度器220的硬盘中存储的数据之间没有关联,各数据调度器220之间相互独立,数据调度器220的增加和减少不需要改变图2所示系统的原有配置,实现了本方案的可扩展性;并且,每个数据调度器220的硬盘中存储的用户行为数据依照存储顺序实质上形成一个待处理的数据队列,在数据量大的情况下也能够保证对数据的有序处理。
在本发明的一个实施例中,每条用户行为数据包括:产生该条用户行为数据的用户标识。则图2所示系统的数据处理器230,适于对于取出的每条用户行为数据,从数据存储器240中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器240中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
此外,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重。则数据处理器230,适于合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。其中,所述用户行为包括:搜索行为和/或下载行为。
在本发明的一个实施例中,数据处理器230,进一步适于在所述将所述合并结果保存到数据存储器240中之后,通知存储该条用户行为数据的数据调度器220,使得该数据调度器220删除存储其硬盘中的该条用户行为数据。
图3示出了根据本发明另一个实施例的一种用户行为数据的处理系统的示意图,如图3所示,该用户行为数据的处理系统300包括:任务代理器310、数据调度器320、数据处理器330、数据存储器340和推广服务器350。
其中,任务代理器310、数据调度器320、数据处理器330、数据存储器340与图2所示系统中的任务代理器210、数据调度器220、数据处理器230、数据存储器240对应相同,上文中已详细说明,在此不再赘述。
推广服务器350,依据当前最新的历史用户行为数据中的用户标识、关键词以及权重,向对应用户推送推广信息。
需要说明的是,图2-图3所示系统的各实施例与上文图1所示方法的各实施例对应相同,上文已详细说明,在此不再赘述。
综上所述,本发明提供的技术方案将接收到的用户行为数据分发存储到多台数据调度器的硬盘中等待处理,在处理过程中,将从数据调度器的硬盘中取出的用户行为数据与数据存储器中的相应用户行为数据进行合并,得到最新的用户行为数据。依据本发明提供的技术方案能够保证待处理数据传递的高性能、可靠性和可扩展性,首先,将数据放入数据调度器的硬盘中等待处理,实现了对数据持久化的支持,避免了由于数据处理过程中发生意外而导致的数据丢失;其次,由于对数据进行硬盘读写的速度很快,即使对TB级以上数据也能保证常数时间复杂度的处理性能,保证了数据处理的效率;再次,处理过程中采用从数据调度器的硬盘中主动取数据的模式,可以根据当前数据处理能力以适当的速率消费数据,避免了现有技术中采用下发数据的模式造成的拒绝服务及数据拥塞等;以及,经本方案处理后的用户行为数据能够为进一步的机器学习、行为挖掘和服务推荐等方向提供可靠的数据样本。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用户行为数据的处理系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种用户行为数据的处理方法,其中,该方法包括:
接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;
从各数据调度器的硬盘中取出用户行为数据;
将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
A2、如A1所述的方法,其中,所述将接收到的用户行为数据分发存储到多台数据调度器的硬盘中包括:
对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。
A3、如A1所述的方法,其中,每条用户行为数据包括:产生该条用户行为数据的用户标识;
则所述将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并包括:
对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;
合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
A4、如A3所述的方法,其中,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重;
则所述合并该条用户行为数据与所述历史用户行为数据包括:合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。
A5、如A4所述的方法,其中,所述用户行为包括:搜索行为和/或下载行为。
A6、如A4所述的方法,其中,该方法进一步包括:
依据当前最新的历史用户行为数据中的用户标识、关键词以及权重,向对应用户推送推广信息。
A7、如A3所述的方法,其中,在所述将所述合并结果保存到数据存储器中之后,该方法进一步包括:
删除存储在所述数据调度器中的该条用户行为数据。
本发明还公开了B8、一种用户行为数据的处理系统,其中,该系统包括:
任务代理器,适于接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;
数据处理器,适于从各数据调度器的硬盘中取出用户行为数据;将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
B9、如B8所述的系统,其中,
所述任务代理器,适于对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。
B10、如B8所述的系统,其中,每条用户行为数据包括:产生该条用户行为数据的用户标识;
则所述数据处理器,适于对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
B11、如B10所述的系统,其中,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重;
则所述数据处理器,适于合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。
B12、如B11所述的系统,其中,所述用户行为包括:搜索行为和/或下载行为。
B13、如B11所述的系统,其中,该系统进一步包括:
推广服务器,依据当前最新的历史用户行为数据中的用户标识、关键词以及权重,向对应用户推送推广信息。
B14、如B10所述的系统,其中,
所述数据处理器,进一步适于在所述将所述合并结果保存到数据存储器中之后,通知存储该条用户行为数据的数据调度器,使得该数据调度器删除存储其硬盘中的该条用户行为数据。

Claims (10)

1.一种用户行为数据的处理方法,其中,该方法包括:
接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;
从各数据调度器的硬盘中取出用户行为数据;
将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
2.如权利要求1所述的方法,其中,所述将接收到的用户行为数据分发存储到多台数据调度器的硬盘中包括:
对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。
3.如权利要求1所述的方法,其中,每条用户行为数据包括:产生该条用户行为数据的用户标识;
则所述将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并包括:
对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;
合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
4.如权利要求3所述的方法,其中,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重;
则所述合并该条用户行为数据与所述历史用户行为数据包括:合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。
5.如权利要求4所述的方法,其中,所述用户行为包括:搜索行为和/或下载行为。
6.一种用户行为数据的处理系统,其中,该系统包括:
任务代理器,适于接收待处理的用户行为数据,将接收到的用户行为数据分发存储到多台数据调度器的硬盘中;
数据处理器,适于从各数据调度器的硬盘中取出用户行为数据;将取出的用户行为数据与数据存储器中的相应用户行为数据进行合并。
7.如权利要求6所述的系统,其中,
所述任务代理器,适于对接收到的用户行为数据进行分类,将每一类别的用户行为数据分发存储到与该类别对应的一台数据调度器的硬盘中。
8.如权利要求6所述的系统,其中,每条用户行为数据包括:产生该条用户行为数据的用户标识;
则所述数据处理器,适于对于取出的每条用户行为数据,从数据存储器中获取与该条用户行为数据包含相同用户标识的历史用户行为数据;合并该条用户行为数据与所述历史用户行为数据,将得到的合并结果保存到数据存储器中,覆盖所述历史用户行为数据作为当前最新的历史用户行为数据。
9.如权利要求8所述的系统,其中,每条用户行为数据进一步包括:产生该条用户行为数据的用户行为对应的一个或多个关键词,以及各关键词的权重;
则所述数据处理器,适于合并该条用户行为数据与所述历史用户行为数据中的关键词及其权重。
10.如权利要求9所述的系统,其中,所述用户行为包括:搜索行为和/或下载行为。
CN201510531738.5A 2015-08-26 2015-08-26 一种用户行为数据的处理方法和系统 Pending CN106484708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510531738.5A CN106484708A (zh) 2015-08-26 2015-08-26 一种用户行为数据的处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510531738.5A CN106484708A (zh) 2015-08-26 2015-08-26 一种用户行为数据的处理方法和系统

Publications (1)

Publication Number Publication Date
CN106484708A true CN106484708A (zh) 2017-03-08

Family

ID=58234327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510531738.5A Pending CN106484708A (zh) 2015-08-26 2015-08-26 一种用户行为数据的处理方法和系统

Country Status (1)

Country Link
CN (1) CN106484708A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169796A (zh) * 2017-05-12 2017-09-15 深圳市浩天投资有限公司 一种用户行为数据的分析方法、系统及计算机可读存储介质
CN108846636A (zh) * 2018-06-01 2018-11-20 北京字节跳动网络技术有限公司 数据调度方法、装置、计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071429A (zh) * 2006-05-09 2007-11-14 富士施乐株式会社 文档使用跟踪系统、方法、计算机可读介质和计算机数据信号
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN104268254A (zh) * 2014-10-09 2015-01-07 浪潮电子信息产业股份有限公司 一种安全态势分析统计方法
CN104394211A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于Hadoop用户行为分析系统设计与实现方法
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104834657A (zh) * 2014-08-27 2015-08-12 腾讯科技(北京)有限公司 用户行为分析方法及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071429A (zh) * 2006-05-09 2007-11-14 富士施乐株式会社 文档使用跟踪系统、方法、计算机可读介质和计算机数据信号
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN104834657A (zh) * 2014-08-27 2015-08-12 腾讯科技(北京)有限公司 用户行为分析方法及服务器
CN104268254A (zh) * 2014-10-09 2015-01-07 浪潮电子信息产业股份有限公司 一种安全态势分析统计方法
CN104394211A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于Hadoop用户行为分析系统设计与实现方法
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169796A (zh) * 2017-05-12 2017-09-15 深圳市浩天投资有限公司 一种用户行为数据的分析方法、系统及计算机可读存储介质
CN108846636A (zh) * 2018-06-01 2018-11-20 北京字节跳动网络技术有限公司 数据调度方法、装置、计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11366859B2 (en) Hierarchical, parallel models for extracting in real time high-value information from data streams and system and method for creation of same
CN104679778B (zh) 一种搜索结果的生成方法及装置
CN111818112B (zh) 一种基于Kafka系统的发送消息的方法和装置
US20090089279A1 (en) Method and Apparatus for Detecting Spam User Created Content
JP6720626B2 (ja) キュレートされたコンテンツ内の古くなったアイテムの除去
CN108874558A (zh) 分布式事务的消息订阅方法、电子装置及可读存储介质
CN103597474A (zh) 对列入访问控制表的文档进行的高效索引和搜索
CN109885744B (zh) 网页数据爬取方法、装置、系统、计算机设备及存储介质
CN112765104B (zh) 文件保存方法、装置、设备及存储介质
CN104050292A (zh) 省流量模式搜索服务的方法、服务器、客户端和系统
CN104765609B (zh) 软件关联资源推荐方法、获取方法及相应的装置
CN110222249A (zh) 数据存储方法、装置、计算机设备及存储介质
CN108154024A (zh) 一种数据检索方法、装置及电子设备
CN104408193B (zh) 数据可视化模型的处理方法及装置
US20090019021A1 (en) Method and apparatus for creating an index of network data for a set of messages
CN106484708A (zh) 一种用户行为数据的处理方法和系统
US10762096B2 (en) Method for providing mail search result including at least one mail card, and mail service system for performing same
CN107633080B (zh) 一种用户任务处理方法及装置
CN106503260A (zh) 一种提高数据库的有效存储空间的方法和装置
CN110688223B (zh) 数据处理方法及相关产品
CN104378393A (zh) 一种资源分享方法和相应的装置
CN105183749A (zh) 一种爬取推广内容并供搜索使用的方法和装置
EP4002152A1 (en) Data tagging and synchronisation system
CN107122381B (zh) 文件生成方法及装置和数据分析方法及装置
Guo et al. A graph-based push service platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308