CN108921587A - 一种数据处理方法、装置及服务器 - Google Patents

一种数据处理方法、装置及服务器 Download PDF

Info

Publication number
CN108921587A
CN108921587A CN201810508765.4A CN201810508765A CN108921587A CN 108921587 A CN108921587 A CN 108921587A CN 201810508765 A CN201810508765 A CN 201810508765A CN 108921587 A CN108921587 A CN 108921587A
Authority
CN
China
Prior art keywords
identification information
click
term vector
distance
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810508765.4A
Other languages
English (en)
Other versions
CN108921587B (zh
Inventor
周忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810508765.4A priority Critical patent/CN108921587B/zh
Publication of CN108921587A publication Critical patent/CN108921587A/zh
Application granted granted Critical
Publication of CN108921587B publication Critical patent/CN108921587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud

Abstract

本发明公开了一种数据处理方法、装置及服务器,所述方法包括:获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。本发明能够准确全面的实现对点击对象的聚类。

Description

一种数据处理方法、装置及服务器
技术领域
本发明涉及互联网通信技术领域,尤其涉及一种数据处理方法、装置及服务器。
背景技术
随着互联网时代的快速发展,互联网成为人们日常生活中必不可少的一部分,一些拥有大量用户流量的流量主自然也成为了广告主的广告投放合作对象。CPC(Cost PerClick,每次点击付费广告)是目前主流的广告收费方式之一,CPC的模式下,广告主仅为用户点击广告的行为付费。一些流量主为了增加利润分成,会通过雇佣一些账号对投放的广告进行点击,以达到提升点击率,增加利润分成的目的。而这些雇佣账号的点击,对广告主来说就是一种虚假点击,并不会达到推广的效果。因此,对这种雇佣账号的点击行为进行有效的识别是一个亟待解决的问题。
目前为了识别流量主雇佣账号的点击行为,往往需要通过对流量主进行聚类分析处理;然后,判断聚类后得到的流量主群中的流量主的整体点击率及点击账号等点击分布信息之间相似度,将相似度较高的流量主群中的流量主确定为具有雇佣账号点击行为的流量主。现有的识别流量主雇佣账号的点击行为的过程中,在对流量主进行聚类分析处理时,需要基于流量主的文章类型、流量主标签、发表文章数、粉丝数、阅读数等流量主的属性特征信息进行特征量化为相应的特征向量;然后,基于量化后的特征向量之间的距离进行聚类分析。上述现有的基于流量主的属性特征信息的流量主聚类分析处理方法,对于新加入不久的流量主,还没形成属性特征信息,导致因无法获取到流量主的属性特征信息而无法确定出特征向量的问题,故在流量主聚类分析处理过程中存在较大的局限性。因此,需要提供更可靠或更有效的方案。
发明内容
本发明提供了一种数据处理方法、装置及服务器,可以准确全面的实现对点击对象的聚类。
第一方面,本发明提供了一种数据处理方法,所述方法包括:
获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;
对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;
基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
第二方面提供了一种数据处理装置,所述装置包括:
标识信息文本获取模块,用于获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;
关联训练模块,用于对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;
聚类分析处理模块,用于基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
第三方面提供了一种数据处理服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的数据处理方法。
第四方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的数据处理方法。
本发明提供的数据处理方法、装置及服务器,具有如下技术效果:
本发明能够基于同一用户点击的点击对象之间具有一定的兴趣偏好关联关系,将同一用户的多个点击对象的标识信息组合为具有兴趣偏好关联关系的标识信息文本,并通过对用户的点击对象的标识信息进行关联训练,挖掘出点击对象的特征信息,无需点击对象本身的属性特征信息,就可以实现对点击对象全面准确的聚类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明提供的应用环境的一种实施例示意图;
图2是本发明提供的数据处理方法的一种实施例的流程示意图;
图3是本发明提供的获取多个用户的点击对象的标识信息文本的一种实施例的流程示意图;
图4是本发明提供的将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本的一种实施例的流程示意图;
图5是本发明提供的基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群的一种实施例的流程示意图;
图6是本发明提供的数据处理方法的另一种实施例的流程示意图;
图7是本发明提供的基于点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群的一种实施例的流程示意图;
图8是本发明提供的数据处理装置的一种实施例的流程示意图;
图9是本发明提供的标识信息文本获取模块的一种实施例的组成框图;
图10是本发明提供的聚类分析处理模块的一种实施例的组成框图;
图11是本发明提供的数据处理装置的另一种实施例流程示意图;
图12是本发明提供的一种服务器的实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明提供的应用环境的一种实施例示意图,如图1所示,该应用环境可以包括客户端01、服务器02和数据存储模块03。
具体的,本说明书实施例中,所述客户端01并不仅限于图1中的智能手机,在实际应用中,还可以包括台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如虚拟机等。本说明书实施例中网络节点上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
具体的,本说明书实施例中,所述服务器02可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。
具体的,本说明书实施例中,所述数据存储模块03可以为存储器,也可以为数据库。且数据存储模块03可以为服务器02本地的存储模块,也可以为不在服务器02本地且服务器02可以访问的存储模块。
如图1所示,当用户点击某一信息(例如广告)时,客户端01会将当次点击行为相关的标识数据包括但不限于点击时间,用户的标识信息,信息发布者的标识信息等数据发送到服务器02;然后,服务器02将该标识数据存放到数据存储模块03中。
此外,需要说明的是,当所述数据存储模块03为数据库时,所述标识数据可以按照设置的数据结构进行存储,例如,基于用户的标识信息查找到相应的点击时间和信息发布者的标识信息,将同一用户所对应的信息发布者的标识信息按照点击时间按序排列后存储,但本说明书实施例中数据库中存储的标识数据并不以上述的数据结构为限。
在实际应用中,同一用户点击的信息的发布者之间不是独立存在的,一段时间内同一用户点击的信息的发布者(以下将用户点击的信息的发布者简称为点击对象)之间具有一定的关联关系。具体的,同一用户点击的信息可以反映用户的兴趣偏好,因此,被同一用户点击的点击对象往往也是该用户在某一兴趣偏好的体现。如果两个点击对象频繁被多个不同用户的点击,则这两个点击对象具有较大相似性。基于此,本说明书实施例中可以将点击标识信息所对应的点击对象的用户的特征(兴趣偏好特征)之间的相似程度转换成点击对象之间的相似程度。
具体的,服务器02可以从数据存储模块03中获取用户的点击行为相关的标识数据,将同一用户一段时间内的点击对象的标识信息组合为标识信息文本。然后,基于对所述标识信息文本中的标识信息的关联训练,将标识信息文本中的每一标识信息映射成一个实数向量(词向量),得到的标识信息的词向量可以表征点击该标识信息所对应的点击对象的用户的特征;进而可以根据标识信息的词向量来对相应的点击对象进行聚类。
以下介绍本发明基于用户点击行为相关的标识数据对用户的点击对象进行聚类的数据处理方法的具体实施例,图2是本发明提供的数据处理方法的一种实施例的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201:获取多个用户的点击对象的标识信息文本,其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息。
本说明书实施例中,一般的,所述多个用户可以为某一网络平台上的大量用户或者全部用户。这里获取越多的用户,可以更全面的覆盖网络平台上的点击对象。所述点击对象可以包括用户点击信息的发布者,具体的,例如媒体、网站、软件以及网络平台上有一定粉丝量的公众号等提供用户流量的载体。
如图3所示,图3是本发明提供的获取多个用户的点击对象的标识信息文本的一种实施例的流程示意图,具体的,可以包括:
S301:分别获取预设时间段内的多个用户的点击对象的标识信息。
具体的,本说明书实施例中,所述点击对象的标识信息可以为该点击对象的区分于其他点击对象的标识;具体的,所述点击对象的标识信息可以至少包括下述之一:点击对象的ID(identification,身份标识号)、点击对象的IP(Internet Protocol,网络协议)地址、点击对象发布的信息ID。
此外,需要说明的是,本说明书实施例中,所述点击对象的标识信息并不以上述为限。
具体的,本说明书实施例中,所述预设时间段可以实际应用中需求进行设置。一般的,需要一个较长的时间,例如一个月,以保证该预设时间段内用户点击的信息可以反映用户的兴趣偏好需要。
S303:将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本。
如图4所示,图4是本发明提供的将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本的一种实施例的流程示意图,具体的,可以包括:
S401:将每一用户预设时间段内的点击对象的标识信息按照点击时间先后按序排列。
S403:将每一用户预设时间段内按序排列的点击对象的标识信息作为所述用户的点击对象的标识信息文本。
本说明书实施例中,由于不同的用户在一段时间内的点击对象的数量往往会有不同,故不同用户预设时间段内的点击对象的标识信息的数量也会有不同,当然也不排除两个用户预设时间段内的点击对象的标识信息会存在数量相同的情况。
S203:对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征。
本说明书实施例中,所述用户的特征可以包括但不限于用户的兴趣偏好特征。
具体的实施例中,对多个用户的点击对象的标识信息文本中的标识信息进行关联训练可以采用Word2vector模型。具体的,可以将多个用户的点击对象的标识信息文本输入Word2vector模型进行训练,在训练过程中,可以用标识信息文本中某一标识信息的上下文标识信息(这里的上下文标识信息可以包括与该某一标识信息同一标识信息文本中的其他标识信息)来表示该标识信息,将点击某一点击对象的用户的特征转换成该点击对象的标识信息的词向量,相应的,点击标识信息所对应的点击对象的用户的特征之间的相似程度越高,点击对象的标识信息的词向量之间的相似程度。
此外,需要说明的是,本说明书实施例中对所述标识信息文本中的标识信息进行关联训练并不仅限于采用Word2vector模型进行训练的方式,在实际应用中,还可以采用其他机器学习算法进行训练,本说明书实施例并不以上述为限。
S205:基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
以层次聚类法为例,如图5所示,图5是本发明提供的基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群的一种实施例的流程示意图,具体的,可以包括:
S501:计算所述标识信息的词向量中每两个词向量之间距离。
本说明书实施例中标识信息的词向量之间的距离可以表征标识信息与标识信息之间的相似程度。当两个标识信息的词向量之间的距离越小,两个标识信息之间的相似程度越高,相应的标识信息所对应的点击对象之间的相似程度也越高;反之,当两个标识信息的词向量之间的距离越大,两个标识信息之间的相似程度越低,相应的标识信息所对应的点击对象之间的相似程度也越低。
在一个具体的实施例中,两个标识信息的词向量之间的距离可以为两个标识信息的词向量之间的欧氏距离,当基于两个标识信息的词向量计算得到的欧氏距离的数值越小,可以表示两个标识信息之间的相似程度越高,相应的标识信息所对应的点击对象之间的相似程度也越高;反之,当基于两个标识信息的词向量计算得到的欧氏距离的数值越大,可以表示两个标识信息之间的相似程度越低,相应的标识信息所对应的点击对象之间的相似程度也越低。
此外,需要说明的是,本说明书实施例中两个标识信息的词向量之间的距离不仅限于上述的欧式距离,还可以包括余弦距离、曼哈顿距离等,本说明书实施例所述两个标识信息的词向量之间的距离并不以上述为限。
S503:选取词向量之间的距离最小的两个词向量。
S505:判断所述距离最小的两个词向量之间的距离是否小于等于预设阈值。
本说明书实施例中,所述预设阈值可以结合实际应用中对聚类后的点击对象群组中点击对象之间相似度要求进行设置。一般的,对聚类后的点击对象群组中点击对象之间相似度要求越高,所述预设阈值越小;反之,对聚类后的点击对象群组中点击对象之间相似度要求越低,所述预设阈值越大。
S507:当判断的结果为是时,将所述距离最小的两个词向量所对应的点击对象合并在同一点击对象群中。
S509:计算所述距离最小的两个词向量的中心词向量。
S511:计算所述中心词向量和未合并的点击对象的标识信息的词向量中每两个词向量之间的距离。
重复步骤S503至S511不断的合并得到新的点击对象群。
S513:当判断的结果为否时,将当前合并得到的点击对象群作为所述至少一个点击对象群。
此外,需要说明的是,本说明书实施例中聚类分析处理并不仅限于上述的层次聚类法,在实际应用中还可以采用其他方式进行聚类分析处理,例如硬聚类算法K-means等,本说明书实施例并不以上述为限。
由以上本说明书实施例提供的技术方案可见,本说明书基于同一用户点击的点击对象之间具有一定的兴趣偏好关联关系,将同一用户的多个点击对象的标识信息组合为具有兴趣偏好关联关系的标识信息文本。然后,通过对标识信息文本中的标识信息的关联训练,得到可以表征点击标识信息所对应的点击对象的用户的特征的标识信息的词向量。通过对用户的点击对象的标识信息进行关联分析,挖掘出点击对象的特征信息,无需点击对象本身的属性特征信息,就可以实现对点击对象的聚类,得到点击对象群。
以下介绍基于上述数据处理方法得到点击对象群之后进行雇佣点击行为识别的具体实施例,图6是本发明提供的数据处理方法的另一种实施例的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图6示,所述方法可以包括:
S601:获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息。
S603:对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征。
S605:基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
S607:基于所述点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群。
本说明书实施例中,所述点击对象的点击分布信息可以包括点击该点击对象的用户的分布情况信息,这里用户的分布情况信息可以包括用户账号信息,用户账号所在地、点击时间等信息。具体的,所述异常点击对象群可以包括雇佣账号进行点击的点击对象。
在实际应用中,正常的点击对象之间的点击分布信息之间的差异较大。而本说明书实施例中步骤S605得到的点击对象群中的点击对象所对应的用户的特征之间的相似程度较高,为了准确的确定出异常点击对象群,可以进一步的基于聚类后得到的点击对象群中的点击对象的点击分布信息之间的相似度进行计算来确定异常点击对象群。
具体的,本说明书实施例所述点击对象群中点击对象的点击分布信息之间的相似度可以反映某一点击对象群中点击对象的点击分布信息之间的相似程度。具体的,所述相似度可以是一个与相似程度成正比的具体的数值。在一些情况下,所述相似度可能不是数值,而是只是程度或者趋势的字符化表征,这种情况下,可以通过预设的规则使得该字符化表征的内容量化为与相似程度成正比的一特定值。进而,后续可以利用该量化的值作为点击对象群中点击对象的点击分布信息之间的相似度。在一个普通的例子当中,可能某个维度的值为“中”,则可以量化该字符为其ASCII码的二进制值或十六进制值,本说明书实施例所述相似度并不以上述为限。
在一个具体的实施例中,如图7所示,图7是本发明提供的基于点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群的一种实施例的流程示意图,具体的,可以包括:
S701:确定点击对象群中点击对象的点击分布信息之间的相似度。
S703:判断所述相似度是否大于等于预设相似阈值。
本说明书实施例中,所述预设相似阈值可以结合实际应用中对点击对象群组中点击对象的点击分布信息之间的相似度要求进行设置。一般的,对点击对象群组中点击对象的点击分布信息之间的相似度要求越高,所述预设相似阈值越大;反之,对预设相似阈值要求越低,所述预设相似阈值越小。
S705:当判断的结果为是时,确定相似度大于等于预设相似阈值的点击对象所对应的点击对象群为异常点击对象群。
由以上本说明书实施例提供的技术方案可见,本说明书基于同一用户点击的点击对象之间具有一定的兴趣偏好关联关系,将同一用户的多个点击对象的标识信息组合为具有兴趣偏好关联关系的标识信息文本。并通过对用户的点击对象的标识信息进行关联训练,挖掘出点击对象的特征信息,无需点击对象本身的属性特征信息,就可以实现对点击对象全面准确的聚类,进而可以基于聚类后的点击对象群中点击对象的点击分布信息之间的相似度确定出异常点击对象群。在实际应用中,可以实现雇佣点击行为的有效识别。
本发明实施例还提供了一种数据处理装置,如图8所示,图8是本发明提供的数据处理装置的一种实施例的流程示意图,具体的,所述装置可以包括:
标识信息文本获取模块810,可以用于获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;
关联训练模块820,可以用于对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;
聚类分析处理模块830,可以用于基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
另一实施例中,如图9所示,图9是本发明提供的标识信息文本获取模块的一种实施例的组成框图,具体的,所述标识信息文本获取模块810可以包括:
标识信息获取单元811,可以用于分别获取预设时间段内的多个用户的点击对象的标识信息;
标识信息文本组合单元813,可以用于将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本。
另一实施例中,所述标识信息文本组合单元813可以包括:
按序单元,可以用于将每一用户预设时间段内的点击对象的标识信息按照点击时间先后按序排列;
标识信息文本确定单元,可以用于将每一用户预设时间段内按序排列的点击对象的标识信息作为所述用户的点击对象的标识信息文本。
另一实施例中,如图10所示,图10是本发明提供的聚类分析处理模块的一种实施例的组成框图,具体的,所述聚类分析处理模块830可以包括:
第一计算单元1010,可以用于计算所述标识信息的词向量中每两个词向量之间距离;
词向量选取单元1020,可以用于选取词向量之间的距离最小的两个词向量;
判断单元1030,可以用于判断所述距离最小的两个词向量之间的距离是否小于等于预设阈值;
点击对象合并单元1040,可以用于当所述判断单元判断的结果为是时,将所述距离最小的两个词向量所对应的点击对象合并在同一点击对象群中;
第二计算单元1050,可以用于计算所述距离最小的两个词向量的中心词向量;
第三计算单元1060,可以用于计算所述中心词向量和未合并的点击对象的标识信息的词向量中每两个词向量之间的距离;
数据处理单元1070,可以用于重复上述选取词向量之间的距离最小的两个词向量至计算每两个词向量之间的距离的步骤,至当前距离最小的两个词向量之间的距离是大于预设阈值,将当前合并得到的点击对象群作为所述至少一个点击对象群。
另一实施例中,所述词向量之间距离可以包括下述之一:
欧氏距离、余弦距离、曼哈顿距离。
另一实施例中,所述点击对象的的标识信息可以至少包括下述之一:
点击对象的身份标识号、点击对象的网络协议地址、点击对象发布的信息身份标识号。
本发明实施例还提供了一种数据处理装置,如图11所示,图11是本发明提供的数据处理装置的另一种实施例流程示意图,具体的,所述装置可以包括:
标识信息文本获取模块1110,可以用于获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;
关联训练模块1120,可以用于对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;
聚类分析处理模块1130,可以用于基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
异常点击对象群确定模块1140,可以用于基于所述点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群。
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
本发明实施例提供了一种数据处理服务器,该数据处理服务器包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的数据处理方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例还提供了一种服务器的结构示意图,请参阅图12,该服务器1200用于实施上述实施例中提供的数据处理方法,具体来讲,所述服务器结构可以包括上述数据处理装置。该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1210(例如,一个或一个以上处理器)和存储器1230,一个或一个以上存储应用程序1223或数据1222的存储介质1220(例如一个或一个以上海量存储设备)。其中,存储器1230和存储介质1220可以是短暂存储或持久存储。存储在存储介质1220的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1210可以设置为与存储介质1220通信,在服务器1200上执行存储介质1220中的一系列指令操作。服务器1200还可以包括一个或一个以上电源1260,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1240,和/或,一个或一个以上操作系统1221,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的数据处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本发明提供的数据处理方法、装置、服务器或存储介质的实施例可见,本发明基于同一用户点击的点击对象之间具有一定的兴趣偏好关联关系,将同一用户的多个点击对象的标识信息组合为具有兴趣偏好关联关系的标识信息文本。并通过对用户的点击对象的标识信息进行关联训练,挖掘出点击对象的特征信息,无需点击对象本身的属性特征信息,就可以实现对点击对象全面准确的聚类,进而可以基于聚类后的点击对象群中点击对象的点击分布信息之间的相似度确定出异常点击对象群。在实际应用中,可以实现雇佣点击行为的有效识别。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;
对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;
基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
2.根据权利要求1所述的方法,其特征在于,所述获取多个用户的点击对象的标识信息文本包括:
分别获取预设时间段内的多个用户的点击对象的标识信息;
将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本。
3.根据权利要求2所述的方法,其特征在于,所述将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本包括:
将每一用户预设时间段内的点击对象的标识信息按照点击时间先后按序排列;
将每一用户预设时间段内按序排列的点击对象的标识信息作为所述用户的点击对象的标识信息文本。
4.根据权利要求1所述的方法,其特征在于,所述基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群包括:
计算所述标识信息的词向量中每两个词向量之间距离;
选取词向量之间的距离最小的两个词向量;
判断所述距离最小的两个词向量之间的距离是否小于等于预设阈值;
当判断的结果为是时,将所述距离最小的两个词向量所对应的点击对象合并在同一点击对象群中;
计算所述距离最小的两个词向量的中心词向量;
计算所述中心词向量和未合并的点击对象的标识信息的词向量中每两个词向量之间的距离;
重复上述选取词向量之间的距离最小的两个词向量至计算每两个词向量之间的距离的步骤,至当前距离最小的两个词向量之间的距离是大于预设阈值,将当前合并得到的点击对象群作为所述至少一个点击对象群。
5.根据权利要求4所述的方法,其特征在于,所述词向量之间距离包括下述之一:
欧氏距离、余弦距离、曼哈顿距离。
6.根据权利要求1至5任一所述的方法,其特征在于,所述点击对象的标识信息至少包括下述之一:
点击对象的身份标识号、点击对象的网络协议地址、点击对象发布的信息身份标识号。
7.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
基于所述点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群。
8.一种数据处理装置,其特征在于,所述装置包括:
标识信息文本获取模块,用于获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息;
关联训练模块,用于对所述多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的特征;
聚类分析处理模块,用于基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
9.根据权利要求8所述的装置,其特征在于,所述标识信息文本获取模块包括:
标识信息获取单元,用于分别获取预设时间段内的多个用户的点击对象的标识信息;
标识信息文本组合单元,用于将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本。
10.根据权利要求9所述的装置,其特征在于,所述标识信息文本组合单元包括:
按序单元,用于将每一用户预设时间段内的点击对象的标识信息按照点击时间先后按序排列;
标识信息文本确定单元,用于将每一用户预设时间段内按序排列的点击对象的标识信息作为所述用户的点击对象的标识信息文本。
11.根据权利要求8所述的装置,其特征在于,所述聚类分析处理模块包括:
第一计算单元,用于计算所述标识信息的词向量中每两个词向量之间距离;
词向量选取单元,用于选取词向量之间的距离最小的两个词向量;
判断单元,用于判断所述距离最小的两个词向量之间的距离是否小于等于预设阈值;
点击对象合并单元,用于当所述判断单元判断的结果为是时,将所述距离最小的两个词向量所对应的点击对象合并在同一点击对象群中;
第二计算单元,用于计算所述距离最小的两个词向量的中心词向量;
第三计算单元,用于计算所述中心词向量和未合并的点击对象的标识信息的词向量中每两个词向量之间的距离;
数据处理单元,用于重复上述选取词向量之间的距离最小的两个词向量至计算每两个词向量之间的距离的步骤,至当前距离最小的两个词向量之间的距离是大于预设阈值,将当前合并得到的点击对象群作为所述至少一个点击对象群。
12.根据权利要求11所述的装置,其特征在于,所述词向量之间距离包括下述之一:
欧氏距离、余弦距离、曼哈顿距离。
13.根据权利要求8至12任一所述的装置,其特征在于,所述点击对象的的标识信息至少包括下述之一:
点击对象的身份标识号、点击对象的网络协议地址、点击对象发布的信息身份标识号。
14.根据权利要求8至12任一所述的装置,其特征在于,所述装置还包括:
异常点击对象群确定模块,用于基于所述点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群。
15.一种数据处理服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的数据处理方法。
CN201810508765.4A 2018-05-24 2018-05-24 一种数据处理方法、装置及服务器 Active CN108921587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810508765.4A CN108921587B (zh) 2018-05-24 2018-05-24 一种数据处理方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810508765.4A CN108921587B (zh) 2018-05-24 2018-05-24 一种数据处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN108921587A true CN108921587A (zh) 2018-11-30
CN108921587B CN108921587B (zh) 2020-02-28

Family

ID=64402699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810508765.4A Active CN108921587B (zh) 2018-05-24 2018-05-24 一种数据处理方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108921587B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977322A (zh) * 2019-03-05 2019-07-05 百度在线网络技术(北京)有限公司 出行方式推荐方法、装置、计算机设备和可读存储介质
CN110175546A (zh) * 2019-05-15 2019-08-27 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110633423A (zh) * 2019-09-20 2019-12-31 北京字节跳动网络技术有限公司 目标账号识别方法、装置、设备及存储介质
CN112488765A (zh) * 2020-12-08 2021-03-12 深圳市欢太科技有限公司 广告反作弊方法、广告反作弊装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787025A (zh) * 2016-02-24 2016-07-20 腾讯科技(深圳)有限公司 网络平台公共账号分类方法及装置
US20160239865A1 (en) * 2013-10-28 2016-08-18 Tencent Technology (Shenzhen) Company Limited Method and device for advertisement classification
CN106779926A (zh) * 2016-12-02 2017-05-31 乐视控股(北京)有限公司 关联规则生成方法、装置及终端
CN106886518A (zh) * 2015-12-15 2017-06-23 国家计算机网络与信息安全管理中心 一种微博账号分类的方法
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
CN107330459A (zh) * 2017-06-28 2017-11-07 联想(北京)有限公司 一种数据处理方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239865A1 (en) * 2013-10-28 2016-08-18 Tencent Technology (Shenzhen) Company Limited Method and device for advertisement classification
CN106886518A (zh) * 2015-12-15 2017-06-23 国家计算机网络与信息安全管理中心 一种微博账号分类的方法
CN105787025A (zh) * 2016-02-24 2016-07-20 腾讯科技(深圳)有限公司 网络平台公共账号分类方法及装置
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
CN106779926A (zh) * 2016-12-02 2017-05-31 乐视控股(北京)有限公司 关联规则生成方法、装置及终端
CN107330459A (zh) * 2017-06-28 2017-11-07 联想(北京)有限公司 一种数据处理方法、装置和电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977322A (zh) * 2019-03-05 2019-07-05 百度在线网络技术(北京)有限公司 出行方式推荐方法、装置、计算机设备和可读存储介质
CN109977322B (zh) * 2019-03-05 2021-03-23 百度在线网络技术(北京)有限公司 出行方式推荐方法、装置、计算机设备和可读存储介质
CN110175546A (zh) * 2019-05-15 2019-08-27 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110633423A (zh) * 2019-09-20 2019-12-31 北京字节跳动网络技术有限公司 目标账号识别方法、装置、设备及存储介质
CN112488765A (zh) * 2020-12-08 2021-03-12 深圳市欢太科技有限公司 广告反作弊方法、广告反作弊装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108921587B (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN108921587A (zh) 一种数据处理方法、装置及服务器
US11947986B2 (en) Tenant-side detection, classification, and mitigation of noisy-neighbor-induced performance degradation
CN109190044A (zh) 个性化推荐方法、装置、服务器和介质
US20170140464A1 (en) Method and apparatus for evaluating relevance of keyword to asset price
Carneiro et al. Using mouse dynamics to assess stress during online exams
Steichen et al. Te, Te, Hi, Hi: Eye gaze sequence analysis for informing user-adaptive information visualizations
CN106951571B (zh) 一种给应用标注标签的方法和装置
CN106484777A (zh) 一种多媒体数据处理方法以及装置
CN108376164B (zh) 一种潜力主播的展示方法及装置
JP2010250827A (ja) タッチポイントをカスタマイズするシステム
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
CN107220867A (zh) 对象控制方法及装置
CN105825396A (zh) 一种基于共现的广告标签聚类的方法及系统
US10289624B2 (en) Topic and term search analytics
CN111861605A (zh) 业务对象推荐方法
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
Li et al. AngClust: angle feature-based clustering for short time series gene expression profiles
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
CN117151794A (zh) 一种广告任务推荐方法及相关装置
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN111832815B (zh) 科研热点预测方法及系统
CN110796379A (zh) 业务渠道的风险评估方法、装置、设备及存储介质
CN108241643B (zh) 关键词的指标数据分析方法及装置
CN109033050A (zh) 文章生成方法、设备及存储介质
CN110969460A (zh) 一种针对信息流广告的投放效果预测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant