CN112651764B - 一种目标用户识别方法、装置、设备和存储介质 - Google Patents
一种目标用户识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112651764B CN112651764B CN201910970084.4A CN201910970084A CN112651764B CN 112651764 B CN112651764 B CN 112651764B CN 201910970084 A CN201910970084 A CN 201910970084A CN 112651764 B CN112651764 B CN 112651764B
- Authority
- CN
- China
- Prior art keywords
- user
- seed
- identified
- users
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0224—Discounts or incentives, e.g. coupons or rebates based on user history
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种目标用户识别方法、装置、设备和存储介质,该方法包括:基于用户行为建立待识别用户与至少一个种子用户之间的关系图;根据用户行为确定所述关系图中相邻用户之间的行为相似度;根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;基于所述关联度确定所述待识别用户是否为目标用户。通过本发明实施例的技术方案,实现了对目标用户的准确识别。
Description
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种目标用户识别方法、装置、设备和存储介质。
背景技术
在直播平台上,为了提高用户活跃度,通常会有一些抽奖活动,例如宝箱抽奖、弹幕抽奖等形式的抽奖活动。
然而,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
一些团体为了获取利益,往往通过多个账号参与抽奖活动,该作弊行为会造成直播网络堵塞、直播平台服务器压力过大等问题,对平台的直播生态环境造成了极大的影响,同时还会损害其他正常账号的相关利益。因此为了降低上述作弊行为给直播平台带来的负面影响,需要采用合理的方法及时且准确地找到与作弊相关的目标对象,并对其采取一定的干预措施,以营造良好的直播生态环境,减缓直播网络堵塞、直播平台服务器压力过大等问题。
发明内容
本发明实施例提供了一种目标用户识别方法、装置、设备和存储介质,以实现对目标用户的准确识别。
第一方面,本发明实施例提供了一种目标用户识别方法,包括:
基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系;
根据用户行为确定所述关系图中相邻用户之间的行为相似度;
根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;
基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;
基于所述关联度确定所述待识别用户是否为目标用户。
进一步的,所述基于用户行为建立待识别用户与至少一个种子用户之间的关系图,包括:
将待识别用户以及至少一个种子用户分别确定为彼此独立的顶点;
针对所述至少一个种子用户中的每个种子用户,若所述待识别用户与当前种子用户在设定时间段内使用过相同的设备和/或相同的手机号进行相同的网上行为,则在所述待识别用户对应的顶点与所述当前种子用户对应的顶点之间形成一条边;
其中,通过一条边连接的两个顶点所对应的用户为相邻用户。
进一步的,所述网上行为包括参与直播间抽奖活动的行为。
进一步的,根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,包括:
将所述关系图中的任意顶点确定为当前顶点,从当前顶点出发,依据当前顶点用户与相邻顶点用户之间的行为相似度进行随机游走,当经过的顶点数量达到设定值时,停止游走,并将当前次游走依次经过的顶点确定为当前次的游走路径;
重复上述操作,以得到设定数量的游走路径;
基于所述设定数量的游走路径通过word2vec生成每个顶点对应的向量,其中,每个顶点对应的向量表示对应用户与其他用户之间的关联关系。
进一步的,所述根据用户行为确定所述关系图中相邻用户之间的行为相似度,包括:
按照如下公式计算相邻用户之间的行为相似度:
进一步的,基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度,包括:
按照如下公式计算待识别用户与种子用户之间的关联度:
其中,cu表示待识别用户u与种子用户之间的关联度,集合Su表示种子用户组成的种子用户集合,s表示集合Su中的一个种子用户元素,|Su|表示集合Su中种子用户的个数,sim(u,s)表示待识别用户u与种子用户s之间的行为相似度,k(·,·)表示一个核函数,σ表示高斯分布的标准差,v(u)表示待识别用户u对应的顶点向量,v(s)表示种子用户s对应的顶点向量,v(p)表示种子用户p对应的顶点向量,v(q)表示种子用户q对应的顶点向量。
进一步的,若所述待识别用户为目标用户,所述方法还包括:
对所述目标用户对应的账号权限进行限制。
第二方面,本发明实施例还提供了一种目标用户识别装置,包括:
建立模块,用于基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系;
行为相似度确定模块,用于根据用户行为确定所述关系图中相邻用户之间的行为相似度;
关联关系确定模块,用于根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;
关联度确定模块,用于基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;
识别模块,用于基于所述关联度确定所述待识别用户是否为目标用户。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的目标用户识别方法步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的目标用户识别方法步骤。
上述发明中的实施例具有如下优点或有益效果:
通过基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户;根据用户行为确定所述关系图中相邻用户之间的行为相似度;根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;基于所述关联度确定所述待识别用户是否为目标用户的技术手段,实现了对目标用户的识别。
附图说明
图1是本发明实施例一提供的一种目标用户识别方法的流程图;
图2是本发明实施例一提供的一种用户关系图的示意图;
图3是本发明实施例二提供的一种目标用户识别装置的结构示意图;
图4是本发明实施例三提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种目标用户识别方法的流程图,本实施例提供的目标用户识别方法可适用于对以不正当方式参与直播间抽奖活动的作弊用户进行识别的场景。该方法可以由目标用户识别装置来执行,该装置可以由软件和/或硬件的方式来实现,通常集成于终端,例如与直播平台对应的服务器。
如图1所示,该方法具体包括以下步骤:
步骤110、基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户。
其中,所述用户行为具体指用户在直播间的一些网上行为,例如登录直播间的行为,或者观看直播间的行为等。
具体的,基于用户行为建立待识别用户与至少一个种子用户之间的关系图,包括:
将待识别用户以及至少一个种子用户分别确定为彼此独立的顶点;
针对所述至少一个种子用户中的每个种子用户,若所述待识别用户与当前种子用户在设定时间段内使用过相同的设备,和/或相同的手机号进行相同的网上行为,则在所述待识别用户对应的顶点与所述当前种子用户对应的顶点之间形成一条边;
其中,通过一条边连接的两个顶点所对应的用户为相邻用户,邻居用户为有可能属于同一个作弊团体的用户。通过利用硬关系建立用户之间的关联关系可提高对目标用户的识别准确度,具体的,若两个用户使用同一台电脑或者手机登录了相同的直播平台,或者两个用户使用同一个手机号登录了相同的直播平台,甚至两个人使用同一部手机以及相同的手机号登录了相同的直播平台,则这两个用户极可能是同一个人,或者同一个团体的成员。相比于选择使用“IP地址”这类容易变动的因素将不同用户进行关联,选择使用硬关系(登录直播平台所使用的设备、手机号等)将不同用户进行关联更能准确确定嫌疑用户。可以理解的是,用户在登录直播平台时,均需要注册直播平台的账号,并且每次均需通过所注册的账号登录直播平台,每个用户具有唯一的账号,因此,本发明实施例中所述的用户其实质为使用登录直播平台的账号的用户,用户与账号之间具有一一对应关系。
其中,所述种子用户为通过一定的方式方法预先确定的从事网上作弊行为的用户,例如以不正当的方式参与直播间抽奖活动的用户。通过建立待识别用户与种子用户之间的关系图,可从一定程度表征待识别用户与种子用户的网上行为的关联关系,以基于该关联关系进一步确定待识别用户是否与种子用户属于同一个作弊团体。
步骤120、根据用户行为确定所述关系图中相邻用户之间的行为相似度。
具体的,若两个用户在相同的时间段内登录了相同的直播间,则该两个用户的行为存在一定的相似性,进一步的,若两个用户在设定时间段内先后通过相同的手机登录了相同的直播间,则可以确定该两个用户的行为也存在一定的相似性。
示例性的,所述根据用户行为确定所述关系图中相邻用户之间的行为相似度,包括:
按照如下公式(1)计算相邻用户之间的行为相似度:
其中,sim(u,v)表示用户u与用户v之间的行为相似度,表示用户u的第i个行为特征的特征值,m表示行为特征的个数,/>表示用户v的第i个行为特征的特征值。所述行为特征可根据不同的业务场景进行选定,例如在识别以不正当的方式参与直播间抽奖活动的作弊用户的业务场景中,所述行为特征具体可以包括:参与抽奖的次数。所述行为特征还可以包括登录直播平台所使用的设备型号、手机号、登录时间或者所观看的直播间等。所述行为特征的特征值具体可以是统计的一段时间内用户行为所表现出的特征值,所述一段时间例如可以是一个月或者三个月等。所述用户行为具体可以通过采集用户行为日志获得具体行为数据。
上述公式(1)中表示的是用户u和用户v第i个行为特征值之差的绝对值,其代表了两个用户在该行为特征上的差异性。/>表示的用户u和用户v所有行为特征的曼哈顿距离,为了得到用户之间的行为相似度,需要将所述距离进行变换,以得到其在0-1范围内的映射值。本实施例中选择的变换函数是/>该变换函数可以将距离映射到0-1之间,并且可以满足若用户u和用户v所有特征的曼哈顿距离越大,那么其行为相似度越低的规律特征。
步骤130、根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系。
示例性的,根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,包括:
将所述关系图中的任意顶点确定为当前顶点,从当前顶点出发,依据当前顶点用户与相邻顶点用户之间的行为相似度进行随机游走,当经过的顶点数量达到设定值时,停止游走,并将当前次游走依次经过的顶点确定为当前次的游走路径;
重复上述操作,以得到设定数量的游走路径;
基于所述设定数量的游走路径通过word2vec生成每个顶点对应的向量,其中,每个顶点对应的向量表示对应用户与其他用户之间的关联关系。
以图2所示的一种用户关系图的示意图为例说明上述过程,如图2所示,所述关系图中包括五个顶点(每个顶点代表一个用户),分别为顶点A、B、C、D和E,其中顶点A的相邻用户顶点为顶点B和顶点C,顶点B的相邻用户顶点为顶点A和顶点C,顶点C的相邻用户顶点为顶点A和顶点B,顶点D的相邻用户顶点为顶点E,顶点E的相邻用户顶点为顶点D。假设当前顶点为顶点A,所述设定值为2,且顶点A的用户与相邻顶点B的用户之间的行为相似度大于顶点A的用户与相邻顶点C的用户之间的行为相似度。因此,从顶点A出发进行随机游走,则游走至顶点B的可能性大于游走至顶点C的可能性,假设当前次游走,游走至了顶点B,游走路径长度为2(具体包括顶点A和B),生成的游走路径为A-B。假设当前顶点为顶点B,按照上述游走操作,进行一次随机游走,生成的游走路径为B-A。假设当前顶点为顶点C,按照上述游走操作,进行一次随机游走,生成的游走路径为C-B。假设当前顶点为顶点D,按照上述游走操作,进行一次随机游走,生成的游走路径为D-E。假设当前顶点为顶点E,按照上述游走操作,进行一次随机游走,生成的游走路径为E-D。按照上述操作方式,可得到五条游走路径,将上述五条游走路径作为word2vec模型的输入输出样本,具体是输入A,输出B;输入B,输出A;输入C,输出B;输入D,输出E;输入E,输出D;通过学习可得到一个向量矩阵,向量矩阵中的每列向量即为对应顶点的向量。word2vec模型的网络结构可采用skip-gram,具体是“输入-->project层-->输出”。每个样本对应的输入是一个1*5(5表示关系图中的顶点总数)的矩阵,对每个输入进行one-hot编码,中间的project层可以是一个5*m(m表示顶点向量的维度)的矩阵,通过对上述样本的学习,最终可以得到所述5*m的矩阵,每个节点的向量为该矩阵的列向量。
上述游走路径是根据当前顶点的用户与相邻顶点的用户之间的行为相似度生成的,相比已有的技术,本实施例提出的顶点向量化方法很适用本实施的应用场景。考虑当前顶点的用户与相邻顶点的用户之间的行为相似度相当于借助了其他信息使得游走路径生成的更为合理,可以避免随机抽样导致的目标用户误识别。举例说明上述原理:假设用户A和用户B因为在网吧中偶然使用了同样一台电脑登录了相同的直播间或者直播平台,则在所述关系图上用户A与用户B对应的顶点之间会形成一条边,若不考虑用户A和用户B的行为相似性,那么如果A是一个以不正当方式参与抽奖活动的种子用户,那么用户B很容易也被认定为是一个以不正当方式参与抽奖活动的嫌疑用户,如此会导致误识别的概率较高。而本实施例的处理方式会考虑用户A和用户B的行为相似性,若它们之间的行为相似度很低,那么在随机游走时从A游走到B的可能性将会非常低,从而避免随机抽样导致的目标用户误识别的问题。
步骤140、基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度。
示例性的,按照如下公式(2)计算待识别用户与种子用户之间的关联度:
其中,cu表示待识别用户u与种子用户之间的关联度,集合Su表示种子用户组成的种子用户集合,s表示集合Su中的一个种子用户元素,|Su|表示集合Su中种子用户的个数,sim(u,s)表示待识别用户u与种子用户s之间的行为相似度,k(·,·)表示一个核函数,σ表示高斯分布的标准差,||v(u)-v(s)||表示向量v(u)与向量v(s)之间的欧式距离,v(u)表示待识别用户u对应的顶点向量,v(s)表示种子用户s对应的顶点向量,v(p)表示种子用户p对应的顶点向量,v(q)表示种子用户q对应的顶点向量。高斯分布的标准差σ的选择应参照顶点向量的维度,若顶点向量的维度越高,则每个维度的元素对最终结果的影响越小,此时可调大标准差σ,反之则应调小标准差σ,标准差σ的典型取值通常为1。
为了降低计算量,提高目标用户的识别速度,可将与待识别用户的行为相似度达到阈值的种子用户组成所述种子用户集合Su,而不是将所有的种子用户均作为所述集合Su中的一员。
上述公式(2)有两部分组成,第一部分表示待识别用户与种子用户之间的行为相似度的均值,第二部分/>表示顶点向量之间的相似度均值,其代表的物理意义为待识别用户与种子用户在关联关系上的相似程度,经过加权求和最终得到一个综合指标,即所述关联度。上述公式(2)的计算目的为计算待识别用户与种子用户的相似程度。所述第二部分利用了核函数k(v(u),v(s)),其目的是将低维空间映射到希尔伯特空间,以在更高维空间中计算向量之间的距离。这样设计的好处在于,一方面,两个向量在低维空间可能是难以区分的,若直接计算欧式距离所得到的结果准确度不高,为了得到较高准确度的结果,需要将两个向量映射到更高维的空间。通常在没有先验知识的情况下,高斯核函数是较优的选择。另一方面,核函数k(v(u),v(s))的核值范围为(0,1),与上述公式(2)的第一部分的取值范围可保持一致。
进一步的,所述第二部分又由两个部分组成,其中,/>计算的是与待识别用户具有强关联关系的种子用户对应的顶点向量与该待识别用户对应的顶点向量之间的相似度均值,其直接表征了待识别用户与种子用户之间的关联性,该值越大说明待识别用户与种子用户的关联性越大。计算的是种子用户所对应的顶点向量集合内部两两之间的相似度均值,该值越大说明与待识别用户具有强关联关系的种子用户之间的关系越紧密,这些种子用户为同一团体的可能性越大,即表示种子用户的选取精度越高,间接表征了待识别用户与种子用户之间的关联性。若所述第二部分只采用前面的一项/>进行表示,则当与待识别用户具有强关联关系的种子用户的选取精度不高时,则会导致上述公式(2)最终得到的待识别用户与种子用户之间的关联度的置信度降低,最终降低了对目标用户的识别精度。而上述第二部分只采用后面的一项/>进行表示,显然是不合理的。本实施例通过巧妙地将两者结合在一起,不仅考虑了直接表征待识别用户与种子用户之间关联性的计算项/>同时还考虑了间接表征待识别用户与种子用户之间关联性的计算项/>为提高目标用户的识别精度提供了有力的理论支撑。
上述公式(2)采用两部分构成的原因和好处在于:
其中,第一部分考虑的是行为的相似性(采用的是行为信息),第二部分考虑的是关联性(采用的是结构信息);如果只采用第一部分的行为相似性,那么针对一些行为相似但并非具有内在联系的用户,就会导致高估用户之间的关联度;若只采用第二部分的关联性,也会存在一些特殊情况(例如通过网吧的同一设备进行网上行为的用户)导致高估用户之间的关联度。而将两部分综合起来相加则可以使得关联度的判断更加准确。
权重w1、w2的取值可以通过当前已知的种子用户的特性来决定,具体方法是:分别计算待识别用户与已知的种子用户之间的行为相似度均值,以及待识别用户所对应的顶点向量与已知的种子用户所对应的顶点向量之间的相似度(可采用余弦距离的方式计算向量之间的相似度)均值,如果行为相似度均值高于顶点向量之间的相似度均值,那么设置w1>w2,否则设置w1<w2。这样设置的好处是可以动态地根据每个待识别用户表现出来的行为特征动态地调整权重,以得到一个相对较准确的参考结果。可以理解的是,权重w1、w2的取值范围是0到1之间,其满足w1+w2=1。
步骤150、基于所述关联度确定所述待识别用户是否为目标用户。
具体的,过所述关联度大于阈值,则确定所述待识别用户为目标用户,否则确定所述待识别用户不是目标用户。
进一步的,若所述待识别用户为目标用户,所述方法还包括:
对所述目标用户对应的账号权限进行限制,例如禁止所述账号登录直播间,或者禁止所述账号参与直播间的抽奖活动等,以缓解直播网络堵塞、直播平台服务器压力过大等问题。
本实施例的技术方案,通过基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户;根据用户行为确定所述关系图中相邻用户之间的行为相似度;根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,;基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;基于所述关联度确定所述待识别用户是否为目标用户的技术手段,实现了对目标用户的识别。
在上述技术方案的基础上,举例说明上述识别过程:
假设待识别用户是A,与用户A行为相似度最高的两个种子用户分别是B和C,假设由上述公式(1)可以计算得到用户A与用户B的行为相似度,以及用户A与用户C的行为相似度:
sim(A,B)=0.8
sim(A,C)=0.7
假设通过上述步骤130,分别得到用户A、B和C所对应的顶点向量为:
v(A)=(0.5,0.9,0.2)
v(B)=(0.1,0.3,0.5)
v(C)=(0.5,0.3,0.9)
分别取权重w1=0.5,w2=0.5,σ=1,于是可得到:
设定阈值为0.8,由于c(A)>0.8,因此判定用户A为目标用户。若所述种子用户为以不正当方式参与直播间抽奖活动的作弊用户,则用户A也为以不正当方式参与直播间抽奖活动的作弊用户。
以下是本发明实施例提供的目标用户识别装置的实施例,该装置与上述各实施例的目标用户识别方法属于同一个发明构思,在目标用户识别装置的实施例中未详尽描述的细节内容,可以参考上述目标用户识别方法的实施例。
实施例二
图3为本发明实施例二提供的一种目标用户识别装置的结构示意图,该装置具体包括:建立模块310、行为相似度确定模块320、关联关系确定模块330、关联度确定模块340和识别模块350;
其中,建立模块310,用于基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户;行为相似度确定模块320,用于根据用户行为确定所述关系图中相邻用户之间的行为相似度;关联关系确定模块330,用于根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,;关联度确定模块340,用于基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;识别模块350,用于基于所述关联度确定所述待识别用户是否为目标用户。
进一步的,建立模块310包括:
确定单元,用于将待识别用户以及至少一个种子用户分别确定为彼此独立的顶点;
连线单元,用于针对所述至少一个种子用户中的每个种子用户,若所述待识别用户与当前种子用户在设定时间段内使用过相同的设备,和/或相同的手机号进行相同的网上行为,则在所述待识别用户对应的顶点与所述当前种子用户对应的顶点之间形成一条边;
其中,通过一条边连接的两个顶点所对应的用户为相邻用户。
进一步的,所述网上行为包括登录直播间的行为。
进一步的,关联关系确定模块330包括:
游走单元,用于将所述关系图中的任意顶点确定为当前顶点,从当前顶点出发,依据当前顶点用户与相邻顶点用户之间的行为相似度进行随机游走,当经过的顶点数量达到设定值时,停止游走,并将当前次游走依次经过的顶点确定为当前次的游走路径;重复上述操作,以得到设定数量的游走路径;
向量化处理单元,用于基于所述设定数量的游走路径通过word2vec生成每个顶点对应的向量,其中,每个顶点对应的向量表示对应用户与其他用户之间的关联关系。
进一步的,行为相似度确定模块320具体用于:
按照如下公式计算相邻用户之间的行为相似度:
进一步的,关联度确定模块340具体用于:
按照如下公式计算待识别用户与种子用户之间的关联度:
其中,cu表示待识别用户u与种子用户之间的关联度,w1、w2表示权重,集合Su表示种子用户组成的种子用户集合,s表示集合Su中的一个种子用户元素,|Su|表示集合Su中种子用户的个数,sim(u,s)表示待识别用户u与种子用户s之间的行为相似度,k(·,·)表示一个核函数,σ表示高斯分布的标准差,||v(u)-v(s)‖表示向量v(u)与向量v(s)之间的欧式距离,v(u)表示待识别用户u对应的顶点向量,v(s)表示种子用户s对应的顶点向量,v(p)表示种子用户p对应的顶点向量,v(q)表示种子用户q对应的顶点向量。
进一步的,所述装置还包括:
限制模块,用于对所述目标用户对应的账号权限进行限制。
本实施例的技术方案,通过基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户;根据用户行为确定所述关系图中相邻用户之间的行为相似度;根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;基于所述关联度确定所述待识别用户是否为目标用户的技术手段,实现了对目标用户的识别。
本发明实施例所提供的目标用户识别装置可执行本发明任意实施例所提供的目标用户识别方法,具备执行目标用户识别方法相应的功能模块和有益效果。
实施例三
图4为本发明实施例三提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备12的框图。图4显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如目标用户识别装置的建立模块310、行为相似度确定模块320、关联关系确定模块330、关联度确定模块340和识别模块350)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(目标用户识别装置的建立模块310、行为相似度确定模块320、关联关系确定模块330、关联度确定模块340和识别模块350)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种目标用户识别方法步骤,该方法包括:
基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户;
根据用户行为确定所述关系图中相邻用户之间的行为相似度;
根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;
基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;
基于所述关联度确定所述待识别用户是否为目标用户。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的目标用户识别方法的技术方案。
实施例四
本实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的目标用户识别方法步骤,该方法包括:
基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系,其中,所述关系图中的一个顶点代表一个用户;
根据用户行为确定所述关系图中相邻用户之间的行为相似度;
根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;
基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;
基于所述关联度确定所述待识别用户是否为目标用户。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种目标用户识别方法,其特征在于,包括:
基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系;
根据用户行为确定所述关系图中相邻用户之间的行为相似度;
根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;
基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;
基于所述关联度确定所述待识别用户是否为目标用户;
基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度,包括:
按照如下公式计算待识别用户与种子用户之间的关联度:
2.根据权利要求1所述的方法,其特征在于,所述基于用户行为建立待识别用户与至少一个种子用户之间的关系图,包括:
将待识别用户以及至少一个种子用户分别确定为彼此独立的顶点;
针对所述至少一个种子用户中的每个种子用户,若所述待识别用户与当前种子用户在设定时间段内使用过相同的设备,和/或相同的手机号进行相同的网上行为,则在所述待识别用户对应的顶点与所述当前种子用户对应的顶点之间形成一条边;
其中,通过一条边连接的两个顶点所对应的用户为相邻用户。
3.根据权利要求2所述的方法,其特征在于,所述网上行为包括登录直播间的行为。
4.根据权利要求1所述的方法,其特征在于,根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系,包括:
将所述关系图中的任意顶点确定为当前顶点,从当前顶点出发,依据当前顶点用户与相邻顶点用户之间的行为相似度进行随机游走,当经过的顶点数量达到设定值时,停止游走,并将当前次游走依次经过的顶点确定为当前次的游走路径;
重复上述操作,以得到设定数量的游走路径;
基于所述设定数量的游走路径通过word2vec生成每个顶点对应的向量;
其中,每个顶点对应的向量表示对应用户与其他用户之间的关联关系。
6.根据权利要求1-4任一项所述的方法,其特征在于,若所述待识别用户为目标用户,所述方法还包括:
对所述目标用户对应的账号权限进行限制。
7.一种目标用户识别装置,其特征在于,包括:
建立模块,用于基于用户行为建立待识别用户与至少一个种子用户之间的关系图,以表征待识别用户与所述至少一个种子用户的行为关联关系;
行为相似度确定模块,用于根据用户行为确定所述关系图中相邻用户之间的行为相似度;
关联关系确定模块,用于根据相邻用户之间的所述行为相似度确定所述关系图中用户之间的关联关系;
关联度确定模块,用于基于待识别用户与所述至少一个种子用户之间的行为相似度以及所述用户之间的关联关系确定待识别用户与种子用户之间的关联度;
识别模块,用于基于所述关联度确定所述待识别用户是否为目标用户;
关联度确定模块,具体用于按照如下公式计算待识别用户与种子用户之间的关联度:
8.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的目标用户识别方法步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的目标用户识别方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910970084.4A CN112651764B (zh) | 2019-10-12 | 2019-10-12 | 一种目标用户识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910970084.4A CN112651764B (zh) | 2019-10-12 | 2019-10-12 | 一种目标用户识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651764A CN112651764A (zh) | 2021-04-13 |
CN112651764B true CN112651764B (zh) | 2023-03-31 |
Family
ID=75343797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910970084.4A Active CN112651764B (zh) | 2019-10-12 | 2019-10-12 | 一种目标用户识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651764B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113365113B (zh) * | 2021-05-31 | 2022-09-09 | 武汉斗鱼鱼乐网络科技有限公司 | 目标节点识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392782A (zh) * | 2017-06-29 | 2017-11-24 | 上海斐讯数据通信技术有限公司 | 基于word2Vec的社团构建方法、装置及计算机处理设备 |
CN109242713A (zh) * | 2018-09-07 | 2019-01-18 | 安徽大学 | 基于随机游走边界域处理的三支决策社团划分方法及装置 |
CN109597856A (zh) * | 2018-12-05 | 2019-04-09 | 北京知道创宇信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN109672938A (zh) * | 2019-01-07 | 2019-04-23 | 河北工业大学 | 一种iptv节目推荐方法 |
CN110070364A (zh) * | 2019-03-27 | 2019-07-30 | 北京三快在线科技有限公司 | 基于图模型检测团伙欺诈的方法和装置、存储介质 |
CN110097125A (zh) * | 2019-05-07 | 2019-08-06 | 郑州轻工业学院 | 一种基于嵌入表示的跨网络账户关联方法 |
CN110177094A (zh) * | 2019-05-22 | 2019-08-27 | 武汉斗鱼网络科技有限公司 | 一种用户团体识别方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120084288A1 (en) * | 2010-10-01 | 2012-04-05 | Mohammed Abdul-Razzak | Criminal relationship analysis and visualization |
US9396472B2 (en) * | 2014-10-31 | 2016-07-19 | Facebook, Inc. | Systems and methods for dynamically identifying illegitimate accounts based on rules |
-
2019
- 2019-10-12 CN CN201910970084.4A patent/CN112651764B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392782A (zh) * | 2017-06-29 | 2017-11-24 | 上海斐讯数据通信技术有限公司 | 基于word2Vec的社团构建方法、装置及计算机处理设备 |
CN109242713A (zh) * | 2018-09-07 | 2019-01-18 | 安徽大学 | 基于随机游走边界域处理的三支决策社团划分方法及装置 |
CN109597856A (zh) * | 2018-12-05 | 2019-04-09 | 北京知道创宇信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN109672938A (zh) * | 2019-01-07 | 2019-04-23 | 河北工业大学 | 一种iptv节目推荐方法 |
CN110070364A (zh) * | 2019-03-27 | 2019-07-30 | 北京三快在线科技有限公司 | 基于图模型检测团伙欺诈的方法和装置、存储介质 |
CN110097125A (zh) * | 2019-05-07 | 2019-08-06 | 郑州轻工业学院 | 一种基于嵌入表示的跨网络账户关联方法 |
CN110177094A (zh) * | 2019-05-22 | 2019-08-27 | 武汉斗鱼网络科技有限公司 | 一种用户团体识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Faster Clustering via Non-Backtracking Random Walks;Brian Rappaport等;《arXiv》;20170826;第1-8页 * |
群体智慧在社交媒体中的应用研究;何文译;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150715(第7期);第I139-83页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112651764A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741173B (zh) | 可疑洗钱团伙的识别方法、装置、设备及计算机存储介质 | |
CN110046929B (zh) | 一种欺诈团伙识别方法、装置、可读存储介质及终端设备 | |
Gorard | Rethinking ‘quantitative’methods and the development of new researchers | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN113538070B (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN111371767A (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN112329895A (zh) | 一种具有窃电嫌疑的用户的识别方法及装置 | |
CN110502697B (zh) | 一种目标用户识别方法、装置及电子设备 | |
CN112365007A (zh) | 模型参数确定方法、装置、设备及存储介质 | |
CN112651764B (zh) | 一种目标用户识别方法、装置、设备和存储介质 | |
CN111353554A (zh) | 预测缺失的用户业务属性的方法及装置 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN109034199B (zh) | 数据处理方法及装置、存储介质和电子设备 | |
CN111340574B (zh) | 风险用户的识别方法、装置和电子设备 | |
CN112788351B (zh) | 一种目标直播间的识别方法、装置、设备和存储介质 | |
CN112819056A (zh) | 群控账号挖掘方法、装置、设备及存储介质 | |
CN110929285A (zh) | 一种隐私数据的处理方法及装置 | |
CN109451332B (zh) | 一种用户属性标记方法、装置、计算机设备及介质 | |
CN110717817A (zh) | 贷前审核方法及装置、电子设备和计算机可读存储介质 | |
Sun et al. | Analyzing the posting behaviors in news forums with incremental inter-event time | |
CN110297989B (zh) | 异常检测的测试方法、装置、设备和介质 | |
CN114301699A (zh) | 行为预测方法及装置、电子设备和计算机可读存储介质 | |
CN114186039A (zh) | 一种视觉问答方法、装置及电子设备 | |
CN112261484B (zh) | 一种目标用户识别方法、装置、电子设备和存储介质 | |
CN111400695A (zh) | 一种设备指纹生成方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |