CN106933880B - 一种标签数据泄漏渠道检测方法及装置 - Google Patents

一种标签数据泄漏渠道检测方法及装置 Download PDF

Info

Publication number
CN106933880B
CN106933880B CN201511028180.5A CN201511028180A CN106933880B CN 106933880 B CN106933880 B CN 106933880B CN 201511028180 A CN201511028180 A CN 201511028180A CN 106933880 B CN106933880 B CN 106933880B
Authority
CN
China
Prior art keywords
user
channel
label
detection
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511028180.5A
Other languages
English (en)
Other versions
CN106933880A (zh
Inventor
文镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201511028180.5A priority Critical patent/CN106933880B/zh
Priority to JP2018532787A priority patent/JP6895972B2/ja
Priority to PCT/CN2016/110714 priority patent/WO2017114209A1/zh
Publication of CN106933880A publication Critical patent/CN106933880A/zh
Priority to US16/020,872 priority patent/US10678946B2/en
Priority to US16/874,012 priority patent/US11080427B2/en
Application granted granted Critical
Publication of CN106933880B publication Critical patent/CN106933880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6272Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database by registering files or documents with a third party
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes

Abstract

本发明公开了一种标签数据泄漏渠道检测方法及装置,该方法利用标签在同一用户出现的不同概率,对不同数据使用渠道产生不同的检测标签,然后对检测标签的使用进行间接检测,最后通过海量数据索引和搜索技术有效地检测可能的数据泄露渠道。本发明的装置包括检测标签添加模块、渠道关联模块、拦截模块、拦截信息分析模块、渠道检索模块和输出模块。本发明的检测方法及装置检测效率高,能够处理海量、动态的用户标签数据。

Description

一种标签数据泄漏渠道检测方法及装置
技术领域
本发明属于数据安全技术领域,尤其涉及一种标签数据泄漏渠道检测方法及装置。
背景技术
标签是一种互联网内容组织形式,是与对象实体的属性相关性很强的关键字。标签有助于轻松的描述和分类内容,以便于检索和分享。互联网发展中积累了大量以标签来表示的用户偏好数据,这些数据构成了互联网广告、推荐等产品的基础。另一方面,这些数据因为其价值,也和其他用户个人数据(PII)一起成为数据泄露的目标,被违规获取、转卖。现有的数据安全技术利用加密、系统加固、权限控制和审计监控,来防止数据泄露出数据所有者的可控环境。但是在数据合作的业务场景中,数据通常会离开数据所有者的可控环境,进入不可控的合作者的环境中去。在此场景中,传统的数据库水印技术和数据轨迹追踪技术不能解决海量的、动态的用户标签数据的挑战。
传统的数据库水印技术和数据轨迹追踪技术不能对用户标签这样缺乏数值型字段的数据有效地产生水印。其次标签数据通常被分散使用,从而使水印检测很困难。另外标签数据具有海量、动态特征,对水印的更新和检测也有很大挑战。标签数据的取值一般很常见,在互联网中进行追踪非常困难。
发明内容
本发明的目的是提供一种标签数据泄漏渠道检测方法及装置,以解决现有技术方案标签数据难以跟踪检测的技术问题,能够有效地检测可能的数据泄露渠道。
为了实现上述目的,本发明技术方案如下:
一种标签数据泄漏渠道检测方法,用于检测用户标签数据的泄漏渠道,所述检测方法包括:
在用户拥有的正常标签基础上为用户添加检测标签,生成用户标签数据集;
根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引;
根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截;
对于拦截的推送信息,根据由该用户检测标签产生该推送信息的概率进行筛选,如果由该用户检测标签产生该推送信息的概率高于给定的阈值,则将该用户检测标签加入到疑似泄漏标签集合;
根据疑似泄漏标签集合,搜索渠道索引,得到对应的疑似泄漏渠道ID列表;
检测该推送信息是否来源于所搜索到的渠道,如果是,删除对应的渠道,将剩下的渠道作为疑似泄漏渠道输出。
进一步地,所述在用户拥有的正常标签基础上为用户添加检测标签,包括:
新添加的检测标签与用户现有标签同时出现的概率低于设定的第一阈值。
进一步地,所述根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引,包括:
对于给定的渠道,根据其历史行为计算其可信度;
以该渠道的渠道ID作为变量,从设定的HASH函数集中选取一个HASH函数;
基于渠道可信度抽样用户群;
对抽样得到的用户群中每一个用户,以用户ID作为变量,根据抽取得到的HASH函数从该用户的检测标签中选出该渠道对应的检测标签;
建立[用户ID、检测标签]到渠道ID的渠道索引。
进一步地,所述根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截,包括:
如果推送信息由正常标签产生的概率低于设定的第二阈值,则进行拦截,否则向用户展示该推送信息。
进一步地,所述检测方法还包括根据用户正常标签的变化更新用户检测标签的步骤,具体包括:
根据新的正常标签与现有检测标签同时出现概率,删除与用户新的正常标签同时出现概率高的检测标签;
重新为用户添加新的检测标签,新添加的检测标签与用户现有标签同时出现的概率低于第一阈值。
进一步地,所述检测方法还包括:
从渠道索引中除去被删除检测标签相关项。
本发明还提出了一种标签数据泄漏渠道检测装置,用于检测用户标签数据的泄漏渠道,所述检测装置包括:
检测标签添加模块,用于在用户拥有的正常标签基础上为用户添加检测标签,生成用户标签数据集;
渠道关联模块,用于根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引;
拦截模块,用于根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截;
拦截信息分析模块,用于对于拦截的推送信息,根据由该用户检测标签产生该推送信息的概率进行筛选,如果由该用户检测标签产生该推送信息的概率高于给定的阈值,则将该用户检测标签加入到疑似泄漏标签集合;
渠道检索模块,用于根据疑似泄漏标签集合,搜索渠道索引,得到对应的疑似泄漏渠道ID列表;
输出模块,用于检测该推送信息是否来源于所搜索到的渠道,如果是,删除对应的渠道,将剩下的渠道作为疑似泄漏渠道输出。
进一步地,所述检测标签添加模块在用户拥有的正常标签基础上为用户添加检测标签时,新添加的检测标签与用户现有标签同时出现的概率低于设定的第一阈值。
进一步地,所述渠道关联模块在根据用户标签数据集为给定的渠道赋予检测标签时,执行如下操作:
对于给定的渠道,根据其历史行为计算其可信度;
以该渠道的渠道ID作为变量,从设定的HASH函数集中选取一个HASH函数;
基于渠道可信度抽样用户群;
对抽样得到的用户群中每一个用户,以用户ID作为变量,根据抽取得到的HASH函数从该用户的检测标签中选出该渠道对应的检测标签;
建立[用户ID、检测标签]到渠道ID的渠道索引。
进一步地,所述拦截模块在根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截时,执行如下操作:
如果推送信息由正常标签产生的概率低于设定的第二阈值,则进行拦截,否则向用户展示该推送信息。
进一步地,所述检测标签添加模块还用于根据用户正常标签的变化更新用户检测标签的步骤,具体执行如下步骤:
根据新的正常标签与现有检测标签同时出现概率,删除与用户新的正常标签同时出现概率高的检测标签;
重新为用户添加新的检测标签,新添加的检测标签与用户现有标签同时出现的概率低于第一阈值。
进一步地,所述渠道关联模块还用于从渠道索引中除去被删除检测标签相关项。
本发明提出了一种标签数据泄漏渠道检测方法及装置,利用标签在同一用户出现的不同概率,对不同数据使用渠道产生不同的检测标签。然后对检测标签的使用进行间接检测,最后通过海量数据索引和搜索技术有效地检测可能的数据泄露渠道。检测方法效率高,能够处理海量、动态的用户标签数据。
附图说明
图1为本发明标签数据泄漏渠道检测方法流程图;
图2为本发明标签数据泄漏渠道检测装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
用户浏览互联网时,浏览的网页会为用户生成表示其偏好的标签,互联网发展中积累了大量以标签来表示的用户偏好数据。本发明在用户拥有正常标签的基础上,为每一个用户加一定量的检测标签,当发现有检测标签导致的推送信息时,可以根据该推送信息查找用户标签数据泄漏的渠道。本实施例推送信息可以包括广告,推送的网页等,以下以广告为例进行说明。
本实施例一种标签数据泄漏渠道检测方法,如图1所示,包括:
步骤S1、在用户拥有的正常标签基础上为用户添加检测标签,生成用户标签数据集。
本实施例将由用户上网而产生的标识用户偏好的标签称为正常标签,而将通过本步骤为用户生成的用于后续检测的标签称为检测标签,显然检测标签不代表用户的偏好,仅用作后续的检测。用户标签数据集包括正常标签和检测标签。
为了后续分析方便,每个用户需有足够多的检测标签,以便对应不同的渠道。为此,当用户没有足够多的检测标签时,为用户生成检测标签,使用户的检测标签达到设定的数量。
例如,用户U1有两个正常标签,分别为:看电视、垃圾快餐,而本实施例要求的检测标签为两个,则为其产生两个检测标签,例如为:蔬菜、登山鞋。
具体生成用户检测标签的过程如下:
判断用户标签数据集中是否有指定数量的检测标签,如果已经达到指定的数量则结束,否则进入下一步;
生成一个与用户现有标签同时出现概率低于设定的第一阈值的标签,将该标签作为用户的检测标签加入到用户标签数据集。
其中,在生成新的检测标签时,需要在常见的标签中找到一个与用户现有的正常标签、现有的检测标签同时出现概率较低的标签,即新生成的检测标签与用户标签集中现有标签均不相似,具有差异性,同时出现的概率低。
步骤S2、根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引。
对于给定的渠道,可以根据其历史行为计算其可信度。本实施例渠道是指使用用户数据的渠道,例如一个网络平台将自己的用户数据提供给一个广告商,该广告商就是网络平台的客户,也是使用用户数据的一个渠道。渠道的可信度是指该渠道根据用户数据发送广告的可信度,如果该渠道不是基于用户数据来推送广告,而是将用户不感兴趣的广告推送给用户则不可信。并且可以利用该渠道的唯一ID作为变量key,从一个设定的Hash函数集里面选取Hash函数H1。接下来基于渠道可信度抽样用户群,可信度高的渠道抽样人群可以小一些。然后对抽样人群的每一个用户,以用户ID为key,用H1函数从该用户的检测标签集中选出该渠道对应的检测标签。
例如对于给定的渠道1,抽样用户中包括用户U1,通过H1函数与用户U1的用户ID计算得到一个随机值,根据该随机值从用户U1的所有检测标签中选择一个检测标签赋予给渠道1。例如渠道1,通过H1函数计算得到的随机值为1,则根据用户1检测标签的排序,选择第一个检测标签赋予给渠道1。假设将用户U1的检测标签“蔬菜”赋予给渠道1。
同样地,将用户U1的检测标签“登山鞋”赋予给渠道2。
这样就可以建立[用户ID,检测标签]到渠道ID的渠道索引,即在渠道索引中建立一条记录,例如建立如表1所示的渠道索引:
序号 [用户ID,检测标签] 渠道ID
1 [U1,蔬菜] 渠道1
2 [U1,登山鞋] 渠道2
表1
在用户标签数据集中加入检测标签,仅将与渠道对应的检测标签赋予给对应的渠道,例如将[U1,登山鞋]赋予给渠道2。如果渠道2根据用户标签数据集来推送广告,无论是根据正常标签还是检测标签[U1,登山鞋]发送的广告都认为是安全的。而非法的用户获得泄漏的用户标签数据后,也向用户发送登山鞋之类的广告,根据渠道索引发现该非法渠道不是渠道索引中的渠道2时,则认为用户标签数据发生了泄漏。
步骤S3、根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截。
一般情况下,由于用户上网的终端一般都在用户一侧,因此用户接收到的广告是反映在用户的终端上的,对于广告的检测首先可以在用户终端上的客户端上进行。例如现在很多个人电脑和智能手机上都安装了安全助手,可以直接采用现有的安全助手在用户终端上进行广告拦截。当然也可以开发特定的客户端,用于在用户终端上进行广告检测。
在进行广告拦截时,如果广告由正常标签产生的概率低于设定的第二阈值,则进行拦截,否则向用户展示该广告。
容易理解的是,如果采用用户终端现有的安全助手,在步骤S2中,对于用户标签数据集,首先要过滤掉其中没有安装安全助手的人群。即仅对安装了安全助手的人群进行抽样,对于没有安装安全助手的用户不予考虑。这样可以不需要额外开发客户端,直接采用用户的安全助手来进行用户终端一侧的广告过滤。
具体地,对广告进行过滤,即根据由用户正常标签产生广告的概率,对用户接收的广告进行拦截,如果该广告由正常标签产生的概率低于设定的阈值,则进入下一步处理,否则向用户展示该广告。
需要说明的是,用户正常标签需要同步到该用户的用户端安全助手中,以便安全助手根据正常标签产生该广告的概率来进行拦截。根据正常标签产生该广告的概率,一般由安全助手根据该广告来源与用户正常标签的匹配程度来计算,这里不再赘述。对于由正常标签产生的概率低于设定的阈值的广告,进行拦截并发送到专门的后台服务器端进行下一步的处理。
步骤S4、对于拦截的推送信息,根据由该用户检测标签产生该推送信息的概率进行筛选,如果由该用户检测标签产生该推送信息的概率高于给定的阈值,则将该该用户检测标签加入到疑似泄漏标签集合。
对于发送到后台服务器端的广告,进一步根据由该用户检测标签产生该广告的概率进行筛选。如果由某一用户检测标签产生该广告的概率高于给定的阈值,则将该用户检测标签加入到疑似泄漏标签集合。
例如一个发送到用户U1的登山杖的广告,根据正常标签“看电视”、“垃圾快餐”产生的概率比较低,被发送到后台服务器端。然而对于用户U1的检测标签“登山鞋”,由“登山鞋”产生该广告的概率却比较高,因此[用户U1,登山鞋]被加入到疑似泄漏标签集合。
步骤S5、根据疑似泄漏标签集合,搜索渠道索引,得到对应的疑似泄漏渠道ID列表。
接下来,从疑似泄漏标签集合中取出疑似标签,并在渠道索引中进行搜索,得到有可能的渠道ID排序列表。
例如前面这个例子中,从疑似泄漏标签集合中取出疑似泄漏标签[用户U1,登山鞋],在渠道索引中因为渠道2的检测标签有“登山鞋”,将渠道2加入到疑似泄漏渠道ID列表。
步骤S6、检测该推送信息是否来源于所搜索到的渠道,如果是,删除对应的渠道,将剩下的渠道作为疑似泄漏渠道输出。
最后,需要检测该用户终端的广告来源是否是渠道2,如果是的话则表明是合规情况,从渠道列表中删除。
最终渠道列表中包括了所有可能的标签数据泄露渠道。对这些渠道,可以采取更多的调查手段收集证据,例如在合作数据中加入可监控的诱饵(蜜罐)数据,结合线下调查等手段。
进一步地,由于用户的正常标签经常得到更新,在更新了用户的正常标签后,需要更新该用户的检测标签。本实施例用户检测标签更新的过程如下:
根据新的正常标签与现有检测标签同时出现概率,删除与用户新的正常标签同时出现概率高的检测标签;
重新为用户添加新的检测标签,新添加的检测标签与用户现有标签同时出现的概率低于第一阈值。
对应地,还需要对渠道索引进行更新:
从渠道索引中除去被删除检测标签相关项。
从而更新了渠道索引,以便再次拦截广告时,采用新的渠道索引来检测疑似泄漏渠道。
如图2所示,一种标签数据泄漏渠道检测装置,用于检测用户标签数据的泄漏渠道,该检测装置包括:
检测标签添加模块,用于在用户拥有的正常标签基础上为用户添加检测标签,生成用户标签数据集;
渠道关联模块,用于根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引;
拦截模块,用于根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截;
拦截信息分析模块,用于对于拦截的推送信息,根据由该用户检测标签产生该推送信息的概率进行筛选,如果由该用户检测标签产生该推送信息的概率高于给定的阈值,则将该用户检测标签加入到疑似泄漏标签集合;
渠道检索模块,用于根据疑似泄漏标签集合,搜索渠道索引,得到对应的疑似泄漏渠道ID列表;
输出模块,用于检测该推送信息是否来源于所搜索到的渠道,如果是,删除对应的渠道,将剩下的渠道作为疑似泄漏渠道输出。
容易理解的是,本实施例的装置可以应用于应用系统的后台服务器,其中拦截模块可以集成在用户终端,在用户终端侧进行拦截,该拦截模块可以采用第三方的客户端如安全卫士,或专门的客户端来进行拦截。
本实施例检测标签添加模块在用户拥有的正常标签基础上为用户添加检测标签时,新添加的检测标签与用户现有标签同时出现的概率低于设定的第一阈值。即新生成的检测标签与用户标签集中现有标签均不相似,具有差异性,同时出现的概率低,从而不会相互发生影响。
本实施例渠道关联模块在根据用户标签数据集为给定的渠道赋予检测标签时,执行如下操作:
对于给定的渠道,根据其历史行为计算其可信度;
以该渠道的渠道ID作为变量,从设定的HASH函数集中选取一个HASH函数;
基于渠道可信度抽样用户群;
对抽样得到的用户群中每一个用户,以用户ID作为变量,根据抽取得到的HASH函数从该用户的检测标签中选出该渠道对应的检测标签;
建立[用户ID、检测标签]到渠道ID的渠道索引。
本实施例拦截模块在根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截时,执行如下操作:
如果推送信息由正常标签产生的概率低于设定的第二阈值,则进行拦截,否则向用户展示该推送信息。
本实施例检测标签添加模块还用于根据用户正常标签的变化更新用户检测标签的步骤,具体执行如下步骤:
根据新的正常标签与现有检测标签同时出现概率,删除与用户新的正常标签同时出现概率高的检测标签;
重新为用户添加新的检测标签,新添加的检测标签与用户现有标签同时出现的概率低于第一阈值。
本实施例渠道关联模块还用于从渠道索引中除去被删除检测标签相关项。从而在用户产生新的正常标签时,及时对用户标签集进行更新。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种标签数据泄漏渠道检测方法,用于检测用户标签数据的泄漏渠道,其特征在于,所述检测方法包括:
在用户拥有的正常标签基础上为用户添加检测标签,生成用户标签数据集;
根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引;
根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截;
对于拦截的推送信息,根据由该用户检测标签产生该推送信息的概率进行筛选,如果由该用户检测标签产生该推送信息的概率高于给定的阈值,则将该用户检测标签加入到疑似泄漏标签集合;
根据疑似泄漏标签集合,搜索渠道索引,得到对应的疑似泄漏渠道ID列表;
检测该推送信息是否来源于所搜索到的渠道,如果是,删除对应的渠道,将剩下的渠道作为疑似泄漏渠道输出;
其中,所述在用户拥有的正常标签基础上为用户添加检测标签,包括:
新添加的检测标签与用户现有标签同时出现的概率低于设定的第一阈值;
所述根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截,包括:
如果推送信息由正常标签产生的概率低于设定的第二阈值,则进行拦截,否则向用户展示该推送信息。
2.根据权利要求1所述的标签数据泄漏渠道检测方法,其特征在于,所述根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引,包括:
对于给定的渠道,根据其历史行为计算其可信度;
以该渠道的渠道ID作为变量,从设定的HASH函数集中选取一个HASH函数;
基于渠道可信度抽样用户群;
对抽样得到的用户群中每一个用户,以用户ID作为变量,根据抽取得到的HASH函数从该用户的检测标签中选出该渠道对应的检测标签;
建立[用户ID、检测标签]到渠道ID的渠道索引。
3.根据权利要求1所述的标签数据泄漏渠道检测方法,其特征在于,所述检测方法还包括根据用户正常标签的变化更新用户检测标签的步骤,具体包括:
根据新的正常标签与现有检测标签同时出现概率,删除与用户新的正常标签同时出现概率高的检测标签;
重新为用户添加新的检测标签,新添加的检测标签与用户现有标签同时出现的概率低于第一阈值。
4.根据权利要求3所述的标签数据泄漏渠道检测方法,其特征在于,所述检测方法还包括:
从渠道索引中除去被删除检测标签相关项。
5.一种标签数据泄漏渠道检测装置,用于检测用户标签数据的泄漏渠道,其特征在于,所述检测装置包括:
检测标签添加模块,用于在用户拥有的正常标签基础上为用户添加检测标签,生成用户标签数据集;
渠道关联模块,用于根据用户标签数据集为给定的渠道赋予检测标签,建立用户ID、检测标签和渠道ID相关联的渠道索引;
拦截模块,用于根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截;
拦截信息分析模块,用于对于拦截的推送信息,根据由该用户检测标签产生该推送信息的概率进行筛选,如果由该用户检测标签产生该推送信息的概率高于给定的阈值,则将该用户检测标签加入到疑似泄漏标签集合;
渠道检索模块,用于根据疑似泄漏标签集合,搜索渠道索引,得到对应的疑似泄漏渠道ID列表;
输出模块,用于检测该推送信息是否来源于所搜索到的渠道,如果是,删除对应的渠道,将剩下的渠道作为疑似泄漏渠道输出;
其中,所述检测标签添加模块在用户拥有的正常标签基础上为用户添加检测标签时,新添加的检测标签与用户现有标签同时出现的概率低于设定的第一阈值;
所述拦截模块在根据由用户正常标签产生推送信息的概率,对用户接收的推送信息进行拦截时,执行如下操作:
如果推送信息由正常标签产生的概率低于设定的第二阈值,则进行拦截,否则向用户展示该推送信息。
6.根据权利要求5所述的标签数据泄漏渠道检测装置,其特征在于,所述渠道关联模块在根据用户标签数据集为给定的渠道赋予检测标签时,执行如下操作:
对于给定的渠道,根据其历史行为计算其可信度;
以该渠道的渠道ID作为变量,从设定的HASH函数集中选取一个HASH函数;
基于渠道可信度抽样用户群;
对抽样得到的用户群中每一个用户,以用户ID作为变量,根据抽取得到的HASH函数从该用户的检测标签中选出该渠道对应的检测标签;
建立[用户ID、检测标签]到渠道ID的渠道索引。
7.根据权利要求5所述的标签数据泄漏渠道检测装置,其特征在于,所述检测标签添加模块还用于根据用户正常标签的变化更新用户检测标签的步骤,具体执行如下步骤:
根据新的正常标签与现有检测标签同时出现概率,删除与用户新的正常标签同时出现概率高的检测标签;
重新为用户添加新的检测标签,新添加的检测标签与用户现有标签同时出现的概率低于第一阈值。
8.根据权利要求7所述的标签数据泄漏渠道检测装置,其特征在于,所述渠道关联模块还用于从渠道索引中除去被删除检测标签相关项。
CN201511028180.5A 2015-12-31 2015-12-31 一种标签数据泄漏渠道检测方法及装置 Active CN106933880B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201511028180.5A CN106933880B (zh) 2015-12-31 2015-12-31 一种标签数据泄漏渠道检测方法及装置
JP2018532787A JP6895972B2 (ja) 2015-12-31 2016-12-19 ラベルデータ漏洩チャネル検出方法および装置
PCT/CN2016/110714 WO2017114209A1 (zh) 2015-12-31 2016-12-19 一种标签数据泄漏渠道检测方法及装置
US16/020,872 US10678946B2 (en) 2015-12-31 2018-06-27 Method and apparatus for detecting label data leakage channel
US16/874,012 US11080427B2 (en) 2015-12-31 2020-05-14 Method and apparatus for detecting label data leakage channel

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511028180.5A CN106933880B (zh) 2015-12-31 2015-12-31 一种标签数据泄漏渠道检测方法及装置

Publications (2)

Publication Number Publication Date
CN106933880A CN106933880A (zh) 2017-07-07
CN106933880B true CN106933880B (zh) 2020-08-11

Family

ID=59225617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511028180.5A Active CN106933880B (zh) 2015-12-31 2015-12-31 一种标签数据泄漏渠道检测方法及装置

Country Status (4)

Country Link
US (2) US10678946B2 (zh)
JP (1) JP6895972B2 (zh)
CN (1) CN106933880B (zh)
WO (1) WO2017114209A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933880B (zh) 2015-12-31 2020-08-11 阿里巴巴集团控股有限公司 一种标签数据泄漏渠道检测方法及装置
WO2020009861A1 (en) 2018-07-02 2020-01-09 Walmart Apollo, Llc Systems and methods for detecting exposed data
CN109739889B (zh) * 2018-12-27 2020-12-08 北京三未信安科技发展有限公司 一种基于数据映射的数据泄漏溯源判定方法及系统
CN117528154B (zh) * 2024-01-04 2024-03-29 湖南快乐阳光互动娱乐传媒有限公司 一种视频投放方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103237018A (zh) * 2013-03-29 2013-08-07 东莞宇龙通信科技有限公司 一种客户端匹配方法、服务器及通信系统
CN103281403A (zh) * 2013-06-19 2013-09-04 浙江工商大学 一种在网络销售渠道中提高个人信息安全的云保护系统
CN103581883A (zh) * 2013-10-31 2014-02-12 宇龙计算机通信科技(深圳)有限公司 通信终端及其应用数据的获取方法
CN103581190A (zh) * 2013-11-07 2014-02-12 江南大学 一种基于云计算技术的文件安全访问控制方法
CN103593465A (zh) * 2013-11-26 2014-02-19 北京网秦天下科技有限公司 用于诊断应用推广渠道异常的方法和设备
CN103870000A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN104133837A (zh) * 2014-06-24 2014-11-05 上海交通大学 一种基于分布式计算的互联网信息投放渠道优化系统
WO2015030856A1 (en) * 2013-08-28 2015-03-05 Intuit Inc. Method and system for providing efficient feedback regarding captured optical image quality

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149126A (ja) * 2003-11-14 2005-06-09 Sony Corp 情報取得システム、情報取得方法、及び情報処理プログラム
JP2005222135A (ja) * 2004-02-03 2005-08-18 Internatl Business Mach Corp <Ibm> データベースアクセス監視装置、情報流出元特定システム、データベースアクセス監視方法、情報流出元特定方法、およびプログラム
US7668821B1 (en) * 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
US8893300B2 (en) * 2010-09-20 2014-11-18 Georgia Tech Research Corporation Security systems and methods to reduce data leaks in enterprise networks
JP2012150652A (ja) * 2011-01-19 2012-08-09 Kddi Corp インフルエンサー抽出装置、インフルエンサー抽出方法およびプログラム
US8799227B2 (en) * 2011-11-11 2014-08-05 Blackberry Limited Presenting metadata from multiple perimeters
JP5572646B2 (ja) * 2012-02-10 2014-08-13 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
US9349015B1 (en) * 2012-06-12 2016-05-24 Galois, Inc. Programmatically detecting collusion-based security policy violations
CN103581863B (zh) 2012-08-08 2018-06-22 中兴通讯股份有限公司 扣费方法及装置
WO2014024959A1 (ja) * 2012-08-09 2014-02-13 日本電信電話株式会社 トレースセンタ装置、コンテンツをトレース可能にする方法
US9444719B2 (en) * 2013-03-05 2016-09-13 Comcast Cable Communications, Llc Remote detection and measurement of data signal leakage
EP2998901B1 (en) * 2013-07-05 2020-06-17 Nippon Telegraph and Telephone Corporation Unauthorized-access detection system and unauthorized-access detection method
US10108918B2 (en) * 2013-09-19 2018-10-23 Acxiom Corporation Method and system for inferring risk of data leakage from third-party tags
US9256727B1 (en) * 2014-02-20 2016-02-09 Symantec Corporation Systems and methods for detecting data leaks
JP6215095B2 (ja) * 2014-03-14 2017-10-18 株式会社日立製作所 情報システム
CN104778419A (zh) * 2015-04-15 2015-07-15 华中科技大学 云环境下基于动态数据流跟踪的用户隐私数据保护方法
CN104965890B (zh) * 2015-06-17 2017-05-31 深圳市腾讯计算机系统有限公司 广告推荐的方法和装置
CN106933880B (zh) * 2015-12-31 2020-08-11 阿里巴巴集团控股有限公司 一种标签数据泄漏渠道检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870000A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103237018A (zh) * 2013-03-29 2013-08-07 东莞宇龙通信科技有限公司 一种客户端匹配方法、服务器及通信系统
CN103281403A (zh) * 2013-06-19 2013-09-04 浙江工商大学 一种在网络销售渠道中提高个人信息安全的云保护系统
WO2015030856A1 (en) * 2013-08-28 2015-03-05 Intuit Inc. Method and system for providing efficient feedback regarding captured optical image quality
CN103581883A (zh) * 2013-10-31 2014-02-12 宇龙计算机通信科技(深圳)有限公司 通信终端及其应用数据的获取方法
CN103581190A (zh) * 2013-11-07 2014-02-12 江南大学 一种基于云计算技术的文件安全访问控制方法
CN103593465A (zh) * 2013-11-26 2014-02-19 北京网秦天下科技有限公司 用于诊断应用推广渠道异常的方法和设备
CN104133837A (zh) * 2014-06-24 2014-11-05 上海交通大学 一种基于分布式计算的互联网信息投放渠道优化系统

Also Published As

Publication number Publication date
US10678946B2 (en) 2020-06-09
US11080427B2 (en) 2021-08-03
WO2017114209A1 (zh) 2017-07-06
JP2019508779A (ja) 2019-03-28
US20200272765A1 (en) 2020-08-27
JP6895972B2 (ja) 2021-06-30
US20180314856A1 (en) 2018-11-01
CN106933880A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
US11861628B2 (en) Method, system and computer readable medium for creating a profile of a user based on user behavior
Amato et al. Recognizing human behaviours in online social networks
Zhang et al. A domain-feature enhanced classification model for the detection of Chinese phishing e-Business websites
US11080427B2 (en) Method and apparatus for detecting label data leakage channel
Pv et al. UbCadet: detection of compromised accounts in twitter based on user behavioural profiling
US20140188839A1 (en) Using social signals to rank search results
GB2555801A (en) Identifying fraudulent and malicious websites, domain and subdomain names
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
Agarwal et al. Stop tracking me bro! differential tracking of user demographics on hyper-partisan websites
CN102663060A (zh) 一种识别被篡改网页的方法及装置
WO2018163162A1 (en) Digital mdr (managed detection and response) analysis
Han et al. Cbr-based decision support methodology for cybercrime investigation: Focused on the data-driven website defacement analysis
Chandra et al. A survey on web spam and spam 2.0
Kim et al. Design and analysis of enumeration attacks on finding friends with phone numbers: A case study with KakaoTalk
Cahyani et al. An evidence‐based forensic taxonomy of Windows phone dating apps
Kim et al. I’ve Got Your Number: Harvesting users’ personal data via contacts sync for the KakaoTalk messenger
CN114186029A (zh) 信息泄露行为的分析方法、相关装置及计算机存储介质
CN109831472B (zh) 一种信息推送、信息显示方法和系统
Kuehn et al. Threatcrawl: A bert-based focused crawler for the cybersecurity domain
Bo et al. Tom: A threat operating model for early warning of cyber security threats
Wang et al. Design and implementation of targeting advertising system based on C4. 5 algorithm
Vlachos et al. A social network analysis tool for uncovering cybersecurity threats
Ariyadasa et al. PhishRepo: a seamless collection of phishing data to fill a research gap in the phishing domain
US11962618B2 (en) Systems and methods for protection against theft of user credentials by email phishing attacks
US20210194923A1 (en) Automated social media-related brand protection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant