CN112084493B - 基于差分隐私保护的内容风险小程序识别方法及装置 - Google Patents

基于差分隐私保护的内容风险小程序识别方法及装置 Download PDF

Info

Publication number
CN112084493B
CN112084493B CN202010988095.8A CN202010988095A CN112084493B CN 112084493 B CN112084493 B CN 112084493B CN 202010988095 A CN202010988095 A CN 202010988095A CN 112084493 B CN112084493 B CN 112084493B
Authority
CN
China
Prior art keywords
risk
identification
operation source
applet
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010988095.8A
Other languages
English (en)
Other versions
CN112084493A (zh
Inventor
侯辉超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010988095.8A priority Critical patent/CN112084493B/zh
Publication of CN112084493A publication Critical patent/CN112084493A/zh
Priority to TW110115504A priority patent/TW202213141A/zh
Priority to US17/338,005 priority patent/US11468191B2/en
Priority to EP21179698.2A priority patent/EP3971754A1/en
Application granted granted Critical
Publication of CN112084493B publication Critical patent/CN112084493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/54Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本说明书实施例提供了基于差分隐私保护的内容风险小程序识别方法及装置,该方法的一具体实施方式包括:响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,操作源包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定;响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对该小程序的程序标识进行扰动,得到扰动程序标识;将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别该小程序是否为内容风险小程序。

Description

基于差分隐私保护的内容风险小程序识别方法及装置
技术领域
本说明书实施例涉及信息安全技术领域,具体地,涉及基于差分隐私保护的内容风险小程序识别方法及装置。
背景技术
小程序是一种不用下载就能使用的应用,开发门槛相对较低,能够满足简单的基础应用。
随着小程序的不断普及,会有不少黑灰产从业者参与其中,通过小程序提供涉政的敏感内容、违禁内容和/或垃圾广告等违规内容。由于小程序的高流量曝光,这些违规内容容易产生较大舆情,会对相关的个人或团体造成负面影响。因此,内容风险小程序的识别就变得非常重要。随着用户隐私意识的崛起,若将访问的小程序内容回传到服务端进行识别,存在隐私合规问题,也容易产生隐私舆情,同样会对相关的个人或团体造成负面影响。
因此,迫切需要一种合理、可靠的方案,不仅能有效地识别风险内容小程序,还能保护用户的隐私。
发明内容
本说明书实施例提供了基于差分隐私保护的内容风险小程序识别方法及装置。
第一方面,本说明书实施例提供了一种基于差分隐私保护的内容风险小程序识别方法,应用于服务平台的客户端,包括:响应于监控到用户通过所述服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,所述操作源包括所述用户与其使用设备的组合,所述判定结果利用风险识别策略组而确定;响应于判定所述操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对所述小程序的程序标识进行扰动,得到扰动程序标识;将所述操作源的操作源标识和所述扰动程序标识发送至所述服务平台的服务端,以使所述服务端利用所述随机响应技术,根据已接收的多个扰动程序标识,识别所述小程序是否为内容风险小程序。
在一些实施例中,在所述响应于监控到用户通过所述服务平台承载的小程序执行的目标操作之前,所述方法还包括:从所述服务端接收所述风险识别策略组。
在一些实施例中,所述获取操作源是否属于风险操作源的判定结果,包括:判断所述操作源是否具有风险标记,所述风险标记是预先根据所述风险识别策略组针对风险操作源而添加的标记;若具有风险标记,则判定所述操作源属于风险操作源。
在一些实施例中,所述获取操作源是否属于风险操作源的判定结果,包括:利用所述风险识别策略组,确定所述操作源是否属于风险操作源。
在一些实施例中,在所述响应于判定所述操作源属于风险操作源之后,所述方法还包括:为所述操作源添加风险标记。
在一些实施例中,所述目标操作包括以下至少一项:信息发布操作、信息访问操作。
在一些实施例中,所述操作源标识包括账户标识和设备标识;以及所述风险识别策略组包括以下至少一种策略:内容风险识别策略、设备风险识别策略、名单策略,所述名单策略包括账户名单和/或设备名单;其中,所述内容风险识别策略,用于以下至少一项的风险识别:所述目标操作在所述小程序中涉及的信息内容、所述操作源标识对应的历史发布数据和/或历史访问数据;所述设备风险识别策略,用于所述设备标识对应的设备的风险识别;所述名单策略,用于所述设备标识对应的设备和/或所述账户标识对应的账户的风险识别。
在一些实施例中,所述利用所述风险识别策略组,确定所述操作源是否属于风险操作源,包括:利用所述风险识别策略组,确定所述操作源对应的目标风险值;若所述目标风险值超出风险阈值,则确定所述操作源属于风险操作源;若所述目标风险值未超出风险阈值,则确定所述操作源不属于风险操作源。
在一些实施例中,所述利用所述风险识别策略组,确定所述操作源对应的目标风险值,包括:若所述风险识别策略组包括单个风险识别策略,则利用所述单个风险识别策略,确定所述目标风险值;若所述风险识别策略组包括多个风险识别策略,则利用所述多个风险识别策略,针对所述操作源确定多个风险值,并根据所述多个风险值确定所述目标风险值。
在一些实施例中,所述根据所述多个风险值确定所述目标风险值,包括:将所述多个风险值的平均值或总和,确定为所述目标风险值。
在一些实施例中,所述风险识别策略组中的各个策略分别设置有权重;以及所述根据所述多个风险值确定所述目标风险值,包括:根据所述多个风险识别策略的权重,对所述多个风险值进行加权求和,并将计算出的数值确定为所述目标风险值。
在一些实施例中,所述利用所述风险识别策略组,确定所述操作源对应的目标风险值,包括:响应于所述风险识别策略组包括内容风险识别策略,获取以下至少一种目标数据:所述目标操作在所述小程序中涉及的信息内容、所述操作源标识对应的历史发布数据和/或历史访问数据;利用所述内容风险识别策略,根据所述目标数据,确定所述目标风险值。
在一些实施例中,所述内容风险识别策略包括关键词策略和内容风险识别模型,所述关键词策略包括至少一个关键词和所述至少一个关键词对应的风险值,所述内容风险识别模型用于识别输入内容对应的风险值;以及所述利用所述内容风险识别策略,根据所述目标数据,确定所述目标风险值,包括:若所述目标数据中存在属于所述至少一个关键词的目标关键词,则根据各个所述目标关键词分别对应的风险值,确定所述目标风险值;若所述目标数据中不存在所述目标关键词,则利用所述内容风险识别模型,识别所述目标数据对应的风险值,并根据该风险值确定所述目标风险值。
在一些实施例中,所述操作源标识包括账户标识和设备标识;以及所述利用所述风险识别策略组,确定所述操作源对应的目标风险值,包括:响应于所述风险识别策略组包括名单策略,确定所述操作源标识中的至少一个信息项是否包含在所述名单策略中,其中,所述名单策略包括设备名单和/或账户名单,所述设备名单和所述账户名单分别设置有风险值,所述设备名单包括至少一个设备标识,所述账户名单包括至少一个账户标识;响应于确定所述至少一个信息项包含在所述名单策略中,根据所述至少一个信息项对应的风险值,确定所述目标风险值。
在一些实施例中,所述利用满足本地化差分隐私保护的随机响应技术,对所述小程序的程序标识进行扰动,包括:将所述小程序的程序标识,转换成目标长度的二进制字符串;利用所述随机响应技术,根据扰动概率,对所述二进制字符串进行扰动。
在一些实施例中,所述随机响应技术包括以下任一种算法:k-RR、RAPPOR、CMS。
第二方面,本说明书实施例提供了一种基于差分隐私保护的内容风险小程序识别方法,应用于服务平台的服务端,包括:接收所述服务平台的客户端发送的操作源标识和扰动程序标识,所述扰动程序标识,通过响应于所述操作源标识对应的操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对与所述操作源标识有关的小程序的程序标识进行扰动而获得,所述小程序属于所述服务平台承载的至少一个小程序;响应于已接收的多个扰动程序标识满足风险识别条件,利用所述随机响应技术,根据所述多个扰动程序标识,对所述至少一个小程序中的小程序进行访问频数统计,其中,所述多个扰动程序标识对应不同的操作源标识;对于所述至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。
在一些实施例中,所述风险识别条件包括,扰动程序标识数量达到预设数量。
在一些实施例中,所述利用所述随机响应技术,根据所述多个扰动程序标识,对所述至少一个小程序中的小程序进行访问频数统计,包括:对于所述至少一个小程序中的每个小程序,利用所述随机响应技术,根据所述多个扰动程序标识,统计出该小程序的访问人数,根据所述多个扰动程序标识的总数目、所述访问人数以及扰动概率,确定该小程序的访问频数。
在一些实施例中,在所述确定该小程序为内容风险小程序之后,所述方法还包括:向该小程序所属的业务方输出用于内容风险提示的提示信息。
第三方面,本说明书实施例提供了一种基于差分隐私保护的内容风险小程序识别装置,应用于服务平台的客户端,包括:获取单元,被配置成响应于监控到用户通过所述服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,所述操作源包括所述用户与其使用设备的组合,所述判定结果利用风险识别策略组而确定;扰动单元,被配置成响应于判定所述操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对所述小程序的程序标识进行扰动,得到扰动程序标识;发送单元,被配置成将所述操作源的操作源标识和所述扰动程序标识发送至所述服务平台的服务端,以使所述服务端利用所述随机响应技术,根据已接收的多个扰动程序标识,识别所述小程序是否为内容风险小程序。
第四方面,本说明书实施例提供了一种基于差分隐私保护的内容风险小程序识别装置,应用于服务平台的服务端,包括:接收单元,被配置成接收所述服务平台的客户端发送的操作源标识和扰动程序标识,所述扰动程序标识,通过响应于所述操作源标识对应的操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对与所述操作源标识有关的小程序的程序标识进行扰动而获得,所述小程序属于所述服务平台承载的至少一个小程序;统计单元,被配置成响应于已接收的多个扰动程序标识满足风险识别条件,利用所述随机响应技术,根据所述多个扰动程序标识,对所述至少一个小程序中的小程序进行访问频数统计,其中,所述多个扰动程序标识对应不同的操作源标识;识别单元,被配置成对于所述至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。
第五方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面和第二方面中任一实现方式描述的方法。
第六方面,本说明书实施例提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现如第一方面和第二方面中任一实现方式描述的方法。
本说明书的上述实施例提供的基于差分隐私保护的内容风险小程序识别方法及装置,通过服务平台的客户端响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,操作源包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定,而后响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序的程序标识进行扰动,得到扰动程序标识,然后将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,通过服务端响应于已接收的多个扰动程序标识满足风险识别条件,利用随机响应技术,根据该多个扰动程序标识,对服务平台承载的至少一个小程序中的小程序进行访问频数统计,而后对于该至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。由此,通过在客户端对用户访问的小程序的程序标识进行本地化差分隐私保护处理,可以使得服务端能获取有效的访问频数统计信息,无法确定每条记录的真实性,不仅可以有效地识别风险内容小程序,还能保护用户的隐私。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图;
图2是根据本说明书的基于差分隐私保护的内容风险小程序识别方法的一个实施例的流程图;
图3是根据本说明书的基于差分隐私保护的内容风险小程序识别方法的另一个实施例的流程图;
图4是根据本说明书的基于差分隐私保护的内容风险小程序识别方法的又一个实施例的流程图;
图5是根据本说明书的基于差分隐私保护的内容风险小程序识别装置的一个结构示意图;
图6是根据本说明书的基于差分隐私保护的内容风险小程序识别装置的另一个结构示意图。
具体实施方式
下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本说明书中的实施例及实施例中的特征可以相互组合。
本说明书的一些实施例提供了基于差分隐私保护的内容风险小程序识别方法,通过该方法,不仅能有效地识别风险内容小程序,还能保护用户的隐私。具体地,图1示出了适用于这些实施例的示例性系统架构图。
如图1所示,服务平台100包括客户端,服务端,以及服务平台100承载的小程序A1、A2、A3。客户端具有与该小程序有关的监控功能,风险操作源确定功能,以及本地化差分隐私保护功能等。服务端具有内容风险小程序识别功能。其中,服务端可以实现为单个服务器或服务器集群,服务器可以为云服务器或物理服务器,在此不做具体限定。
实践中,客户端可以监控用户通过小程序A1、A2、A3执行的目标操作。其中,目标操作例如可以包括但不限于信息发布操作和/或信息访问操作等。
以小程序A1为例,客户端可以响应于监控到用户通过小程序A1执行的目标操作,确定操作源是否属于风险操作源。其中,该操作源包括用户与其使用设备的组合。而后,客户端可以响应于确定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序A1的程序标识进行扰动,得到扰动程序标识,并将操作源的操作源标识和该扰动程序标识发送至服务平台100的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序A1、A2、A3是否为内容风险小程序。
应该理解,图1中的客户端、服务端和小程序的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端、服务端和小程序。
下面,结合具体的实施例,描述上述方法的具体实施步骤。
参看图2,其示出了基于差分隐私保护的内容风险小程序识别方法的一个实施例的流程200。该方法的执行主体可以为图1所示的客户端。该方法包括以下步骤:
步骤201,响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,操作源包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定;
步骤203,响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序的程序标识进行扰动,得到扰动程序标识;
步骤205,将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序是否为内容风险小程序。
在本实施例中,服务平台承载至少一个小程序,用户可以使用该至少一个小程序中的任意一个小程序发布信息和/或访问信息等。上述执行主体可以针对该至少一个小程序进行内容行为监控。具体地,可以监控用户通过该至少一个小程序中的任意一个小程序执行的目标操作,该目标操作例如可以包括但不限于信息发布操作和/或信息访问操作等。
下面,对步骤201-205做进一步的说明。
在步骤201中,上述执行主体可以响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果。其中,操作源可以包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定。
操作源的操作源标识可以包括账户标识和设备标识。账户标识对应的账户,可以是用户登录小程序时使用的账户,或者登录小程序所属的客户端应用时使用的账户,在此不做具体限定。设备标识对应上述使用设备。
实践中,一个用户账户可能在不同设备上登录过,例如,该账户的所属用户或该所属用户的亲友使用登录,或者盗取该账户的非法用户使用登录。通过将用户与其使用设备的组合确定为操作源,可以有效地进行用户区分。
通常,风险识别策略组可以包括以下至少一种策略:内容风险识别策略、设备风险识别策略、名单策略。其中,名单策略可以包括账户名单和/或设备名单。内容风险识别策略,可以用于以下至少一项的风险识别:目标操作在小程序中涉及的信息内容、操作源标识对应的历史发布数据和/或历史访问数据。设备风险识别策略,可以用于操作源标识中的设备标识对应的设备的风险识别。名单策略,可以用于以下至少一项的风险识别:操作源标识中的设备标识对应的设备、操作源标识中的账户标识对应的账户。
其中,历史发布数据和历史访问数据,可以是预定时间段内的数据,该预定时间段例如可以是近一天、两天、三天或一周等,在此不做具体限定。
在步骤201中,上述执行主体可以采用各种方法,获取操作源是否属于风险操作源的判定结果。
例如,可以判断操作源是否具有风险标记,风险标记是预先根据风险识别策略组针对风险操作源而添加的标记。若具有风险标记,则判定操作源属于风险操作源。
再例如,可以利用风险识别策略组,确定操作源是否属于风险操作源。进一步地,可以响应于判断出操作源不具有风险标记,而利用风险识别策略组,确定操作源是否属于风险操作源。或者,可以响应于监控到用户通过服务平台承载的小程序执行的目标操作,而直接利用风险识别策略组,确定操作源是否属于风险操作源。
作为示例,在利用风险识别策略组,确定操作源是否属于风险操作源时,可以利用风险识别策略组中的至少一种风险识别策略,确定操作源是否属于风险操作源。具体地,当风险识别策略组包括单个风险识别策略时,可以利用该单个风险识别策略,确定操作源是否属于风险操作源。当风险识别策略组包括多个风险识别策略时,风险识别策略组中的各个风险识别策略可以设置有优先级,可以按照优先级由高到低的顺序,依次利用每个风险识别策略,确定操作源是否属于风险操作源,直至确定出操作源属于风险操作源,或者利用各个风险识别策略,确定操作源不属于风险操作源。
例如,上述多个风险识别策略按照优先级由高到低的顺序依次为名单策略、设备风险识别策略、内容风险识别策略。其中,名单策略可以包括账户名单和/或设备名单,账户名单可以包括至少一个账户标识,设备名单可以包括至少一个设备标识。设备风险识别策略可以包括至少一个设备类别。该至少一个设备类别例如可以包括但不限于虚拟机和/或root机器等,在此不做具体限定。内容风险识别策略可以包括至少一个关键词和/或内容风险识别模型。其中,该至少一个关键词用于风险识别。该内容风险识别模型可以用于识别输入内容是否存在风险。
在依次利用上述多个风险识别策略中的每个风险识别策略,确定操作源是否属于风险操作源时,可以先确定操作源的操作源标识中的至少一个信息项是否包含在名单策略中,若是,则可以确定操作源属于风险操作源。若确定该操作源标识中的各个信息项均未包含在名单策略中,则可以进一步确定该操作源标识中的设备标识对应的设备是否属于设备风险识别策略中的设备类别,若是,则可以确定操作源属于风险操作源。若确定该设备标识对应的设备不属于设备风险识别策略中的设备类别,则可以利用内容风险识别策略,确定操作源是否属于风险操作源。
具体地,在利用内容风险识别策略,确定操作源是否属于风险操作源时,可以获取以下至少一种目标数据:目标操作在小程序中涉及的信息内容、操作源标识对应的历史发布数据和/或历史访问数据等。假设内容风险识别策略包括至少一个关键词和内容风险识别模型,可以先确定目标数据中是否存在属于该至少一个关键词的目标关键词,若是,则可以确定操作源属于风险操作源。若确定目标数据中不存在目标关键词,则可以进一步利用内容风险识别模型,识别目标数据是否存在风险。若识别出目标数据存在风险,则可以确定操作源属于风险操作源。若识别出目标数据不存在风险,则可以确定操作源不属于风险操作源。
上述示例说明了在上述多个风险识别策略按照优先级由高到低的顺序依次为名单策略、设备风险识别策略、内容风险识别策略,其中内容风险识别策略包括至少一个关键词和内容风险识别模型的情况下,确定操作源是否属于风险操作源的方法。对于在上述多个风险识别策略和内容风险识别策略的其它组合情况下,确定操作源是否属于风险操作源的方法,可以基于上述示例类推得到,在此不再一一举例说明。
需要说明的是,风险识别策略组可以是从上述服务端接收的。可选地,在步骤201之前,上述执行主体可以从上述服务端接收风险识别策略组。
另外,在监控过程中,服务端可以对风险识别策略组进行更新,因而上述执行主体可以实时地接收更新的风险识别策略组。
可选地,若在步骤201中确定操作源属于风险操作源,可以为操作源添加风险标记。进一步地,若在步骤201中确定操作源属于风险操作源,且操作源不具有风险标记,则可以为操作源添加风险标记。
在步骤203中,上述执行主体可以响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术(Randomized Response Technique,RRT),对在步骤201中提到的小程序的程序标识进行扰动,得到扰动程序标识。
实践中,随机响应技术是敏感问题调查中常用的方法之一。随机响应技术通常指,在调查过程中使用特定的随机化装置,使被调查者以一个预定的基础概率P从两个或两个以上的问题中选择一个问题进行回答,除被调查者以外的所有人(包括调查者)均不知道被调查者的回答是针对哪一个问题,以便保护被调查者的隐私,最后根据概率论的知识计算出敏感问题特征在人群中的真实分布情况的一种调查方法。
另外,随机响应技术满足ε-本地化差分隐私保护,参数ε可称为隐私保护预算。参数ε用于体现隐私保护水平。具体地,参数ε的值越小,可以表示隐私保护水平越高。
在本说明书中,基础概率P可称为扰动概率。参数ε和扰动概率的取值,可以根据实际需求设置,在此不做具体限定。
可选地,本说明书中的随机响应技术可以包括以下任一种算法:k-RR、RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response,随机可聚合隐私保护序数响应)、CMS(Private Count Mean Sketch,隐私计数平均值草图)等。
k-RR算法中的k代表候选值的数量,RR为随机响应的英文简称。对应于本说明书描述的方案,k可以代表服务平台承载的至少一个小程序的数量。
RAPPOR算法是单值频数统计的代表方法,其中变量的值以字符串的形式表示。对应于本说明书描述的方案,该变量可以代表程序标识属性,该变量的值可以为上述至少一个小程序的程序标识。
CMS算法一般整合设备提交的记录,并在域元素字典中输出计数直方图,同时保留本地差分隐私。这一过程通常包含两个阶段:先是客户端处理,之后是服务器端整合。
需要说明的是,由于随机响应技术以及其包括的上述算法,是目前广泛研究和应用的公知技术,在此不再赘述。
在步骤203中,若小程序的程序标识为二进制字符串,则可以利用随机响应技术,根据扰动概率,直接对小程序的程序标识进行扰动。若小程序的程序标识不是二进制字符串,则可以先将小程序的程序标识,转换成目标长度的二进制字符串,而后利用随机响应技术,根据扰动概率,对该二进制字符串进行扰动。
其中,目标长度可以等于上述至少一个小程序的数量。另外,上述至少一个小程序可以分别具有对应的索引号,该索引号是大于等于1且小于等于该数量的自然数。在将小程序的程序标识转换成目标长度的二进制字符串时,例如可以先初始化一个目标长度的各个字符均为0的字符串,然后将该字符串中的与该小程序的索引号对应的位上的字符置为1。
应该理解,可以采用独热编码,将小程序的程序标识转换成目标长度的二进制字符串。
在对二进制字符串进行扰动时,可以根据扰动概率,对二进制字符串的至少一位上的字符进行扰动。例如,对于该至少一位中的每一位,可以采用将该位上的字符从0置为1或者从1置为0的方式,对该位上的字符进行扰动。
在步骤205中,可以将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序是否为内容风险小程序。这里,关于服务端执行的操作,可参看图4对应的实施例中的相关描述。
需要说明的是,当操作源属于风险操作源时,该操作源对应的目标操作所涉及的信息内容很有可能属于违规内容,通过将该目标操作所针对的小程序的扰动程序标识上传至服务端,可以有助于服务端准确识别内容风险小程序。
另外,本实施例描述的方案仅将与风险操作源有关的小程序的扰动程序标识上传至服务端,不需要向服务端上传大量内容数据,可以避免对用户带宽和服务端的计算资源造成浪费。
本实施例提供的基于差分隐私保护的内容风险小程序识别方法,通过服务平台的客户端响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,操作源包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定,而后响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序的程序标识进行扰动,得到扰动程序标识,然后将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序是否为内容风险小程序。由此,通过在客户端对用户访问的小程序的程序标识进行本地化差分隐私保护处理,可以使得服务端能获取有效的访问频数统计信息,无法确定每条记录的真实性,不仅可以有效地识别风险内容小程序,还能保护用户的隐私。
继续参看图3,其示出了基于差分隐私保护的内容风险小程序识别方法的另一个实施例的流程300。该方法的执行主体可以为图1所示的客户端。该方法包括以下步骤:
步骤301,响应于监控到用户通过服务平台承载的小程序执行的目标操作,利用风险识别策略组,确定操作源对应的目标风险值;
步骤303,若目标风险值未超出风险阈值,则确定操作源不属于风险操作源;
步骤305,若目标风险值超出风险阈值,则确定操作源属于风险操作源;
步骤307,响应于确定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序的程序标识进行扰动,得到扰动程序标识;
步骤309,将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序是否为内容风险小程序。
在本实施例中,服务平台承载至少一个小程序,用户可以使用该至少一个小程序中的任意一个小程序发布信息和/或访问信息等。上述执行主体可以针对该至少一个小程序进行内容行为监控。具体地,可以监控用户通过该至少一个小程序中的任意一个小程序执行的目标操作,该目标操作例如可以包括但不限于信息发布操作和/或信息访问操作等。
需要说明的是,关于步骤307和步骤309,可参看图2对应的实施例中的步骤203和步骤205的相关说明,在此不再赘述。
下面,对步骤301-305做进一步的说明。
在步骤301中,上述执行主体可以响应于监控到用户通过服务平台承载的小程序执行的目标操作,利用风险识别策略组,确定操作源对应的目标风险值。其中,该操作源可以包括用户与其使用设备的组合。相应的,该操作源的操作源标识可以包括账户标识和设备标识。该账户标识对应的账户,可以是用户登录该小程序时使用的账户,或者登录小程序所属的客户端应用时使用的账户,在此不做具体限定。该设备标识对应该使用设备。
风险识别策略组可以包括以下任一种策略:内容风险识别策略、设备风险识别策略、名单策略等。
内容风险识别策略,可以用于以下至少一项的风险识别:目标操作在小程序中涉及的信息内容、操作源标识对应的历史发布数据和/或历史访问数据。具体地,内容风险识别策略可以包括关键词策略和/或内容风险识别模型。关键词策略可以包括,至少一个关键词,以及该至少一个关键词分别对应的风险值。内容风险识别模型可以用于识别输入内容对应的风险值。
设备风险识别策略,可以用于操作源标识中的设备标识对应的设备的风险识别。具体地,设备风险识别策略可以包括,至少一个设备类别,以及该至少一个设备类别分别对应的风险值。
名单策略可以包括账户名单和/或设备名单。名单策略,可以用于以下至少一项的风险识别:操作源标识中的设备标识对应的设备、操作源标识中的账户标识对应的账户。具体地,设备名单和账户名单可以分别设置有风险值。设备名单可以包括至少一个设备标识。账户名单可以包括至少一个账户标识。
实践中,若风险识别策略组包括单个风险识别策略,则可以利用该单个风险识别策略,确定目标风险值。若风险识别策略组包括多个风险识别策略,则可以利用该多个风险识别策略,针对操作源确定多个风险值,并根据该多个风险值确定目标风险值。具体地,可以将该多个风险值的平均值或总和,确定为目标风险值。或者,若风险识别策略组中的各个策略分别设置有权重,则可以根据该多个风险识别策略的权重,对该多个风险值进行加权求和,并将计算出的数值确定为目标风险值。
可选地,若风险识别策略组包括内容风险识别策略,则可以通过执行以下步骤S1、S2确定目标风险值:
S1,获取以下至少一种目标数据:目标操作在小程序中涉及的信息内容、操作源标识对应的历史发布数据和/或历史访问数据;
S2,利用内容风险识别策略,根据目标数据,确定目标风险值。
其中,历史发布数据和历史访问数据,可以是预定时间段内的数据,该预定时间段例如可以是近一天、两天、三天或一周等,在此不做具体限定。
若内容风险识别策略包括关键词策略,则步骤S2可以包括:
S21,若目标数据中存在属于上述至少一个关键词的目标关键词,则根据各个目标关键词分别对应的风险值,确定目标风险值。
若内容风险识别策略包括内容风险识别模型,则步骤S2可以包括:
S22,利用内容风险识别模型,识别目标数据对应的风险值,并根据该风险值确定目标风险值。
其中,可以将目标数据输入内容风险识别模型,使得内容风险识别模型输出目标数据对应的风险值。
另外,若内容风险识别策略包括关键词策略和内容风险识别模型,则步骤S2除了包括步骤S21外,还包括:若目标数据中不存在目标关键词,则执行步骤S22。
需要说明的是,在风险识别策略组包括单个风险识别策略的情况下,在步骤S21中,可以仅根据各个目标关键词分别对应的风险值,确定目标风险值。例如,若上述至少一个关键词中存在一个目标关键词,则直接将该目标关键词对应的风险值确定为目标风险值。若上述至少一个关键词中存在多个目标关键词,则可以将该多个目标关键词分别对应的风险值的平均值或总和,确定为目标风险值。
另外,在风险识别策略组包括多个风险识别策略的情况下,在步骤S21中,根据各个目标关键词分别对应的风险值,确定目标风险值,可以包括:
S211,根据各个目标关键词分别对应的风险值,确定操作源的与内容风险识别策略对应的风险值;
S212,利用风险识别策略组中的其他风险识别策略,确定操作源的与该其他风险识别策略对应的风险值;
S213,根据操作源的与各个风险识别策略对应的多个风险值,确定目标风险值。
其中,根据各个目标关键词分别对应的风险值,确定操作源的与内容风险识别策略对应的风险值的方法,与在风险识别策略组包括单个风险识别策略的情况下,仅根据各个目标关键词分别对应的风险值确定目标风险值的方法类似,在此不再赘述。
关于步骤S22的技术实现细节,可根据前文中与步骤S21有关的内容类推得到,在此不再细述。
可选地,若风险识别策略组包括设备风险识别策略,则可以通过执行以下步骤S3确定目标风险值:
S3,对于操作源的操作源标识中的设备标识,确定该设备标识对应的设备是否归属于设备风险识别策略中的设备类别,若是,则根据该设备标识对应的设备所归属的设备类别对应的风险值,确定目标风险值。
其中,在风险识别策略组包括单个风险识别策略的情况下,在步骤S3中,对于操作源的操作源标识中的设备标识,若该设备标识对应的设备归属于设备风险识别策略中的设备类别,则可以直接将该设备标识对应的设备所归属的设备类别对应的风险值,确定为目标风险值。此外,若该设备标识对应的设备不归属于设备风险识别策略中的设备类别,则可以将0确定为目标风险值。
在风险识别策略组包括多个风险识别策略的情况下,在步骤S3中,根据设备标识对应的设备所归属的设备类别对应的风险值,确定目标风险值可以包括,步骤S31,以及上述步骤S212-S213。其中,步骤S31包括:将设备标识对应的设备所归属的设备类别对应的风险值,确定为操作源的与设备风险识别策略对应的风险值。
可选地,在风险识别策略组包括多个风险识别策略的情况下,在步骤S3中,对于操作源的操作源标识中的设备标识,若确定该设备标识对应的设备不归属于设备风险识别策略中的设备类别,则可以将0确定为操作源的与设备风险识别策略对应的风险值,并执行上述步骤S212-S213。
可选地,若风险识别策略组包括名单策略,则可以通过执行以下步骤S4确定目标风险值:
S4,确定操作源的操作源标识中的至少一个信息项是否包含在名单策略中,若是,则根据该至少一个信息项对应的风险值,确定目标风险值。
其中,该至少一个信息项包括账户标识和/或设备标识。
在风险识别策略组包括单个风险识别策略的情况下,在步骤S4中,若确定操作源标识中的至少一个信息项包含在名单策略中,则可以直接根据该至少一个信息项对应的风险值,确定目标风险值。例如,若该至少一个信息项包括单个信息项,则可以将该单个信息项对应的风险值确定为目标风险值。若该至少一个信息项包括多个信息项,则可以将该多个信息项分别对应的风险值的平均值或总和,确定为目标风险值。此外,若确定操作源标识中的各个信息项均未包含在名单策略中,则可以将0确定为目标风险值。
在风险识别策略组包括多个风险识别策略的情况下,在步骤S4中,根据至少一个信息项对应的风险值,确定目标风险值可以包括,步骤S41,以及上述步骤S212-S213。其中,步骤S41包括:根据该至少一个信息项对应的风险值,确定操作源的与名单策略对应的风险值。
可选地,在风险识别策略组包括多个风险识别策略的情况下,在步骤S4中,若确定操作源的操作源标识中的各个信息项均未包含在名单策略中,则可以将0确定为操作源的与名单策略对应的风险值,并执行上述步骤S212-S213。
在步骤303中,若目标风险值未超出风险阈值,则可以确定操作源不属于风险操作源,可以结束本次对上述流程300的执行。
在步骤305中,若目标风险值超出风险阈值,则可以确定操作源属于风险操作源,可以接着执行步骤307。
可选地,在步骤301之前,可以从服务端接收风险识别策略组。
可选地,在步骤305之后,可以为操作源添加风险标记。进一步地,可以响应于操作源不具有风险标记,为操作源添加风险标记。
本实施例提供的基于差分隐私保护的内容风险小程序识别方法,与图2对应的实施例相比,突出了利用风险识别策略组,确定操作源对应的目标风险值,并根据目标风险值确定操作源是否属于风险操作源的步骤。由此,本实施例描述的方案,可以实现风险操作源识别方法的灵活性,以及提高风险操作源识别结果的准确性,进一步地,可以使得服务端针对内容风险小程序具有较高的识别准确度。
以上描述了在客户端侧执行的方案,下面,描述在服务端侧执行的基于差分隐私保护的内容风险小程序识别方法。
参看图4,其示出了基于差分隐私保护的内容风险小程序识别方法的又一个实施例的流程400。该方法的执行主体可以为图1所示的服务端。该方法包括以下步骤:
步骤401,接收服务平台的客户端发送的操作源标识和扰动程序标识,扰动程序标识,通过响应于操作源标识对应的操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对与操作源标识有关的小程序的程序标识进行扰动而获得,小程序属于服务平台承载的至少一个小程序;
步骤403,响应于已接收的多个扰动程序标识满足风险识别条件,利用随机响应技术,根据多个扰动程序标识,对至少一个小程序中的小程序进行访问频数统计,其中,多个扰动程序标识对应不同的操作源标识;
步骤405,对于至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。
下面,对步骤401-405做进一步的说明。
在步骤401中,操作源标识和扰动程序标识,可以是客户端采用图2或图3对应的实施例描述的方法发送的。针对该操作源标识和扰动程序标识的解释说明,可参看前文中的相关描述,在此不再赘述。
实践中,扰动程序标识属于二进制字符串,扰动程序标识的长度通常等于上述至少一个小程序的数量。并且,扰动程序标识中的每个位对应上述至少一个小程序中的小程序。
作为示例,上述至少一个小程序可以分别具有对应的索引号,该索引号是大于等于1且小于等于该数量的自然数。对于上述至少一个小程序中的任意一个小程序,若该小程序的索引号为i,则该小程序可以与扰动程序标识的第i位相对应。其中,i是大于等于1且小于等于该数量的自然数。
在步骤403中,上述执行主体可以响应于已接收的多个扰动程序标识满足风险识别条件,利用随机响应技术,根据多个扰动程序标识,对上述至少一个小程序中的小程序进行访问频数统计。其中,该多个扰动程序标识对应不同的操作源标识。
其中,风险识别条件例如可以包括,扰动程序标识数量达到预设数量。通常,扰动程序标识数量越多,针对风险内容小程序的识别结果越准确。应该理解,风险识别条件可以根据实际需求进行设置,在此不做具体限定。
随机响应技术可以包括以下任一种算法:k-RR、RAPPOR、CMS等。应该理解,上述执行主体和客户端采用相同的算法。
实践中,对于上述至少一个小程序中的每个小程序,可以利用随机响应技术,根据上述多个扰动程序标识,统计出该小程序的访问人数,并根据上述多个扰动程序标识的总数目、该访问人数以及扰动概率,确定该小程序的访问频数。
需要说明的是,一个操作源可以代表一个用户。由于上述多个扰动程序标识对应不同的操作源标识,因而,上述多个扰动程序标识的总数目,可以视为上述多个扰动程序标识所关联的各个用户的总人数。另外,上述扰动概率与客户端对小程序的程序标识进行扰动时采用的扰动概率相同。
作为示例,对于上述至少一个小程序中的每个小程序,将该小程序称为目标小程序,在统计目标小程序的访问人数时,可以针对上述多个扰动程序标识的与目标小程序对应的位,统计出该位上1的出现次数,并将该出现次数确定为目标小程序的访问人数。
由于扰动程序标识是加噪数据,统计出的访问人数并不是真实的人数,因此,需要对该访问人数进行校正。
通常,可设上述多个扰动程序标识的总数目为n,针对目标小程序统计出的访问人数为n1,未访问目标小程序的人数为n-n1,目标小程序的真实访问比例为π,扰动概率为P。根据参数n、n1、n-n1、π、P,可以构建似然函数,并根据该似然函数得到π的极大似然估计之后可以将/>与n的乘积确定为校正的访问人数N,以及将校正的访问人数N确定为目标小程序的访问频数。
需要说明的是,由于随机响应技术以及其包括的上述算法,是目前广泛研究和应用的公知技术,在此不再对访问频数统计方法进行细述。
在步骤405中,对于上述至少一个小程序中的每个小程序,若该小程序的访问频数超出频数阈值,则可以确定该小程序为内容风险小程序。
可选地,在确定小程序为内容风险小程序之后,可以向该小程序所属的业务方输出用于内容风险提示的提示信息,以使该业务方对该小程序进行整改等处理。如此,有助于降低服务平台所承载的小程序存在内容风险的概率。
本实施例提供的基于差分隐私保护的内容风险小程序识别方法,通过服务平台的服务端接收服务平台的客户端发送的操作源标识和扰动程序标识,而后响应于已接收的多个扰动程序标识满足风险识别条件,利用随机响应技术,根据该多个扰动程序标识,对服务平台承载的至少一个小程序中的小程序进行访问频数统计,以便在该小程序的访问频数超出频数阈值时,将该小程序识别为内容风险小程序。由此,通过在客户端对用户访问的小程序的程序标识进行本地化差分隐私保护处理,可以使得服务端能获取有效的访问频数统计信息,无法确定每条记录的真实性,不仅可以有效地识别风险内容小程序,还能保护用户的隐私。
进一步参考图5,作为对以上一些图所示方法的实现,本说明书提供了一种基于差分隐私保护的内容风险小程序识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置可以应用于如图1所示的客户端。
如图5所示,本实施例的基于差分隐私保护的内容风险小程序识别装置500包括:获取单元501、扰动单元503和发送单元505。其中,获取单元501被配置成响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,操作源包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定;扰动单元503被配置成响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序的程序标识进行扰动,得到扰动程序标识;发送单元505被配置成将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序是否为内容风险小程序。
在本实施例中,获取单元501、扰动单元503和发送单元505的具体处理及其带来的技术效果可分别参考图2对应实施例中步骤201、步骤203和步骤205的相关说明,在此不再赘述。
可选地,上述装置500还可以包括:接收单元(图中未示出),被配置成从服务端接收风险识别策略组。
可选地,获取单元501可以进一步被配置成:判断操作源是否具有风险标记,风险标记是预先根据风险识别策略组针对风险操作源而添加的标记;若具有风险标记,则判定操作源属于风险操作源。
可选地,获取单元501可以进一步被配置成:利用风险识别策略组,确定操作源是否属于风险操作源。
可选地,获取单元501还可以被配置成:在确定操作源属于风险操作源之后,为操作源添加风险标记。
可选地,目标操作可以包括以下至少一项:信息发布操作、信息访问操作等。
可选地,操作源标识可以包括账户标识和设备标识;以及风险识别策略组可以包括以下至少一种策略:内容风险识别策略、设备风险识别策略、名单策略,名单策略可以包括账户名单和/或设备名单;其中,内容风险识别策略,可以用于以下至少一项的风险识别:目标操作在小程序中涉及的信息内容、操作源标识对应的历史发布数据和/或历史访问数据;设备风险识别策略,可以用于该设备标识对应的设备的风险识别;名单策略,可以用于该设备标识对应的设备和/或该账户标识对应的账户的风险识别。
可选地,内容风险识别策略可以包括关键词策略和/或内容风险识别模型,关键词策略可以包括,至少一个关键词,以及该至少一个关键词分别对应的风险值,内容风险识别模型可以用于识别输入内容对应的风险值。设备风险识别策略可以包括,至少一个设备类别,以及该至少一个设备类别分别对应的风险值。设备名单和账户名单可以分别设置有风险值,设备名单可以包括至少一个设备标识,账户名单可以包括至少一个账户标识。
可选地,获取单元501可以进一步被配置成:利用风险识别策略组,确定操作源对应的目标风险值;若目标风险值超出风险阈值,则确定操作源属于风险操作源;若目标风险值未超出风险阈值,则确定操作源不属于风险操作源。
可选地,获取单元501可以进一步被配置成:若风险识别策略组包括单个风险识别策略,则利用该单个风险识别策略,确定目标风险值;若风险识别策略组包括多个风险识别策略,则利用该多个风险识别策略,针对操作源确定多个风险值,并根据该多个风险值确定目标风险值。
可选地,获取单元501可以进一步被配置成:将上述多个风险值的平均值或总和,确定为目标风险值。
可选地,风险识别策略组中的各个策略可以分别设置有权重;以及获取单元501可以进一步被配置成:根据上述多个风险识别策略的权重,对上述多个风险值进行加权求和,并将计算出的数值确定为目标风险值。
可选地,获取单元501可以进一步被配置成:响应于风险识别策略组包括内容风险识别策略,获取以下至少一种目标数据:目标操作在小程序中涉及的信息内容、操作源标识对应的历史发布数据和/或历史访问数据;利用内容风险识别策略,根据目标数据,确定目标风险值。
可选地,内容风险识别策略包括关键词策略和内容风险识别模型,关键词策略包括至少一个关键词和该至少一个关键词对应的风险值,内容风险识别模型用于识别输入内容对应的风险值;以及获取单元501可以进一步被配置成:若目标数据中存在属于上述至少一个关键词的目标关键词,则根据各个目标关键词分别对应的风险值,确定目标风险值;若目标数据中不存在目标关键词,则利用内容风险识别模型,识别目标数据对应的风险值,并根据该风险值确定目标风险值。
可选地,操作源标识包括账户标识和设备标识;以及获取单元501可以进一步被配置成:响应于风险识别策略组包括名单策略,确定操作源标识中的至少一个信息项是否包含在名单策略中,其中,名单策略包括设备名单和/或账户名单,设备名单和账户名单分别设置有风险值,设备名单包括至少一个设备标识,账户名单包括至少一个账户标识;响应于确定该至少一个信息项包含在名单策略中,根据至少一个信息项对应的风险值,确定目标风险值。
可选地,扰动单元503可以进一步被配置成:将小程序的程序标识,转换成目标长度的二进制字符串;利用随机响应技术,根据扰动概率,对二进制字符串进行扰动。
可选地,随机响应技术可以包括以下任一种算法:k-RR、RAPPOR、CMS等。
本实施例提供的基于差分隐私保护的内容风险小程序识别装置,通过获取单元响应于监控到用户通过服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,操作源包括用户与其使用设备的组合,判定结果利用风险识别策略组而确定,而后通过扰动单元响应于判定操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对小程序的程序标识进行扰动,得到扰动程序标识,然后通过发送单元将操作源的操作源标识和扰动程序标识发送至服务平台的服务端,以使服务端利用随机响应技术,根据已接收的多个扰动程序标识,识别小程序是否为内容风险小程序。由此,通过在客户端对用户访问的小程序的程序标识进行本地化差分隐私保护处理,可以使得服务端能获取有效的访问频数统计信息,无法确定每条记录的真实性,不仅可以有效地识别风险内容小程序,还能保护用户的隐私。
进一步参考图6,作为对以上一些图所示方法的实现,本说明书提供了一种基于差分隐私保护的内容风险小程序识别装置的一个实施例,该装置实施例与图4所示的方法实施例相对应,该装置可以应用于如图1所示的服务端。
如图6所示,本实施例的基于差分隐私保护的内容风险小程序识别装置600包括:接收单元601、统计单元603和识别单元605。其中,接收单元601被配置成接收服务平台的客户端发送的操作源标识和扰动程序标识,扰动程序标识,通过响应于所述操作源标识对应的操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对与操作源标识有关的小程序的程序标识进行扰动而获得,小程序属于服务平台承载的至少一个小程序;统计单元603被配置成响应于已接收的多个扰动程序标识满足风险识别条件,利用随机响应技术,根据该多个扰动程序标识,对该至少一个小程序中的小程序进行访问频数统计,其中,该多个扰动程序标识对应不同的操作源标识;识别单元605被配置成对于该至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。
在本实施例中,接收单元601、统计单元603和识别单元605的具体处理及其带来的技术效果可分别参考图4对应实施例中步骤401、步骤403和步骤405的相关说明,在此不再赘述。
可选地,风险识别条件可以包括,扰动程序标识数量达到预设数量。
可选地,统计单元603可以进一步被配置成:对于上述至少一个小程序中的每个小程序,利用随机响应技术,根据上述多个扰动程序标识,统计出该小程序的访问人数,根据上述多个扰动程序标识的总数目、该访问人数以及扰动概率,确定该小程序的访问频数。
可选地,上述装置600还可以包括:输出单元(图中未示出),被配置成对于上述至少一个小程序中的每个小程序,在识别单元605确定该小程序为内容风险小程序后,向该小程序所属的业务方输出用于内容风险提示的提示信息。
本实施例提供的基于差分隐私保护的内容风险小程序识别装置,通过接收单元接收服务平台的客户端发送的操作源标识和扰动程序标识,而后通过统计单元响应于已接收的多个扰动程序标识满足风险识别条件,利用随机响应技术,根据该多个扰动程序标识,对服务平台承载的至少一个小程序中的小程序进行访问频数统计,以便识别单元在该小程序的访问频数超出频数阈值时,将该小程序识别为内容风险小程序。由此,通过在客户端对用户访问的小程序的程序标识进行本地化差分隐私保护处理,可以使得服务端能获取有效的访问频数统计信息,无法确定每条记录的真实性,不仅可以有效地识别风险内容小程序,还能保护用户的隐私。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别所示的基于差分隐私保护的内容风险小程序识别方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现以上各方法实施例分别所示的基于差分隐私保护的内容风险小程序识别方法。
本说明书实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,使得数据处理设备实现以上各方法实施例分别所示的基于差分隐私保护的内容风险小程序识别方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。

Claims (23)

1.一种基于差分隐私保护的内容风险小程序识别方法,应用于服务平台的客户端,包括:
响应于监控到用户通过所述服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,所述操作源包括所述用户与其使用设备的组合,所述判定结果利用风险识别策略组而确定,所述风险识别策略组包括以下至少一种策略:内容风险识别策略、设备风险识别策略、名单策略;
响应于判定所述操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对所述小程序的程序标识进行扰动,得到扰动程序标识;
将所述操作源的操作源标识和所述扰动程序标识发送至所述服务平台的服务端,以使所述服务端利用所述随机响应技术,根据已接收的多个扰动程序标识,识别所述小程序是否为内容风险小程序。
2.根据权利要求1所述的方法,其中,在所述响应于监控到用户通过所述服务平台承载的小程序执行的目标操作之前,所述方法还包括:
从所述服务端接收所述风险识别策略组。
3.根据权利要求1所述的方法,其中,所述获取操作源是否属于风险操作源的判定结果,包括:
判断所述操作源是否具有风险标记,所述风险标记是预先根据所述风险识别策略组针对风险操作源而添加的标记;
若具有风险标记,则判定所述操作源属于风险操作源。
4.根据权利要求1所述的方法,其中,所述获取操作源是否属于风险操作源的判定结果,包括:
利用所述风险识别策略组,确定所述操作源是否属于风险操作源。
5.根据权利要求4所述的方法,其中,在所述响应于判定所述操作源属于风险操作源之后,所述方法还包括:
为所述操作源添加风险标记。
6.根据权利要求1所述的方法,其中,所述目标操作包括以下至少一项:信息发布操作、信息访问操作。
7.根据权利要求1所述的方法,其中,所述操作源标识包括账户标识和设备标识;以及
所述名单策略包括账户名单和/或设备名单;其中,
所述内容风险识别策略,用于以下至少一项的风险识别:所述目标操作在所述小程序中涉及的信息内容、所述操作源标识对应的历史发布数据和/或历史访问数据;
所述设备风险识别策略,用于所述设备标识对应的设备的风险识别;所述名单策略,用于所述设备标识对应的设备和/或所述账户标识对应的账户的风险识别。
8.根据权利要求4所述的方法,其中,所述利用所述风险识别策略组,确定所述操作源是否属于风险操作源,包括:
利用所述风险识别策略组,确定所述操作源对应的目标风险值;
若所述目标风险值超出风险阈值,则确定所述操作源属于风险操作源;
若所述目标风险值未超出风险阈值,则确定所述操作源不属于风险操作源。
9.根据权利要求8所述的方法,其中,所述利用所述风险识别策略组,确定所述操作源对应的目标风险值,包括:
若所述风险识别策略组包括单个风险识别策略,则利用所述单个风险识别策略,确定所述目标风险值;
若所述风险识别策略组包括多个风险识别策略,则利用所述多个风险识别策略,针对所述操作源确定多个风险值,并根据所述多个风险值确定所述目标风险值。
10.根据权利要求9所述的方法,其中,所述根据所述多个风险值确定所述目标风险值,包括:
将所述多个风险值的平均值或总和,确定为所述目标风险值。
11.根据权利要求9所述的方法,其中,所述风险识别策略组中的各个策略分别设置有权重;以及
所述根据所述多个风险值确定所述目标风险值,包括:
根据所述多个风险识别策略的权重,对所述多个风险值进行加权求和,并将计算出的数值确定为所述目标风险值。
12.根据权利要求8所述的方法,其中,所述利用所述风险识别策略组,确定所述操作源对应的目标风险值,包括:
响应于所述风险识别策略组包括内容风险识别策略,获取以下至少一种目标数据:所述目标操作在所述小程序中涉及的信息内容、所述操作源标识对应的历史发布数据和/或历史访问数据;
利用所述内容风险识别策略,根据所述目标数据,确定所述目标风险值。
13.根据权利要求12所述的方法,其中,所述内容风险识别策略包括关键词策略和内容风险识别模型,所述关键词策略包括至少一个关键词和所述至少一个关键词对应的风险值,所述内容风险识别模型用于识别输入内容对应的风险值;以及
所述利用所述内容风险识别策略,根据所述目标数据,确定所述目标风险值,包括:
若所述目标数据中存在属于所述至少一个关键词的目标关键词,则根据各个所述目标关键词分别对应的风险值,确定所述目标风险值;
若所述目标数据中不存在所述目标关键词,则利用所述内容风险识别模型,识别所述目标数据对应的风险值,并根据该风险值确定所述目标风险值。
14.根据权利要求8所述的方法,其中,所述操作源标识包括账户标识和设备标识;以及
所述利用所述风险识别策略组,确定所述操作源对应的目标风险值,包括:
响应于所述风险识别策略组包括名单策略,确定所述操作源标识中的至少一个信息项是否包含在所述名单策略中,其中,所述名单策略包括设备名单和/或账户名单,所述设备名单和所述账户名单分别设置有风险值,所述设备名单包括至少一个设备标识,所述账户名单包括至少一个账户标识;
响应于确定所述至少一个信息项包含在所述名单策略中,根据所述至少一个信息项对应的风险值,确定所述目标风险值。
15.根据权利要求1-14之一所述的方法,其中,所述利用满足本地化差分隐私保护的随机响应技术,对所述小程序的程序标识进行扰动,包括:
将所述小程序的程序标识,转换成目标长度的二进制字符串;
利用所述随机响应技术,根据扰动概率,对所述二进制字符串进行扰动。
16.根据权利要求1所述的方法,其中,所述随机响应技术包括以下任一种算法:k-RR、RAPPOR、CMS。
17.一种基于差分隐私保护的内容风险小程序识别方法,应用于服务平台的服务端,包括:
接收所述服务平台的客户端发送的操作源标识和扰动程序标识,所述扰动程序标识,通过响应于所述操作源标识对应的操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对与所述操作源标识有关的小程序的程序标识进行扰动而获得,所述小程序属于所述服务平台承载的至少一个小程序;
响应于已接收的多个扰动程序标识满足风险识别条件,利用所述随机响应技术,根据所述多个扰动程序标识,对所述至少一个小程序中的小程序进行访问频数统计,其中,所述多个扰动程序标识对应不同的操作源标识;所述风险识别条件包括,扰动程序标识数量达到预设数量;
对于所述至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。
18.根据权利要求17所述的方法,其中,所述利用所述随机响应技术,根据所述多个扰动程序标识,对所述至少一个小程序中的小程序进行访问频数统计,包括:
对于所述至少一个小程序中的每个小程序,利用所述随机响应技术,根据所述多个扰动程序标识,统计出该小程序的访问人数,根据所述多个扰动程序标识的总数目、所述访问人数以及扰动概率,确定该小程序的访问频数。
19.根据权利要求17-18之一所述的方法,其中,在所述确定该小程序为内容风险小程序之后,所述方法还包括:
向该小程序所属的业务方输出用于内容风险提示的提示信息。
20.一种基于差分隐私保护的内容风险小程序识别装置,应用于服务平台的客户端,包括:
获取单元,被配置成响应于监控到用户通过所述服务平台承载的小程序执行的目标操作,获取操作源是否属于风险操作源的判定结果,其中,所述操作源包括所述用户与其使用设备的组合,所述判定结果利用风险识别策略组而确定,所述风险识别策略组包括以下至少一种策略:内容风险识别策略、设备风险识别策略、名单策略;
扰动单元,被配置成响应于判定所述操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对所述小程序的程序标识进行扰动,得到扰动程序标识;
发送单元,被配置成将所述操作源的操作源标识和所述扰动程序标识发送至所述服务平台的服务端,以使所述服务端利用所述随机响应技术,根据已接收的多个扰动程序标识,识别所述小程序是否为内容风险小程序。
21.一种基于差分隐私保护的内容风险小程序识别装置,应用于服务平台的服务端,包括:
接收单元,被配置成接收所述服务平台的客户端发送的操作源标识和扰动程序标识,所述扰动程序标识,通过响应于所述操作源标识对应的操作源属于风险操作源,利用满足本地化差分隐私保护的随机响应技术,对与所述操作源标识有关的小程序的程序标识进行扰动而获得,所述小程序属于所述服务平台承载的至少一个小程序;
统计单元,被配置成响应于已接收的多个扰动程序标识满足风险识别条件,利用所述随机响应技术,根据所述多个扰动程序标识,对所述至少一个小程序中的小程序进行访问频数统计,其中,所述多个扰动程序标识对应不同的操作源标识;所述风险识别条件包括,扰动程序标识数量达到预设数量;
识别单元,被配置成对于所述至少一个小程序中的小程序,若该小程序的访问频数超出频数阈值,则确定该小程序为内容风险小程序。
22.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-19中任一项的所述的方法。
23.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-19中任一项所述的方法。
CN202010988095.8A 2020-09-18 2020-09-18 基于差分隐私保护的内容风险小程序识别方法及装置 Active CN112084493B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010988095.8A CN112084493B (zh) 2020-09-18 2020-09-18 基于差分隐私保护的内容风险小程序识别方法及装置
TW110115504A TW202213141A (zh) 2020-09-18 2021-04-29 基於差分隱私保護的內容風險小程式識別方法及裝置
US17/338,005 US11468191B2 (en) 2020-09-18 2021-06-03 Method and apparatus for identifying applets of risky content based on differential privacy preserving
EP21179698.2A EP3971754A1 (en) 2020-09-18 2021-06-16 Method and apparatus for identifying applets of risky content based on differential privacy preserving

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010988095.8A CN112084493B (zh) 2020-09-18 2020-09-18 基于差分隐私保护的内容风险小程序识别方法及装置

Publications (2)

Publication Number Publication Date
CN112084493A CN112084493A (zh) 2020-12-15
CN112084493B true CN112084493B (zh) 2024-03-26

Family

ID=73738982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010988095.8A Active CN112084493B (zh) 2020-09-18 2020-09-18 基于差分隐私保护的内容风险小程序识别方法及装置

Country Status (4)

Country Link
US (1) US11468191B2 (zh)
EP (1) EP3971754A1 (zh)
CN (1) CN112084493B (zh)
TW (1) TW202213141A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455483B (zh) * 2022-09-21 2023-12-26 广州大学 一种基于本地差分隐私的大数据频数估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528422A (zh) * 2016-11-10 2017-03-22 中国银联股份有限公司 一种检测Java程序页面扰动的方法和装置
CN109543569A (zh) * 2018-11-06 2019-03-29 深圳绿米联创科技有限公司 目标识别方法、装置、视觉传感器及智能家居系统
CN110334539A (zh) * 2019-06-12 2019-10-15 北京邮电大学 一种基于随机响应的个性化隐私保护方法及装置
CN110765451A (zh) * 2019-09-26 2020-02-07 支付宝(杭州)信息技术有限公司 风险识别方法和装置、电子设备
CN110910041A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种风险管控方法、系统、及装置
CN111669366A (zh) * 2020-04-30 2020-09-15 南京大学 一种本地化差分隐私数据交换方法及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005057B2 (en) * 2008-04-22 2011-08-23 Sunway Technology Development Limited Data communications between short-range enabled wireless devices over networks and proximity marketing to such devices
US8898290B2 (en) * 2011-05-11 2014-11-25 Google Inc. Personally identifiable information independent utilization of analytics data
US9521164B1 (en) * 2014-01-15 2016-12-13 Frank Angiolelli Computerized system and method for detecting fraudulent or malicious enterprises
US10268838B2 (en) 2015-10-06 2019-04-23 Sap Se Consent handling during data harvesting
US10776511B2 (en) * 2017-06-04 2020-09-15 Apple Inc. User experience using privatized crowdsourced data
US10880175B2 (en) * 2019-03-07 2020-12-29 Lookout, Inc. Developing security policies for deployment to mobile devices
US10635837B1 (en) * 2019-04-30 2020-04-28 HealthBlock, Inc. Dynamic data protection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528422A (zh) * 2016-11-10 2017-03-22 中国银联股份有限公司 一种检测Java程序页面扰动的方法和装置
CN109543569A (zh) * 2018-11-06 2019-03-29 深圳绿米联创科技有限公司 目标识别方法、装置、视觉传感器及智能家居系统
CN110334539A (zh) * 2019-06-12 2019-10-15 北京邮电大学 一种基于随机响应的个性化隐私保护方法及装置
CN110765451A (zh) * 2019-09-26 2020-02-07 支付宝(杭州)信息技术有限公司 风险识别方法和装置、电子设备
CN110910041A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种风险管控方法、系统、及装置
CN111669366A (zh) * 2020-04-30 2020-09-15 南京大学 一种本地化差分隐私数据交换方法及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
互联网移动支付安全风险研究;杨天红;刘西文;;农村经济与科技(第02期);全文 *

Also Published As

Publication number Publication date
TW202213141A (zh) 2022-04-01
US11468191B2 (en) 2022-10-11
US20220092213A1 (en) 2022-03-24
CN112084493A (zh) 2020-12-15
EP3971754A1 (en) 2022-03-23

Similar Documents

Publication Publication Date Title
US11636334B2 (en) Machine learning with feature obfuscation
Henderson et al. It's who you know: graph mining using recursive structural features
US7634482B2 (en) System and method for data integration using multi-dimensional, associative unique identifiers
CN107517216B (zh) 一种网络安全事件关联方法
CN111447179A (zh) 一种针对以太网钓鱼诈骗的网络表示学习方法
Coull et al. Taming the devil: Techniques for evaluating anonymized network data
CN115065458B (zh) 一种数据加密传输的电子商务交易系统
CN110874471B (zh) 保护隐私安全的神经网络模型的训练方法和装置
Bachl et al. Walling up backdoors in intrusion detection systems
CN112084493B (zh) 基于差分隐私保护的内容风险小程序识别方法及装置
Gogoi et al. A rough set–based effective rule generation method for classification with an application in intrusion detection
CN116996272A (zh) 一种基于改进的麻雀搜索算法的网络安全态势预测方法
CN110290101B (zh) 智能电网环境中基于深度信任网络的关联攻击行为识别方法
Kezih et al. Evaluation effectiveness of intrusion detection system with reduced dimension using data mining classification tools
CN108121912B (zh) 一种基于神经网络的恶意云租户识别方法和装置
CN116186629A (zh) 基于个性化联邦学习的金融客户分类及预测方法、装置
CN112800286B (zh) 用户关系链的构建方法、装置及电子设备
CN112468444B (zh) 互联网域名滥用识别方法和装置,电子设备,存储介质
Suthaharan et al. An approach for automatic selection of relevance features in intrusion detection systems
Javidi et al. Intrusion detection system using an ant colony gene selection method based on information gain ratio using fuzzy rough sets
Sargolzaei et al. Privacy preserving approach of published social networks data with vertex and edge modification algorithm
CN118070294B (zh) 基于多维数据的安全运维大数据处理系统
Vadisala et al. Anonymized Social Networks Community Preservation
Eesa Rule Mining Using Particle Swarm Optimization for Intrusion Detection Systems
Piech et al. Probability timed automata for investigating communication processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043012

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant