CN112035881B - 一种基于隐私保护的应用程序识别方法、装置及设备 - Google Patents

一种基于隐私保护的应用程序识别方法、装置及设备 Download PDF

Info

Publication number
CN112035881B
CN112035881B CN202011208957.7A CN202011208957A CN112035881B CN 112035881 B CN112035881 B CN 112035881B CN 202011208957 A CN202011208957 A CN 202011208957A CN 112035881 B CN112035881 B CN 112035881B
Authority
CN
China
Prior art keywords
program
target application
application program
program identifier
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011208957.7A
Other languages
English (en)
Other versions
CN112035881A (zh
Inventor
叶永鈺
侯辉超
陈永环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011208957.7A priority Critical patent/CN112035881B/zh
Publication of CN112035881A publication Critical patent/CN112035881A/zh
Application granted granted Critical
Publication of CN112035881B publication Critical patent/CN112035881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本说明书实施例公开了一种基于隐私保护的应用程序识别方法、装置及设备,该方法包括:获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。

Description

一种基于隐私保护的应用程序识别方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于隐私保护的应用程序识别方法、装置及设备。
背景技术
随着各应用程序或应用厂商推行的数字生活的兴起,小程序成为应用厂商或商家的首选运营平台。尽管宿主程序的开发商支持并鼓励生态发展,但同时黑灰产也会借此发布赌博等不良信息或不合规信息(即不符合数据合规要求的信息),以发展和引导赌博等不合规行为。大部分宿主程序对于搭载于其中的第三方小程序发布的内容,并没有进行发布内容的安全审查,往往需要进行事后的风险识别防控,以保护用户的隐私。
通常,宿主程序对小程序的风险识别防控,可以通过接入内容风险防控API,并对小程序进行巡检的方式对小程序发布的内容进行风险识别。但是,存在黑灰产的小程序往往不会主动接入上述内容风险防控API,而且由于小程序的量级可能较大,无法对小程序进行实时的全量巡检,并且还会对小程序的正常业务处理产生影响,用户隐私受到威胁。此外,用户在宿主程序中的小程序内执行操作,从合规角度来看往往是被允许的,但也会存在个人隐私泄露的风险。为此需要提供一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够更好的保护用户的个人隐私的技术方案。
发明内容
本说明书实施例的目的是提供一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够更好的保护用户的个人隐私的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于隐私保护的应用程序识别方法,所述方法包括:获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序。对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识。将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例提供的一种基于隐私保护的应用程序识别方法,所述方法包括:接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序。对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识。基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例提供的一种基于隐私保护的应用程序识别装置,所述装置包括:信息获取模块,获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序。差分隐私处理模块,对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识。数据发送模块,将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例提供的一种基于隐私保护的应用程序识别装置,所述装置包括:数据接收模块,接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序。还原模块,对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识。风险识别模块,基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例提供的一种基于隐私保护的应用程序识别设备,所述基于隐私保护的应用程序识别设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序。对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识。将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例提供的一种基于隐私保护的应用程序识别设备,所述基于隐私保护的应用程序识别设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序。对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识。基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序。对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识。将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序。对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识。基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一种基于隐私保护的应用程序识别方法实施例;
图2为本说明书一种基于隐私保护的应用程序识别的系统的结构示意图;
图3为本说明书另一种基于隐私保护的应用程序识别方法实施例;
图4为本说明书又一种基于隐私保护的应用程序识别方法实施例;
图5为本说明书又一种基于隐私保护的应用程序识别方法实施例;
图6为本说明书又一种基于隐私保护的应用程序识别方法实施例;
图7为本说明书又一种基于隐私保护的应用程序识别方法实施例;
图8为本说明书一种基于隐私保护的应用程序识别装置实施例;
图9为本说明书另一种基于隐私保护的应用程序识别装置实施例;
图10为本说明书一种基于隐私保护的应用程序识别设备实施例。
具体实施方式
本说明书实施例提供一种基于隐私保护的应用程序识别方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种基于隐私保护的应用程序识别方法,该方法的执行主体可以为终端设备,其中的终端设备可以如手机、平板电脑、个人计算机等,该终端设备可以为能够运行应用程序的终端设备,该应用程序包括宿主程序和搭载于该宿主程序中的任意小程序。该方法具体可以包括以下步骤:
在步骤S102中,获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序。
其中,用户可以是任意用户,在本说明书实施例中,用户可以使用某宿主程序中的某个小程序的用户。目标应用程序可以为搭载在宿主程序中的任意一个或多个小程序,在实际应用中,通常,宿主程序和小程序并不属于同一开发商,也即是,相对于宿主程序,小程序通常为第三方应用程序,例如,宿主程序可以为即时通讯应用程序,目标应用程序则可以是能够搭载在即时通讯应用程序中的某游戏开发机构开发的小程序等,或者,宿主程序可以为金融类应用程序,目标应用程序则可以是能够搭载在金融类应用程序中的某物流机构开发的小程序等,目标应用程序可以包括一个,也可以包括多个,而且,可以是某一个用户访问的一个或多个小程序(如用户A访问了小程序1和小程序2),也可以是多个不同的用户分别访问的一个或多个小程序(如用户A访问了小程序1和小程序2,用户B访问了小程序1、小程序4和小程序5等)等。行为序列数据可以是用户针对目标应用程序执行的各种操作等行为的相关数据,行为序列数据可以根据用户行为的执行时间的先后顺序进行排列的数据,也可以是根据用户行为的类型进行排序的数据,还可以基于随机排序的方式得到行为序列数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。目标应用程序的程序标识可以为目标应用程序(即小程序)的名称或编码等,在实际应用中,目标应用程序可以是宿主程序中针对小程序的而设定的用于唯一识别该小程序的标识,该目标应用程序的程序标识可以为AppID(Application IDentification)。
在实施中,随着各应用程序或应用厂商推行的数字生活的兴起,小程序成为应用厂商或商家的首选运营平台。尽管宿主程序的开发商支持并鼓励生态发展,但同时黑灰产也会借此发布赌博等不良信息或不合规信息(即不符合数据合规要求的信息),以发展和引导赌博等不合规行为,小程序存在的风险呈现动态化、高曝光的特点,内容风险防控压力较大。大部分宿主程序对于搭载于其中的第三方小程序发布的内容,并没有进行发布内容的安全审查,往往需要进行事后的风险识别防控。
通常,宿主程序对小程序的风险识别防控,可以通过接入内容风险防控API,并对小程序进行巡检的方式对小程序发布的内容进行风险识别。但是,存在黑灰产的小程序往往不会主动接入上述内容风险防控API,而且由于小程序的量级可能较大,无法对小程序进行实时的全量巡检,并且还会对小程序的正常业务处理产生影响。此外,用户在宿主程序中的小程序内执行操作,从合规角度来看往往是被允许的,但即便如此,宿主程序内访问或收藏了哪些小程序仍然属于用户的个人行为,即便从合规角度上来说是被允许的,但也会存在个人隐私泄露的风险。为此需要提供一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够更好的保护用户的个人隐私的技术方案。本说明书实施例提供一种可选的技术方案,具体可以包括以下内容:
用户的终端设备中可以安装有一个或多个不同的宿主程序,该宿主程序可以是不同应用类型的应用程序,例如金融类应用程序、即时通讯类应用程序等,每个宿主程序中可以包括一个或多个小程序,例如,终端设备中安装有金融类应用程序(即宿主程序),该金融类应用程序(即宿主程序)中包括游戏小程序和图像编辑小程序等。对于每个宿主程序中的每个小程序,当终端设备运行某宿主程序中的某小程序时,终端设备可以记录用户的操作行为,例如用户启动小程序的操作行为数据(具体如用户点击链接或按键的方式启动小程序的操作行为数据,用户扫描二维码的方式启动小程序的操作行为数据等)、用户使用该小程序中的某项功能的过程中所产生的操作行为数据、用户关闭或退出小程序的操作行为数据等,终端设备可以为每个宿主程序中的每个小程序预先设定存储区域,可以将上述记录的行为数据存储在该存储区域中。此外,每个宿主程序中的每个小程序可以设置有程序标识,该程序标识可以基于预设的标识设置规则进行设置,本说明书实施例对此不做限定。
当需要对用户访问的小程序进行风险检测时,可以获取需要进行风险检测的小程序(即目标应用程序)的程序标识,可以基于该程序标识确定目标应用程序对应的存储区域,并可以从确定的存储区域中获取用户访问目标应用程序的过程中产生的行为数据,可以基于预设的排序方式对获取的行为数据进行排序,从而得到行为序列数据。通过上述方式可以获取到一个或多个不同的目标应用程序对应的程序标识和行为序列数据,如图2所示,也可以获取到多个不同的用户所使用的目标应用程序对应的程序标识和行为序列数据。
需要说明的是,上述触发对用户访问的小程序进行风险检测的方式可以包括多种,例如,可以以预设周期(如每隔7天或10天等)的方式触发对用户访问的小程序进行风险检测,或者,可以由终端设备不定时的触发对用户访问的小程序进行风险检测,或者,可以由用户主动触发对用户访问的小程序进行风险检测等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S104中,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识。
其中,差分隐私旨在当被采集数据的用户并不信任数据采集方,虽然该用户仍然 会将相应的数据上传给数据采集方,但该用户会希望在一定程度上述保护上述采集的数 据。差分隐私可以在当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少 识别其记录的几率。差分隐私是通过对数据进行扰动达到保护隐私的目的,其中的扰动机 制可以包括多种,如拉普拉斯Laplace机制、指数机制等。差分隐私可以包括中心化差分隐 私和本地化差分隐私(Local Differential Privacy,LDP),其中的本地化差分隐私是在待 上传数据被收集前,由用户在本地先对待上传数据进行扰动,然后将加噪后的待上传数据 上传到服务器(或服务中心),本地化差分隐私可以包括以下定义:算法A
Figure 648083DEST_PATH_IMAGE001
满足的本地化 差分隐私(
Figure 910437DEST_PATH_IMAGE001
-LDP),其中
Figure 372643DEST_PATH_IMAGE001
≥0,当且仅当对于任意两个数据vv’,均满足如下公式:
Figure 471180DEST_PATH_IMAGE002
其中,vv’ 属于A的定义域,y属于A的值域。从用户角度来看,本地化差分隐私能更好地保护用户数据的隐私,用户数据在被采集前,已经在本地进行扰动处理,用户数据中的隐私内容已被抹去。本说明书实施例中的差分隐私可以为上述本地化差分隐私。
在实施中,通常,用户访问部分赌博推广等小程序的过程中会存在特殊或特定的 行为序列,因此,本说明书实施例提出的通过差分隐私收集用户的终端设备上记录并存储 用户访问小程序、并通过该小程序跳转到外部链接、通过该小程序分享、收藏等行为序列数 据,然后,可以对上述行为序列数据进行风险识别,从而缓解服务器对各个小程序进行巡检 的检测压力,同时,保护用户上传数据过程中的用户隐私。具体地,为了避免用户使用哪些 小程序等用户的隐私数据被泄露,可以对用户使用的小程序的程序标识进行差分隐私处 理,从而使得小程序的程序标识被扰乱,即使上述数据被泄露,该数据中的程序标识也无法 被识别,造成该用户使用的小程序被其他人所知晓,保护了用户的隐私。其中,差分隐私可 以包括多种可实现方式,以下提供一种可选的实现方式,具体可以包括以下内容:通过指数 机制的差分隐私算法对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标 识。具体地,对于指数机制的差分隐私算法,设查询函数的输出域为R,输出域中的每个输出 值r∈R,函数q(D,r)→R成为输出值r的可用性函数,用于评估输出值r的优劣程度。若设随 机算法M的输入为数据集D,输出为对象r∈R,函数q(D,r)→R为可用性函数,Δq为函数q(D, r)→R的敏感度,若算法M以正比于exp(
Figure 473771DEST_PATH_IMAGE001
q(D,r)/2Δq)的概率从R中选择并输出r,则算法M 提供
Figure 200418DEST_PATH_IMAGE001
-差分隐私保护。基于上述方式,对于算法M的输入为目标应用程序的程序标识,目标 应用程序的程序标识对应的输出值r∈R,算法M以正比于exp(
Figure 223738DEST_PATH_IMAGE001
q(程序标识,r)/2Δq)的概 率从R中选择并输出r,从而得到差分处理后的程序标识。
需要说明的是,上述处理过程仅是差分隐私的一种可实现的方式,在实际应用中,除了可以通过上述方式处理外,还可以通过多种方式对目标应用程序的程序标识进行差分隐私处理,具体可以根据实际情况设定,本说明书实施例对此不做限定。此外,上述仅是对目标应用程序的程序标识进行差分隐私处理,在实际应用中,还可以对目标应用程序对应的行为序列数据进行差分隐私处理,即可以分别对目标应用程序的程序标识和目标应用程序对应的行为序列数据进行差分隐私处理,得到处理后的数据,然后再将处理后的数据发送给服务器,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S106中,将处理后的程序标识和该程序标识对应的行为序列数据发送给服务器,以使服务器对处理后的程序标识进行聚合还原处理,并基于还原后的程序标识对应的行为序列数据,确定目标应用程序是否为存在不合规内容的风险应用程序。
其中,不合规内容可以是不符合预设的内容合规规则的数据的内容,预设的内容合规规则可以根据实际情况设定,例如可以基于赌博、欺诈等相关内容设定的内容合规规则,从而可以检测出存在赌博或欺诈等不合规内容。
在实施中,可以预先获取目标应用程序对应的行为序列数据,可以将该行为序列数据与目标应用程序的程序标识相对应。通过上述方式得到处理后的程序标识后,终端设备可以得到处理后的程序标识和处理后的程序标识对应的行为序列数据,可以将处理后的程序标识和处理后的程序标识对应的行为序列数据发送给服务器,由于处理后的程序标识是经过差分隐私处理后的程序标识,因此,即使处理后的程序标识和处理后的程序标识对应的行为序列数据在传输的过程中或传输后被泄露,其它人也无法确定其中的行为序列数据是用户使用哪个小程序产生的数据,从而保护用户的隐私。
服务器接收到处理后的程序标识和该程序标识对应的行为序列数据后,可以对处理后的程序标识进行聚合还原处理,得到还原后的程序标识(即目标应用程序的程序标识),然后,可以基于还原后的程序标识对应的行为序列数据,确定目标应用程序是否为存在不合规内容的风险应用程序,其中,基于还原后的程序标识对应的行为序列数据,确定目标应用程序是否为存在不合规内容的风险应用程序可以包括多种可实现方式,例如可以构建并训练一个或多个不同的模型,通过构建并训练的模型对还原后的程序标识对应的行为序列数据进行处理,得到目标应用程序是否为存在不合规内容的风险应用程序的输出结果,或者,还可以通过指定的算法对还原后的程序标识对应的行为序列数据进行处理或进行多方计算,进而确定目标应用程序是否为存在不合规内容的风险应用程序,或者,还可以通过专家经验等对还原后的程序标识对应的行为序列数据进行分析,从而确定目标应用程序是否为存在不合规内容的风险应用程序等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种基于隐私保护的应用程序识别方法,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例二
如图3所示,本说明书实施例提供一种基于隐私保护的应用程序识别方法,该方法的执行主体可以为终端设备,其中的终端设备可以如手机、平板电脑、个人计算机等,该终端设备可以为能够运行应用程序的终端设备,该应用程序包括宿主程序和搭载于该宿主程序中的任意小程序。该方法具体可以包括以下步骤:
在步骤S302中,获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序。
其中,行为序列数据可以包括用户通过扫描图形码、搜索、访问分享链接的方式访问目标应用程序的数据,以及收藏操作、转发操作、跳转至外部链接的访问行为数据。其中的图形码可以是一种通过图形的方式记录相关信息的方式,图形码可以包括多种,例如条形码或二维码等。搜索可以是用户在指定的搜索引擎的搜索框中输入关键词后进行的搜索。收藏操作可以是用户在使用目标应用程序的过程中所触发的收藏操作,转发操作可以是用户在使用目标应用程序的过程中所触发的转发操作,跳转至外部链接可以是用户在使用目标应用程序的过程中点击某外部链接而触发的跳转至外部链接的操作。
上述步骤S302的具体处理过程可以参见上述实施例一中的相关内容,在此不再赘述。
在步骤S304中,对上述行为序列数据进行向量化处理,得到该行为序列数据对应的行为序列向量。
在实施中,为了减少服务器的处理压力,终端设备可以对上述行为序列数据进行向量化处理,为此,可以预先设定向量化处理的算法,该算法可以包括多种,例如可以通过预设的编译器对上述每个行为序列数据进行编译,并在编译的过程中获取该行为序列数据对应的行为序列向量,或者,还可以通过预设的滤波器对上述每个行为序列数据进行处理,并在通过滤波器处理的过程中,可以获取该行为序列数据对应的行为序列向量,上述确定该行为序列数据对应的行为序列向量的处理仅是两种可选的处理方式,在实际应用中,除了可以通过上述方式实现外,还可以通过多种不同方式实现,具体可以根据实际情况设定,本说明书实施例对此不做限定。
通过上述方式得到该行为序列数据对应的行为序列向量后,对于同一用户使用的与上述目标应用程序不同的一个或多个不同的小程序,还可以通过上述方式获取每个小程序对应的行为序列数据的行为序列向量,相应的,对于多个不同用户的使用的小程序(可以包括上述目标应用程序,也可以包括与上述目标应用程序不同的一个或多个不同的小程序),还可以通过上述方式获取每个用户对应的行为序列数据的行为序列向量等。
上述是对用户的行为序列数据进行向量化处理,对于对目标应用程序的程序标识进行差分隐私处理,以下提供一种可选的处理方式,具体可以参见下述步骤S306和步骤S308的处理。
在步骤S306中,对目标应用程序的程序标识进行编码,得到编码后的程序标识。
在实施中,对目标应用程序的程序标识进行编码的具体处理方式可以包括多种,例如,可以通过预设的编码器对上述目标应用程序的程序标识进行编码,最终可以得到编码后的程序标识,或者,还可以通过预设的滤波器对上述目标应用程序的程序标识进行处理,并在通过滤波器处理的过程中,可以获取编码后的程序标识,上述对目标应用程序的程序标识进行编码的处理仅是两种可选的处理方式,在实际应用中,除了可以通过上述方式实现外,还可以通过多种不同方式实现,具体可以根据实际情况设定。其中,针对通过滤波器对上述目标应用程序的程序标识进行处理的方式,以下还提供一种可选的处理方式,具体可以包括以下内容:基于布隆过滤器对目标应用程序的程序标识进行编码,得到编码后的程序标识。
其中,布隆过滤器(Bloom Filter)可以是一个二进制向量和一系列随机映射函数(可以为哈希函数)构成。布隆过滤器可以用于检索一个元素是否在一个集合中,布隆过滤器可以提高空间效率,并减少查询时间,布隆过滤器对应的数组中每一个位置只占有1个bit,而每个bit只有0和1两种状态。假设一种有k个哈希函数,且每个哈希函数的输出范围都大于m,接着将输出值对k取余(%m),就会得到k个[0, m-1]的值,由于每个哈希函数之间相互独立,因此上述k个数值也相互独立,最后将上述k个数值对应到[0, m-1]上并进行标记(可以标记为1)。
在实施中,可以通过拉普拉斯Laplace机制的差分隐私算法,对目标应用程序的程序标识进行编码,具体地,上述对应的差分隐私处理过程可以分成扰动阶段、预处理阶段和汇聚阶段等三个阶段。扰动阶段可以在用户的终端设备中执行,即用户使用的目标应用程序的程序标识会被记录、扰动并存储在本地,等待上传。预处理阶段和汇聚阶段可以是在服务器端执行。在预处理阶段,服务器会对从不同用户的终端设备侧收集到的扰动数据进行去除元数据、时间戳和重新排序等操作。汇聚阶段将利用预处理阶段得到的数据,通过无偏估计等算法进行统计计算,得到原始数据。
其中,扰动阶段的处理过程可以包括:如果输入数据用x表示,而i为输出数据,I为输出数据的集合。哈希函数集H中包含k个不同的哈希函数,任意一个函数hjH将输入数据x映射到整数范围m,有hj : I→[m],ϵ表示隐私预算参数,则在k范围内随机地选取数值j,作为选择第j个哈希函数的索引,初始化一个长度为m的向量u,将向量u的所有元素置为0(或1),将向量u中的元素uhj(x)置为1(或0),最终得到的向量u即为编码后的程序标识。
通过上述布隆过滤器对目标应用程序的程序标识进行编码,可以得到由0和1构成的数组(可以为bit数组),得到的上述数组即为编码后的程序标识。
在步骤S308中,通过预定的噪声数据对编码后的程序标识进行加噪扰乱处理,得到加噪扰乱后的程序标识,将加噪扰乱后的程序标识作为差分隐私处理后的程序标识。
在实施中,可以对编码后的程序标识加入随机化的噪声数据或者指定的噪声数据(如拉普拉斯噪声数据或高斯噪声数据等),以对编码后的程序标识进行加噪扰乱处理,从而将编码后的程序标识进行掩盖,使得加噪扰乱后的程序标识即使被泄露,其他人也无法分辨得到的上述数据是由哪个数据或数据集产生,从而保护用户的隐私。
在步骤S310中,将处理后的程序识和该程序标识对应的行为序列向量发送给服务器。
本说明书实施例提供一种基于隐私保护的应用程序识别方法,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例三
如图4所示,本说明书实施例提供一种基于隐私保护的应用程序识别方法,该方法的执行主体可以为终端设备,其中的终端设备可以如手机、平板电脑、个人计算机等,该终端设备可以为能够运行应用程序的终端设备,该应用程序包括宿主程序和搭载于该宿主程序中的任意小程序。该方法具体可以包括以下步骤:
在步骤S402中,获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序。
其中,行为序列数据可以包括用户通过扫描图形码、搜索、访问分享链接的方式访问目标应用程序的数据,以及收藏操作、转发操作、跳转至外部链接的访问行为数据。
在步骤S404中,对上述行为序列数据进行向量化处理,得到该行为序列数据对应的行为序列向量。
在步骤S406中,对目标应用程序的程序标识进行编码,得到编码后的程序标识。
其中,对上述目标应用程序的程序标识进行处理的方式,以下还提供一种可选的处理方式,具体可以包括以下内容:基于布隆过滤器对目标应用程序的程序标识进行编码,得到编码后的程序标识。
在步骤S408中,通过预设的概率对编码后的程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的程序标识,将扰乱后的程序标识作为差分隐私处理后的程序标识。
在实施中,可以通过拉普拉斯Laplace机制的差分隐私算法,基于预设的概率对编码后的程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的程序标识,具体地,扰动阶段可以在k范围内随机地选取数值j,作为选择第j个哈希函数的索引,初始化一个长度为m的向量u,将向量u的所有元素置为0(或1),将向量u中的元素uhj(x)置为1(或0),从而得到编码后的程序标识,对于向量u(编码后的程序标识)中每一个元素,以预定的扰乱概率进行翻转,即将其中元素0变成1或将其中的元素1变成0,得到扰乱后的程序标识,最终可以得到扰乱后的程序标识及索引j。
其中,扰乱概率可以包括多种,以下提供一种可选的扰乱概率,具体如下
Figure 730943DEST_PATH_IMAGE003
其中,
Figure 317651DEST_PATH_IMAGE004
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示扰乱概 率,p表示概率,
Figure 164384DEST_PATH_IMAGE001
表示隐私预算参数。
其中,扰乱后的程序标识可以满足:对于具有相同输出数据的任意两个不同的输 入数据,两个不同的输入数据对应的扰乱概率的比值不大于
Figure 93026DEST_PATH_IMAGE005
具体地,对于任意的两个不同的输入数据
Figure 290789DEST_PATH_IMAGE006
Figure 635183DEST_PATH_IMAGE007
,以及输出数据y,有
Figure 211789DEST_PATH_IMAGE008
从而满足差分隐私性,其中,可以根据隐私保护程度的不同需求,设置相应的隐私预算参数ϵ。
在步骤S410中,将处理后的程序识和该程序标识对应的行为序列向量发送给服务器。
本说明书实施例提供一种基于隐私保护的应用程序识别方法,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例四
如图5所示,本说明书实施例提供一种基于隐私保护的应用程序识别方法,该方法的执行主体可以为服务器,其中的该服务器可以是为某项业务(如进行交易的业务或金融业务等)的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。相应的基于隐私保护的应用程序识别的系统可以如图2所示。该方法具体可以包括以下步骤:
在步骤S502中,接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和终端设备的用户访问目标应用程序的过程中产生的行为序列数据,目标应用程序为搭载在宿主程序中的小程序。
在步骤S504中,对经过差分隐私处理后的程序标识进行还原处理,得到还原后的程序标识。
在实施中,服务器接收到经过差分隐私处理后的程序标识后,可以执行系数两个阶段的处理:预处理阶段和汇聚阶段,在预处理阶段,服务器会对从不同用户的终端设备侧收集到的扰动数据进行去除元数据、时间戳和重新排序等操作。汇聚阶段将利用预处理阶段得到的数据,通过无偏估计等算法进行统计计算,以此对经过差分隐私处理后的程序标识进行还原处理,得到还原后的程序标识,即目标应用程序的程序标识。
此外,对于通过布隆过滤器对目标应用程序的程序标识进行处理的情况,服务器可以依据布隆过滤器的哈希函数以查询并还原经过差分隐私处理后的程序标识,得到还原后的程序标识,即目标应用程序的程序标识。
在步骤S506中,基于还原后的程序标识对应的行为序列数据,确定目标应用程序是否为存在不合规内容的风险应用程序。
在实施中,例如,可以通过指定的算法对还原后的程序标识对应的行为序列数据进行处理或进行多方计算,进而确定目标应用程序是否为存在不合规内容的风险应用程序,或者,还可以通过专家经验等对还原后的程序标识对应的行为序列数据进行分析,从而确定目标应用程序是否为存在不合规内容的风险应用程序等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种基于隐私保护的应用程序识别方法,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例五
如图6所示,本说明书实施例提供一种基于隐私保护的应用程序识别方法,该方法的执行主体可以为服务器,其中的该服务器可以是为某项业务(如进行交易的业务或金融业务等)的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。相应的基于隐私保护的应用程序识别的系统可以如图2所示。该方法具体可以包括以下步骤:
在步骤S602中,接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和终端设备的用户访问目标应用程序的过程中产生的行为序列数据,目标应用程序为搭载在宿主程序中的小程序。
在步骤S604中,对经过差分隐私处理后的程序标识进行还原处理,得到还原后的程序标识。
在步骤S606中,将还原后的程序标识对应的行为序列数据输入预先训练的长短期记忆模型中,得到还原后的程序标识对应的嵌入向量。
其中,长短期记忆模型(Long-Short Term Memory,LSTM)模型是一种特殊的RNN(Recurrent Neural Network,循环神经网络)模型,长短期记忆模型是在RNN基础上,在隐藏层各神经单元中增加记忆单元,从而使时间序列上的记忆信息可控,每次在隐藏层各单元间传递时通过一个或多个可控门(遗忘门、输入门、候选门、输出门),控制之前信息和当前信息的记忆和遗忘程度,从而使RNN模型具备了长期记忆功能。
在实施中,可以通过多种不同的方式获取小程序的程序标识,通过获取的小程序的程序标识可以对长短期记忆模型进行训练,最终可以得到满足输出要求的嵌入向量,通过上述方式训练得到长短期记忆模型后,可以将还原后的程序标识对应的行为序列数据输入到上述长短期记忆模型中,得到还原后的程序标识对应的嵌入Embedding向量。
在步骤S608中,基于还原后的程序标识对应的嵌入向量,确定目标应用程序是否为存在不合规内容的风险应用程序。
在实施中,通过上述方式得到还原后的程序标识对应的嵌入向量后,可以基于该嵌入向量确定目标应用程序是否为存在不合规内容的风险应用程序,具体如,可以计算还原后的程序标识对应的嵌入向量与存在不合规内容的风险应用程序对应的嵌入向量之间的距离,可以将计算得到的距离与预设的距离阈值进行比较,如果计算得到的距离小于预设的距离阈值,则可以确定目标应用程序为存在不合规内容的风险应用程序,否则,可以确定目标应用程序不是风险应用程序。
上述步骤S608的处理方式可以多种多样,以下再提供一种可选的处理方式,具体可以包括以下内容:将还原后的程序标识对应的嵌入向量输入预先训练的DeepFM模型中,得到目标应用程序是否为存在不合规内容的风险应用程序的结果。
其中,DeepFM模型可以包含两部分,即神经网络和分解机,分别负责低阶特征的提取和高阶特征的提取,上述两部分共享相同的输入数据。FM部分是一个分解机,由于加入了隐含变量,因此对于不出现或者极少出现的隐含变量也可以很好的进行学习,神经网络部分是一个前馈网络,在该神经网络中,在第一层隐藏层之前,引入一个嵌入层(Embedding),可以将输入向量压缩到低维稠密向量,虽然输入向量的长度不同,但经过嵌入层Embedding之后,得到的向量长度相同。
在实施中,可以通过多种不同的方式获取小程序的程序标识对应的嵌入向量,通过获取的小程序的程序标识对应的嵌入向量可以对DeepFM模型进行训练,最终可以得到小程序是否为存在不合规内容的风险应用程序的结果,通过上述方式训练得到DeepFM模型后,可以将还原后的程序标识对应的嵌入向量输入到上述DeepFM模型中,得到目标应用程序是否为存在不合规内容的风险应用程序的结果。
在步骤S610中,如果确定目标应用程序为存在不合规内容的风险应用程序,则基于目标应用程序对应的应用场景信息和预设的巡检规则,对目标应用程序发布的内容进行内容检测。
在实施中,不同的应用场景,小程序的巡检规则可以不同,例如,对于支付场景下的小程序对应的巡检规则可能比即时通讯应用场景下的小程序对应的巡检规则要苛刻,因此,如果确定目标应用程序为存在不合规内容的风险应用程序,则基于目标应用程序对应的应用场景信息和预设的巡检规则,对目标应用程序发布的内容进行深层内容的检测,从而可以进一步确定目标应用程序存在的风险程度。
本说明书实施例提供一种基于隐私保护的应用程序识别方法,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例六
如图7所示,本说明书实施例提供一种基于隐私保护的应用程序识别方法,该方法可以由终端设备和服务器共同完成,其中的终端设备可以如手机、平板电脑、个人计算机,该终端设备可以为能够运行应用程序的终端设备,该应用程序包括宿主程序和搭载于该宿主程序中的任意小程序,该服务器可以是为某项业务(如进行交易的业务或金融业务等)的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是金融或即时通讯等相关业务的服务器等。相应的基于隐私保护的应用程序识别的系统可以如图2所示。该方法具体可以包括以下步骤:
在步骤S702中,终端设备获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序。
其中,行为序列数据可以包括用户通过扫描图形码、搜索、访问分享链接的方式访问目标应用程序的数据,以及收藏操作、转发操作、跳转至外部链接的访问行为数据。
在步骤S704中,终端设备对上述行为序列数据进行向量化处理,得到该行为序列数据对应的行为序列向量。
在步骤S706中,终端设备基于布隆过滤器对目标应用程序的程序标识进行编码,得到编码后的程序标识。
在步骤S708中,终端设备通过预设的概率对编码后的程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的程序标识,将扰乱后的程序标识作为差分隐私处理后的程序标识。
上述步骤S708的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:
通过下述扰乱概率
Figure 249015DEST_PATH_IMAGE009
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的 所述程序标识,其中,
Figure 668495DEST_PATH_IMAGE004
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 878896DEST_PATH_IMAGE001
表示隐私预算参数。
其中,扰乱后的程序标识可以满足:对于具有相同输出数据的任意两个不同的输 入数据,两个不同的输入数据对应的扰乱概率的比值不大于
Figure 496959DEST_PATH_IMAGE005
在步骤S710中,终端设备将处理后的程序识和该程序标识对应的行为序列向量发送给服务器。
在步骤S712中,服务器对经过差分隐私处理后的程序标识进行还原处理,得到还原后的程序标识。
在步骤S714中,服务器将还原后的程序标识对应的行为序列数据输入预先训练的长短期记忆模型中,得到还原后的程序标识对应的嵌入向量。
在步骤S716中,服务器将还原后的程序标识对应的嵌入向量输入预先训练的DeepFM模型中,得到目标应用程序是否为存在不合规内容的风险应用程序的结果。
在步骤S718中,如果确定目标应用程序为存在不合规内容的风险应用程序,则服务器基于目标应用程序对应的应用场景信息和预设的巡检规则,对目标应用程序发布的内容进行内容检测。
本说明书实施例提供一种基于隐私保护的应用程序识别方法,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例七
以上为本说明书实施例提供的基于隐私保护的应用程序识别方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的应用程序识别装置,如图8所示。
该基于隐私保护的应用程序识别装置包括:信息获取模块801、差分隐私处理模块802和数据发送模块803,其中:
信息获取模块801,获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
差分隐私处理模块802,对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;
数据发送模块803,将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述装置还包括:
向量化模块,对所述行为序列数据进行向量化处理,得到所述行为序列数据对应的行为序列向量;
所述数据发送模块803,将所述处理后的所述程序识和所述程序标识对应的所述行为序列向量发送给服务器。
本说明书实施例中,所述差分隐私处理模块802,包括:
编码单元,对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
第一差分隐私处理单元,通过预定的噪声数据对所述编码后的所述程序标识进行加噪扰乱处理,得到加噪扰乱后的所述程序标识,将加噪扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
本说明书实施例中,所述差分隐私处理模块802,包括:
编码单元,对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
第二差分隐私处理单元,通过预设的概率对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述程序标识,将扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
本说明书实施例中,所述第二差分隐私处理单元,通过下述扰乱概率
Figure 908349DEST_PATH_IMAGE009
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的 所述程序标识,其中,
Figure 923447DEST_PATH_IMAGE004
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 812906DEST_PATH_IMAGE001
表示隐私预算参数。
本说明书实施例中,所述扰乱后的所述程序标识满足:对于具有相同输出数据的 任意两个不同的输入数据,所述两个不同的输入数据对应的扰乱概率的比值不大于
Figure 551055DEST_PATH_IMAGE005
本说明书实施例中,所述编码单元,基于布隆过滤器对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识。
本说明书实施例中,所述行为序列数据包括用户通过扫描图形码、搜索、访问分享链接的方式访问所述目标应用程序的数据,以及收藏操作、转发操作、跳转至外部链接的访问行为数据。
本说明书实施例提供一种基于隐私保护的应用程序识别装置,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例八
以上为本说明书实施例提供的基于隐私保护的应用程序识别方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的应用程序识别装置,如图9所示。
该基于隐私保护的应用程序识别装置包括:数据接收模块901、还原模块902和风险识别模块903,其中:
数据接收模块901,接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序;
还原模块902,对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
风险识别模块903,基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述风险识别模块903,包括:
嵌入向量确定单元,将所述还原后的所述程序标识对应的行为序列数据输入预先训练的长短期记忆模型中,得到所述还原后的所述程序标识对应的嵌入向量;
风险识别单元,基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述风险识别单元,将所述还原后的所述程序标识对应的嵌入向量输入预先训练的DeepFM模型中,得到所述目标应用程序是否为存在不合规内容的风险应用程序的结果。
本说明书实施例中,所述装置还包括:
巡检模块,如果确定所述目标应用程序为存在不合规内容的风险应用程序,则基于所述目标应用程序对应的应用场景信息和预设的巡检规则,对所述目标应用程序发布的内容进行内容检测。
本说明书实施例提供一种基于隐私保护的应用程序识别装置,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例九
以上为本说明书实施例提供的基于隐私保护的应用程序识别装置,基于同样的思路,本说明书实施例还提供一种基于隐私保护的应用程序识别设备,如图10所示。
所述基于隐私保护的应用程序识别设备可以为上述实施例提供的终端设备。
基于隐私保护的应用程序识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1001和存储器1002,存储器1002中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1002可以是短暂存储或持久存储。存储在存储器1002的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐私保护的应用程序识别设备中的一系列计算机可执行指令。更进一步地,处理器1001可以设置为与存储器1002通信,在基于隐私保护的应用程序识别设备上执行存储器1002中的一系列计算机可执行指令。基于隐私保护的应用程序识别设备还可以包括一个或一个以上电源1003,一个或一个以上有线或无线网络接口1004,一个或一个以上输入输出接口1005,一个或一个以上键盘1006。
具体在本实施例中,基于隐私保护的应用程序识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的应用程序识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;
将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过预定的噪声数据对所述编码后的所述程序标识进行加噪扰乱处理,得到加噪扰乱后的所述程序标识,将加噪扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
本说明书实施例中,所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过预设的概率对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述程序标识,将扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
本说明书实施例中,所述通过预设的概率对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述程序标识,包括:
通过下述扰乱概率
Figure 992401DEST_PATH_IMAGE010
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的 所述程序标识,其中,
Figure 386473DEST_PATH_IMAGE004
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 876360DEST_PATH_IMAGE001
表示隐私预算参数。
此外,所述基于隐私保护的应用程序识别设备可以为上述实施例提供的服务器。具体在本实施例中,基于隐私保护的应用程序识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的应用程序识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序;
对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序,包括:
将所述还原后的所述程序标识对应的行为序列数据输入预先训练的长短期记忆模型中,得到所述还原后的所述程序标识对应的嵌入向量;
基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序,包括:
将所述还原后的所述程序标识对应的嵌入向量输入预先训练的DeepFM模型中,得到所述目标应用程序是否为存在不合规内容的风险应用程序的结果。
本说明书实施例提供一种基于隐私保护的应用程序识别设备,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
实施例十
进一步地,基于上述图1至图7所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;
将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过预定的噪声数据对所述编码后的所述程序标识进行加噪扰乱处理,得到加噪扰乱后的所述程序标识,将加噪扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
本说明书实施例中,所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过预设的概率对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述程序标识,将扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
本说明书实施例中,所述通过预设的概率对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述程序标识,包括:
通过下述扰乱概率
Figure 282065DEST_PATH_IMAGE003
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的 所述程序标识,其中,
Figure 769678DEST_PATH_IMAGE004
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 775680DEST_PATH_IMAGE001
表示隐私预算参数。
此外,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序;
对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序,包括:
将所述还原后的所述程序标识对应的行为序列数据输入预先训练的长短期记忆模型中,得到所述还原后的所述程序标识对应的嵌入向量;
基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
本说明书实施例中,所述基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序,包括:
将所述还原后的所述程序标识对应的嵌入向量输入预先训练的DeepFM模型中,得到所述目标应用程序是否为存在不合规内容的风险应用程序的结果。
本说明书实施例提供一种存储介质,通过获取用户访问目标应用程序的过程中产生的行为序列数据和目标应用程序的程序标识,目标应用程序为搭载在宿主程序中的小程序,然后,对目标应用程序的程序标识进行差分隐私处理,得到处理后的程序标识,从而通过对用户使用的小程序的程序标识进行差分隐私处理,使得即使上述数据被其他人窃取,也无法从其中了解到用户使用的小程序是哪一个,进而保护用户的隐私不被泄露,提供了一种小程序的内容风险检测机制,并在进行内容风险检测的过程中能够很好的保护用户的个人隐私。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (17)

1.一种基于隐私保护的应用程序识别方法,所述方法包括:
获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制;
将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序;
所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过下述扰乱概率
Figure 403298DEST_PATH_IMAGE001
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述 程序标识,其中,
Figure 513337DEST_PATH_IMAGE003
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 668375DEST_PATH_IMAGE004
表示隐私预算参数。
2.根据权利要求1所述的方法,所述方法还包括:
对所述行为序列数据进行向量化处理,得到所述行为序列数据对应的行为序列向量;
所述将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,包括:
将所述处理后的所述程序识和所述程序标识对应的所述行为序列向量发送给服务器。
3.根据权利要求1所述的方法,所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过预定的噪声数据对所述编码后的所述程序标识进行加噪扰乱处理,得到加噪扰乱后的所述程序标识,将加噪扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
4.根据权利要求1所述的方法,所述扰乱后的所述程序标识满足:对于具有相同输出数据的任意两个不同的输入数据,所述两个不同的输入数据对应的扰乱概率的比值不大于
Figure 937682DEST_PATH_IMAGE006
5.根据权利要求3-4中任一项所述的方法,所述对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识,包括:
基于布隆过滤器对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识。
6.根据权利要求1所述的方法,所述行为序列数据包括用户通过扫描图形码、搜索、访问分享链接的方式访问所述目标应用程序的数据,以及收藏操作、转发操作、跳转至外部链接的访问行为数据。
7.一种基于隐私保护的应用程序识别方法,所述方法包括:
接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序,所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制,所述经过差分隐私处理后的程序标识为对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识,并通过下述扰乱概率
Figure 785552DEST_PATH_IMAGE008
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理而得到的扰乱后的 所述程序标识,其中,
Figure 868040DEST_PATH_IMAGE010
表示扰乱函数,x表示输入数据,i表示输出数据,Pr 表示扰乱概率,p表示概率,
Figure 889086DEST_PATH_IMAGE004
表示隐私预算参数;
对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
8.根据权利要求7所述的方法,所述基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序,包括:
将所述还原后的所述程序标识对应的行为序列数据输入预先训练的长短期记忆模型中,得到所述还原后的所述程序标识对应的嵌入向量;
基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
9.根据权利要求8所述的方法,所述基于所述还原后的所述程序标识对应的嵌入向量,确定所述目标应用程序是否为存在不合规内容的风险应用程序,包括:
将所述还原后的所述程序标识对应的嵌入向量输入预先训练的DeepFM模型中,得到所述目标应用程序是否为存在不合规内容的风险应用程序的结果。
10.根据权利要求7-9中任一项所述的方法,所述方法还包括:
如果确定所述目标应用程序为存在不合规内容的风险应用程序,则基于所述目标应用程序对应的应用场景信息和预设的巡检规则,对所述目标应用程序发布的内容进行内容检测。
11.一种基于隐私保护的应用程序识别装置,所述装置包括:
信息获取模块,获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
差分隐私处理模块,对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制;
数据发送模块,将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序;
所述差分隐私处理模块,包括:
编码单元,对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
第二差分隐私处理单元,通过下述扰乱概率
Figure 685003DEST_PATH_IMAGE012
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述 程序标识,其中,
Figure 641458DEST_PATH_IMAGE013
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示扰 乱概率,p表示概率,
Figure 788406DEST_PATH_IMAGE004
表示隐私预算参数。
12.根据权利要求11所述的装置,所述差分隐私处理模块,包括:
编码单元,对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
第一差分隐私处理单元,通过预定的噪声数据对所述编码后的所述程序标识进行加噪扰乱处理,得到加噪扰乱后的所述程序标识,将加噪扰乱后的所述程序标识作为差分隐私处理后的所述程序标识。
13.一种基于隐私保护的应用程序识别装置,所述装置包括:
数据接收模块,接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制,所述经过差分隐私处理后的程序标识为对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识,并通过下述扰乱概率
Figure 347563DEST_PATH_IMAGE014
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理而得到的扰乱后的 所述程序标识,其中,
Figure 450517DEST_PATH_IMAGE016
表示扰乱函数,x表示输入数据,i表示输出数据,Pr 表示扰乱概率,p表示概率,
Figure 374611DEST_PATH_IMAGE004
表示隐私预算参数;
还原模块,对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
风险识别模块,基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
14.一种基于隐私保护的应用程序识别设备,所述基于隐私保护的应用程序识别设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制;
将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序;
所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过下述扰乱概率
Figure 71171DEST_PATH_IMAGE017
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述 程序标识,其中,
Figure 371703DEST_PATH_IMAGE018
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 79896DEST_PATH_IMAGE004
表示隐私预算参数。
15.一种基于隐私保护的应用程序识别设备,所述基于隐私保护的应用程序识别设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制,所述经过差分隐私处理后的程序标识为对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识,并通过下述扰乱概率
Figure 237208DEST_PATH_IMAGE019
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理而得到的扰乱后的 所述程序标识,其中,
Figure 358747DEST_PATH_IMAGE020
表示扰乱函数,x表示输入数据,i表示输出数据,Pr 表示扰乱概率,p表示概率,
Figure 151385DEST_PATH_IMAGE004
表示隐私预算参数;
对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
16.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取用户访问目标应用程序的过程中产生的行为序列数据和所述目标应用程序的程序标识,所述目标应用程序为搭载在宿主程序中的小程序;
对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制;
将所述处理后的所述程序标识和所述程序标识对应的所述行为序列数据发送给服务器,以使所述服务器对所述处理后的所述程序标识进行聚合还原处理,并基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序;
所述对所述目标应用程序的程序标识进行差分隐私处理,得到处理后的所述程序标识,包括:
对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识;
通过下述扰乱概率
Figure 776401DEST_PATH_IMAGE022
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理,得到扰乱后的所述 程序标识,其中,
Figure 370194DEST_PATH_IMAGE023
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表示 扰乱概率,p表示概率,
Figure 713450DEST_PATH_IMAGE004
表示隐私预算参数。
17.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
接收终端设备发送的目标应用程序的且经过差分隐私处理后的程序标识和所述终端设备的用户访问所述目标应用程序的过程中产生的行为序列数据,所述目标应用程序为搭载在宿主程序中的小程序;所述差分隐私处理是通过对数据进行扰动以达到保护隐私数据的目的的处理方式,其中的扰动机制包括拉普拉斯Laplace扰动机制、指数扰动机制,所述经过差分隐私处理后的程序标识为对所述目标应用程序的程序标识进行编码,得到编码后的所述程序标识,并通过下述扰乱概率
Figure 559047DEST_PATH_IMAGE024
对所述编码后的所述程序标识中的每一位编码数据进行扰乱处理而得到的扰乱后的 所述程序标识,其中,
Figure 100887DEST_PATH_IMAGE025
表示扰乱函数,x表示输入数据,i表示输出数据,Pr表 示扰乱概率,p表示概率,
Figure 803263DEST_PATH_IMAGE004
表示隐私预算参数;
对经过差分隐私处理后的所述程序标识进行还原处理,得到还原后的所述程序标识;
基于还原后的所述程序标识对应的行为序列数据,确定所述目标应用程序是否为存在不合规内容的风险应用程序。
CN202011208957.7A 2020-11-03 2020-11-03 一种基于隐私保护的应用程序识别方法、装置及设备 Active CN112035881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011208957.7A CN112035881B (zh) 2020-11-03 2020-11-03 一种基于隐私保护的应用程序识别方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011208957.7A CN112035881B (zh) 2020-11-03 2020-11-03 一种基于隐私保护的应用程序识别方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112035881A CN112035881A (zh) 2020-12-04
CN112035881B true CN112035881B (zh) 2021-02-09

Family

ID=73573419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011208957.7A Active CN112035881B (zh) 2020-11-03 2020-11-03 一种基于隐私保护的应用程序识别方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112035881B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115842656B (zh) * 2021-01-07 2024-09-03 支付宝(杭州)信息技术有限公司 一种基于隐私数据调用的管控方法及装置
CN112749088B (zh) * 2021-01-13 2023-02-17 挂号网(杭州)科技有限公司 应用程序检测方法、装置、电子设备和存储介质
CN114553516B (zh) * 2022-02-18 2024-07-09 支付宝(杭州)信息技术有限公司 一种数据的处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956044A (zh) * 2016-04-26 2016-09-21 北京邮电大学 一种基于用户隐私保护的移动应用程序算法
CN110874491A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 基于机器学习的隐私数据处理方法、装置及电子设备
CN111669366A (zh) * 2020-04-30 2020-09-15 南京大学 一种本地化差分隐私数据交换方法及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888410B (zh) * 2012-12-19 2018-05-18 卓望数码技术(深圳)有限公司 应用身份验证方法及系统
CN107347068A (zh) * 2017-07-10 2017-11-14 恒生电子股份有限公司 单点登录方法及系统、电子设备
CN108763908B (zh) * 2018-06-01 2023-04-18 腾讯科技(深圳)有限公司 行为向量生成方法、装置、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956044A (zh) * 2016-04-26 2016-09-21 北京邮电大学 一种基于用户隐私保护的移动应用程序算法
CN110874491A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 基于机器学习的隐私数据处理方法、装置及电子设备
CN111669366A (zh) * 2020-04-30 2020-09-15 南京大学 一种本地化差分隐私数据交换方法及存储介质

Also Published As

Publication number Publication date
CN112035881A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112035881B (zh) 一种基于隐私保护的应用程序识别方法、装置及设备
CN110457912B (zh) 数据处理方法、装置和电子设备
CN111400705B (zh) 一种应用程序的检测方法、装置及设备
CN113312667B (zh) 一种风险防控方法、装置及设备
CN113361658B (zh) 一种基于隐私保护的图模型训练方法、装置及设备
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN111538869B (zh) 一种交易异常群组的检测方法、装置及设备
CN111325444B (zh) 一种风险防控决策方法、装置、系统及设备
CN109508879B (zh) 一种风险的识别方法、装置及设备
CN112800468B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN109214193B (zh) 数据加密、机器学习模型训练方法、装置以及电子设备
CN113435585A (zh) 一种业务处理方法、装置及设备
CN114417411A (zh) 一种端云开发系统、模型的处理方法、装置及设备
CN108536569B (zh) 一种业务行为跟踪方法、装置及设备
CN113223101A (zh) 基于隐私保护的图像处理方法、装置及设备
CN116049761A (zh) 数据处理方法、装置及设备
CN112819156A (zh) 一种数据处理方法、装置及设备
CN113221717A (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN110443007B (zh) 一种多媒体数据的溯源检测方法、装置及设备
CN116051118A (zh) 行为时序模型的分析方法及装置
CN112364367A (zh) 一种基于隐私保护的对象处理方法、装置及设备
CN115204395A (zh) 数据的处理方法、装置及设备
CN113239852B (zh) 一种基于隐私保护的隐私图像处理方法、装置及设备
CN113569873B (zh) 一种图像的处理方法、装置及设备
CN115544555A (zh) 一种数据处理的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042420

Country of ref document: HK