CN110851872B - 针对隐私数据泄漏的风险评估方法及装置 - Google Patents

针对隐私数据泄漏的风险评估方法及装置 Download PDF

Info

Publication number
CN110851872B
CN110851872B CN201911131676.3A CN201911131676A CN110851872B CN 110851872 B CN110851872 B CN 110851872B CN 201911131676 A CN201911131676 A CN 201911131676A CN 110851872 B CN110851872 B CN 110851872B
Authority
CN
China
Prior art keywords
privacy
comparison result
api
data
requester
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911131676.3A
Other languages
English (en)
Other versions
CN110851872A (zh
Inventor
邓圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911131676.3A priority Critical patent/CN110851872B/zh
Publication of CN110851872A publication Critical patent/CN110851872A/zh
Priority to TW109115224A priority patent/TWI734466B/zh
Priority to PCT/CN2020/105106 priority patent/WO2021098274A1/zh
Application granted granted Critical
Publication of CN110851872B publication Critical patent/CN110851872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本说明书实施例提供一种针对隐私数据泄漏的风险评估方法。该方法包括:首先,获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录,其中每条系统日志基于请求方向服务平台发出的调用API的请求消息而生成,每条网络流量记录中至少包括服务平台针对该请求消息返回的响应消息;接着,对若干网络流量记录进行解析处理,得到解析数据;然后,从服务平台获取请求方调用API的权限数据;再接着,将若干系统日志与权限数据进行比对,得到第一比对结果,以及,将解析数据与权限数据进行比对,得到第二比对结果;再然后,至少基于第一比对结果和第二比对结果,评估请求方调用API的隐私数据泄漏风险。

Description

针对隐私数据泄漏的风险评估方法及装置
技术领域
本说明书一个或多个实施例涉及数据信息安全技术领域,尤其涉及针对隐私数据泄漏的风险评估方法及装置。
背景技术
API(Application Programming Interface,应用程序接口)具有调用方便,通用性强等优点,目前已逐渐成为互联网网络服务的主要提供方式。因此,API调用也成为了防止数据泄漏的重点关注领域。
服务平台存储的数据中通常包括其所服务对象(如个人或企业等)的基本信息数据,以及在使用服务过程中产生的服务数据等。在服务对象授权的情况下,服务平台可以基于这些数据向数据需求方(如研究机构或商户等)提供API调用服务。通常情况下,数据需求方(或称请求方)通过API调用只能获得其具有使用权限的数据。然而,因不同请求方(包括散布在不同地域的请求方,如跨境商户等)的软硬件环境、IT架构和业务场景往往不同,且存在较大差异,导致API调用系统复杂,容易被不法分子利用,造成数据泄漏,这无疑给API调用的数据防护带来极大的挑战。尤其考虑到泄漏的数据中很可能包括用户的个人信息等隐私数据,对数据泄漏的防范就愈发迫切。
因此,需要一种合理、可靠的方案,可以针对API调用而发生数据泄漏,尤其是隐私数据泄漏的风险进行及时、准确地评估,以有效防止隐私数据的泄漏。
发明内容
本说明书一个或多个实施例描述了一种针对隐私数据泄漏的风险评估方法及装置,可以针对API调用而发生隐私数据泄漏的风险进行及时、准确地评估,以有效防止隐私数据的泄漏。
根据第一方面,提供一种针对隐私数据泄漏的风险评估方法,该方法包括:获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录;其中,每条系统日志基于所述请求方向所述服务平台发出的调用API的请求消息而生成,并包括,根据所述请求消息确定的若干第一目标API,针对若干第一目标API输入的第一参数,以及所述第一参数所对应的若干第一隐私类别;每条网络流量记录中至少包括所述服务平台针对该请求消息返回的响应消息。对所述若干网络流量记录进行解析处理,得到解析数据,其中至少包括API输出数据所对应的若干第二隐私类别。从所述服务平台获取所述请求方调用API的权限数据,所述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合。将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果。至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
在一个实施例中,其中获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录,包括:获取所述请求方调用服务平台提供的API而产生的多条系统日志和多条网络流量记录;基于预先设定的多个隐私类别,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录。
在一个具体的实施例中,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录,包括:利用所述多个隐私类别,对所述多条系统日志进行匹配,将匹配成功的系统日志作为所述若干系统日志;利用预先基于所述多个隐私类别设定的过滤项,从所述多条网络流量记录中筛选出所述若干网络流量记录,所述过滤项的形式包括以下中的至少一种:自定义UDF函数、关键字段和正则项。
在一个实施例中,其中对所述若干网络流量记录进行解析处理,得到解析数据,包括:对所述若干网络流量记录进行解析处理,得到所述API输出数据,所述API输出数据中包括多个字段;确定所述多个字段中若干隐私字段对应的若干第三隐私类别;将所述若干第三隐私类别作为所述若干第二隐私类别;或,基于所述若干隐私字段的字段值,对所述若干第三隐私类别进行验证处理,并将通过验证的第三隐私类别归入所述若干第二隐私类别。
在一个具体的实施例中,其中确定所述多个字段中若干隐私字段对应的若干第三隐私类别,包括:基于预先训练的自然语言处理模型,确定所述多个字段中若干隐私字段对应的若干第三隐私类别;或,基于预先设定的多个正则匹配规则,确定所述多个字段中若干隐私字段对应的若干第三隐私类别。
在一个具体的实施例中,所述若干隐私字段中包括任意的第一字段,对应所述若干第三隐私类别中的第一类别;其中基于所述若干隐私字段的字段内容,对所述若干第三类别进行验证处理,包括:利用预先存储的对应于所述第一类别的多个合法字段值,对所述第一字段进行匹配,并在匹配成功的情况下,判定所述第一类别通过验证;或,利用预先训练的针对所述第一类别的分类模型,对所述第一字段进行分类,在分类结果指示所述第一字段属于所述第一类别的情况下,判定所述第一类别通过验证。
在一个实施例中,其中至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险,包括:将所述第一比对结果和第二比对结果共同输入预先训练的第一风险评估模型中,得到第一预测结果,指示所述隐私数据泄漏风险。
在一个实施例中,其中至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险,包括:根据所述若干系统日志和若干网络流量记录,确定监控指标的指标值,所述监控指标针对请求方API调用行为而预先设定;将预先获取的所述请求方的历史指标值与所述指标值进行比对,得到第三比对结果;基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险。
在一个具体的实施例中,基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险,包括:结合预先设定的评估规则,根据所述第一比对结果、第二比对结果和第三比对结果,判断是否发生隐私数据泄漏;或,将所述第一比对结果、第二比对结果和第三比对结果共同输入预先训练的第二风险评估模型中,得到第二预测结果,指示所述隐私数据泄漏风险。
根据第二方面,提供一种针对隐私数据泄漏的风险评估装置,该装置包括:第一获取单元,配置为获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录;其中,每条系统日志基于所述请求方向所述服务平台发出的调用API的请求消息而生成,并包括,根据所述请求消息确定的若干第一目标API,针对若干第一目标API输入的第一参数,以及所述第一参数所对应的若干第一隐私类别;每条网络流量记录中至少包括所述服务平台针对该请求消息返回的响应消息。解析单元,配置为对所述若干网络流量记录进行解析处理,得到解析数据,其中至少包括API输出数据所对应的若干第二隐私类别。第二获取单元,配置为从所述服务平台获取所述请求方调用API的权限数据,所述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合。比对单元,配置为将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果。评估单元,配置为至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
综上,在本说明书实施例提供的针对隐私数据泄漏的风险评估方法及装置中,通过获取请求方调用API产生的系统日志和网络流量记录,以及请求方调用API的权限数据,对网络流量进行解析得到解析数据,再将解析数据与权限数据进行比对,并将系统日志与权限数据进行比对,结合两个比对结果,评估请求方调用API造成隐私数据泄漏的风险,以及时检测、发现请求方的违规、异常调用行为。进一步地,还可以利用获取的系统日志和解析得到的网络流量记录,确定针对请求方行为设定的监控指标的指标值,再将该指标值与历史指标值进行比对,从而进一步提高风险评估结果的准确度和可用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的风险评估方法的实施场景示意图;
图2示出根据一个实施例的针对隐私数据泄漏的风险评估方法流程图;
图3示出根据一个实施例的针对隐私数据泄漏的风险评估装置结构图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,目前API调用过程中存在泄漏隐私数据的风险。在请求方属于跨境请求方(如跨境商户)的场景下,检测隐私数据泄漏风险尤为紧迫。具体地,国内某些大型企业(如阿里巴巴)的业务范围已扩展到境外,因此存在大量境外商户,数据跨境调用已成常态。境外商户应软硬件环境及业务场景与国内存在差异,现有数据防护架构难免存在不足,从而造成用户隐私数据泄漏。再者,不同境外商户的IT架构通常不同,造成API调用系统复杂,梳理难度大,容易被不法分子利用,导致隐私数据(如国内用户敏感数据)泄漏。
此外,因为API数量大、API开发管理漏洞难以避免等原因,API实际输出的数据内容与请求方实际请求获取的数据或者请求方具有使用权限的数据可能存在差别。例如,对于某个请求方无权调用的API,因API权限管理存在疏漏等原因,被该某个请求方非法调用,并输出用户的个人敏感信息,造成用户隐私泄漏。
又例如,某个请求方有权调用某个API,但是其与服务平台的签约数据中只包括该某个API可输出的全量数据(如用户性别、用户地址和用户手机号)中的部分数据内容(如用户性别)。然而,该某个请求方在调用该某个API时,除向该某个API传入对应于该部分数据内容的输入参数以外,还传入对应于全量数据中其他数据内容(如用户地址)的输入参数,因API权限管理存在疏漏等原因,导致该某个API返回给该某个请求方的数据(如用户性别和用户地址)超出签约的数据范围(如用户性别)。
再例如,请求方所调用的API接口,因一些旧的未更新的字段设置(如业务人员将用户手机号和身份证号拼接为一个字段),导致API接口输出数据的范围(如用户手机号和身份证号)与请求方的签约数据范围(如用户手机号)不一致。
基于以上,发明人提出一种针对隐私数据泄漏的风险评估方法及装置。在一个实施例中,图1示出根据一个实施例的风险评估方法的实施场景示意图,如图1所示,请求方人员可以通过请求方客户端向服务平台发送API调用请求(或称请求消息),相应地,服务平台可以根据请求消息生成对应的系统日志,并且向请求方客户端返回API调用响应(或称响应消息)。可以理解,网关可以对请求消息和响应消息进行记录,产生对应的网络流量记录(或称网络流量日志)。
由此,风险评估装置可以从网关中获取系统日志和网络流量记录,并对获取的网络流量记录进行解析,得到解析数据;另一方面,风险评估装置还可以从服务平台中获取请求方调用API的权限数据。进一步地,风险评估装置可以将系统日志与权限数据进行比对,并将解析数据与权限数据进行比对,再结合两个比对结果,评估请求方调用API造成隐私数据泄漏的风险,从而及时检测请求方的违规、异常调用行为。
下面结合具体的实施例,描述上述风险评估方法的实施步骤。
首先需要说明的是,本说明书实施例中的描述用于“第一”、“第二”、“第三”等类似用语,仅用于区分同类事物,不具有其他限定作用。
图2示出根据一个实施例的针对隐私数据泄漏的风险评估方法的流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置或设备或平台或服务器集群等,例如,所述执行主体可以为图1中示出的风险评估装置,又例如,所述执行主体还可以为上述服务平台。
如图2所示,所述方法可以包括以下步骤:
步骤S210,获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录;其中,每条系统日志基于所述请求方向所述服务平台发出的调用API的请求消息而生成,并包括,根据所述请求消息确定的若干第一目标API,针对若干第一目标API输入的第一参数,以及所述第一参数所对应的若干第一隐私类别;每条网络流量记录中至少包括所述服务平台针对该请求消息返回的响应消息。步骤S220,对所述若干网络流量记录进行解析处理,得到解析数据,其中至少包括API输出数据所对应的若干第二隐私类别。步骤S230,从所述服务平台获取所述请求方调用API的权限数据,所述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合。步骤S240,将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果。步骤S250,至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
以上步骤具体如下:
首先,在步骤S210,获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录。
在一个实施例中,其中请求方可以为个人或机构或企业等,其可以通过在服务平台中注册的账号登录服务平台,并在使用服务平台的过程中发起API调用请求。在一个例子中,上述请求方可以是跨境商户,上述服务平台可以是跨境商户系统或跨境商户开放平台。可以理解,服务平台中可以存储对大量服务对象的基础属性信息,以及大量服务对象在使用服务过程中产生的服务数据。比如说,服务对象在服务平台中进行注册时,会填写一些注册信息,又或者,服务对象使用服务会产生订单数据、评价信息等。本说明书实施例中,将请求方请求调用的数据所针对的服务对象,称为目标对象。在一个实施例中,上述隐私数据可以包括服务平台中存储的全量数据。
下面对系统日志和网络流量的产生过程进行介绍。在一个实施例中,请求方可以向服务平台发送调用API的请求消息,服务平台在接收到请求消息后,基于该请求消息进行业务记录,生成对应的系统日志,并且,针对该请求消息生成响应消息,并将响应消息返回给请求方。可以理解,在物理层上,请求方和服务平台之间的通信会经过网关,具体地,请求方发送的请求消息会先上传至网关,再经由网关发送给服务平台,在此上行过程中网络可以对请求消息进行记录,另外服务平台返回给请求方的响应消息也会先下发至网关,再由网关发送给请求方,在此下行过程中,网关可以对响应消息进行记录,并且记录的请求消息和对应的响应消息可以组成一条网络流量记录。
对于上述系统日志的生成,首先需要说明的是,服务平台中存储其可以提供的API服务的配置信息。在一个实施例中,配置信息中包括可以每个API的名称,可以向每个API传入的全量参数,全量参数中每个参数所用于调用数据(如13800001111)的数据含义(手机号)。进一步地,服务平台在接收到请求消息之后,可以根据其存储的配置信息,确定请求消息中包括的目标API,针对目标API输入的参数,以及这些参数所对应的数据含义,进而生成系统日志。需要说明,本说明书实施例中,将与隐私相关的数据含义,称为隐私类别,具体地,可以包括用户手机号、公司总机号、身份证号、用户姓名等等。
如上所述,在一个实施例中,上述隐私数据可以包括服务平台中存储的全量数据。如此,在本步骤中可以包括:获取请求方调用服务平台提供的API而产生的多条系统日志和多条网络流量记录,作为上述若干系统日志和若干网络流量记录。
在另一个实施例中,可以将风险评估重点聚焦到某些隐私类别,具体地,可以预先设定需要关注的多个隐私类别。基于此,在获取请求方调用API产生的多条系统日志和多条网络流量记录之后,需要根据预先设定的多个隐私类别,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录。
在一个具体的实施例中,上述过滤处理可以包括:利用所述多个隐私类别,对所述多条系统日志进行匹配,将匹配成功的系统日志作为所述若干系统日志。由上述可知,每条系统日志中包括根据对应的请求消息确定出的API、请求传入该API的参数,以及该参数对应的可调用数据的含义。由此可以利用多个隐私类别对多条系统日志中的参数对应的数据含义进行匹配,如此可以匹配到数据含义中包括多个隐私类别中任一类别的系统日志,归入上述若干系统日志。
在另一个具体的实施例中,上述过滤处理还可以包括:利用预先基于所述多个隐私类别设定的过滤项,从所述多条网络流量记录中筛选出所述若干网络流量记录,所述过滤项的形式包括以下中的至少一种:自定义UDF函数、关键字段和正则项。需要理解,网络流量记录中包括请求消息和对应的响应消息,请求消息和响应消息中所包括字段的数据含义往往是不明确的,不同于系统日志包括基于API配置信息从请求消息中确定出的数据含义。因此,利用多个隐私类别直接进行匹配是难以实现过滤的。
上述过滤项可以基于多个隐私类别而预先设定,在一个例子中,可以包括针对手机号设定的正则项,用于匹配出具有以下特点的字段值:首位为1,且前三位属于已有网号(如中国移动网号138、139等),以将包含该字段值的网络流量记录归入上述若干网络流量记录。在一个例子中,可以包括针对身份证号设定的自定义函数(User-Defined Function,UDF),用于匹配出符合身份证号编码规则的字段值,以将包含该字段值的网络流量记录归入上述若干网络流量记录。在另一个例子中,可以包括针对用户姓名设定的关键字段,比如将用于调取用户姓名的API参数(如User_name)设定为关键字段,由此可以将包括该关键字段的网络流量记录归入上述若干网络流量记录。
以上在步骤S210,可以获取请求方请求调用目标对象的隐私数据而产生的若干系统日志和若干网络流量记录。
接着,在步骤S220,对所述若干网络流量记录进行解析处理,得到解析数据,其中至少包括API输出数据所对应的若干第二隐私类别。
在一个实施例中,本步骤可以包括:先对所述若干网络流量记录进行解析处理,得到所述API输出数据,所述API输出数据中包括多个字段。可以理解,是对网络流量记录中的响应消息进行解析得到上述API输出数据。然后确定多个字段中若干隐私字段对应的若干第三隐私类别。具体地,可以通过机器学习、正则匹配等方式实现。在一个具体的实施例中,可以基于预先训练的自然语言处理模型,确定所述多个字段中若干隐私字段对应的若干第三隐私类别。在一个例子中,其中自然语言处理模型可以包括Transformer、Bert等模型。在一个例子中,可以确定若干隐私字段包括李情深、似海有限公司、北京市青年路珍重大厦等,对应的若干第三隐私类别包括:用户姓名、企业名称、地址等。在另一个具体的实施例中,可以基于预先设定的多个正则匹配规则,确定所述多个字段中若干隐私字段对应的若干第三隐私类别。在一个例子中,可以确定字段名为“phone”字段为隐私字段,且其对应的第三隐私类别为手机号。在另一个例子中,可以确定字段值中包括“@”和的字段为隐私字段,且其对应的第三隐私类别为邮箱地址。如此,可以确定出若干第三隐私类别。
进一步地,在一个具体的实施中,可以将上述若干第三隐私类别作为若干第二隐私类别。在另一个具体的实施例中,基于若干隐私字段的字段值,对所述若干第三隐私类别进行验证处理,并将通过验证的第三隐私类别归入所述若干第二隐私类别。在一个例子中,所述若干隐私字段中包括任意的第一字段,对应所述若干第三隐私类别中的第一类别,相应地,上述验证处理可以包括:利用预先存储的对应于所述第一类别的多个合法字段值,对所述第一字段进行匹配,并在匹配成功的情况下,判定所述第一类别通过验证。在一个具体的例子中,假定第一类别为用户姓名,第一字段为“欧茶”,上述多个合法字段值包括已实名认证的多个用户姓名,由此,可以查找多个用户姓名中是否存在欧茶,如果存在则将用户姓名归入若干第二隐私类别。
在另一个例子中,上述验证处理还可以包括:利用预先训练的针对所述第一类别的分类模型,对所述第一字段进行分类,在分类结果指示所述第一字段属于所述第一类别的情况下,判定所述第一类别通过验证。在一个具体的例子中,假定第一类别为邮箱地址,且第一字段为:明天记得来吃饭,@小花,则分类结果指示该第一字段不是邮箱地址,再假定第一字段为58978@ali.cn,则分类结果指示该第一字段是邮箱地址,并将邮箱地址归入若干第二隐私类别。如此,可以在确定出若干第三隐私类别的基础上,进一步验证得到若干第二隐私类别,以保证确定出的若干第二隐私类别的准确性,进而使得后续得到的针对隐私数据泄漏的风险评估结果更加准确。
以上,可以得到响应消息中包括的API输出数据所对应的若干第二隐私类别。另一方面,可选地,还可以对网络流量记录中包括的请求消息进行解析。需要说明的是,上述系统日志的生成是在应用层上实现的,网络流量记录的产生是在底层,在工程实现上,对网络流量记录进行解析,难以获取上述服务平台中存储的完备的API配置信息进行精准解析。因此,往往需要考虑其他解析方式。在一个实施例中,解析数据中还包括对请求消息进行解析得到的若干第二目标API和针对若干第二目标API输入的第二参数。此处解析出的API和参数,相较系统日志中包括的API名称和参数而言,不那么精准,相对粗略。
在一个具体的实施例中,可以利用预先基于多个API设定的API解析规则,从所述若干网络流量记录中解析出所述若干第二目标API,所述API解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项。在另一个具体的实施例中,可以利用预先基于多个参数设定的参数解析规则,从所述若干网络流量记录中解析出所述若干第二参数,所述参数解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项。需要说明的是,对上述API解析规则和参数解析规则中涉及的自定义UDF函数、关键字段和正则项,可以参见前述实施例中对过滤项的相关描述,在此不作赘述。
以上,对若干网络流量记录进行解析,可以得到解析数据。另一方面,可以执行步骤S230,从所述服务平台获取所述请求方调用API的权限数据。
具体地,上述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合。在一个例子中,其中API集合可以包括一个或多个API的名称,如http://yiteng.cn/data/?id=91,https://niuqi.cn/data/?id=8等。在一个例子中,其中参数集合中的参数可以包括:gender、phone和add.。在一个例子中,其中隐私类别集合中的隐私类别可以包括性别、电话和地址。
在一个实施例中,上述服务平台中包括用户授权系统、签约系统和API管理系统等。需要理解,其中用户授权系统中可以存储个人用户或企业用户授权允许服务平台对外提供的部分隐私数据。其中签约系统中可以存储请求方与服务平台协商约定的请求方可以从服务平台请求获取的数据范围。API管理系统中包括服务平台可以提供给请求方调用的API接口文档等信息。基于此,可以从这些系统中分别获取相关数据,整理后再归入上述权限数据。
如此,可以从服务平台中获取请求方调用API的权限数据。
然后,在步骤S240,将若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果。
一方面,在一个实施例中,上述得到第一比对结果,可以包括:判断所述若干第一目标API是否属于所述API集合,得到第一判断结果,归入所述第一比对结果。需要理解,对于若干系统日志中每条系统日志中包括的若干第一目标API,均需要判断其是否属于权限数据中的API集合。在一个具体的实施例中,假定若干系统日志的目标API包括http://user.cn/data/?id=00,上述API集合中包括http://user.cn/data/?id=00和http://company.cn/data/?id=66,通过比对可以确定若干系统日志中的目标API均属于API集合,不属于API集合的个数为0,由此可以将第一判断结果确定为0。
在另一个实施例中,上述得到第一比对结果,还可以包括:判断所述第一参数是否属于所述参数集合,得到第二判断结果,归入所述第一比对结果。需要理解,对于若干系统日志中每条系统日志中包括的第一参数,均需要判断其是否属于权限数据中的参数集合。在一个例子中,假定上述若干系统日志中的参数包括phone和IDnumber,上述参数集合中包括phone,通过比对可以确定IDnumber不属于参数集合,由此可以将第二判断结果确定为1。
在又一个实施例中,还可以包括:判断所述若干第一隐私类别是否属于所述隐私类别集合,得到第三判断结果,归入所述第一比对结果。需要理解,对于若干系统日志中每条系统日志中包括的若干第一隐私类别,均需要判断其是否属于权限数据中的隐私类别集合。在一个例子中,假定上述若干系统日志中的第三隐私类别包括手机号和身份证号,上述隐私类别集合中包括手机号,通过比对可以确定身份证号不属于隐私类别集合,由此可以将隐私类别比对结果确定为1。
由上可以得到第一判断结果、第二判断结果和第三判断结果,作为上述第一比对结果。
另一方面,在一个实施例中,上述得到第二比对结果,可以包括:判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果。在另一个实施例中,还可以包括:判断上述若干第二目标API是否属于所述API集合,得到第五判断结果,归入所述第二比对结果。在又一个实施例中,还可以包括:判断上述第二参数是否属于所述参数集合,得到第六判断结果,归入所述第二比对结果。
以上,可以得到第一比对结果和第二比对结果。接着,在步骤S250,至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
在一个实施例中,本步骤中可以包括:将所述第一比对结果和第二比对结果共同输入预先训练的第一风险评估模型中,得到第一预测结果,指示所述隐私数据泄漏风险。在一个更具体的实施例中,其中第一风险评估模型可以采用决策树、随机森林、adboost、神经网络等机器学习算法。在一个更具体的实施例中,其中第一预测结果可以为风险分类等级,如高、中、低等。在另一个更具体的实施例中,其中第一预测结果可以为风险评估分数,如20或85等等。需要说明的是,对第一风险评估模型的使用过程和训练过程类似,因此对训练过程不作赘述。
在另一个实施例中,本步骤中可以包括:首先,根据所述若干系统日志和若干网络流量记录,确定监控指标的指标值,所述监控指标针对请求方API调用行为而预先设定;接着,将预先获取的所述请求方的历史指标值与所述指标值进行比对,得到第三比对结果;然后,基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险。
在一个具体的实施例中,上述监控指标可以包括以下中的一种或多种:单位时间内请求方向所述服务平台发送的请求消息的条数,单位时间内请求方请求调用的隐私数据所对应的目标对象的个数,单位时间内请求方请求调用的隐私数据所对应的隐私类别的个数。在一个例子中,其中单位时间可以为每年、每月、每周、每天、每小时、每分钟等等。在一个具体的例子中,监控指标可以包括请求方每天的调用请求中包括的用户ID(可以从请求消息的入参中解析得到)的数量。
在一个具体的实施例中,上述历史指标值可以是根据请求方的调用隐私数据产生的历史系统日志和历史网络流量记录而确定的。在一个例子中,监控指标中可以包括请求方每分钟发出的请求消息的条数,假定针对该条数的历史指标值为20条,而确定当前确定出的指标值为100条,由此可以将4((100-20)/20)确定针对该条数的比对结果,归入上述第三比对结果。
在一个具体的实施例中,可以结合预先设定的评估规则,根据所述第一比对结果、第二比对结果和第三比对结果,判断是否发生隐私数据泄漏。在一个例子中,其中评估规则可以包括:如果比对结果中超出权限范围的隐私类别包括用户身份证号,则判定请求方的API调用发送隐私数据泄漏。在另一个具体的实施例中,可以将所述第一比对结果、第二比对结果和第三比对结果共同输入预先训练的第二风险评估模型中,得到第二预测结果,指示所述隐私数据泄漏风险。在一个更具体的实施例中,其中第二风险评估模型可以采用决策树、随机森林、adboost、神经网络等机器学习算法。在一个更具体的实施例中,其中第二预测结果可以为风险分类等级,如极高、较高、中、较低、极低等。在另一个更具体的实施例中,其中第二预测结果可以为风险评估分数,如15或90等等。需要说明的是,对第二风险评估模型的使用过程和训练过程类似,因此对训练过程不作赘述。如此,可以基于上述三个比对结果,评估请求方调用的数据泄漏风险。
综上,在本说明书实施例提供的针对隐私数据泄漏的风险评估方法中,通过获取请求方调用API产生的系统日志和网络流量记录,以及请求方调用API的权限数据,对网络流量进行解析得到解析数据,再将解析数据与权限数据进行比对,并将系统日志与权限数据进行比对,结合两个比对结果,评估请求方调用API造成隐私数据泄漏的风险,以及时检测、发现请求方的违规、异常调用行为。进一步地,还可以利用获取的系统日志和解析得到的网络流量记录,确定针对请求方行为设定的监控指标的指标值,再将该指标值与历史指标值进行比对,从而进一步提高风险评估结果的准确度和可用性。
根据另一方面的实施例,本说明书还披露一种评估装置。具体地,图3示出根据一个实施例的针对隐私数据泄漏的风险评估装置结构图。如图3所示,所述装置300可以包括:
第一获取单元310,配置为获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录;其中,每条系统日志基于所述请求方向所述服务平台发出的调用API的请求消息而生成,并包括,根据所述请求消息确定的若干第一目标API,针对若干第一目标API输入的第一参数,以及所述第一参数所对应的若干第一隐私类别;每条网络流量记录中至少包括所述服务平台针对该请求消息返回的响应消息。解析单元320,配置为对所述若干网络流量记录进行解析处理,得到解析数据,其中至少包括API输出数据所对应的若干第二隐私类别。第二获取单元330,配置为从所述服务平台获取所述请求方调用API的权限数据,所述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合。比对单元340,配置为将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果。评估单元350,配置为至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
在一个实施例中,第一获取单元310具体包括:获取子单元311,配置为获取所述请求方调用服务平台提供的API而产生的多条系统日志和多条网络流量记录;过滤子单元312,配置为基于预先设定的多个隐私类别,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录。
在一个具体的实施例中,所述过滤子单元312具体配置为:利用所述多个隐私类别,对所述多条系统日志进行匹配,将匹配成功的系统日志作为所述若干系统日志;利用预先基于所述多个隐私类别设定的过滤项,从所述多条网络流量记录中筛选出所述若干网络流量记录,所述过滤项的形式包括以下中的至少一种:自定义UDF函数、关键字段和正则项。
在一个实施例中,所述网络流量记录还包括所述请求消息,所述解析数据还包括对所述请求消息进行解析得到的若干第二目标API和针对若干第二目标API输入的第二参数。
在一个具体的实施例中,其中解析单元320还配置为:利用预先基于多个API设定的API解析规则,从所述若干网络流量记录中解析出所述若干第二目标API,所述API解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项;利用预先基于多个参数设定的参数解析规则,从所述若干网络流量记录中解析出所述若干第二参数,所述参数解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项。
在一个实施例中,所述解析单元320具体包括:解析子单元321,配置为对所述若干网络流量记录进行解析处理,得到所述API输出数据,所述API输出数据中包括多个字段;确定子单元322,配置为确定所述多个字段中若干隐私字段对应的若干第三隐私类别;所述解析单元具体还包括:归入子单元323,配置为将所述若干第三隐私类别作为所述若干第二隐私类别;或验证子单元324,配置为基于所述若干隐私字段的字段值,对所述若干第三隐私类别进行验证处理,并将通过验证的第三隐私类别归入所述若干第二隐私类别。
在一个具体的实施例中,所述确定子单元322具体配置为:基于预先训练的自然语言处理模型,确定所述多个字段中若干隐私字段对应的若干第三隐私类别;或,基于预先设定的多个正则匹配规则,确定所述多个字段中若干隐私字段对应的若干第三隐私类别。
在另一个具体的实施例中,所述若干隐私字段中包括任意的第一字段,对应所述若干第三隐私类别中的第一类别;其中验证子单元324具体配置为:利用预先存储的对应于所述第一类别的多个合法字段值,对所述第一字段进行匹配,并在匹配成功的情况下,判定所述第一类别通过验证;或,利用预先训练的针对所述第一类别的分类模型,对所述第一字段进行分类,在分类结果指示所述第一字段属于所述第一类别的情况下,判定所述第一类别通过验证。
在一个实施例中,所述比对单元340具体配置为:判断所述若干第一目标API是否属于所述API集合,得到第一判断结果,归入所述第一比对结果;判断所述第一参数是否属于所述参数集合,得到第二判断结果,归入所述第一比对结果;判断所述若干第一隐私类别是否属于所述隐私类别集合,得到第三判断结果,归入所述第一比对结果;判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果。
在一个实施例中,所述比对单元340还配置为:判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果;判断所述若干第二目标API是否属于所述API集合,得到第五判断结果,归入所述第二比对结果;判断所述第二参数是否属于所述参数集合,得到第六判断结果,归入所述第二比对结果。
在一个实施例中,所述评估单元350具体配置为:将所述第一比对结果和第二比对结果共同输入预先训练的第一风险评估模型中,得到第一预测结果,指示所述隐私数据泄漏风险。
在一个实施例中,所述评估单元350具体包括:处理子单元351,配置为根据所述若干系统日志和若干网络流量记录,确定监控指标的指标值,所述监控指标针对请求方API调用行为而预先设定;比对子单元352,配置为将预先获取的所述请求方的历史指标值与所述指标值进行比对,得到第三比对结果;评估子单元353,配置为基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险。
在一个具体的实施例中,所述监控指标中包括以下中的一种或多种:单位时间内请求方向所述服务平台发送的请求消息的条数,单位时间内请求方请求调用的隐私数据所对应的目标对象的个数,单位时间内请求方请求调用的隐私数据所对应的隐私类别的个数。
在另一个具体的实施例中,所述评估子单元353具体配置为:结合预先设定的评估规则,根据所述第一比对结果、第二比对结果和第三比对结果,判断是否发生隐私数据泄漏;或,将所述第一比对结果、第二比对结果和第三比对结果共同输入预先训练的第二风险评估模型中,得到第二预测结果,指示所述隐私数据泄漏风险。
综上,在本说明书实施例提供的针对隐私数据泄漏的风险评估装置中,通过获取请求方调用API产生的系统日志和网络流量记录,以及请求方调用API的权限数据,对网络流量进行解析得到解析数据,再将解析数据与权限数据进行比对,并将系统日志与权限数据进行比对,结合两个比对结果,评估请求方调用API造成隐私数据泄漏的风险,以及时检测、发现请求方的违规、异常调用行为。进一步地,还可以利用获取的系统日志和解析得到的网络流量记录,确定针对请求方行为设定的监控指标的指标值,再将该指标值与历史指标值进行比对,从而进一步提高风险评估结果的准确度和可用性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (30)

1.一种针对隐私数据泄漏的风险评估方法,包括:
获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录;其中,每条系统日志基于所述请求方向所述服务平台发出的调用API的请求消息而生成,并包括,根据所述请求消息确定的若干第一目标API,针对若干第一目标API输入的第一参数,以及所述第一参数所对应的若干第一隐私类别;每条网络流量记录中至少包括所述服务平台针对该请求消息返回的响应消息;
对所述若干网络流量记录进行解析处理,得到解析数据,该解析数据中至少包括API输出数据所对应的若干第二隐私类别;
从所述服务平台获取所述请求方调用API的权限数据,所述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合;
将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果;
至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
2.根据权利要求1所述的方法,其中,获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录,包括:
获取所述请求方调用服务平台提供的API而产生的多条系统日志和多条网络流量记录;
基于预先设定的多个隐私类别,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录。
3.根据权利要求2所述的方法,其中,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录,包括:
利用所述多个隐私类别,对所述多条系统日志进行匹配,将匹配成功的系统日志作为所述若干系统日志;
利用预先基于所述多个隐私类别设定的过滤项,从所述多条网络流量记录中筛选出所述若干网络流量记录,所述过滤项的形式包括以下中的至少一种:自定义UDF函数、关键字段和正则项。
4.根据权利要求1所述的方法,其中,所述网络流量记录还包括所述请求消息,所述解析数据还包括对所述请求消息进行解析得到的若干第二目标API和针对若干第二目标API输入的第二参数。
5.根据权利要求4所述的方法,其中,对所述若干网络流量记录进行所述解析处理,得到解析数据,包括:
利用预先基于多个API设定的API解析规则,从所述若干网络流量记录中解析出所述若干第二目标API,所述API解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项;
利用预先基于多个参数设定的参数解析规则,从所述若干网络流量记录中解析出所述若干第二参数,所述参数解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项。
6.根据权利要求1所述的方法,其中,对所述若干网络流量记录进行解析处理,得到解析数据,包括:
对所述若干网络流量记录进行解析处理,得到所述API输出数据,所述API输出数据中包括多个字段;
确定所述多个字段中若干隐私字段对应的若干第三隐私类别;
将所述若干第三隐私类别作为所述若干第二隐私类别;或,
基于所述若干隐私字段的字段值,对所述若干第三隐私类别进行验证处理,并将通过验证的第三隐私类别归入所述若干第二隐私类别。
7.根据权利要求6所述的方法,其中,确定所述多个字段中若干隐私字段对应的若干第三隐私类别,包括:
基于预先训练的自然语言处理模型,确定所述多个字段中若干隐私字段对应的若干第三隐私类别;或,
基于预先设定的多个正则匹配规则,确定所述多个字段中若干隐私字段对应的若干第三隐私类别。
8.根据权利要求6所述的方法,其中,所述若干隐私字段中包括任意的第一字段,对应所述若干第三隐私类别中的第一类别;其中基于所述若干隐私字段的字段内容,对所述若干第三类别进行验证处理,包括:
利用预先存储的对应于所述第一类别的多个合法字段值,对所述第一字段进行匹配,并在匹配成功的情况下,判定所述第一类别通过验证;或,
利用预先训练的针对所述第一类别的分类模型,对所述第一字段进行分类,在分类结果指示所述第一字段属于所述第一类别的情况下,判定所述第一类别通过验证。
9.根据权利要求1所述的方法,其中,将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,包括:
判断所述若干第一目标API是否属于所述API集合,得到第一判断结果,归入所述第一比对结果;
判断所述第一参数是否属于所述参数集合,得到第二判断结果,归入所述第一比对结果;
判断所述若干第一隐私类别是否属于所述隐私类别集合,得到第三判断结果,归入所述第一比对结果;
其中将所述解析数据与所述权限数据进行比对,得到第二比对结果,包括:
判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果。
10.根据权利要求4所述的方法,其中,将所述解析数据与所述权限数据进行比对,得到第二比对结果,包括:
判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果;
判断所述若干第二目标API是否属于所述API集合,得到第五判断结果,归入所述第二比对结果;
判断所述第二参数是否属于所述参数集合,得到第六判断结果,归入所述第二比对结果。
11.根据权利要求1所述的方法,其中,至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险,包括:
将所述第一比对结果和第二比对结果共同输入预先训练的第一风险评估模型中,得到第一预测结果,指示所述隐私数据泄漏风险。
12.根据权利要求1所述的方法,其中,至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险,包括:
根据所述若干系统日志和若干网络流量记录,确定监控指标的指标值,所述监控指标针对请求方API调用行为而预先设定;
将预先获取的所述请求方的历史指标值与所述指标值进行比对,得到第三比对结果;
基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险。
13.根据权利要求12所述的方法,其中,所述监控指标中包括以下中的一种或多种:单位时间内请求方向所述服务平台发送的请求消息的条数,单位时间内请求方请求调用的隐私数据所对应的目标对象的个数,单位时间内请求方请求调用的隐私数据所对应的隐私类别的个数。
14.根据权利要求12所述的方法,其中,基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险,包括:
结合预先设定的评估规则,根据所述第一比对结果、第二比对结果和第三比对结果,判断是否发生隐私数据泄漏;或,
将所述第一比对结果、第二比对结果和第三比对结果共同输入预先训练的第二风险评估模型中,得到第二预测结果,指示所述隐私数据泄漏风险。
15.一种针对隐私数据泄漏的风险评估装置,包括:
第一获取单元,配置为获取请求方请求调用服务平台中存储的目标对象的隐私数据而产生的若干系统日志和若干网络流量记录;其中,每条系统日志基于所述请求方向所述服务平台发出的调用API的请求消息而生成,并包括,根据所述请求消息确定的若干第一目标API,针对若干第一目标API输入的第一参数,以及所述第一参数所对应的若干第一隐私类别;每条网络流量记录中至少包括所述服务平台针对该请求消息返回的响应消息;
解析单元,配置为对所述若干网络流量记录进行解析处理,得到解析数据,该解析数据中至少包括API输出数据所对应的若干第二隐私类别;
第二获取单元,配置为从所述服务平台获取所述请求方调用API的权限数据,所述权限数据包括所述请求方有权调用的API集合,针对所述API集合有权传入的参数组成的参数集合,以及所述参数集合所对应的隐私类别集合;
比对单元,配置为将所述若干系统日志与所述权限数据进行比对,得到第一比对结果,以及,将所述解析数据与所述权限数据进行比对,得到第二比对结果;
评估单元,配置为至少基于所述第一比对结果和第二比对结果,评估所述请求方调用API的隐私数据泄漏风险。
16.根据权利要求15所述的装置,其中,第一获取单元具体包括:
获取子单元,配置为获取所述请求方调用服务平台提供的API而产生的多条系统日志和多条网络流量记录;
过滤子单元,配置为基于预先设定的多个隐私类别,对所述多条系统日志和多条网络流量记录进行过滤处理,得到所述若干系统日志和若干网络流量记录。
17.根据权利要求16所述的装置,其中,所述过滤子单元具体配置为:
利用所述多个隐私类别,对所述多条系统日志进行匹配,将匹配成功的系统日志作为所述若干系统日志;
利用预先基于所述多个隐私类别设定的过滤项,从所述多条网络流量记录中筛选出所述若干网络流量记录,所述过滤项的形式包括以下中的至少一种:自定义UDF函数、关键字段和正则项。
18.根据权利要求15所述的装置,其中,所述网络流量记录还包括所述请求消息,所述解析数据还包括对所述请求消息进行解析得到的若干第二目标API和针对若干第二目标API输入的第二参数。
19.根据权利要求18所述的装置,其中,所述解析单元还配置为:
利用预先基于多个API设定的API解析规则,从所述若干网络流量记录中解析出所述若干第二目标API,所述API解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项;
利用预先基于多个参数设定的参数解析规则,从所述若干网络流量记录中解析出所述若干第二参数,所述参数解析规则通过以下中的至少一种形式定义:自定义UDF函数、关键字段和正则项。
20.根据权利要求15所述的装置,其中,所述解析单元具体包括:
解析子单元,配置为对所述若干网络流量记录进行解析处理,得到所述API输出数据,所述API输出数据中包括多个字段;
确定子单元,配置为确定所述多个字段中若干隐私字段对应的若干第三隐私类别;
所述解析单元具体还包括:归入子单元,配置为将所述若干第三隐私类别作为所述若干第二隐私类别;或,验证子单元,配置为基于所述若干隐私字段的字段值,对所述若干第三隐私类别进行验证处理,并将通过验证的第三隐私类别归入所述若干第二隐私类别。
21.根据权利要求20所述的装置,其中,所述确定子单元具体配置为:
基于预先训练的自然语言处理模型,确定所述多个字段中若干隐私字段对应的若干第三隐私类别;或,
基于预先设定的多个正则匹配规则,确定所述多个字段中若干隐私字段对应的若干第三隐私类别。
22.根据权利要求20所述的装置,其中,所述若干隐私字段中包括任意的第一字段,对应所述若干第三隐私类别中的第一类别;其中验证子单元具体配置为:
利用预先存储的对应于所述第一类别的多个合法字段值,对所述第一字段进行匹配,并在匹配成功的情况下,判定所述第一类别通过验证;或,
利用预先训练的针对所述第一类别的分类模型,对所述第一字段进行分类,在分类结果指示所述第一字段属于所述第一类别的情况下,判定所述第一类别通过验证。
23.根据权利要求15所述的装置,其中,所述比对单元具体配置为:
判断所述若干第一目标API是否属于所述API集合,得到第一判断结果,归入所述第一比对结果;
判断所述第一参数是否属于所述参数集合,得到第二判断结果,归入所述第一比对结果;
判断所述若干第一隐私类别是否属于所述隐私类别集合,得到第三判断结果,归入所述第一比对结果;
判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果。
24.根据权利要求18所述的装置,其中,所述比对单元还配置为:
判断所述若干第二隐私类别是否属于所述隐私类别集合,得到第四判断结果,归入所述第二比对结果;
判断所述若干第二目标API是否属于所述API集合,得到第五判断结果,归入所述第二比对结果;
判断所述第二参数是否属于所述参数集合,得到第六判断结果,归入所述第二比对结果。
25.根据权利要求15所述的装置,其中,所述评估单元具体配置为:
将所述第一比对结果和第二比对结果共同输入预先训练的第一风险评估模型中,得到第一预测结果,指示所述隐私数据泄漏风险。
26.根据权利要求15所述的装置,其中,所述评估单元具体包括:
处理子单元,配置为根据所述若干系统日志和若干网络流量记录,确定监控指标的指标值,所述监控指标针对请求方API调用行为而预先设定;
比对子单元,配置为将预先获取的所述请求方的历史指标值与所述指标值进行比对,得到第三比对结果;
评估子单元,配置为基于所述第一比对结果、第二比对结果和第三比对结果,评估所述请求方调用API的隐私数据泄漏风险。
27.根据权利要求26所述的装置,其中,所述监控指标中包括以下中的一种或多种:单位时间内请求方向所述服务平台发送的请求消息的条数,单位时间内请求方请求调用的隐私数据所对应的目标对象的个数,单位时间内请求方请求调用的隐私数据所对应的隐私类别的个数。
28.根据权利要求26所述的装置,其中,所述评估子单元具体配置为:
结合预先设定的评估规则,根据所述第一比对结果、第二比对结果和第三比对结果,判断是否发生隐私数据泄漏;或,
将所述第一比对结果、第二比对结果和第三比对结果共同输入预先训练的第二风险评估模型中,得到第二预测结果,指示所述隐私数据泄漏风险。
29.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-14中任一项的所述的方法。
30.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-14中任一项所述的方法。
CN201911131676.3A 2019-11-19 2019-11-19 针对隐私数据泄漏的风险评估方法及装置 Active CN110851872B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911131676.3A CN110851872B (zh) 2019-11-19 2019-11-19 针对隐私数据泄漏的风险评估方法及装置
TW109115224A TWI734466B (zh) 2019-11-19 2020-05-07 針對隱私資料洩漏的風險評估方法及裝置
PCT/CN2020/105106 WO2021098274A1 (zh) 2019-11-19 2020-07-28 针对隐私数据泄漏的风险评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911131676.3A CN110851872B (zh) 2019-11-19 2019-11-19 针对隐私数据泄漏的风险评估方法及装置

Publications (2)

Publication Number Publication Date
CN110851872A CN110851872A (zh) 2020-02-28
CN110851872B true CN110851872B (zh) 2021-02-23

Family

ID=69602179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911131676.3A Active CN110851872B (zh) 2019-11-19 2019-11-19 针对隐私数据泄漏的风险评估方法及装置

Country Status (3)

Country Link
CN (1) CN110851872B (zh)
TW (1) TWI734466B (zh)
WO (1) WO2021098274A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851872B (zh) * 2019-11-19 2021-02-23 支付宝(杭州)信息技术有限公司 针对隐私数据泄漏的风险评估方法及装置
CN112163222A (zh) * 2020-10-10 2021-01-01 哈尔滨工业大学(深圳) 一种恶意软件检测方法及装置
CN113360916A (zh) * 2021-06-18 2021-09-07 奇安信科技集团股份有限公司 应用程序编程接口的风险检测方法、装置、设备及介质
CN114301844B (zh) * 2021-12-30 2024-04-19 天翼物联科技有限公司 物联网能力开放平台流量控制方法、系统及其相关组件
CN114154132B (zh) * 2022-02-10 2022-05-20 北京华科软科技有限公司 一种基于业务系统的数据共享方法
CN115296933B (zh) * 2022-10-08 2022-12-23 国家工业信息安全发展研究中心 一种工业生产数据风险等级评估方法及系统
CN116170331B (zh) * 2023-04-23 2023-08-04 远江盛邦(北京)网络安全科技股份有限公司 Api资产管理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346566A (zh) * 2013-07-31 2015-02-11 腾讯科技(深圳)有限公司 检测隐私权限风险的方法、装置、终端、服务器及系统
WO2015124018A1 (zh) * 2014-02-21 2015-08-27 北京奇虎科技有限公司 基于智能终端设备的应用程序访问方法与装置
CN109598146A (zh) * 2018-12-07 2019-04-09 百度在线网络技术(北京)有限公司 隐私风险评估方法和装置
CN109753808A (zh) * 2018-11-19 2019-05-14 中国科学院信息工程研究所 一种隐私泄漏风险评估方法及装置
CN110334537A (zh) * 2019-05-31 2019-10-15 华为技术有限公司 一种信息处理方法、装置以及服务器

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI355168B (en) * 2007-12-07 2011-12-21 Univ Nat Chiao Tung Application classification method in network traff
US9552478B2 (en) * 2010-05-18 2017-01-24 AO Kaspersky Lab Team security for portable information devices
CN103533546B (zh) * 2013-10-29 2017-03-22 无锡赛思汇智科技有限公司 基于多维度行为特征的隐式用户验证及隐私保护方法
CN103716313B (zh) * 2013-12-24 2016-07-13 中国科学院信息工程研究所 一种用户隐私信息保护方法及系统
WO2017187207A1 (en) * 2016-04-29 2017-11-02 Privitar Limited Computer-implemented privacy engineering system and method
TWI596498B (zh) * 2016-11-02 2017-08-21 FedMR-based botnet reconnaissance method
US10887291B2 (en) * 2016-12-16 2021-01-05 Amazon Technologies, Inc. Secure data distribution of sensitive data across content delivery networks
CN106845236A (zh) * 2017-01-18 2017-06-13 东南大学 一种针对iOS平台的应用程序多维度隐私泄露检测方法及系统
CN109145603A (zh) * 2018-07-09 2019-01-04 四川大学 一种基于信息流的Android隐私泄露行为检测方法和技术
CN110851872B (zh) * 2019-11-19 2021-02-23 支付宝(杭州)信息技术有限公司 针对隐私数据泄漏的风险评估方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346566A (zh) * 2013-07-31 2015-02-11 腾讯科技(深圳)有限公司 检测隐私权限风险的方法、装置、终端、服务器及系统
WO2015124018A1 (zh) * 2014-02-21 2015-08-27 北京奇虎科技有限公司 基于智能终端设备的应用程序访问方法与装置
CN109753808A (zh) * 2018-11-19 2019-05-14 中国科学院信息工程研究所 一种隐私泄漏风险评估方法及装置
CN109598146A (zh) * 2018-12-07 2019-04-09 百度在线网络技术(北京)有限公司 隐私风险评估方法和装置
CN110334537A (zh) * 2019-05-31 2019-10-15 华为技术有限公司 一种信息处理方法、装置以及服务器

Also Published As

Publication number Publication date
TW202121329A (zh) 2021-06-01
WO2021098274A1 (zh) 2021-05-27
CN110851872A (zh) 2020-02-28
TWI734466B (zh) 2021-07-21

Similar Documents

Publication Publication Date Title
CN110851872B (zh) 针对隐私数据泄漏的风险评估方法及装置
CN110399925B (zh) 账号的风险识别方法、装置及存储介质
CN107784067B (zh) 监察信息处理方法、装置、服务器和存储介质
CN111027094B (zh) 针对隐私数据泄漏的风险评估方法及装置
CN106548342B (zh) 一种可信设备确定方法及装置
CN110489415B (zh) 一种数据更新方法及相关设备
CN103875003A (zh) 用于在移动网络环境中把应用列入白名单的系统和方法
CN111324370B (zh) 用于对待上线小程序进行风险处理的方法及装置
CN110909384B (zh) 确定泄露用户信息的业务方的方法及装置
CN111709603A (zh) 基于风控的服务请求处理方法、装置及系统
CN111489175B (zh) 在线身份认证方法、装置、系统及存储介质
CN113326502A (zh) 可疑行为量化评判的安卓应用分类授权法
CN112702410B (zh) 一种基于区块链网络的评估系统、方法及相关设备
CN110061981A (zh) 一种攻击检测方法及装置
CN116915515B (zh) 用于工控网络的访问安全控制方法及系统
CN112085588B (zh) 规则模型的安全性的确定方法、装置和数据处理方法
CN112613893A (zh) 一种用户恶意注册识别方法、系统、设备及介质
CN116032652B (zh) 基于智能交互触控平板的网关认证方法及系统
CN113904828B (zh) 接口的敏感信息检测方法、装置、设备、介质和程序产品
US20240163299A1 (en) Email security diagnosis device based on quantitative analysis of threat elements, and operation method thereof
CN112085590B (zh) 规则模型的安全性的确定方法、装置和服务器
CN115640581A (zh) 一种数据安全风险评估方法、装置、介质及电子设备
CN109636578A (zh) 信贷信息的风险检测方法、装置、设备及可读存储介质
CN114862212A (zh) 互联网资产的管理方法及其装置、电子设备及存储介质
WO2020228564A1 (zh) 一种应用服务方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant