CN112257114A - 一种应用程序隐私合规检测方法、装置、设备和介质 - Google Patents

一种应用程序隐私合规检测方法、装置、设备和介质 Download PDF

Info

Publication number
CN112257114A
CN112257114A CN202011390190.4A CN202011390190A CN112257114A CN 112257114 A CN112257114 A CN 112257114A CN 202011390190 A CN202011390190 A CN 202011390190A CN 112257114 A CN112257114 A CN 112257114A
Authority
CN
China
Prior art keywords
privacy
identified
data type
clause
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011390190.4A
Other languages
English (en)
Inventor
刘佳伟
王德胜
张谦
贾茜
章鹏
刘新源
王心刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011390190.4A priority Critical patent/CN112257114A/zh
Publication of CN112257114A publication Critical patent/CN112257114A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/629Protecting access to data via a platform, e.g. using keys or access control rules to features or functions of an application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种应用程序的隐私合规检测方法、装置、设备和计算机可读介质。方案可以包括:使用多标签分类模型从待识别应用程序的隐私声明文本中识别出隐私声明文本声明采集的第一隐私数据类型集合,并确定待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合,以及获取待识别应用程序被允许采集的标准隐私数据类型集合,然后将所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合三者进行对比分析,可以自动获得APP的隐私合规性检测结果。

Description

一种应用程序隐私合规检测方法、装置、设备和介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种应用程序隐私合规检测方法、装置、设备和计算机可读介质。
背景技术
近年来,用户信息安全问题逐渐成为公众关切的焦点问题,个人信息与数据保护作为互联网治理体系的重要组成部分,也是构建良好互联网秩序的重中之重。随着智能手机的普及,当前移动互联网应用(Application,简称APP)数量已超500万款。虽然各种各样的APP可以为人们的生活带来诸多便利,然而出于利益或其他考量,部分APP在主营业务需求外非法采集用户隐私数据。
在互联网行业中,合规风险可以指在企业的运营或内部管理过程中,因未能与国家的法律、法规、政策以及行业范例或服务水平协定保持一致而导致的风险。APP隐私合规可以是指APP运营方在APP使用过程中采集用户隐私信息需要符合相关监管规定。对于企业来讲,非法采集用户隐私数据可能会给企业带来隐私合规风险,甚至构成违法犯罪,因此企业需要及时了解自身运营的APP的隐私合规情况。对于监管单位来讲,为了规范互联网行业秩序,对非法APP进行整治,也需要及时了解市场上各种APP的隐私合规情况。
因此,亟需提供一种应用程序的隐私合规检测方法,以用于对APP的隐私合规性进行检测。
发明内容
本说明书实施例提供一种应用程序的隐私合规检测方法、装置、设备和计算机可读介质,以实现对应用程序的隐私合规性进行自动检测。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种应用程序的隐私合规检测方法,包括:获取待识别应用程序的隐私声明文本;对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;获取所述待识别应用程序被允许采集的标准隐私数据类型集合;根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
本说明书实施例提供的一种应用程序的隐私合规检测装置,包括:隐私声明文本获取模块,用于获取待识别应用程序的隐私声明文本;文本拆分模块,用于对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;第一隐私数据类型集合确定模块,将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;第二隐私数据类型集合确定模块,确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;标准隐私数据类型集合获取模块,获取所述待识别应用程序被允许采集的标准隐私数据类型集合;决策模块,根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
本说明书实施例提供的一种应用程序的隐私合规检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取待识别应用程序的隐私声明文本;对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;获取所述待识别应用程序被允许采集的标准隐私数据类型集合;根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种应用程序的隐私合规检测方法:获取待识别应用程序的隐私声明文本;对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;获取所述待识别应用程序被允许采集的标准隐私数据类型集合;根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
本说明书一个实施例至少能够达到以下有益效果:通过使用多标签分类模型,从待识别应用程序的隐私声明文本中识别出隐私声明文本声明采集的第一隐私数据类型集合,并确定待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合,以及获取待识别应用程序被允许采集的标准隐私数据类型集合,然后将所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合三者进行对比分析,可以自动获得APP的隐私合规性检测结果,由此,可以使APP运营方及时自查自律,以避免发布APP后由于APP不合规被下架的风险,也可以使APP发布平台或APP监管方及时了解市场上的APP的隐私合规风险,以对APP运营方进行监督和促进APP整改,进行保障用户的隐私信息安全。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种应用程序的隐私合规检测方法的应用场景的示意图;
图2是本说明书实施例提供的一种应用程序的隐私合规检测方法的流程示意图;
图3是本说明书实施例提供的一种多标签分类模型的结构示意图;
图4是本说明书实施例提供的一种实际应用场景下的应用程序的隐私合规检测方法的整体框架示意图;
图5是本说明书实施例提供的一种应用程序的隐私合规检测装置的结构示意图;
图6是本说明书实施例提供的一种应用程序的隐私合规检测设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
近年来,用户信息安全问题逐渐成为公众关切的焦点问题,个人信息与数据保护作为互联网治理体系的重要组成部分,也是构建良好互联网秩序的重中之重。随着智能手机的普及,当前移动互联网应用数量已超500万款。虽然各种各样的APP可以为人们的生活带来诸多便利,然而出于利益或其他考量,部分APP在主营业务需求外非法采集用户隐私数据。例如,2020年“315”打假晚会专门罗列了50余款超规采集用户隐私数据的APP。大量违规收集用户隐私信息,容易带来大规模的群体性数据泄密隐患,对个人财产安全和社会稳定均造成重大影响。
为了更好地对用户隐私进行保护,相关监管部门出台了系列规定或要求,规定了各种服务类型的APP能够采集的用户隐私信息的集合。并且,依据相关监管部门的规定,APP在发布时,需要配上文字版的隐私声明,声明中会罗列出APP运营方宣称采集和不采集的各种隐私数据信息。通常,在开发APP的过程中,应当先按照相关监管规范生成隐私声明文本,然后按照隐私声明文本开发程序代码。然而,在APP真实的代码实现中,可能会采集超过隐私声明内容之外的信息,甚至会与监管规定可采集的隐私信息直接冲突。因此,通常情况下,违规收集用户信息的APP会出现监管规定、隐私声明与代码实现彼此不匹配的情况。
为了帮助企业规避合规风险性,帮助监管单位对非法APP进行整治,或者帮助例如“应用市场”等的应用程序发布平台对平台上发布的APP进行管理,可以对APP代码以及隐私声明进行解析,并将两者解析结果与相关监管规定进行比较,从而判定APP的隐私合规情况。
目前,可以人工将相关监管规范与APP隐私声明文本的内容进行仔细研读,同时在手机上安装对应的APP,再对比APP实际获取的用户信息的范围,最终将相关监管规范、APP隐私声明文本、APP实际采集行为进行人工对比,以判定当前APP的在用户信息采集方面是否合规。但是,由于监管规范文件和隐私声明文本的篇幅一般都比较长,即使是专业法务工作者,也需要为阅读一份监管规范文件或隐私声明文本花费大量的时间,且在手机上手动安装APP并收集APP实际采集行为信息也需要花费大量的时间;并且,对于相关监管规范以及APP隐私声明文本的内容,均需要专业的法务工作者来完成,方案实施的门槛较高。
鉴于此,需要提供一种自动进行APP的隐私合规性检测的方法。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的一种应用程序的隐私合规检测方法的应用场景的示意图。如图1所示,当要对APP进行隐私合规性检测时,可以将该APP对应的由监管机构颁布的监管标准文件102、APP源码103以及该APP对应的隐私声明文本104输入到自动分析系统101中,自动分析系统101可以根据该APP对应的标准文件102、APP源码103以及该APP对应的隐私声明文本104自动检测待识别APP的隐私合规性,并生成待识别APP对应的合规检测信息。在实际应用中,APP的开发运营方、APP发布平台、相关监管部门等,均可以使用本说明书实施例提供的隐私合规信息检测方法来对APP进行隐私合规性的检测。
接下来,将针对说明书实施例提供的一种应用程序的隐私合规检测方法结合附图进行具体说明。
图2为本说明书实施例提供的一种应用程序的隐私合规检测方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器或应用终端的程序。
如图2所示,该流程可以包括以下步骤:
步骤202:获取待识别应用程序的隐私声明文本。
所述待识别应用程序一般可以安装、运行于移动智能终端上。移动智能终端上可以安装有开放式操作系统,能使用无线移动通信技术实现互联网接入,是一种通过下载、安装应用软件和数字内容为用户提供服务的终端产品。
所述隐私声明文本可以指各种APP的隐私声明文本。所述隐私声明文本又可以称为隐私声明文本、用户隐私协议、用户隐私权政策等。通常,在用户注册APP或者使用APP提供的服务时,APP运营方会向用户展示隐私声明文本,并在隐私声明文本中申明所采集用户信息的范围和对应的权利与义务。例如,在隐私声明文本中可以写明需采集的用户隐私数据、需获取的设备权限信息、APP产品定义、APP功能信息、该APP对用户信息的保障与采集信息、用户的权利与义务信息等等。
隐私数据,即秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将用户隐私数据分为个人隐私数据和共同隐私数据。个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。
在本说明实施例中,所述待识别应用程序可以是新开发的APP,或者版本更新后的APP。在实际应用中,在开发出新APP或者对现有APP进行更新之后,APP的运营方需要先检测新开发的APP或者更新后的APP是否合规,检测合规之后,再对APP进行发布以供用户使用,由此,可避免由于发布后的APP不合规而勒令下架或者受到处罚的风险。此外,在新APP上架或版本更新前后,APP发布平台或相关监管部门也可以使用本说明书实施例的方案对APP的隐私合规性进行检测。
步骤204:对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合。
通常,隐私声明文本的篇幅较长,且隐私声明文本中包含的句子通常较长,由此,在本说明书实施例中,为避免在进行隐私声明文本识别时的计算资源消耗过大,先将隐私声明文本进行拆分得到待识别分句集合,再对所述待识别分句集合中的各个待识别分句依次进行识别,最终基于各分句对应的识别结果,来得到与所述隐私声明文本对应的识别结果。
可选地,可以基于各种分句符来对所述隐私声明文本进行拆分。常用的分句符可以包括例如句号、省略号、感叹号、分号、换行符等,不限于此,具体的分句策略可以根据实际需要和基于经验来设定。
步骤206:将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合。所述多标签分类模型为预先采用带标签的分句样本进行训练得到的。
多标签分类指的是,一条数据可能有一个或多个标签。例如,在一个隐私声明分句中,既可以声明获取位置信息,也可以声明获取手机号、身份证号信息等,则该句子会具有位置信息、手机号、身份证号信息等这些隐私数据类型的标签。
多标签分类模型(Multi-label classification)是有监督学习(SupervisedLearning)的一种,其主要目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。进行多标签分类,可以使用传统的机器学习算法模型,例如,可以采用K邻近算法(ML-KNN)、树模型(ML-DT)、支持向量机模型(Rank-SVM)等。在本说明书实施例中,优选地,所述多标签分类模型可以采用神经网络模型。所述神经网络模型具体可以包括卷积神经网络(CNN)模型、循环神经网络(RNN)模型、长短期记忆网络(LSTM)模型或Transform模型等,不限于此。
采用训练完成的多标签分类模型可以将隐私声明文本中声明采集的用户信息的隐私数据类型识别出来,将识别出的隐私数据类型标签组成标签集合。在本说明书实施例中,将隐私声明文本中声明采集的隐私数据类型构成的集合称为第一隐私数据类型集合。
作为示例,若在分句中包含诸如“采集……位置信息”的表述,可以认为该分句声明采集位置信息这一隐私数据类型的用户信息。若在分句中包含诸如“收集……手机号、身份证号”的表述,可以认为该分句声明采集手机号和身份证号这两种隐私数据类型的用户信息。在此示出的仅是示例,隐私声明文件中声明采集用户信息的形式不限于此,隐私声明文件可能声明采集的隐私数据类型也不限于此。
步骤208:确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合。
源码,即源代码,也称源程序,是指未编译的按照一定的程序设计语言规范书写的文本文件,是一系列人类可读的计算机语言指令。在现代程序语言中,源代码通常以文本文件的格式呈现。源码被编译后可以生成目标代码,即,生成计算机可以识别和执行的二进制指令。
通常,待识别应用程序的源码中可以写明该待识别应用程序的功能、待识别应用程序需要获取的信息等。在本说明书实施例中,将源码中表明的待获取的隐私数据类型构成的集合称为第二隐私数据类型集合。
步骤210:获取所述待识别应用程序被允许采集的标准隐私数据类型集合。
标准隐私数据类型集合中的标准隐私数据类型信息可以是第三方机构颁布的标准文件中的信息。第三方机构可以是对APP的合规性进行监管的机构,例如国家相关监管部门。标准文件可以是用于对APP的信息使用规范进行规定的文件。例如,标准文件中可以明确规定各类APP在实际应用过程中被允许获取的用户隐私信息。在本说明书实施例中,将从标准文件中确定的APP被允许采集的隐私数据类型构成的集合称为标准隐私数据类型集合。
在实际应用中,不同服务类型的APP实现其功能所需的数据可能不同,因此,对于不同的服务类型的APP,标准文件规定的被允许采集的标准隐私数据类型可以不同。
步骤212:根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
为满足隐私合规的条件,对于APP运营方而言,应当根据相关监管机构出台的标准文件来起草隐私声明文本,再按照隐私声明文本来编写APP的源码。APP源码中表示获取的信息、隐私声明文本中声明获取的信息、第三方机构的标准文件中规定的允许获取的信息,三者应当保持一致。当进行隐私合规的分析时,应当以标准文件中规定的信息为基准,将从APP源码中确定的信息以及从隐私声明文本中确定的信息与标准文件中规定的信息进行比对。
通常情况下,违规收集用户信息的App会出现标准文件规定允许采集的信息、隐私声明中声明采集的信息以及代码实现中实际采集的信息不匹配的情况。为了帮助企业规避合规风险性、帮助监管单位对非法App进行整治等目的,进行App的隐私合规性检测需要同时对App源码以及隐私声明文本进行解析,然后将两者解析结果与相关规定的标准文件进行比较,从而判定App是否隐私合规。
例如,APP在使用过程中涉及获取的用户隐私信息可以例如包括用户身份信息、交易信息、位置信息、通讯信息、网络访问日志、账号信息、好友信息、账户信息等隐私数据类型。在实际应用中,APP获取的一说你数据类型不限于此,本说明书实施例中的多标签分类模型可识别的隐私数据类型也不限于此。
应当理解,本说明书一个或多个实施例所述的方法中,部分步骤的顺序可以根据实际需要调整,或者可以省略部分步骤。尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
图2中的方法,通过使用多标签分类模型,从待识别应用程序的隐私声明文本中识别出隐私声明文本声明采集的第一隐私数据类型集合,并确定待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合,以及获取待识别应用程序被允许采集的标准隐私数据类型集合,然后将所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合三者进行对比分析,可以自动获得APP的合规性检测结果,由此,可以使APP运营方及时自查自律,以避免发布APP后由于APP不合规被下架的风险,也可以使APP发布平台或APP监管方及时了解市场上的APP的隐私合规风险,以对APP运营方进行监督和促进APP整改,保障用户的隐私信息安全。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方式,下面进行说明。
在现有的方案中,一般由专门的APP合规监管人员来识别隐私声明文本中声明采集的用户信息的隐私数据类型,但是人为识别往往费时费力,精度和效率都比较低。而基于本说明书实施例的方案,可以采用训练的多标签分类模型来对隐私声明文本中声明采集的用户信息的隐私数据类型进行识别。
在本说明的实施例中,所述将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合之前,可以基于标记的样本来训练得到所述训练完成的多标签分类模型。具体地,可以通过构建一个基于深度神经网络的分类器来实现对样本的多标签分类。
对所述多标签分类模型进行训练的过程,具体可以包括:获取携带已知标签的隐私声明分句样本;所述已知标签反映所述隐私声明分句样本声明采集的隐私数据类型;将所述隐私声明分句样本输入至待训练的多标签分类模型,得到所述隐私声明分句样本的预测标签;基于所述隐私声明分句样本的所述已知标签和所述预测标签,优化所述多标签分类模型的模型参数,得到训练完成的多标签分类模型。
在实际应用中,所述已知标签和所述预测标签均可以是标签向量,标签向量中的各值分别表示样本是否具有对应的标签。若待识别的隐私数据类型有m种,则标签向量可以为m维的向量。例如,若待识别隐私数据类型有7种,则标签向量可以为7维。假设待识别隐私数据类型的序列为[用户身份信息,交易信息,位置信息,网络访问日志,账号信息,好友信息,账户信息],若某样本对应的标签向量为[1,1,0,0,1,0,0],其中,1表示该样本具有对应的标签,0表示该样本不具有对应的标签,则该标签向量意为该样本声明识别的隐私数据类型为用户身份信息、交易信息和账号信息。
在模型训练过程中,所述基于所述隐私声明分句样本的所述已知标签和所述预测标签,优化所述多标签分类模型的模型参数,得到训练完成的多标签分类模型,具体可以包括:将所述隐私声明分句样本的所述已知标签和所述预测标签代入损失函数,利用反向传播算法优化模型参数;所述损失函数值满足预设条件后,保存优化后的模型参数,得到训练完成的多标签分类模型。
在本说明书实施例中,将多标签分类模型转换为多个二分类的问题。由此,所述将所述隐私声明分句样本的所述已知标签和所述预测标签代入损失函数,利用反向传播算法优化模型参数,具体可以包括:将所述隐私声明分句样本的所述已知标签和所述预测标签代入损失函数,得到与所述已知标签反映采集的隐私数据类型对应的损失函数值;基于所述多标签分类模型需识别的各目标隐私数据类型分别对应的损失函数值,得到总体损失函数值;基于所述总体损失函数值,利用反向传播算法优化模型参数。
例如,对于句子T,通过深度网络模型后可以得到n维的特征向量H。深度网络模型的输出层的节点数与多分类模型需识别的目标隐私数据类型的数量一致,设需识别的目标隐私数据类型有m个,则输出层的节点数为m。输出层中的全连接矩阵W可以为m*n维的矩阵,或者可以认为是m个1*n维的投影矩阵W_k。对于所述多分类模型需识别的m个目标隐私数据类型中的第k目标隐私数据类型,其投影矩阵为W_k,则所述第k目标隐私数据类型对应的损失函数值可以为loss_k = MeanSquareError (sigmoid(W_k*H+b), labels)。其中,投影矩阵W_k以及b均是多分类模型中待训练的参数。那么,所述总体损失函数值可以为loss_overall = loss_1 + loss_2 + .......loss_m。需要说明的是,在该示例中,使用sigmoid函数作为激活函数,使用MeanSquareError来计算损失函数,均是为了便于说明而给出的示例,并不构成对本申请的限定。例如,也可以使用binary_corssentropy函数作为损失函数。
在得到训练完成的多标签分类模型后,所述将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合,具体可以包括对于所述待识别分句集合中的任意一个待识别分句,执行:将所述任意一个待识别分句输入所述训练完成的多标签分类模型,得到第一识别向量,所述第一识别向量为m维,m为所述多标签分类模型需识别的目标隐私数据类型的数量;将所述第一识别向量中的各数值分别输入至激活函数,得到第二识别向量,所述第二识别向量为m维,所述第二识别向量中的各值大于0且小于1;根据所述第二识别向量,确定所述待识别分句声明采集的隐私数据类型。其中,所述第一识别向量可以是深度神经网络输出的logits向量。
在实际应用中,例如,可以将基于待识别分句T提取得到的句向量H,使用投影矩阵W_k投影后得到第一识别向量中的第一实数W_k∙H。然后,可以利用激活函数f(x)将第一识别向量中的第一实数W_k∙H进行映射,由此得到第二识别向量中的第二实数f(W_k∙H),所述第二实数的值可以在0-1之间。其中,所述激活函数具体可以为sigmoid函数。
更具体地,所述根据所述第二识别向量,确定所述待识别分句声明采集的隐私数据类型,可以包括:若所述第二识别向量中的第k数值小于预设阈值,则确定所述待识别分句未声明采集所述第k数值对应的第k目标隐私数据类型;若所述第二识别向量中的第k数值大于或等于预设阈值,则确定所述待识别分句声明采集所述第k数值对应的所述第k目标隐私数据类型。其中,所述阈值例如可以为0.5。
图3示出了本说明书实施例的多标签分类模型的结构示意图。如图3所示,在实际应用中,首先采用神经网络作为句向量提取器,对分句进行编码,得到句向量;然后通过投影操作将句向量投影为一个实数;之后再利用sigmoid激活函数将该实数映射到0-1区间中;最终通过判别函数来得到分句样本对应的标签类别。需要说明的是,句向量提取器可以采用各种不同的模型来生成,例如卷积神经网络(CNN)、循环神经网络(RNN)等,本申请对此不进行具体限定。
假定待识别的目标隐私数据类型有
Figure 810746DEST_PATH_IMAGE001
种为
Figure 617028DEST_PATH_IMAGE002
,给定某自然句
Figure 994920DEST_PATH_IMAGE003
,该自然句包含
Figure 861245DEST_PATH_IMAGE004
个字符。那么,针对每一个隐私数据种类
Figure 121325DEST_PATH_IMAGE005
,要求得到如下 判别结果:
Figure 996877DEST_PATH_IMAGE006
(公式1)
其中,
Figure 26013DEST_PATH_IMAGE007
表示模型识别结果为第
Figure 328818DEST_PATH_IMAGE005
类的概率。若第k类的概率大于等于0.5则认 为被识别的分句声明要采集第k种目标隐私数据类型
Figure 13877DEST_PATH_IMAGE008
的用户信息。其中
Figure 427541DEST_PATH_IMAGE007
求解方 式如下:
Figure 311184DEST_PATH_IMAGE009
(公式2)
其中,
Figure 50470DEST_PATH_IMAGE010
为自然句T的向量化表示,
Figure 16633DEST_PATH_IMAGE011
为输出层的全连接矩阵。
在本说明书实施例中,所述确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合,具体可以包括:获取所述待识别应用程序的源码;对所述源码进行解析识别,确定所述源码中表示的所述待识别应用程序采集的第二隐私数据类型集合。
在APP的源码中,可以至少编写清楚该APP的功能、使用该APP时该APP会采集的信息等。因此,对源码进行解析识别,就可以得到源码中表明的需要获取的隐私数据类型。
具体地,例如对于安卓系统而言,可以识别APP的源码中的码关键字,从而根据所述码关键字来确定该APP获取的隐私数据类型。表1示出了,安卓系统中码关键字与系统权限以及获取的隐私数据类型的映射表。如表1中所示,例如,若APP源码中包含“android.permission.RECORD_AUDIO”这一码关键字,则该APP可以获取设备的录音权限,进而,可以获得“用户语音信息”这一隐私数据类型。
表1 安卓系统中码关键字与系统权限以及获取的隐私数据类型的映射表
码关键字 设备权限 隐私数据类型
android.permission.WRITE_SMS 允许程序写短信 短信
android.permission.RECORD_AUDIO 允许程序录制声音 语音信息
android.permission.READ_PROFILE 访问用户个人资料 用户个人资料
android.permission.READ_CONTACTS 允许程序访问通讯录 通讯录
android.permission.READ_CALL_LOG 允许程序读取通话记录 通话记录
android.permission.READ_CALENDAR 允许程序读取用户的日程信息 日历
android.permission.CAPTURE_VIDEO_OUTPUT 允许应用程序捕获视频输出;不被第三方应用使用 视频信息
android.permission.CAPTURE_AUDIO_OUTPUT 允许应用程序捕获音频输出;不被第三方应用使用 语音信息
android.permission.CAMERA 允许应用程序访问摄像头进行拍照 照片
android.permission.ACCESS_WIFI_STATE 允许应用程序获取当前WiFi接入的状态以及WLAN热点的信息 位置信息
需要说明的是,表1中列举的码关键字及其对应获取的设备权限和隐私数据类型仅作为示例,不构成对本申请应用范围的限定。
在本说明书实施例中,所述获取所述待识别应用程序被允许采集的标准隐私数据类型集合,具体可以包括:确定所述待识别应用程序所属的服务类型;根据所述服务类型获取所述应用程序对应的标准文件;从所述标准文件中确定所述应用程序被允许采集的标准隐私数据类型集合。其中,所述标准文件由第三方机构颁布,例如,由相关监管机构颁布。
在实际应用中,APP的服务类型可以是多种多样的。APP的服务类型可以包括地图导航、即时通讯、网络约车、网络社区、网络支付、新闻资讯、网络购物、短视频、交通票务、金融借贷、安全管理等类型,不限于此。
APP对应的标准隐私数据类型,可以是由第三方监管机构颁布的、通过APP的相关使用要求和/或相关法律法规进行规定的、该APP为实现其功能所需的最小必要信息表。最小必要信息可以指的是保障某一服务类型的APP正常运行所最少够用的个人信息,包括一旦缺少将导致该类型服务无法实现或无法正常运行的个人信息以及法律法规要求必须收集的个人信息。
作为示例,表2示出了网络支付类的APP被允许获取的最小必要信息。网络支付类的APP为用户提供在收付款人之间转移货币资金的服务(如非银支付、网银支付),包括支付、提现、转账、账单等功能。该服务类型的最小必要信息如表2所示:
表2 网络支付类APP的最小必要信息
Figure 968408DEST_PATH_IMAGE012
通常,不同服务类型的APP实现其功能所需的最小必要信息可以是不同的,即,不同服务类型的APP对应的标准隐私数据类型集合可以是不同的。在实际应用时,不同服务类型的APP可以对应不同的标准文件,例如,网络支付类型的APP对应的标准文件中可以包含如上表2的内容。可选地,一个标准文件也可以对应于多种服务类型的APP,在这种情况下,需要存储APP的服务类型与该服务类型的APP被允许获取的隐私数据类型(例如,最小必要信息)之间的映射关系。
在实际应用中,获取标准文件的步骤可以预先离线完成。例如,可以是通过人工方式获取或者使用程序模型获取,从APP的相关使用要求和/或相关法律法规中来获得标准文件中的信息。此外,如表2中所示,在标准文件中可以与最小必要信息对应地,存储获取到该最小必要信息的相关使用要求和/或相关法律法规依据。
在本说明书实施例中,所述根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,具体可以包括:将所述第一隐私数据类型集合、所述第二隐私数据类型集合以及所述标准隐私数据类型集合进行对比,确定三者彼此不一致的部分,以得到合规检测信息。更具体地,可以分别将所述第一隐私数据类型集合和所述第二隐私数据类型集合与所述标准隐私数据类型集合进行对比,且可以将所述第二隐私数据类型集合与所述第一隐私数据类型集合进行对比。
在可选的实施例中,所述根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,具体可以包括:判断所述第一隐私数据类型集合是否为所述标准隐私数据类型集合的子集,得到第一判断结果;若所述第一判断结果为否,则确定所述待识别应用程序不满足隐私合规要求;若所述第一判断结果为是,则判断所述第二隐私数据类型集合是否为所述标签集合的子集,得到第二判断结果;若所述第二判断结果为否,则确定所述待识别应用程序不满足隐私合规要求;若所述第一判断结果和所述第二判断结果均为是,可以认为所述待识别应用程序满足隐私合规要求。
根据上面的说明,本说明书实施例提供的一种实际应用场景下,一种应用程序的隐私合规检测方法的整体框架示意图,如图4所示。
如图4中所示,虚线框中的方案可以包括两个阶段,训练阶段,利用提前标注好的数据训练得到如图3所示的多标签分类模型;测试阶段,给定某个App的隐私声明文本,首先对文本进行分句,将分句之后的结果依次输入到训练好的多标签分类模型中进行预测,将预测的结果汇总到声明采集的第一隐私数据类型集合中。
在图4所示的方案的整体框架中,决策流程中,会输入来自三方的数据,包括使用多标签分类模型从APP隐私声明中识别出的隐私声明文本声明采集的第一隐私数据类型集合、从APP源码中解析得到的APP实际采集的第二隐私数据类型集合以及从基于相关监管机构规定得到的标准文件中解析出的APP被允许采集的标准隐私数据类型集合,最终通过比对三者得出APP的隐私合规性结论。
在现有技术中,也可以基于命名实体识别(Named Entity Recognition,简称NER)模型来对隐私声明文本进行分析,例如,利用诸如条件随机场(CRF)、长短时记忆网络(LSTM)等时序模型,使用提前标注的数据构建命名实体识别模型,而后利用命名实体模型从App隐私声明文本中抽取声明采集的隐私数据类型。然而在实际应用中,尽管NER模型识别粒度精细,能够精确定位到隐私数据的位置信息,但是为了训练NER模型,需要大量的精标数据;并且,NER模型识别效果容易受到空白句(未声明要采集隐私数据的语句)的影响,尤其是,对于一些包含否定词的语句,例如“不采集……隐私数据信息”,“不收集……位置信息”等,命名实体识别方案容易将其误识别为声明采集用户信息。
在本说明书实施例中提供的多标签分类模型,对于样本的标注,无需进行例如BIOE标注,样本标注代价低。并且,采用基于深度网络的多标签分类模型,无需提前预判空白句,受否定词的影响不大,识别效率高。再者,由于将多标签分类问题拆解为多个二分类问题,当新增隐私数据类型时,可以更快地实现模型的训练,模型可扩展性高。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图5为本说明书实施例提供的对应于图2的一种应用程序的隐私合规检测装置的结构示意图。如图5所示,该装置可以包括:
隐私声明文本获取模块502,用于获取待识别应用程序的隐私声明文本;
文本拆分模块504,用于对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;
第一隐私数据类型集合确定模块506,将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;
第二隐私数据类型集合确定模块508,确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;
标准隐私数据类型集合获取模块510,获取所述待识别应用程序被允许采集的标准隐私数据类型集合;
决策模块512,根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
基于图5的装置,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,所述装置还可以包括模型训练模块,用于:获取携带已知标签的隐私声明分句样本;所述已知标签反映所述隐私声明分句样本声明采集的隐私数据类型;将所述隐私声明分句样本输入至待训练的多标签分类模型,得到所述隐私声明分句样本的预测标签;基于所述隐私声明分句样本的所述已知标签和所述预测标签,优化所述多标签分类模型的模型参数,得到训练完成的多标签分类模型。
可选的,所述第一隐私数据类型集合确定模块506,具体可以用于:将所述任意一个待识别分句输入所述训练完成的多标签分类模型,得到第一识别向量;所述第一识别向量为m维;m为所述多标签分类模型需识别的目标隐私数据类型的数量;将所述第一识别向量中的各数值分别输入至激活函数,得到第二识别向量;所述第二识别向量为m维;根据所述第二识别向量,确定所述待识别分句声明采集的隐私数据类型。
可选的,所述多标签分类模型包括神经网络模型;所述神经网络模型具体包括CNN模型、RNN模型、LSTM模型或Transform模型。
可选的,所述第二隐私数据类型集合确定模块508,具体可以用于:获取所述待识别应用程序的源码;对所述源码进行解析识别,确定所述源码中表示的所述待识别应用程序采集的第二隐私数据类型集合。
可选的,所述标准隐私数据类型集合获取模块510,具体可以用于:确定所述待识别应用程序所属的服务类型;根据所述服务类型获取所述应用程序对应的标准文件;所述标准文件由第三方机构颁布;从所述标准文件中确定所述应用程序被允许采集的标准隐私数据类型集合。
可选的,所述决策模块512,具体可以用于:判断所述第一隐私数据类型集合是否为所述标准隐私数据类型集合的子集,得到第一判断结果;若所述第一判断结果为否,则确定所述待识别应用程序不满足隐私合规要求;若所述第一判断结果为是,则判断所述第二隐私数据类型集合是否为所述标签集合的子集,得到第二判断结果;若所述第二判断结果为否,则确定所述待识别应用程序不满足隐私合规要求。
可以理解,上述的各模块是指计算机程序或者程序段,用于执行某一项或多项特定的功能。此外,上述各模块的区分并不代表实际的程序代码也必须是分开的。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图6为本说明书实施例提供的对应于图2的一种应用程序的隐私合规检测设备的结构示意图。如图6所示,设备600可以包括:
至少一个处理器610;以及,
与所述至少一个处理器通信连接的存储器630;其中,
所述存储器630存储有可被所述至少一个处理器610执行的指令620,所述指令被所述至少一个处理器610执行,以使所述至少一个处理器610能够:
获取待识别应用程序的隐私声明文本;
对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;
将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;
确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;
获取所述待识别应用程序被允许采集的标准隐私数据类型集合;
根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下方法:
获取待识别应用程序的隐私声明文本;
对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;
将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;
确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;
获取所述待识别应用程序被允许采集的标准隐私数据类型集合;
根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
上述对本说明书特定实施例进行了描述,在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。
本说明书实施例提供的装置、设备与方法是对应的,因此,装置、设备也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (20)

1.一种应用程序的隐私合规检测方法,包括:
获取待识别应用程序的隐私声明文本;
对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;
将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;
确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;
获取所述待识别应用程序被允许采集的标准隐私数据类型集合;
根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
2.如权利要求1所述的方法,所述将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合之前,还包括:
获取携带已知标签的隐私声明分句样本;所述已知标签反映所述隐私声明分句样本声明采集的隐私数据类型;
将所述隐私声明分句样本输入至待训练的多标签分类模型,得到所述隐私声明分句样本的预测标签;
基于所述隐私声明分句样本的所述已知标签和所述预测标签,优化所述多标签分类模型的模型参数,得到训练完成的多标签分类模型。
3.如权利要求2所述的方法,所述基于所述隐私声明分句样本的所述已知标签和所述预测标签,优化所述多标签分类模型的模型参数,得到训练完成的多标签分类模型,具体包括:
将所述隐私声明分句样本的所述已知标签和所述预测标签代入损失函数,利用反向传播算法优化模型参数;
所述损失函数值满足预设条件后,保存优化后的模型参数,得到训练完成的多标签分类模型。
4.如权利要求3所述的方法,所述将所述隐私声明分句样本的所述已知标签和所述预测标签代入损失函数,利用反向传播算法优化模型参数,具体包括:
将所述隐私声明分句样本的所述已知标签和所述预测标签代入损失函数,得到与所述已知标签反映采集的隐私数据类型相对应的损失函数值;
基于所述多标签分类模型需识别的各目标隐私数据类型分别对应的损失函数值,得到总体损失函数值;
基于所述总体损失函数值,利用反向传播算法优化模型参数。
5.如权利要求1所述的方法,所述将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合,具体包括:对于所述待识别分句集合中的任意一个待识别分句,
将所述任意一个待识别分句输入所述训练完成的多标签分类模型,得到第一识别向量;所述第一识别向量为m维;m为所述多标签分类模型需识别的目标隐私数据类型的数量;
将所述第一识别向量中的各数值分别输入至激活函数,得到第二识别向量;所述第二识别向量为m维;
根据所述第二识别向量,确定所述待识别分句声明采集的隐私数据类型。
6.如权利要求5所述的方法,所述根据所述第二识别向量,确定所述待识别分句声明采集的隐私数据类型,具体包括:
若所述第二识别向量中的第k数值小于预设阈值,则确定所述待识别分句未声明采集所述第k数值对应的第k目标隐私数据类型;
若所述第二识别向量中的第k数值大于或等于预设阈值,则确定所述待识别分句声明采集所述第k数值对应的所述第k目标隐私数据类型。
7.如权利要求1所述的方法,所述多标签分类模型包括神经网络模型;所述神经网络模型具体包括CNN模型、RNN模型、LSTM模型或Transform模型。
8.如权利要求1所述的方法,所述确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合,具体包括:
获取所述待识别应用程序的源码;
对所述源码进行解析识别,确定所述源码中表示的所述待识别应用程序采集的第二隐私数据类型集合。
9.如权利要求1所述的方法,所述获取所述待识别应用程序被允许采集的标准隐私数据类型集合,具体包括:
确定所述待识别应用程序所属的服务类型;
根据所述服务类型获取所述应用程序对应的标准文件;所述标准文件由第三方机构颁布;
从所述标准文件中确定所述应用程序被允许采集的标准隐私数据类型集合。
10.如权利要求1所述的方法,所述根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,具体包括:
判断所述第一隐私数据类型集合是否为所述标准隐私数据类型集合的子集,得到第一判断结果;
若所述第一判断结果为否,则确定所述待识别应用程序不满足隐私合规要求。
11.如权利要求10所述的方法,所述判断所述第一隐私数据类型集合是否为所述标准隐私数据类型集合的子集之后,还包括:
若所述第一判断结果为是,则判断所述第二隐私数据类型集合是否为所述标签集合的子集,得到第二判断结果;
若所述第二判断结果为否,则确定所述待识别应用程序不满足隐私合规要求。
12.一种应用程序的隐私合规检测装置,包括:
隐私声明文本获取模块,用于获取待识别应用程序的隐私声明文本;
文本拆分模块,用于对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;
第一隐私数据类型集合确定模块,用于将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;
第二隐私数据类型集合确定模块,用于确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;
标准隐私数据类型集合获取模块,用于获取所述待识别应用程序被允许采集的标准隐私数据类型集合;
决策模块,用于根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
13.如权利要求12所述的装置,还包括模型训练模块,用于:
获取携带已知标签的隐私声明分句样本;所述已知标签反映所述隐私声明分句样本声明采集的隐私数据类型;
将所述隐私声明分句样本输入至待训练的多标签分类模型,得到所述隐私声明分句样本的预测标签;
基于所述隐私声明分句样本的所述已知标签和所述预测标签,优化所述多标签分类模型的模型参数,得到训练完成的多标签分类模型。
14.如权利要求12所述的装置,所述第一隐私数据类型集合确定模块,具体用于:
将所述任意一个待识别分句输入所述训练完成的多标签分类模型,得到第一识别向量;所述第一识别向量为m维;m为所述多标签分类模型需识别的目标隐私数据类型的数量;
将所述第一识别向量中的各数值分别输入至激活函数,得到第二识别向量;所述第二识别向量为m维;
根据所述第二识别向量,确定所述待识别分句声明采集的隐私数据类型。
15.如权利要求12所述的装置,所述多标签分类模型包括神经网络模型;所述神经网络模型具体包括CNN模型、RNN模型、LSTM模型或Transform模型。
16.如权利要求12所述的装置,所述第二隐私数据类型集合确定模块,具体用于:
获取所述待识别应用程序的源码;
对所述源码进行解析识别,确定所述源码中表示的所述待识别应用程序采集的第二隐私数据类型集合。
17.如权利要求12所述的装置,所述标准隐私数据类型集合获取模块,具体用于:
确定所述待识别应用程序所属的服务类型;
根据所述服务类型获取所述应用程序对应的标准文件;所述标准文件由第三方机构颁布;
从所述标准文件中确定所述应用程序被允许采集的标准隐私数据类型集合。
18.如权利要求12所述的装置,所述决策模块,具体用于:
判断所述第一隐私数据类型集合是否为所述标准隐私数据类型集合的子集,得到第一判断结果;
若所述第一判断结果为否,则确定所述待识别应用程序不满足隐私合规要求;
若所述第一判断结果为是,则判断所述第二隐私数据类型集合是否为所述标签集合的子集,得到第二判断结果;
若所述第二判断结果为否,则确定所述待识别应用程序不满足隐私合规要求。
19.一种应用程序的隐私合规检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待识别应用程序的隐私声明文本;
对所述隐私声明文本进行拆分,得到与所述隐私声明文本对应的待识别分句集合;
将所述待识别分句集合中的各待识别分句输入至训练完成的多标签分类模型,得到所述隐私声明文本声明采集的第一隐私数据类型集合;
确定所述待识别应用程序的源码中表示的所述待识别应用程序采集的第二隐私数据类型集合;
获取所述待识别应用程序被允许采集的标准隐私数据类型集合;
根据所述第一隐私数据类型集合、所述第二隐私数据类型集合和所述标准隐私数据类型集合,得到合规检测信息,所述合规检测信息用于反映所述待识别应用程序的隐私合规性。
20.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至11中任一项所述的应用程序的隐私合规检测方法。
CN202011390190.4A 2020-12-02 2020-12-02 一种应用程序隐私合规检测方法、装置、设备和介质 Pending CN112257114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011390190.4A CN112257114A (zh) 2020-12-02 2020-12-02 一种应用程序隐私合规检测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011390190.4A CN112257114A (zh) 2020-12-02 2020-12-02 一种应用程序隐私合规检测方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112257114A true CN112257114A (zh) 2021-01-22

Family

ID=74225787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011390190.4A Pending CN112257114A (zh) 2020-12-02 2020-12-02 一种应用程序隐私合规检测方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112257114A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051613A (zh) * 2021-03-15 2021-06-29 Oppo广东移动通信有限公司 隐私政策检测方法、装置、电子设备及可读存储介质
CN113283232A (zh) * 2021-05-31 2021-08-20 支付宝(杭州)信息技术有限公司 自动解析文本中隐私信息的方法和装置
CN113282955A (zh) * 2021-06-01 2021-08-20 上海交通大学 隐私政策中隐私信息提取方法、系统、终端及介质
CN113326536A (zh) * 2021-06-02 2021-08-31 支付宝(杭州)信息技术有限公司 应用程序的合规性判别方法和装置
CN113378231A (zh) * 2021-07-08 2021-09-10 杭州煋辰数智科技有限公司 一种大数据应用开放平台的隐私计算方法及应用
CN113505374A (zh) * 2021-07-12 2021-10-15 恒安嘉新(北京)科技股份公司 一种信息采集范围检测方法、装置、电子设备和介质
CN113688033A (zh) * 2021-07-20 2021-11-23 荣耀终端有限公司 一种隐私合规检测方法及计算机可读存储介质
CN113792341A (zh) * 2021-09-15 2021-12-14 百度在线网络技术(北京)有限公司 应用程序的隐私合规自动化检测方法、装置、设备及介质
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240694A (zh) * 2020-01-03 2020-06-05 北京小米移动软件有限公司 应用检测方法、应用检测装置及存储介质
CN111753322A (zh) * 2020-07-03 2020-10-09 烟台中科网络技术研究所 一种移动App权限列表自动核验方法及系统
CN111835756A (zh) * 2020-07-10 2020-10-27 深圳市网安计算机安全检测技术有限公司 App隐私合规检测方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240694A (zh) * 2020-01-03 2020-06-05 北京小米移动软件有限公司 应用检测方法、应用检测装置及存储介质
CN111753322A (zh) * 2020-07-03 2020-10-09 烟台中科网络技术研究所 一种移动App权限列表自动核验方法及系统
CN111835756A (zh) * 2020-07-10 2020-10-27 深圳市网安计算机安全检测技术有限公司 App隐私合规检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宁吉哲: "《稳中向好的中国经济 2016年全国统计分析报告集》", 31 July 2017 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051613A (zh) * 2021-03-15 2021-06-29 Oppo广东移动通信有限公司 隐私政策检测方法、装置、电子设备及可读存储介质
CN113283232A (zh) * 2021-05-31 2021-08-20 支付宝(杭州)信息技术有限公司 自动解析文本中隐私信息的方法和装置
CN113282955A (zh) * 2021-06-01 2021-08-20 上海交通大学 隐私政策中隐私信息提取方法、系统、终端及介质
CN113326536A (zh) * 2021-06-02 2021-08-31 支付宝(杭州)信息技术有限公司 应用程序的合规性判别方法和装置
CN113378231A (zh) * 2021-07-08 2021-09-10 杭州煋辰数智科技有限公司 一种大数据应用开放平台的隐私计算方法及应用
CN113505374A (zh) * 2021-07-12 2021-10-15 恒安嘉新(北京)科技股份公司 一种信息采集范围检测方法、装置、电子设备和介质
CN113688033A (zh) * 2021-07-20 2021-11-23 荣耀终端有限公司 一种隐私合规检测方法及计算机可读存储介质
CN113792341A (zh) * 2021-09-15 2021-12-14 百度在线网络技术(北京)有限公司 应用程序的隐私合规自动化检测方法、装置、设备及介质
CN113792341B (zh) * 2021-09-15 2023-10-13 百度在线网络技术(北京)有限公司 应用程序的隐私合规自动化检测方法、装置、设备及介质
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品
CN114492409B (zh) * 2022-01-27 2022-12-20 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Similar Documents

Publication Publication Date Title
CN112199506B (zh) 一种应用程序的信息检测方法、装置及设备
CN112257114A (zh) 一种应用程序隐私合规检测方法、装置、设备和介质
US10846341B2 (en) System and method for analysis of structured and unstructured data
US11593671B2 (en) Systems and methods for semantic analysis based on knowledge graph
CN110263157B (zh) 一种数据风险预测方法、装置及设备
CN112214418B (zh) 一种应用程序的合规检测方法、装置和电子设备
US10733675B2 (en) Accuracy and speed of automatically processing records in an automated environment
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN110674188A (zh) 一种特征提取方法、装置及设备
US11907299B2 (en) System and method for implementing a securities analyzer
US11048881B2 (en) Method and system for identification of relation among rule intents from a document
CN112966113A (zh) 一种数据的风险防控方法、装置及设备
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN112015869A (zh) 一种待发布文本的风险检测方法、装置及设备
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114240101A (zh) 一种风险识别模型的验证方法、装置以及设备
EP3637249A1 (en) Systems and methods for validating domain specific models
US11954436B2 (en) Automatic extraction of situations
US11682092B2 (en) Updating a document based on transaction analysis
CN112256863A (zh) 一种确定语料意图的方法、装置及电子设备
US20230128136A1 (en) Multi-layered, Multi-pathed Apparatus, System, and Method of Using Cognoscible Computing Engine (CCE) for Automatic Decisioning on Sensitive, Confidential and Personal Data
CN109146395B (zh) 一种数据处理的方法、装置及设备
CN113837772A (zh) 一种对营销信息进行审核的方法、装置及设备
CN117171653B (zh) 一种识别信息关系的方法、装置、设备及存储介质
CN117314536A (zh) 一种异常检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045042

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20210122

RJ01 Rejection of invention patent application after publication