CN112199506B - 一种应用程序的信息检测方法、装置及设备 - Google Patents

一种应用程序的信息检测方法、装置及设备 Download PDF

Info

Publication number
CN112199506B
CN112199506B CN202011247122.2A CN202011247122A CN112199506B CN 112199506 B CN112199506 B CN 112199506B CN 202011247122 A CN202011247122 A CN 202011247122A CN 112199506 B CN112199506 B CN 112199506B
Authority
CN
China
Prior art keywords
information
standard
application program
privacy policy
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011247122.2A
Other languages
English (en)
Other versions
CN112199506A (zh
Inventor
王德胜
刘佳伟
刘新源
张谦
贾茜
章鹏
王心刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111165804.3A priority Critical patent/CN113886584A/zh
Priority to CN202011247122.2A priority patent/CN112199506B/zh
Publication of CN112199506A publication Critical patent/CN112199506A/zh
Application granted granted Critical
Publication of CN112199506B publication Critical patent/CN112199506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种应用程序的信息检测方法、装置及设备,该方法包括:获取待识别应用程序的隐私政策文本;将隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的待识别应用程序需获取的第一信息;确定待识别应用程序的源码中表示的待识别应用程序需获取的第二信息;获取待识别应用程序被允许获取的标准信息;检测所述第一信息是否与所述标准信息一致,得到第一检测结果;检测所述第二信息是否与所述标准信息一致,得到第二检测结果;根据所述第一检测结果与所述第二检测结果,生成合规检测信息。

Description

一种应用程序的信息检测方法、装置及设备
技术领域
本申请涉及合规与监管技术领域,尤其涉及一种应用程序的信息检测方法、装置及设备。
背景技术
合规风险广泛存在于金融机构业务和管理的各个方面,在互联网行业中,合规风险可以指在企业的运营或内部管理过程中,因未能够与国家的法律、法规、政策、以及行业范例或服务水平协定相保持一致而导致的风险。
目前,随着互联网技术的快速发展,当前APP数量已超500万款。虽然为人们的生活带来不少便利,但是APP违法违规收集使用个人信息问题也日益突出。违规收集个人信息,容易造成大规模群体性的数据泄密事件,对个人财产安全和社会稳定造成重大的影响。为了保证互联网行业健康运行,相关监管机构对移动互联网应用(APP)合规管控比较重视,用户信息安全问题逐渐成为公众关切的焦点问题,
因此,亟需提供一种应用程序的信息检测方法,以便APP运营方自身对APP的合规性进行检测,保证发布的APP符合法务合规条款的相关规定。
发明内容
本说明书实施例提供的应用程序的信息检测方法、装置及设备,用于自动对APP进行合规检测。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种应用程序的信息检测方法,包括:
获取待识别应用程序的隐私政策文本;
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
本说明书实施例提供的一种应用程序的信息检测装置,包括:
隐私政策文本获取模块,用于获取待识别应用程序的隐私政策文本;
第一信息确定模块,用于将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
第二信息确定模块,用于确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
标准信息获取模块,用于获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
第一检测模块,用于检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
第二检测模块,用于检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
合规检测信息生成模块,用于根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
本说明书实施例提供的一种应用程序的信息检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待识别应用程序的隐私政策文本;
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种应用程序的信息检测方法。
本说明书一个实施例实现了能够达到以下有益效果:通过获取待识别应用程序的隐私政策文本;将隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的待识别应用程序需获取的第一信息;确定待识别应用程序的源码中表示的待识别应用程序需获取的第二信息;获取待识别应用程序被允许获取的标准信息;检测所述第一信息是否与所述标准信息一致,得到第一检测结果;检测所述第二信息是否与所述标准信息一致,得到第二检测结果;根据所述第一检测结果与所述第二检测结果,生成合规检测信息。通过上述方法,可以自动检测比对标准文件、APP隐私政策文本、APP源码三者之间关于用户个人信息以及设备权限信息的冲突,并基于检测结果为用户生成合规检测信息,指导APP运营方自查自律,提前防范,避免发布APP后由于APP不合规被下架的风险。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种应用程序的信息检测方法的场景示意图;
图2是本说明书实施例提供的一种应用程序的信息检测方法的流程图;
图3为本说明书实施例生成的合规检测信息的界面示意图一;
图4为本说明书实施例生成的合规检测信息的界面示意图二;
图5是本说明书实施例提供的一种应用程序的信息检测装置的结构示意图;
图6是本说明书实施例提供的一种应用程序的信息检测设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
“合规风险”指的是:银行因未能遵循法律法规、监管要求、规则、自律性组织制定的有关准则、已经适用于银行自身业务活动的行为准则,而可能遭受法律制裁或监管处罚、重大财务损失或声誉损失的风险。合规风险广泛存在于金融机构业务和管理的各个方面,在互联网行业中,合规风险可以指在企业的运营或内部管理过程中,因未能够与国家的法律、法规、政策、以及行业范例或服务水平协定相保持一致而导致的风险。
大量的移动app在使用过程中,涉及个人隐私信息和敏感信息。在个人信息处理、共享、转让、公开披露过程中,管理流程和技术手段不规范造成个人信息泄露的安全事件层出不穷。
近年来,用户信息安全问题逐渐成为公众关切的焦点问题,个人信息与数据保护作为互联网治理体系的重要组成部分,也是构建良好互联网秩序的重中之重。随着智能手机的普及,当前移动互联网应用(APP)数量已超500万款。虽然为人们的生活带来不少便利,但是APP违法违规收集使用个人信息问题也日益突出。例如随意调取用户的智能手机系统权限(如:录音权限、通讯录权限、摄像头权限、GPS权限),收集用户身份证号、银行账号、行踪轨迹等个人敏感信息,且部分APP收集这些用户信息与该APP提供功能无任何关系。大量违规收集个人信息,容易造成大规模群体性的数据泄密事件,对个人财产安全和社会稳定造成重大的影响。
为了整治APP违规收集个人信息的乱象,国家监管部门先后发布了《信息安全技术-移动互联网应用程序(App)收集个人信息基本规范》。规定了地图导航、网络约车、即时通讯、网络社区、网络支付、新闻资讯、网上购物等30种常用服务类型可收集的最小必要信息。如果APP存在过度收集用户手机通讯录、面部识别信息、位置信息等导致无法满足监管部门的相应法规。则监管部门会对申请权限不合理、过度索取等问题约谈APP运营企业负责人,甚至勒令下架APP等。因此,作为APP的运营方来说,对开发的APP进行合规自检是非常必要的。
通常情况下,APP的隐私权政策条款大多数是专业的法务人员所撰写,而APP的开发代码是专业的程序开发人员来完成,由于各自的专业角色不同且领域知识不同,经常会出现国家的法律规范、APP隐私权政策条款、APP实际执行的代码三者关于某个数据项采集行为和表述出现不一致的情况、甚至直接冲突。例如:APP在实际执行的过程中,通过读取通讯录权限获取了用户的通讯录记录,但是没有在APP隐私权政策条款中申明,或者与国家的法律规范直接冲突。特别是违反了国家的法律规范,可能就会面临APP整改、公开通报、甚至下架的风险,会直接影响APP提供业务,或直接造成经济损失。因为APP经常会周期性的更新发版,这种情况会时常发生。
为了克服上述缺陷,本说明书实施例提供的一种应用程序的信息检测方法可以解决法律规范、APP隐私权政策条款、APP实际执行的代码三者关于数据采集表述和行为的一致性的问题。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1是本说明书实施例提供的一种应用程序的信息检测方法的场景示意图。如图1所示,当存在待识别的APP时,可以将该APP对应的隐私政策文本102、APP源码103以及该APP对应的标准文件104输入到自动检测系统101中,自动检测系统101可以根据隐私政策文本102、APP源码103以及该APP对应的标准文件104自动检测待识别应用程序的合规性,并生成待识别APP对应的合规检测信息。
接下来,将针对说明书实施例提供的一种基于风险画像的风险量化方法结合附图进行具体说明:
图2是本说明书实施例提供的一种应用程序的信息检测方法的流程图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。本说明书实施例中的执行主体可以是企业内部的自查监管设备中的自动检测系统,也可以是平台内部用于自动监测平台合规风险的服务器。
如图2所示,该流程可以包括以下步骤:
步骤210:获取待识别应用程序的隐私政策文本。
需要说明的是,该步骤中的隐私政策文本可以指的是各种应用程序(Application,简称APP)的隐私政策文本。APP的隐私政策,又可以称作用户隐私协议、用户隐私权政策、隐私权政策等。一般在用户注册APP或者使用APP提供服务时,APP运营方会向用户展示隐私政策文本,并在隐私政策文本中申明所采集用户信息的范围和对应的权利与义务。例如:在隐私政策文本中可以写明需要采集的用户个人信息、权限设备信息、APP产品定义、APP功能信息、该APP对用户信息的保障与采集信息、用户的权利与义务信息等等。
APP一般安装、运行在移动智能终端上。智能移动终端上可以安装有开放式操作系统,能使用无线移动通信技术实现互联网接入,是一种通过下载、安装应用软件和数字内容为用户提供服务的终端产品。
上述步骤中的待识别应用程序可以表示的是APP运营方新开发出的APP,或者是更新版本后的APP。在实际应用中,APP的运营方在开发出一款APP或者对原有的APP进行版本更新之后,需要先检测新开发的APP或者更新后的APP是否合规,检测合规之后,再对APP进行发布,供用户使用,这样能避免由于发布后的APP不合规而勒令下架或者受到处罚的风险。
步骤220:将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息。
需要说明的是,该步骤中的识别模型可以是用于识别隐私政策文本中的相关信息的模型,例如,可以是用于识别隐私政策文本中的用户个人信息以及设备权限信息的模型。该识别模型为神经网络模型,且该识别模型为训练完成的模型。
采用训练完成的识别模型可以将隐私政策文本中的用户个人信息以及设备权限信息识别出来,为了与后续步骤中的个人信息以及设备权限信息进行区分,从隐私政策文本中识别得到的信息可以用第一信息表示。第一信息可以包括隐私政策文本中申明的待识别应用程序需获取的第一用户个人信息以及第一设备权限信息。
步骤230:确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息。
源码可以指编写的最原始程序的代码。程序员编写程序的过程中需要采用专门的程序“语言”进行编写。源代码,就是程序员编写的、人类可读的计算机语言指令。
现代程序语言中,源代码可以是以书籍或者磁带的形式出现;但最常用的格式是文本文件,这种典型格式的目的是为了编译出计算机程序。计算机源代码的最终目的是将人类可读的文本翻译成为计算机可以执行的二进制指令,这种过程叫做编译。一般情况下,待识别应用程序的源码中写明了该待识别应用程序的功能、待识别应用程序需要获取的个人信息以及设备权限信息等对应的代码。为了便于区分,将源码中表明的信息称作第二用户个人信息以及第二设备权限信息。
在实际应用中,要求APP代码中表明的使用该APP需要获取的用户个人信息以及设备权限信息应该与该APP的隐私政策文本中文字写明的使用该APP需要获取的用户个人信息以及设备权限信息保持一致。
步骤240:获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息。
需要说明的是,该步骤中的标准信息可以是第三方机构颁布的标准文件中的信息。第三方机构可以是专门用于监管APP合规的机构。标准文件可以是专门规定移动互联网应用程序应用安全信息的文件。标准文件中会明确规定每一类APP在实际应用过程中被允许获取的用户个人信息以及设备权限信息,为了便于区分,将从标准文件中确定的信息称作标准用户个人信息以及标准设备权限信息。
在实际应用过程中,要求每一个APP源码中表明需获取的信息(用户个人信息以及权限设备信息)、隐私政策文本中表示需获取的信息、法律法规规定的标准文件中规定APP可以获取的信息,三者应当保持一致。
实际应用中,以标准文件中规定的信息为基准,将从APP源码中确定的信息以及从隐私政策文本中确定的信息分别于标准信息进行比对。不一致时,以标准信息为基准进行修改。
另外,上述几个步骤中涉及到的“第一用户个人信息”、“第二用户个人信息”、“标准用户个人信息”、“第一设备权限信息”、“第二设备权限信息”以及“标准设备权限信息”中的用户个人信息至少可以包括:用户个人身份信息、交易信息、位置信息、通讯信息、网络访问日志、账号信息、好友信息以及账户信息中的一种或多种。设备权限信息至少可以包括:位置权限、存储权限、读取设备状态权限、通话记录权限、短信权限以及相机权限中的一种或多种。在实际应用中,不同类型的APP需要获取的用户个人信息以及设备权限信息可以不同。
步骤250:检测所述第一信息是否与所述标准信息一致,得到第一检测结果。
步骤260:检测所述第二信息是否与所述标准信息一致,得到第二检测结果。
步骤250以及步骤260这两个步骤中,分别将第一信息与标准信息进行比对、将第二信息与标准信息进行比对,得到对应的检测结果。
步骤270:根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
根据检测结果,生成合规检测信息。这里所说的合规检测信息可以是包含第一检测结果以及第二检测结果的文件,例如:合规检测信息可以是检测报告,该检测报告中可以包括第一信息和第二信息的全部内容,但是,可以在第一信息以及第二信息中标注出与标准信息不一致的第一可疑信息。当然,该检测报告中也可以仅包括与标准信息不一致的信息。
应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
图2中的方法,通过获取待识别应用程序的隐私政策文本;将隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的待识别应用程序需获取的第一信息;确定待识别应用程序的源码中表示的待识别应用程序需获取的第二信息;获取待识别应用程序被允许获取的标准信息;检测所述第一信息是否与所述标准信息一致,得到第一检测结果;检测所述第二信息是否与所述标准信息一致,得到第二检测结果;根据所述第一检测结果与所述第二检测结果,生成合规检测信息。通过上述方法,可以自动检测比对标准文件、APP隐私政策文本、APP源码三者之间关于用户个人信息以及设备权限信息的冲突,并基于检测结果为用户生成合规检测信息,指导APP运营方自查自律,提前防范,避免发布APP后由于APP不合规被下架的风险。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
上述图2的方法中,提到的“第一用户个人信息”与“第二用户个人信息”中的“第一”、“第二”,以及“第一设备权限信息”与“第二设备权限信息”中的“第一”、“第二”仅是用于区别从隐私政策文本中得到的信息与从源码中得到的信息,并不会对本发明的保护范围造成影响。
在现有的方案中,一般由专门的APP合规监管人员识别隐私政策文本中的用户个人信息以及权限设备信息,但是人为识别往往费时费力,精度以及效率都比较低。因此,本说明书实施例中采用识别模型自动识别隐私政策文本中的用户个人信息以及设备权限信息,具体可以包括以下步骤:
所述将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息,具体可以包括:
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一用户个人信息;
获取预设的用户个人信息与设备权限之间的映射关系;
根据所述第一用户个人信息,以及所述用户个人信息与设备权限信息之间的映射关系,确定所述隐私政策文本中表示的所述待识别应用程序需获取的第一设备权限信息。
首先,上述步骤中,识别模型可以是命名实体识别模型,也可以是关键词匹配模型等。具体地,采用不同模型时,可以对应以下不同的方法步骤:
方式一、采用命名实体识别模型对隐私政策文本中的信息进行识别。具体可以包括以下步骤:
将所述隐私政策文本输入训练完成的命名实体识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一用户个人信息。
命名实体识别(Named Entity Recognition,简称NER),可以指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别的任务可以是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
在实际应用中,NER问题是一种序列标注问题,因此NER数据标注方式也遵照序列标注问题的方式,主要可以用BIOE标记法,BIOE分别代表意义为:B,即Begin,表示开始;I,即Intermediate,表示中间;E,即End,表示结尾; O,即Other,表示其他,O用于标记无关字符。例如:将“您可能需要提供您的姓名、性别、电话号码等信息。”这句话进行标注,结果就是:[O, O, O, O, O, O, O, O, O,B-NAME,E-NAME,O, B-GENDER,E-GENDER,O,B-PHONE,I-PHONE,I-PHONE,E-PHONE,O,O,O,O],其中NAME代表姓名,GENDER代表性别,PHONE代表手机号码。
假定隐私政策文本中的用户个人信息类别有
Figure DEST_PATH_IMAGE001
种,记为
Figure 576504DEST_PATH_IMAGE002
,给定一个字符长度为
Figure DEST_PATH_IMAGE003
的待识别数据记录
Figure 46668DEST_PATH_IMAGE004
,由W中若干个连续的字符串
Figure DEST_PATH_IMAGE005
组成的序列
Figure 698492DEST_PATH_IMAGE006
,如果S是属于
Figure DEST_PATH_IMAGE007
类型的用户个人信息,那么基于命名实体识别(NER)技术识别用户个人信息的任务可以是把
Figure 27842DEST_PATH_IMAGE008
标记为
Figure 961163DEST_PATH_IMAGE007
_B,从
Figure DEST_PATH_IMAGE009
开始到
Figure 957938DEST_PATH_IMAGE010
标记
Figure 420143DEST_PATH_IMAGE007
_I,把
Figure DEST_PATH_IMAGE011
标记为
Figure 502369DEST_PATH_IMAGE007
_E。
在采用NER模型对隐私政策文本中的用户个人信息进行识别之前,需要对NER模型进行训练,具体的训练过程如下:
获取已知用户个人信息以及设备权限信息的APP对应的隐私政策文本样本;
采用BIOE标记法对所述隐私政策文本样本中的所述用户个人信息以及所述设备权限信息进行序列标注以及类别标注,得到标注后的训练样本;
采用所述标注后的训练样本对初始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
采用所述训练后的命名实体识别模型对所述APP对应的隐私政策文本样本进行识别,得到识别结果;
根据所述识别结果与已知的所述用户个人信息以及所述设备权限信息,确定所述训练后的命名实体识别模型对应的准确率;
根据所述准确率调整命名实体识别模型对应的训练参数,直至所述准确率满足预设准确率为止,得到训练完成的命名实体识别模型。
在本说明书实施例中,采用NER模型对隐私政策文本进行识别时,可以识别出隐私政策文本中的用户个人信息在隐私政策文本中的位置,以及用户个人信息的类别,例如:当识别出隐私政策文本中存在姓名“张三”这一用户个人信息时,NER模型的输入是隐私政策文本对应的分词列表,输出是各用户个人信息对应的命名实体的边界和类别。NER模型的输出,格式可以为 (entity, type, begin, end)。
为了识别APP隐私政策文本中申明收集的用户个人信息,训练命名实体标注模型时,可以收集目前市场的主流APP的隐私政策文本集,对隐私政策文本集中的每个文本用BIOE标记法,标记隐私政策文本采集了哪些个人信息相关的数据项。
然后, 根据已经标注的数据训练命名实体识别模型(NER模型),保存该模型用于系统自动分析部分使用,其中,命名实体识别模型(NER模型)具体可以采用HMM、MEMM、CRF、NN/CNN-CRF、RNN-CRF、Bi-LSTM+CRF、BERT+CRF等机器学习或深度学习方法,但是不限于此。
对于NER模型的效果评估可以通过准确率(precision,简记为P)、召回率(recall,简记为R)和F-测量度(F-measure,简记为F)3个指标来衡量,计算公式如下:
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE017
上述公式仅是用于表示评估NER模型的性能所列举的例子,并不限定具体范围。采用训练样本训练NER模型时,可以计算NER模型的准确率、召回率,当然也可以采用其他指标来评估NER模型的性能。根据准确率调整命名实体识别模型对应的训练参数,直至NER模型的准确率满足预设准确率为止,得到训练完成的命名实体识别模型。
上述方式采用命名实体识别模型(NER模型)来识别用户个人信息,通过序列标注的方式对隐私政策文本中个人信息数据项进行识别。由于命名实体识别模型采用序列标记的方式,不仅能够识别出隐私政策文本中是否包含个人用户信息,还能够识别出所包含的一条或多条个人信息数据项序列各自的起止位置信息和用户个人信息的类别。
方式二、采用关键词匹配模型对隐私政策文本中的信息进行识别。具体可以包括以下步骤:
将所述隐私政策文本输入训练完成的关键词匹配模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一用户个人信息。
关键词匹配方式可以包括:精确匹配、短语匹配和广泛匹配。
采用关键词匹配模型也可以从隐私政策文本中识别出隐私政策文本中的用户个人信息的位置和类别。
当然,在采用关键词匹配模型对隐私政策文本中的用户个人信息进行识别前,也需要对关键词匹配模型进行训练。例如:可以根据样本信息,构建关键词与用户个人信息的映射关系匹配库,该映射关系匹配库可以人工构建,也可以采用模型根据历史样本信息进行构建。
训练完成的关键词匹配模型一旦识别到隐私政策文本出现了关键词,则可以认为该隐私政策文本中含有该关键词对应的用户个人信息。
通过上述方式,可以采用识别模型自动识别隐私政策文本中的用户个人信息,避免人工识别造成的效率低、准确性差的缺陷,提高隐私政策文本的识别效率和识别精度,从而为后续的APP合规检测提供良好的基础。
另外,采用识别模型可以从隐私政策文本中识别出用户个人信息,但是在对APP进行合规检测时,还需要确定隐私政策文本中的设备权限信息,在本方案的实施例中,可以根据识别得到的用户个人信息以及用户个人信息与设备权限之间的映射关系,确定隐私政策文本中的设备权限信息。
可选的,用户个人信息与设备权限信息之间的映射关系,可以根据历史经验数据进行确定,具体地,可以包括以下方式:
方式一、根据人工经验建立映射关系表。
方式二、根据历史经验数据自动建立映射关系表。例如:采用神经网络模型建立映射关系表。其中,在采用神经网络模型建立映射关系表时,可以采用历史隐私政策文本以及对应的设备权限信息对模型进行训练。例如:对于任意一个历史隐私政策文本,可以从该历史隐私政策文本中确定出用户个人信息(姓名、联系人信息、设备状态、定位信息),以及该隐私政策文本对应的设备权限信息(通讯录访问权限、读取设备状态权限、位置权限),根据该隐私政策文本以及对应的设备权限信息可以建立用户个人信息与设备权限信息之间的映射关系。例如:建立得到的映射关系是:“定位信息-位置权限”、“设备状态信息-读取设备状态权限”、“联系人信息-通讯录访问权限”、“短信-短信权限”以及“相册信息-相机权限”等等。
需要说明的是,在根据用户个人信息确定权限设备信息时,映射关系的建立格外重要,例如上述方法步骤中,在采用模型建立映射关系表时,可以采用大量的历史数据进行训练,可选的,可以采用线上采集或者线下采集的数据、以及多维度采集的数据进行训练,增加采集数据的覆盖范围。采用采集数据对模型进行训练时,还可以实时采集终端各个APP对应的隐私政策文本,以保证训练得到的模型的性能可以得到及时更新。
可选的,所述确定所述待识别应用程序的源码中表示的需获取的第二信息,具体可以包括:
获取所述待识别应用程序的源码;
对所述源码进行解析识别,确定所述源码中表示的所述第二用户个人信息以及所述第二设备权限信息。
需要说明的是,对于APP的源码,结合前述描述,APP的源码中至少会编写清楚该APP的功能、使用该APP会采集的用户个人信息以及设备权限信息等。因此,对源码进行解析识别,就可以得到源码中表明的需要获取的用户个人信息以及设备权限信息。以表1为例,APP源码中如果包含了如表1中的码关键字,则该APP获得对应的智能移动终端的设备权限信息以及用户个人信息。
表1 一种代码解析表
码关键字 设备权限 用户个人信息
android.permission.WRITE_SMS 允许程序写短信 短信
android.permission.RECORD_AUDIO 允许程序录制声音通过手机或耳机的麦克 语音信息
android.permission.READ_PROFILE 访问用户个人资料
android.permission.READ_CONTACTS 允许程序访问联系人通讯录信息 通讯录
android.permission.READ_CALL_LOG 读取通话记录 通话记录
android.permission.READ_CALENDAR 允许程序读取用户的日程信息 日历
android.permission.CAPTURE_VIDEO_OUTPUT 允许一个应用程序捕获视频输出,不被第三方应用使用 视频信息
android.permission.CAPTURE_AUDIO_OUTPUT 允许一个应用程序捕获音频输出。不被第三方应用使用 语音信息
android.permission.CAMERA 允许程序访问摄像头进行拍照 照片
android.permission.ACCESS_WIFI_STATE 允许程序获取当前WiFi接入的状态以及WLAN热点的信息 位置信息
上述表1中仅列举了小部分代码解析后对应的设备权限信息以及用户个人信息,仅用于解释可以对APP的源码进行解析后,可以对应得到设备权限信息以及个人用户信息,并不对保护范围构成影响。
可选的,所述获取所述待识别应用程序被允许获取的标准信息,具体可以包括:
确定所述待识别应用程序所属的功能类型;
根据所述功能类型获取所述应用程序对应的标准文件;
从所述标准文件中确定所述应用程序允许获取的所述标准用户个人信息以及所述标准设备权限信息;所述标准文件由第三方机构颁布。
功能类型至少可以包括地图导航、即时通讯、网络约车、网络社区、网络支付、新闻资讯、网络购物、短视频、交通票务、金融借贷以及安全管理等等。不同的功能类型可以对应不同的标准文件,当然,标准文件中也可以包括不同的APP对应的信息表,例如:一类APP对应一个最小必要信息表或设备权限表。
第三方机构可以是专门用于管理APP合规的监管机构。
获取标准文件的步骤,可以离线预置完成,不同功能类型对应不同的最小必要信息和设备权限。
需要说明的是,目前国家监管部门发布了关于地图导航、网络约车、即时通讯、网络社区、网络支付、新闻资讯、网上购物等30种常用服务类型的APP可收集的最小必要信息。其中,最小必要信息可以指的是保障某一服务类型正常运行所最少够用的个人信息,包括一旦缺少将导致该类型服务无法实现或无法正常运行的个人信息,以及法律法规要求必须收集的个人信息。如表2所示,以即时通讯为例。即时通讯类的APP为用户提供在线文字、语音、视频等形式的通讯服务,或基于即时通讯的交友互动等服务。该服务类型的最小必要信息如表2所示:
表2 即时通讯类的最小必要信息
Figure DEST_PATH_IMAGE019
除了表2中的信息,还有各种功能类型的APP对应的最小必要信息,本说明书实施例中对此不作一一列举。如上述表2中的相关信息可以理解为是由第三方机构颁布的标准文件中的信息。例如:如上述表2中所示,即时通讯可以获取的用户个人信息中,“好友列表”是实现服务所需的用户个人信息,但是即时通讯类的APP在获取好友列表时,仅用于建立和管理用户在即时通讯应用的联系人关系。应允许用户在即时通讯应用中手动添加好友,而不应强制读取用户的通讯录。在判定APP是否合规时,可以将待识别APP中要求获取的用户个人信息与标准文件中规定的该类APP所允许获取的用户个人信息进行比对,一致则合规,反之则不合规。
另外,标准文件中除了规定有各类APP被允许获取的用户个人信息之外,还规定了各类APP被允许获取的设备权限信息,例如:“地图导航-位置权限”、“网络约车-位置权限”、“即时通讯-存储权限”、“网络支付-读取设备状态权限”、“短视频-存储权限”“餐饮外卖-位置权限”、“安全管理-通话记录权限、短信权限、存储权限”、“拍摄美化-相机权限、存储权限”、“应用商店-存储权限”以及“网络直播-存储权限”等等。
在对待识别APP的隐私政策文本进行识别,得到第一用户个人信息、第一设备权限信息;对源码进行识别,得到第二用户个人信息以及第二设备权限信息之后,可以与标准文件进行比对,根据比对结果生成检测信息,并将检测信息发送给APP运营方。具体步骤如下:
所述生成合规检测信息,具体可以包括:
当所述第一检测结果表示所述第一信息与所述标准信息一致且所述第二检测结果表示所述第二信息与所述标准信息一致时,生成包含第一提示信息的合规检测信息;所述第一提示信息用于提示所述待识别应用程序合规。
实际应用中,如果待识别APP的隐私政策文本、源码以及标准文件中的信息一致,则可以确定该待识别APP合规。此时,可以生成用于提示该待识别APP合规的第一提示信息。
反之,当所述第一检测结果表示所述第一信息与所述标准信息不一致时,可以生成包含第二提示信息的合规检测信息;所述第二提示信息用于提示所述第一信息中与所述标准信息不一致的部分;
和/或,当所述第二检测结果表示所述第二信息与所述标准信息不一致时,生成包含第三提示信息的合规检测信息;所述第三提示信息用于提示所述第二信息中与所述标准信息不一致的部分。
需要说明的是,生成的第二提示信息可以是为APP运营方展示第一信息中与标准信息不一致的部分,和/或展示第二信息中与标准信息不一致的部分。具体地,可以是直接为用户展示整份隐私政策文本和/或整个APP对应的源码,并在隐私政策文本中和/或APP源码中标识出与标准信息不一致的部分。当然,也可以不将整份隐私政策文本或APP源码发送给APP运营方,而是只将隐私政策文本中与标准信息不一致的文本信息,和/或源码中与标准信息不一致的代码信息发送给运营方。
进一步地,所述生成包含第二提示信息的合规检测信息,具体可以包括:
确定所述第一信息中与所述标准信息不一致的第一可疑信息;
确定所述第一可疑信息对应的第一类别信息;对所述隐私政策文本中与所述第一可疑信息对应的文本信息进行颜色标注,并根据所述第一类别信息对所述文本信息的信息类型进行批注,得到包含所述第二提示信息的合规检测信息。
可选的,所述生成包含第三提示信息的合规检测信息,具体可以包括:
确定所述第二信息中与所述标准信息不一致的第二可疑信息;
确定所述第二可疑信息对应的第二类别信息;
对所述待识别应用程序的源码中与所述第二可疑信息对应的代码信息进行颜色标注,并根据所述第二类别信息对所述代码信息的信息类型进行批注,得到包含第三提示信息的合规检测信息。
上述步骤中所说的“可疑信息”可疑表示的是隐私政策文本中与标准信息不一致的文本信息,和/或APP源码中与标准信息不一致的代码信息。
类别信息可以指的是可疑信息的信息类型,例如:可疑信息为“程序通过GPS芯片接收卫星的定位信息”,则该可疑信息对应的类别信息为“位置信息”,若可疑信息为“姓名、职业、年龄、身份证号”,该可疑信息对应的类别信息为“个人身份信息”。
可选的,所述第二提示信息中还可以包括所述第一可疑信息对应的敏感等级信息。
可选的,所述第三提示信息中还可以包括所述第二可疑信息对应的敏感等级信息。
在实际应用中,在合规检测信息中还可以显示出可疑信息对应的敏感等级信息,例如:高敏、中敏以及低敏,高敏可以表示该可以信息的敏感等级较高,需要格外注意,这类信息被获取可能会造成用户的个人隐私信息泄露,从而影响用户信息安全。为了更为直观地解释上述方法步骤,可以结合图3和图4进行说明:
图3为本说明书实施例生成的合规检测信息的界面示意图一。如图3所示,对于用户个人信息,生成的合规检测信息界面中,可以将与标准信息不一致的文本信息或代码信息进行颜色标注,图3中主要以隐私政策文本中的信息与标准信息不一致为例进行说明。源码对应的合规检测信息与隐私政策文本类似,本说明书实施例中不再重复说明。
当然,上述所说的“颜色标注”仅是用于突出显示不一致的部分,除了颜色标注外,还可以对不一致部分进行框选标注、高光显示或进行下划线注释等等。图3中仅以框选为例进行说明。除了标注出不一致部分之外,还可以对不一致部分进行类别批注,例如:对“姓名、身份证号”进行“个人身份信息”的批注,对“用户账号、用户昵称”进行“用户基本资料”的批注。当然,还可以对不一致部分进行敏感等级批注,例如:对“姓名、身份证号”进行“高敏”批注,对于“用户账号、用户昵称”进行“中敏批注”。
图4为本说明书实施例生成的合规检测信息的界面示意图二。如图4所示,对于设备权限,生成的合规检测信息中可以对待识别APP对应的与标准信息不一致的设备权限信息进行显示,并进行颜色批注以及信息类型批注。图4中主要以从源码中确定得到的设备权限进行显示批注为例。图4中,显示待识别APP的源码中与标准信息不一致的可疑设备权限有7个,包括:获取位置、新建/修改/删除通话记录、读取短信、摄像头、录音、开机启动以及使用蓝牙。
其中,高敏设备权限有5个,中敏设备权限有1个,低敏设备权限有1个。属于高敏等级的设备权限有:获取位置、新建/修改/删除通话记录、读取短信、摄像头、录音;属于中敏等级的设备权限有:开机启动;属于低敏等级的设备权限有:使用蓝牙。
在实际应用中,由于APP源码可以是参照该APP的隐私政策文本来进行撰写,此时,可以先比对隐私政策文本与标准文件是否一致,一致时,源码既可以与隐私政策文本进行比对,也可以与标准文件进行比对,对于比对之后,在标准文件中或隐私政策文本中不存在的设备权限信息,可以在相应信息后面标注“使用未申请”的字样。除此之外,还可以对不一致的信息进行类型标注。例如:对“获取位置”标注的信息类型为“位置信息”;对于“新建/修改/删除通话记录、读取短信”标注的信息类型为“社交信息”;对“摄像头、录音”标注的信息类型为“生物特征信息”;对“开机启动、使用蓝牙”标注的信息类型为“设备状态信息”。
将生成的合规检测信息发送给APP运营方,APP运营方可以根据合规检测信息对隐私政策文本和/或APP源码进行修改。
通过上述方法,可以在APP发布之前,自动对APP进行合规检测,并未APP运营方返回合规检测信息,便于APP运营方直观了解待识别APP的合规性,在不合规时,可以根据合规检测信息快速确定不合规的信息并进行及时修改,避免APP发布后由于不合规被强制下架的风险,提高APP合规检测的效率。
另外,前述步骤中,为了提高NER模型识别的效果,可以在使用NER模型之前,先对隐私政文本进行初步筛查,以提高NER识别模型的识别效率以及识别精度。具体可以包括以下步骤:
所述将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息之前,还可以包括:
采用二分类方法对所述隐私政策文本进行初始识别,判断所述隐私政策文本中是否包含所述第一信息;
若所述隐私政策文本中包含所述第一信息,采用所述训练完成的识别模型对所述隐私政策文本进行识别。
本说明书实施例中的技术方案,可以实现以下技术效果:
采用本说明书实施例中的方法可以自动比对标准文件、APP隐私政策文本、APP源码三者之间关于用户个人信息和设备权限信息的冲突,并为用户生成APP隐私数据合规检测信息,以指导APP运营方自查自律,提前防范,避免APP不符合国家法律规范被下架,减少业务影响和不必要的经济损失。
提出利用命名实体识别模型(NER模型)技术来识别APP隐私政策文本中用户个人信息,标注出用户个人信息在隐私政策文本中的位置和类别信息,并将合规检测信息发送给APP运营方,以便于APP运营方能够直观了解APP的合规性以及不一致部分的信息位置、信息类型以及敏感等级。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图5是本说明书实施例提供的一种应用程序的信息检测装置的结构示意图。如图5所示,该装置可以包括:
隐私政策文本获取模块510,用于获取待识别应用程序的隐私政策文本;
第一信息确定模块520,用于将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
第二信息确定模块530,用于确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
标准信息获取模块540,用于获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
第一检测模块550,用于检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
第二检测模块560,用于检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
合规检测信息生成模块570,用于根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
基于图5的装置,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,所述合规检测信息生成模块570,具体可以包括:
合规检测信息第一生成单元,用于当所述第一检测结果表示所述第一信息与所述标准信息一致且所述第二检测结果表示所述第二信息与所述标准信息一致时,生成包含第一提示信息的合规检测信息;所述第一提示信息用于提示所述待识别应用程序合规。
可选的,所述第一信息确定模块520,具体可以包括:
第一用户个人信息确定单元,用于将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一用户个人信息;
映射关系获取单元,用于获取预设的用户个人信息与设备权限之间的映射关系;
第一设备权限信息确定单元,用于根据所述第一用户个人信息,以及所述用户个人信息与设备权限信息之间的映射关系,确定所述隐私政策文本中表示的所述待识别应用程序需获取的第一设备权限信息。
可选的,所述第二信息确定模块530,具体可以包括:
源码获取单元,用于获取所述待识别应用程序的源码;
第二用户个人信息以及第二设备权限信息确定单元,用于对所述源码进行解析识别,确定所述源码中表示的所述第二用户个人信息以及所述第二设备权限信息。
可选的,所述标准信息获取模块540,具体可以包括:
功能类型确定单元,用于确定所述待识别应用程序所属的功能类型;
标准文件获取单元,用于根据所述功能类型获取所述应用程序对应的标准文件;
标准用户个人信息以及标准设备权限信息确定单元,用于从所述标准文件中确定所述应用程序允许获取的所述标准用户个人信息以及所述标准设备权限信息;所述标准文件由第三方机构颁布。
可选的,所述合规检测信息生成模块570,具体可以包括:
合规检测信息第二生成单元,用于当所述第一检测结果表示所述第一信息与所述标准信息不一致时,生成包含第二提示信息的合规检测信息;所述第二提示信息用于提示所述第一信息中与所述标准信息不一致的部分;
和/或,合规检测信息第三生成单元,用于当所述第二检测结果表示所述第二信息与所述标准信息不一致时,生成包含第三提示信息的合规检测信息;所述第三提示信息用于提示所述第二信息中与所述标准信息不一致的部分。
可选的,所述合规检测信息第二生成单元,具体可以用于:
确定所述第一信息中与所述标准信息不一致的第一可疑信息;
确定所述第一可疑信息对应的第一类别信息;对所述隐私政策文本中与所述第一可疑信息对应的文本信息进行颜色标注,并根据所述第一类别信息对所述文本信息的信息类型进行批注,得到包含所述第二提示信息的合规检测信息。
可选的,所述合规检测信息第三生成单元,具体可以用于:
确定所述第二信息中与所述标准信息不一致的第二可疑信息;
确定所述第二可疑信息对应的第二类别信息;
对所述待识别应用程序的源码中与所述第二可疑信息对应的代码信息进行颜色标注,并根据所述第二类别信息对所述代码信息的信息类型进行批注,得到包含第三提示信息的合规检测信息。
可选的,所述第二提示信息中还可以包括所述第一可疑信息对应的敏感等级信息。
可选的,所述第三提示信息中还可以包括所述第二可疑信息对应的敏感等级信息。
可选的,所述装置,还可以包括:
合规检测信息发送模块,用于将所述合规检测信息发送给所述待识别应用程序的运营方,以提示所述运营方根据所述合规检测信息对所述隐私政策文本和/或所述源码进行修改。
可选的,所述识别模型可以为命名实体识别模型;
所述装置,还可以包括:
识别模型训练模块,用于获取已知用户个人信息以及设备权限信息的APP对应的隐私政策文本样本;
采用BIOE标记法对所述隐私政策文本样本中的所述用户个人信息以及所述设备权限信息进行序列标注以及类别标注,得到标注后的训练样本;
采用所述标注后的训练样本对初始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
采用所述训练后的命名实体识别模型对所述APP对应的隐私政策文本样本进行识别,得到识别结果;
根据所述识别结果与已知的所述用户个人信息以及所述设备权限信息,确定所述训练后的命名实体识别模型对应的准确率;
根据所述准确率调整命名实体识别模型对应的训练参数,直至所述准确率满足预设准确率为止,得到训练完成的命名实体识别模型。
可选的,所述第一信息确定模块520,具体可以用于:
采用所述命名实体识别模型对所述隐私政策文本进行识别,确定所述隐私政策文本中的第一用户个人信息在所述隐私政策文本中的位置以及所述第一用户个人信息的所属类别。
可选的,所述装置,还可以包括:
初始识别模块,用于采用二分类方法对所述隐私政策文本进行初始识别,判断所述隐私政策文本中是否包含所述第一信息;
若所述隐私政策文本中包含所述第一信息,采用所述训练完成的识别模型对所述隐私政策文本进行识别。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图6是本说明书实施例提供的一种应用程序的信息检测设备的结构示意图。如图6所示,设备600可以包括:
至少一个处理器610;以及,
与所述至少一个处理器通信连接的存储器630;其中,
所述存储器630存储有可被所述至少一个处理器610执行的指令620,所述指令被所述至少一个处理器610执行,以使所述至少一个处理器610能够:
获取待识别应用程序的隐私政策文本;
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下方法:
获取待识别应用程序的隐私政策文本;
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
根据所述第一检测结果与所述第二检测结果,生成合规检测信息。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图6所示的应用程序的信息检测设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (28)

1.一种应用程序的信息检测方法,包括:
获取待识别应用程序的隐私政策文本;
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
根据所述第一检测结果与所述第二检测结果,生成合规检测信息;
所述获取所述待识别应用程序被允许获取的标准信息,具体包括:
确定所述待识别应用程序所属的功能类型;
根据所述功能类型获取所述待识别应用程序对应的标准文件;
从所述标准文件中确定所述待识别应用程序允许获取的所述标准用户个人信息以及所述标准设备权限信息;所述标准文件由第三方机构颁布;
所述根据所述第一检测结果与所述第二检测结果,生成合规检测信息,具体包括:
当所述第一检测结果表示所述第一信息与所述标准信息不一致时,生成包含第二提示信息的合规检测信息;所述第二提示信息用于提示所述第一信息中与所述标准信息不一致的部分;
和/或,当所述第二检测结果表示所述第二信息与所述标准信息不一致时,生成包含第三提示信息的合规检测信息;所述第三提示信息用于提示所述第二信息中与所述标准信息不一致的部分。
2.根据权利要求1所述的方法,所述生成合规检测信息,具体包括:
当所述第一检测结果表示所述第一信息与所述标准信息一致且所述第二检测结果表示所述第二信息与所述标准信息一致时,生成包含第一提示信息的合规检测信息;所述第一提示信息用于提示所述待识别应用程序合规。
3.根据权利要求1所述的方法,所述将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息,具体包括:
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一用户个人信息;
获取预设的用户个人信息与设备权限之间的映射关系;
根据所述第一用户个人信息,以及所述用户个人信息与设备权限信息之间的映射关系,确定所述隐私政策文本中表示的所述待识别应用程序需获取的第一设备权限信息。
4.根据权利要求1所述的方法,所述确定所述待识别应用程序的源码中表示的需获取的第二信息,具体包括:
获取所述待识别应用程序的源码;
对所述源码进行解析识别,确定所述源码中表示的所述第二用户个人信息以及所述第二设备权限信息。
5.根据权利要求1所述的方法,所述生成包含第二提示信息的合规检测信息,具体包括:
确定所述第一信息中与所述标准信息不一致的第一可疑信息;
确定所述第一可疑信息对应的第一类别信息;对所述隐私政策文本中与所述第一可疑信息对应的文本信息进行颜色标注,并根据所述第一类别信息对所述文本信息的信息类型进行批注,得到包含所述第二提示信息的合规检测信息。
6.根据权利要求1所述的方法,所述生成包含第三提示信息的合规检测信息,具体包括:
确定所述第二信息中与所述标准信息不一致的第二可疑信息;
确定所述第二可疑信息对应的第二类别信息;
对所述待识别应用程序的源码中与所述第二可疑信息对应的代码信息进行颜色标注,并根据所述第二类别信息对所述代码信息的信息类型进行批注,得到包含第三提示信息的合规检测信息。
7.根据权利要求5所述的方法,所述第二提示信息中还包括所述第一可疑信息对应的敏感等级信息。
8.根据权利要求6所述的方法,所述第三提示信息中还包括所述第二可疑信息对应的敏感等级信息。
9.根据权利要求1所述的方法,所述生成合规检测信息之后,还包括:
将所述合规检测信息发送给所述待识别应用程序的运营方,以提示所述运营方根据所述合规检测信息对所述隐私政策文本和/或所述源码进行修改。
10.根据权利要求1所述的方法,所述识别模型为命名实体识别模型;
所述将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息之前,还包括:
获取已知用户个人信息以及设备权限信息的APP对应的隐私政策文本样本;
采用BIOE标记法对所述隐私政策文本样本中的所述用户个人信息以及所述设备权限信息进行序列标注以及类别标注,得到标注后的训练样本;
采用所述标注后的训练样本对初始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
采用所述训练后的命名实体识别模型对所述APP对应的隐私政策文本样本进行识别,得到识别结果;
根据所述识别结果与已知的所述用户个人信息以及所述设备权限信息,确定所述训练后的命名实体识别模型对应的准确率;
根据所述准确率调整命名实体识别模型对应的训练参数,直至所述准确率满足预设准确率为止,得到训练完成的命名实体识别模型。
11.根据权利要求1所述的方法,所述识别模型为关键词匹配模型。
12.根据权利要求10所述的方法,所述将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息,具体包括:
采用所述命名实体识别模型对所述隐私政策文本进行识别,确定所述隐私政策文本中的第一用户个人信息在所述隐私政策文本中的位置以及所述第一用户个人信息的所属类别。
13.根据权利要求1所述的方法,所述将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息之前,还包括:
采用二分类方法对所述隐私政策文本进行初始识别,判断所述隐私政策文本中是否包含所述第一信息;
若所述隐私政策文本中包含所述第一信息,采用所述训练完成的识别模型对所述隐私政策文本进行识别。
14.根据权利要求1所述的方法,所述第一用户个人信息至少包括用户个人身份信息、交易信息、位置信息、通讯信息、网络访问日志、账号信息、好友信息以及账户信息中的一种或多种;
所述第一设备权限信息至少包括位置权限、存储权限、读取设备状态权限、通话记录权限、短信权限以及相机权限中的一种或多种。
15.一种应用程序的信息检测装置,包括:
隐私政策文本获取模块,用于获取待识别应用程序的隐私政策文本;
第一信息确定模块,用于将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
第二信息确定模块,用于确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
标准信息获取模块,用于获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
第一检测模块,用于检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
第二检测模块,用于检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
合规检测信息生成模块,用于根据所述第一检测结果与所述第二检测结果,生成合规检测信息;
所述标准信息获取模块,具体包括:
功能类型确定单元,用于确定所述待识别应用程序所属的功能类型;
标准文件获取单元,用于根据所述功能类型获取所述待识别应用程序对应的标准文件;
标准用户个人信息以及标准设备权限信息确定单元,用于从所述标准文件中确定所述待识别应用程序允许获取的所述标准用户个人信息以及所述标准设备权限信息;所述标准文件由第三方机构颁布;
所述合规检测信息生成模块,具体包括:
合规检测信息第二生成单元,用于当所述第一检测结果表示所述第一信息与所述标准信息不一致时,生成包含第二提示信息的合规检测信息;所述第二提示信息用于提示所述第一信息中与所述标准信息不一致的部分;
和/或,合规检测信息第三生成单元,用于当所述第二检测结果表示所述第二信息与所述标准信息不一致时,生成包含第三提示信息的合规检测信息;所述第三提示信息用于提示所述第二信息中与所述标准信息不一致的部分。
16.根据权利要求15所述的装置,所述合规检测信息生成模块,具体包括:
合规检测信息第一生成单元,用于当所述第一检测结果表示所述第一信息与所述标准信息一致且所述第二检测结果表示所述第二信息与所述标准信息一致时,生成包含第一提示信息的合规检测信息;所述第一提示信息用于提示所述待识别应用程序合规。
17.根据权利要求15所述的装置,所述第一信息确定模块,具体包括:
第一用户个人信息确定单元,用于将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一用户个人信息;
映射关系获取单元,用于获取预设的用户个人信息与设备权限之间的映射关系;
第一设备权限信息确定单元,用于根据所述第一用户个人信息,以及所述用户个人信息与设备权限信息之间的映射关系,确定所述隐私政策文本中表示的所述待识别应用程序需获取的第一设备权限信息。
18.根据权利要求15所述的装置,所述第二信息确定模块,具体包括:
源码获取单元,用于获取所述待识别应用程序的源码;
第二用户个人信息以及第二设备权限信息确定单元,用于对所述源码进行解析识别,确定所述源码中表示的所述第二用户个人信息以及所述第二设备权限信息。
19.根据权利要求15所述的装置,所述合规检测信息第二生成单元,具体用于:
确定所述第一信息中与所述标准信息不一致的第一可疑信息;
确定所述第一可疑信息对应的第一类别信息;对所述隐私政策文本中与所述第一可疑信息对应的文本信息进行颜色标注,并根据所述第一类别信息对所述文本信息的信息类型进行批注,得到包含所述第二提示信息的合规检测信息。
20.根据权利要求15所述的装置,所述合规检测信息第三生成单元,具体用于:
确定所述第二信息中与所述标准信息不一致的第二可疑信息;
确定所述第二可疑信息对应的第二类别信息;
对所述待识别应用程序的源码中与所述第二可疑信息对应的代码信息进行颜色标注,并根据所述第二类别信息对所述代码信息的信息类型进行批注,得到包含第三提示信息的合规检测信息。
21.根据权利要求19所述的装置,所述第二提示信息中还包括所述第一可疑信息对应的敏感等级信息。
22.根据权利要求20所述的装置,所述第三提示信息中还包括所述第二可疑信息对应的敏感等级信息。
23.根据权利要求15所述的装置,所述装置,还包括:
合规检测信息发送模块,用于将所述合规检测信息发送给所述待识别应用程序的运营方,以提示所述运营方根据所述合规检测信息对所述隐私政策文本和/或所述源码进行修改。
24.根据权利要求15所述的装置,所述识别模型为命名实体识别模型;
所述装置,还包括:
识别模型训练模块,用于获取已知用户个人信息以及设备权限信息的APP对应的隐私政策文本样本;
采用BIOE标记法对所述隐私政策文本样本中的所述用户个人信息以及所述设备权限信息进行序列标注以及类别标注,得到标注后的训练样本;
采用所述标注后的训练样本对初始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
采用所述训练后的命名实体识别模型对所述APP对应的隐私政策文本样本进行识别,得到识别结果;
根据所述识别结果与已知的所述用户个人信息以及所述设备权限信息,确定所述训练后的命名实体识别模型对应的准确率;
根据所述准确率调整命名实体识别模型对应的训练参数,直至所述准确率满足预设准确率为止,得到训练完成的命名实体识别模型。
25.根据权利要求24所述的装置,所述第一信息确定模块,具体用于:
采用所述命名实体识别模型对所述隐私政策文本进行识别,确定所述隐私政策文本中的第一用户个人信息在所述隐私政策文本中的位置以及所述第一用户个人信息的所属类别。
26.根据权利要求15所述的装置,所述装置,还包括:
初始识别模块,用于采用二分类方法对所述隐私政策文本进行初始识别,判断所述隐私政策文本中是否包含所述第一信息;
若所述隐私政策文本中包含所述第一信息,采用所述训练完成的识别模型对所述隐私政策文本进行识别。
27.一种应用程序的信息检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待识别应用程序的隐私政策文本;
将所述隐私政策文本输入训练完成的识别模型中,得到所述隐私政策文本中表示的所述待识别应用程序需获取的第一信息;所述第一信息包括所述待识别应用程序需获取的第一用户个人信息以及第一设备权限信息;
确定所述待识别应用程序的源码中表示的所述待识别应用程序需获取的第二信息;所述第二信息包括所述待识别应用程序需获取的第二用户个人信息以及第二设备权限信息;
获取所述待识别应用程序被允许获取的标准信息;所述标准信息包括所述待识别应用程序被允许获取的标准用户个人信息以及标准设备权限信息;
检测所述第一信息是否与所述标准信息一致,得到第一检测结果;
检测所述第二信息是否与所述标准信息一致,得到第二检测结果;
根据所述第一检测结果与所述第二检测结果,生成合规检测信息;
所述获取所述待识别应用程序被允许获取的标准信息,具体包括:
确定所述待识别应用程序所属的功能类型;
根据所述功能类型获取所述待识别应用程序对应的标准文件;
从所述标准文件中确定所述待识别应用程序允许获取的所述标准用户个人信息以及所述标准设备权限信息;所述标准文件由第三方机构颁布;
所述根据所述第一检测结果与所述第二检测结果,生成合规检测信息,具体包括:
当所述第一检测结果表示所述第一信息与所述标准信息不一致时,生成包含第二提示信息的合规检测信息;所述第二提示信息用于提示所述第一信息中与所述标准信息不一致的部分;
和/或,当所述第二检测结果表示所述第二信息与所述标准信息不一致时,生成包含第三提示信息的合规检测信息;所述第三提示信息用于提示所述第二信息中与所述标准信息不一致的部分。
28.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至14中任一项所述的应用程序的信息检测方法。
CN202011247122.2A 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备 Active CN112199506B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111165804.3A CN113886584A (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备
CN202011247122.2A CN112199506B (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247122.2A CN112199506B (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111165804.3A Division CN113886584A (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112199506A CN112199506A (zh) 2021-01-08
CN112199506B true CN112199506B (zh) 2021-08-24

Family

ID=74034384

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111165804.3A Pending CN113886584A (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备
CN202011247122.2A Active CN112199506B (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111165804.3A Pending CN113886584A (zh) 2020-11-10 2020-11-10 一种应用程序的信息检测方法、装置及设备

Country Status (1)

Country Link
CN (2) CN113886584A (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886584A (zh) * 2020-11-10 2022-01-04 支付宝(杭州)信息技术有限公司 一种应用程序的信息检测方法、装置及设备
CN112749088B (zh) * 2021-01-13 2023-02-17 挂号网(杭州)科技有限公司 应用程序检测方法、装置、电子设备和存储介质
CN112835613B (zh) * 2021-01-29 2022-05-17 宝宝巴士股份有限公司 一种app隐私政策内容管理的方法
CN112818372A (zh) * 2021-02-23 2021-05-18 挂号网(杭州)科技有限公司 权限显示信息处理方法、装置、电子设备以及存储介质
CN113076538B (zh) * 2021-04-02 2021-12-14 北京邮电大学 一种移动应用apk文件内嵌隐私政策提取方法
CN113139186A (zh) * 2021-04-14 2021-07-20 北京开元华创信息技术有限公司 一种个人信息安全审计评估系统
CN113065126B (zh) * 2021-06-03 2022-05-27 北京数安行科技有限公司 基于分布式数据沙盒的个人信息合规的方法和装置
CN113505374A (zh) * 2021-07-12 2021-10-15 恒安嘉新(北京)科技股份公司 一种信息采集范围检测方法、装置、电子设备和介质
CN113688033A (zh) * 2021-07-20 2021-11-23 荣耀终端有限公司 一种隐私合规检测方法及计算机可读存储介质
CN113849785B (zh) * 2021-07-29 2024-01-30 国家计算机网络与信息安全管理中心 针对应用程序的移动终端信息资产使用行为识别方法
CN113704102A (zh) * 2021-08-24 2021-11-26 国家计算机网络与信息安全管理中心 应用程序合规检测方法、装置、设备和介质
CN113691989A (zh) * 2021-09-03 2021-11-23 中国银行股份有限公司 个人信息保护方法及装置
CN113822036B (zh) * 2021-09-28 2022-07-12 百度在线网络技术(北京)有限公司 一种隐私政策内容生成方法、装置及电子设备
CN114676432B (zh) * 2022-05-26 2022-09-09 河北兰科网络工程集团有限公司 一种app隐私合规性检查方法、终端和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346566A (zh) * 2013-07-31 2015-02-11 腾讯科技(深圳)有限公司 检测隐私权限风险的方法、装置、终端、服务器及系统
CN110414241A (zh) * 2019-08-05 2019-11-05 深圳市网安计算机安全检测技术有限公司 隐私策略检测方法、装置、计算机设备及存储介质
CN111190603A (zh) * 2019-12-18 2020-05-22 腾讯科技(深圳)有限公司 一种隐私数据检测方法、装置和计算机可读存储介质
CN111753322A (zh) * 2020-07-03 2020-10-09 烟台中科网络技术研究所 一种移动App权限列表自动核验方法及系统
CN111835756A (zh) * 2020-07-10 2020-10-27 深圳市网安计算机安全检测技术有限公司 App隐私合规检测方法、装置、计算机设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029147A (en) * 1996-03-15 2000-02-22 Microsoft Corporation Method and system for providing an interface for supporting multiple formats for on-line banking services
JP5430819B2 (ja) * 2003-08-28 2014-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースシステム、情報取得可否検査システム、情報取得方法、およびプログラム
CN103810424B (zh) * 2012-11-05 2017-02-08 腾讯科技(深圳)有限公司 一种异常应用程序的识别方法及装置
JP6437892B2 (ja) * 2015-07-13 2018-12-12 日本電信電話株式会社 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
CN108804912B (zh) * 2018-06-15 2021-09-28 北京大学 一种基于权限集差异的应用程序越权检测方法
KR102134073B1 (ko) * 2018-08-13 2020-07-14 인제대학교 산학협력단 집단의 모바일 앱 데이터로부터의 개인 식별 정보의 위험 식별
CN109598127B (zh) * 2018-12-07 2023-07-25 百度在线网络技术(北京)有限公司 隐私风险评估方法和装置
JP7298084B2 (ja) * 2019-02-20 2023-06-27 株式会社日本総合研究所 貯金箱、貯金システム、金融機関装置、その方法及びプログラム
CN111143831A (zh) * 2019-12-24 2020-05-12 平安普惠企业管理有限公司 安装包隐私权限扫描方法、装置及计算机设备
CN113886584A (zh) * 2020-11-10 2022-01-04 支付宝(杭州)信息技术有限公司 一种应用程序的信息检测方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346566A (zh) * 2013-07-31 2015-02-11 腾讯科技(深圳)有限公司 检测隐私权限风险的方法、装置、终端、服务器及系统
CN110414241A (zh) * 2019-08-05 2019-11-05 深圳市网安计算机安全检测技术有限公司 隐私策略检测方法、装置、计算机设备及存储介质
CN111190603A (zh) * 2019-12-18 2020-05-22 腾讯科技(深圳)有限公司 一种隐私数据检测方法、装置和计算机可读存储介质
CN111753322A (zh) * 2020-07-03 2020-10-09 烟台中科网络技术研究所 一种移动App权限列表自动核验方法及系统
CN111835756A (zh) * 2020-07-10 2020-10-27 深圳市网安计算机安全检测技术有限公司 App隐私合规检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112199506A (zh) 2021-01-08
CN113886584A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN112199506B (zh) 一种应用程序的信息检测方法、装置及设备
Zimmeck et al. Privee: An architecture for automatically analyzing web privacy policies
CN112257114A (zh) 一种应用程序隐私合规检测方法、装置、设备和介质
CN112214418B (zh) 一种应用程序的合规检测方法、装置和电子设备
CN113939792A (zh) 用于机器语言模型创建的用户界面
CN111984779B (zh) 一种对话文本分析方法、装置、设备和可读介质
CN109190007B (zh) 数据分析方法及装置
US10769057B2 (en) Identifying potential errors in code using machine learning
US10592236B2 (en) Documentation for version history
CN110674188A (zh) 一种特征提取方法、装置及设备
CN107729549B (zh) 一种包含要素提取的机器人客服方法及系统
CN111783016A (zh) 一种网站分类方法、装置及设备
CN114758327A (zh) 识别码图像中的风险的方法、装置以及设备
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
CN115455166A (zh) 一种智能对话系统异常检测的方法、装置、介质及设备
Obie et al. On the violation of honesty in mobile apps: Automated detection and categories
US20180315130A1 (en) Intelligent data gathering
CN113435950B (zh) 票据处理方法及装置
CN113837772A (zh) 一种对营销信息进行审核的方法、装置及设备
CN111488737B (zh) 文本识别方法、装置及设备
CN109146395B (zh) 一种数据处理的方法、装置及设备
CN111091019A (zh) 一种信息提示方法、装置及设备
US11928153B2 (en) Multimedia linked timestamp validation detection
KR102604576B1 (ko) 웹 환경 상에서 개인정보 유노출 방지를 위한 모니터링 장치, 방법 및 컴퓨터 프로그램
US20220156177A1 (en) Synthetic deidentified test data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044670

Country of ref document: HK