CN114925373B

CN114925373B - 基于用户评语的移动应用隐私保护政策漏洞自动识别的方法

Info

Publication number: CN114925373B
Application number: CN202210539997.2A
Authority: CN
Inventors: 宫丽娜; 李秋林; 魏明强
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-12-08
Anticipated expiration: 2042-05-17
Also published as: CN114925373A

Abstract

本发明公开了一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，其包括如下步骤：使用短文本主题建模和语义规则匹配方法，从用户评语中匹配移动应用存在危害用户个人信息的行为，获得移动应用不良行为集；使用显示语义分析方法提取隐私保护政策中与用户个人信息相关的语句，提取相应语句的信息内容，然后将语句中出现的信息内容组成信息内容集合；通过静态分析提取移动应用在实际使用的过程中存在搜集的用户个人信息，确定移动应用对用户个人信息的使用情况，获取移动应用申请的使用权限中文名称集合。本发明方法能够基于上述步骤获得的结果自动识别移动应用隐私保护政策存在的漏洞。

Description

基于用户评语的移动应用隐私保护政策漏洞自动识别的方法

技术领域

本发明属于移动应用中的隐私保护政策漏洞分析技术领域，特别涉及一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法。

背景技术

随着我国信息化产业技术的进步，移动应用行业正稳步增长。为了保护用户的个人信息安全，国家先后出台了法律相关条文，明确规定移动应用在未经用户允许的情况下以及未明示收集使用个人信息的目的、方式和范围的情况下，不得随意收集使用个人信息。另外，目前的安全分析技术主要关注在移动应用本身的数据分析与使用上，从隐私政策漏洞角度分析软件行为的相关技术却寥寥无几，同时对于多家移动应用市场没有建立完善的应用审查机制，只关注移动应用隐私政策的描述行为，却鲜有关注移动应用的实际使用行为，对用户的个人敏感信息造成的严重威胁。

专利文献1公开了一种面向隐私保护政策的移动应用隐私数据一致性行为分析方法，该方法通过如下步骤对软件隐私政策与软件实际行为进行分析：首先使用隐私政策完整性分析方法比对隐私政策是否存在缺项漏项的问题；然后通过分析移动应用的用户交互组件，理解组件类型并分类，结合软件的数据流分析确定敏感隐私数据的使用情况；最后将行为结果与隐私政策进行比对，生成移动应用软件行为与隐私政策一致性的判别结果。然而，该专利文献1并没有从用户感知层面上考虑用户对移动应用的实际评价对发现隐私政策漏洞的影响。

综上，虽然已有的这些研究为隐私政策漏洞分析提供了良好的研究基础，然而，当前发现隐私政策漏洞的能力尚未得到充分挖掘，主要体现在如下两个方面：①.移动应用开发越来越复杂，开发方式迭代更新，传统静态分析无法完整分析应用获取的应用权限，获取的应用权限不够完整；②.没有结合第三方用户的反馈信息发现可能存在披露的隐私政策漏洞。

相关文献

专利文献1中国发明专利申请公开号：CN 112068844 A，公开日：2020.12.11。

发明内容

本发明的目的在于提出一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，该方法能够自动识别移动应用隐私保护政策存在的漏洞。

本发明为了实现上述目的，采用如下技术方案：

一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，包括如下步骤：

步骤1.使用短文本主题建模和语义规则匹配方法，从用户评语中匹配移动应用存在危害用户个人信息的行为，获得移动应用不良行为集；

步骤2.使用显示语义分析方法提取隐私保护政策中与用户个人信息相关的语句，并提取相应语句的信息内容，然后将语句中出现的信息内容组成信息内容集合；

步骤3.通过静态分析提取移动应用在实际使用的过程中存在搜集的用户个人信息，确定移动应用对用户个人信息的使用情况，获取移动应用申请的使用权限中文名称集合；

步骤4.基于上述步骤1至3的结果，自动识别移动应用隐私保护政策漏洞：

比对移动应用不良行为集与信息内容集合：如果移动应用存在不良行为危害用户个人信息但信息内容集合中却未出现不良行为信息或与不良行为表述不一致的情况，则认定隐私保护政策与移动应用实际行为存在不一致，隐私保护政策对移动应用行为描述存在缺漏。

比对信息内容集合与使用权限中文名称集合：如果使用权限中文名称集合中存在权限没有出现在信息内容集合中或者使用权限中文名称集合中权限与信息内容集合中对权限描述的内容不一致，则认定隐私保护政策存在权限缺漏或者权限使用目的不一致。

在给出基于用户评语的移动应用隐私保护政策漏洞自动识别的方法的基础上，本发明还提出了一种用于上述移动应用隐私保护政策漏洞自动识别的方法的计算机设备。

该计算机设备包括存储器和处理器，存储器中存储有可执行代码；处理器执行可执行代码时，用于实现上面述及的基于用户评语的移动应用隐私保护政策漏洞自动识别的方法。

在给出基于用户评语的移动应用隐私保护政策漏洞自动识别的方法的基础上，本发明还提出了一种用于实现上述移动应用隐私保护政策漏洞自动识别的方法的可读存储介质。

该计算机可读存储介质，其上存储有程序；当所述程序被处理器执行时，用于实现上面述及的基于用户评语的移动应用隐私保护政策漏洞自动识别的方法。

本发明具有如下优点：

如上所述，本发明述及了一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，通过用户评语与隐私政策的信息内容集合进行自动化分析，同时结合静态分析获取移动应用对用户个人信息的使用情况，检测隐私保护政策是否存在权限缺漏或者权限使用目的不一致的情况，通过自动识别出隐私保护政策存在的漏洞，一方面减少了开发成本和隐私保护政策的编写漏洞，减少了可能面临的法律风险，另一方面减少了人工审核成本，提高了应用市场对不良软件的甄别能力，对建立完善的移动应用市场政策秩序起到很好的推动作用。

附图说明

图1为本发明实施例基于用户评语的移动应用隐私保护政策漏洞自动识别方法的流程图；

图2为本发明实施例基于短文本主题建模和语义规则匹配方法的用户评语检测流程图；

图3为本发明实施例基于显示语义分析的隐私保护政策检测的检测流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，本实施例述及了一种基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，以便能够自动地识别隐私保护政策存在的权限漏洞。

基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，包括如下步骤：

步骤1.使用短文本主题建模和语义规则匹配方法，从用户评语中匹配移动应用存在危害用户个人信息的行为，获得移动应用不良行为集。

如图2所示，该步骤1具体为：

步骤1.1.定义移动应用的不良行为集合UndesiredBehaviors，该集合UndesiredBehaviors中包含移动应用存在危害用户个人信息的不良行为，包括索要和滥用非必要权限、包含攻击性广告、非法读取用户个人信息、滥用网络流量、隐藏第三方应用、非法重定向、非法更新、修改浏览器设置以及功能和描述不一致等9种不良行为。

步骤1.2.获取应用平台上移动应用的所有评论，人为选取和筛选适量的用户评论(例如所有评论的2％)，通过认为选取和筛选获得9个语料库Corpus。

每个语料库Corpus对应一种不良行为，包含多条涉及到不良行为的用户评论。

步骤1.3.对于步骤1.2中的语料库Corpus，将每个语料库中的评论进行词汇分割，去除无意义的单词，并根据TF-IDF加权对剩余单词进行降序排序，获取WordList。

步骤1.4.根据步骤1.3获取的WordList中的每一个关键词汇，获取语料库Corpus中包含所述关键词汇的每个评论，并添加到评论集contentword中。

步骤1.5.对于步骤1.3获取的WordList中的每一个关键词汇，遍历进行比较。

具体为：对于WordList中的关键词m及其对应的评论集contentword_m，以及WordList中的关键词n及其对应的评论集contentword_n，进行如下比较：

如果评论集contentword_m和评论集contentword_n存在交集，则将关键词m和关键词n合并到一个关键词集中，否则将关键词m放到一个新的关键词集中。

通过对WordList中的关键词遍历比较，获得所有的关键词集KeyWordSets。

步骤1.6.对于关键词集KeyWordSets中的每一个关键词，成对地组合该关键词集中不同词性的关键词，定义格式为{keyword1,keyword2,constraints}。

其中，{keyword1,keyword2,constraints}的含义表示为关键词keyword1在关键词keyword2的前面，且关键词keyword1与关键词keyword2之间的距离不超过constraints个单词。

如果关键词集中的每一个关键词都是名词，那么对于每一个关键词，生成一条语义规则，样式如下：{keyword,null,null}，其含义为关键词keyword与其它关键词之间无距离条件约束。

将以上形成的多条语义规则组成语义规则集RuleSets。

步骤1.7.使用jieba工具对移动应用的评论进行分词处理，获取分词处理后的词汇集合words，使用步骤1.6中的语义规则集RuleSets对词汇集合words进行匹配。

如果语义规则集RuleSets中存在语义规则set，其中，关键词keyword1和关键词keyword2都出现在词汇集合中，则检查关键词keyword1和关键词keyword2的前后顺序和距离，以确定它们是否满足语义规则的约束；如果满足，则认为匹配成功。

步骤1.8.统计步骤1.7中匹配成功的不良行为，形成移动应用不良行为集SUBs。

该步骤1可以使本发明方法能够分析用户评价对识别隐私保护政策存在的漏洞的影响。

步骤2.使用显示语义分析方法提取隐私保护政策中与用户个人信息相关的语句，并提取相应语句的信息内容，然后将语句中出现的信息内容组成信息内容集合。

如图3所示，该步骤2具体为：

步骤2.1.获取移动应用的隐私保护政策Privacy，对隐私保护政策Privacy进行预处理，去除非文本内容后，将隐私保护政策P中的语句进行划分，构建初始的语句集合N1。

步骤2.2.对初始的语句集合N1进行句法分析，根据THULAC词法分析工具包，获取语句集合N1中每条语句的语法依赖关系，构建语句集合N1的语法依赖关系集合N2。

步骤2.3.预定义形式主谓宾的语料库，包含主语列表、宾语列表以及提供、收集、使用、保留和分享个人敏感信息的种子模式列表Pattern。

步骤2.4.对于语法依赖关系集合N2中的每一条语句，提取语句中的最短路径作为新模式，插入种子模式列表Pattern，并将语句中的主语和宾语插入对应的主语列表和宾语列表中。

步骤2.5.将初始的语句集合N1分为两个句集，一种为正句集，为包含提供、收集、使用、保留和分享个人敏感信息的句子，另一种为负句集，为不包含相关的句子。

对于种子模式列表Pattern中的每一个模式p：

定义pos(p)表示模式p能够匹配的正确的正句数量，定义neg(p)表示模式p能够匹配的否定句数，定义unk(p)表示任何模式都无法匹配的句子数量。

那么由下面的公式，求得模式p的准确性acc(p)和置信度conf(p)；

计算每个模式p最后的得分Scroe(p)：Score(p)＝conf(p)*log(|pos(p)|)。

根据每个模式的得分进行排序，得分高的模式排在种子模式列表Pattern的前面。

步骤2.6.定义有用句集UseSen。

解析语法依赖关系集合N2中每个句子的类型依赖关系，遍历种子模式列表Pattern中的每一个模式，使用显示语义分析方法对句子进行匹配，检查其词根是否属于提供、收集、使用、保留和分享这五个动词类别；如果是，则将句子放入有用句集UseSen中。

步骤2.7.对于步骤2.6有用句集UseSen中的每一条语句，使用Thulac工具提取该语句的信息内容，并将每一条语句中出现的信息内容放入信息内容集合Content中。

该步骤2的做法的好处在于，可以提取出隐私保护政策所提供的文本信息，以便结合步骤1和步骤3进行信息对比，从而识别出隐私保护政策中的漏洞。

步骤3.通过静态分析提取移动应用在实际使用的过程中存在搜集的用户个人信息，确定移动应用对用户个人信息的使用情况，获取移动应用申请的使用权限中文名称集合。

该步骤3具体为：

步骤3.1.使用工具androguard获取移动应用在使用的过程中权限请求集合Permission。

步骤3.2.从谷歌官网获取Android的所有权限APIS，与步骤3.1中的权限请求集合Permission进行比对，筛选出移动应用在使用的过程中会向用户申请的使用权限CPS。

步骤3.3.对步骤3.2获取的所有权限APIS中的每一个权限API，将该权限API的英文名翻译成对应的中文名，并建立权限字典对应集合APIMAP。

步骤3.4.对于步骤3.2筛选出的每一个使用权限CPS，在权限字典对应集合APIMAP中寻找该使用权限对应的中文名称，获取移动应用申请的使用权限中文名称集合CCPS。

步骤4.基于上述步骤1至步骤3的结果，自动识别移动应用隐私保护政策漏洞。

比对移动应用不良行为集与信息内容集合：如果移动应用存在不良行为危害用户个人信息但信息内容集合中却未出现不良行为信息或与不良行为表述不一致的情况，则认定隐私保护政策与移动应用实际行为存在不一致，隐私保护政策对移动应用行为描述存在缺漏；

本发明针对不同类型的移动应用，通过用户评语与隐私政策的信息内容集合进行自动化分析，如果信息内容集合中却未出现不良行为信息或与不良行为表述不一致，则认定隐私保护政策与应用实际行为存在不一致，与人工审核隐私保护政策的一致性和完整性相比，该方法能够自动识别隐私保护政策的漏洞，同时可以提高移动应用审核的效率和准确性。

本发明同时结合了移动应用申请的使用权限进行分析，同样可以检测隐私保护政策是否存在权限缺漏或者权限使用目的不一致的现象，也会使得分析结果更加全面。

本发明实现了对隐私保护政策的正确性和完整性检测，从而有力的保护用户的个人信息。

此外，本发明实施例在给出上述基于用户评语的移动应用隐私保护政策漏洞自动识别的方法的基础上，还提出了一种用于实现上述方法的计算机设备。

本发明实施例中的计算机设备为任意具有数据处理能力的设备或装置。

该计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。当处理器执行该计算机程序时实现移动应用隐私保护政策漏洞自动识别的方法。

此外，本发明实施例在给出上述基于用户评语的移动应用隐私保护政策漏洞自动识别的方法的基础上，还提出了一种用于实现上述方法的计算机可读存储介质。

当计算机程序被处理器执行时实现移动应用隐私保护政策漏洞自动识别的方法。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存；当然也可以是任意具备数据处理能力的设备的外部存储设备，例如插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.基于用户评语的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，

包括如下步骤：

所述步骤3具体为：

步骤3.1.使用工具androguard获取移动应用在使用的过程中权限请求集合Permission；

步骤3.2.从谷歌官网获取Android的所有权限APIS，与步骤3.1中的权限请求集合Permission进行比对，筛选出移动应用在使用的过程中会向用户申请的使用权限CPS；

步骤3.3.对步骤3.2获取的所有权限APIS中的每一个权限API，将该权限API的英文名翻译成对应的中文名，并建立权限字典对应集合APIMAP；

步骤3.4.对于步骤3.2筛选出的每一个使用权限CPS，在权限字典对应集合APIMAP中寻找该使用权限对应的中文名称，获取移动应用申请的使用权限中文名称集合CCPS；

步骤4.基于上述步骤1至3的结果，自动识别移动应用隐私保护政策漏洞；

2.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，

所述步骤1具体为：

步骤1.1.定义移动应用的不良行为集合UndesiredBehaviors，该集合UndesiredBehaviors中包含移动应用存在危害用户个人信息的不良行为，包括：

索要和滥用非必要权限、包含攻击性广告、非法读取用户个人信息、滥用网络流量、隐藏第三方应用、非法重定向、非法更新、修改浏览器设置以及功能和描述不一致；

步骤1.2.获取应用平台上移动应用的所有评论，选取和筛选用户评论，筛选获得9个语料库Corpus，每个语料库对应一种不良行为，包含多条涉及到不良行为的用户评论；

步骤1.3.对于步骤1.2中的语料库Corpus，将每个语料库中的评论进行词汇分割，去除无意义的单词，并根据TF-IDF加权对剩余单词进行降序排序，获取WordList；

步骤1.4.根据步骤1.3获取的WordList中的每一个关键词，获取语料库Corpus中包含所述关键词的每个评论，并添加到评论集contentword中；

步骤1.5.对于步骤1.3获取的WordList中的每一个关键词，遍历进行比较；

如果评论集contentword_m和评论集contentword_n存在交集，则将关键词m和关键词n合并到一个关键词集中，否则将关键词m放到一个新的关键词集中；

通过对WordList中的关键词汇遍历比较，获得所有的关键词集KeyWordSets；

步骤1.6.对于关键词集KeyWordSets中的每一个关键词，成对地组合该关键词集中不同词性的关键词，定义格式为{keyword1,keyword2,constraints}；

其中，{keyword1,keyword2,constraints}表示为关键词keyword1在关键词keyword2的前面，且关键词keyword1与关键词keyword2之间的距离不超过constraints个单词；

如果关键词集中的每一个关键词都是名词，那么对于每一个关键词，生成一条语义规则，样式如下：{keyword,null,null}，表示关键词keyword与其它关键词之间无距离条件约束；

将步骤1.6形成的多条语义规则组成语义规则集RuleSets；

步骤1.7.使用jieba工具对移动应用的评论进行分词处理，获取分词处理后的词汇集合words，使用步骤1.6中的语义规则集RuleSets对词汇集合words进行匹配；

如果语义规则集RuleSets中存在语义规则set，其中关键词keyword1和关键词keyword2都出现在词汇集合中，则检查关键词keyword1和关键词keyword2的前后顺序和距离，以确定它们是否满足语义规则的约束；如果满足，则认为匹配成功；

3.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法，其特征在于，

所述步骤2具体为：

步骤2.1.获取移动应用的隐私保护政策Privacy，对隐私保护政策Privacy预处理，去除非文本内容后，将隐私保护政策Privacy中的语句进行划分，构建初始的语句集合N1；

步骤2.2.对初始的语句集合N1进行句法分析，根据THULAC词法分析工具包，获取语句集合N1中每条语句的语法依赖关系，构建语句集合N1的语法依赖关系集合N2；

步骤2.3.预定义形式主谓宾的语料库，包含主语列表、宾语列表以及提供、收集、使用、保留和分享个人敏感信息的种子模式列表Pattern；

步骤2.4.对于语法依赖关系集合N2中的每一条语句，提取语句中的最短路径作为新模式，插入种子模式列表Pattern，并将语句中的主语和宾语插入对应的主语列表和宾语列表中；

步骤2.5.将初始的语句集合N1分为两个句集，一种为正句集，为包含提供、收集、使用、保留和分享个人敏感信息的句子，另一种为负句集，为不包含相关的句子；

对于种子模式列表Pattern中的每一个模式p：

定义pos(p)表示模式p能够匹配的正确的正句数量，定义neg(p)表示模式p能够匹配的否定句数，定义unk(p)表示任何模式都无法匹配的句子数量；

计算每个模式p最后的得分Scroe(p)：Score(p)＝conf(p)*log(|pos(p)|)；

根据每个模式的得分进行排序，得分高的模式排在种子模式列表Pattern的前面；

步骤2.6.定义有用句集UseSen；

解析语法依赖关系集合N2中每个句子的类型依赖关系，遍历种子模式列表Pattern中的每一个模式，使用显示语义分析方法对句子进行匹配，检查其词根是否属于提供、收集、使用、保留和分享这五个动词类别；如果是，则将句子放入有用句集UseSen中；

4.一种计算机设备，包括存储器和处理器，存储器中存储有可执行代码；其特征在于，所述处理器执行所述可执行代码时，用于实现如上述权利要求1至3任一项所述的基于用户评语的移动应用隐私保护政策漏洞自动识别的方法。

5.一种计算机可读存储介质，其上存储有程序；其特征在于，所述程序被处理器执行时，实现如上述权利要求1至3任一项所述的基于用户评语的移动应用隐私保护政策漏洞自动识别的方法。