CN115292674A

CN115292674A - 一种基于用户评论数据的欺诈应用检测方法及系统

Info

Publication number: CN115292674A
Application number: CN202210943412.3A
Authority: CN
Inventors: 胡阳雨; 邬松骏; 杨茜; 康诗悦; 吴渝; 祝清意
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-04

Abstract

本发明属于信息安全中的软件安全领域，具体涉及一种基于用户评论数据的欺诈应用检测方法及系统，该方法包括：构建移动欺诈应用知识库；获取待检测应用的数据；对待检测应用数据进行预处理；采用移动欺诈应用知识库对预处理后的数据进行特征匹配，若匹配成功，则输出检测结果，若匹配失败，则采用分类规则计算用户评论数据与欺诈行为的关联度，并对该评论数据进行类别标记；采用TF‑IDF算法对类别标记的评论数据进行关键词提取，根据提取的关键词对待检测应用的数据进行检测，得到检测结果；本发明基于多关键词分类规则从海量的用户评论中识别出描述欺诈行为的评论信息，提高了检测的准确率和效率。

Description

一种基于用户评论数据的欺诈应用检测方法及系统

技术领域

本发明属于信息安全中的软件安全领域，具体涉及一种基于用户评论数据的欺诈应用检测方法及系统。

背景技术

由于安卓系统的开放性及普及性，欺诈应用在安卓平台出现并变得更加广泛。欺诈应用不仅会泄露用户的个人信息，而且还给用户带来了经济损失。目前，欺诈应用的检测方法主要分为静态代码分析方法和动态运行时行为监测方法；静态代码分析方法通常通过特征匹配来判断是否存在恶意或者敏感的代码威胁；动态运行时行为分析是在应用真实执行基础上的分析方法，通过自动化运行遍历应用功能，然后使用插桩、注入等技术手段，获取相关的输出或状态数据。

但是移动欺诈应用技术形态变化多端，特别是，绝大部分欺诈应用并不具备代码执行上的异常，也不具备本地行为的异常；因此，无法从应用代码、行为序列、数据流向等层面提取有效的特征，已有的静态代码分析和动态运行时分析方法无法有效的发现移动应用中的欺诈行为。其次，欺诈行为通常隐藏在应用中的某一个界面、功能或服务中，且需要满足特定条件才会触发，例如，移动广告欺诈中的广告放置位置、交友欺诈应用中的付费服务等。但是，部分触发条件是已有的自动化运行技术无法实现的，需要依赖人工实际使用应用相关的功能或服务才能发现应用中的欺诈行为，而仅依赖于人工审查的方式来发现移动欺诈应用，其准确率和效率是无法满足商店百万级应用的规模。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于用户评论数据的欺诈应用检测方法，该方法包括：构建移动欺诈应用知识库；获取待检测应用的数据，该数据包括应用样本、应用元数据以及用户评论数据；对待检测应用数据进行预处理；采用移动欺诈应用知识库对预处理后的数据进行特征匹配，若匹配成功，则输出检测结果，若匹配失败，则采用分类规则计算用户评论数据与欺诈行为的关联度，并对该评论数据进行类别标记；采用TF-IDF算法对类别标记的评论数据进行关键词提取，根据提取的关键词对待检测应用的数据进行检测，得到检测结果；对检测结果进行特征提取，并根据提取的特征对移动欺诈应用知识库进行更新。

优选的，构建移动欺诈应用知识库的过程包括：从已确认为移动欺诈应用中获取该应用的应用内数据和应用元数据，根据该应用的评论提取应用特征；根据应用内数据、应用元数据以及提取的评论数据特征构建移动欺诈应用知识库；所述应用内数据包括应用代码、应用资源文件以及开发者签名，所述应用元数据包括应用描述、应用名以及发布者名。

优选的，对待检测应用数据进行预处理包括：对待测应用数据的用户评论数据进行去停用词以及分词工作。

优选的，采用分类规则计算用户评论数据与欺诈行为的关联度的过程包括：

步骤1：构建训练集，构建过程包括获取欺诈应用的用户评论，采用人工标记对应的欺诈行为，将所有的经过标记的用户评论数据进行集合，得到训练集；

步骤2：对训练集中的用户评论数据进行去停用词和分词操作；

步骤3：采用TF-IDF算法对经过去停用词和分词操作后的数据进行关键词排序；遍历排序后的关键词，对排序后的关键词进行筛选，得到关键词集合；

步骤4：根据关键词集合构建分类规则；

步骤5：采用分类规则对待检测应用的用户评论数据进行分类，得到用户评论数据的分类结果；

步骤6：对用户评论数据分类结果进行特征提取，得到欺诈应用评论数据特征。

进一步的，得到关键词集合包括：依次遍历关键词，如果关键词对应的评论子集合与已遍历的关键词对应的评论子集合属于包含关系，则将两个关键词放入一个关键词集中，否则将该关键词放入一个新的关键词集中；当之前所有遍历的关键词对应的评论子集合的并集包含全部评论，则停止遍历；将所有选出的关键词进行集合，得到关键词集合。

优选的，构建分类规则包括：通过枚举的方式，分别计算多个关键词在不同的顺序和允许的词语间距条件下，评论分类的准确率和召回率变化情况，并选取表现情况最好的条件作为此关键词集合的限制规则，形成分类规则集。

一种基于用户评论数据的欺诈应用检测系统，该系统包括：数据获取模块、数据预处理模块、移动欺诈应用知识库、特征匹配模块、评论分类模块、关键词提取模块、结果输出模块以及结果特征提取模块；

所述数据获取模块用于获取待检测的应用数据；

所述数据预处理模块用于对待检测应用数据进行预处理，该预处理包括对待测应用数据的用户评论数据进行去停用词以及分词工作；

所述特征匹配模块用于将预处理后的待检测应用数据与移动欺诈应用知识库中的数据进行匹配，若匹配成功，则将匹配结果输入到结果输出模块中，若匹配不成功，则将预处理后的评论数据输入到评论分类模块中；

所述评论分类模块用于对预处理后的评论数据进行分类，得到分类结果；

所述关键词提取模块用于对分类结果进行关键词提取，得到输出结果；

所述结果特征提取模块用于对输出结果仅特征提取，并将提取的特征输入到移动欺诈应用知识库，对移动欺诈应用知识库中的数据进行更新；

所述结果输出模块用于输出结果。

本发明的有益效果：

1)本发明为移动应用商店提供了一种基于用户评论数据的欺诈应用检测方法和系统，基于多关键词分类规则从海量的用户评论中识别出描述欺诈行为的评论信息，相对于传统的人工审核的方式，大大降低了人力物力成本，提升了准确率和效率；

2)本发明从已确认的欺诈应用中提取应用代码、应用元数据、用户评论等各维度的特征，构建移动欺诈应用知识库。一方面可以帮助分析人员深入挖掘移动欺诈产业链，另一方面也为移动应用商店提供了一种应用审核方法，通过对相关特征的相似度进行比对，快速的发现应用是否与已确认的欺诈应用具有关联性，从而更及时的进行预警及后续的人工研判。

附图说明

图1为本发明的基于用户评论数据特征提取的欺诈应用检测方法的整体流程图；

图2为本发明的对用户评论数据进行分类的流程图；

图3为本发明的对用户评论数据进行特征提取的流程图；

图4为本发明的网络结构模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

移动欺诈应用不仅给移动生态系统中各成员带来隐私信息泄露、经济财产损失、个人利益损害等威胁，同时加深了社会信任危机感，大多数应用商店会在应用上架前，利用应用安全分析技术和工具对其进行自动化检测，以阻止不良的应用流入应用商店。然而，相关分析方法无法有效的发现移动欺诈应用；应用商店会进一步借助于用户反馈信息(例如，用户评论)，通过人工审查的方式来持续监测未被发现的欺诈应用；然而，用户评论数量巨大，且其中包含着大量的噪音数据，仅依靠人工审查无法及时准确的找到有效的评论信息；针对上述问题本发明提出了一种基于用户评论数据的欺诈应用检测方法，基于用户评论这一反馈信息，利用自然语言处理技术，自动化的从中抽取出用户感知或遭受的欺诈行为，供应用商店进行后续研判。另外，利用有关联的欺诈应用可能具有相似的应用描述、相同的签名、相似的应用代码、相似的应用虚假评论这一特征，对于已确认的移动欺诈应用，从应用元信息、开发者信息、代码信息、评论信息等层面构建移动欺诈应用知识库；该知识库一方面可以帮助关联移动欺诈应用，挖掘移动欺诈产业链；另一方面也提供了一种应用上架前的审查方式，对于开发者上传的新应用，将应用相关信息与知识库进行比对，得到其与已发现的欺诈应用的关联度，辅助相关人员进行研判。

一种基于用户评论数据的欺诈应用检测方法的具体实施方式，该方法如图4所示，包括：根据核心功能可划分为4个模块：输入模块、评论信息分类模块、移动欺诈应用知识库匹配模块和结果输出模块。各模块主要功能包括：

1)输入模块包括一个或多个应用样本、应用元数据(例如开发者信息、应用类别、应用描述等)及其对应的用户评论信息。

2)评论信息分类模块包括预处理、分类规则匹配和关键词提取三个子模块。对于输入的评论信息，首先利用预处理模块进行去停用词和分词。然后，基于训练的分类规则，对预处理后的评论进行行为类别标记，提取描述“仿冒欺诈”、“广告欺诈”、“支付欺诈”等不同类别欺诈行为的用户评论。最后，分别对各类别的评论进行关键词提取，用于更细粒度的描述该欺诈行为使用的欺诈方法。

3)移动欺诈应用知识库匹配模块使用已确认的欺诈应用的相关数据作为知识特征。对于新输入的移动应用及其相关信息，基于应用解析和特征提取子模块，从应用样本文件中提取功能代码特征、签名特征、资源文件特征、第三方库特征；从应用元信息中提取应用名特征、应用描述特征、发布者信息特征；从用户评论中提取语义特征。然后，分别与知识库中的对应特征进行匹配，计算关联度。

4)结果输出模块由两部分组成。对于评论信息分类模块，其输出内容为分类后的一个或多个欺诈行为、描述各欺诈行为的关键词以及对应的用户评论集。对于移动欺诈应用知识库，输出内容为输入应用与已确认的欺诈应用的关联信息及关联度。结果输出模块的数据表示发现输入应用为疑似欺诈应用并进行预警，输出数据可用于辅助相关人员进行进一步的人工研判。

一种基于用户评论数据的欺诈应用检测方法的具体实施方式，如图1所示，该方法包括：构建移动欺诈应用知识库；获取待检测应用的数据，该数据包括应用样本、应用元数据以及用户评论数据；对待检测应用数据进行预处理；采用移动欺诈应用知识库对预处理后的数据进行特征匹配，若匹配成功，则输出检测结果，若匹配失败，则采用分类规则计算用户评论数据与欺诈行为的关联度，并对该评论数据进行类别标记；采用TF-IDF算法对类别标记的评论数据进行关键词提取，根据提取的关键词对待检测应用的数据进行检测，得到检测结果；对检测结果进行特征提取，并根据提取的特征对移动欺诈应用知识库进行更新。

构建移动欺诈应用知识库的过程包括：从已确认为移动欺诈应用中获取该应用的应用内数据和应用元数据，根据该应用的评论提取应用特征；根据应用内数据、应用元数据以及提取的评论数据特征构建移动欺诈应用知识库；所述应用内数据包括应用代码、应用资源文件以及开发者签名，所述应用元数据包括应用描述、应用名以及发布者名。

采用移动欺诈应用知识库对预处理后的数据进行特征匹配的过程包括设置匹配阈值；依次将应用评论特征、应用内数据特征以及应用元数据特征与移动欺诈应用知识库中相对应的特征进行对比，得到每个特征的相似度；将得到的相似对与设置的匹配阈值进行比较，若小于匹配阈值，则匹配失败，否则匹配成功。

如图2所示，采用分类规则计算用户评论数据与欺诈行为的关联度的过程包括：

步骤1：构建训练集，构建过程包括获取欺诈应用的用户评论，采用人工标记对应的欺诈行为，将所有的经过标记的用户评论数据进行集合，得到训练集；训练集中的数据包括“仿冒欺诈”、“广告欺诈”、“支付欺诈”等各类型欺诈行为对应的评论集合。

步骤2：对训练集中的用户评论数据进行去停用词和分词操作。

步骤3：采用TF-IDF算法对经过去停用词和分词操作后的数据进行关键词排序；遍历排序后的关键词，对排序后的关键词进行筛选，得到关键词集合。

具体过程包括：首先对各类型欺诈行为对应的训练集的预处理数据，分别使用TF-IDF算法对其中的关键词进行排序，并输出包含每个关键词的评论子集合。然后，依次遍历关键词，如果关键词对应的评论子集合与已遍历的关键词对应的评论子集合属于包含关系，则将两个关键词放入一个关键词集中，否则将该关键词放入一个新的关键词集中。当之前所有遍历的关键词对应的评论子集合的并集包含全部评论，则停止遍历。这一步的输出结果为一个或多个关键词集合。

步骤4：根据关键词集合构建分类规则。具体过程包括：针对输出的关键词集合，如果其中包含多个关键词，自动生成限制规则。通过枚举的方式，分别计算多个关键词在不同的顺序和允许的词语间距条件下，评论分类的准确率和召回率变化情况，并选取表现情况最好的条件作为此关键词集合的限制规则。最终，形成分类规则集，包括关键词集合及其中多个关键词的限制规则。

步骤6：对用户评论数据分类结果进行特征提取，得到欺诈应用评论数据特征。对分类后的用户评论进行关键词提取，将各类用户评论分别作为文本集合，使用TF-IDF算法对词语进行排序，将排名前十的词语作为输出，用于细粒度的描述欺诈行为使用的欺诈方法，辅助相关分析人员进行后续研判。

如图3所示，对分类结果进行关键词特征提取的过程包括：

步骤1.应用解析：利用逆向工具解析应用，获取应用资源文件、开发者信息、二进制代码等数据。

步骤2.文本型规则提取：对应用名、应用描述、发布者名等应用元数据，以及开发者信息、应用资源文件中的文本内容等应用内数据进行特征提取，基于已有的开源知识库，利用TF-IDF算法对词语进行排序，结合人工分析提取关键性的代表词语。将关键词作为特征，供S3进行特征匹配。

步骤3.资源文件特征提取：根据使用的公开的图片相似度比对算法，将应用图标、应用关键截图、应用内资源中的图片等文件转换成二进制数据，提取相应的特征。

步骤4.代码静态特征提取：根据使用的公开的代码相似度比对算法或工具，提取应用代码静态特征，例如函数调用特征、数据流特征、控制流特征等。

步骤5.评论规则集提取：利用有关联的欺诈应用一般会雇佣同一批“刷手”发布相似的好评来欺骗移动用户这一特性，基于已有的虚假评论检测算法，将检测到的疑似虚假评论作为规则集。

所述数据获取模块用于获取待检测的应用数据；

所述结果输出模块用于输出结果。

本发明系统实施例与发明的实施例相同。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于用户评论数据的欺诈应用检测方法，其特征在于，该方法包括：构建移动欺诈应用知识库；获取待检测应用的数据，该数据包括应用样本、应用元数据以及用户评论数据；对待检测应用数据进行预处理；采用移动欺诈应用知识库对预处理后的数据进行特征匹配，若匹配成功，则输出检测结果，若匹配失败，则采用分类规则计算用户评论数据与欺诈行为的关联度，并对该评论数据进行类别标记；采用TF-IDF算法对类别标记的评论数据进行关键词提取，根据提取的关键词对待检测应用的数据进行检测，得到检测结果；对检测结果进行特征提取，根据提取的特征对移动欺诈应用知识库进行更新。

2.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法，其特征在于，构建移动欺诈应用知识库的过程包括：从已确认为移动欺诈应用中获取该应用的应用内数据和应用元数据，根据该应用的评论提取应用特征；根据应用内数据、应用元数据以及提取的评论数据特征构建移动欺诈应用知识库；所述应用内数据包括应用代码、应用资源文件以及开发者签名，所述应用元数据包括应用描述、应用名以及发布者名。

3.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法，其特征在于，对待检测应用数据进行预处理包括：对待测应用数据的用户评论数据进行去停用词以及分词工作。

4.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法，其特征在于，采用移动欺诈应用知识库对预处理后的数据进行特征匹配的过程包括：依次将应用评论特征、应用内数据特征以及应用元数据特征与移动欺诈应用知识库中相对应的特征进行对比，得到每个特征的匹配程度，根据匹配程度输出检测结果。

5.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法，其特征在于，采用分类规则计算用户评论数据与欺诈行为的关联度的过程包括：

步骤4：根据关键词集合构建分类规则；

6.根据权利要求5所述的一种基于用户评论数据的欺诈应用检测方法，其特征在于，得到关键词集合包括：依次遍历关键词，如果关键词对应的评论子集合与已遍历的关键词对应的评论子集合属于包含关系，则将两个关键词放入一个关键词集中，否则将该关键词放入一个新的关键词集中；当之前所有遍历的关键词对应的评论子集合的并集包含全部评论，则停止遍历；将所有选出的关键词进行集合，得到关键词集合。

7.根据权利要求5所述的一种基于用户评论数据的欺诈应用检测方法，其特征在于，构建分类规则包括：通过枚举的方式，分别计算多个关键词在不同的顺序和允许的词语间距条件下，评论分类的准确率和召回率变化情况，并选取表现情况最好的条件作为此关键词集合的限制规则，形成分类规则集。

8.一种基于用户评论数据的欺诈应用检测系统，该系统用于执行权利要求1～8所述的任意一种基于用户评论数据的欺诈应用检测方法，该系统包括：数据获取模块、数据预处理模块、移动欺诈应用知识库、特征匹配模块、评论分类模块、关键词提取模块、结果输出模块以及结果特征提取模块；

所述数据获取模块用于获取待检测的应用数据；

所述结果输出模块用于输出结果。