CN112765003A

CN112765003A - 一种基于app行为日志的风险预测方法

Info

Publication number: CN112765003A
Application number: CN202011627570.5A
Authority: CN
Inventors: 李伟; 匡红梅; 陈卫
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Anticipated expiration: 2040-12-31
Also published as: CN112765003B

Abstract

本发明涉及APP技术领域，具体为一种基于APP行为日志的风险预测方法，包括：步骤一：通过服务器获取待测的用户APP行为数据，储存到数据库，步骤二：通过LDA分析模型对APP行为数据进行分值评估、预测概率，步骤三：预测用户APP行为，步骤四：评估用户APP行为日志，步骤五：并生成警告信息。本发明通过用户APP行为日志数据训练LDA分析模型将用户日志数据作为训练LDA分析模型的文档、类目，强化了系统审计功能以辨别用户APP行为特征，进行大数据处理，基于用户APP行为日志的异常行为分析方法可以快速发现用户行为APP的异常行为，及时向管理员或者用户报警，及时进行处理以便造成一定的损失，降低风险，同时提高处理的效率。

Description

一种基于APP行为日志的风险预测方法

技术领域

本发明涉及一种风险预测方法，特别是涉及一种基于APP行为日志的风险预测方法，属于APP技术领域。

背景技术

手机软件是指安装在智能手机上的软件，需要有相应的手机系统来运行，其主要功能是完善原始系统的不足与个性化，使手机功能更加完善，为用户提供更丰富的使用体验。

随着智能终端的快速发展，应用程序已经成为人们生活、学习和工作中必不可少的通信交流，而应用软件开发人员为了能够拥有更多的APP用户，通常会采用多种方法来提高用户的APP使用体验，例如在APP中集成更多的功能、调整APP网页布局等，然而，在APP使用过程中会生成众多的文件夹，且增加的APP功能适应性有限，文件夹的数量过多，不能有效的对用户APP 行为的每一步操作都进行跟进分析，不能有效的对APP日志的行为数据进行评估和分析，进而不能对大数据进行分析，无法判断用户的行为特征，而且一旦发现问题也不能及时有效的进行修复和通知用户的APP，因此时效性较低，风险性较高，在底端设备出现问题时不能找到所丢失的文件。

中国发明专利公布号CN 109522197 A，公开了“一种用户APP行为的预测方法”，根据所述用户APP行为预测概率P，预测用户APP行为，只是对 APP进行评估、分析和预测，可以排除对用户APP行为预测作用小的行为特征，和减少计算用户APP行为预测函数的计算量，使获取的用户APP行为预测函数更合理，能够显著提高用户APP行为预测的准确度，但是无法对风险进行有效地提示，以及对用户端的APP不能及时有效的进行发出警报，因此不能满足需要，中国发明专利公布号CN 108509793 A，公开了“一种基于用户行为日志数据的用户异常行为检测方法及装置”可以快速发现用户的异常行为，及时向管理员或者用户报警，提高处理威胁和处理效率，但是数据分析的不够精确，不能有效的进行甄别客户的需求，无法进行大数据的分析来判断用户APP的行为特征，因此也不能满足使用的需求。

因此，亟需对基于APP行为日志的风险预测方法进行改进，以解决上述存在的问题。

发明内容

本发明的目的是提供一种基于APP行为日志的风险预测方法，通过用户 APP行为日志数据训练LDA分析模型将用户日志数据作为训练LDA分析模型的文档、类目，用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目，强化了系统审计功能以辨别用户APP行为特征和警报功能的时效性，确定该可疑用户 APP行为日志对应的用户终端和应用软件，并生成警告信息，基于用户APP行为日志的机器学习异常行为分析方法可以快速发现用户行为APP的异常行为，及时向管理员或者用户报警，防止文件丢失，提高处理的效率。

为了达到上述目的，本发明采用的主要技术方案包括：

一种基于APP行为日志的风险预测方法，包括如下步骤：

步骤一：通过服务器获取待测的用户APP行为数据，进行归一化处理并储存到数据库；

步骤二：通过LDA分析模型对采集到的APP行为数据进行分值评估，并对用户APP行为进行预测概率；

步骤三：基于所述用户APP行为预测概率，预测用户APP行为；

步骤四：当评估分值低于预定分值时，确定新采集的用户APP行为日志为可疑用户APP行为日志；

步骤五：确定该可疑用户APP行为日志对应的用户终端和应用软件，并生成警告信息。

通过上述技术方案，在现有技术中的A-N信息S框架主要包括三个阶段：

1.参数化阶段：系统将收集到信息按照预定的方式格式化或预处理。

2.训练阶段：根据正常的行为特征表现进行分类，然后建立相应的模型。

3.检测阶段：系统模型训练完成并可用，与得到的流量数据进行对比，如果发现偏差超过给定的阀值时，系统将发出警告，生成检测报告，针对现有技术，客户在进行APP的使用过程中，服务器将通过服务器获取待测的用户APP行为数据，进行归一化处理并储存到数据库；

所述储存到数据库包括：建立操作行为数据库，用于储存用户APP行为日志的行为数据，所述行为数据用于记录用户APP行为的每一步操作行为，包括下载、卸载和浏览时间，根据用户APP行为的每一步操作都直接储存到服务程序，所述服务程序根据接收到的用户APP行为的每一步操作的信息写入所述数据库，然后通过LDA分析模型对采集到的APP行为数据进行分值评估；

LDA是一种文档类目生成模型，也称为一个三层贝叶斯概率模型，包含词、类目和文档三层结构，它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息，但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机，每一篇文档代表了一些类目所构成的一个概率分布，而每一个类目又代表了很多单词所构成的一个概率分布，并对用户APP行为进行预测概率，基于所述用户APP行为预测概率，预测用户APP行为，当评估分值低于预定分值时，确定新采集的用户APP行为日志为可疑用户APP行为日志，确定该可疑用户APP行为日志对应的用户终端和应用软件，并生成警告信息，基于用户APP行为日志的机器学习异常行为分析方法可以快速发现用户行为APP的异常行为，及时向管理员或者用户报警，提高处理威胁和处理的效率；

同时根据LDA算法，计算出每条用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的分值，用户APP行为日志中每个词语在文档集合中出现的概率标识为根据该概率确定新采集到的用户APP行为日志的分值，通过用户APP行为日志数据训练LDA分析模型将用户日志数据作为训练LDA分析模型的文档、类目，当用户操作数据处理后形成的词语作为训练 LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目，强化了系统审计功能和警报功能的时效性。

进一步的，所述LDA分析模型中，用户APP行为日志数据包括以下词语：用户信息、用户终端信息、应用软件编码、工作时限、工作类别，基于这些词语建立LDA分析模型输入所需的文档、类目，然后根据LDA算法，计算出每条用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的分值。

进一步的，所述LDA分析模型通过用户APP行为日志数据训练，将用户 APP行为日志数据作为训练LDA分析模型的文档、类目，当用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目。

进一步的，所述用户APP行为日志数据分为两个词语，其中一个单词包括：用户信息、用户终端信息、应用软件类型和工作时限，另一个单词包括：工作类别、操作持续时间、请求字段所对应的编号以及响应字段编号。

进一步的，所述用户APP行为日志包括：用户下载行为、卸载行为、或用户持续阅读行为。

进一步的，所述LDA分析模型中，用户APP行为日志数据包括以下词语：用户信息、用户终端信息、应用软件编码、工作时限、工作类别，基于这些词语建立LDA分析模型输入所需的文档、类目，然后根据LDA算法，计算出所有用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的总值，并存在数据库，进行分析用户APP的行为特征。

进一步的，所述数据库用于储存用户的所有操作行为，包括下载、卸载和浏览时间，所述储存到数据库包括：建立操作行为数据库，用于储存用户 APP行为日志的行为数据；

所述行为数据用于记录用户APP行为的每一步操作行为，包括下载、卸载和浏览时间，根据用户APP行为的每一步操作都直接储存到服务程序；

所述服务程序根据接收到的用户APP行为的每一步操作的信息写入所述数据库。

进一步的，所述LDA分析模型中对数据库中的用户APP行为信息进行分析处理，通过分析算法对数据库中的用户APP行为信息进行分析处理，并判断是否分析成功，如果分析成功，则根据分析结果给用户APP打上特定的标签；如果分析不成功，则给用户打上禁止标签，并由服务器向客户端APP推送警报信息。

通过上述技术方案，判断LDA分析模型是否存在，如果不存在，则建立基于spark的机器学习LDA分析模型，以输入的用户行为数据作为输入文档，通过大量文档数据对模型进行训练，得到收敛的结果，将训练好的模型保存下来，如果存在，对新采集到的用户行为数据进行分析打分，设定一个阀值，当分值低于阀值时，认为该APP行为可疑APP行为，根据生成的可疑行为数据生成报警信息，在报警信息展示栏中显示，给管理员做出报警。

进一步的，所述分析结果可以通过图表或图像的形式展示出来。

通过上述技术方案，将可疑APP行为展示在前端页面的信息展示栏中，大大提高了APP界面内容的丰富性，同时提高客户的识辨率。

进一步的，所述步骤三：基于所述用户APP行为预测概率，评估用户APP 行为，包括以下步骤：

步骤1：获取用户APP的行为的统计数据，构建行为特征模型：

其中，W_i表示统计数据中第i个行为数据的行为对象；W_i表示统计数据中第i个行为数据的过程特征；T_i表示统计数据中第i个行为数据的持续时长； i＝1，2，3……n；n表示统计数据中总个数；

步骤2：构建风险行为数据库，并构建风险行为识别模型：

其中，p_r表示风险行为数据库中第r个风险行为的行为特征；

表示风险行为数据库中风险行为的风险均值；r＝1，2，3……K；k表示风险行为数据库中风险行为的总个数；

步骤3：根据所述行为特征模型和风险行为识别模型，确定用户的风险分数：

其中，F的值表示风险分数。

本发明至少具备以下有益效果：

1、通过LDA算法，计算出每条用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的分值，用户APP行为日志中每个词语在文档集合中出现的概率标识为根据该概率确定新采集到的用户APP行为日志的分值，通过用户APP行为日志数据训练LDA分析模型将用户日志数据作为训练LDA分析模型的文档、类目，用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目，强化了系统审计功能判断用户APP行为的特征，提升客户的体验感，由大数据分析满足客户的需求。

2、预测用户APP行为时，从总值中提取分值，当评估分值低于预定分值时，确定新采集的用户APP行为日志为可疑用户APP行为日志，确定该可疑用户APP行为日志对应的用户终端和应用软件，并生成警告信息，基于用户 APP行为日志的机器学习异常行为分析方法可以快速发现用户行为APP的异常行为，及时向管理员或者用户报警，提升时效性和处理风险的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的流程图。

图2为本发明的数据库结构图。

图3为本发明的流程储存流程图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

如图1-图3所示，本实施例提供的基于APP行为日志的风险预测方法，包括如下步骤：

储存到数据库包括：建立操作行为数据库，用于储存用户APP行为日志的行为数据，所述行为数据用于记录用户APP行为的每一步操作行为，包括下载、卸载和浏览时间，根据用户APP行为的每一步操作都直接储存到服务程序，所述服务程序根据接收到的用户APP行为的每一步操作的信息写入所述数据库，然后通过LDA分析模型对采集到的APP行为数据进行分值评估， LDA是一种文档类目生成模型，也称为一个三层贝叶斯概率模型，包含词、类目和文档三层结构，它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息，但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机，每一篇文档代表了一些类目所构成的一个概率分布，而每一个类目又代表了很多单词所构成的一个概率分布。

步骤三：基于所述用户APP行为预测概率，预测用户APP行为；

预测用户APP行为时，当评估分值低于预定分值时，确定新采集的用户 APP行为日志为可疑用户APP行为日志，确定该可疑用户APP行为日志对应的用户终端和应用软件，并生成警告信息，基于用户APP行为日志的机器学习异常行为分析方法可以快速发现用户行为APP的异常行为，及时向管理员或者用户报警，提高处理威胁和处理的效率。

在本实施例中，如图1所示，LDA分析模型中，用户APP行为日志数据包括以下词语：用户信息、用户终端信息、应用软件编码、工作时限、工作类别，基于这些词语建立LDA分析模型输入所需的文档、类目，然后根据 LDA算法，计算出每条用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的分值，LDA分析模型通过用户APP行为日志数据训练，将用户APP行为日志数据作为训练LDA分析模型的文档、类目，当用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目，本发明通过LDA算法，计算出每条用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的分值，用户APP行为日志中每个词语在文档集合中出现的概率标识为根据该概率确定新采集到的用户APP行为日志的分值，通过用户APP行为日志数据训练 LDA分析模型将用户日志数据作为训练LDA分析模型的文档、类目，当用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目，强化了系统审计功能和警报功能的时效性。

用户APP行为日志数据分为两个词语，其中一个单词包括：用户信息、用户终端信息、应用软件类型和工作时限，另一个单词包括：工作类别、操作持续时间、请求字段所对应的编号以及响应字段编号等。

在本实施例中，如图1所示，用户APP行为日志包括：用户下载行为、卸载行为、或用户持续阅读行为，所述用户APP行为包括：用户软件卸载行为、或用户阅读行为等多种类型的APP行为，例如，当所述用户APP行为为购买蔬菜的用户是否还购买水果的用户购买行为时，可设置与用户的该APP 行为相关的行为特征为：用户性别、用户年龄、家庭身份、收入、职业、浏览水果产品的时长、APP操作顺序等等，此时，当获取购买了蔬菜和水果的一个用户APP行为数据时，可得到训练前数据集合数据库中的一个用户APP 行为数据，对数据进行分析，进而可以获取用户APP行为的特征。

在本实施例中，如图2所示，LDA分析模型中，用户APP行为日志数据包括以下词语：用户信息、用户终端信息、应用软件编码、工作时限、工作类别，基于这些词语建立LDA分析模型输入所需的文档、类目，然后根据LDA算法，计算出所有用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的总值，并存在数据库，进行分析用户APP的行为特征，得到可用于准确预测用户APP行为的预测函数，使得用户APP行为实时预测更快捷、更准确。

在本实施例中，如图3所示，数据库用于储存用户的所有操作行为，储存到数据库包括：建立操作行为数据库，用于储存用户APP行为日志的行为数据；

行为数据用于记录用户APP行为的每一步操作行为，包括下载、卸载和浏览时间，根据用户APP行为的每一步操作都直接储存到服务程序；

服务程序根据接收到的每一步操作的信息写入数据库，操作简单，使用方便。

在本实施例中，如图1所示，LDA分析模型中对数据库中的用户APP行为信息进行分析处理，根据分析结果打上特定的标签，并允许通过包括：通过分析算法对数据库中的用户APP行为信息进行分析处理，并判断是否分析成功，如果分析成功，则根据分析结果给用户APP打上特定的标签；如果分析不成功，则给用户打上禁止标签，并由服务器向客户端APP推送警报信息，可疑用户APP行为日志通过告警模块，确定该可疑用户APP行为日志对应的用户终端和应用软件，并生成告警信息，通过用户APP行为日志数据训练LDA 分析模型将用户日志数据作为训练LDA分析模型的文档、类目，当用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目，强化了系统审计功能和警报功能的时效性。

在本实施例中，如图1所示，分析结果可以通过图表或图像的形式展示出来，将可疑APP行为展示在前端页面的信息展示栏中，大大提高了APP界面内容的丰富性，同时提高客户的识辨率。

步骤1：获取用户APP的行为的统计数据，构建行为特征模型：

步骤2：构建风险行为数据库，并构建风险行为识别模型：

其中，p_r表示风险行为数据库中第r个风险行为的行为特征；

其中，F的值表示风险分数。

上述步骤的技术原理在于：本发明通过获取用户APP所有行为的同技术据，将行为数据中对象参数化、过程参数化、时长参数化构建了行为特征模型，来表示用户APP所有的行为的综合参数，然后通过预先构建的风险行为数据库，基于积分函数和指数函数来否见风险行为识别模型，其具有识别全面、识别效率高，并且能够基于指数构建可视化图形作为识别结果，左后通过计算两个识别模型的相关性，将相关性作为风险是被的分数，如果相关性为1，表示用户行为必定为风险行为特征中一种风险行为，低于1，表示用户部分行为存在风险。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的商品或者系统中还存在另外的相同要素。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于APP行为日志的风险预测方法，其特征在于，包括以下步骤；

步骤三：基于所述用户APP行为预测概率，评估用户APP行为；

2.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述LDA分析模型中，用户APP行为日志数据包括以下词语：用户信息、用户终端信息、应用软件编码、工作时限、工作类别，基于这些词语建立LDA分析模型输入所需的文档、类目，然后根据LDA算法，计算出每条用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的分值。

3.根据权利要求2所述的一种基于APP行为日志的风险预测方法，其特征在于：所述LDA分析模型通过用户APP行为日志数据训练，将用户APP行为日志数据作为训练LDA分析模型的文档、类目，当用户操作数据处理后形成的词语作为训练LDA分析模型的词语，用户工作类别方面的类目作为训练LDA分析模型的类目。

4.根据权利要求2所述的一种基于APP行为日志的风险预测方法，所述用户APP行为日志数据分为两个词语，其中一个单词包括：用户信息、用户终端信息、应用软件类型和工作时限，另一个单词包括：工作类别、操作持续时间、请求字段所对应的编号以及响应字段编号。

5.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述用户APP行为日志包括：用户下载行为、卸载行为、或用户持续阅读行为。

6.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述LDA分析模型中，用户APP行为日志数据包括以下词语：用户信息、用户终端信息、应用软件编码、工作时限、工作类别，基于这些词语建立LDA分析模型输入所需的文档、类目，然后根据LDA算法，计算出所有用户APP行为日志出现的概率，并将该概率作为该条用户APP行为日志的总值，并存在数据库，进行分析用户APP的行为特征。

7.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述数据库用于储存用户的所有操作行为，包括下载、卸载和浏览时间，所述储存到数据库包括：建立操作行为数据库，用于储存用户APP行为日志的行为数据；

8.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述LDA分析模型中对数据库中的用户APP行为信息进行分析处理，通过分析算法对数据库中的用户APP行为信息进行分析处理，并判断是否分析成功，如果分析成功，则根据分析结果给用户APP打上特定的标签；如果分析不成功，则给用户打上禁止标签，并由服务器向客户端APP推送警报信息。

9.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述分析结果可以通过图表或图像的形式展示出来。

10.根据权利要求1所述的一种基于APP行为日志的风险预测方法，其特征在于：所述步骤三：基于所述用户APP行为预测概率，评估用户APP行为，包括以下步骤：

步骤1：获取用户APP的行为的统计数据，构建行为特征模型：

其中，W_i表示统计数据中第i个行为数据的行为对象；W_i表示统计数据中第i个行为数据的过程特征；T_i表示统计数据中第i个行为数据的持续时长；i＝1，2，3……n；n表示统计数据中总个数；

步骤2：构建风险行为数据库，并构建风险行为识别模型：

其中，p_r表示风险行为数据库中第r个风险行为的行为特征；

其中，F的值表示风险分数。