CN105357217B

CN105357217B - 基于用户行为分析的数据盗取风险评估方法和系统

Info

Publication number: CN105357217B
Application number: CN201510880582.1A
Authority: CN
Inventors: 龚建新; 赵德滨; 姚飞; 李宏恩
Original assignee: Beijing VRV Software Corp Ltd
Current assignee: Beijing VRV Software Corp Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2018-11-16
Anticipated expiration: 2035-12-02
Also published as: CN105357217A

Abstract

本发明提供一种基于用户行为分析的数据盗取风险评估方法和系统，方法步骤如下：获取终端用户的操作行为对；根据操作行为对，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；根据危险操作行为对，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；根据拷贝行为，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数；根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。本发明通过对内网终端用户的网络行为进行分析，发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性，从而降低企业损失。

Description

基于用户行为分析的数据盗取风险评估方法和系统

技术领域

本发明涉及网络安全领域，尤其涉及一种基于用户行为分析的数据盗取风险评估方法和系统。

背景技术

随着计算机的广泛应用，网络科技的快速发展，终端安全对企业和国家信息安全影响越发深刻，高效的利用网络工作的同时，信息的泄露和滥用风险也随之加聚。企业开始关注于终端安全和用户行为的安全性，用户操作行为需要妥善的监控和管理。

目前针对于内网终端安全的方案主要有：一种是基于内网网站的访问权限控制；另一种是网络的哨兵行为审计。前一种方案，针对特定用户提供相应的访问权限，但是无法规避非安全操作隐患。后一种则使正常业务工作的流程变得繁琐。

发明内容

针对现有技术中的缺陷，本发明提供一种基于网络行为的数据盗取风险评估方法和系统，用于通过对内网终端用户的网络行为进行分析，发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性。

第一方面，本发明提供一种基于用户行为分析的数据盗取风险评估方法，所述方法包括：

获取终端用户的操作行为对；

根据所述操作行为对，获取所述操作行为对的操作对象名称，并根据所述操作对象名称，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；

根据所述危险操作行为对，获取所述危险操作行为对的访问网站行为业务类型，并根据所述访问网站行为业务类型，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；

根据拷贝行为，获取所述拷贝行为的拷贝对象名称，并根据所述拷贝对象名称，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数；

根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。

优选地，所述操作行为对包括截屏行为和粘贴行为组成的行为对，或复制行为和粘贴行为组成的行为对。

优选地，所述获取终端用户的操作行为对之前，还包括：

根据预设危险分类标准，通过网络爬虫获取危险资源库；

对所述危险资源库进行分词处理，获取危险特征词，所述危险特征词构成危险特征词库。

优选地，所述计算第一危险性系数，包括：

根据所述操作行为对，获取所述操作行为对中截屏行为或复制行为的操作对象名称，并对所述操作对象名称进行分词处理，获取操作行为对特征词；

将所述操作行为对特征词与所述危险特征词库进行比较，通过词向量空间模型WVSM，获取危险操作行为对；

根据所述危险操作行为对，获取危险操作行为对数；

根据所述危险操作行为对数，计算第一危险性系数，公式如下：

其中，x₁为第一危险性系数，t为危险操作行为对发生的时间，Num为危险操作行为对数，α、β为权重参数因子。

优选地，所述计算第二危险性系数，包括：

根据所述危险操作行为对，获取所述危险操作行为对中截屏行为或复制行为的访问网站窗体名称，并对所述访问网站窗体名称进行分词处理，获取访问网站行为特征词；

根据所述访问网站行为特征词，通过贝叶斯算法BAYES，获取所述访问网站行为业务类型；

将所述访问网站行为业务类型与注册业务类型进行比较，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数；

根据所述匹配数和不匹配数，计算第二危险性系数，公式如下：

其中，x₂为第二危险性系数，Num_i为匹配数，Num_j为不匹配数，i、j用来区分工作时间和非工作时间，ψ_t为匹配参数因子，ω_t为不匹配参数因子，k1、k2为缩放访问网站行为次数参数因子。

优选地，所述计算第三危险性系数，包括：

获取危险操作行为对特征词库；

根据所述拷贝行为，获取所述拷贝行为的拷贝对象名称，并对所述拷贝对象名称进行分词处理，获取拷贝行为特征词；

将所述拷贝行为特征词与所述危险操作行为对特征词库进行比较，通过贝叶斯算法BAYES，获取危险拷贝行为；

获取拷贝文件数，并根据所述危险拷贝行为，获取危险拷贝文件数；

根据所述获取拷贝文件数和危险拷贝文件数，计算第三危险性系数，公式如下：

其中，x₃为第三危险性系数，a为权重参数因子，n_file为危险拷贝文件数，N_file拷贝文件数，k3为缩放拷贝行为次数参数因子。

优选地，所述获取危险操作行为对特征词库，包括：

通过网络爬虫获取所述危险操作行为对的危险操作对象名称；

对所述危险操作对象名称进行分词处理，获取危险操作行为对特征词，所述危险操作行为对特征词构成危险操作行为对特征词库。

优选地，所述计算第四危险性系数，包括：

根据所述危险拷贝文件数，计算第四危险性系数，公式如下：

其中，x₄为第四危险性系数，Δt_i为一段时间中拷贝文件频度，n_file为危险拷贝文件数。

优选地，所述计算终端危险性系数，包括：

根据输入变量X(x1,x2,x3,x4)^T、权重参数W(w1,w2,w3,w4)^T，计算输入变量的加权和u，公式如下：

根据所述输入变量的加权和u，采用预设的风险评估模型计算终端危险性系数f(u)，所述预设的风险评估模型公式如下：

其中，b为偏置项。

第二方面，本发明提供一种基于用户行为分析的数据盗取风险评估系统，所述系统包括：

采集模块，用于获取终端用户的操作行为对；

第一计算模块，用于根据采集模块获取的操作行为对，获取所述操作行为对的操作对象名称，并根据所述操作对象名称，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；

第二计算模块，用于根据第一计算模块获取的危险操作行为对，获取所述危险操作行为对的访问网站行为业务类型，并根据所述访问网站行为业务类型，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；

第三计算模块，用于根据拷贝行为，获取所述拷贝行为的拷贝对象名称，并根据所述拷贝对象名称，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数；

第四计算模块，用于根据拷贝行为，获取所述拷贝行为的拷贝对象名称，并根据所述拷贝对象名称，获取危险拷贝行为和危险拷贝文件数，计算第四危险性系数；

终端风险评估模块，根据第一危险性系数、第二危险性系数、第三危险性系数、第四危险性系数，采用预设的风险评估模型计算终端危险性系数。

由上述技术方案可知，本发明提供一种基于用户行为分析的数据盗取风险评估方法和系统，通过对内网终端用户的网络行为，如操作行为对、访问网站行为、拷贝行为进行分析，获得危险操作行为对、访问网站行为业务类型及其与注册业务类型的匹配度、以及危险拷贝行为，以获得终端危险性系数，依据终端危险性系数发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性，从而降低企业损失。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种基于用户行为分析的数据盗取风险评估方法的流程示意图；

图2为本发明另一实施例提供的一种基于用户行为分析的数据盗取风险评估方法的流程示意图；

图3为本发明一实施例提供的一种基于用户行为分析的数据盗取风险评估系统的结构示意图；

图4为本发明的风险评估模型参数分析示意图；

图5为本发明的风险评估模型业务逻辑示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1示出了本发明一实施例提供的一种基于用户行为分析的数据盗取风险评估方法的流程示意图，如图1所示的一种基于用户行为分析的数据盗取风险评估方法，所述方法包括如下步骤：

S11、获取终端用户的操作行为对。

可以理解的是，终端是端点用户用于和主机通信的设备，可以是监视器、键盘或者打印机。基于网络行为的数据盗取危险评估方法是通过对终端用户的操作行为进行挖掘，分析出存在潜在安全隐患的终端。

可以理解的是，没有粘贴行为的操作行为无法造成潜在安全隐患，因此，应当对包含粘贴行为的操作行为对进行分析。具体来说，操作行为对包括截屏行为和粘贴行为组成的行为对，或复制行为和粘贴行为组成的行为对。

具体来说，如图4所示，模型维度之一行为对分析属性挖掘，输入参数是用户的复制、截屏、粘贴行为通过数据清洗、过滤、按时间排序抽取成行为对。基于ICTCLAS中文分词系统对行为对中复制行为进行分词和词性标注，利用数据挖掘算法词向量空间算法模型分析行为对算法的危险性。

S12、根据所述操作行为对，获取所述操作行为对的操作对象名称，并根据所述操作对象名称，获取危险操作行为对和危险操作行为对数，计算第一危险性系数。

可以理解的是，获取危险操作行为对是根据危险分类标准对大量操作行为对进行分类的过程。具体来说，建立危险特征词库作为危险分类标准，将操作行为对中复制行为或粘贴行为的操作对象名称与危险特征词库进行比较，从而获取危险操作行为对。

S13、根据所述危险操作行为对，获取所述危险操作行为对的访问网站行为业务类型，并根据所述访问网站行为业务类型，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数。

可以理解的是，在操作行为对中，如果复制行为或者截屏行为对应的访问网站行为业务类型与注册业务类型不匹配，且该操作行为对是危险操作行为对，则该终端操作危险性相对高一些。

具体来说，通过贝叶斯算法BAYES获取所述访问网站行为业务类型，并与终端注册业务进行比较，获取访问网站行为业务类型符合受访业务或者不符合受访业务的结果。

具体来说，如图4所示，模型维度之一访问业务属性挖掘，输入参数是终端用户的注册业务和用户所访问业务网站。用户每日访问的业务网站存在重要资源语料库信息，匹配用户注册业务与用户所访问网站的业务性。分析用户发生危险行为对的网站业务是否为其自身所属业务的范畴，如果不是则说明用户的操作危险系数相对业务符合的操作危险系数较高。

S14、根据拷贝行为，获取所述拷贝行为的拷贝对象名称，并根据所述拷贝对象名称，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数。

可以理解的是，拷贝行为是指将文件复制到外部设备如USB的过程。如果拷贝的文件属于危险操作行为对中的操作对象，则该拷贝行为是危险拷贝行为。

具体来说，如图4所示，模型维度之一拷贝外设属性挖掘，输入参数是危险行为对属性挖掘后粘贴行为产生的文件。危险行为对粘贴行为产生的文件，关联拷贝是否为同一文件，从文件的名字，文件的修改时间和发生这些行为的终端。模型维度之一录屏截屏进程属性挖掘，输入参数用户访问的业务网站和终端进程信息。

S15、根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。

可以理解的是，考虑到操作行为对发生的时间是否是工作时间，发生时的关联公钥基础设施PKI是否符合危险资源库的业务信息的访问权限等信息对终端盗取风险程度的影响；又考虑了USB拷贝行为发生的时间点，发生的频度对终端或公钥基础设施PKI盗取风险程度的影响；最后考虑了高盗取风险文件被移动的比例对终端或公钥基础设施PKI盗取风险程度的影响，综合多种因素建立预设的风险评估模型计算终端危险性系数。

本实施例通过对内网终端用户的网络行为，如操作行为对、访问网站行为、拷贝行为进行分析，获得危险操作行为对、访问网站行为业务类型及其与注册业务类型的匹配度、以及危险拷贝行为，以获得终端危险性系数，依据终端危险性系数发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性，从而降低企业损失。

图2示出了本发明另一实施例提供的一种基于用户行为分析的数据盗取风险评估方法的流程示意图，如图2所示的一种基于用户行为分析的数据盗取风险评估方法，所述方法包括如下步骤：

S21、获取危险特征词库。

优选地，所述危险特征词库的建立步骤如下：

根据预设危险分类标准，通过网络爬虫获取危险资源库；

可以理解的是，对所述危险资源库进行分词处理是提取能够体现危险资源主题的危险特征词的过程，因此需要将不具代表性且出现频率相对较大的形容词、连词、副词和介词等作为停用词。

具体来说，通过TF-IDF算法提取危险特征词，其中，TF-IDF算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

S22、获取终端用户的操作行为对。

可以理解的是，没有粘贴行为的操作行为无法造成潜在安全隐患，因此应当对包含粘贴行为的操作行为对进行分析。具体来说，操作行为对包括截屏行为和粘贴行为组成的行为对，或复制行为和粘贴行为组成的行为对。

S23、根据危险特征词库分析操作行为对，获取危险操作行为对和危险操作行为对数，计算第一危险性系数。

具体来说，步骤S23包括图2中未示出的如下子步骤：

S231、根据所述操作行为对，获取所述操作行为对中截屏行为或复制行为的操作对象名称，并对所述操作对象名称进行分词处理，获取操作行为对特征词。

可以理解的是，对操作行为对进行分析实质上是对所述操作行为对中截屏行为或复制行为的操作对象进行分析。具体来说，对操作对象名称进行分词处理，获取操作行为对特征词。

S232、将所述操作行为对特征词与所述危险特征词库进行比较，通过词向量空间模型WVSM，获取危险操作行为对。

可以理解的是，基于词向量空间WVSM模型的文本分类模型，较传统向量空间模型VSM的分类的效率高，其优势就在于模型中特征向量数目相对趋于稳定，而且特征向量维数会大幅下降。

更为具体的是，基于词向量空间WVSM模型如下所述：

首先，需要对训练危险资源库文本预处理，生成词的列表。在此过程中，需要将不具代表性且出现频率相对较大的形容词、连词、副词和介词等作为停用词。

然后，选择特征词，生成特征词的列表，需要计算：

其中，W(ij)是特征词Ti在类别Cj中的权重，tf(Ti,Cj)为词Ti在类别Cj中出现的频率，N为训练文本的总数，n_i为训练文本集中出现了特征词Cj的文本数。

还需要计算信息增益：

所述信息增益是针对一个一个的特征而言的，就是看一个特征t，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息量，即增益。

最后，根据结果以特定的阈值筛选特征词。

在特征词的列表基础上，利用第二步计算出W(ij)的，生成特征向量Ti(Wi1,Wi2,...Wim)。

生成支持度的矩阵，计算其支持度：

其中，Ti为特征向量，m为特征向量的维度，Cj为第j类的轴向量，Wk为第k维的向量值。

将测试文本进行预处理，生成测试用词的列表。

对测试文本进行分类，根据支持度矩阵A对每一待测文档，计算其文本-类别的相似度，

其中，n为待测样本中的词数，aij为向量的支持度，p(T_{i_}X)为特征词Ti在文档中的概率，当Ti属于特征关键词列，则sgn((Ti)＝1，否则为0。危险资源库中的名称被分到Cj中，只有当sim(X,Cj)＞sim(X,Ci)，1≤i≤n，1≤j≤m且i≠j。

S233、根据所述危险操作行为对，获取危险操作行为对数。

可以理解的是，危险操作行为对数是指某一终端发生危险操作行为对的次数。

S234、根据所述危险操作行为对数，计算第一危险性系数。

可以理解的是，第一危险性系数除了与危险操作行为对数相关，还与危险操作行为对发生的时间是工作时间还是非工作时间相关。具体来说，第一危险性系数的公式如下：

S24、获取危险操作行为对的访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数。

进一步地，步骤S24包括图2中未示出的如下子步骤：

S241、根据所述危险操作行为对，获取所述危险操作行为对中截屏行为或复制行为的访问网站窗体名称，并对所述访问网站窗体名称进行分词处理，获取访问网站行为特征词。

可以理解的是，对访问网站行为的分析实质上是对所述操作行为对中截屏行为或复制行为的访问网站行为业务类型进行分析。对访问网站窗体名称进行分词处理，获取访问网站行为特征词。

S242、根据所述访问网站行为特征词，通过贝叶斯算法BAYES，获取所述访问网站行为业务类型。

可以理解的是，贝叶斯算法BAYES是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法，其能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

S243、将所述访问网站行为业务类型与注册业务类型进行比较，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数。

可以理解的是，匹配数是指访问网站行为业务类型与注册业务类型相符合的次数，不匹配数是指访问网站行为业务类型与注册业务类型相不相符的次数。

S244、根据所述匹配数和不匹配数，计算第二危险性系数。

可以理解的是，第二危险性系数除了与匹配数和不匹配数相关，还与访问网站行为发生的时间是工作时间还是非工作时间相关。其中，终端访问属性分为4种：工作时间匹配，工作时间不匹配，非工作时间匹配，非工作时间不匹配。具体来说，第二危险性系数的公式如下：

举例来说，访问网站行为特征词中如有2个交警，有1个刑侦，计算p(Ci)，即求每个特征词的概率，那么p(刑侦)＝1/3，p(交警)＝2/3；计算p(x|Ci)，即求每个特征词属于某些分类的概率，P(x|交警)＝0.234，p(x|消防)＝0.876；计算p(x|Ci)p(Ci)，从而求出属于概率最大的分类，作为该访问网站窗体名称的分类业务。

更为具体的是，

其中，概率P(x₁|C_i)，P(x₂|C_i)……P(x_n|C_i)可以由训练样本计算。P(x_k|C_i)＝s_ik/s_i，其中，s_ik是在属性A_k上具有值x_k的类C_i的训练样本数，而s_i是C_i中的训练样本数。

S25、获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数。

可以理解的是，危险拷贝行为是指拷贝的文件属于危险操作行为对中危险操作行为文件库的文件。危险拷贝文件数是指危险拷贝行为的次数。

具体来说，步骤S25包括图2中未示出的如下子步骤：

S251、获取危险操作行为对特征词库。

优选地，所述危险操作行为对特征词库的建立步骤如下：

S252、根据所述拷贝行为，获取所述拷贝行为的拷贝对象名称，并对所述拷贝对象名称进行分词处理，获取拷贝行为特征词。

S253、将所述拷贝行为特征词与所述危险操作行为对特征词库进行比较，通过贝叶斯算法BAYES，获取危险拷贝行为。

S254、获取拷贝文件数，并根据所述危险拷贝行为，获取危险拷贝文件数；

S255、根据所述获取拷贝文件数和危险拷贝文件数，计算第三危险性系数。

具体来说，第三危险性系数的公式如下：

S256、根据所述获取拷贝文件数和危险拷贝文件数，计算第四危险性系数。

具体来说，第四危险性系数的公式如下：

S26、根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。

进一步的，如图5所示，基于用户行为分析的终端风险评估模型，业务逻辑从四个维度层面考虑风险性：

基于用户复制截屏粘贴行为抽取的维度行为对属性，分析用户行为对操作的风险性，更多的是考究终端用户是否存在潜在的风险操作行为。通过分析用户发生危险行为对的时间(工作或非工作)和发生的频度关系，赋以不同的权值，作为风险评估模型的重要维度之一。

基于用户日常访问业务网站和用户注册用户分析的访问业务属性维度的挖掘，用户日常访问的业务网站与其自身业务不匹配的，且发生了危险的行为对操作的行为，使得用户操作风险系数更大。

基于拷贝文件属性挖掘，终端用户行为对操作粘贴行为产生的高危文件，如果被拷贝那么说明该用户具有泄露机密数据的可能性具有非常的高度，当然危险行为对产生的高危文件不一定会立马被拷贝，可能被保存至文件夹中，一段时间后才会被用户所拷贝，这就需要产生一个高危文件库，需要辨识拷贝文件中是否存在危险行为对产生的高危文件，高危文件库需要保存一段时间内所有危险行为对粘贴行为产生高危文件，拷贝外设文件属性是风险评估模型中重要维度之一。

最后一个维度作为模型优化考虑的维度，基于终端用户可能录屏或其它截屏进程行为属性的挖掘，需要关联三张表数据，用户的上网信息表、用户进程表以及用户PKI信息表。用户在访问重要资源库网站间隔很短时间内发生录屏操作，那么有理由怀疑该录屏操作风险操作系数很高，所以这也作为一个重要的模型维度考虑。其它的截屏进程这里指的是某些自带剪贴板的截图进程，因为基础采集数据只能够采集系统剪贴板上的剪贴信息。所以通过考虑进程，发生访问重要资源网站的较短时间内具有自带剪贴板的截屏进程行为发生，那么该截屏行为是危险截屏的可能性将增大。这一风险维度分析是弥补之前模型考虑疏漏的地方，也是作为重要维度之一。

具体来说，预设的风险评估模型如下所述：

其中，b为偏置项。

图3示出了本发明一实施例提供的一种基于用户行为分析的数据盗取风险评估系统的的结构示意图，如图3所示，所述种基于网络行为的数据盗取危险评估系统30包括：

采集模块31，用于获取终端用户的操作行为对；

第一计算模块32，用于根据采集模块31获取的操作行为对，获取所述操作行为对的操作对象名称，并根据所述操作对象名称，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；

第二计算模块33，用于根据第一计算模块32获取的危险操作行为对，获取所述危险操作行为对的访问网站行为业务类型，并根据所述访问网站行为业务类型，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；

第三计算模块34，用于根据拷贝行为，获取所述拷贝行为的拷贝对象名称，并根据所述拷贝对象名称，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数；

第四计算模块35，用于根据拷贝行为，获取所述拷贝行为的拷贝对象名称，并根据所述拷贝对象名称，获取危险拷贝行为和危险拷贝文件数，计算第四危险性系数；

终端风险评估模块36，根据第一危险性系数、第二危险性系数、第三危险性系数、第四危险性系数，采用预设的风险评估模型计算终端危险性系数。

综上所述，本发明提供一种基于用户行为分析的数据盗取风险评估方法和系统，所述方法步骤如下：获取终端用户的操作行为对；根据所述操作行为对，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；根据所述危险操作行为对，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；根据拷贝行为，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数；根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。本发明通过对内网终端用户的网络行为，如操作行为对、访问网站行为、拷贝行为进行分析，发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性，从而降低企业损失。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于用户行为分析的数据盗取风险评估方法，其特征在于，所述方法包括：

获取终端用户的操作行为对；

2.根据权利要求1所述的方法，其特征在于，所述操作行为对包括截屏行为和粘贴行为组成的行为对，或复制行为和粘贴行为组成的行为对。

3.根据权利要求2所述的方法，其特征在于，所述获取终端用户的操作行为对之前，还包括：

根据预设危险分类标准，通过网络爬虫获取危险资源库；

4.根据权利要求3所述的方法，其特征在于，所述计算第一危险性系数，包括：

根据所述危险操作行为对，获取危险操作行为对数；

5.根据权利要求4所述的方法，其特征在于，所述计算第二危险性系数，包括：

6.根据权利要求5所述的方法，其特征在于，所述计算第三危险性系数，包括：

获取危险操作行为对特征词库；

7.根据权利要求6所述的方法，其特征在于，所述获取危险操作行为对特征词库，包括：

8.根据权利要求6所述的方法，其特征在于，所述计算第四危险性系数，包括：

9.根据权利要求8所述的方法，其特征在于，所述计算终端危险性系数，包括：

其中，b为偏置项。

10.一种基于用户行为分析的数据盗取风险评估系统，其特征在于，所述系统包括：

采集模块，用于获取终端用户的操作行为对；