CN111818001A

CN111818001A - 异常访问检测方法及装置、电子设备和计算机可读介质

Info

Publication number: CN111818001A
Application number: CN201910292705.8A
Authority: CN
Inventors: 陈予郎
Original assignee: Changxin Memory Technologies Inc
Current assignee: Changxin Memory Technologies Inc
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-10-23

Abstract

本公开提供一种异常访问检测方法、装置以及电子设备和计算机可读介质，涉及数据处理技术领域，该方法包括：获取第一时间内目标人员访问目标类别网站的第一访问量；如果所述第一访问量超出所述目标人员访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。本发明实施例提供的技术方案通过将目标人员在一段时间内对目标类别网站的访问量与正常访问量区间作比较，实现了对目标人员异常访问的有效识别。

Description

异常访问检测方法及装置、电子设备和计算机可读介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种异常检测方法及装置、电子设备和计算机可读介质。

背景技术

在信息安全领域中，网络行为分析早已是一门重要的领域，对于网页访问行为部份也有着非常多样的议题与研究成果。然而对于异常网页访问行为的发掘，在目前的研究中无法有效的给予其明确的异常规则定义，甚至连从业多年的资深信息安全人员也无法说明怎样的操作行为才是异常的网页访问。所以找到一种有效的异常访问检测方法对于信息安全有着至关重要的作用。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种异常检测方法及装置、电子设备和计算机可读介质，能够提供一种简单、便捷的方法实现对异常访问的检测。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一个方面，提出一种异常检测方法，该方法包括：获取第一时间内目标人员访问目标类别网站的第一访问量；如果所述第一访问量超出所述目标人员第一时间段内访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

在一些实施例中，所述获取第一时间内目标人员访问目标类别网站的第一访问量包括：获取所述第一时间内目标人员的网页访问信息；确定第一时间内被访问网页的网站类别；根据所述被访问网页的网站类别确定所述第一访问量。

在一些实施例中，所述网页访问信息包括被访问网页的URL信息，所述确定第一时间内被访问网页的网站类别包括：将所述被访问网页的URL信息与网站类别库中的URL信息做比对，以确定所述第一时间内被访问网页的网站类别。

在一些实施例中，所述确定第一时间内被访问网页的网站类别还包括：根据所述第一时间内目标人员的网页访问信息获取被访问网页的文本内容；根据所述文本内容获取待预测文本向量；将所述待预测文本向量输入网站类别识别模型以确定所述被访问网页的网站类别。

在一些实施例中，所述根据所述文本内容获得待预测文本向量包括：删除所述文本内容中不必要的字元；基于Document Embedding方法将所述文本内容转换成所述待预测文本向量。

在一些实施例中，还包括：获取第二时间内所述目标人员的网页访问信息及其被访问网页的网站类别；根据所述第二时间内所述目标人员网页访问信息获取第二时间内被访问网页的文本内容；根据所述第二时间内被访问网页的文本内容获得待训练文本向量；基于待训练文本向量及其对应的网站类别训练卷积神经网络以生成所述网站类别识别模型。

对所述第二时间内被访问网页进行分类以获得多个网站类别；对多个网站类别进行编号；根据所述多个网站类别的编号生成与所述被访问网页对应的网站类别向量。

根据本公开实施例的第二个方面，提出一种异常检测装置，该装置包括：访问量获取模块，配置为获取第一时间内目标人员访问目标类别网站的第一访问量；异常访问判断模块，配置为如果所述第一访问量超出所述目标人员访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

根据本公开实施例的第三个方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的异常检测方法。

根据本公开实施例的第四个方面，提出一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述任一项所述的异常检测方法。

根据本公开一些实施例提供的异常检测方法、装置及电子设备和计算机可读介质，通过将目标人员一段时间内对目标类别的网站的访问量与正常访问量区间做比较，以判断目标人员在这段时间内是否出现了异常访问。本公开实施例提供的异常访问检测方法不需要明确的异常规则定义，可以简单、便捷的实现对异常访问的有效识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了应用于本公开实施例的异常检测方法或异常检测装置的示例性系统架构的示意图。

图2是根据本公开实施例示出的一种异常检测方法的流程图。

图3是根据本公开实施例示出的一种正常访问量区间示意图。

图4是根据本公开实施例示出的再一种异常检测方法的流程图。

图5是根据本公开实施例示出的又一种异常检测方法的流程图。

图6是根据本公开实施例示出的又一种异常检测方法的流程图。

图7是根据本公开实施例示出的又一种异常检测方法的流程图。

图8是根据本公开实施例示出的又一种异常检测方法的流程图。

图9是根据本公开实施例示出的一种训练网站类别识别模型的示意图。

图10是根据本公开实施例示出的又一种异常检测方法的流程图。

图11是根据一示例性实施例示出的一种异常检测装置的框图。

图12是根据一示例性实施例示出的又一种异常检测装置的框图。

图13是根据一示例性实施例示出的再一种异常检测装置的框图。

图14是根据一示例性实施例示出的另一种异常检测装置的框图。

图15是根据一示例性实施例示出的另一种异常检测装置的框图。

图16是根据一示例性实施例示出的另一种异常检测装置的框图。

图17是根据一示例性实施例示出的一种应用于异常检测装置的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本说明书中，用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等；用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”、“第二”和“第三”等仅作为标记使用，不是对其对象的数量限制。

下面结合附图对本公开示例实施方式进行详细说明。

图1示出了可以应用于本公开实施例的异常检测方法或异常检测装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。其中，终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

服务器105可例如获取第一时间内目标人员访问目标类别网站的第一访问量；服务器105可例如如果所述第一访问量超出所述目标人员访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，服务器105可以是一个实体的服务器，还可以为多个服务器组成，根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2是根据本公开实施例示出的一种异常检测方法的流程图。

参照图2，本公开实施例提供的测试数据生成方法可以包括以下步骤。

步骤S201，获取第一时间内目标人员访问目标类别网站的第一访问量。

在实施例中，第一时间内指的是目标时间段内，第一时间内可以是某日24小时内，可以是某月30天内，例如第一时间是2019年3月1日，也可以是2019年3月共31天，需要说明的是第一时间的选择可以根据具体需求进行选择和调整，本公开对此不做限制。

在实施例中，目标类别网站指的是在实际应用中指定类别的网站，例如可以是娱乐类别网站、财经类别网站等。在实施例中，每种类别网站又可以包括多个网站，例如，影音类别网站可以包括：优酷网站、爱奇艺网站、腾讯视频网站等。

在实施例中，获取第一时间内目标人员访问目标类别网站的第一访问量可以指的是获取目标人员在指定时间段内对指定类别网站的访问次数，具体可以举例为，获取公司小张在2018年3月1日当天对娱乐类别网站的第一访问量。

再例如，公司网络管理过程中，为了检测员工是否存在异常访问情况，可以首先将员工经常访问网站进行分类，例如可以分为：影音、广告、新闻、购物等类别。然后可以依次统计员工在第一时间内对上述不同类别网站的第一访问量。

步骤S202，如果所述第一访问量超出所述目标人员第一时间内访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

在实施例中，上述目标类别网站的正常访问量区间指的是事前统计预测的目标人员在第一时间内访问目标类别网站的访问量的正常数值量区间。例如，在实施例中，可以假设第一时间为某一日的24小时，系统可以使用统计学原理的经验法则统计在过去一段时间(大于24小时)内目标人员访问目标类别网站次数的日平均值μ和标准差σ。系统根据目标人员访问目标类别网站次数的日平均值和标准差，可以构建目标人员访问目标类别网站的日访问量的正太分布，如图3所示。在实施例中，如果第一时间内目标人员访问目标网站第一访问量落在n₁位置处可以认为该目标人员没有异常访问(在这里假设μ-3σ＞0)，当第一时间内目标人员访问目标网站第一访问量落在n₂位置处可以认为该目标人员存在异常访问。

在实施例中，可以定义[0，μ+3σ]就是目标人员第一时间内访问目标类别网站的正常访问量区间。

在实施例中，可以根据公式(1)对目标人员进行访问状态评估：当第一时间内目标人员访问目标类别网站的第一访问量n在正常访问量区间[0，μ+3σ]内时，可以判定该目标人员对于目标网站在第一时间内时正常访问；当第一时间内目标人员访问目标网站第一访问量n不在正常访问量区间[0，μ+3σ]内时，例如，第一访问量n小于0或者第一访问量n大于μ+3σ，可以判定该目标人员对于目标网站在第一时间内时异常访问。

需要说明的是，第一时间可以是任意指定的时间段内，第二时间理论上要远大于第一时间的时长，以此可以根据第二时间统计并预测第一时间内访问目标类别网站的正常访问量区间。

在上述实施例中，通过将目标人员访问目标类别网站的第一访问量与目标人员访问所述目标类别网站的正常访问量区间做比对，可以判断第一访问量超出正常访问量区间的目标人员存在异常访问。上述实施例给出了一种简单便捷的方法判断对目标人员的异常访问进行检测。

图4是根据本公开实施例示出的另一种异常检测方法的流程图。

在图2所示实施例中，系统获取第一时间内目标人员访问目标类别网站的第一访问量可以包括如下步骤。

步骤S401，获取所述第一时间内目标人员的网页访问信息。

在实施例中，网页访问信息指的是目标人员访问网页的动作数据，可以包括：员工编号、URL(Uniform Resoure Locator，统一资源定位器)、访问时间等。

在实施例中，系统会在网页浏览数据库中存储目标人员在第一时间内所有网页访问信息。

步骤S402，确定第一时间内被访问网页的网站类别。

在实施例中，系统可以从网页浏览数据库中获取目标人员在第一时间内的所有网页访问信息，包括被访问网页的URL以及被访问网页的文本内容。获得目标人员在第一时间内的所有网页访问信息后，系统会依次识别被访问网页的网站类别。

假设目标人员今日共有100次网页访问动作，系统可以从网页浏览数据库中读取上述100次网页访问的网页访问信息，包括网页访问时间、网站URL以及网页内文本，系统可以根据上述100条网页访问信息依次判断每次被访问网页的网站类别。

步骤S403，根据所述被访问网页的网站类别确定所述第一访问量。

在实施例中，系统会事先统计目标人员经常访问网页，并对该网页进行类别分类。例如，网站可详细分为如表1所示的64种类别。

表1

在实施例中，当目标人员在第一时间内访问的所有网页对应的网站类别被确定之后，系统可以统计该目标人员在第一时间内访问目标类别网站的第一访问量。例如，系统可以统计目标人员在第一时间内访问医疗行业类别网站的第一访问量。

本实施例提供的技术方案，可以根据目标人员在第一时间内的网页访问信息确定第一时间内被访问网页的网站类别，进而通过统计目标人员对目标网站的访问量，确定目标人员在第一时间内对目标类别网站的第一访问量。

在图4所述的实施例中，确定第一时间内被访问网页的网站类别可以包括如图5所示实施例提供的步骤。

步骤S501，将所述被访问网页的URL信息与网站类别库中的URL信息做比对。

在实施例中，所述网页访问信息包括被访问网页的URL信息，其中URL信息包括网站位置(Domain Name)信息。

在实施例中，网站类别库中包括已经确定网站类别的网页信息，该网页信息可以包括：网站URL(包括网站位置)及对应网页类别信息。

在实施例中，系统获得目标人员在第一时间内的网页访问信息后，然后依次提取每个被访问网页的URL信息，并将提取后的URL信息与网站类别库中的URL信息作比对。在实施例中，系统将已获取的被访问网页的URL中的网站位置信息与网站类别库数据库中的网站位置信息进行比对，若有相同网站位置信息的数据，则认为该网站位置信息在网站类别库数据库中对应的网站类别就是该被访问网页的网站类别。

步骤S502，确定所述第一时间内被访问网页的网站类别。

在实施例中，通过将被访问网页的URL中的网站位置信息与网站类别库中的网站位置作比对，可以确定该被访问网页的网站类别。

在图4所示实施例的基础上，图5所示实施例提供了一种通过被访问网页的URL中的网站信息确定该被访问网页的网站类别的方法。该方法简单、快速，适合对被访问网页的进行初步类别确定。

在图4所述的实施例中，确定第一时间内被访问网页的网站类别还可以包括如图6所示实施例提供的步骤。

步骤S601，根据所述第一时间内目标人员的网页访问信息获取被访问网页的文本内容。

在实施例中，所述第一时间内目标人员的网页访问信息包括被访问网页的网址信息，根据被访问网页的网址信息可以获取被访问网页的文本内容。

步骤S602，根据所述文本内容获得待预测文本向量。

在实施例中，系统可以通过网页访问信息获取被访问网页文本内容，然后系统可以删除所述被访问网页文本内容中不必要的字元，该字元可例如是「\r」、「\n」、「\t」、「数字」或「两个以上的连续空白字串」等。

在实施例中，通过网页访问信息获取被访问网页文本内容后，系统可以对该文本内容进行分词处理以获取该被访问网页的文本对应的词汇。

在实施例中，系统可以事先获取大量不同网站的文本内容，对其进行分词处理生成大量的词汇，系统对每个词汇进行编号并存入词汇数据库中。

例如，系统可使用jieba(结巴)分词对文本内容进行分词处理。

在实施例中，系统可以将上述被访问网页的文本所对应的词汇与词汇数据库中的词汇做比对，以确定被访问网页的文本所对应词汇的编号。

例如，系统从被访问网页的本文内容中获得词汇：“以上”、“是”、“预测”、“阶段”，通过将上述词汇与词汇数据库做比较后可以获得上述词汇的编号是：[105，2，53，582]。

在实施例中，系统可以将上述所有编号转换成一个特征矢量。例如，可以将[105，2，53，582]先转化成4个one-hot(独热码)矢量，再以任一种Document Embedding(文档嵌入向量)技术获得最终的一个文本矢量，该文本矢量就是所述文本容的待预测文本向量

在实施例中，Document Embedding普遍应用在自然语言领域中，通过它可以获取一个可以代表目标文档的特征向量。

步骤S603，将所述待预测文本向量输入网站类别识别模型以确定所述被访问网页的网站类别。

在实施例中，将上述待预测文本向量输入网站类别识别模型以确定所述被访问网页的网站类别。

在上述实施例中，通过Document Embedding技术将访问网页的文本内容转换为待预测矢量，并将待预测矢量输入网站类别识别模型中确定了被访问网页的网站类别，该方法有效、可靠的确定了被访问网页的类别。

在实施例中，训练网站类别识别模型可以包括如图7所示步骤。

步骤S701，获取第二时间内所述目标人员的网页访问信息及其被访问网页的网站类别。

在实施例中，网页访问信息指的是目标人员访问网页的动作数据，可以包括：人员编号、URL、访问时间等。

在实施例中，第二时间内包括的目标人员的访问信息中的网页类别是已知的。

例如，可以获取目标人员在过去一年内的网页访问信息以及被访问网页的网站类别信息。

步骤S702，根据所述第二时间内所述目标人员网页访问信息获取第二时间内被访问网页的文本内容。

在实施例中，依次获取被访问网页的网站文本内容以及对应的网站类别信息。

步骤S703，根据所述第二时间内被访问网页的文本内容获得待训练文本向量。

在实施例中，根据所述第二时间内被访问网页的文本内容获得待训练文本向量包括如图8所示步骤。

步骤S801，删除所述文本内容中不必要的字元。

在实施例中，系统需要删除所述被访问网页的网站文本内容中不必要的字元，该字元可例如是「\r」、「\n」、「\t」、「数字」或「两个以上的连续空白字串」等，皆需替换成「一个空白字串」。

步骤S802，基于Document Embedding方法将所述文本内容转换成所述文本向量。

在实施例中，通过网页访问信息获第二时间内被访问网页文本内容后，系统可以对该文本内容进行分词处理以获取第二时间内该被访问网页的文本对应的词汇。

在实施例中，系统可以将上述第二时间内被访问网页的文本所对应的词汇与图6所示实施例中提到的词汇数据库中的词汇做比对，以确定被访问网页的文本所对应词汇的编号。

例如，系统从被访问网页的本文内容中获得词汇：“以下”、“是”、“训练”、“阶段”，通过将上述词汇与词汇数据库作比较后可以获得上述词汇的编号是：[100，2，55，582]。

在实施例中，系统可以将上述所有编号转换成一个特征矢量。例如，可以将[100，2，55，582]先转化成4个one-hot矢量，再以任一种Document Embedding技术获得最终的一个文本矢量，该文本矢量就是所述文本内容的待训练文本向量

步骤S704，基于待训练文本向量及其对应的网站类别向量训练卷积神经网络以生成所述网站类别识别模型。

在实施例中，基于待训练文本向量及其对应的网站类别向量训练卷积神经网络(CNN)以生成所述网站类别识别模型。CNN与传统的神经网络有所不同，在CNN中，层与层之间的神经元节点不再是全连接形式，CNN利用层与层之间局部空间相关性，相邻每一层的神经元节点只与和它相近的上层神经元节点连接，这样大大降低了神经网络架构的参数规模。

在实施例中，可以使用one-hot编码方式对目标人员访问过的所有网站类别进行编码以生成网站类别向量。

在如图9所示实施例中，可以以待训练文本向量作为输入数据，以待训练文本向量对应的网站类别向量作为监督数据，训练卷积神经网络以生成网站类别识别。

如图9所示实施例，卷积神经网络可以设置为4层，分别是第一层901、第二层902、第三层903以及第四层904，其中第一、二、三层的参数可以设置为：神经元个数设置为n₁，激活函数选择RELU，batch normalization(批量归一化)选择为true，dropout(随机失活率)设置为0.65，其中n₁是待预测文本向量的向量长度。第四层的参数设定为：神经元个数设置为n₂，激活函数选择Softmax(柔性最大值传输函数)，optimizer(优化器)选择为Adam(亚当)，其中n₂为所述网站类别向量的长度。

上述实施例提供的异常访问方法提供了一种训练网站类别识别模型的方法。该方法基于卷积神经网络，以待训练文本向量为输入数据，以网站类别向量为监督数据进行训练，通过该方法训练得出的网站类别识别模型表现的更为稳定、识别效果更好。

图10是根据本公开实施例示出的又一种异常检测方法的流程图。如图10所示，本公开实施例提供的异常检测方法可以包括以下步骤。

步骤S1001，获取所述第一时间内目标人员的网页访问信息。

在实施例中，获取所述第一时间内目标人员的网页访问信息指的是：单次只获取一次目标人员访问网页的网页访问信息，待网站类别识别完成之后继续获取下一次网站访问信息。

步骤S1002，根据网页访问信息识别对应的网站类别。

在实施例中，根据网页访问信息识别对应的网站类别可以包括根据被访问网页的URL信息识别网站类别，也可以通过将被访问网页的文本内容生成文本向量后输入网站类别识别模型中以识别网站类别。在实施例中，可以单独采取其中一种方法，也可以混合使用以上两种方法，具体采用哪种方法以最终可以识别出被访问网页的网站类别为准，本公开对此不做限定。

步骤S1003，判断是否成功识别网站类别。

在实施例中，判断系统是否成功识别被访问网页的网站类别。当成功识别被访问网页的网站类别后，继续执行步骤S1001以继续获取目标人员访问网页的网页访问信息(只包括一次访问动作的数据)。当未能成功识别被访问网页的网站类别后代表目标人员的访问动作以获取完毕。

上述步骤可举例说明为：目标人员在第一时间内共发生了1000次网页访问动作，系统依次获取上述网页访问动作的网页访问信息(每次只获取一个)并判断该次被访问网页的网站类别，当系统第1001次获取信息后将不能成功识别网站类别，此时就需要执行步骤S1004.

步骤S1004，获取目标人员访问目标类别网站的第一访问量。

在实施例中，当目标人员在第一时间内访问的所有的网页的类别都被识别后，系统可以统计目标人员在第一时间内访问目标类别网站的第一访问量。

例如，系统可以统计目标人员在第一时间内访问娱乐类别网站的第一访问量。

步骤S1005，将所述第一访问来那个与目标人员第一时间内访问所述目标类别网站的正常访问量区间作比较。

步骤S1006，判断第一访问量是否超出正常访问量区间。

步骤S1007，判定所述目标人员存在异常访问。

在实施例中，当判断第一访问量超出正常访问量区间时，则判定所述目标人员存在异常访问。

假设目标人员访问在第一时间段内访问软件下载类别网站共100次，而该目标人员正常访问量区间为[0,20]，此时可以判定该目标人员存在异常访问行为。

步骤S1008，判断所述目标人员不存在异常访问。

在实施例中，当判断第一访问量未超出正常访问量区间时，则判定所述目标人员在访问当前目标类别网站时不存在异常访问，系统可以更换目标类别网站以继续判断目标人员针对其他类别网站是否存在异常访问。

图10所示实施例提供了一种可以发觉异常网页访问的检测方法，该检测方法提供了一个通过将目标人员在第一时间内访问目标类别网站的访问量与正常访问量区间做比较以判断目标人员是否存在异常访问。本实施例提供的异常检测方法具有自动化异常警示能力。

图11是根据一示例性实施例示出的一种异常检测装置的框图。参照图11，该装置110包括：访问量获取模块111，配置为获取第一时间内目标人员访问目标类别网站的第一访问量；异常访问判断模块112，配置为如果所述第一访问量超出所述目标人员第一时间内访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

图12是根据一示例性实施例示出的另一种异常检测装置的框图。参考图12，访问量获取模块111包括：网页访问信息获取子模块1111，配置为获取所述第一时间内目标人员的网页访问信息；网站类别确定子模块1112，配置为确定第一时间内被访问网页的网站类别；第一访问量确定子模块1113，配置为根据所述被访问网页的网站类别确定所述第一访问量。

在一些实施例中，所述网页访问信息包括被访问网页的URL信息。

图13是根据一示例性实施例示出的再一种异常检测装置的框图。参考图10，网站类别确定子模块1112包括：比对单元11121，配置为将所述被访问网页的URL信息与网站类别库中的URL信息做比对；类别确定单元11122，配置为确定所述第一时间内被访问网页的网站类别。

图14是根据一示例性实施例示出的又一种异常检测装置的框图。参考图14，网站类别确定子模块1112还包括：文本内容获取单元11123，配置为根据所述第一时间内目标人员的网页访问信息获取被访问网页的文本内容；文本向量获取单元11124，配置为根据所述文本内容获取待预测文本向量；网站类别确定单元11125，配置为将所述待预测文本向量输入网站类别识别模型以确定所述被访问网页的网站类别。

图15是根据一示例性实施例示出的又一种异常检测装置的框图。参考图15，文本向量获取单元11124包括：预处理子单元111241，配置为删除所述文本内容中不必要的字元；文本向量生成字单元111242，配置为基于Document Embedding方法将所述文本内容转换成所述文本向量。

图16是根据一示例性实施例示出的又一种异常检测装置的框图。参考图16，网站类别确定单元11125包括：被访问网页信息获取子单元111251，配置为获取第二时间内所述目标人员的网页访问信息及其被访问网页的网站类别；被访问网页文本内容获取子单元111252，配置为根据所述第二时间内所述目标人员网页访问信息获取第二时间内被访问网页的文本内容；待训练文本向量获取子单元111253，配置为根据所述第二时间内被访问网页的文本内容获得待训练文本向量，并根据所述第二时间段被访问网页的网站类别获取被访问网页的网站类别向量；网站类别识别模型生成字单元111254，配置为基于所述待训练文本向量及其对应的网站类别训练所述网站类别识别模型。

在实施例中，所述根据所述被访问网页的网站类别的编号获取所述被访问网页的网站类别向量包括：基于独热码编码机制对所述被访问网页的网站类别的编号进行编码，以获取网站类别向量。

由于本公开的示例实施例的测试数据生成装置110的各个功能模块与上述测试数据生成方法的示例实施例的步骤对应，因此在此不再赘述。

下面参考图17，其示出了适于用来实现本申请实施例的终端设备的计算机系统1700的结构示意图。图17示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图17所示，计算机系统1700包括中央处理单元(CPU)1701，其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。在RAM 1703中，还存储有系统1700操作所需的各种程序和数据。CPU 1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。

以下部件连接至I/O接口1705：包括键盘、鼠标等的输入部分1706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707；包括硬盘等的存储部分1708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1709从网络上被下载和安装，和/或从可拆卸介质1711被安装。在该计算机程序被中央处理单元(CPU)1701执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备可实现功能包括：获取第一时间内目标人员访问目标类别网站的第一访问量；如果所述第一访问量超出所述目标人员访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法，例如图2的一个或多个所示的步骤。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不限于这里已经示出的详细结构、附图方式或实现方法，相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种异常访问检测方法，其特征在于，包括：

获取第一时间内目标人员访问目标类别网站的第一访问量；

如果所述第一访问量超出所述目标人员第一时间内访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

2.根据权利要求1所述方法，其特征在于，所述获取第一时间内目标人员访问目标类别网站的第一访问量包括：

获取所述第一时间内目标人员的网页访问信息；

确定第一时间内被访问网页的网站类别；

根据所述被访问网页的网站类别确定所述第一访问量。

3.根据权利要求2所述方法，其特征在于，所述网页访问信息包括被访问网页的URL信息，所述确定第一时间内被访问网页的网站类别包括：

将所述被访问网页的URL信息与网站类别库中的URL信息做比对，以确定所述第一时间内被访问网页的网站类别。

4.根据权利要求2所述方法，其特征在于，所述确定第一时间内被访问网页的网站类别包括：

根据所述第一时间内目标人员的网页访问信息获取被访问网页的文本内容；

根据所述文本内容获取待预测文本向量；

将所述待预测文本向量输入网站类别识别模型以确定所述被访问网页的网站类别。

5.根据权利要求4所述方法，其特征在于，所述根据所述文本内容获得待预测文本向量包括：

删除所述文本内容中不必要的字元；

基于Document Embedding方法将所述文本内容转换成所述待预测文本向量。

6.根据权利要求4所述方法，其特征在于，还包括：

获取第二时间内所述目标人员的网页访问信息及被访问网页的网站类别；

根据所述第二时间内所述目标人员网页访问信息获取第二时间内被访问网页的文本内容；

根据所述第二时间内被访问网页的文本内容获得待训练文本向量，并根据所述第二时间段被访问网页的网站类别获取被访问网页的网站类别向量；

基于所述待训练文本向量及其对应的网站类别向量训练卷积神经网络，以生成所述网站类别识别模型。

7.根据权利要求6所述方法，其特征在于，所述根据所述第二时间段被访问网页的网站类别获取被访问网页的网站类别向量包括：

对所述第二时间段内被访问网页的网站类别进行编号；

根据所述被访问网页的网站类别的编号获取所述被访问网页的网站类别向量。

8.根据权利要求7所述方法，其特征在于，所述根据所述被访问网页的网站类别的编号获取所述被访问网页的网站类别向量包括：

基于独热码编码机制对所述被访问网页的网站类别的编号进行编码，以获取所述网站类别向量。

9.一种异常访问检测装置，其特征在于，包括：

访问量获取模块，配置为获取第一时间内目标人员访问目标类别网站的第一访问量；

异常访问判断模块，配置为如果所述第一访问量超出所述目标人员访问所述目标类别网站的正常访问量区间，则判断所述目标人员异常访问。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。