CN110012005A

CN110012005A - 识别异常数据的方法、装置、电子设备及存储介质

Info

Publication number: CN110012005A
Application number: CN201910255600.5A
Authority: CN
Inventors: 王振杰
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-12
Anticipated expiration: 2039-03-29
Also published as: CN110012005B

Abstract

本公开提出一种识别异常数据的方法、装置、电子设备及存储介质，涉及互联网技术领域。所述方法包括：获取网络设备数据传输行为的日志数据，所述日志数据包括所述网络设备所传输数据的数据标识，根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过确定型有穷自动机DFA依次匹配是否存在与所述数据标识匹配的异常字段，其中，所述异常信息文件包括至少一个异常字段，若存在与所述数据标识匹配的异常字段，则确定所述数据标识对应的数据为异常数据。本公开不仅能够高效率地确定数据传输行为是否传输了异常数据，还能够确定异常数据具体的异常类型，有效确保网络/网络设备的信息安全。

Description

识别异常数据的方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，具体而言，涉及一种识别异常数据的方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，网络已经逐渐应用到了人类社会的各个方面。网络中可以包括多个通过通信连接的网络设备，且该多个网络设备之间能够进行数据传输。但由于进行数据传输过程中可能会传输具有风险的异常数据，从而危及网络或网络设备的信息安全，因此，如何确保网络及网络设备的信息安全越来越受到广泛的关注。

现有技术中，网络设备可以对与该网络设备进行数据传输的网络设备进行鉴权，从而能够只与安全可靠的网络设备进行数据传输。但在实际应用中，对于通过鉴权确认为安全可靠的网络设备，也仍然存在传输异常数据的可能。因此，通过现有的方式，难以有效保证网络及网络设备的信息安全。

发明内容

本公开的目的在于提供一种识别异常数据的方法、装置、电子设备及存储介质，以提高识别异常数据的准确性。

为了实现上述目的，本公开采用的技术方案如下：

第一方面，本公开提出一种识别异常数据的方法，所述方法包括：

获取网络设备数据传输行为的日志数据，所述日志数据包括所述网络设备所传输数据的数据标识；

根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA(Deterministic Finite Automaton，确定型有穷自动机)依次匹配是否存在与所述数据标识匹配的异常字段，其中，所述异常信息文件包括至少一个异常字段；

若存在与所述数据标识匹配的异常字段，则确定所述数据标识对应的数据为异常数据。

第二方面，本公开还提出一种识别异常数据的装置，所述装置包括：

第一获取模块，用于获取网络设备数据传输行为的日志数据，所述日志数据包括所述网络设备所传输数据的数据标识；

匹配模块，用于根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA依次匹配是否存在与所述数据标识匹配的异常字段，其中，所述异常信息文件包括至少一个异常字段；

第一确定模块，用于若存在与所述数据标识匹配的异常字段，则确定所述数据标识对应的数据为异常数据。

第三方面，本公开还提出一种电子设备，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现上述第一方面所述的方法。

第四方面，本公开还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器读取并运行时，实现上述第一方面所述的方法。

相对现有技术，本公开具有以下有益效果：

在本公开实施例中，首先，能够获取网络设备数据传输行为的日志数据，根据预设异常数据规则库中的至少一个异常类型所对应的异常信息文件，对获取到的该日志数据中包括的数据标识进行识别，不仅能够确定数据传输行为是否传输了异常数据，还能够进一步确定异常数据的异常类型，有效确保网络/网络设备的信息安全。其次，能够通过通过DFA依次匹配是否存在与该数据标识匹配的异常字段，从而可以按照类似树结构的方式对异常信息文件中的异常字段进行检索，显著减少检索的范围，提高判断数据标识中是否包括异常字段的效率。

本公开的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本公开的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开所提供的一种网络的结构示意图；

图2示出了本公开所提供的一种识别异常数据的方法的流程示意图；

图3示出了本公开所提供的一种树结构的示意图；

图4示出了本公开所提供的另一种识别异常数据的方法的流程示意图；

图5示出了本公开所提供的一种识别异常数据的装置的功能模块示意图；

图6示出了本公开所提供的另一种识别异常数据的装置的功能模块示意图；

图7示出了本公开所提供的又一种识别异常数据的装置的功能模块示意图；

图8示出了本公开所提供的又一种识别异常数据的装置的功能模块示意图；

图9示出了本公开所提供的一种电子设备的功能模块示意图。

具体实施方式

下面将结合本公开中附图，对本公开中的技术方案进行清楚、完整地描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在对本公开进行详细的解释说明之前，先对本公开的应用场景予以介绍。

网络由多个作为节点的网络设备之间通信互联构成，其中，网络设备可以包括用户客户端、服务器或路由器等设备。在实际应用中，为了确保网络或网络设备的信息安全，减少包括信息泄露、病毒传播或非法入侵等异常的发生，或者，在出现异常时及时采取相应的管控措施，可以通过本公开所提供的识别异常数据的方法，基于网络设备的数据传输行为，及时对网络设备可能传输的异常数据进行识别。

其中，可以在网络中设置安全服务器，并通过该安全服务器获取网络设备进行数据传输行为的日志数据，并按照本公开所提供的识别异常数据的方法来识别网络设备所传输的数据是否为异常数据。当然，在实际应用中，也可以通过该网络中已有的一个或多个网络设备按照本公开所提供的识别异常数据的方法，识别网络设备所传输的数据是否为异常数据。

需要说明的是，对于进行数据传输的多个网络设备，可以从任一网络设备处，或者，从该多个网络之间的通信链路，对该多个网络设传输数据的过程进行检测，从而获取该多个网络设备数据传输行为的相关信息，识别其所传输的数据。比如，网络中包括通过FTP(File Transfer Protocol，文件传输协议)协议进行通信的用户客户端和服务器，则可以基于FTP协议，从用户客户端获取该用户客户端与该服务器进行数据传输行为的日志数据，进而对该用户客户端向该服务器所传输的数据进行识别。

数据传输行为可以包括接收行为和/或发送行为，相应的，网络设备所传输的数据包括该网络设备发送至其它网络设备的数据，和/或，接收其它网络设备所发送的数据。比如，对于用户客户端，数据传输行为可以包括上行行为和/或下行行为，所传输的数据可以包括向服务器上行的数据和/或从服务器下行的数据。

日志数据为记录网络操作事件的文件或文件集合。其中，数据传输行为的日志数据为对网络设备传输数据的行为进行记录的日志数据。

如图1所示，以专用的内部网络为例，该内部网络包括业务服务器101以及多个用户客户端102，用户客户端102与业务服务器101之间通信连接，该业务服务器101中可以存储有需要保密的敏感信息。内部人员可以通过用户客户端102登录该内部网络，并与业务服务器101进行数据传输。为了对内部人员获取信息的行为进行监控，比如防止该内部人员获取该敏感信息，可以将该敏感信息作为异常数据，在该网络中设置安全服务器103，通过该安全服务器103对该内部网络中的用户客户端102与业务服务器101之间所传输的数据进行识别，从而确定用户客户端102所传输的数据是否包括异常数据，即该敏感信息。

以下将对公开所提供的识别异常数据的方法进行具体说明。

请参照图2，为本公开所提供的一种识别异常数据的方法的流程示意图。该方法应用于图1所示的安全服务器中。需要说明的是，本公开所述的识别异常数据的方法并不以图2以及以下所述的具体顺序为限制，应当理解，在其它实施例中，本公开所述的识别异常数据的方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面将对图2所示的流程进行详细阐述。

步骤201，获取网络设备数据传输行为的日志数据，该日志数据包括该网络设备所传输数据的数据标识。

为了对网络设备所传输的数据进行识别，进而对网络设备中的用户或应用行为进行监控和审计，降低由用户或应用行为可能导致的异常，比如泄露数据或者恶意传输病毒等恶意文件，可以获取网络设备数据传输行为的日志数据。

数据标识为对数据进行标识的信息，比如数据标识可以包括文件名、哈希值或文件ID(Identification，身份证)中的至少一个。

可以从网络设备获取由该网络设备对该网络设备的数据传输行为进行记录得到的日志数据，或者，可以通过与该网络设备通信连接的采集器，基于该网络设备进行数据传输的通信协议，对该网络设备的数据传输行为进行记录，从而获取到的日志数据。当然，在实际应用中，也可以通过其它方式来获取得到网络设备数据传输行为的日志数据。

步骤202，根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA依次匹配是否存在与该数据标识匹配的异常字段，其中，该异常信息文件包括至少一个异常字段。

由于数据传输行为所传输的数据可能发生的异常多种多样，比如非法入侵传输了敏感信息，或者传输了木马病毒等具有风险的信息等，当发生异常不同，相应的也就需要采取不同的防控措施，因此，为了便于准确地对数据传输行为所导致的异常进行识别，进而便于后续准确地根据各种异常类型采取相应的防控措施，提高网络及网络设备的信息安全，可以根据异常数据规则库中至少一个异常类型对应的异常信息文件来对日志数据进行识别。

异常数据规则库存储有针对日志数据进行识别的规则，其中，可以包括一个或多个异常类型所对应的异常信息文件。

异常类型可以包日志数据出现异常的类型，具体可以预先有工作人员进行添加。

异常信息文件中包括异常数据所具有的特征信息。比如，该异常信息文件中可以包括用于说明数据标识或文件格式等异常字段。

当然，在实际应用中，异常信息文件还可以包括其它信息，比如一种异常信息文件的格式可以如下表1所示。

表1

由上述表1可知，异常信息文件包括异常类型、异常字段、异常级别、创建时间、数据类型，且异常类型字段对应的字符类型为varchar、最大长度为100，异常字段对应的字符类型为varchar、最大长度为255、异常级别字段和数据类型字段的字符类型为int，创建时间字段对应的字符类型为date。其中，创建时间为该异常信息文件的创建时间，数据类型为进行识别的所传输数据的数据类型。

可以事先获取异常信息文件并存储至异常数据规则库，或者事先获取包括异常信息文件的异常数据规则库。比如，可以向用户提供异常数据规则库配置界面，从而通过该异常数据规则库配置界面接收用户提交的异常类型以及对应的异常信息文件，并将接收到的异常信息文件按照该异常类型存储至异常数据规则库。

当日志数据进行识别时，可以从异常数据规则库获取所有的异常信息文件，或者，可以随机从异常数据规则库获取部分的异常信息文件，或者，可以按照其它预先设置好的方式(比如按照预先设置的异常类型)，从异常规则数据库获取部分的异常信息文件。当然，在实际应用中，也可以通过其它方式来确定如何从异常数据规则库中获取异常信息文件。

由于日志数据包括数据标识，且异常信息文件包括至少一个的异常字段，因此，可以将日志数据包括的数据标识分别与异常信息文件包括的异常字段进行匹配，如果日志数据包括的数据标识中存在异常字段，则可以确定存在与该数据标识匹配的异常信息文件，否则可以确定不存在与该数据标识匹配的异常信息文件。

其中，由于有穷自动机是一种受到严格限制的实际计算机模型，它能准确地识别正规集，即识别正规文法所定义的语言和正规式所表示的集合。对于DFA算法，可以按照类似树结构的方式对异常信息文件中的异常字段进行检索，从而能够显著减少检索的范围，提高判断数据标识名中是否包括异常字段的效率，因此，可以通过DFA依次匹配是否存在与该数据标识匹配的异常字段。

例如，确定型有穷自动机可以表示为一个五元组：M＝(K,Σ,δ,s,F)。其中，K一个有穷状态集合，其中每个元素称为一个状态；Σ是一个有穷字母表，其中每个元素称为一个输入字符；s∈K为初始状态；为终结状态集合，终结状态也称可接受状态或结束状态；s是K×Σ到K的函数，称为转移函数。

确定型有穷自动机从一个固定的初始状态开始，逐一的读入属于Σ的输入字符，通过转移函数δ(K_i,a)＝K_j(K_i,K_j∈K)，使状态机从当前状态K_i，在输入字符为a时，转换到唯一后继状态K_j，当所有输入字符依次按转移函数使状态机的状态发生变化后，状态机将达到一个稳定状态K_n，如果K_n∈K则该字符串被状态机接受，否则不接受。

对于异常信息文件包括的多个异常字段，可以将任一个异常字段的首个字符作为树结构的根节点，其它与该异常字段的首个字符相同的异常字段可以作为该树结构的分支，从而构建得到由该多个异常字段构成的树结构，该树结构中的每一条路径即可构成一个异常字段。

例如，异常信息文件包括的异常字段“个人身份证号码”和“个人电话号码”，则这两个异常字段构成的树结构可以如图3所示。

当通过DFA识别数据标识是否包括异常字段时，可以先根据数据标识中包括的任意字符获取以该字符开头的树结构，然后按照该树结构包括各分支，对该数据标识包括的各字符进行检索，当确定该数据标识包括该树结构任一路径中的各个字符时，即确定该数据标识包括该路径所对应的异常字段。

例如，通过DFA识别数据标识是否包括“个人身份证号码”时，先根据第一个字“个”确定需要检索的树结构为如图3所示的树结构，之后可以通过如下步骤进行检索：

1)在数据标识中查询“个”，如果不存在，则证明以“个”开头的异常字段不存在，则构建以“个”作为根节点的树，跳至步骤3)。如果存在，则确定该数据标识存在以“个”开始的异常字段，跳至步骤2)；

2)设置标志位flag等于1，返回步骤1)，按照如图3所示的树结构依次匹配“人”、“身”、“份”、“证”、“息”、“码”。

3)判断该字是否为该异常字段中的最后一个字。若是表示异常字段结束，设置标志位isEnd＝1，否则设置标志位isEnd＝0。

步骤203，若存在与数据标识匹配的异常字段，则确定数据标识对应的数据为异常数据。

当存在与数据标识匹配的异常字段时，则该数据标识所对应的数据可能会给网络或网络设备带来风险，因此，可以将该数据标识对应的数据确定为异常数据。

当然，若不存在与数据标识匹配的异常字段，则可以确定数据标识对应的数据不为异常数据。

需要说明的是，当将该数据标识对应的数据确定为异常数据时，可以对该数据标识对应的数据和/或该数据标识所在的日志数据进行标记。相应的，当确定该网路数据不为异常数据时，可以不对该数据标识对应的数据和该数据标识所在的日志数据进行标记。

在本公开实施例中，首先，能够获取网络设备数据传输行为的日志数据，根据预设异常数据规则库中的至少一个异常类型所对应的异常信息文件，对获取到的该日志数据中包括的数据标识进行识别，不仅能够确定数据传输行为是否传输了异常数据，还能够进一步确定异常数据的异常类型，有效确保网络/网络设备的信息安全。其次，能够通过DFA依次匹配是否存在与该数据标识匹配的异常字段，从而可以按照类似树结构的方式对异常信息文件中的异常字段进行检索，显著减少检索的范围，提高判断数据标识中是否包括异常字段的效率。

请参照图4，为本公开所提供的一种识别异常数据的方法的流程示意图。需要说明的是，本公开所述的识别异常数据的方法并不以图4以及以下所述的具体顺序为限制，应当理解，在其它实施例中，本公开所述的识别异常数据的方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面将对图4所示的流程进行详细阐述：

步骤401，生成异常数据规则库。

由前述可知，网络可能处于不同的应用场景，对异常数据的识别也可能有不同的需求，因此，为了后续能够按照符合当前应用场景的且满足当前识别需求的异常数据规则库对日志数据进行识别，从而进一步提高识别的准确性，可以生成异常数据规则库。

可以向用户提供初始化的异常信息文件，并接收用户针对该异常信息文件的配置操作，从而得到新增异常信息文件；或者，可以向用户提供已有的异常信息文件，并用户针对该异常信息文件的修改操作，从而得到修改后的异常信息文件；或者，可以向用户提供已有的异常信息文件，并接收用户针对该异常信息文件的删除操作，从而将该异常信息文件进行删除。也即是，用户可以根据实际的应用场景以及识别需求，对异常数据规则库进行的定义。

以新增异常信息文件为例，可以将前述中的表1提供给用户，在接收用户针对该异常信息文件的配置操作之后，得到如下述表2所示的异常信息文件。

表2

上述表2所示的异常信息文件即能够用于对可能包括姓名，出生日期，身份证号码，住址等个人身份信息的日志数据进行识别。

另外，在本公开的另一可选实施例中，也可以直接获取已有的异常数据规则库而不需再次生成，也即是，在实际应用中，可以直接执行下述步骤402，上述步骤401生成异常数据规则库为可选的步骤。

步骤402，获取网络设备数据传输行为的日志数据，该日志数据包括该网络设备所传输数据的数据标识。

其中，获取网络设备数据传输行为的日志数据的方式，可以参见前述步骤201中的相关描述，此处不再一一赘述。

需要说明的是，在实际应用中，日志数据还可以包括更多的信息，比如用户名、MAC(Media Access Control，媒体访问控制)地址、源IP(Internet Protocol，网络协议)地址、源端口、目的IP地址、目的端口等。其中，用户名为网络设备当前登录的用户的名称；MAC地址、源IP地址和源端口分别为发送数据的网络设备的MAC地址、IP地址和端口；目的IP地址和目的端口分别为接收数据的网络设备的IP地址和端口。

例如，一种FTP数据传输行为的日志数据的格式可以如下表3所示。

表3

步骤403，基于日志数据的数据属性，获取与数据属性匹配的至少一个异常类型，获取与该数据属性匹配的至少一个异常类型对应的异常信息文件。

由于网络中可能包括多种多样的日志数据，不同的日志数据所包括的信息内容也会不同，比如数据传输行为的日志数据可以记录所传输数据的相关信息，邮件应用的日志数据可以记录该邮件应用收发邮件的相关信息。因此，对于具有不同数据属性的日志数据，可以按照与该数据属性相应的方式进行识别，从而进一步提高对日志数据进行识别的准确性，有效确保网络/网络设备的信息安全。

数据属性可以用于说明日志数据所具有特点。例如，数据属性可以包括日志数据的所归属的网络设备或应用、该日志数据所对应的用户/应用行为、该日志数据对应的安全等级等信息中的至少一个。

可以基于数据属性与异常类型之间的对应关系，获取与日志数据的数据属性所匹配的至少一个异常类型。

其中，可以事先接收提交的至少一种数据属性以及分别与各数据属性所对应的异常类型，并将该至少一种数据属性以及分别与各数据属性所对应的异常类型存储至数据属性与异常类型之间的对应关系。

例如，获取到日志数据所对应的用户行为为数据传输行为，则根据数据传输行为获取到异常类型包括个人身份信息和个人财产信息，再分别根据个人身份信息以及个人财产信息所对应的异常信息文件。

另外，在本公开的另一可选实施例中，也可以直接按照异常数据规则库中包括的异常信息文件对日志数据进行识别，而不必根据日志数据的数据属性从异常数据规则库中获取对应的异常信息文件，也即是，步骤403基于日志数据的数据属性，获取与数据属性匹配的至少一个异常类型，获取与该数据属性匹配的至少一个异常类型对应的异常信息文件，为可选的步骤。

步骤404，根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA依次匹配是否存在与该数据标识匹配的异常字段，其中，该异常信息文件包括至少一个异常字段。

其中，根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA依次匹配是否存在与该数据标识匹配的异常字段的方式，可以参见前述步骤202中的相关描述，此处不再一一赘述。

步骤405，若存在与数据标识匹配的异常字段，则确定数据标识对应的数据为异常数据。

可选地，当确定数据标识对应的数据为异常数据时，可以将包括该数标识的日志数据确定为异常数据。

另外，当确定数据标识对应的数据异常数据时，可以将异常数据(比如数据标识所对应的数据和/或包括该数据标识的日志数据)提供给用户。

步骤406，根据异常数据所属异常类型、以及异常类型与异常级别的关联关系，确定该数据传输行为的异常级别。

由于不同的异常数据可能导致异常的严重程度不同的，对于严重程度较为轻微的可以仅作提醒或者记录备案，对于严重程度较为严重的可以报警，因此，为了便于用户或者其它运维设备确定异常数据可能导致异常的严重程度，进而采取相应的措施，可以确定该数据传输行为的异常级别。

异常级别用于说明数据传输行为导致异常的严重程度。

可以基于数据传输行为所传输的、被确定被异常数据的数据所属的异常类型，从事先确定的异常类型与异常级别的关联关系中，获取对应的异常级别，并将获取到的异常级别确定为该数据传输行为的异常级别。

另外，在本公开的另一可选实施例中，由前述可知，异常信息文件中可以包括异常类型以及相应的异常级别，因此，可以根据异常类型，从包括该异常类型的异常信息文件中获取异常级别。或者，在本公开的另一可选实施例中，可以根据以日志数据中数据标识所匹配的异常字段，确定包括该异常字段的异常信息文件，并从该异常信息文件中获取异常级别。

需要说明的是，若根据异常数据所属异常类型获取到了多个异常级别，则可以将该多个异常级别中级别最高的异常级别确定为数据传输行为的异常级别，或者，可以将该多个异常级别的平均级别确定为数据传输行为的异常级别。

可选地，从日志数据获取针对数据传输行为的追踪信息，该追踪信息包括用户名、MAC地址、源IP地址、源端口、目的IP地址和目的端口中的至少一个。

为了便于对数据传输行为进行追踪，比如获取参与该数据传输行为的网络设备和/或用户的相关信息，从而对所传输的异常数据、对传输该异常数据的网络设备和/或用户进行管控和审计，以减少传输异常数据可能带来的损失，并减少后续继续传输异常数据的可能，进一步提高网络及网络设备的信息安全，可以从日志数据中获取针对该数据传输行为的追踪信息。

可以在日志数据包括的数据标识对应的数据被识别为异常数据时，从该日志数据中获取当前数据传输行为的追踪信息。

需要说明的是，在实际应用中，该追踪信息还可以包括更多的信息，比如还可以包括数据大小。

可选地，在对日志数据进行识别之后，可以根据识别结果生成网络评价数据。

为了更加准确地说明网络当前的状况，便于对用户/应用行为等进行监控和预警，对可能发生的异常进行预防或者补救，进一步提高网络/网络设备的信息安全，可以生成网络评价数据。

网络评价数据可以包括识别结果。

其中，识别结果可以包括是否识别到异常数据、识别到异常数据的数目、异常等级、对应各异常数据的处理策略中的至少一个。

需要说明的是，可以事先确定针对各异常类型或异常级别的处理策略，比如，可以接收用户针对各异常类型或异常级别提交的处理策略，并将接收到的处理策略按照异常类型或异常级别进行存储。

当然，在实际应用中，对于同一异常类型，处理策略还可以进一步包括更加详细具体的子处理策略。

例如，可以事先针对异常等级从低到高，分别设置严格程度从低到高的技术和管理措施。

可选地，网络评价数据可以包括确定针对网络的异常等级。

其中，可以将前述中的识别结果作为输入，通过预先设置的网络异常级别模型，输出得到针对网络的异常等级。

需要说明的是，可以事先获取多个识别结果作为样本，通过样本对网络异常级别模型确定针对网络的异常等级进行训练。

另外，在本公开的另一可选实施例中，在步骤405确定数据标识对应的数据为异常数据之后，也可以不再执行后续步骤406中的相关操作，也即是，步骤406中的相关操作可以为可选步骤。

另外，能够从日志数据获取针对数据传输行为的追踪信息，包括用户名、MAC地址、源IP地址、源端口、目的IP地址和目的端口等信息，从而便于对数据传输行为进行追踪，对所传输的异常数据、对传输该异常数据的网络设备和/或用户进行管控和审计，以减少传输异常数据可能带来的损失，并减少后续继续传输异常数据的可能，进一步了提高了网络及网络设备的信息安全。

请参照图5，为本公开所提供的一种识别异常数据的装置400的功能模块示意图。需要说明的是，本实施例所提供的识别异常数据的装置400，其基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。该识别异常数据的装置500包括：

第一获取模块501，用于获取网络设备数据传输行为的日志数据，该日志数据包括该网络设备所传输数据的数据标识；

匹配模块502，用于根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA依次匹配是否存在与该数据标识匹配的异常字段，其中，该异常信息文件包括至少一个异常字段；

第一确定模块503，用于若存在与该数据标识匹配的异常字段，则确定该数据标识对应的数据为异常数据。

可选地，请参照图6，该装置还包括：

第二获取模块504，用于基于该日志数据的数据属性，获取与该数据属性匹配的至少一个异常类型；

第三获取模块505，用于获取与该数据属性匹配的至少一个异常类型对应的异常信息文件。

可选地，请参照图7，该装置还包括：

第二确定模块506，用于根据该异常数据所属异常类型、以及异常类型与异常级别的关联关系，确定该数据传输行为的异常级别。

可选地，请参照图8，该装置还包括：

第四获取模块507，用于从该日志数据获取针对该数据传输行为的追踪信息，该追踪信息包括用户名、MAC地址、源IP地址、源端口、目的IP地址和目的端口中的至少一个。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

请参照图9，为本公开所提供的一种电子设备的功能模块示意图。该电子设备可以包括存储有计算机程序的计算机可读存储介质901和处理器902，处理器902可以调用计算机可读存储介质901存储的计算机程序。当该计算机程序被处理器902读取并运行，可以实现上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本公开还提供一计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器读取并运行时，可以实现上述方法实施例。

在本公开所提供的几个实施例中，应该理解到，以上所描述的装置实施例仅仅是示意性的，所揭露的装置和方法，可以通过其它的方式实现。例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行，例如各单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种识别异常数据的方法，其特征在于，所述方法包括：

根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过确定型有穷自动机DFA依次匹配是否存在与所述数据标识匹配的异常字段，其中，所述异常信息文件包括至少一个异常字段；

2.如权利要求1所述的识别异常数据的方法，其特征在于，在所述根据预设的异常数据规则库中至少一个异常类型对应的异常信息文件，通过DFA依次匹配是否存在与所述数据标识匹配的异常字段之前，所述方法还包括：

基于所述日志数据的数据属性，获取与所述数据属性匹配的至少一个异常类型；

获取与所述数据属性匹配的至少一个异常类型对应的异常信息文件。

3.如权利要求1所述的识别异常数据的方法，其特征在于，在所述确定所述数据标识对应的数据为异常数据之后，所述方法还包括：

根据所述异常数据所属异常类型、以及异常类型与异常级别的关联关系，确定所述数据传输行为的异常级别。

4.如权利要求1-3任一所述的识别异常数据的方法，其特征在于，在所述确定所述数据标识对应的数据为异常数据之后，所述方法还包括：

从所述日志数据获取针对所述数据传输行为的追踪信息，所述追踪信息包括用户名、媒体访问控制MAC地址、源网络协议IP地址、源端口、目的IP地址和目的端口中的至少一个。

5.一种识别异常数据的装置，其特征在于，所述装置包括：

6.如权利要求5所述的识别异常数据的装置，其特征在于，所述装置还包括：

第二获取模块，用于基于所述日志数据的数据属性，获取与所述数据属性匹配的至少一个异常类型；

第三获取模块，用于获取与所述数据属性匹配的至少一个异常类型对应的异常信息文件。

7.如权利要求5所述的识别异常数据的装置，其特征在于，所述装置还包括：

第二确定模块，用于根据所述异常数据所属异常类型、以及异常类型与异常级别的关联关系，确定所述数据传输行为的异常级别。

8.如权利要求5-7任一所述的识别异常数据的装置，其特征在于，所述装置还包括：

第四获取模块，用于从所述日志数据获取针对所述数据传输行为的追踪信息，所述追踪信息包括用户名、MAC地址、源IP地址、源端口、目的IP地址和目的端口中的至少一个。

9.一种电子设备，其特征在于，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器读取并运行时，实现如权利要求1-4任一项所述的方法。