CN114020784A

CN114020784A - 一种数据风险识别方法、系统、装置及存储介质

Info

Publication number: CN114020784A
Application number: CN202111127487.6A
Authority: CN
Inventors: 潘志锋; 麦俊豪
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-02-08

Abstract

本发明公开了一种数据风险识别方法、系统、装置及存储介质。数据风险识别方法包括：根据匹配规则，通过数据流分配模块从源数据流中组装第一数据流；根据所述第一数据，通过数据特征处理模块生成第二数据；根据所述第二数据，通过规则运行模块识别风险事件。本发明通过匹配规则组装数据流并对实时数据流中的数据进行特征处理，能够实现对实时数据流中的数据进行风险分析，同时通过规则运行模块结合特征处理后生成的第二数据，简化了数据风险识别方法的规则，本申请可广泛应用于计算机技术领域。

Description

一种数据风险识别方法、系统、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其是一种数据风险识别方法、系统、装置及存储介质。

背景技术

随着互联网技术和计算机应用技术的迅速发展，数据风险问题引起了高度的重视，数据风险识别技术也随之发展起来。然而，目前国内外的数据风险识别技术仍存在很多问题。例如，在国外，风险识别技术采用了开源规则引擎，该技术需要针对不同风险识别场景，使用规则语法进行定制化开发，其中规则语言复杂；国内使用的规则引擎技术采用界面配置替换了规则语法的复杂性，但偏向于整体规则引擎的设计与原理说明，其主要涉及特征条件、规则等基本元素的设计。部分规则引擎技术采用以静态数据为基础进行多维度组合的统计规则，其界面配置复杂度高，使用起来较为困难；另一部分规则引擎技术是基于实时数据的技术，但是没有涉及具体技术细节，以及与基于非实时数据的技术的区别。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种数据风险识别方法，该方法基于实时数据流，能够简化数据风险识别方法的规则。

本发明实施例的另一个目的在于提供一种数据风险识别系统。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种数据风险识别方法，包括以下步骤：

根据匹配规则，通过数据流分配模块从源数据流中组装第一数据流，所述源数据流中包含不同类型的日志数据，所述第一数据流中包含第一数据；

根据所述第一数据，通过数据特征处理模块生成第二数据；

根据所述第二数据，通过规则运行模块识别风险事件。

本发明实施例的一种数据风险识别方法，通过对实时数据流中的数据进行特征处理，能够实现对实时数据流中的数据进行风险分析，并通过规则运行模块结合特征处理后生成的第二数据，简化数据风险识别方法的规则。

另外，根据本发明上述实施例的一种数据风险识别方法，还可以具有以下附加的技术特征：

进一步地，本发明实施例的一种数据风险识别方法中，所述根据匹配规则，通过数据流分配模块从源数据流中组装第一数据流，包括：

从所述源数据流中读取所述日志数据；

根据所述匹配规则，将多个所述日志数据组装成第一数据流。

进一步地，在本发明的一个实施例中，所述根据所述第一数据，通过数据特征处理模块生成第二数据，包括：

从所述第一数据流中获取所述第一数据；

对所述第一数据进行属性转换，生成所述第二数据。

进一步地，在本发明的一个实施例中，所述一种数据风险识别方法还包括以下步骤：

通过所述数据特征处理模块将所述第二数据输入到第三数据流；

通过所述规则运行模块从所述第三数据流中获取所述第二数据。

进一步地，在本发明的一个实施例中，所述根据所述第二数据，通过规则运行模块识别风险事件，包括：

读取所述规则元数据和条件元数据，所述规则元数据中包含设定的规则，所述条件元数据中包含设定的条件，所述条件为事件的表达式；

根据所述规则元数据和所述条件元数据，动态组装匹配条件，所述匹配条件用于将所述第二数据中包括所述事件的数据与所述条件元数据匹配；

根据所述规则，通过规则运行模块设定所述条件发生的顺序以及时间窗口；

若在所述时间窗口内，所述第二数据中包括所述事件的数据按照所述顺序满足所述条件元数据，则判断存在风险事件。

进一步地，在本发明的一个实施例中，所述根据所述转换数据，通过规则运行模块识别风险事件，还包括以下步骤：

通过风险输出模块将所述风险事件和对应的所述第二数据写入数据存储。

第二方面，本发明实施例提出了一种数据风险识别系统，包括：

第一数据流组装模块，用于根据匹配规则，通过数据流分配模块从源数据流中组装第一数据流；

第二数据生成模块，用于根据所述第一数据，通过数据特征处理模块生成第二数据；

风险事件识别模块，用于根据所述第二数据，通过规则运行模块识别风险事件。

第三方面，本发明实施例提供了一种数据风险识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现所述的一种数据风险识别方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于实现所述的一种数据风险识别方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本发明实施例通过匹配规则组装数据流并对实时数据流中的数据进行特征处理，能够实现对实时数据流中的数据进行风险分析，同时通过规则运行模块结合特征处理后生成的第二数据，简化了数据风险识别方法的规则。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明一种数据风险识别方法具体实施例的流程示意图；

图2为本发明一种数据风险识别方法具体实施例的第一数据流分配示意图；

图3为本发明一种数据风险识别方法具体实施例的框架示意图；

图4为本发明一种数据风险识别方法具体实施例的风险事件识别规则运行示意图；

图5为本发明一种数据风险识别系统具体实施例的结构示意图；

图6为本发明一种数据风险识别装置具体实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在国外，风险识别技术采用了开源规则引擎，该技术需要针对不同风险识别场景，使用规则语法进行定制化开发，其中规则语言复杂；国内使用的规则引擎技术采用界面配置替换了规则语法的复杂性，但偏向于整体规则引擎的设计与原理说明，其主要涉及特征条件、规则等基本元素的设计。部分规则引擎技术采用以静态数据为基础进行多维度组合的统计规则，其界面配置复杂度高，使用起来较为困难；另一部分规则引擎技术是基于实时数据的技术，但是没有涉及具体技术细节，以及与基于非实时数据的技术的区别。

为此，本发明提出了一种数据风险识别方法和系统，不同于传统的数据风险识别方法，本发明通过匹配规则组装数据流并对实时数据流中的数据进行特征处理，能够实现对实时数据流中的数据进行风险分析，同时通过规则运行模块结合特征处理后生成的第二数据，简化了数据风险识别方法的规则。

下面参照附图详细描述根据本发明实施例提出的一种数据风险识别方法和系统，首先将参照附图描述根据本发明实施例提出的一种数据风险识别方法。

参照图1，本发明实施例中提供一种数据风险识别方法，本发明实施例中的一种数据风险识别方法，可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例中的一种数据风险识别方法主要包括以下步骤：

S101、根据匹配规则，通过数据流分配模块从源数据流中组装第一数据流；

参照图2，所述源数据流中包含不同类型的日志数据，所述第一数据流中包含第一数据。具体地，日志数据具有非结构化的特点，每一种类型的日志数据对应不同的“属性”项；匹配规则用于定义匹配条件以及匹配条件之间的顺序关系，在本发明的实施例中，通过调用匹配规则读取日志数据并组装第一数据流，实现了为不同的匹配规则组装含有不同类型日志数据的数据流(第一数据流)。

S101可以进一步划分为以下步骤S1011-S1012：

步骤S1011、从所述源数据流中读取所述日志数据；

步骤S1012、根据所述匹配规则，将多个所述日志数据组装成第一数据流。

具体地，根据匹配规则定义的数据类型，将不同类型的日志数据与匹配规则进行匹配，组装成第一数据流，实现了为不同的匹配规则组装含有不同类型日志数据的数据流(第一数据流)。

S102、根据所述第一数据，通过数据特征处理模块生成第二数据；

具体地，通过数据特征处理模块从第一数据流中获取第一数据后进行属性转换处理，包括对原始的属性项的值(属性值)进行属性转换处理。在本发明的一个实施例中，通过数据特征处理模块对时间戳的值进行属性转换处理，生成日期字符串。

S102可以进一步划分为以下步骤S1021-S1022：

步骤S1021、从所述第一数据流中获取所述第一数据；

具体地，第一数据流通过数据流分配模块组装完成后，传输至特征处理模块。

步骤S1022、对所述第一数据进行属性转换，生成所述第二数据。

本发明实施例的一种数据风险识别方法还包括以下步骤：

在经过特征处理模块的属性转换处理后，通过所述数据特征处理模块将所述第二数据输入到第二数据流；

通过所述规则运行模块从所述第二数据流中获取所述第二数据。

S103、根据所述第二数据，通过规则运行模块识别风险事件。

其中，规则运行模块用于将第二数据按照指定的匹配条件进行匹配，根据第二数据中在规定的时间窗口内按照设定的顺序满足条件元数据的条件来识别风险事件。在风险事件识别完成后，通过规则运行模块将风险事件和对应的第二数据传输到风险输出模块进行数据存储。

S103可以进一步划分为以下步骤S1031-S1034：

步骤S1031、读取所述规则元数据和条件元数据；

具体地，元数据为描述数据的数据，包括条件元数据、规则元数据、匹配规则配置元数据、特征处理配置元数据。

参照图3，其中，条件元数据包含设定的条件，所述条件为事件的表达式，在本发明的一个实施例中，设定条件元数据的条件为用户导出文件次数大于两次，其中“用户导出文件”即为事件。通过所述表达式过滤第二数据并将包括所述事件的数据与所述条件元数据匹配；

规则元数据，包含设定的规则；

匹配规则配置元数据，用于配置S101中所述的匹配规则；

特征处理配置元数据，作为S102中所述数据特征处理模块的属性转换的配置方法。

步骤S1032、根据所述规则元数据和所述条件元数据，动态组装匹配条件；

具体地，所述匹配条件用于将所述第二数据中包括所述事件的数据与所述条件元数据匹配。

步骤S1033、根据所述规则，通过规则运行模块设定所述条件发生的顺序以及时间窗口；

具体地，规则运行模块读取多个条件元数据，每个条件元数据对应一个条件，根据规则元数据中的规则，通过规则运行模块设定各个条件的顺序以及判断识别风险事件的时间窗口，即第二数据通过匹配条件与条件元数据进行匹配的时间窗口，分析在所述时间窗口内事件发生的次数(第二数据中包括所述事件的数据个数)。

步骤S1034、若在所述时间窗口内，所述第二数据中包括所述事件的数据按照所述顺序满足所述条件元数据，则判断存在风险事件。

具体地，在所述时间窗口内，第二数据中包括所述事件的数据个数按照步骤S1033中设定的顺序满足条件，则通过所述规则运行模块判断存在风险事件。

参照图4，在本发明实施例中，定义在时间窗口T内，第二数据流中第二数据的用户行为先满足条件1，再满足条件2，则判断存在风险事件，触发预警。

条件1：A行为(事件)发生次数大于等于三次，其中，A行为根据日志数据中单一“属性”匹配单个“特征值”或者多个“属性”匹配单个“特征值”，通过复杂表达式进行表示；

条件2：B行为(事件)发生次数达到两次，其中，B行为根据日志数据中单一“属性”匹配单个“特征值”或者多个“属性”匹配单个“特征值”，通过复杂表达式进行表示。

具体地，在本发明的一个实施例中，原始日志数据(逗号分割)，对应字段f₁,f₂,f₃,f₄。日志数据片段如下所示：

m0100,192.168.166.160,false,20121.07.16.18:20:00

m0100,192.168.166.161,false,20121.07.16.18:20:10

m0100,192.168.166.160,false,20121.07.16.18:20:40

m0100,192.168.166.161,true,20121.07.16.18:20:60

A行为:某IP登录失败，A行为即以第3个字段f₃的取值(特征值)为匹配条件，其取值为false。

在时间窗口内，A行为发生的次数触发次数阀值后，又发生了B行为，表达式为f₃＝false。

B行为:某IP登录成功，即以第3个字段f₃的取值(特征值)为匹配条件，其取值为true，表达式为f₃＝true。

A行为和B行为同时使用了日志中的f₃字段(属性名)以及取值false或者true。

在本发明的另一个实施例中，原始日志数据(逗号分割)，对应字段f₁,f₂,f₃,f₄。

日志数据片段如下所示m0100,/login,ok,20121.07.16.18:20:00

m0100,/order,ok,20121.07.16.18:20:10

m0100,/product,ok,20121.07.16.18:20:01

m0100,/product,ok,20121.07.16.18:20:10

m0100,/order,ok,20121.07.16.18:20:40

m0100,/login,ok,20121.07.16.18:20:40

在非正常时间操作业务，风险事件为首先发生账号登录次数1次，再发生操作订单URL10次。

A行为：账号登录(成功)，取f₂属性取值/login，且f₃属性取值为ok，复杂表达式为f₂＝/login&&f₃＝ok,同时次数达到1次。

B行为：操作订单URL，取f₂属性取值/order,同时次数达到10次，表达式为f₂＝/order。

A行为和B行为使用了日志中的f₂字段、f₃字段。

(1)第二数据1、2、3、5、7、8对应用户X产生的行为事件相关的日志数据，4、6对应其他用户产生的行为事件相关的日志数据，每行日志数据中包括“用户”、“时间戳”、“行为事件”、“行为事件的结果”的属性以及特征值；

(2)通过匹配条件将第二数据1、3、5与条件1匹配，通过匹配条件将第二数据7、8与条件2匹配，此时条件1中相关的A行为发生的次数达到3次，条件2中B行为发生的次数达到2次；

(3)条件1和条件2按照规则设定的顺序匹配成功，表示事件流中存在先满足条件1，再满足条件2，因此判断用户X的行为存在风险，识别风险事件。

在本发明实施例中，所述根据所述转换数据，通过所述规则运行模块识别风险事件(S103)，还包括以下步骤：

其中，风险输出模块用于存储风险事件和对应的第二数据，第二数据与S101中的日志数据相对应。

其次，参照附图描述根据本申请实施例提出的一种数据风险识别系统。

图5是本申请一个实施例的一种数据风险识别系统结构示意图。

所述系统具体包括：

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图6，本申请实施例提供了一种数据风险识别装置，包括：

至少一个处理器601；

至少一个存储器602，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器601执行时，使得所述至少一个处理器601实现所述的一种数据风险识别方法。

同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行程序的定序列表，可以具体实现在任何计算机可读介质中，以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用，或结合这些程序执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种数据风险识别方法，其特征在于，包括以下步骤：

根据所述第一数据，通过数据特征处理模块生成第二数据；

根据所述第二数据，通过规则运行模块识别风险事件。

2.根据权利要求1所述的一种数据风险识别方法，其特征在于，所述根据匹配规则，通过数据流分配模块从源数据流中组装第一数据流，包括：

从所述源数据流中读取所述日志数据；

3.根据权利要求1所述的一种数据风险识别方法，其特征在于，所述根据所述第一数据，通过数据特征处理模块生成第二数据，包括：

从所述第一数据流中获取所述第一数据；

对所述第一数据进行属性转换，生成所述第二数据。

4.根据权利要求1所述的一种数据风险识别方法，其特征在于，还包括以下步骤：

通过所述数据特征处理模块将所述第二数据输入到第二数据流；

5.根据权利要求1所述的一种数据风险识别方法，其特征在于，所述根据所述第二数据，通过规则运行模块识别风险事件，包括：

6.根据权利要求5所述的一种数据风险识别方法，其特征在于，所述根据所述转换数据，通过规则运行模块识别风险事件，还包括以下步骤：

7.一种数据风险识别系统，其特征在于，包括：

8.一种数据风险识别装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6中任一项所述的一种数据风险识别方法。

9.一种存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-6中任一项所述的一种数据风险识别方法。