CN118282728A

CN118282728A - 一种安全数据识别方法及系统

Info

Publication number: CN118282728A
Application number: CN202410360982.9A
Authority: CN
Inventors: 何雨晴; 肖怀福; 周崇飞; 钟万; 赖亚恒
Original assignee: Jiangxi Haibo Information Technology Co ltd
Current assignee: Jiangxi Haibo Information Technology Co ltd
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-07-02

Abstract

本申请提供了一种安全数据识别方法及系统，通过获取目标数据的传输流量数据，确定传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量，进而确定每个传输流量风险缩化参量的多个传输流量风险敞口度；对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子；将每个多特征风险残离因子与预设残离因子进行对比，以识别目标数据是否为安全数据，从而提升对目标数据识别为安全数据的准确率。

Description

一种安全数据识别方法及系统

技术领域

本申请涉及数据识别技术领域，更具体的说，本申请涉及一种安全数据识别方法及系统。

背景技术

随着时代的发展，互联网和物联网产生了庞大的数据量，数据量呈指数级增长，包括网络流量、日志、传感器数据等，这些数据成为了安全数据识别的宝贵资源，大数据技术的兴起使得存储、处理和分析大规模数据变得更加可行，这为安全数据识别提供了更多的数据来源和分析可能性，数据识别技术在当今数字化和互联网化时代变得尤为关键，汇聚了计算机科学、网络安全、数据分析、人工智能和机器学习等多个领域的技术趋势和创新，以应对不断演进的网络威胁和安全挑战。

在现有技术中，安全数据识别通常包括数据采集、预处理、特征提取、建模和分析、模型训练、检测与警报、反馈与改进等多个步骤，利用机器学习和深度学习等技术，以识别潜在威胁和异常活动，从而保护信息资产和网络安全的关键过程，其中，在数据特征提取过程中，对多个数据特征的分析往往只是对各个数据特征进行单一的分析处理，忽略了多个数据特征之间的联系性，从而导致对目标数据识别为安全数据的准确率下降。

发明内容

本申请提供一种安全数据识别方法及系统，以解决对目标数据识别为安全数据的准确率下降的技术问题。

为解决上述技术问题，本申请采用如下技术方案：

第一方面，本申请提供一种安全数据识别方法，包括如下步骤：

通过目标日志文件获取目标数据的传输流量数据；

将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量；

选取一个传输流量风险缩化参量，确定该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，得到每个传输流量风险缩化参量的多个传输流量风险敞口度；

对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子；

将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据。

第二方面，本申请提供一种安全数据识别系统，其包括有目标数据识别单元，所述目标数据识别单元包括：

传输流量数据获取模块，用于通过目标日志文件获取目标数据的传输流量数据；

传输流量风险缩化参量确定模块，用于将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量；

传输流量风险敞口度确定模块，用于选取一个传输流量风险缩化参量，确定该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，得到每个传输流量风险缩化参量的多个传输流量风险敞口度；

多特征风险残离因子确定模块，用于对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子；

安全数据识别模块，用于将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据。

第三方面，本申请提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有代码，所述处理器被配置为获取所述代码，并执行上述的安全数据识别方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的安全数据识别方法。

本申请公开的实施例提供的技术方案具有以下有益效果：

本申请提供的安全数据识别方法及系统中，首先通过目标日志文件获取目标数据的传输流量数据；将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量，选取一个传输流量风险缩化参量，确定该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，得到每个传输流量风险缩化参量的多个传输流量风险敞口度；对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子；将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据，以提高目标数据的安全性识别准确率。

在本申请中，从目标日志文件中提取目标数据的网络流量数据，接着，将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，以提取更有信息量的数据特征，同时可有效分析不同数据特征之间的关联性，避免单一的数据特征分析而忽略不同数据特征之间的联系，然后，根据该矩阵确定多个传输流量风险缩化参量，确定每个传输流量风险缩化参量的多个传输流量风险敞口度，能够有效识别出目标数据特征的异化程度，进而提升识别目标数据是否为安全数据的准确性，最后，根据多特征风险叠化凸点值来计算所述传输流量风险缩化矩阵的每行传输流量风险缩化值的多特征风险残离因子，将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据，从而提高目标数据的安全性识别准确率。

附图说明

图1是根据本申请一些实施例所示的安全数据识别方法的示例性流程图；

图2是根据本申请一些实施例所示的目标数据识别单元的示例性硬件和/或软件的示意图；

图3是根据本申请一些实施例所示的实现安全数据识别方法的计算机设备的结构示意图。

具体实施方式

本申请核心是首先通过目标日志文件获取目标数据的传输流量数据；将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量；选取一个传输流量风险缩化参量，确定该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，得到每个传输流量风险缩化参量的多个传输流量风险敞口度；对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子；将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据，可以提高目标数据的安全性识别准确率。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。参考图1，该图是根据本申请一些实施例所示的安全数据识别方法的示例性流程图，该安全数据识别方法100主要包括如下步骤：

在步骤101，通过目标日志文件获取目标数据的传输流量数据。

在一些实施例中，可通过目标日志文件获取不同时间点处目标数据的传输流量数据，所述目标数据的传输流量数据包括多个传输流量特征值，即目标数据采集时长、目标数据耗流量、目标数据传输速率。

具体实现时，通过目标日志文件获取不同时间点处目标数据的传输流量数据，即得到不同时间点处的传输流量数据：{(目标数据采集时长1、目标数据耗流量1、目标数据传输速率1),(目标数据采集时长2、目标数据耗流量2、目标数据传输速率2),…,(目标数据采集时长n、目标数据耗流量n、目标数据传输速率n)}。

需要说明的是，本申请中传输流量数据是指在计算机网络中传输数据时产生的性能信息，具体实现时，传输流量数据包括目标数据采集时长、目标数据耗流量、目标数据传输速率的数据，对所述目标数据的传输流量数据的确定可将目标数据转化为更容易分析和理解的形式，以提高目标数据的信息价值，为后续的目标数据安全识别提供了基础。

还需要说明的是，本申请中传输流量特征值是指目标数据在采集时的属性特征，即包括目标数据采集时长、目标数据耗流量、目标数据传输速率，其中目标数据采集时长是指在每个时刻采集目标数据所耗费的时间，目标数据耗流量是指目标数据在网络传输过程中所消耗的网络流量。

在步骤102，将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量。

在一些实施例中，将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵具体可采用下述方式，即：

获取每个时间周期内不同时间点处目标数据的传输流量数据，所述传输流量数据包括有目标数据采集时长、目标数据耗流量和目标数据传输速率；

由每个时间周期内不同时间点处获取的传输流量数据确定目标数据采集时长序列、目标数据耗流量序列和目标数据传输速率序列；

确定所述目标数据采集时长序列对应的目标数据采集时长缩化值序列；

确定所述目标数据耗流量序列对应的目标数据耗流量缩化值序列；

确定所述目标数据传输速率序列对应的目标数据传输速率缩化值序列；

将所述目标数据采集时长缩化值序列、所述目标数据耗流量缩化值序列和目标数据传输速率缩化值序列进行列映射，得到传输流量风险缩化矩阵。

在本申请的一些实施例中，上述确定所述目标数据采集时长序列对应的目标数据采集时长缩化值序列可采用下述方式实现，即：

获取所述目标数据采集时长序列中的最大目标数据采集时长；

获取所述目标数据采集时长序列中的最小目标数据采集时长；

获取所述目标数据采集时长序列中的每个目标数据采集时长；

根据所述目标数据采集时长序列中的最大目标数据采集时长、所述目标数据采集时长序列中的最小目标数据采集时长和所述目标数据采集时长序列中的每个目标数据采集时长确定该个目标数据采集时长的目标数据采集时长缩化值，具体实现时，目标数据采集时长缩化值由下述公式确定：

其中，ξ_j表示目标数据采集时长序列中第j个目标数据采集时长的目标数据采集时长缩化值，F_j表示目标数据采集时长序列中第j个目标数据采集时长，F_max表示目标数据采集时长序列中最大目标数据采集时长，F_min表示目标数据采集时长序列中最小目标数据采集时长；

最后将每个目标数据采集时长的目标数据采集时长缩化值进行组合，即可得到目标数据采集时长缩化值序列。

另外，在本申请的一些实施例中，上述确定所述目标数据耗流量序列对应的目标数据耗流量缩化值序列可采用下述方式，即：

获取所述目标数据耗流量序列中的最大目标数据耗流量；

获取所述目标数据耗流量序列中的最小目标数据耗流量；

获取所述目标数据耗流量序列中的每个目标数据耗流量；

根据所述目标数据耗流量序列中的最大目标数据耗流量、所述目标数据耗流量序列中的最小目标数据耗流量和所述目标数据耗流量序列中的每个目标数据耗流量确定该个目标数据耗流量的目标数据耗流量缩化值，具体实现时，所述目标数据耗流量缩化值可由下述公式确定：

其中，γ_x表示目标数据耗流量序列中第x个目标数据耗流量的目标数据耗流量缩化值，O_x表示目标数据耗流量序列中第x个目标数据耗流量，Q_max表示目标数据耗流量序列中最大目标数据耗流量，Q_min表示目标数据耗流量序列中最小目标数据耗流量；

最后，将每个目标数据耗流量的目标数据耗流量缩化值进行组合，得到目标数据耗流量缩化值序列。

另外，在本申请的一些实施例中，上述确定所述目标数据传输速率序列对应的目标数据传输速率缩化值序列可采用下述步骤实现：

获取所述目标数据传输速率序列中的最大目标数据传输速率；

获取所述目标数据传输速率序列中的最小目标数据传输速率；

获取所述目标数据传输速率序列中的每个目标数据传输速率；

根据所述目标数据传输速率序列中的最大目标数据传输速率、所述目标数据传输速率序列中的最小目标数据传输速率和所述目标数据传输速率序列中的每个目标数据传输速率确定该个目标数据传输速率的目标数据传输速率缩化值，具体实现时，所述目标数据传输速率缩化值可由下述公式确定：

其中，η_a表示目标数据传输速率序列中第a个目标数据传输速率的目标数据传输速率缩化值，A_a表示目标数据传输速率序列中第a个目标数据传输速率，A_max表示目标数据传输速率序列中最大目标数据传输速率，A_min表示目标数据传输速率序列中最小目标数据传输速率；

最后，将每个目标数据传输速率的目标数据传输速率缩化值进行组合，得到目标数据传输速率缩化值序列。

需要说明的是，本申请中目标数据采集时长缩化值是指将所述目标数据采集时长压缩至区间[0,1]中得到的数值，同样的，目标数据耗流量缩化值是指将所述目标数据耗流量压缩至区间[0,1]中得到的数值，目标数据传输速率缩化值是指将所述目标数据传输速率压缩至区间[0,1]中得到的数值。

具体实现时，将所述目标数据采集时长缩化值序列、所述目标数据耗流量缩化值序列和目标数据传输速率缩化值序列进行列映射，得到传输流量风险缩化矩阵，是将所述目标数据采集时长缩化值序列、所述目标数据耗流量缩化值序列和目标数据传输速率缩化值序列作为矩阵的列向量。

需要说明的是，本申请中风险缩化是指将目标数据的传输流量数据进行风险压缩的过程，旨在挖掘目标数据的传输流量数据中存在的风险量，对所述目标数据的传输流量数据进行风险缩化，在于不同特征具有不同的度量单位和数值范围，这会导致某些特征在数据分析中占据主导地位，而其他特征影响较小，通过风险缩化，将所有特征映射到相同的区间范围内，消除量纲差异，降低风险，使得各特征的权重更加均衡，此外，本申请中风险缩化还可以减少异常值对数据带来风险的影响，异常值的存在会导致特征的范围扩大，而风险缩化后的特征范围不会受到异常值的影响，可有效提升数据分析的准确性。

另外需要说明的是，本申请中传输流量风险缩化矩阵是指将目标数据采集时长缩化值序列、目标数据耗流量缩化值序列和目标数据传输速率缩化值序列进行列映射后得到的矩阵，所述传输流量风险缩化矩阵包含多个传输流量风险缩化值，即将目标数据采集时长缩化值、目标数据耗流量缩化值和目标数据传输速率缩化值作为传输流量风险缩化值，通过对所述传输流量风险缩化矩阵的确定可提取更有信息量的数据特征，同时可有效分析不同数据特征之间的关联性，避免单一的数据特征分析而忽略不同数据特征之间的联系。

在一些实施例中，根据传输流量风险缩化矩阵确定多个传输流量风险缩化参量，具体实现时，所述传输流量风险缩化矩阵是将目标数据采集时长、目标数据耗流量、目标数据传输速率三个目标数据的特征进行风险缩化后所确定的矩阵，根据传输流量风险缩化矩阵的多特征特性，为了更有效的分析不同时间点处获取的目标数据的传输流量特征之间的关联性和有效性，可将所述传输流量风险缩化矩阵的上三行元素作为传输流量风险缩化参量，即将传输流量风险缩化矩阵上三行的数据作为传输流量风险缩化参量。

另外还需要说明的是，本申请中传输流量风险缩化参量是用来与传输流量风险缩化矩阵中其余行数据进行对比的数据，对所述传输流量风险缩化参量的确定可有效对比出不同时间点目标数据的流量数据特征的区别，从而有效确定目标数据是否存在异常。

在步骤103，选取一个传输流量风险缩化参量，确定该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，得到每个传输流量风险缩化参量的多个传输流量风险敞口度。

在一些实施例中，选取一个传输流量风险缩化参量，将该个传输流量风险缩化参量与传输流量风险缩化矩阵进行传输流量风险敞口化处理，得到该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，即可得到每个传输流量风险缩化参量的多个传输流量风险敞口度，下面以具体例子进行说明，具体的，确定传输流量风险敞口度可通过下述方式实现，即：

选取一个传输流量风险缩化参量；

获取所述传输流量风险缩化矩阵的总行数N；

获取传输流量风险缩化矩阵中第p行第1列数据W₁ ^P；

获取传输流量风险缩化矩阵中第p行第2列数据W₂ ^P；

获取传输流量风险缩化矩阵中第p行第3列数据W₃ ^P；

获取传输流量风险缩化矩阵中第1行第1列数据W₁ ¹；

获取传输流量风险缩化矩阵中第1行第2列数据W₂ ¹；

获取传输流量风险缩化矩阵中第1行第3列数据W₃ ¹；

获取传输流量风险缩化矩阵中第2行第1列数据W₁ ²；

获取传输流量风险缩化矩阵中第2行第2列数据W₂ ²；

获取传输流量风险缩化矩阵中第2行第3列数据W₃ ²；

获取传输流量风险缩化矩阵中第3行第1列数据W₁ ³；

获取传输流量风险缩化矩阵中第3行第2列数据W₂ ³；

获取传输流量风险缩化矩阵中第3行第3列数据W₃ ³；

其中，根据所述传输流量风险缩化矩阵的总行数N、所述传输流量风险缩化矩阵中第p行第1列数据W₁ ^P、所述传输流量风险缩化矩阵中第p行第2列数据W₂ ^P、所述传输流量风险缩化矩阵中第p行第3列数据W₃ ^P、所述传输流量风险缩化矩阵中第1行第1列数据W₁ ¹、所述传输流量风险缩化矩阵中第1行第2列数据W₂ ¹以及所述传输流量风险缩化矩阵中第1行第3列数据W₃ ¹确定第1个传输流量风险缩化参量的多个传输流量风险敞口度；

根据所述传输流量风险缩化矩阵的总行数N、所述传输流量风险缩化矩阵中第p行第1列数据W₁ ^P、所述传输流量风险缩化矩阵中第p行第2列数据W₂ ^P、所述传输流量风险缩化矩阵中第p行第3列数据W₃ ^P、获取传输流量风险缩化矩阵中第2行第1列数据W₁ ²、所述传输流量风险缩化矩阵中第2行第2列数据W₂ ²以及所述传输流量风险缩化矩阵中第2行第3列数据W₃ ²确定第2个传输流量风险缩化参量的多个传输流量风险敞口度；

根据所述传输流量风险缩化矩阵的总行数N、所述传输流量风险缩化矩阵中第p行第1列数据W₁ ^P、所述传输流量风险缩化矩阵中第p行第2列数据W₂ ^P、所述传输流量风险缩化矩阵中第p行第3列数据W₃ ^P、获取传输流量风险缩化矩阵中第3行第1列数据W₁ ³、所述传输流量风险缩化矩阵中第3行第2列数据W₂ ³以及所述传输流量风险缩化矩阵中第3行第3列数据W₃ ³确定第3个传输流量风险缩化参量的多个传输流量风险敞口度。

具体实现时，各个传输流量风险缩化参量的传输流量风险敞口度可根据下述公式确定：

其中，表示传输流量风险缩化矩阵中第p行数据与第q个传输流量风险缩化参量数据之间的传输流量风险敞口度，其中q＝1，2，3，表示传输流量风险缩化矩阵中第p行数据与第1个传输流量风险缩化参量数据之间的传输流量风险敞口度，表示传输流量风险缩化矩阵中第p行数据与第2个传输流量风险缩化参量数据之间的传输流量风险敞口度，表示传输流量风险缩化矩阵中第p行数据与第3个传输流量风险缩化参量数据之间的传输流量风险敞口度，W₁ ^P表示传输流量风险缩化矩阵中第p行第1列数据，W₁ ¹表示传输流量风险缩化矩阵中第1行第1列数据，W₂ ^P表示传输流量风险缩化矩阵中第p行第2列数据，W₂ ¹表示传输流量风险缩化矩阵中第1行第2列数据，W₃ ^P表示传输流量风险缩化矩阵中第p行第3列数据，W₃ ¹表示传输流量风险缩化矩阵中第1行第3列数据，W₁ ²表示传输流量风险缩化矩阵中第2行第1列数据，W₂ ²表示传输流量风险缩化矩阵中第2行第2列数据，W₃ ²表示传输流量风险缩化矩阵中第2行第3列数据，W₁ ³表示传输流量风险缩化矩阵中第3行第1列数据，W₂ ³表示传输流量风险缩化矩阵中第3行第2列数据，W₃ ³表示传输流量风险缩化矩阵中第3行第3列数据，N表示传输流量风险缩化矩阵的总行数。

需要说明的是，本申请中传输流量风险敞口化处理指的是传输流量数据在风险因素下所面临的潜在损失或风险暴露程度，其目的是通过对不同时刻目标数据的多个数据特征的分析从而检测出目标数据的异态值或异常值，进而确定该时刻获取的目标数据是否为安全数据，所述异态值是与数据集中的大多数数据点明显不同的数据点，可能是由于错误、噪声、异常情况或其他原因的影响而出现的，因此对数据进行异化处理可以有效识别出目标数据是否为安全数据，而传输流量风险敞口度是指通过对目标数据特征值进行传输流量风险敞口化处理后得到的值，用于表征不同时刻目标数据的流量数据特征之间在风险因素下所面临的潜在损失或风险暴露程度，在本申请中，传输流量风险敞口度是对传输流量风险缩化参量的所有数据与所述传输流量风险缩化矩阵的每一行数据进行传输流量风险敞口化处理得到的值，传输流量风险敞口度越大时，不同时刻目标数据的流量数据特征之间所面临的潜在损失或风险暴露程度越强，反之越弱，本申请中对传输流量风险敞口度的确定可有效识别出目标数据的流量数据特征的风险程度，进而提升识别目标数据是否为安全数据的准确性。

在步骤104，对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子。

在一些实施例中，对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，具体实现时，对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化可以采用对每个传输流量风险缩化参量的多个传输流量风险敞口度进行求和，进而得到该个传输流量风险缩化参量的多特征风险叠化值。

需要说明的是，本申请中多特征风险叠化值是指融合了多个目标数据的流量数据特征不同时刻的传输流量风险敞口度的值，用于表征目标数据的流量数据多数据特征之间存在风险的综合评估指标，对所述多特征风险叠化值的确定可有效将多个流量数据特征的信息整合到一个综合评估指标中，以便更全面地了解数据的变化情况。

在一些实施例中，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，具体实现时，对每个传输流量风险缩化参量的多特征风险叠化值进行比较，并将最大的多特征风险叠化凸点值作为多特征风险叠化凸点值，所述多特征风险叠化凸点值即为最大的多特征风险叠化值。

需要说明的是，本申请中对所述多特征风险叠化凸点值的确定在于突出最为明显的多特征风险叠化值，在一些实施例中，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子具体可采用下述方式，即：

获取所述多特征风险叠化凸点值

获取传输流量风险缩化矩阵第i行元素中的第t个传输流量风险缩化值

获取传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的总数目K_i；

确定传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的中心测度值δⁱ；

获取传输流量风险缩化矩阵第i行元素中第r个传输流量风险缩化值

获取传输流量风险缩化矩阵第i行元素中第d个传输流量风险缩化值

确定传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的中心传输流量风险缩化值βⁱ；

根据所述多特征风险叠化凸点值所述传输流量风险缩化矩阵第i行元素中的第t个传输流量风险缩化值所述传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的总数目K_i、所述传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的中心测度值δⁱ、所述传输流量风险缩化矩阵第i行元素中第r个传输流量风险缩化值所述传输流量风险缩化矩阵第i行元素中第d个传输流量风险缩化值以及传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的中心传输流量风险缩化值βⁱ确定所述传输流量风险缩化矩阵的第i行传输流量风险缩化值的多特征风险残离因子，其中，所述多特征风险残离因子由下述公式确定：

其中，δⁱ表示传输流量风险缩化矩阵的第i行传输流量风险缩化值的多特征风险残离因子，表示多特征风险叠化凸点值，表示传输流量风险缩化矩阵第i行元素中的第t个传输流量风险缩化值，K_i表示传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的总数目，表示传输流量风险缩化矩阵第i行元素中第r个传输流量风险缩化值，表示传输流量风险缩化矩阵第i行元素中第d个传输流量风险缩化值，βⁱ表示传输流量风险缩化矩阵第i行元素中传输流量风险缩化值的中心传输流量风险缩化值，|·|表示取绝对值，r＝1，2…K_i，d＝1，2…K_i，t＝1，2…K_i。

具体实现时，本申请中传输流量风险缩化值的中心传输流量风险缩化值可通过计算该行传输流量风险缩化值的平均值确定，即将所述传输流量风险缩化值的平均值作为传输流量风险缩化值的中心传输流量风险缩化值，所述中心传输流量风险缩化值是指用来描述数据集中心位置的统计指标，用于衡量数据集的中心趋势，以便了解数据集的集中程度，即数据点在中心位置附近的分布情况。

需要说明的是，本申请中多特征风险残离因子是指在一组数据中多特征数据之间存在风险的残离程度，在本申请中，所述多特征风险残离因子是指在通过多特征风险叠化凸点值与每个时间点处目标数据的流量数据进行风险评估确定的一个值，所述多特征风险残离因子表征了在各个时间点目标数据的多特征存在风险的程度和偏离正常数据的程度，由于在采集目标数据时，不同时间点的目标数据的传输流量数据特征具有相似性以及关联性，因此通过将目标数据的流量数据特征进行风险叠化得到多特征风险叠化值，并通过确定多特征风险叠化凸点值进而得到传输流量风险缩化矩阵的每行传输流量风险缩化值的多特征风险残离因子，当所述多特征风险残离因子越大时，表示该时刻所采集的目标数据可能存在异常，不能作为安全数据，反之则作为安全数据的可能性越大，可以有效通过多特征风险残离因子的大小确定该时刻采集到的目标数据是否为安全数据，进而提高目标数据是否为安全数据的准确率。

在步骤105，将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据。

在一些实施例中，将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，则将该多特征风险残离因子对应时刻的目标数据作为安全数据。

需要说明的是，本申请中预设残离因子是通过大量计算实际预设残离因子的实验并通过机器学习模拟分析设定的一个标准值，这里不在赘述，通过预设预设残离因子与当前预设残离因子的对比，可有效是被出目标数据是否为安全数据。

还需要说明的是，本申请中安全数据是指与安全相关的信息或数据，安全数据可以为银行安全数据或者政务安全数据，或者其他用于评估、监测和维护系统、组织或个人的安全性的数据，这些数据可以包括各种类型的信息，用于保护资产、减少风险和防止安全事件的发生，这里不再赘述。

另外，本申请的另一方面，在一些实施例中，本申请提供一种安全数据识别系统，该系统包括有目标数据识别单元，参考图2，该图是根据本申请一些实施例所示的目标数据识别单元的示例性硬件和/或软件的示意图，该目标数据识别单元200包括：传输流量数据获取模块201、传输流量风险缩化参量确定模块202、传输流量风险敞口度确定模块203、多特征风险残离因子确定模块204和安全数据识别模块205，分别说明如下：

传输流量数据获取模块201，本申请中传输流量数据获取模块201主要用于通过目标日志文件获取目标数据的传输流量数据；

传输流量风险缩化参量确定模块202，本申请中传输流量风险缩化参量确定模块202主要用于将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵，根据所述传输流量风险缩化矩阵确定多个传输流量风险缩化参量；

传输流量风险敞口度确定模块203，本申请中传输流量风险敞口度确定模块203主要用于选取一个传输流量风险缩化参量，确定该个传输流量风险缩化参量的多个传输流量风险敞口度，对于其余传输流量风险缩化参量，重复上述步骤，得到每个传输流量风险缩化参量的多个传输流量风险敞口度；

多特征风险残离因子确定模块204，本申请中多特征风险残离因子确定模块204主要用于对每个传输流量风险缩化参量的多个传输流量风险敞口度进行风险叠化，得到该个传输流量风险缩化参量的多特征风险叠化值，由各个传输流量风险缩化参量的多特征风险叠化值确定多特征风险叠化凸点值，根据所述多特征风险叠化凸点值和所述传输流量风险缩化矩阵的每行传输流量风险缩化值确定所有的多特征风险残离因子；

安全数据识别模块模块205，本申请中安全数据识别模块205主要用于将每个多特征风险残离因子与预设残离因子进行对比，当所述多特征风险残离因子小于预设残离因子时，将该多特征风险残离因子对应时刻的目标数据作为安全数据。

另外，本申请还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有代码，所述处理器被配置为获取所述代码，并执行上述的安全数据识别方法。

在一些实施例中，参考图3，该图是根据本申请一些实施例所示的实现安全数据识别方法的计算机设备的结构示意图。上述实施例中的安全数据识别方法可以通过图3所示的计算机设备来实现，该计算机设备包括至少一个处理器301、通信总线302、存储器303以及至少一个通信接口304。

处理器301可以是一个通用中央处理器(central processing unit，CPU)、特定应用集成电路(application-specific integrated circuit，ASIC)或一个或多个用于控制本申请中的安全数据识别方法的执行。

通信总线302可包括一通路，在上述组件之间传送信息。

存储器303可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器303可以是独立存在，通过通信总线302与处理器301相连接。存储器303也可以和处理器301集成在一起。

其中，存储器303用于存储执行本申请方案的程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的程序代码。程序代码中可以包括一个或多个软件模块。上述实施例中传输流量风险敞口度的确定可以通过处理器301以及存储器303中的程序代码中的一个或多个软件模块实现。

通信接口304，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personaldigital assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备。本申请实施例不限定计算机设备的类型。

另外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的安全数据识别方法。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种安全数据识别方法，其特征在于，包括如下步骤：

通过目标日志文件获取目标数据的传输流量数据；

2.如权利要求1所述的方法，其特征在于，将所述目标数据的传输流量数据转换为传输流量风险缩化矩阵具体包括：

3.如权利要求2所述的方法，其特征在于，确定所述目标数据采集时长序列对应的目标数据采集时长缩化值序列具体包括：

根据所述目标数据采集时长序列中的最大目标数据采集时长、所述目标数据采集时长序列中的最小目标数据采集时长和所述目标数据采集时长序列中的每个目标数据采集时长确定该个目标数据采集时长的目标数据采集时长缩化值；

将每个目标数据采集时长的目标数据采集时长缩化值进行组合，得到目标数据采集时长缩化值序列。

4.如权利要求3所述的方法，其特征在于，所述目标数据采集时长缩化值由下述公式确定：

其中，ξ_j表示目标数据采集时长序列中第j个目标数据采集时长的目标数据采集时长缩化值，F_j表示目标数据采集时长序列中第j个目标数据采集时长，F_max表示目标数据采集时长序列中最大目标数据采集时长，F_min表示目标数据采集时长序列中最小目标数据采集时长。

5.如权利要求2所述的方法，其特征在于，确定所述目标数据耗流量序列对应的目标数据耗流量缩化值序列具体包括：

获取所述目标数据耗流量序列中的最大目标数据耗流量；

获取所述目标数据耗流量序列中的最小目标数据耗流量；

获取所述目标数据耗流量序列中的每个目标数据耗流量；

根据所述目标数据耗流量序列中的最大目标数据耗流量、所述目标数据耗流量序列中的最小目标数据耗流量和所述目标数据耗流量序列中的每个目标数据耗流量确定该个目标数据耗流量的目标数据耗流量缩化值；

将每个目标数据耗流量的目标数据耗流量缩化值进行组合，得到目标数据耗流量缩化值序列。

6.如权利要求2所述的方法，其特征在于，确定所述目标数据传输速率序列对应的目标数据传输速率缩化值序列具体包括：

根据所述目标数据传输速率序列中的最大目标数据传输速率、所述目标数据传输速率序列中的最小目标数据传输速率和所述目标数据传输速率序列中的每个目标数据传输速率确定该个目标数据传输速率的目标数据传输速率缩化值；

将每个目标数据传输速率的目标数据传输速率缩化值进行组合，得到目标数据传输速率缩化值序列。

7.如权利要求1所述的方法，其特征在于，所述安全数据为银行安全数据或政务安全数据。

8.一种安全数据识别系统，其特征在于，包括有目标数据识别单元，所述目标数据识别单元包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有代码，所述处理器被配置为获取所述代码，并执行如权利要求1至7任一项所述的安全数据识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的安全数据识别方法。