CN118035927B

CN118035927B - 基于云计算的多源数据融合方法

Info

Publication number: CN118035927B
Application number: CN202410433261.6A
Authority: CN
Inventors: 王朋; 王佳炜; 刘子豪; 王振军; 吴凡
Original assignee: Shaanxi List Technology Co ltd
Current assignee: Shaanxi List Technology Co ltd
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-06-07
Anticipated expiration: 2044-04-11
Also published as: CN118035927A

Abstract

本发明涉及数据处理技术领域，更具体地，本发明涉及基于云计算的多源数据融合方法，包括：通过用户操作日志集中各操作日志的有效性以及用户的固定操作周期出现的规律性确定各操作日志对应的噪声疑似程度，基于对噪声疑似程度分析的结果更新孤立树的初始值，并利用噪声疑似程度构建目标孤立森林，然后利用目标孤立森林去除操作日志集中的噪声数据，最后对去除噪声数据后的用户操作日志集，服务器日志数据以及网络通信日志数据进行抽取和转换，并加载到预设的目标系统，从而得到融合数据集。本发明的多源数据融合方法，提高了日志数据中异常数据的检测效率和准确性，且可以提高异常数据检测算法的鲁棒性。

Description

基于云计算的多源数据融合方法

技术领域

本发明涉及数据处理技术领域。更具体地，本发明涉及基于云计算的多源数据融合方法。

背景技术

云计算提供了高性能的计算、存储和网络资源，使得数据处理和存储变得更加灵活和高效。多源数据融合是将来自不同数据源的信息整合到一起，以产生更全面、准确和有用的信息。在一个信息管理系统中，多源数据融合可以将来自不同服务器的服务器日志、用户行为日志和网络通信日志等多个来源的数据整合在一起，以获取更全面的邮件分析结果，因此为了保证ETL融合的数据的准确性，需要提前对多源数据进行数据清洗，以将来自不同源头或多个数据集的信息整合在一起，以形成更全面、准确和有用的数据集。

相关技术中，一般采用孤立森林识别噪声数据，但由于用户操作日志为非数值型数据，并不能直接的对用户操作进行噪声数据的识别，且对于非数值型的用户操作日志中异常数据的检测方法一般是作为一个单一实例进行检测，异常数据的检测效率较低且检测的准确性较低；且通过孤立树检测异常数据一般不能自适应的调整孤立树的个数，导致算法的鲁棒性较低。

发明内容

为解决上述一个或多个技术问题，本发明提出基于云计算的多源数据融合方法，该方法包括以下步骤：

获取基于云计算的信息管理系统中的用户操作日志集；

根据用户操作日志集中各操作日志的有效性以及对应用户的固定操作在所有时序中出现的规律性确定操作日志对应的噪声疑似程度；

根据各操作日志对应的噪声疑似程度对用户操作日志集的整体噪声水平进行分析，并基于分析的结果更新预构建的孤立森林中孤立树的初始值；

基于更新后的孤立树的初始值以及各操作日志对应的噪声疑似程度构建目标孤立森林，并通过目标孤立森林去除用户操作日志集中的噪声数据；

对去除噪声数据后的用户操作日志集，以及信息管理系统对应的服务器日志数据和网络通信日志数据进行抽取和转换，并将转换后的数据加载到预设的目标系统中，以得到融合数据集。

本发明具有以下有益效果：

通过本发明的实施例，通过用户操作日志集中各操作日志的有效性以及用户的固定操作周期出现的规律性确定各操作日志对应的噪声疑似程度，基于对噪声疑似程度分析的结果更新孤立树的初始值，并利用噪声疑似程度构建目标孤立森林，然后利用目标孤立森林去除操作日志集中的噪声数据，最后对去除噪声数据后的用户操作日志集，服务器日志数据以及网络通信日志数据进行抽取和转换，并加载到预设的目标系统中，得到融合数据集。一方面，通过计算每条操作日志对应的噪声疑似程度，可以以每条操作日志为单位进行异常检测提高了异常数据的检测精度，从而可以保证异常数据检测的准确性，且通过各操作日志对应的噪声疑似程度构建目标孤立森林并通过构建的目标孤立森林进行异常数据识别，即利用孤立森林算法对非数值型的日志数据进行检测可以提高异常数据的检测效率；另一方面，根据对各操作日志对应的噪声疑似程度进行分析并基于分析的结果调整孤立森林中孤立树的个数，可以使得构建的孤立森林适应于不同服务器或时间的用户操作日志集中异常数据的检测，能够提高异常数据检测算法的鲁棒性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是本发明实施例基于云计算的多源数据融合方法的步骤流程图；

图2是本发明实施例中确定用户操作日志集中各操作日志对应的噪声疑似程度的步骤流程图；

图3是本发明实施例中确定相同用户的固定操作在所有时序中出现的规律性的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图来详细描述本发明的具体实施方式。

请参阅图1，其示出了本发明一个实施例提供的基于云计算的多源数据融合方法的步骤流程图，该方法包括以下步骤：

S001．获取基于云计算的信息管理系统中的用户操作日志集；

S002．根据用户操作日志集中各操作日志的有效性以及对应用户的固定操作在所有时序中出现的规律性确定每条操作日志对应的噪声疑似程度；

S003．根据各操作日志对应的噪声疑似程度对用户操作日志集的整体噪声水平进行分析，并基于分析的结果更新预构建的孤立森林中孤立树的初始值；

S004．基于更新后的孤立树的初始值以及各操作日志对应的噪声疑似程度构建目标孤立森林，并通过目标孤立森林去除用户操作日志集中的噪声数据；

S005．对去除噪声数据后的用户操作日志集，以及信息管理系统对应的服务器日志数据和网络通信日志数据进行抽取和转换，并将转换后的数据加载到预设的目标系统中，以得到融合数据集。

根据本发明的多源数据融合方法，一方面，通过计算每条操作日志对应的噪声疑似程度，可以以每条操作日志为单位进行异常检测提高了异常数据的检测精度，从而可以保证异常数据检测的准确性，且通过各操作日志对应的噪声疑似程度构建目标孤立森林并通过构建的目标孤立森林进行异常数据识别，即利用孤立森林算法对非数值型的日志数据进行检测可以提高异常数据的检测效率；另一方面，根据对各操作日志对应的噪声疑似程度进行分析并基于分析的结果调整孤立森林中孤立树的个数，可以使得构建的孤立森林适应于不同服务器或时间的用户操作日志集中异常数据的检测，能够提高异常数据检测算法的鲁棒性。

下面，对步骤S001至步骤S005进行详细说明。

在步骤S001，获取基于云计算的信息管理系统中的用户操作日志集。

在本发明的一示例实施例中，用户操作日志集可以是基于云计算的信息管理系统中任一服务器存储的操作日志的集合，用于表征各操作用户的操作信息。通过分析操作日志可以确定每个用户的操作时间、地点以及具体的操作信息等，如可以通过操作日志的时间戳数据确定各用户的操作时间、通过操作日志中的用户标识确定具体的操作用户；也可以通过操作日志中的操作类型、操作对象等分析用户是否在执行同一操作；当然，还可以根据具体的情况分析操作日志中的其它内容，如操作结果、客户端信息、IP地址等，本实施例对用户操作日志集中各操作日志的分析操作不做特别限定。

在步骤S002，根据用户操作日志集中各操作日志的有效性以及对应用户的固定操作在所有时序中出现的规律性确定每条操作日志对应的噪声疑似程度。

在本发明的一示例实施例中，操作日志的有效性可以是判断操作日志是否为异常数据的判断标准，操作日志的有效性可以根据用户在局部时间范围内的操作频率确定，如当在短时间内用户的操作频率过大，即在局部时间范围内进行了大量的请求操作，则对应的操作日志可能是自动化脚本生成的或信息管理系统受到网络攻击而产生的，对应的当前的操作日志的操作数据可能为异常数据，因此可以通过用户在局部时间范围内的操作频率的大小确定对应操作日志的有效性，当然，也可以根据具体的情况选择合适的方式对操作日志的有效性进行判断，本实施例对于操作日志的有效性的判断方式不做特别限定。

噪声疑似程度可以是操作日志中的操作数据为异常数据的概率，用于作为进行异常数据检测的基础数据。噪声疑似程度可以评估每条操作日志对应操作数据的异常情况，也可以评估获取的用户操作日志集中所有操作日志整体的操作数据的异常情况，噪声疑似程度可以结合多种因素确定，如可以结合用户在局部时间范围内的操作频率以及信息管理系统的操作流程的规范性确定，具体的，由于不同用户在信息管理系统中的操作速度具有一定的差异性，若仅以用户的操作频率，即操作日志的有效性确定对应操作日志的疑似噪声程度具有一定的局限性，而信息管理系统中的操作一般为用户在固定时间内进行的固定操作，因此可以利用操作流程的规范性，即相同用户的固定操作在所有时序中出现的规律性对操作日志的有效性进行评估，从而可以准确的确定各操作日志对应的噪声疑似程度。

在本发明的一种示例实施例中，如图2所示，可以通过以下步骤实现步骤S002中各操作日志的噪声疑似程度的确定：

步骤S101，根据各操作日志对应用户在局部时间范围内的操作次数确定对应的操作频率，以根据操作频率确定各操作日志的有效性；

由于用户的操作时长不能直接确定，因此可以以各操作日志对应的时间数据为中心通过迭代的方式确定多个局部时间范围，然后统计各局部时间范围内的操作次数从而结合各局部时间范围对应的时长计算多个局部时间范围内的操作频率，从而可以根据各局部时间范围对应的操作频率的变化规律确定各操作日志对应用户的操作频率，如在迭代的多个局部时间范围内对应的操作频率连续下降时则可以确定在迭代增加的局部时间范围内没有操作或者有很少的操作，从而可以根据用户操作频率的下降趋势确定各操作日志在局部时间范围内的操作频率。

在本发明的一示例实施例中，可以通过以下步骤实现当前用户在局部时间范围内操作频率的确定：

根据一操作日志对应的时间点数据以及预设的迭代步长确定多个局部时间范围；依次统计各局部时间范围内当前操作日志对应的用户标识出现的累计数，并根据累计数以及对应的局部时间范围长度计算各局部时间范围内对应的迭代值；当计算的各迭代值连续下降的次数满足预设的迭代终止条件，则终止迭代过程，并根据连续下降的所有迭代值中第一个迭代值确定当前操作日志对应用户的操作频率。

其中，操作日志对应的时间点数据可以通过时间戳字段确定，局部时间范围可以是按照预设的迭代步长确定的时间范围，且通过迭代步长确定的局部时间范围的初始状态为以当前的操作日志对应的时间点数据作为中心时间点的迭代步长范围，如预设的迭代步长为1分钟，当前的操作日志对应的时间点数据为某一天的09：00：00，则对应的局部时间范围的初始状态为08:59:30-09:00:30，第二次迭代过程中局部时间范围为08:59:00-09:01:00，第三次迭代过程中局部时间范围为08:58:30-09:01:30，随着迭代次数的增加，局部时间范围可以依次在上一局部时间范围的两侧分别增加0.5分钟，当然，也可以根据具体的情况设置合适的迭代步长，本实施例对于迭代步长的大小不做特别限定。

用户标识可以是通过用户ID确定不同用户操作的标识，通过统计用户标识出现的累计数可以确定用户的操作次数，从而可以利用迭代值的计算公式计算选取的操作日志对应的用户在迭代时间范围内的迭代值，迭代值的计算公式为：

（1）；

其中，表示第i次迭代过程中的迭代值，/>表示第i次迭代过程中统计的操作次数，/>表示第i次迭代过程中的对应的局部时间范围的长度，单位为分钟，/>表示分钟换算为秒的单位换算过程。

可选的，可以根据在各局部时间范围内计算得到的迭代值的变化规律确定用户在各局部时间范围内的操作频率，如当计算得到的迭代值连续下降，则说明在迭代增加的时间范围内用户没有进行操作或者有很少的操作，因此可以将连续下降的所有迭代值中第一个迭代值作为当前用户的操作频率。

可选的，可以将迭代终止条件设置为连续下降两次，当在各局部时间范围内计算的迭代值出现连续下降两次的数据时，则将连续下降两次的所有迭代值中第一个迭代值作为用户的操作频率，示例性的，当利用公式（1）计算的各局部时间范围的迭代值分别为10,12,15,14,15,14,13时，则第5次迭代过程计算的迭代值在整个迭代过程中满足连续下降两次的迭代终止条件，则可以将第5次迭代过程计算的迭代值15作为当前用户在多个局部时间范围内的操作频率。

在本发明的一示例实施例中，可以通过以下步骤实现局部时间范围的确定：

当以一操作日志对应的时间点数据确定多个局部时间范围时，若服务器提供的操作日志数据的截止时间小于时间点数据，则将时间点数据作为局部时间范围初始状态的结束时间；若大于时间点数据且与时间点数据之间的时长间隔小于或等于预设迭代步长的一半，则将时间点数据作为局部时间范围初始状态的起始时间。

示例性的，以迭代步长为1分钟为例对局部时间范围的初始状态的确定进行详细说明，若获取到的用户操作日志集中的操作日志的时间截止到为某天的12:03:00，而选取的一操作日志对应的时间点数据为12:03:30，则可以将12:03:30作为局部时间范围的结束时间，即局部时间范围的初始状态为12:02:30-12:03:30，以确定局部时间范围的初始状态可以覆盖到12:03:30之前的数据。

可选的，若获取到的用户操作日志集中的操作日志的时间截止到某天的12:04:00，则可以将12:03:30作为局部时间范围的起始时间，即局部时间范围的初始状态为12:03:30-12:04:30，以保证局部时间范围的初始状态可以覆盖到12:03:30之后的数据，从而保证用户的操作频率计算的准确性。

步骤S102，从用户操作日志集中选取多个与当前操作日志对应的用户和操作均相同的多条参考操作日志，并根据各操作日志以及对应的多个参考操作日志相邻时序的时间跨度确定对应用户的固定操作在所有时序中出现的规律性；

其中，参考操作日志可以是用户操作日志集中与选取的操作日志属于相同用户执行的相同操作的操作日志，用于确定选取的操作日志周期出现的规律性。参考操作日志可以根据选取的操作日志中的用户标识，操作类型以及操作对象确定，具体的，可以根据操作日志中的用户标识从用户操作日志集中选取同一用户对应的操作日志，根据操作类型和操作对象选取相同操作的操作日志，从而得到与选取的操作日志相似的多个参考操作日志，当然，也可以根据具体的情况选择合适的方式确定各操作日志对应的参考操作日志，本实施例对于各操作日志对应的参考操作日志的确定方式不做特别限定。

可选的，可以通过计算各操作日志与对应的参考操作日志相邻时序的时间跨度的一致性评估各操作日志的规律性，如，当操作日志与对应的参考操作日志在相邻时序的时间跨度的一致性越好则说明当前操作日志的规律性也越好，从而可以根据各操作日志与对应参考操作日志相邻时序时间跨度的一致性确定各操作日志在所有时序中出现的规律性。

进一步的，为了准确评估各操作日志在所有时序中出现的规律性，可以利用信息管理系统操作流程的规范性对各操作日志以及对应参考操作日志相邻时序的时间跨度的一致性进行评估，一般的，若用户a在时间a进行了插入和删除操作，则用户a在时间a附近也很有可能进行了插入和删除操作，因此可以通过相邻时序对应的操作和操作频率确定相邻时序时间跨度的一致性，从而可以准确评估各操作日志在所有时序中出现的规律性。

在本发明的一示例实施例中，如图3所示，可以通过以下步骤确定各操作日志在所有时序中出现的规律性：

步骤S201，根据各操作日志以及对应的多个参考操作日志的时间戳字段确定同一用户固定操作在所有时序中相邻时序的时间跨度，并根据各相邻时序的时间跨度的平均一阶差确定当前用户执行固定操作的时间跨度的一致性；

其中，相邻时序的时间跨度可以是同一用户执行的固定操作在相邻时序的时间间隔，用于确定相同用户执行的固定操作在所有时序中出现的规律性。时间跨度可以是当前的操作日志与对应的相邻时序的参考操作日志之间的时间间隔，也可以是相邻时序的各参考操作日志之间的时间间隔，时间跨度的确定可以根据各操作日志中的时间戳字段确定，具体的，可以通过相邻时序的两条操作日志中的时间戳字段的差值确定对应的时间跨度，从而计算所有时序中相邻时序上的时间跨度，本实施例对于相邻时序的时间跨度的确定不做特别限定。

可选的，在时间序列数据中，一阶差可以表征数据的趋势以及波动性，因此通过平均一阶差可以确定时间跨度变化的平均水平，如当计算得到的平均一阶差越大则表示时间跨度的一致性越低，从而可以评估所有时序中同一用户执行固定操作的时间跨度的一致性。

步骤S202，根据所有时序中相邻时序的操作日志以及对应的多个参考操作日志对应用户在局部时间范围内操作频率的一致性以及操作的一致性确定当前用户执行固定操作的时间跨度一致性的可信度；

具体的，可以利用公式（1）计算用户操作日志集中相邻时序的同一用户执行固定操作时的操作频率，然后通过计算各相邻时序操作频率的平均一阶差来评估操作频率的一致性，当计算得到的平均一阶差越大，则操作频率的一致性就越低。

在本发明的一示例实施例中，可以通过以下步骤实现用户在局部时间范围内操作的一致性的确定：

（1）根据各相邻时序的操作日志以及对应的多个参考操作日志对应用户在局部时间范围内操作频率一致性的平均一阶差确定所有时序中操作频率的一致性；

具体的，可以通过利用公式（1）分别计算相邻时序的操作日志以及对应的多个参考操作日志对应用户的操作频率，从而确定相邻时序中操作频率一致性，然后根据当前用户在相邻时序中操作频率一致性的平均一阶差确定所有时序中操作频率的一致性。

（2）根据各相邻时序的操作日志以及对应的多个参考操作日志对应用户在局部时间范围内的操作和操作次数确定当前用户在相邻时序的操作的一致性，并根据各相邻时序的操作的一致性的平均一阶差确定所有时序中操作的一致性；

具体的，相邻时序的操作的一致性可以通过相邻时序的两条操作日志在局部时间范围内的操作字段之和的差值确定，而各操作日志对应的局部时间范围可以根据公式（1）计算得到操作频率后确定，需要说明的是，在信息管理系统中，用户执行操作时对应的每个字段均会对应一个数字，因此可以通过操作字段之和的差值确定用户操作，本实施例对于用户操作一致性的确定方式不做特别限定。

进一步的，不同操作日志对应的操作字段之和可能相同，且可能是由于某一次操作次数过多导致的操作字段之和相等，因此可以通过相邻时序的操作日志在局部时间范围内的操作次数的差值确定相邻时序操作的一致性的可信度，从而可以更准确的确定相邻时序的两条操作日志在局部时间范围内操作的一致性，且在操作的一致性的计算过程中，可以设置一个超参数，以防止当出现操作字段之和相等或操作次数相等时操作的一致性计算的失效。

在本公开的一示例实施例中，可以通过以下步骤实现当前用户在相邻时序的操作的一致性的确定：

根据各相邻时序中操作日志以及对应的多个参考操作日志对应用户的操作频率确定各相邻时序中用户操作的局部时间范围；统计相邻时序中操作日志以及对应的多个参考操作日志在各局部时间范围内对应的用户操作字段之和以及操作次数；根据相邻时序的用户操作字段之和之间的差值确定当前用户在相邻时序的操作的初始一致性；根据相邻时序的操作次数之间的差值确定当前用户在相邻时序的操作的初始一致性的可信度；通过相邻时序的操作的初始一致性以及对应的可信度确定当前用户在相邻时序的操作的最佳一致性，以根据当前用户在相邻时序的操作的最佳一致性确定操作的一致性。

具体的，在通过公式（1）计算得到用户操作频率后，可以通过计算过程确定每条操作日志的局部时间范围，然后利用操作的一致性的计算公式计算相邻时序的同一用户执行的固定操作的一致性，操作的一致性的计算公式为：

（2）；

其中，表示相邻时序的同一用户在局部时间范围内执行的操作的一致性，/>、/>分别表示相邻时序中同一用户在局部时间范围内执行的操作对应操作日志的操作字段之和，/>表示绝对值符号，/>表示初步确定的相邻时序中同一用户在局部时间范围内执行的操作的一致性；/>、/>分别表示相邻时序中的同一用户在局部时间范围内执行的操作次数，/>表示操作的一致性的可信度，B表示防止分母为零的超参数。

（3）根据所有时序中操作频率的一致性以及操作的一致性确定当前用户执行固定操作的时间跨度一致性的可信度。

需要说明的是，由于用户在局部时间范围内操作频率的一致性以及操作的一致性之间在数值上存在一定的差异，若直接进行计算，则得到的数据可能会降低某一数据的影响，因此通过设置权重数据可以平衡二者数值之间的差异，如可以将一权重设置为0-1范围内的任一数值，如0.23，另一权重则可对应设置为0.77，当然，也可以根据具体的情况设置合适的权重，只要保证二者对应权重的总和为1即可，本实施例对于权重的具体数值不做特别限定。

进一步的，通过对计算得到的当前用户在所有时序中操作频率的一致性以及操作的一致性赋予权重可以准确的确定当前用户执行固定操作的时间跨度一致性的可信度。

步骤S203，根据所有时序中各操作日志对应的用户执行固定操作的时间跨度的一致性以及时间跨度一致性的可信度确定对应用户的固定操作在所有时序中出现的规律性；

示例性的，可以通过公式（1）计算用户在相邻时序的用户的操作频率，然后计算所有时序中相邻时序的用户的操作频率的平均一阶差，即用户执行固定操作的时间跨度的一致性，通过公式（2）计算相邻时序的同一用户在局部时间范围内执行的操作的一致性，并计算所有时序中相邻时序的同一用户在局部时间范围内执行的操作的一致性的平均一阶差，即相邻时序中用户执行固定操作的时间跨度一致性的可信度，然后利用操作日志在所有时序中出现的规律性的计算公式计算所有时序中同一用户的固定操作周期出现的规律性，操作日志在所有时序中出现的规律性的计算公式为：

（3）；

其中，表示一操作日志在所有时序中出现的规律性，/>表示底数为/>的指数函数；/>表示所有时序中相邻的操作日志之间时间跨度的平均一阶差，表征时间跨度的一致性；/>表示操作日志对应操作频率的平均一阶差，表征操作频率的一致性；/>表示所有时序上相邻的两条操作日志对应的用户在局部时间范围内操作的一致性的平均一阶差，表征当前用户的操作的一致性；/>表示防止当前用户的操作频率或操作在公式中被忽略的参数，表示底数为/>，指数为/>的指数函数，表示所有时序上相邻时序的操作日志之间的时间跨度一致性的可信度。

步骤S103，根据各操作日志对应用户在局部时间范围内的操作频率以及固定操作在所有时序中出现的规律性确定噪声疑似程度。

可选的，由于不同用户在操作速度上有所差别，若仅依赖于各操作日志的有效性确定对应的疑似噪声程度，准确性可能会较低，因此，可以结合基于信息管理系统规范性确定的相同用户执行的固定操作在所有时序中出现的规律性确定各操作日志对应的噪声疑似程度，从而保证了噪声疑似程度确定的准确性。

示例性的，可以通过公式（1）计算用户在相邻时序的用户的操作频率，利用公式（3）计算同一用户执行固定操作在所有时序中出现的规律性，然后利用噪声疑似程度计算公式计算各操作日志在所有时序中对应的噪声疑似程度，噪声疑似程度的计算公式为：

（4）；

其中，表示当前操作日志在所有时序中对应的噪声疑似程度，/>表示当前操作日志在局部时间范围内的操作频率，/>表示当前操作日志在所有时序中出现的规律性，表示底数为/>的指数函数。

在步骤S003，根据各操作日志对应的噪声疑似程度对用户操作日志集的整体噪声水平进行分析，并基于分析的结果更新预构建的孤立森林中孤立树的初始值；

在本发明的一种示例实施例中，噪声水平可以是衡量用户操作日志集中异常数据量情况的数据，用于更新孤立森林中孤立树的初始值。噪声水平可以根据每条操作日志对应的噪声疑似程度确定，举例而言，当用户操作日志集中疑似噪声程度高于一定值的操作日志较多，则说明获取的用户操作日志集的整体噪声水平较大，同样的，当用户操作日志集中疑似噪声程度高于一定值的操作日志较少，则说明获取的用户操作日志集的整体噪声水平较小。

由于不同服务器或不同时间对应的用户数不同，即对应的操作日志的数量不同，若预构建的孤立森林中孤立树的初始值固定，即孤立树的数量不变，则构建的孤立森林不能很好的对用户操作日志集中的各操作日志中的异常数据进行检测，因此可以将预构建的孤立森林中孤立树的初始值设置为随操作日志数量变化而变化的数据，且由于孤立森林算法的特性，即用于异常数据检测的孤立森林中孤立树的个数与待检测的数据集中异常数据的大小正相关，因此可以结合用户操作日志集对应的噪声水平对预构建的孤立森林中孤立树的数量进行调整，从而可以提高通过孤立森林对异常数据检测算法的鲁棒性。

在本发明的一示例实施例中，可以通过以下步骤实现目标孤立森林中孤立树数量的确定：

统计用户操作日志集中各操作日志的总数，并根据各操作日志的总数确定预构建的孤立森林中孤立树的初始值；根据用户操作日志集中各操作日志对应的噪声疑似程度的平均值确定噪声水平；根据噪声水平对预构建的孤立森林中孤立树的初始值进行更新，以根据更新后的初始值确定目标孤立森林中孤立树的个数。

可选的，由于不同服务器或时间对应的操作日志的数量不同，因此可以将孤立树的初始值设置为能够随操作日志数量的变化而变化的值，如可以将孤立树的初始值N的计算公式设置为：

（5）；

其中，表示孤立树的初始值，/>表示获取到的用户操作日志集中操作日志的总数，100表示每个孤立树对应的样本个数，10表示自定义设置的数据，当然，也可以根据具体的情况设置合适的参数，本实施例对于孤立树初始值的计算公式中的参数的大小不做特别限定。

可选的，由于不同用户操作日志集中异常数据的多少不同，而当用户行为数据集中的异常数据较多时，即噪声水平较大，则用于异常数据检测的孤立树的数量也要随之增大，因此当根据用户操作日志集对应的噪声水平不同时，可以利用自适应调整公式更新孤立树的初始值，从而确定目标孤立森林中孤立树的个数，孤立树初始值的自适应调整公式为：

（6）；

其中，表示目标孤立森林中孤立树的个数，/>表示目标孤立森林，/>表示获取到的用户操作日志集中各操作日志平均疑似噪声程度的平均值，/>表示向上取整函数。

在步骤S004，基于更新后的孤立树的初始值以及各操作日志对应的噪声疑似程度构建目标孤立森林，并通过目标孤立森林去除用户操作日志集中的噪声数据；

在本发明的一种示例实施例中，目标孤立森林可以是能够对当前的用户操作日志集中进行异常数据检测的孤立森林，用于去除获取的操作日志集中的噪声数据。利用各操作日志对应的噪声疑似程度构建目标孤立森林，可以将对各操作日志进行异常检测转换成对各操作日志为异常数据的概率的检测，通过检测数据的转换使得能够直接通过孤立森林算法对非数值型的操作日志进行异常检测，可以提高用户操作日志集中异常数据的检测效率，且通过对每条操作日志进行异常检测，提高了用户操作日志集的检测精度，从而可以提高异常数据检测的准确性。

可选的，可以将各操作日志对应的噪声疑似程度作为特征值构建孤立树，举例而言，当确定更新后的孤立树的初始值后，可以从各操作日志集对应的噪声疑似程度中选取相同数量的样本集，然后可以利用孤立森林算法中孤立树的构建方式将各样本集中的噪声疑似程度作为特征值构建对应的孤立树，本实施例对于构建孤立树时样本集的样本容量不做特别限定。

可选的，当基于噪声疑似程度构建的目标孤立树构建完成后，则可以将用户操作日志集中各操作日志对应的噪声疑似程度输入到目标孤立森林中的每个孤立树中，然后可以根据各操作日志对应的噪声疑似程度在各孤立树中的路径长度判断对应的操作日志是否为异常数据，从而清除用户操作日志集中的异常数据。

在本发明的一示例实施例中，可以通过以下步骤实现目标孤立森林的构建：

根据更新后的孤立树的初始值从操作日志对应的噪声疑似程度中随机选取对应数量个样本容量相同的样本集；将每个样本集中的噪声疑似程度作为特征值分别构建对应的多个孤立树，以得到目标孤立森林。

可选的，通过随机选取每个样本集并基于每个样本集构建对应的孤立树，可以确保各孤立树构建数据的代表性以及随机性，有助于避免在构建孤立树时引入偏差或不确定性，从而可以提高用于检测异常数据的孤立森林算法的稳定性和可靠性。

举例而言，以更新后的孤立树的初始值为，每个孤立树的样本个数为100为例对目标孤立森林的构建过程进行详细说明，首先可以采用简单随机抽样的方式从用户操作日志集中随机选取/>个样本容量为100的样本集，然后将每个样本集中100条操作日志对应的噪声疑似程度作为特征值构建对应的/>个孤立树，从而得到由/>个孤立树组成的目标孤立森林，当然，也可以根据具体的情况选择合适容量的样本集，本实施例对于孤立树对应样本集的样本容量的大小不做特别限定。

在本发明的一示例实施例中，可以通过以下步骤实现对用户操作日志集中的噪声数据的去除：

通过对目标孤立森林中各孤立树遍历的结果确定各操作日志对应噪声疑似程度的异常得分值；当异常得分值大于预设异常得分阈值时则去除对应的操作日志，以得到去除噪声数据后的用户操作日志集。

其中，异常得分值可以是用于衡量对应操作疑似程度是否为噪声数据的数据，异常得分值的确定与各操作日志对应的噪声疑似程度在遍历所有的孤立树时的平均路径长度有关，平均路径长度越短，则说明噪声疑似程度越容易被隔离，对应的异常得分值就越高；异常得分阈值可以是筛选噪声数据的判断条件，异常得分阈值的设置与各操作日志对应的异常得分值有关，如当各操作日志对应的异常得分值均较高，则可以将异常得分阈值设置为较大的值，以更好的筛选容易被隔离的操作日志，同样的，当各操作日志对应的异常得分值均较低，则可以将异常得分阈值设置为较小的值，在本发明中，可以将异常得分阈值设置为0.75，当然，也可以根据具体的情况设置合适的异常得分阈值，本实施例对于异常得分阈值的大小不做特别限定。

在步骤S005，对去除噪声数据后的用户操作日志集，以及信息管理系统对应的服务器日志数据和网络通信日志数据进行抽取和转换，并将转换后的数据加载到预设的目标系统中，以得到融合数据集；

在本发明的一种示例实施例中，服务器日志数据可以是不同服务器对应的运行信息，如管理信息系统或服务的状态信息，错误或异常信息等，可以用于诊断出现在服务器上的错误信息以及优化系统性能等；网络通信日志数据可以是记录网络通信过程中的各种信息，如网络连接的开始或结束时间，发送和接收的数据包信息等，可以用于网络管理和维护等，可以通过ETL技术可以将不同来源的除噪后的用户操作日志集，服务器日志数据以及网络通信日志数据进行抽取和转换，并可以将转换后的数据集加载到预设的目标系统，如数据库中，从而得到融合数据集，以基于准确性较高的融合数据集进行分析和决策得到准确的结果，本实施例对于基于融合数据集进行的操作类型不做特别限定。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于云计算的多源数据融合方法，其特征在于，包括：

获取基于云计算的信息管理系统中的用户操作日志集；

根据所述用户操作日志集中各操作日志的有效性以及对应用户的固定操作在所有时序中出现的规律性确定每条操作日志对应的噪声疑似程度；

根据各所述操作日志对应的噪声疑似程度对所述用户操作日志集的整体噪声水平进行分析，并基于分析的结果更新预构建的孤立森林中孤立树的初始值；

基于更新后的所述孤立树的初始值以及各所述操作日志对应的噪声疑似程度构建目标孤立森林，并通过所述目标孤立森林去除所述用户操作日志集中的噪声数据；

对去除噪声数据后的所述用户操作日志集，以及所述信息管理系统对应的服务器日志数据和网络通信日志数据进行抽取和转换，并将转换后的数据加载到预设的目标系统中，以得到融合数据集；

其中，所述根据所述用户操作日志集中各操作日志的有效性以及对应用户的固定操作在所有时序中出现的规律性确定每条操作日志对应的噪声疑似程度，包括：

根据各操作日志对应用户在局部时间范围内的操作次数确定对应的操作频率，以根据所述操作频率确定各所述操作日志的有效性；

从所述用户操作日志集中选取多个与当前操作日志对应的用户和操作均相同的多条参考操作日志，并根据各操作日志以及对应的多个参考操作日志相邻时序的时间跨度确定对应用户的固定操作在所有时序中出现的规律性；

根据各所述操作日志对应用户在局部时间范围内的操作频率以及固定操作在所有时序中出现的规律性确定所述噪声疑似程度；

所述根据各操作日志对应用户在局部时间范围内的操作次数确定对应的操作频率，包括：

根据一操作日志对应的时间点数据以及预设的迭代步长确定多个局部时间范围；

依次统计各所述局部时间范围内当前操作日志对应的用户标识出现的累计数，并根据所述累计数以及对应的局部时间范围长度计算各所述局部时间范围内对应的迭代值；

当计算的各所述迭代值连续下降的次数满足预设的迭代终止条件，则终止迭代过程，并根据连续下降的所有迭代值中第一个迭代值确定当前操作日志对应用户的操作频率；

所述方法还包括：

当以一操作日志对应的时间点数据确定多个局部时间范围时，若服务器提供的操作日志数据的截止时间小于所述时间点数据，则将所述时间点数据作为所述局部时间范围初始状态的结束时间；

若大于所述时间点数据且与所述时间点数据之间的时长间隔小于或等于预设迭代步长的一半，则将所述时间点数据作为所述局部时间范围初始状态的起始时间。

2.根据权利要求1所述的基于云计算的多源数据融合方法，其特征在于，所述根据各操作日志以及对应的多个参考操作日志相邻时序的时间跨度确定对应用户的固定操作在所有时序中出现的规律性，包括：

根据各操作日志以及对应的多个参考操作日志的时间戳字段确定同一用户固定操作在所有时序中相邻时序的时间跨度，并根据各相邻时序的时间跨度的平均一阶差确定当前用户执行固定操作的时间跨度的一致性；

根据所有时序中相邻时序的操作日志以及对应的多个参考操作日志对应用户在局部时间范围内操作频率的一致性以及操作的一致性确定当前用户执行固定操作的时间跨度一致性的可信度；

根据所有时序中各所述操作日志对应的用户执行固定操作的时间跨度的一致性以及时间跨度一致性的可信度确定对应用户的固定操作在所有时序中出现的规律性。

3.根据权利要求2所述的基于云计算的多源数据融合方法，其特征在于，所述根据所有时序中相邻时序的操作日志以及对应的多个参考操作日志对应用户在局部时间范围内操作频率的一致性以及操作的一致性确定当前用户执行固定操作的时间跨度一致性的可信度，包括：

根据各相邻时序的所述操作日志以及对应的多个参考操作日志对应用户在局部时间范围内操作频率一致性的平均一阶差确定所有时序中操作频率的一致性；

根据各相邻时序的所述操作日志以及对应的多个参考操作日志对应用户在局部时间范围内的操作和操作次数确定所述当前用户在相邻时序的操作的一致性，并根据各相邻时序的操作的一致性的平均一阶差确定所有时序中操作的一致性；

根据所述所有时序中操作频率的一致性以及操作的一致性确定当前用户执行固定操作的时间跨度一致性的可信度。

4.根据权利要求3所述的基于云计算的多源数据融合方法，其特征在于，所述根据各相邻时序的所述操作日志以及对应的多个参考操作日志对应用户在局部时间范围内的操作和操作次数确定所述当前用户在相邻时序的操作的一致性，包括：

根据各相邻时序中所述操作日志以及对应的多个参考操作日志对应用户的操作频率确定各相邻时序中用户操作的局部时间范围；

统计相邻时序中所述操作日志以及对应的多个参考操作日志在各所述局部时间范围内对应的用户操作字段之和以及操作次数；

根据相邻时序的用户操作字段之和之间的差值确定当前用户在相邻时序的操作的初始一致性；

根据相邻时序的操作次数之间的差值确定当前用户在相邻时序的操作的初始一致性的可信度；

通过相邻时序的操作的初始一致性以及对应的可信度确定当前用户在相邻时序的操作的最佳一致性，以根据当前用户在所述相邻时序的操作的最佳一致性确定所述操作的一致性。

5.根据权利要求1所述的基于云计算的多源数据融合方法，其特征在于，所述基于分析的结果更新预构建的孤立森林中孤立树的初始值，包括：

统计用户操作日志集中各操作日志的总数，并根据各操作日志的总数确定所述预构建的孤立森林中孤立树的初始值；

根据所述用户操作日志集中各操作日志对应的噪声疑似程度的平均值确定所述噪声水平；

根据所述噪声水平对所述预构建的孤立森林中孤立树的初始值进行更新，以根据更新后的初始值确定目标孤立森林中孤立树的个数。

6.根据权利要求1所述的基于云计算的多源数据融合方法，其特征在于，所述基于更新后的所述孤立树的初始值以及各所述操作日志对应的噪声疑似程度构建目标孤立森林，包括：

根据更新后的所述孤立树的初始值从所述操作日志对应的噪声疑似程度中随机选取对应数量个样本容量相同的样本集；

将每个样本集中的噪声疑似程度作为特征值分别构建对应的多个孤立树，以得到所述目标孤立森林。

7.根据权利要求1所述的基于云计算的多源数据融合方法，其特征在于，所述通过所述目标孤立森林去除所述用户操作日志集中的噪声数据，包括：

通过对所述目标孤立森林中各孤立树遍历的结果确定各操作日志对应噪声疑似程度的异常得分值；

当所述异常得分值大于预设异常得分阈值时则去除对应的操作日志，以得到去除噪声数据后的用户操作日志集。