CN116150288B

CN116150288B - 一种基于计算机的网络数据分析处理系统

Info

Publication number: CN116150288B
Application number: CN202310401982.4A
Authority: CN
Inventors: 张敬芳; 张荣芝; 张庆业
Original assignee: Shandong Engineering Vocational and Technical University
Current assignee: Shandong Engineering Vocational and Technical University
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-07
Anticipated expiration: 2043-04-17
Also published as: CN116150288A

Abstract

本申请涉及一种基于计算机的网络数据分析处理系统，所属领域为数据分析技术领域，所述系统包括：数据采集模块，用于基于当前数据分析任务获取网络数据提供方的待分析数据源文件，所述待分析数据源文件包括文件标识和文件内容；预处理模块，用于对所述待分析数据源文件进行预处理，得到第一数据源；存储模块，用于存储基于深度学习构建的数据分析模型；分析模块，用于根据所述数据分析模型对所述第一数据源进行分析，得到数据分析结果；可视化模块，用于对所述数据分析结果进行可视化展示，并根据可视化展示结果提取出关键数据。本申请能够自动提取出关键数据，提高了数据分析的效率以及准确性，进而对数据进行有效的自动化管理。

Description

一种基于计算机的网络数据分析处理系统

技术领域

本申请涉及数据分析技术领域，特别是涉及一种基于计算机的网络数据分析处理系统。

背景技术

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程，这一过程也是质量管理体系的支持过程，在实际应用中，数据分析可帮助人们做出判断，以便采取适当行动，数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广，数据分析是数学与计算机科学相结合的产物。

当进行数据分析时，经常出现一类业务需要多种分析方法的情况，传统的计算机数据分析对数据的处理往往是各自独立的、以简易的图表或列示进行查询的方式，这些数据无法进行更好地关联，关键数据的提取与关联仍需依靠人工进行逐条甄别，随着数据分析目标的不断变化，业务部门需要多次这样反复这样的工作，时间周期长且不可控，缺乏有效的自动化数据管理方法，很难满足业务需要。

发明内容

基于此，有必要针对上述技术问题，提供一种基于计算机的网络数据分析处理系统，包括：数据采集模块、预处理模块、存储模块、分析模块、可视化模块；

所述数据采集模块，用于基于当前数据分析任务获取网络数据提供方的待分析数据源文件，所述待分析数据源文件包括文件标识和文件内容；

所述预处理模块，用于对所述待分析数据源文件进行预处理，得到第一数据源；

所述存储模块，用于存储基于深度学习构建的数据分析模型；

所述分析模块，用于根据所述数据分析模型对所述第一数据源进行分析，得到数据分析结果；

所述可视化模块，用于对所述数据分析结果进行可视化展示，并根据可视化展示结果提取出关键数据。

在其中一个实施例中，还包括：所述预处理模块包括解析单元、关联单元、分类模型构建单元和分类标记单元：

所述解析单元，用于对所述待分析数据源文件的文件内容进行解析，得到所述文件内容的属性信息，所述属性信息包括数据字段值、源端口号、数据报长度，所述数据字段值为请求值与返回值之和；

所述关联单元，用于将所述文件内容的属性信息与所述文件标识进行关联，生成源数据；

所述分类模型构建单元，用于根据分类任务信息建立分类模型；

所述分类标记单元，用于基于所述分类模型对所述源数据进行分类，获取每个类别中的数据报长度总值，按照总值的大小对分类结果进行标记，得到所述第一数据源。

在其中一个实施例中，还包括：所述分类模型构建单元包括：

分类规则构建单元，用于根据分类任务信息建立任务分类规则，所述分类任务信息包括属性信息关联度；

遍历单元，用于遍历所述源数据，获取所述源数据的特征点，根据所述任务分类规则对所述特征点进行两次分类并获得反例比例；

计算单元，用于计算两次特征点分类的反例比例的比值；

检测单元，用于响应于检测到所述反例比例的比值大于预设值时，判断所述分类模型无效，重新遍历所述源数据，响应于检测到所述反例比例的比值小于或等于预设值时，判断所述分类模型有效，对所述源数据进行分类，得到数据分类结果。

在其中一个实施例中，还包括：所述存储模块包括第一存储单元和第二存储单元，所述第一存储单元用于存储预构建的第一数据分析模型，所述第二存储单元用于存储预构建的第二数据分析模型，其中：

所述第一数据分析模型包括：

其中，D表示第一输出值，P表示期望值，

~/>

表示数据样本y服从真实数据/>

的数据分布，M、N皆表示迭代系数，m、n分别表示文件标识、分类标记，/>

表示数据报长度，/>

表示属性信息关联度，/>

表示源端口号，/>

表示数据字段值，/>

表示各分类数据统计量；

所述各分类数据统计量的计算公式为：

其中，a、b分别表示数据请求值和返回值，

表示特征合并函数，i、j皆表示常数系数；

所述属性信息关联度的计算公式为：

其中，

表示目标分类h对应的数据统计量；所述第二数据分析模型包括：

其中，

表示第二输出值，/>

表示耦合系数，/>

表示校正函数，/>

表示校正系数，/>

表示常数。

在其中一个实施例中，还包括：所述分析模块包括第一分析单元和第二分析单元：

所述第一分析单元，用于根据从所述第一存储单元提取出的第一数据分析模型对所述第一数据源进行分析，得到第一输出值，即第一数据分析结果；

所述第二分析单元，用于根据从所述第二存储单元提取出的第二数据分析模型对所述第一数据分析结果进行校正，得到第二输出值，即第二数据分析结果。

在其中一个实施例中，还包括：所述可视化模块包括：

可视化展示单元，用于对所述数据分析结果进行可视化展示，所述数据分析结果包括所述第一数据分析结果和所述第二数据分析结果，包括：

将单个数据源对应的所述第一输出值和第二输出值置于同一纵坐标上；

将多个数据源对应的所述第一输出值和第二输出值分别进行横向连接，并在可视化界面进行可视化展示。

在其中一个实施例中，还包括：所述可视化模块还包括：

关键数据提取单元，用于根据可视化展示结果提取出关键数据，包括：

获取所述可视化展示结果中目标数据源对应的第一输出值和第二输出值的差值绝对值；

响应于检测到所述差值绝对值小于第一预设值时，提取所述目标数据源作为所述关键数据。

上述基于计算机的网络数据分析处理系统，所述系统包括：数据采集模块、预处理模块、存储模块、分析模块、可视化模块；所述数据采集模块，用于基于当前数据分析任务获取网络数据提供方的待分析数据源文件，所述待分析数据源文件包括文件标识和文件内容；所述预处理模块，用于对所述待分析数据源文件进行预处理，得到第一数据源；所述存储模块，用于存储基于深度学习构建的数据分析模型；所述分析模块，用于根据所述数据分析模型对所述第一数据源进行分析，得到数据分析结果；所述可视化模块，用于对所述数据分析结果进行可视化展示，并根据可视化展示结果提取出关键数据，本申请在数据分析过程中对数据进行关联，并通过第一数据分析模型和第二数据分析模型对数据进行分析并在可视化界面展示，从而能自动提取出关键数据，提高了数据分析的效率以及准确性，进而对数据进行有效的自动化管理。

附图说明

图1为一个实施例中基于计算机的网络数据分析处理系统的结构框图；

图2为一个实施例中基于计算机的网络数据分析处理系统的预处理模块结构框图；

图3为一个实施例中基于计算机的网络数据分析处理系统的分类模型构建单元结构框图；

图4为一个实施例中基于计算机的网络数据分析处理系统的存储模块结构框图；

图5为一个实施例中基于计算机的网络数据分析处理系统的分析模块结构框图；

图6为一个实施例中基于计算机的网络数据分析处理系统的可视化模块结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，在本申请的描述中，除非上下文明确要求，否则整个说明书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

还应当理解，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

需要注意的是，术语“S1”、“S2”等仅用于步骤的描述目的，并非特别指称次序或顺位的意思，亦非用以限定本申请，其仅仅是为了方便描述本申请的方法，而不能理解为指示步骤的先后顺序。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1-图6，图1为本发明实施例一提供的一种基于计算机的网络数据分析处理系统的结构框图，包括：

数据采集模块、预处理模块、存储模块、分析模块、可视化模块；

所述数据采集模块，用于基于当前数据分析任务获取网络数据提供方的待分析数据源文件，所述待分析数据源文件包括文件标识和文件内容，需要说明的是，数据分析任务包括例行任务和临时任务等，当前数据分析任务可以为开发人员提交的数据分析任务中的任意一种数据分析任务，每一种数据分析任务一般会有对应的数据源文件，因此，基于当前数据分析任务可以匹配到对应的待分析数据源文件，此外，文件标识可以是文件名或编号等，对文件标识进行相应的赋值，以用于后续的数据分析；

进一步的，如图2所示，所述预处理模块包括解析单元、关联单元、分类模型构建单元和分类标记单元：

进一步的，如图3所示，所述分类模型构建单元包括：

计算单元，用于计算两次特征点分类的反例比例的比值；

检测单元，用于响应于检测到所述反例比例比值大于预设值时，判断所述分类模型无效，重新遍历所述源数据，响应于检测到所述反例比例比值小于或等于预设值时，判断所述分类模型有效，对所述源数据进行分类，得到数据分类结果；

具体的，对所述待分析数据源文件的文件内容进行解析，得到所述文件内容的属性信息，所述属性信息包括数据字段值、源端口号、数据报长度，所述数据字段值为请求值与返回值之和，其中，请求值可以是维度主键(key)，返回值可以是标签值(value)，数据报最大长度为65535字节，源端口号在0~24525bits之间；

将所述文件内容的属性信息与所述文件标识进行关联，即形成一一映射关系，生成源数据；

根据分类任务信息建立分类模型；

基于所述分类模型对所述源数据进行分类，获取每个类别中的数据报长度总值，按照总值的大小对分类结果进行标记，得到所述第一数据源；

其中，所述分类模型的建立包括：

根据分类任务信息建立任务分类规则，所述分类任务信息包括属性信息关联度；

遍历所述源数据，获取所述源数据的特征点，根据所述任务分类规则对所述特征点进行两次分类并获得反例比例；

计算两次特征点分类的反例比例的比值；

若所述反例比例比值大于预设值，则所述分类模型无效，重新遍历所述源数据；

若所述反例比例比值小于或等于预设值，则所述分类模型有效，对所述源数据进行分类，得到数据分类结果。

其中，对数据进行关联及分类，以便于对同一类数据进行同批次分析，可以提高后续数据分析的效率。

进一步的，如图4所示，所述存储模块包括第一存储单元和第二存储单元，所述第一存储单元用于存储预构建的第一数据分析模型，所述第二存储单元用于存储预构建的第二数据分析模型，其中：

所述第一数据分析模型包括：

其中，D表示第一输出值，P表示期望值，

~/>

表示数据样本y服从真实数据/>

表示数据报长度，/>

表示属性信息关联度，/>

表示源端口号，/>

表示数据字段值，/>

表示各分类数据统计量；

所述各分类数据统计量的计算公式为：

其中，a、b分别表示数据请求值和返回值，

表示特征合并函数，i、j皆表示常数系数；

所述属性信息关联度的计算公式为：

其中，

其中，

表示第二输出值，/>

表示耦合系数，/>

表示校正函数，/>

表示校正系数，/>

表示常数。

进一步的，如图5所示，所述分析模块包括第一分析单元和第二分析单元：

所述第二分析单元，用于根据从所述第二存储单元提取出的第二数据分析模型对所述第一数据分析结果进行校正，得到第二输出值，即第二数据分析结果；

其中，将第一数据分析结果输入第二数据分析模型中，即可得到校正后的第二数据分析结果。

进一步的，如图6所示，所述可视化模块包括：

所述可视化模块还包括：

响应于检测到所述差值绝对值小于第一预设值时，提取所述目标数据源作为所述关键数据；

将所述关键数据发送至相关的用户终端，完成数据分析处理过程。

上述基于计算机的网络数据分析处理系统中，所述系统包括：数据采集模块、预处理模块、存储模块、分析模块、可视化模块；所述数据采集模块，用于基于当前数据分析任务获取网络数据提供方的待分析数据源文件，所述待分析数据源文件包括文件标识和文件内容；所述预处理模块，用于对所述待分析数据源文件进行预处理，得到第一数据源；所述存储模块，用于存储基于深度学习构建的数据分析模型；所述分析模块，用于根据所述数据分析模型对所述第一数据源进行分析，得到数据分析结果；所述可视化模块，用于对所述数据分析结果进行可视化展示，并根据可视化展示结果提取出关键数据，本申请在数据分析过程中对数据进行关联，并通过第一数据分析模型和第二数据分析模型对数据进行分析并在可视化界面展示，从而能自动提取出关键数据，提高了数据分析的效率以及准确性，进而对数据进行有效的自动化管理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。