CN116757734B

CN116757734B - 基于云计算的大数据信息分析方法及系统

Info

Publication number: CN116757734B
Application number: CN202310715525.2A
Authority: CN
Inventors: 吕鹏飞; 李莹
Original assignee: Yantai Zhong Software Technology Co ltd
Current assignee: Yantai Zhong Software Technology Co ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2024-01-26
Anticipated expiration: 2043-06-16
Also published as: CN116757734A

Abstract

本发明涉及数据处理技术领域，具体公开了一种基于云计算的大数据信息分析方法及系统，所述方法包括建立含有汇集端口的推送架构；所述推送架构用于表征推广内容的归属关系；基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容；接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量；对上传内容进行识别，生成产品分析报告。本发明基于树状结构统计推广内容，根据统计到的推广内容确定汇集端口，在汇集端口中引入识别算法，对推广内容进行识别筛选，选取出更具备识别意义的数据，降低了数据识别量，提高了数据有序性的同时，降低了处理成本，提高了资源利用率。

Description

基于云计算的大数据信息分析方法及系统

技术领域

本发明涉及数据处理技术领域，具体是一种基于云计算的大数据信息分析方法及系统。

背景技术

在自媒体时代，各种产品的销售方都会对产品进行推广，这些推广内容涉及各大平台，不同平台中的推广内容各不相同；即使是同一平台，不同账户的侧重点也存在不同。

现有的推广架构是，销售方在多个平台建立多个账户，在每个账户中都发布不同的内容，获取不同内容的反馈数据，基于反馈数据对产品进行分析，这一过程中，由于不同数据间的数据格式不同，传输过程、存储过程及识别过程均非常复杂，需要工作人员消耗大量的成本去搭建处理架构，虽然识别结果的全面性较高，但是其资源消耗量大、数据有序性很低。

发明内容

本发明的目的在于提供一种基于云计算的大数据信息分析方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于云计算的大数据信息分析方法，所述方法包括：

建立含有汇集端口的推送架构；所述推送架构用于表征推广内容的归属关系；

基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容；

接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量；

对上传内容进行识别，生成产品分析报告。

作为本发明进一步的方案：所述建立含有汇集端口的推送架构的步骤包括：

接收推送方输入的推广内容，根据所述推广内容的文件名确定名称链；所述名称链由名称标签组成；

统计所有名称链，合并相同的名称标签，得到推送架构；所述推送架构为并列式的树形结构；同一树形结构中各节点对应的推广内容的格式相同；

依次计算各节点的子树的节点数量，当所述子树的节点数量达到预设的数量阈值时，基于该节点建立汇集端口；

当首节点的节点数量小于预设的数量阈值时，选取首节点建立汇集端口。

作为本发明进一步的方案：所述基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容的步骤包括：

基于推送架构查询汇集端口对应的推广内容的浏览数和转发频率；

根据所述浏览数和转发频率定时在预设的数据统计图中确定各推广内容的存储区域；所述数据统计图为预设的模板；

获取各时段推广内容的交互数据，将所述交互数据填充至对应的存储区域；

对填充后的数据统计图进行识别，选取节点时段，基于节点时段确定上传内容。

作为本发明进一步的方案：所述获取各时段推广内容的交互数据，将所述交互数据填充至对应的存储区域的步骤包括：

获取各时段推广内容的交互数据；所述交互数据包含用户的操作数据；所述操作数据包括键鼠数据和触屏数据；

对所述操作数据进行识别，确定用户的交互行为；

将所述交互行为输入预设的转换函数，得到填充参数；所述填充参数包括填充位置和填充色值；所述填充位置为用百分数表示的相对位置；

读取推广内容对应的存储区域，基于填充参数填充所述存储区域。

作为本发明进一步的方案：所述对填充后的数据统计图进行识别，选取节点时段，基于节点时段确定上传内容的步骤包括：

查询各时段的数据统计图并排序，将排序后的数据统计图转换为单值图；

遍历所述单值图中的各像素点的值，查询最大值、均值和最小值；

由最大值、均值、最小值和预设的段数确定切分值；

基于所述切分值将所述单值图转换为归一矩阵；所述归一矩阵中的值由像素点的值和切分值之间的大小关系确定；

依次将相邻时段的归一矩阵输入预设的比对模型，确定变化率；

根据所述变化率选取节点时段，基于节点时段确定上传内容。

作为本发明进一步的方案：所述根据所述变化率选取节点时段，基于节点时段确定上传内容的步骤包括：

将所述变化率与预设的变化阈值进行比对，当所述变化率达到预设的变化阈值时，将两个推广内容的节点时段标记为节点时段；

以节点时段为基准，统计各时间的变化率，得到变化率数组；

读取节点时段的交互数据，打包读取到交互数据的和变化率数组，得到上传内容。

作为本发明进一步的方案：所述接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量的步骤包括：

接收汇集端口发送的上传内容；

计算所述上传内容中交互数据的数据量；

根据计算出的数据量和变化率数组计算预测总量；

根据所述预测总量确定汇集端口的计算资源分配量。

本发明技术方案还提供了一种基于云计算的大数据信息分析系统，所述系统包括：

推送架构建立模块，用于建立含有汇集端口的推送架构；所述推送架构用于表征推广内容的归属关系；

上传内容确定模块，用于基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容；

资源分配模块，用于接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量；

内容识别模块，用于对上传内容进行识别，生成产品分析报告。

作为本发明进一步的方案：所述推送架构建立模块包括：

名称链确定单元，用于接收推送方输入的推广内容，根据所述推广内容的文件名确定名称链；所述名称链由名称标签组成；

标签合并单元，用于统计所有名称链，合并相同的名称标签，得到推送架构；所述推送架构为并列式的树形结构；同一树形结构中各节点对应的推广内容的格式相同；

第一端口建立单元，用于依次计算各节点的子树的节点数量，当所述子树的节点数量达到预设的数量阈值时，基于该节点建立汇集端口；

第二端口建立单元，用于当首节点的节点数量小于预设的数量阈值时，选取首节点建立汇集端口。

作为本发明进一步的方案：所述上传内容确定模块包括：

信息采集单元，用于基于推送架构查询汇集端口对应的推广内容的浏览数和转发频率；

区域确定单元，用于根据所述浏览数和转发频率定时在预设的数据统计图中确定各推广内容的存储区域；所述数据统计图为预设的模板；

数据填充单元，用于获取各时段推广内容的交互数据，将所述交互数据填充至对应的存储区域；

节点应用单元，用于节点对填充后的数据统计图进行识别，选取节点时段，基于节点时段确定上传内容。

与现有技术相比，本发明的有益效果是：本发明基于树状结构统计推广内容，根据统计到的推广内容确定汇集端口，在汇集端口中引入识别算法，对推广内容进行识别筛选，选取出更具备识别意义的数据，降低了数据识别量，提高了数据有序性的同时，降低了处理成本，提高了资源利用率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为基于云计算的大数据信息分析方法的流程框图。

图2为基于云计算的大数据信息分析方法的第一子流程框图。

图3为基于云计算的大数据信息分析方法的第二子流程框图。

图4为基于云计算的大数据信息分析方法的第三子流程框图。

图5为基于云计算的大数据信息分析系统的组成结构框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为基于云计算的大数据信息分析方法的流程框图，本发明实施例中，一种基于云计算的大数据信息分析方法，所述方法包括：

步骤S100：建立含有汇集端口的推送架构；所述推送架构用于表征推广内容的归属关系；

在自媒体时代，各种产品的销售方都会对产品进行推广，这些推广内容涉及各大平台，不同平台中的推广内容各不相同；即使是同一平台，不同账户的侧重点也存在不同；现有的推广架构是，销售方在多个平台建立多个账户，在每个账户中都发布不同的内容，然后选取出一些浏览量较多的推广账户，这是一种广撒网的方式；在这种架构下，推广内容的采集过程非常复杂，不同平台的文件格式不同，同一平台不同账户的推广内容不同，为了提高推广内容的条理性，本方法的执行主体会根据所有推广内容建立推送架构，在推送架构中确定汇集端口，对不同的推广内容进行监控。

在实际应用中，一般是一个平台对应一个汇集端口，用于监控该平台上的所有账户。

步骤S200：基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容；

由汇集端口对推广内容进行监控，获取发生在推广内容中的交互数据，由预设在汇集端口上的识别算法，对交互数据进行筛选，得到数量较少，分析价值更高的交互数据，称为上传内容。

需要说明的是，所述汇集端口是独立的，它可以是独立的一个智能设备，也可以是独立的一个模块，不同汇集端口之间可以存在空间上的距离，类比于现有的云计算架构，这一架构的目的是使得本方法可以借鉴现有的云架构。

步骤S300：接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量；

接收汇集端口发送的上传内容，对上传内容的数据特征(如数据量等传输过程中产确定的数据)进行分析，可以调节汇集端口的计算资源分配量，可以极大地提高计算资源的利用率。

步骤S400：对上传内容进行识别，生成产品分析报告；

接收到上传内容后，就可以与现有的识别技术接轨，对上传内容进行分析，得到产品分析报告，这一步骤是最终的应用过程，本发明技术方案不做限定。

图2为基于云计算的大数据信息分析方法的第一子流程框图，所述建立含有汇集端口的推送架构的步骤包括：

步骤S101：接收推送方输入的推广内容，根据所述推广内容的文件名确定名称链；所述名称链由名称标签组成；

所述推送方一般是销售方，也可以是生产方，甚至可以是某些用户；推广内容的文件名可以类比于现有的文件地址，由文件名可以确定名称链，用于表征推广内容的发布平台、发布账户和发布时间等信息。

步骤S102：统计所有名称链，合并相同的名称标签，得到推送架构；所述推送架构为并列式的树形结构；同一树形结构中各节点对应的推广内容的格式相同；

每个推广文件都对应一个名称链，不同名称链中的名称标签有可能是相同的，合并相同的名称标签，可以将所有推广文件的名称链以树状图的方式展示出来，称为推广架构。

步骤S103：依次计算各节点的子树的节点数量，当所述子树的节点数量达到预设的数量阈值时，基于该节点建立汇集端口；

对于汇集端口的确定过程，举例说明如下：如果节点的名称标签为某个账户，那么对应的子树就是该账户下所有的推广文件，子树的节点数量就是推广文件的数量，当数量达到预设的数量阈值时，就说明推广文件足够多，此时，就需要建立汇集端口。

步骤S104：当首节点的节点数量小于预设的数量阈值时，选取首节点建立汇集端口；

首节点对应不同的平台，如果首节点对应的节点数量未达到数量阈值，本方法的执行主体还是会在该处建立汇集端口，用于区分不同的平台。

图3为基于云计算的大数据信息分析方法的第二子流程框图，所述基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容的步骤包括：

步骤S201：基于推送架构查询汇集端口对应的推广内容的浏览数和转发频率；

推广内容的浏览数和转发频率在推广平台中属于已知数据，发布方一般都具备查阅权限，如果不具备，就需要向推广平台发送权限获取请求。

步骤S202：根据所述浏览数和转发频率定时在预设的数据统计图中确定各推广内容的存储区域；所述数据统计图为预设的模板；

由浏览数和转发频率可以在预设的数据统计图中确定对应的存储区域，所述存储区域是数据统计图的子集，浏览数和转发频率用于确定其区域尺寸。

步骤S203：获取各时段推广内容的交互数据，将所述交互数据填充至对应的存储区域；

由汇集端口获取发生在推广内容上的交互数据，所述交互数据为客户与推广内容之间的社交数据，比如，客户滑动推广内容，进行浏览，这就是一种交互，用户进行点赞或者转发，也是一种交互。

步骤S204：对填充后的数据统计图进行识别，选取节点时段，基于节点时段确定上传内容；

填充后的数据统计图记录了交互过程，对数据统计图进行识别，可以在多个数据统计图中选取一些比较重要的数据统计图，对应的时段就是节点时段；由节点时段再选取相应的交互数据，就是上传内容。

在本发明技术方案的一个实例中，对转发频率的获取过程进行了限定，在根据所有转发数量确定转发频率的基础上，获取转发接收者的转发行为，根据所述转发接收者的转发行为确定转发指数，根据所述转发指数修正转发频率。

作为本发明技术方案的一个优选实施例，所述获取各时段推广内容的交互数据，将所述交互数据填充至对应的存储区域的步骤包括：

对所述操作数据进行识别，确定用户的交互行为；

获取客户在观看推广内容时产生的交互数据，借助现有的识别模型对交互数据进行识别，可以确定用户的交互行为。

读取推广内容对应的存储区域，基于填充参数填充所述存储区域；

由交互行为确定填充参数，对存储区域进行填充即可；具体的填充规则由工作人员预先设置，需要保证他的一致性。

作为本发明技术方案的一个优选实施例，所述对填充后的数据统计图进行识别，选取节点时段，基于节点时段确定上传内容的步骤包括：

由最大值、均值、最小值和预设的段数确定切分值；

上述内容对节点时段的选取过程进行了限定，确定节点时段的过程通俗地说，就是在多个数据统计图中选取出比较重要的数据统计图。

由前述内容可以得到，数据统计图反映了一个汇集端口下所有推广内容的交互数据，这些交互数据的其中一个影响因素就是时间，比如，夜晚的交互数据要远远小于白天的交互数据，对应的夜晚时段的数据统计图和白天时段的数据统计图之间差异极大；但是，造成这种差异的原因更多的是时间因素，而不是推广文件本身的因素，因此，需要将时间因素进行剔除。

在本发明技术方案的一个实例中，对数据统计图进行单值转换，然后对单值转换后的数据统计图进行分层，也即，将数据统计图中各像素点的值进行分类；分类的依据由自身的各像素点的值确定，分类后得到一个用分类结果表示的数据统计图，称为归一矩阵；其中，由自身的各像素点的值确定分类依据的过程需要考虑最大值、最小值、均值和段数四个参数，最大值、最小值和均值反映了各像素点值的分布情况，所述段数用于表示分类的类数，比如，在最小值和均值之间分10段，在均值和最大值之间分10段，两种分段方式的段距可能是不同的。

比对相邻的归一矩阵，可以在剔除时间因素的情况下，更真实的反映交互数据的变化情况。

作为本发明技术方案的一个优选实施例，所述根据所述变化率选取节点时段，基于节点时段确定上传内容的步骤包括：

当相邻的数据统计图之间的变化率较大时，这两个数据统计图对应的时段可以被标记为节点时段；查询节点时段的交互数据，然后再结合变化率数组，即可得到上传内容。

图4为基于云计算的大数据信息分析方法的第三子流程框图，所述接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量的步骤包括：

步骤S301：接收汇集端口发送的上传内容；

步骤S302：计算所述上传内容中交互数据的数据量；

步骤S303：根据计算出的数据量和变化率数组计算预测总量；

步骤S304：根据所述预测总量确定汇集端口的计算资源分配量。

上述内容对资源分配过程进行了限定，由交互数据的数据量和变化率数组可以计算出预测总量，比对不同汇集端口的预测总量，根据比对结果对已知的资源总量进行分配，即可得到不同汇集端口的资源分配量。

需要说明的是，最终的上传内容是部分比较重要的交互数据和一个变化率数组，基于现有技术对交互数据进行识别，即可生成产品分析报告；在这一过程中，变化率数组的作用是提供补充数据，比如，如果分析人员认为交互数据量不够，就可以根据变化率数组再选取一些时段，获取对应时段的交互数据即可，分析阶段的数据消耗量极低，资源利用率较高。

图5为基于云计算的大数据信息分析系统的组成结构框图，作为本发明技术方案的一个优选实施例，提供了一种基于云计算的大数据信息分析系统，所述系统10包括：

推送架构建立模块11，用于建立含有汇集端口的推送架构；所述推送架构用于表征推广内容的归属关系；

上传内容确定模块12，用于基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容；

资源分配模块13，用于接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量；

内容识别模块14，用于对上传内容进行识别，生成产品分析报告。

所述推送架构建立模块11包括：

所述上传内容确定模块12包括：

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于云计算的大数据信息分析方法，其特征在于，所述方法包括：

对上传内容进行识别，生成产品分析报告；

所述建立含有汇集端口的推送架构的步骤包括：

当首节点的节点数量小于预设的数量阈值时，选取首节点建立汇集端口；

所述基于汇集端口实时采集交互数据，对所述交互数据进行预识别，确定上传内容的步骤包括：

2.根据权利要求1所述的基于云计算的大数据信息分析方法，其特征在于，所述获取各时段推广内容的交互数据，将所述交互数据填充至对应的存储区域的步骤包括：

对所述操作数据进行识别，确定用户的交互行为；

3.根据权利要求2所述的基于云计算的大数据信息分析方法，其特征在于，所述对填充后的数据统计图进行识别，选取节点时段，基于节点时段确定上传内容的步骤包括：

由最大值、均值、最小值和预设的段数确定切分值；

4.根据权利要求3所述的基于云计算的大数据信息分析方法，其特征在于，所述根据所述变化率选取节点时段，基于节点时段确定上传内容的步骤包括：

5.根据权利要求4所述的基于云计算的大数据信息分析方法，其特征在于，所述接收汇集端口发送的上传内容，根据上传内容调节汇集端口的计算资源分配量的步骤包括：

接收汇集端口发送的上传内容；

计算所述上传内容中交互数据的数据量；

根据计算出的数据量和变化率数组计算预测总量；

根据所述预测总量确定汇集端口的计算资源分配量。

6.一种基于云计算的大数据信息分析系统，其特征在于，所述系统包括：

内容识别模块，用于对上传内容进行识别，生成产品分析报告；

所述推送架构建立模块包括：

第二端口建立单元，用于当首节点的节点数量小于预设的数量阈值时，选取首节点建立汇集端口；

所述上传内容确定模块包括：