CN115049021B

CN115049021B - 应用于公众集群管理的数据处理方法和装置及其设备

Info

Publication number: CN115049021B
Application number: CN202210961375.9A
Authority: CN
Inventors: 余芳; 余聪; 徐飞
Original assignee: Jiangxi Heyi Cloud Data Technology Co ltd
Current assignee: Jiangxi Heyi Cloud Data Technology Co ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-08
Anticipated expiration: 2042-08-11
Also published as: CN115049021A

Abstract

本申请提供了一种应用于公众集群管理的数据处理方法和装置及其设备，运用于公众集群管理技术领域，其方法包括：调用数据、向量化数据、K‑means聚类数据、将数据导入至加权层叠坐标框架、坍缩框架、评估坐标框架坍缩后的数据匹配率，确认异常状态并反推问题，最终通过该问题生成视图提供与管理者，本申请提出的公众集群管理的数据处理方法和装置及其设备绕过了传统的分区化数据存储以及数据输出，减少了输出通路，通过也避免了采用扩充存储单元的方式，达到了公众集群管理平台的数据存储及输出的容量均衡，减少了成本，实现PCB单板执行公众集群管理的效果。

Description

应用于公众集群管理的数据处理方法和装置及其设备

技术领域

本申请涉及公众集群管理技术领域，特别涉及一种应用于公众集群管理的数据处理方法和装置及其设备。

背景技术

公众集群管理一般运用于大型的集群化区域，例如有：医院、车站等，针对于此的公共管理仅能采用数据化处理办法，在现有的数据化处理办法中常见的方式是对数据处理使用抽取-转换-装载(Extract-Transform-Load，简称ETL)的处理工具，可以将分散的数据采集到数据仓库中或者数据管理平台中，但涉及在公众集群管理方面的数据处理过量，存在以下问题：

（1）基站分区式数据处理法，即TCCH（TrunkingControlChannel，集群控制信道），通过分区来弱化数据量，分区式管理意味着分别建立对应的分区通道，并需要对数据链进行编排而逐一输出，此种方式占用缓存过多、影响集群化管理平台的单板负荷。

（2）数据动态分布处理法，扩容存储单元，对数据包进行标定并输出至新的存储单元，实现集群管理平台的容量均衡，从而提高集群系统的性能，此方法需新增存储单元并扩充通信上下行，即是通过提升成本的方式来实现数据量的均衡输出，保障数据处理稳定。

为解决上述问题，最优的一种方案是建立相关模型，进行AI智能优化摒弃无用数据流，同时还需要解决建立卷积神经网络模型的复杂过程，基于此：

参考专利申请号201810110273.X-基于集群缩放的Spark配置参数自动调优方法，及其相关专利如：201610068611.9-一种Spark平台性能自动优化方法、201611182310.5-一种数据感知的Spark配置参数自动优化方法；通过(1)搭建集群；(2)选择配置参数集合；(3)确定配置参数取值类型和范围；(4)缩放集群；(5)训练随机森林模型；(6)筛选最佳配置；(7)验证配置效果。在应用于海量数据处理技术领域中，通过缩放分布式内存计算框架Spark内存配置参数取值范围和待处理数据量，缩短评价每个配置的时间，通过随机森林模型建立配置与分布式内存计算框架Spark集群性能影响力之间的关系，搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。

此先有技术优化了AI智能的建立方式，但从其方案针对的来说，Spark方式的调度方法，是通过优先程度来定义调取的次数，从而确定关键因子的权重，在现在社会的公众集群管理来说，每天的数据输入与输出都存在权重差异，并且所有Spark转换都是惰性的，也就是说，并不会马上发生计算。相反的，它只是记住应用到基础数据集上的这些转换。而这些转换只会在有一个动作发生，要求返回结果给驱动应用时，才真正进行计算。因此，在公众集群管理存在差异化变动，数据量交互大的前提下，如何实现AI模型的建立且其权重值能随差异化而自行转换，从而解决存储占用大的单体主板负荷大的问题是目前公众集群管理所迫切需要的。

发明内容

本申请的目的是提供一种应用于公众集群管理的数据处理方法和装置及其设备，旨在解决业务问题分类存在误差，导致业务问题库中各业务问题占比不精确，以及无法预防意想不到的业务问题的问题。

为实现上述目的，本申请提供如下技术方案：

本申请提供一种应用于公众集群管理的数据处理方法，包括：

获取数据库调用指令，并根据指令从预设的数据库中调取与数据库调用指令匹配类型的单体数据，其中所述单体数据包括但不限于为医疗数据资料，且所述单体数据的类型包括视频数据、文本数据以及音频数据的一项或多项；

对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量；

将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线；

通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中；

再通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线；

判断预设在数据库中单体数据对应的异常函数与所述正向截断曲线的曲线复合率，同时反推与所述反向加权曲线匹配的单体数据类型；

生成视图数据，若所述曲线复合率高于指定阈值，则通过反推后的单体数据类型在所述视图数据中进行特殊显示。

进一步地，对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量，包括：

拆解所述单体数据的第一级类型为视频类型、文本类型和语音类型，同时得到视频数据、文本数据和语音数据；

采用小波变换对视频数据和语音数据进行编码化得到量化数据，对所述文本数据进行关键词识别摘取得到文本集合，而后对所述量化数据和文本集合进行向量化，得到所述正值单体向量；

对所述正值单体向量进行镜像，得到所述负值单体向量。

进一步地，采用小波变换对视频数据和语音数据进行编码化得到量化数据，对所述文本数据进行关键词识别摘取得到文本集合，而后对所述量化数据和文本集合进行向量化，包括：

归集所述视频数据、文本数据和语音数据，形成初始向量集合

；

转换所述初始向量集合中的视频数据

和语音数据

，既包括分解和重构，其中

分解公式

;

重构公式

；

进行了视频数据

和语音数据

的分解与重构后，得到所有数据文本化的中间态向量集合

；

对所述中间态向量集合进行轻量化，即对视频数据

和语音数据

进行编码，其中

从而生成正值单体向量

和负值单体向量

。

进一步地，将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线，包括：

建立虚坐标系，将所述正值单体向量和负值单体向量分别完全重合坐标系的一、四坐标系的正X轴和坐标系二、三的负X轴；

对所述单体数据中的视频类型、文本类型和语音类型进行第二级类型拆解，得到所述视频数据、文本数据和语音数据中的若干视频节点、若干文本节点和若干语音节点；

进行K-means算法对若干视频节点、若干文本节点和若干语音节点进行聚类，通过节点的重复聚合量，将对所述正值单体向量和负值单体向量在虚坐标系中进行调整，从而得到正向加权曲线和反向加权曲线。

进一步地，通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中，包括：

判定所述正向加权曲线和反向加权曲线中的曲线数值所匹配的加权坐标系；

若匹配成功，则坍缩所述加权层叠坐标框架，从而得到加权坐标系上形成正向加权曲线和反向加权曲线。

进一步地，通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线，包括：

采用注意力算法机制中的支持向量机对正向加权曲线和反向加权曲线进行截断处理，其中

得到正向截断曲线

和反向截断曲线

。

进一步地，判断预设在数据库中单体数据对应的异常函数与所述正向截断曲线的曲线复合率，包括：

采用杰卡德距离对正向截断曲线和所述异常函数在加权坐标系中的曲线进行比对之前，将正向截断曲线匹配至公式，即

对比正向截断曲线和所述异常函数的所述曲线复合率的jaccard相似度，其中

从而得到所述曲线复合率。

本申请还提供一种应用于公众集群管理的数据处理装置，包括：

获取单元，用于获取数据库调用指令，并根据指令从预设的数据库中调取与数据库调用指令匹配类型的单体数据，其中所述单体数据包括但不限于为医疗数据资料，且所述单体数据的类型包括视频数据、文本数据以及音频数据的一项或多项；

向量量化单元，用于对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量；

坐标聚类单元，用于将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线；

坐标坍缩单元，用于通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中；

注意力加权单元，用于再通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线；

支持向量机单元，用于判断预设在数据库中单体数据对应的异常函数与所述正向截断曲线的曲线复合率，同时反推与所述反向加权曲线匹配的单体数据类型；

视图单元，用于生成视图数据，若所述曲线复合率高于指定阈值，则通过反推后的单体数据类型在所述视图数据中进行特殊显示。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述的应用于公众集群管理的数据处理方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的应用于公众集群管理的数据处理方法的步骤。

本申请提供了一种应用于公众集群管理的数据处理方法和装置及其设备，具有以下有益效果：

（1）本申请提出的公众集群管理的数据处理方法和装置及其设备绕过了传统的分区化数据存储以及数据输出，减少了输出通路，通过也避免了采用扩充存储单元的方式，达到了公众集群管理平台的数据存储及输出的容量均衡，减少了成本，实现PCB单板执行公众集群管理的效果。

（2）通过K-means聚类算法的聚类处理，对公众集群管理平台中的输出后数据进行聚合压缩，第一步缩减数据输出的主板缓存占用量，并将所输出的数据（即与单体数据对应的正值单体向量和负值单体向量）导入至加权层叠坐标框架中，此举避开了神经网络模型的建立与训练过程，同时也能智能的摒弃无用的数据流，完成数据轻量化。

（3）通过坍缩加权层叠坐标框架，确定数据库调用指令所调取出的单体数据所对应的加权坐标系，能够最精准的对单体数据进行对应的处理，实现其权重值能随差异化而自行转换，如医院、车站等公众集群管理平台的风控管理的要素是不同的，通过此种框架坍缩的方式，实现了随用户调取公众集群管理平台的数据库调用指令的不同，进行差异化调整，改变了传统卷积神经网络模型的单一加权法。

附图说明

图1为本申请一实施例的应用于公众集群管理的数据处理方法的流程示意图。

图2为本申请一实施例的应用于公众集群管理的数据处理装置的结构框图。

图3为本申请一实施例的计算机设备的结构示意框图。

本申请为目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考附图1，为本申请提出的应用于公众集群管理的数据处理方法的流程示意图；

本申请所提供的应用于公众集群管理的数据处理方法，步骤包括：

S100，获取数据库调用指令，并根据指令从预设的数据库中调取与数据库调用指令匹配类型的单体数据，其中所述单体数据包括但不限于为医疗数据资料，且所述单体数据的类型包括视频数据、文本数据以及音频数据的一项或多项；

该步骤中，管理者通过计算机设备输入数据库调用指令至预设于计算机设备中的公众集群管理平台，公众集群管理平台中的存储单元响应该数据库调用指令并调取对应类型的单体数据，如医疗数据资料、实时车站数据资料、教学资料等。

具体的，数据库调用指令可以是具体的关键字，通过关键字在数据库中调取与其对应的单体数据。

S200，对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量；

因为单体数据的类型包括视频数据、文本数据以及音频数据一项或多项，在此步骤中需要将单体数据进行向量化以便于之后的加权评估处理，因此，如何对其中的视频数据和音频数据进行量化是目前需要克服的难点，基于此本申请提出如下方式，即步骤：

对调取得到的单体数据线进行分类，从而得到视频类型、文本类型和语音类型的一项或多项，进而确认出视频数据、文本数据和语音数据一项或多项。

在该步骤中，

；

转换所述初始向量集合中的视频数据

和语音数据

，既包括分解和重构，其中

分解公式

;

重构公式

；

进行了视频数据

和语音数据

的分解与重构后，得到所有数据文本化的中间态向量集合

；

对所述中间态向量集合进行轻量化，即对视频数据

和语音数据

进行编码，其中

从而生成正值单体向量

和负值单体向量

。

具体的，确定单体数据中的类型是否会出现视频数据和语音数据中的任一项，若存在，则执行小波变换，进行分解、重构、量化编码过程；其中，在公众集群的相关事宜中，单体数据的视频数据、文本数据和语音数据都会存在，本申请依此为例，将视频数据、文本数据和语音数据进行集合，并在每个数据上增加向量，从而得到初始向量集合

，其中

为视频数据、

为文本数据、

语音数据；

分别将

为视频数据和

语音数据导入至分解公式和重构公式中，因为文本数据本身处于word状态，因此无需进行小波变换过程，在对视频数据和语音数据进行分解和重构时仅做跟随过程，具体导入至分解公式和重构公式中为：

分解公式

;

重构公式

；

其中，

为待分解/重构对象，即为将

为视频数据、

语音数据逐一套入此数中，

为量化视频数据

和语音数据

的长度，

视为量化后的视频图像帧长度、

视为量化后的视频中音频帧长度；

为二等分逐层分解法针对于视频数据

中的视频图像帧长度

和视频中音频帧长度

进行第一次二等分分隔，

为第二次或多次二等分分隔的计算公式，可以理解，f确定后，第一次采用

，之后的分解均采用

，需要理解的是，j与k分别属于视频数据中的视频图像帧和音频帧，P为语音数据

的帧长度，另外，

为针对于视频图像帧长度

逐步减帧并匹配音频帧长度

，

中的

为视频图像帧长度

中的逐帧语音数据，

为分解f 后的符号，

针对于视频图像帧长度

逐步减帧并匹配原视频图像帧长度

此步用于查验是否数据丢失。进行了视频数据

和语音数据

的分解与重构后，得到所有数据文本化的中间态向量集合

；

对所述中间态向量集合进行轻量化，即对视频数据

和语音数据

进行编码，其中

在上述公式中，

为经过分解与重构后的单体数据的视频数据和语音数据，i 为需轻量化次数，其主要进行轻量化仅针对视频数据中的视频图像帧（原因是视频图像帧是导致数据存储量大的关键因素），N为色素锐化分解，M为RBG的六位数编码，即对视频数据中的视频图像帧进行了i次的色素锐化分解后进行RBG的六位数编码从而形成了可排列的编码数据集合，该集合集合了每帧的图像色素编码，从而形成了

。最后通过步骤对所述正值单体向量进行镜像，得到所述负值单体向量

。

S300，将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线；

具体的，将编码形式后并转化为向量化的正值单体向量

和

导入至预设于计算机设备中的加权层叠坐标框架中，可以理解加权层叠坐标框架包括X、Y、Z三轴，Z轴的延伸段长度由公众集群管理平台中的公众集群类别确定，该公众集群类别例如有医疗数据资料、实时车站数据资料、教学资料等，将正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中的步骤，方式如下：

进行K-means算法对若干视频节点、若干文本节点和若干语音节点进行聚类，通过节点的重复聚合量，将对所述正值单体向量和负值单体向量在虚坐标系中进行调整，从而得到正向加权曲线和反向加权曲线。需要说明的是，K-means算法属于较为公知的技术，本申请不做太多赘述。

S400，通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中；

在实施过程中，当正向加权曲线和反向加权曲线的加权层叠坐标框架中时，判断正向加权曲线和反向加权曲线具体匹配的Z轴类型，例如，当单体数据所指令的是医疗数据时，在加权层叠坐标框架中所呈现的例如教育数据所对应的坐标系就无法呈现该正向加权曲线/反向加权曲线，因此实现匹配过程，进而进行坍缩，从原来的XYZ三轴坍缩成XY两轴，得到正向加权曲线和反向加权曲线载入至匹配的加权坐标系中的效果，即是判定所述正向加权曲线和反向加权曲线中的曲线数值所匹配的加权坐标系；若匹配成功，则坍缩所述加权层叠坐标框架，从而得到加权坐标系上形成正向加权曲线和反向加权曲线的过程。

S500，再通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线；

具体的，此步骤意为将单体数据进一步的轻量化，使数据在输出/输入过程中减少PCB单板负荷问题，其对于注意力算法对正向加权曲线和反向加权曲线进行截断处理的方式为：

采用注意力算法机制中的支持向量机（SVM）对正向加权曲线和反向加权曲线进行截断处理，其中

得到正向截断曲线

和反向截断曲线

。

其中，

为坐标系符号，

为正向加权曲线/反向加权曲线，i为截断次数，

为针对于Y轴上的截断，

为针对于X轴上的截断，n为正向加权曲线中的集合数（例如：

此 n=3），

为削减正向加权曲线的边缘计算值以及b所确定的损失函数，此中的边缘计算和损失函数均可以通过常规的卷积神经网络的边缘计算和损失函数进行理解。

S600，判断预设在数据库中单体数据对应的异常函数与所述正向截断曲线的曲线复合率，同时反推与所述反向加权曲线匹配的单体数据类型；

在得到了正向截断曲线以及反向加权曲线后，进行异常状态的判断，即将正向截断曲线与预设在数据库中单体数据对应的异常函数（此函数在坐标系中可形成对应的曲线）进行曲线复合率的比对；在此同时对反向加权曲线进行反推程序；当曲线复合率比对完成后，如果复合率过高，则视为出现异常，对正向截断曲线中重复率过高的节点进行标定，标定至反向加权曲线的反推程序中，最终得到异常数据；具体的曲线复合率匹配过程为：

其中，A为正向截断曲线的集合向量，B为异常函数在加权坐标系中的曲线对应的集合向量。

从而得到所述曲线复合率，上述的

为曲线复合率，

代表向量A和向量B均为1 的个数，

代表向量A位1和向量B为0的个数，

代表向量A位0和向量B为1的个数。

S700，生成视图数据，若所述曲线复合率高于指定阈值，则通过反推后的单体数据类型在所述视图数据中进行特殊显示。

如果复合率过高，则视为出现异常，对正向截断曲线中重复率过高的节点进行标定，标定至反向加权曲线的反推程序中，最终得到异常数据；在生成视图数据的过程中，对存在异常数据的视图数据进行特殊显示，以告知管理者。

参考附图2，本发明还提供一种应用于公众集群管理的数据处理装置，包括：

获取单元1，用于获取数据库调用指令，并根据指令从预设的数据库中调取与数据库调用指令匹配类型的单体数据，其中所述单体数据包括但不限于为医疗数据资料，且所述单体数据的类型包括视频数据、文本数据以及音频数据的一项或多项；

向量量化单元2，用于对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量；

坐标聚类单元3，用于将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线；

坐标坍缩单元4，用于通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中；

注意力加权单元5，用于再通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线；

支持向量机单元6，用于判断预设在数据库中单体数据对应的异常函数与所述正向截断曲线的曲线复合率，同时反推与所述反向加权曲线匹配的单体数据类型；

视图单元7，用于生成视图数据，若所述曲线复合率高于指定阈值，则通过反推后的单体数据类型在所述视图数据中进行特殊显示。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储单体数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种应用于公众集群管理的数据处理方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种应用于公众集群管理的数据处理方法的步骤，具体为：

综上所述，本申请通过调用数据、向量化数据、K-means聚类数据、将数据导入至加权层叠坐标框架、坍缩框架、评估坐标框架坍缩后的数据匹配率，确认异常状态并反推问题，最终通过该问题生成视图提供与管理者，本申请提出的公众集群管理的数据处理方法和装置及其设备绕过了传统的分区化数据存储以及数据输出，减少了输出通路，通过也避免了采用扩充存储单元的方式，达到了公众集群管理平台的数据存储及输出的容量均衡，减少了成本，实现PCB单板执行公众集群管理的效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

尽管已经示出和描述了本申请的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由所附权利要求及其等同物限定。

Claims

1.一种应用于公众集群管理的数据处理方法，其特征在于，包括：

对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量，具体为：拆解所述单体数据的第一级类型为视频类型、文本类型和语音类型，同时得到视频数据、文本数据和语音数据；采用小波变换对视频数据和语音数据进行编码化得到量化数据，对所述文本数据进行关键词识别摘取得到文本集合，而后对所述量化数据和文本集合进行向量化，得到所述正值单体向量；对所述正值单体向量进行镜像，得到所述负值单体向量；

将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线，具体为：建立虚坐标系，将所述正值单体向量和负值单体向量分别完全重合坐标系的一、四坐标系的正X轴和坐标系二、三的负X轴；对所述单体数据中的视频类型、文本类型和语音类型进行第二级类型拆解，得到所述视频数据、文本数据和语音数据中的若干视频节点、若干文本节点和若干语音节点；进行K-means算法对若干视频节点、若干文本节点和若干语音节点进行聚类，通过节点的重复聚合量，将对所述正值单体向量和负值单体向量在虚坐标系中进行调整，从而得到正向加权曲线和反向加权曲线；

通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中；通过判定所述正向加权曲线和反向加权曲线中的曲线数值所匹配的加权坐标系；若匹配成功，则坍缩所述加权层叠坐标框架，从而得到加权坐标系上形成正向加权曲线和反向加权曲线，具体为：当正向加权曲线和反向加权曲线的加权层叠坐标框架中时，判断正向加权曲线和反向加权曲线具体匹配的Z轴类型，当单体数据所指令的是医疗数据时，在加权层叠坐标框架中所呈现的教育数据所对应的坐标系就无法呈现该正向加权曲线/反向加权曲线，因此实现匹配过程，进而进行坍缩，从原来的XYZ三轴坍缩成XY两轴，得到正向加权曲线和反向加权曲线载入至匹配的加权坐标系中的效果，即是判定所述正向加权曲线和反向加权曲线中的曲线数值所匹配的加权坐标系；若匹配成功，则坍缩所述加权层叠坐标框架，从而得到加权坐标系上形成正向加权曲线和反向加权曲线的过程；

再通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线，具体为：采用注意力算法机制中的支持向量机对正向加权曲线和反向加权曲线进行截断处理，其中

得到正向截断曲线

和反向截断曲线

；

其中，

为坐标系符号，

为正向加权曲线/反向加权曲线，i为截断次数，

为针对于Y 轴上的截断，

为针对于X轴上的截断，n为正向加权曲线中的集合数，

为削减正向加权曲线的边缘计算值以及b所确定的损失函数；

2.根据权利要求1所述的应用于公众集群管理的数据处理方法，其特征在于，判断预设在数据库中单体数据对应的异常函数与所述正向截断曲线的曲线复合率，包括：

从而得到所述曲线复合率；

其中，A为正向截断曲线的集合向量，B为异常函数在加权坐标系中的曲线对应的集合向量，上述的

为曲线复合率，

代表向量A和向量B均为1的个数，

代表向量A为1和向量B为0的个数，

代表向量A为0和向量B为1的个数。

3.一种应用于公众集群管理的数据处理装置，其特征在于，包括：

向量量化单元，用于对所述单体数据进行两端向量化，生成正值单体向量和负值单体向量，具体为：拆解所述单体数据的第一级类型为视频类型、文本类型和语音类型，同时得到视频数据、文本数据和语音数据；采用小波变换对视频数据和语音数据进行编码化得到量化数据，对所述文本数据进行关键词识别摘取得到文本集合，而后对所述量化数据和文本集合进行向量化，得到所述正值单体向量；对所述正值单体向量进行镜像，得到所述负值单体向量；

坐标聚类单元，用于将所述正值单体向量和负值单体向量分别导入预设的加权层叠坐标框架中，并采用K-means聚类算法分别对正值单体向量和负值单体向量进行聚类处理，以形成在所述加权层叠坐标框架中分别与所述正值单体向量和负值单体向量对应的正向加权曲线和反向加权曲线，具体为：建立虚坐标系，将所述正值单体向量和负值单体向量分别完全重合坐标系的一、四坐标系的正X轴和坐标系二、三的负X轴；对所述单体数据中的视频类型、文本类型和语音类型进行第二级类型拆解，得到所述视频数据、文本数据和语音数据中的若干视频节点、若干文本节点和若干语音节点；进行K-means算法对若干视频节点、若干文本节点和若干语音节点进行聚类，通过节点的重复聚合量，将对所述正值单体向量和负值单体向量在虚坐标系中进行调整，从而得到正向加权曲线和反向加权曲线；

坐标坍缩单元，用于通过所述正向加权曲线和反向加权曲线将所述加权层叠坐标框架进行坍缩，使所述正向加权曲线和反向加权曲线载入至匹配的加权坐标系中；通过判定所述正向加权曲线和反向加权曲线中的曲线数值所匹配的加权坐标系；若匹配成功，则坍缩所述加权层叠坐标框架，从而得到加权坐标系上形成正向加权曲线和反向加权曲线，具体为：当正向加权曲线和反向加权曲线的加权层叠坐标框架中时，判断正向加权曲线和反向加权曲线具体匹配的Z轴类型，当单体数据所指令的是医疗数据时，在加权层叠坐标框架中所呈现的教育数据所对应的坐标系就无法呈现该正向加权曲线/反向加权曲线，因此实现匹配过程，进而进行坍缩，从原来的XYZ三轴坍缩成XY两轴，得到正向加权曲线和反向加权曲线载入至匹配的加权坐标系中的效果，即是判定所述正向加权曲线和反向加权曲线中的曲线数值所匹配的加权坐标系；若匹配成功，则坍缩所述加权层叠坐标框架，从而得到加权坐标系上形成正向加权曲线和反向加权曲线的过程；

注意力加权单元，用于再通过所述正向加权曲线和反向加权曲线在加权坐标系中的坐标区间，调用与所述坐标区间对应的注意力算法对正向加权曲线和反向加权曲线进行截断处理，得到正向截断曲线和反向截断曲线，具体为：采用注意力算法机制中的支持向量机对正向加权曲线和反向加权曲线进行截断处理，其中