CN116485282B

CN116485282B - 一种基于多维指标动态竞争的数据分组方法、设备及介质

Info

Publication number: CN116485282B
Application number: CN202310720624.XA
Authority: CN
Inventors: 徐同明; 鹿海洋; 魏代森; 谭宁宁; 张梅; 万熠; 姬帅
Original assignee: Inspur General Software Co Ltd
Current assignee: Inspur General Software Co Ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-29
Anticipated expiration: 2043-06-19
Also published as: CN116485282A; WO2024260338A1

Abstract

本申请公开了一种基于多维指标动态竞争的数据分组方法、设备及介质，涉及电数字数据处理领域，方法包括：获取需要进行数据分组的多个数据样本；根据本次数据分组所对应的场景需求中包含的指标，确定数据样本在指标下对应的指标值，以及指标权重；根据初始指标矩阵和指标权重矩阵，得到综合指标矩阵，并将综合指标矩阵与初始指标矩阵合并，得到集成指标矩阵；将第一分组指标矩阵和第二分组指标矩阵进行组合，得到组合指标矩阵，并进行指标值的更新。分组过程中，以综合指标降序排列从宏观上确定了综合指标的主导地位，采取了综合指标+单项指标双驱动的指标均衡方法，兼顾了各单项指标的均衡。

Description

一种基于多维指标动态竞争的数据分组方法、设备及介质

技术领域

本申请涉及电数字数据处理领域，具体涉及一种基于多维指标动态竞争的数据分组方法、设备及介质。

背景技术

随着技术的发展，越来越多的数据汇总在企业的服务端中，从而需要对数据进行分组处理，以便增加数据处理效率。

通常来说，对于拥有多评价指标的大数据样本，进行数据分组时，一般采用基于综合指标的分组方法。然而，传统基于综合指标的分组方法，忽略了单项指标的均衡性，易导致组间某些单项指标的巨大差异，造成组间单项指标的失衡。

发明内容

为了解决上述问题，本申请提出了一种基于多维指标动态竞争的数据分组方法，包括：

获取需要进行数据分组的多个数据样本；

根据本次数据分组所对应的场景需求中包含的指标，确定所述数据样本在所述指标下对应的指标值，以及所述指标对应的指标权重，并根据所述指标值建立初始指标矩阵，根据所述指标权重建立指标权重矩阵；

根据所述初始指标矩阵和所述指标权重矩阵，得到综合指标矩阵，并将所述综合指标矩阵与所述初始指标矩阵合并，得到集成指标矩阵；

根据所述场景需求确定对应的样本数量，在所述集成指标矩阵中选取所述样本数量对应的第一指定数据样本，以得到包含所述第一指定数据样本的第一分组指标矩阵；

在所述集成指标矩阵中选取所述样本数量对应的第二指定数据样本，以得到包含所述第二指定数据样本的第二分组指标矩阵，并将所述第一分组指标矩阵和所述第二分组指标矩阵进行组合，得到组合指标矩阵，以根据所述组合指标矩阵完成本轮分组，并进行所述指标值的更新。

另一方面，本申请还提出了一种基于多维指标动态竞争的数据分组设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：

获取需要进行数据分组的多个数据样本；

另一方面，本申请还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取需要进行数据分组的多个数据样本；

通过本申请提出的基于多维指标动态竞争的数据分组方法能够带来如下有益效果：

在分组过程中，以综合指标矩阵作为基础的主导地位，通过选取出的分组指标矩阵来增加单项指标的考虑范围，从而实现了综合指标+单项指标双驱动的指标均衡方法，兼顾了各单项指标的均衡，实现了多维度指标的综合考量。相比于传统仅基于综合指标进行大数据分组的算法，能保证分组后组间综合指标的均衡，并且采用多轮分组的策略，最大程度平衡了组间综合指标和单项指标的差异；宏观上按照综合指标降序排列，最大程度减小了最后一轮分组对综合指标不均衡性的影响。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中基于多维指标动态竞争的数据分组方法的流程示意图；

图2为本申请实施例中一种场景下的，基于多维指标动态竞争的数据分组方法的流程示意图；

图3为本申请实施例中基于多维指标动态竞争的数据分组设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供基于多维指标动态竞争的数据分组方法，包括：

S101：获取需要进行数据分组的多个数据样本。

图2为本申请实施例中一种场景下的，基于多维指标动态竞争的数据分组方法的流程示意图，以下结合图1和图2一起进行解释说明。

数据样本可以是不同类型的数据，比如，图像数据、文本数据等，数据来源可以是基于企业ERP系统中采集获取，或者，基于互联网获取。数据样本通常存储在企业的服务端中，由企业的服务端进行数据处理。

S102：根据本次数据分组所对应的场景需求中包含的指标，确定所述数据样本在所述指标下对应的指标值，以及所述指标对应的指标权重，并根据所述指标值建立初始指标矩阵，根据所述指标权重建立指标权重矩阵。

场景需求基于企业的需求进行设置，比如，数据样本为客户交易数据时，场景需求可以是将收集到的文本数据，按照不同的客户级别、交易类型、交易金额等指标进行分类，以确保每个类别中的数据更加相似。或者，数据样本为企业生产数据时，按照生产的产品类型、生产效率、产品价值等指标进行分类。

具体地，在确定了场景需求对应的指标后，通过人工标记每个数据样本，在各指标下的指标值，以及各指标对应的指标权重。比如，采集到了某个客户交易数据后，将其对应的客户级别标记为1（数字越高，级别越高），交易类型标记为1（共设置8个交易类型，每个类型对应于不同的标记值，相邻的标记值之间相似程度更高），交易金额则基于实际金额设置。

根据指标值建立初始指标矩阵，根据指标权重建立指标权重矩阵/>。

其中，；

；

其中，为/>阶指标矩阵，/>为/>阶权重矩阵，/>为样本数量，/>为指标数量，/>为第/>个数据样本在第/>个指标中对应的指标值；/>为第/>个指标对应的指标权重；为指标权重矩阵/>的转置矩阵。

为了衡量不同量纲的指标，对各指标值进行归一化处理，归一化可以采用线性函数转换、对数函数转换、反余切函数转换、Z-SCORE等方式。以线性函数转换为例，对第个指标值进行归一化处理的过程为：

；

其中，为/>个数据样本的第/>个指标的最大值，为/>个数据样本的第/>个指标的最小值。

基于此，依次对初始指标矩阵中的指标值进行归一化处理，得到归一化后的初始指标矩阵；

其中，；

其中，为进行归一化处理后的第/>个数据样本在第/>个指标中对应的指标值。

S103：根据所述初始指标矩阵和所述指标权重矩阵，得到综合指标矩阵，并将所述综合指标矩阵与所述初始指标矩阵合并，得到集成指标矩阵。

具体地，将归一化后的初始指标矩阵和指标权重矩阵相乘，得到综合指标矩阵；

其中，；

将综合指标矩阵与初始指标矩阵合并，得到集成指标矩阵。

其中，；集成指标矩阵/>能够兼顾综合指标和单项目标，其为m×(n+1)阶矩阵。

将集成指标矩阵按照的大小进行降序排列，得到降序排列的集成指标矩阵/>；

其中，；

其中，为将/>按照大小进行降序排列后，在集成指标矩阵/>中第i行第j+1列对应的值。

S104：根根据所述场景需求确定对应的样本数量，在所述集成指标矩阵中选取所述样本数量对应的第一指定数据样本，以得到包含所述第一指定数据样本的第一分组指标矩阵。

上述已经完成了集成指标矩阵的构建，将数据样本进行了统一的处理。此时开始进行初始化分组。

具体地，确定场景需求中包含的待分组数量k，k由人工设置，其指代本次所要分组得到的组的数量。

在降序排列的集成指标矩阵中，选取最前的k个第一指定数据样本，以得到包含有第一指定数据样本的第一分组指标矩阵；

其中，。

S105：在所述集成指标矩阵中选取所述样本数量对应的第二指定数据样本，以得到包含所述第二指定数据样本的第二分组指标矩阵，并将所述第一分组指标矩阵和所述第二分组指标矩阵进行组合，得到组合指标矩阵，以根据所述组合指标矩阵完成本轮分组，并进行所述指标值的更新。

在集成指标矩阵中，选取第k+1到第2k个数据样本（此时数据样本的数量也是k个），作为对应的第二指定数据样本，以得到包含有第二指定数据样本的第二分组指标矩阵。

其中，。

针对第一分组指标矩阵，选取第一分组指标矩阵/>中的最小值，并将最小值作为本轮的主评价指标，以按照主评价指标对第一分组指标矩阵进行降序排列，得到降序排列后的第一分组指标矩阵/>。

针对第二分组指标矩阵，将最小值作为本轮的主评价指标，以按照主评价指标对第二分组指标矩阵进行升序排列，得到升序排列后的第二分组指标矩阵/>。

由此得到；

；

其中，为/>经过降序排列或升序排列后，对应位置的指标值。

将降序排列后的第一分组指标矩阵与升序排列后的第二分组指标矩阵/>进行相加，对各组的指标值进行迭代更新，得到组合指标矩阵/>；

其中，

。

由此得到的组合指标矩阵中所包含的各指标值，来对指标值进行更新，此时，已经完成了本轮的分组，每行中所包含的数据样本即为单个分组中包含的数据样本。

针对集成指标矩阵中剩余的数据样本，根据更新后的指标值，进行下一轮分组，重新选取主评价指标，由于指标值已经更新，故而重新选取的主评价指标可能会发生变化，此时，可以将该过程称作动态竞争过程，由不同的指标实行动态竞争，选取主评价指标。根据主评价指标重新生成对应的第二分组指标矩阵，再进行升序排列，以将重新生成的第二分组指标矩阵经过升序排列后，添加至组合指标矩阵中，直至所有数据样本都被添加至组合指标矩阵中。

此时，针对组合指标矩阵，将每行中所包含的数据样本，作为分组结果中的单个分组。

如图3所示，本申请实施例还提供了一种基于多维指标动态竞争的数据分组设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取需要进行数据分组的多个数据样本；

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取需要进行数据分组的多个数据样本；

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于多维指标动态竞争的数据分组方法，其特征在于，包括：

获取需要进行数据分组的多个数据样本，所述数据样本的类型包括：图像数据、文本数据；

根据本次数据分组所对应的场景需求中包含的指标，确定所述数据样本在所述指标下对应的指标值，以及所述指标对应的指标权重，并根据所述指标值建立初始指标矩阵，根据所述指标权重建立指标权重矩阵；其中，所述数据样本为交易数据，所述场景需求中包含的指标包括客户级别、交易类型、交易金额，所述客户级别标记的数字越高，级别越高，不同所述交易类型对应于不同的标记值，所述交易金额基于实际金额设置；

在所述集成指标矩阵中选取所述样本数量对应的第二指定数据样本，以得到包含所述第二指定数据样本的第二分组指标矩阵，并将所述第一分组指标矩阵和所述第二分组指标矩阵进行组合，得到组合指标矩阵，以根据所述组合指标矩阵完成本轮分组，并进行所述指标值的更新；

根据所述指标值建立初始指标矩阵，根据所述指标权重建立指标权重矩阵，具体包括：

根据所述指标值建立初始指标矩阵，根据所述指标权重建立指标权重矩阵/>；

其中，；

；

其中，为样本数量，/>为指标数量，/>为第/>个数据样本在第/>个指标中对应的指标值；/>为第/>个指标对应的指标权重；/>为指标权重矩阵/>的转置矩阵；

根据所述指标值建立初始指标矩阵之后，所述方法还包括：

对所述初始指标矩阵中的指标值进行归一化处理，得到归一化后的初始指标矩阵；

其中，；

其中，为进行归一化处理后的第/>个数据样本在第/>个指标中对应的指标值；

根据所述初始指标矩阵和所述指标权重矩阵，得到综合指标矩阵，并将所述综合指标矩阵与所述初始指标矩阵合并，得到集成指标矩阵，具体包括：

将归一化后的初始指标矩阵和所述指标权重矩阵相乘，得到综合指标矩阵；

其中，；

将所述综合指标矩阵与所述初始指标矩阵合并，得到集成指标矩阵；

其中，；

将所述集成指标矩阵按照的大小进行降序排列，得到降序排列的集成指标矩阵/>；

其中，；

其中，为将/>按照大小进行降序排列后，在集成指标矩阵/>中第i行第j+1列对应的值；

根据所述场景需求确定对应的样本数量，在所述集成指标矩阵中分别多次选取所述样本数量对应的第一指定数据样本，以得到包含所述第一指定数据样本的第一分组指标矩阵，具体包括：

确定所述场景需求中包含的待分组数量k；

在降序排列的集成指标矩阵中，选取最前的k个数据样本，作为第一指定数据样本，以得到包含有所述第一指定数据样本的第一分组指标矩阵；

其中，；

在所述集成指标矩阵中选取所述样本数量对应的第二指定数据样本，以得到包含所述第二指定数据样本的第二分组指标矩阵，具体包括：

在所述集成指标矩阵中，选取第k+1到第2k个数据样本，作为对应的第二指定数据样本，以得到包含有所述第二指定数据样本的第二分组指标矩阵；

其中，；

将所述第一分组指标矩阵和所述第二分组指标矩阵进行组合，得到组合指标矩阵，以根据所述组合指标矩阵进行所述指标值的更新，具体包括：

针对第一分组指标矩阵，选取所述第一分组指标矩阵/>中的最小值，并将所述最小值作为本轮的主评价指标，以按照所述主评价指标对所述第一分组指标矩阵进行降序排列，得到降序排列后的第一分组指标矩阵/>;

其中，；

针对第二分组指标矩阵，将所述最小值作为本轮的主评价指标，以按照所述主评价指标对所述第二分组指标矩阵进行升序排列，得到升序排列后的第二分组指标矩阵/>；

其中，；

将所述降序排列后的第一分组指标矩阵与所述升序排列后的第二分组指标矩阵/>进行相加，得到组合指标矩阵/>；

其中，

；

根据所述组合指标矩阵中所包含的各指标值，对所述指标值进行更新，并根据所述组合指标矩阵/>对集成指标矩阵中剩余的样本数进行分组。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对所述集成指标矩阵中剩余的数据样本，根据更新后的指标值，重新选取主评价指标，并根据所述主评价指标重新生成对应的第二分组指标矩阵，以将重新生成的第二分组指标矩阵经过升序排列后，添加至所述组合指标矩阵中，直至所有数据样本都被添加至所述组合指标矩阵中；

针对所述组合指标矩阵，将每行中所包含的数据样本，作为分组结果中的单个分组。

3.一种基于多维指标动态竞争的数据分组设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：权利要求1所述的基于多维指标动态竞争的数据分组方法。

4.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：权利要求1所述的基于多维指标动态竞争的数据分组方法。