CN117421492A

CN117421492A - 一种数据要素商品的筛选系统及方法

Info

Publication number: CN117421492A
Application number: CN202311745491.8A
Authority: CN
Inventors: 吴钒; 周頔; 林森; 彭伟
Original assignee: Sichuan Jiuyuan Yinhai Software Co ltd
Current assignee: Sichuan Jiuyuan Yinhai Software Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-01-19
Anticipated expiration: 2043-12-19
Also published as: CN117421492B

Abstract

本发明公开了一种数据要素商品的筛选系统及方法，属于数据挖掘领域。筛选系统包括：数据存储单元；数据读取单元；数据处理单元，用于生成商品历史销量矩阵和商品历史数据质量矩阵；矩阵运算单元，用于根据数据处理单元的处理结果得到销量相关系数和数据质量相关系数，然后得到第一商品对序列和第二商品对序列；社群发现单元，用于根据第一商品对序列和第二商品对序列生成第一商品关系图和第二商品关系图，然后进行群组识别形成第一商品群组和第二商品群组；社群合并单元，用于求第一商品群组和第二商品群组的交集得到第三商品群组；结果输出单元，用于将第三商品群组输出。本发明提高了最终系数计算结果的可靠性。

Description

一种数据要素商品的筛选系统及方法

技术领域

本发明属于数据挖掘领域，特别是涉及一种数据要素商品的筛选系统及方法。

背景技术

数据要素作为一种新型的生产要素正在并将继续融入生产、分配、流通、消费和社会服务管理等各环节，有着巨大且广阔的前景。将数据要素作为商品进行流通和交易是其价值体现必不可少的步骤，为了活跃数据要素市场，激励更多的数据提供方和数据加工方参与进来，如何针对数据要素类商品进行定价和调价以保证数据提供方和数据加工方的利益是一个重要的问题。

对于常规商品来说，价格、销量、收益之间存在强关联，价格需求弹性系数可以对商品价格变化和销量变化之间关系进行定量描述，进而计算出不同定价下的收益，因此价格需求弹性系数能够为销售主体进行商品价格调整提供非常有价值的参考。而数据要素商品与常规商品之间存在一些差异，数据要素商品的销量对价格并不能呈现出常规商品那样的敏感性，因此计算数据要素商品的价格需求弹性系数的意义没有常规商品大。

对于数据要素商品来说，其数据质量与销量之间存在强关联关系，类比常规商品的价格需求弹性系数，可以计算数据要素商品的数据质量需求弹性系数，求得该系数后，就可以获知在相同定价的前提下数据质量和销量的关系，进而计算出不同数据质量对应的收益。

现有技术都聚焦于价格需求弹性系数的计算（如专利CN115375091A）或基于价格需求弹性系数建立模型（如专利CN112465403A, CN110298726A，CN112395748A）上，并未着眼于选择哪些商品进行弹性系数计算，默认在计算系数时商品的范围已经确定或参与计算的商品是唯一的。但在实际操作中往往需要对若干商品的系数进行计算，一般有两种做法：1.对所有商品逐一计算各自的系数；2.将商品划分为不同的组，同一组商品共同计算一个系数。方案1仅适用于待计算商品种类较少的情况，在大量商品待计算的场景下方案2更加的高效，对于方案2，需要研究如何对商品进行分组，以保证系数计算的效果更好。

发明内容

本发明的目的在于克服现有技术的不足，提供一种数据要素商品的筛选系统及方法。

本发明的目的是通过以下技术方案来实现的：

本发明的第一方面提供了一种数据要素商品的筛选系统，所述筛选系统包括：

数据存储单元，用于存储商品编号信息、时间信息、商品历史销量信息和商品历史数据质量信息；

数据读取单元，用于从数据存储单元中获取第一数据，并将第一数据送往数据处理单元，所述第一数据包括商品历史销量信息和商品历史数据质量信息；

数据处理单元，用于根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵；

矩阵运算单元，用于根据商品历史销量矩阵得到各商品间的销量相关系数，根据商品历史数据质量矩阵得到各商品间的数据质量相关系数，以及根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列；

社群发现单元，用于根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；以及根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组；

社群合并单元，用于将第一商品群组和第二商品群组逐一比对求交集，形成第三商品群组；

结果输出单元，用于将所述第三商品群组输出。

进一步地，所述数据处理单元具体用于：

剔除历史销量信息和历史数据质量信息中的噪声数据；

根据剔除噪声数据后的商品历史销量信息形成商品历史销量矩阵；

根据剔除噪声数据后的商品历史数据质量信息形成商品历史数据质量矩阵。

进一步地，所述矩阵运算单元具体用于：

对商品历史销量矩阵求皮尔逊相关系数，得到各商品间的销量相关系数；

对商品历史数据质量矩阵求皮尔逊相关系数，得到各商品间的数据质量相关系数；

保留销量相关系数大于第一阈值的商品对，形成第一商品对序列；

保留数据质量相关系数大于第二阈值的商品对，形成第二商品对序列。

进一步地，所述社群发现单元具体用于：

根据第一商品对序列生成第一商品关系图；

利用社群发现算法对第一商品关系图进行群组识别，形成第一商品群组；

根据第二商品对序列生成第二商品关系图；

利用社群发现算法对第二商品关系图进行群组识别，形成第二商品群组。

进一步地，所述社群发现算法包括：

第一步，将第一商品关系图或第二商品关系图中每个节点作为单独的社群，社群的个数与节点个数相同；

第二步，分别将各个节点与其邻节点进行合并，将最大模块增益度大于0的节点归入模块增量最大的相邻节点所在社群；

第三步，循环迭代第一步和第二步，直到所有节点所属的社群不再变化；

第四步，将各个社群内所有节点视同为单一节点，社群内所有节点的边权重转换为新节点指向自身的边权重，社群间的边权重转化为新节点间的边权重；

第五步，重复第一步至第三步，直至达到预设条件，从而得到第一商品群组或第二商品群组，其中，预设条件为社群不再变化、达到设定的最大迭代次数或最大模块增益小于指定值。

本发明的第二方面提供了一种数据要素商品的筛选方法，所述筛选方法包括：

获取商品编号信息、时间信息、商品历史销量信息和商品历史数据质量信息；

根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵；

根据商品历史销量矩阵得到各商品间的销量相关系数，根据商品历史数据质量矩阵得到各商品间的数据质量相关系数；

根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列；

根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组；

将第一商品群组和第二商品群组逐一比对求交集，形成并输出第三商品群组。

进一步地，根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵，包括：

剔除历史销量信息和历史数据质量信息中的噪声数据；

进一步地，根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列，包括：

进一步地，根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组，包括：

根据第一商品对序列生成第一商品关系图；

根据第二商品对序列生成第二商品关系图；

进一步地，所述社群发现算法包括：

本发明的有益效果是：数据质量需求弹性系数是描述数据要素商品的数据质量与数据要素商品的需求量之间关系的参数，不同数据要素商品的数据质量-需求量的关系不尽相同，如果不加筛选的使用数据要素商品的历史数据来计算数据质量需求弹性系数而参与计算的数据要素商品的数据质量需求关系差别较大的话，会导致最终计算结果的可靠性和实用性降低。本发明通过皮尔逊相关系数筛选数据要素商品中数据质量变化规律相关性较高和需求量变化规律相关性较高的商品对，又通过社群发现算法将这两类成对的商品形成两类商品群，最后通过两群求交集的方法筛选出了数据质量-需求变化关系相近的商品群，确保了最终系数计算结果的可靠性。此外，通过本发明的操作方式将数据商品分群后，针对不同商品群计算不同的数据质量需求弹性系数使得系数更加精细，提高了系数的实用性。

附图说明

图1为本发明中筛选系统的一种组成框图；

图2为一个实施例中的初始社群图；

图3为一个实施例中的最终社群图；

图4为本发明中筛选方法的一种流程图。

具体实施方式

下面将结合实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1至图4，本发明提供一种数据要素商品的筛选系统及方法：

本实施例的第一方面提供了一种数据要素商品的筛选系统，如图1所示，所述筛选系统包括数据存储单元、数据读取单元、数据处理单元、矩阵运算单元、社群发现单元、社群合并单元和结果输出单元。

数据存储单元用于存储商品编号信息、时间信息、商品历史销量信息和商品历史数据质量信息。

商品编号需要体现商品特异性，不同的商品对应不同的编号。

时间信息可以采用X年Y月、X年第Y周或X年Y月Z日等形式。

商品历史销量信息和商品历史数据质量信息需体现与时间信息对应的时间下的商品销量和商品数据质量。以X年Y月为例，数据存储的形式如表1所示。

表1 商品销量和商品数据质量的数据存储形式

选择时间形式的原则为：确保每种商品产生尽可能多的销量和数据质量记录；确保不会出现大量同一种商品在不同时间下数据质量完全相同的情况。（若某种商品历史数据质量从未发生过变化，则无法通过本实施例的方法进行后续处理）。

数据读取单元用于从数据存储单元中获取第一数据，并将第一数据送往数据处理单元，所述第一数据包括商品历史销量信息和商品历史数据质量信息。

数据处理单元用于根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵。

在一些实施例中，先剔除第一数据中的噪声数据，然后再生成商品历史销量矩阵和商品历史数据质量矩阵。

噪声数据包括日期异常、数据质量指标异常、销量异常、商品编号缺失等的数据（此处的异常是指数据不符合相应的预设标准或预设区间范围等）；日期异常包含日期格式异常，日期范围异常（日期对应未来某时间点或明显过于古老的时间点等），数据质量指标异常包含指标过高或过低等；销量异常包含销量为负数、销量过高或过低等。剔除过高或过低异常数值的方法包括但不限于通过拉依达准则（]）、IQR方法([Q1-1.5*IQR,Q3+1.5*IQR])等来限定异常阈值。

剔除噪声数据后对商品历史销量和商品历史数据质量数据分别进行加工，形成以日期为首行，商品ID为首列，销量或数据质量指标为值的两个矩阵（表），每一行数据表示当前日期下所有商品的销量或数据质量，若当前日期某商品没有销量或数据质量的数据，则相应位置为空，如表2所示。

表2 商品历史销量（数据）矩阵

对于商品历史销量矩阵（表）来说，若存在部分日期销量为空，则以该商品在全周期范围内的销量均值来填充。对于商品历史数据质量矩阵（表）来说，若存在部分日期数据质量指标为空，则以该商品在前一个时间点的数据质量指标来填充，若当前时间点之前的所有数据质量指标都为空值，则用后续第一个不为空的时间点的数据质量指标来填充全部早于该非空时间点的数据质量指标空值。如表3所示。

表3 填充后的商品历史销量（数据）矩阵

矩阵运算单元用于根据商品历史销量矩阵得到各商品间的销量相关系数，根据商品历史数据质量矩阵得到各商品间的数据质量相关系数，以及根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列。

在一些实施例中，所述矩阵运算单元具体用于：对商品历史销量矩阵求皮尔逊相关系数，得到各商品间的销量相关系数；对商品历史数据质量矩阵求皮尔逊相关系数，得到各商品间的数据质量相关系数；保留销量相关系数大于第一阈值的商品对，形成第一商品对序列；保留数据质量相关系数大于第二阈值的商品对，形成第二商品对序列。

销量相关系数和数据质量相关系数如表4所示，其中,Pmn为m商品与n商品的销量或数据质量皮尔逊相关系数。

表4 销量（质量）相关系数

设定第一阈值（销量相关系数阈值）x和第二阈值（数据质量相关系数阈值）y，遍历销量相关系数和数据质量相关系数，判断商品间的相关系数是否大于相应的阈值，仅保留相关系数大于阈值的商品对（若Pmn>x，则商品m和商品n之间的销量相关系数大于第一阈值，商品m-商品n为需要保留的商品对），最终形成如表5所示的第一商品对序列（销量相关商品对序列）或第二商品对序列（数据质量相关商品对序列）。

表5 S商品和T商品的销量（质量）相关系数

表5中，每行数据表示S商品和T商品的销量相关系数或数据质量相关系数大于相应的阈值，两者有较强的销量或数据质量相关性。

社群发现单元用于根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；以及根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组。第一商品关系图和第二商品关系图中，S列代表源节点，T列代表目标节点，源节点和目标节点之间形成边，有边相连的节点称为相邻节点。

在一些实施例中，述社群发现单元具体用于：根据第一商品对序列生成第一商品关系图；利用社群发现算法对第一商品关系图进行群组识别，形成第一商品群组（销量相关性高的商品群组）；根据第二商品对序列生成第二商品关系图；利用社群发现算法对第二商品关系图进行群组识别，形成第二商品群组（数据质量相关性高的商品群组）。

所述社群发现算法包括：第一步，将第一商品关系图或第二商品关系图中每个节点作为单独的社群，社群的个数与节点个数相同；第二步，分别将各个节点与其邻节点进行合并，计算它们的最大模块增益度是否大于0，若大于0则将该节点归入模块增量最大的相邻节点所在社群；第三步，循环迭代第一步和第二步，直到所有节点所属的社群不再变化；第四步，将各个社群内所有节点视同为单一节点，社群内所有节点的边权重转换为新节点指向自身的边权重，社群间的边权重转化为新节点间的边权重；第五步，重复第一步至第三步，直至达到预设条件，从而得到第一商品群组或第二商品群组，其中，预设条件为社群不再变化、达到设定的最大迭代次数或最大模块增益小于指定值。此处各节点间边权重恒为1，模块度是用来衡量社群划分好坏程度的指标，有多种不同的计算方式。最终形成如表6所示的相关性群组（第一商品群组或第二商品群组）：

表6 相关性群组

在一些实施例中，社群发现算法采用Louvain算法，模块度Q的计算公式为，则模块增益度的计算公式为/>；其中，/>表示社群c内边的权重之和，/>表示外部节点与社群c内节点相连的边权重之和，m为总的边权重之和，/>是从节点i与社群c中节点间的边权重和，/>是与节点i相连的边权重之和。设置所有边权重都为1，即边权重之和等于边数量之和。计算过程中由于/>对结果不产生影响因此不进行计算。

如图2所示，假设初始阶段共5个节点，共形成5个单节点社群，对各个节点的合并情况进行模块增益计算。

对节点1来说有：

大于0且值最大，因此节点1与节点5进行合并。

对节点2来说有：

没有产生大于0的模块增益度，此节点2不进行合并。

对节点3来说有：

大于0且值最大，因此节点3与节点4进行合并。

对于节点4来说有：

大于0，因此节点4与节点3进行合并，与节点3的计算结果一致。

对于节点5来说有：

大于0，因此节点5与节点1进行合并，与节点1的计算结果一致。

最终，节点1和节点5进行合并形成新社群1_1，节点3和节点4进行合并形成新社群3_1，新社群如图3所示。

对节点1_1来说

对节点2来说

对节点3_1来说

本次合并过程没有产生大于0的模块增益，合并流程结束，初始的5个社群最终合并为3个社群。

社群合并单元用于将第一商品群组和第二商品群组逐一比对求交集，形成第三商品群组（销量相关性和数据质量相关性都高的商品群组）。

结果输出单元用于将所述第三商品群组输出。

在一些实施例中，输出数据的形式为：群组编号1：商品编号1，商品编号2，商品编号3…；群组编号2：商品编号z，商品编号x，商品编号y…

本实施例的第二方面提供了一种数据要素商品的筛选方法，如图4所示，筛选方法包括S100至S600。

S100.获取商品编号信息、时间信息、商品历史销量信息和商品历史数据质量信息。

S200.根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵。

在一些实施例中，根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵，包括：剔除历史销量信息和历史数据质量信息中的噪声数据；根据剔除噪声数据后的商品历史销量信息形成商品历史销量矩阵；根据剔除噪声数据后的商品历史数据质量信息形成商品历史数据质量矩阵。

S300.根据商品历史销量矩阵得到各商品间的销量相关系数，根据商品历史数据质量矩阵得到各商品间的数据质量相关系数。

S400.根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列。

在一些实施例中，根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列，包括：对商品历史销量矩阵求皮尔逊相关系数，得到各商品间的销量相关系数；对商品历史数据质量矩阵求皮尔逊相关系数，得到各商品间的数据质量相关系数；保留销量相关系数大于第一阈值的商品对，形成第一商品对序列；保留数据质量相关系数大于第二阈值的商品对，形成第二商品对序列。

S500.根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组。

在一些实施例中，根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组，包括：根据第一商品对序列生成第一商品关系图；利用社群发现算法对第一商品关系图进行群组识别，形成第一商品群组；根据第二商品对序列生成第二商品关系图；利用社群发现算法对第二商品关系图进行群组识别，形成第二商品群组。

在一些实施例中，社群发现算法包括：第一步，将第一商品关系图或第二商品关系图中每个节点作为单独的社群，社群的个数与节点个数相同；第二步，分别将各个节点与其邻节点进行合并，将最大模块增益度大于0的节点归入模块增量最大的相邻节点所在社群；第三步，循环迭代第一步和第二步，直到所有节点所属的社群不再变化；第四步，将各个社群内所有节点视同为单一节点，社群内所有节点的边权重转换为新节点指向自身的边权重，社群间的边权重转化为新节点间的边权重；第五步，重复第一步至第三步，直至达到预设条件，从而得到第一商品群组或第二商品群组，其中，预设条件为社群不再变化、达到设定的最大迭代次数或最大模块增益小于指定值。

例如，设有三个社群A, B, C，其中A社群包含节点a1,a2,a3,a4，各节点间的成边关系为：(a1-a2成边，边权重为x1)，(a1-a3成边，边权重为x2)，(a1-a4成边，边权重为x3)，(a2-a3成边，边权重为x4)，(a2-a4成边，边权重为x5)，(a3-a4成边，边权重为x6)；B社群包含节点b1,b2，各节点间的成边关系为：(b1-b2成边，边权重为y1)；C社群包含节点c1；此外A社群和B社群间还有(a1-b1成边，边权重为z1)，(a2-b2成边，边权重为z2)A社群和C社群间还有(a3-c1成边，边权重为z3)，B社群和C社群之间没有成边的节点。现将社群A中的四个节点视为一个节点A，A中四个节点形成的6条边的权重x1+x2+x3+x4+x5+x6转换为A节点自己指向自己的边权重；社群B中的两个节点视为一个节点B，B中两个节点形成的1条边的权重y1转换为B节点自己指向自己的边权重；社群C中的一个节点视为节点C，其指向自己的边权重为0；A节点与B节点之间的边权重为z1+z2，A节点与C节点之间的边权重为z2，B节点与C节点之间未成边，不存在权重。

S600.将第一商品群组和第二商品群组逐一比对求交集，形成并输出第三商品群组。

需要说明的是，本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法的具体实施过程，可以参考前述方法实施例中的对应过程，在此不再重复描述。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种数据要素商品的筛选系统，其特征在于，包括：

结果输出单元，用于将所述第三商品群组输出。

2.根据权利要求1所述的一种数据要素商品的筛选系统，其特征在于，所述数据处理单元具体用于：

剔除历史销量信息和历史数据质量信息中的噪声数据；

3.根据权利要求1所述的一种数据要素商品的筛选系统，其特征在于，所述矩阵运算单元具体用于：

4.根据权利要求1所述的一种数据要素商品的筛选系统，其特征在于，所述社群发现单元具体用于：

根据第一商品对序列生成第一商品关系图；

根据第二商品对序列生成第二商品关系图；

5.根据权利要求4所述的一种数据要素商品的筛选系统，其特征在于，所述社群发现算法包括：

6.一种数据要素商品的筛选方法，其特征在于，包括：

7.根据权利要求6所述的一种数据要素商品的筛选方法，其特征在于，根据第一数据生成商品历史销量矩阵和商品历史数据质量矩阵，包括：

剔除历史销量信息和历史数据质量信息中的噪声数据；

8.根据权利要求6所述的一种数据要素商品的筛选方法，其特征在于，根据销量相关系数大于第一阈值的商品对形成第一商品对序列，根据数据质量相关系数大于第二阈值的商品对形成数据第二商品对序列，包括：

9.根据权利要求6所述的一种数据要素商品的筛选方法，其特征在于，根据第一商品对序列生成第一商品关系图，对第一商品关系图进行群组识别形成第一商品群组；根据第二商品对序列生成第二商品关系图，对第二商品关系图进行群组识别形成第二商品群组，包括：

根据第一商品对序列生成第一商品关系图；

根据第二商品对序列生成第二商品关系图；

10.根据权利要求9所述的一种数据要素商品的筛选方法，其特征在于，所述社群发现算法包括：