CN117290799B

CN117290799B - 一种基于大数据的企业采购管理方法及系统

Info

Publication number: CN117290799B
Application number: CN202311576014.3A
Authority: CN
Inventors: 王云磊; 孙鹏飞; 郝凯衍
Original assignee: Shandong Yizhichan Digital Technology Co ltd
Current assignee: Shandong Yizhichan Digital Technology Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-02
Anticipated expiration: 2043-11-24
Also published as: CN117290799A

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于大数据的企业采购管理方法及系统。该方法包括：获取每次采购的多维数据点以及多维数据点对应的时间；获取目标维度，将目标维度分为多个数据类型，每个数据类型获取多条数据变化曲线，根据数据变化曲线间的关系获取目标维度的特征值，并获取多维数据点的第一相似度值；构建时间变化曲线，并将时间变化曲线分为若干时间段，根据时间段之间的横纵坐标差异获取时间段和匹配时间段的第一匹配值和第二匹配值，并以此获取多维数据点的附属程度；根据多维数据点的附属程度修正第一相似度值，根据修正后的第一相似度值计算目标数据点的密度值，以此检测异常数据。本发明提高了检测精度。

Description

一种基于大数据的企业采购管理方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于大数据的企业采购管理方法及系统。

背景技术

随着全球化的推进和信息技术的发展，企业之间的竞争日益激烈。为了降低成本、提高效率并实现可持续发展，企业需要不断优化其供应链管理。采购管理作为供应链管理的关键环节，对企业的运营成本、生产效率和竞争力具有重要影响。因此，研究基于大数据的企业采购管理方法及系统具有重要的理论和实践意义。

在企业采购管理过程中，主要是根据企业的采购数据进行分析，但是由于工作人员的疏忽，在采购过程中可能会将部分的采购数据输入错误，使得提供了错误的报价等信息，进而造成了较大的损失，因此需要对采购数据进行异常检测处理。传统的处理过程中，通过基于数据密度的LOF算法进行检测，然而LOF算法中分析待检测数据点的过程中，需要根据待测数据点的数据点的分布特征，但是待检测数据点的周围数据中由于多维数据的影响，会使得数据空间中造成数据点之间很近，进而造成的了错误的检测结果。

发明内容

为了解决LOF算法对于多维数据监测精度较低的技术问题，本发明提供了一种基于大数据的企业采购管理方法及系统，所采用的技术方案具体如下：

第一方面，本发明提出了一种基于大数据的企业采购管理方法，该方法包括以下步骤：

获取每次采购的多维数据点以及多维数据点对应的时间；

将多维数据点每个维度记为目标维度，将目标维度对应的所有数据值分为若干个数据类型，根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线；根据数据变化曲线的数量和相关性获取目标维度的特征值；根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值；

将所有维度的特征值根据大津阈值分类，将大于大津阈值的维度记为特征维度；根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线；将每个多维数据点的时间变化曲线分为若干时间段，根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段，并获取时间段与匹配时间段的第一匹配值和第二匹配值；根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度；将每个维度的特征值和两个多维数据点的附属变化关系程度的乘积在不同维度下的均值作为两个多维数据点的附属程度；

根据附属程度获取每个多维数据点的附属点，结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值；

根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值，并根据密度值检测异常数据。

优选的，所述将目标维度对应的所有数据值分为若干个数据类型，根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线的方法为：

将目标维度中每个不同的数据值作为一个数据类型，一个数据类型包含多个多维数据点，将每个数据类型包含的多维数据点记为第一类型多维数据点，将每个数据类型对应的所有第一类型多维数据点钟除了目标维度外的每个维度构成一条数据变化曲线，数据变化曲线的横坐标为多维数据点的序号，纵坐标为多维数据点在此维度下对应的数据值。

优选的，所述根据数据变化曲线的数量和相关性获取目标维度的特征值的方法为：

将目标维度对应的每个第一类型多维数据点的数据变化曲线记为第一数据变化曲线，计算第一数据变化曲线两两之间的皮尔逊相关系数，将其中皮尔逊相关系数的最小值作为目标维度对应的数据类型的最小相关性；

式中，表示第i个维度的所有数据类型的数量，/>表示所有多维数据点的数量即每个维度所有数据的数量，/>表示第i个维度对应的第/>个数据类型的最小相关性，/>表示第i个维度的特征值，所述第i个维度为目标维度。

优选的，所述根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值的方法为：

式中，表示维度的数量，/>表示第j个多维数据点的第i个维度对应的数据值，/>表示第h个多维数据点的第i个维度对应的数据值，/>表示第i个维度的特征值归一化后的值，/>表示第j个多维数据点和第h个多维数据点的第一相似度值。

优选的，所述根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线的方法为：

将每个多维数据点的任意一个维度记为目标特征维度，将目标数据点的目标特征维度的数据值记为第一数据值，在除了目标数据点外的所有多维数据点中，将所有多维数据点的目标特征维度中挑选出数据值为第一数据值的多维数据点，将挑选出的多维数据点构成一条时间变化曲线，时间变化曲线的横坐标为多维数据点的时间，纵坐标为所在时间下对应的多维数据点的数量。

优选的，所述将每个多维数据点的时间变化曲线分为若干时间段，根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段，并获取时间段与匹配时间段的第一匹配值和第二匹配值的方法为：

将每条时间变化曲线中横坐标对应存在多维数据点的横坐标记为时间点，将相邻时间点之间的曲线作为一个时间段；

对于每个时间段，将其对应的两个时间点作差获取时间差值；

对于两条时间变化曲线，以其中一条为基准曲线，将基准曲线的每个时间段和另一条时间变化曲线的每个时间段作时间差值的差值绝对值，将差值绝对值记为第一匹配值；对于基准曲线中的每个时间段，选取与另一条时间变化曲线上第一匹配值最小对应的时间段作为基准曲线每个时间段的匹配时间段；

将每条时间变化曲线的两个时间点的纵坐标作差记为纵差值，并将基准曲线的每个时间段和另一条时间变化曲线的每个时间段的纵差值的差值绝对值作为第二匹配值。

优选的，所述根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度的方法为：

式中，表示第u个时间段与其匹配时间段的第一匹配值，/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的时间段的数量，/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下时间段和匹配时间段的第二匹配值的方差，/>表示以自然常数为底的指数函数，/> 表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值。

优选的，所述根据附属程度获取每个多维数据点的附属点，结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值的方法为：

将目标数据点与其余所有多维数据点的附属程度归一化，当归一化值大于预设附属阈值时，多维数据点作为目标数据点的附属点；

对于两个多维数据点，每个多维数据点对应若干附属点，将多维数据点对应的每个附属点与另一个多维数据点的每个附属点两两结合获取若干附属点对；

式中，表示第k个附属点对的第一相似度值，/>表示第j个多维数据点与第h个多维数据点的附属点对的数量，/>表示第j个多维数据点与第h个多维数据点的第一相似度值，/>表示第j个多维数据点与第h个多维数据点的第二相似度值。

优选的，所述根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值，并根据密度值检测异常数据的方法为：

对于每个目标数据点，将第二相似度值大于预设阈值的多维数据点作为目标数据点的代表点，对于每个代表点的向量两两计算余弦相似度，将余弦相似度的均值的倒数作为每个目标数据点的密度值；

根据目标数据点的密度值进行LOF检测获取局部离群因子，若局部离群因子大于1，则目标数据点为异常数据。

第二方面，本发明实施例还提供了一种基于大数据的企业采购管理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述一种基于大数据的企业采购管理方法的步骤。

本发明具有如下有益效果：本发明中通过对采购数据进行自适应LOF异常检测处理，实现精准异常数据预警。其中通过每个维度的自身数据的变化以及对其他维度的数据的影响对每个维度进行特征值的量化，并根据每个维度的特征值获取数据点之间的第一相似度值。通过特征维度的数据变化获取每个数据点的附属数据点，根据数据点的附属数据点之间的变化获取数据点之间的第二相似度值，进而得到数据点的影响范围以及代表性程度值，进而进行数据点的自适应LOF异常监测，避免了传统的LOF异常检测算法中，需要根据待测数据点的数据点的分布特征，但是待检测数据点的周围数据中由于多维数据的影响，进而造成的了错误的检测结果的缺点，使得基于大数据的企业采购检测方法更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于大数据的企业采购管理方法的流程图；

图2为本发明一个实施例所提供的一种基于大数据的企业采购管理方法的实施流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于大数据的企业采购管理方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

一种基于大数据的企业采购管理方法及系统实施例：

下面结合附图具体的说明本发明所提供的一种基于大数据的企业采购管理方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于大数据的企业采购管理方法流程图，该方法包括以下步骤：

步骤S001，获取每次采购的多维数据点以及多维数据点对应的时间点。

对于企业的采购数据进行分析，企业采购是在不同时间采购的，因此统计每一次采购时的时间，对于每一次采购的所有物品，将每一个物品作为一个多维数据点，在本实施例中以物品采购单价、物品购买总价、物品库存数量、物品采购数量作为多维数据点的维度，并且获取每个多维数据点的采购时间。

至此，获取了企业采购的每个物品对应的多维数据点。

步骤S002，将多维数据点每个维度记为目标维度，将目标维度对应的所有数据值分为若干个数据类型，根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线；根据数据变化曲线的数量和之间的相关性获取目标维度的特征值，根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值。

在企业采购管理过程中，主要是根据企业的采购数据进行分析，但是由于人为原因或交易环境变化会导致采购数据出现错误，进而造成较大的损失，因此需要对采购数据进行异常检测处理，传统的处理过程中，通过基于数据密度的LOF算法进行检测，然而LOF算法中分析待检测数据点的过程中，需要根据待测数据点的数据点分布特征进行分析，但是待检测数据点的周围数据中由于多维数据的影响，会使得数据空间中数据点之间很近，进而造成的了错误的检测结果。

由于数据空间多维数据点往往较为密集，即在一定范围内多维数据点的数量较多，而对于每个多维数据点，其与周围的多维数据点具有一定的相似性，将该相似性记为第一相似性。所述第一相似性根据多维数据点在不同维度上数据的相似性获取的。但是在所有维度中，存在一些维度的变化是由于其他维度的变化引起的，例如采购金额维度是由于商品的数量维度和单价维度的变化引起的，因此本实施例首先初步计算每个维度的特征值，用于后续的相似性计算以及影响范围的计算。

将任意一个维度记为目标维度，将每个目标维度中数据值一样的维度数据记为同一个数据类型的维度数据，获取每个目标维度对应数据类型数量，对于每一种数据类型获取其对应的所有多维数据点记为第一类型多维数据点，将所有第一类型多维数据点中除了目标维度的每个维度构成一条数据变化曲线，所述数据变化曲线的横坐标为多维数据点的序号，纵坐标为某个维度对应的数据值。

例如，对于四个多维数据点，数据点有三个维度，分别为(1，2，3)，(1，4，3)，(2，3，3)，(2，4，4)；当第三维度为目标维度时，共有两个数据类型分别为3和4，对于数据类型为3时的三个多维数据点记为第一类型多维数据点，将三个第一类型多维数据点钟除了第三维度，第一维度构成一条数据变化曲线为(1，1，2)，第二维度构成一条数据变化曲线为(2，4，3)。

对于每个目标维度的每个第一类型多维数据点获取的多条数据变化曲线，两两计算皮尔逊相关系数，将计算得到的皮尔逊相关系数的最小值记为最小相关性。

根据目标维度对应的数据类型数量以及每个数据类型对应的最小相关性获取目标维度的特征值，公式如下：

式中，表示第i个维度的所有数据类型的数量，/>表示所有多维数据点的数量即每个维度所有数据的数量，/>表示第i个维度对应的第/>个数据类型的最小相关性，/>表示第i个维度的特征值。

其中, 表示第i个维度数据的变化特征，若自身数据变化波动较大，则该维度数据出现很多的可能性，则对应的该维度可能包含的信息越多，即对应的特征值较大；表示第/>个维度数据对于其他维度数据的影响，若相同的第/>个维度的数据情况下，其他维度数据变化之间变化关系较为统一（通过最小的皮尔逊相关系数来表示），则表明第/>个维度数据对其他维度的影响较大，即对应的特征值较大。

对所有维度的特征值进行线性归一化处理，对于任意两个多维数据点，根据两个多维数据点的数据值以及每个维度的特征值获取两个多维数据点的第一相似度值，公式如下：

至此，获取了每个维度的特征值以及任意两个数据点之间的第一相似度值。

步骤S003，将所有维度的特征值根据大津阈值分类，将大于大津阈值的维度记为特征维度；根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线；将每个多维数据点的时间变化曲线分为若干时间段，根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段，并获取时间段与匹配时间段的第一匹配值和第二匹配值；根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度；将每个维度的特征值和两个多维数据点的附属变化关系程度的乘积在不同维度下的均值作为两个多维数据点的附属程度。

在企业的采购过程中，会存在对于某类商品采购之后，相应的会采购与该商品具有关系的商品，比如说在采购打印机时，会相应采购打印机耗材（如纸张、油墨等），因此在一些维度中某些具有关系的商品的购买信息是具有一定的规律的。然而往往由于商品信息类型的相似性，例如有些商品的信息较为相似，则对应的商品维度的值的大小也较为相似的，但是其商品并不相同，仍以打印机为例，打印机有正常的文件打印机，同时还存在3D打印机，两者商品信息的较为相同，但是其本质分布上应该是不同的，即对应的为3D打印机对应的影响范围的数据点中应该不包含文件打印机的数据点。基于此，本实施例通过获取每个多维数据点的附属数据点在第一相似度值的基础上，比较附属数据点之间的关联性来获取多维数据点之间的总和相似度值，将此相似度值记为第二相似度值，根据多维数据点之间的第二相似度值获取多维数据点的影响范围，进而得到多维数据点的代表性程度值。

对于所有维度的归一化的特征值使用大津阈值进行分类获取分类阈值，将归一化的特征值大于分类阈值的维度记为特征维度。

对于每个多维数据点的任意一个特征维度记为目标特征维度，将任意一个多维数据点记为目标数据点，将目标数据点的目标特征维度的数据值记为第一数据值，在其余的多维数据点中的目标特征维度中挑选出数据值为第一数据值的多维数据点，统计所有挑选出的所有多维数据点的时间，构成一条时间变化曲线，时间变化曲线的横坐标为多维数据点的时间，纵坐标为所在时间下对应的多维数据点的数量。

对于两个多维数据点的时间变化曲线，将时间变化曲线中横坐标对应存在多维数据点的横坐标记为时间点，将相邻时间点之间的曲线作为一个时间段，将两条曲线中任意两个时间段进行匹配，所述匹配方法为时间段对应的相邻时间点作差得到时间段的时间差值，将两个时间段的时间差值的差值绝对值作为两个时间段的第一匹配值，对于每个时间段，将匹配值最小时对应的时间段作为其匹配时间段。对于每个时间段，获取其两个时间点的纵坐标的差值，将时间段的纵坐标差值与匹配时间段的纵坐标差值的绝对值记为第二匹配值。值得说明的是，时间段和匹配时间段的数量不相同，获取每个时间段的匹配时间段，即匹配时间段可能会有重复。

根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度，公式如下：

其中，可以表征每次购买两个多维数据点对应维度值的数量的变化，若每次购买时间段中，购买的次数变化较为规律，则对应的两个数据点的附属变化关系程度值越大；同样的/>，表示每次购买区间的变化，若两个多维数据点的购买区间的时间段变化基本相同，则对应的两个多维数据点的附属变化关系程度值越大。

根据两个多维数据点每个特征维度的附属变化关系程度值获取两个多维数据点的附属程度，公式如下：

式中，表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值，/>表示第/>个维度的特征值归一化后的值，/>表示特征维度的数量，/>表示第h个多维数据段对于第j个多维数据的附属程度。

至此，获取了每个多维数据点对目标数据点的附属程度。

步骤S004，根据附属程度获取每个多维数据点的附属点，结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值。

获取每个多维数据点对目标数据点的附属程度后，将每个多维数据点对目标数据点的附属程度进行线性归一化，设置附属阈值，若线性归一化后的值大于附属阈值，则该数据点为目标数据点的附属点，否则，改数据点不为目标数据点的附属点；在本实施例中，附属阈值为0.75。

对于两个多维数据点，每个多维数据点对应若干附属点，将多维数据点对应的每个附属点与另一个多维数据点的每个附属点两两结合获取若干附属点对，根据两个多维数据点的所有附属点对的第一相似度值和两个多维数据点的第一相似度值获取两个多维数据点的第二相似度值，公式如下：

至此，获取了两个多维数据点的第二相似度值。

步骤S005，根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值，并根据密度值检测异常数据。

对于每个目标数据点，将第二相似度值大于预设阈值的多维数据点作为目标数据点的代表点，每个代表点与原点得到一条向量，对于所有向量，两两计算余弦相似度，将余弦相似度的均值的倒数作为每个目标数据点的密度值。基于多维数据点的特征获取每个多维数据点的密度值的实施流程如图2所示。

在对所有多维数据点进行一场检测时，根据每个多维数据点的密度值进行LOF监测获取每个多维数据点的局部离群因子，若局部离群因子大于1，则表示该多维数据点为异常数据点，说明采购数据存在异常，需要进一步核实。

本实施例提供一种基于大数据的企业采购管理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，处理器执行所述计算机程序时实现上述步骤S001至步骤S005的方法。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于大数据的企业采购管理方法，其特征在于，该方法包括以下步骤：

获取每次采购的多维数据点以及多维数据点对应的时间；

根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值，并根据密度值检测异常数据；

所述将每个多维数据点的时间变化曲线分为若干时间段，根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段，并获取时间段与匹配时间段的第一匹配值和第二匹配值的方法为：

将每条时间变化曲线的两个时间点的纵坐标作差记为纵差值，并将基准曲线的每个时间段和另一条时间变化曲线的每个时间段的纵差值的差值绝对值作为第二匹配值；

所述根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度的方法为：

式中，表示第u个时间段与其匹配时间段的第一匹配值，/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的时间段的数量，/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下时间段和匹配时间段的第二匹配值的方差，/>表示以自然常数为底的指数函数，/> 表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值；

所述根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值，并根据密度值检测异常数据的方法为：

2.如权利要求1所述的一种基于大数据的企业采购管理方法，其特征在于，所述将目标维度对应的所有数据值分为若干个数据类型，根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线的方法为：

3.如权利要求2所述的一种基于大数据的企业采购管理方法，其特征在于，所述根据数据变化曲线的数量和相关性获取目标维度的特征值的方法为：

4.如权利要求3所述的一种基于大数据的企业采购管理方法，其特征在于，所述根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值的方法为：

式中，表示维度的数量，/>表示第j个多维数据点的第i个维度对应的数据值，/>表示第h个多维数据点的第i个维度对应的数据值，/>表示第i个维度的特征值归一化后的值，表示第j个多维数据点和第h个多维数据点的第一相似度值。

5.如权利要求1所述的一种基于大数据的企业采购管理方法，其特征在于，所述根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线的方法为：

6.如权利要求1所述的一种基于大数据的企业采购管理方法，其特征在于，所述根据附属程度获取每个多维数据点的附属点，结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值的方法为：

7.一种基于大数据的企业采购管理系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述一种基于大数据的企业采购管理方法的步骤。