CN117290799B - 一种基于大数据的企业采购管理方法及系统 - Google Patents
一种基于大数据的企业采购管理方法及系统 Download PDFInfo
- Publication number
- CN117290799B CN117290799B CN202311576014.3A CN202311576014A CN117290799B CN 117290799 B CN117290799 B CN 117290799B CN 202311576014 A CN202311576014 A CN 202311576014A CN 117290799 B CN117290799 B CN 117290799B
- Authority
- CN
- China
- Prior art keywords
- data
- value
- dimension
- point
- multidimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000002159 abnormal effect Effects 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013068 supply chain management Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于大数据的企业采购管理方法及系统。该方法包括:获取每次采购的多维数据点以及多维数据点对应的时间;获取目标维度,将目标维度分为多个数据类型,每个数据类型获取多条数据变化曲线,根据数据变化曲线间的关系获取目标维度的特征值,并获取多维数据点的第一相似度值;构建时间变化曲线,并将时间变化曲线分为若干时间段,根据时间段之间的横纵坐标差异获取时间段和匹配时间段的第一匹配值和第二匹配值,并以此获取多维数据点的附属程度;根据多维数据点的附属程度修正第一相似度值,根据修正后的第一相似度值计算目标数据点的密度值,以此检测异常数据。本发明提高了检测精度。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据的企业采购管理方法及系统。
背景技术
随着全球化的推进和信息技术的发展,企业之间的竞争日益激烈。为了降低成本、提高效率并实现可持续发展,企业需要不断优化其供应链管理。采购管理作为供应链管理的关键环节,对企业的运营成本、生产效率和竞争力具有重要影响。因此,研究基于大数据的企业采购管理方法及系统具有重要的理论和实践意义。
在企业采购管理过程中,主要是根据企业的采购数据进行分析,但是由于工作人员的疏忽,在采购过程中可能会将部分的采购数据输入错误,使得提供了错误的报价等信息,进而造成了较大的损失,因此需要对采购数据进行异常检测处理。传统的处理过程中,通过基于数据密度的LOF算法进行检测,然而LOF算法中分析待检测数据点的过程中,需要根据待测数据点的数据点的分布特征,但是待检测数据点的周围数据中由于多维数据的影响,会使得数据空间中造成数据点之间很近,进而造成的了错误的检测结果。
发明内容
为了解决LOF算法对于多维数据监测精度较低的技术问题,本发明提供了一种基于大数据的企业采购管理方法及系统,所采用的技术方案具体如下:
第一方面,本发明提出了一种基于大数据的企业采购管理方法,该方法包括以下步骤:
获取每次采购的多维数据点以及多维数据点对应的时间;
将多维数据点每个维度记为目标维度,将目标维度对应的所有数据值分为若干个数据类型,根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线;根据数据变化曲线的数量和相关性获取目标维度的特征值;根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值;
将所有维度的特征值根据大津阈值分类,将大于大津阈值的维度记为特征维度;根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线;将每个多维数据点的时间变化曲线分为若干时间段,根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段,并获取时间段与匹配时间段的第一匹配值和第二匹配值;根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度;将每个维度的特征值和两个多维数据点的附属变化关系程度的乘积在不同维度下的均值作为两个多维数据点的附属程度;
根据附属程度获取每个多维数据点的附属点,结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值;
根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值,并根据密度值检测异常数据。
优选的,所述将目标维度对应的所有数据值分为若干个数据类型,根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线的方法为:
将目标维度中每个不同的数据值作为一个数据类型,一个数据类型包含多个多维数据点,将每个数据类型包含的多维数据点记为第一类型多维数据点,将每个数据类型对应的所有第一类型多维数据点钟除了目标维度外的每个维度构成一条数据变化曲线,数据变化曲线的横坐标为多维数据点的序号,纵坐标为多维数据点在此维度下对应的数据值。
优选的,所述根据数据变化曲线的数量和相关性获取目标维度的特征值的方法为:
将目标维度对应的每个第一类型多维数据点的数据变化曲线记为第一数据变化曲线,计算第一数据变化曲线两两之间的皮尔逊相关系数,将其中皮尔逊相关系数的最小值作为目标维度对应的数据类型的最小相关性;
式中,表示第i个维度的所有数据类型的数量,/>表示所有多维数据点的数量即每个维度所有数据的数量,/>表示第i个维度对应的第/>个数据类型的最小相关性,/>表示第i个维度的特征值,所述第i个维度为目标维度。
优选的,所述根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值的方法为:
式中,表示维度的数量,/>表示第j个多维数据点的第i个维度对应的数据值,/>表示第h个多维数据点的第i个维度对应的数据值,/>表示第i个维度的特征值归一化后的值,/>表示第j个多维数据点和第h个多维数据点的第一相似度值。
优选的,所述根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线的方法为:
将每个多维数据点的任意一个维度记为目标特征维度,将目标数据点的目标特征维度的数据值记为第一数据值,在除了目标数据点外的所有多维数据点中,将所有多维数据点的目标特征维度中挑选出数据值为第一数据值的多维数据点,将挑选出的多维数据点构成一条时间变化曲线,时间变化曲线的横坐标为多维数据点的时间,纵坐标为所在时间下对应的多维数据点的数量。
优选的,所述将每个多维数据点的时间变化曲线分为若干时间段,根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段,并获取时间段与匹配时间段的第一匹配值和第二匹配值的方法为:
将每条时间变化曲线中横坐标对应存在多维数据点的横坐标记为时间点,将相邻时间点之间的曲线作为一个时间段;
对于每个时间段,将其对应的两个时间点作差获取时间差值;
对于两条时间变化曲线,以其中一条为基准曲线,将基准曲线的每个时间段和另一条时间变化曲线的每个时间段作时间差值的差值绝对值,将差值绝对值记为第一匹配值;对于基准曲线中的每个时间段,选取与另一条时间变化曲线上第一匹配值最小对应的时间段作为基准曲线每个时间段的匹配时间段;
将每条时间变化曲线的两个时间点的纵坐标作差记为纵差值,并将基准曲线的每个时间段和另一条时间变化曲线的每个时间段的纵差值的差值绝对值作为第二匹配值。
优选的,所述根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度的方法为:
式中,表示第u个时间段与其匹配时间段的第一匹配值,/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的时间段的数量,/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下时间段和匹配时间段的第二匹配值的方差,/>表示以自然常数为底的指数函数,/> 表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值。
优选的,所述根据附属程度获取每个多维数据点的附属点,结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值的方法为:
将目标数据点与其余所有多维数据点的附属程度归一化,当归一化值大于预设附属阈值时,多维数据点作为目标数据点的附属点;
对于两个多维数据点,每个多维数据点对应若干附属点,将多维数据点对应的每个附属点与另一个多维数据点的每个附属点两两结合获取若干附属点对;
式中,表示第k个附属点对的第一相似度值,/>表示第j个多维数据点与第h个多维数据点的附属点对的数量,/>表示第j个多维数据点与第h个多维数据点的第一相似度值,/>表示第j个多维数据点与第h个多维数据点的第二相似度值。
优选的,所述根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值,并根据密度值检测异常数据的方法为:
对于每个目标数据点,将第二相似度值大于预设阈值的多维数据点作为目标数据点的代表点,对于每个代表点的向量两两计算余弦相似度,将余弦相似度的均值的倒数作为每个目标数据点的密度值;
根据目标数据点的密度值进行LOF检测获取局部离群因子,若局部离群因子大于1,则目标数据点为异常数据。
第二方面,本发明实施例还提供了一种基于大数据的企业采购管理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述一种基于大数据的企业采购管理方法的步骤。
本发明具有如下有益效果:本发明中通过对采购数据进行自适应LOF异常检测处理,实现精准异常数据预警。其中通过每个维度的自身数据的变化以及对其他维度的数据的影响对每个维度进行特征值的量化,并根据每个维度的特征值获取数据点之间的第一相似度值。通过特征维度的数据变化获取每个数据点的附属数据点,根据数据点的附属数据点之间的变化获取数据点之间的第二相似度值,进而得到数据点的影响范围以及代表性程度值,进而进行数据点的自适应LOF异常监测,避免了传统的LOF异常检测算法中,需要根据待测数据点的数据点的分布特征,但是待检测数据点的周围数据中由于多维数据的影响,进而造成的了错误的检测结果的缺点,使得基于大数据的企业采购检测方法更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于大数据的企业采购管理方法的流程图;
图2为本发明一个实施例所提供的一种基于大数据的企业采购管理方法的实施流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的企业采购管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
一种基于大数据的企业采购管理方法及系统实施例:
下面结合附图具体的说明本发明所提供的一种基于大数据的企业采购管理方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于大数据的企业采购管理方法流程图,该方法包括以下步骤:
步骤S001,获取每次采购的多维数据点以及多维数据点对应的时间点。
对于企业的采购数据进行分析,企业采购是在不同时间采购的,因此统计每一次采购时的时间,对于每一次采购的所有物品,将每一个物品作为一个多维数据点,在本实施例中以物品采购单价、物品购买总价、物品库存数量、物品采购数量作为多维数据点的维度,并且获取每个多维数据点的采购时间。
至此,获取了企业采购的每个物品对应的多维数据点。
步骤S002,将多维数据点每个维度记为目标维度,将目标维度对应的所有数据值分为若干个数据类型,根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线;根据数据变化曲线的数量和之间的相关性获取目标维度的特征值,根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值。
在企业采购管理过程中,主要是根据企业的采购数据进行分析,但是由于人为原因或交易环境变化会导致采购数据出现错误,进而造成较大的损失,因此需要对采购数据进行异常检测处理,传统的处理过程中,通过基于数据密度的LOF算法进行检测,然而LOF算法中分析待检测数据点的过程中,需要根据待测数据点的数据点分布特征进行分析,但是待检测数据点的周围数据中由于多维数据的影响,会使得数据空间中数据点之间很近,进而造成的了错误的检测结果。
由于数据空间多维数据点往往较为密集,即在一定范围内多维数据点的数量较多,而对于每个多维数据点,其与周围的多维数据点具有一定的相似性,将该相似性记为第一相似性。所述第一相似性根据多维数据点在不同维度上数据的相似性获取的。但是在所有维度中,存在一些维度的变化是由于其他维度的变化引起的,例如采购金额维度是由于商品的数量维度和单价维度的变化引起的,因此本实施例首先初步计算每个维度的特征值,用于后续的相似性计算以及影响范围的计算。
将任意一个维度记为目标维度,将每个目标维度中数据值一样的维度数据记为同一个数据类型的维度数据,获取每个目标维度对应数据类型数量,对于每一种数据类型获取其对应的所有多维数据点记为第一类型多维数据点,将所有第一类型多维数据点中除了目标维度的每个维度构成一条数据变化曲线,所述数据变化曲线的横坐标为多维数据点的序号,纵坐标为某个维度对应的数据值。
例如,对于四个多维数据点,数据点有三个维度,分别为(1,2,3),(1,4,3),(2,3,3),(2,4,4);当第三维度为目标维度时,共有两个数据类型分别为3和4,对于数据类型为3时的三个多维数据点记为第一类型多维数据点,将三个第一类型多维数据点钟除了第三维度,第一维度构成一条数据变化曲线为(1,1,2),第二维度构成一条数据变化曲线为(2,4,3)。
对于每个目标维度的每个第一类型多维数据点获取的多条数据变化曲线,两两计算皮尔逊相关系数,将计算得到的皮尔逊相关系数的最小值记为最小相关性。
根据目标维度对应的数据类型数量以及每个数据类型对应的最小相关性获取目标维度的特征值,公式如下:
式中,表示第i个维度的所有数据类型的数量,/>表示所有多维数据点的数量即每个维度所有数据的数量,/>表示第i个维度对应的第/>个数据类型的最小相关性,/>表示第i个维度的特征值。
其中, 表示第i个维度数据的变化特征,若自身数据变化波动较大,则该维度数据出现很多的可能性,则对应的该维度可能包含的信息越多,即对应的特征值较大;表示第/>个维度数据对于其他维度数据的影响,若相同的第/>个维度的数据情况下,其他维度数据变化之间变化关系较为统一(通过最小的皮尔逊相关系数来表示),则表明第/>个维度数据对其他维度的影响较大,即对应的特征值较大。
对所有维度的特征值进行线性归一化处理,对于任意两个多维数据点,根据两个多维数据点的数据值以及每个维度的特征值获取两个多维数据点的第一相似度值,公式如下:
式中,表示维度的数量,/>表示第j个多维数据点的第i个维度对应的数据值,/>表示第h个多维数据点的第i个维度对应的数据值,/>表示第i个维度的特征值归一化后的值,/>表示第j个多维数据点和第h个多维数据点的第一相似度值。
至此,获取了每个维度的特征值以及任意两个数据点之间的第一相似度值。
步骤S003,将所有维度的特征值根据大津阈值分类,将大于大津阈值的维度记为特征维度;根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线;将每个多维数据点的时间变化曲线分为若干时间段,根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段,并获取时间段与匹配时间段的第一匹配值和第二匹配值;根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度;将每个维度的特征值和两个多维数据点的附属变化关系程度的乘积在不同维度下的均值作为两个多维数据点的附属程度。
在企业的采购过程中,会存在对于某类商品采购之后,相应的会采购与该商品具有关系的商品,比如说在采购打印机时,会相应采购打印机耗材(如纸张、油墨等),因此在一些维度中某些具有关系的商品的购买信息是具有一定的规律的。然而往往由于商品信息类型的相似性,例如有些商品的信息较为相似,则对应的商品维度的值的大小也较为相似的,但是其商品并不相同,仍以打印机为例,打印机有正常的文件打印机,同时还存在3D打印机,两者商品信息的较为相同,但是其本质分布上应该是不同的,即对应的为3D打印机对应的影响范围的数据点中应该不包含文件打印机的数据点。基于此,本实施例通过获取每个多维数据点的附属数据点在第一相似度值的基础上,比较附属数据点之间的关联性来获取多维数据点之间的总和相似度值,将此相似度值记为第二相似度值,根据多维数据点之间的第二相似度值获取多维数据点的影响范围,进而得到多维数据点的代表性程度值。
对于所有维度的归一化的特征值使用大津阈值进行分类获取分类阈值,将归一化的特征值大于分类阈值的维度记为特征维度。
对于每个多维数据点的任意一个特征维度记为目标特征维度,将任意一个多维数据点记为目标数据点,将目标数据点的目标特征维度的数据值记为第一数据值,在其余的多维数据点中的目标特征维度中挑选出数据值为第一数据值的多维数据点,统计所有挑选出的所有多维数据点的时间,构成一条时间变化曲线,时间变化曲线的横坐标为多维数据点的时间,纵坐标为所在时间下对应的多维数据点的数量。
对于两个多维数据点的时间变化曲线,将时间变化曲线中横坐标对应存在多维数据点的横坐标记为时间点,将相邻时间点之间的曲线作为一个时间段,将两条曲线中任意两个时间段进行匹配,所述匹配方法为时间段对应的相邻时间点作差得到时间段的时间差值,将两个时间段的时间差值的差值绝对值作为两个时间段的第一匹配值,对于每个时间段,将匹配值最小时对应的时间段作为其匹配时间段。对于每个时间段,获取其两个时间点的纵坐标的差值,将时间段的纵坐标差值与匹配时间段的纵坐标差值的绝对值记为第二匹配值。值得说明的是,时间段和匹配时间段的数量不相同,获取每个时间段的匹配时间段,即匹配时间段可能会有重复。
根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度,公式如下:
式中,表示第u个时间段与其匹配时间段的第一匹配值,/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的时间段的数量,/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下时间段和匹配时间段的第二匹配值的方差,/>表示以自然常数为底的指数函数,/> 表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值。
其中,可以表征每次购买两个多维数据点对应维度值的数量的变化,若每次购买时间段中,购买的次数变化较为规律,则对应的两个数据点的附属变化关系程度值越大;同样的/>,表示每次购买区间的变化,若两个多维数据点的购买区间的时间段变化基本相同,则对应的两个多维数据点的附属变化关系程度值越大。
根据两个多维数据点每个特征维度的附属变化关系程度值获取两个多维数据点的附属程度,公式如下:
式中, 表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值,/>表示第/>个维度的特征值归一化后的值,/>表示特征维度的数量,/>表示第h个多维数据段对于第j个多维数据的附属程度。
至此,获取了每个多维数据点对目标数据点的附属程度。
步骤S004,根据附属程度获取每个多维数据点的附属点,结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值。
获取每个多维数据点对目标数据点的附属程度后,将每个多维数据点对目标数据点的附属程度进行线性归一化,设置附属阈值,若线性归一化后的值大于附属阈值,则该数据点为目标数据点的附属点,否则,改数据点不为目标数据点的附属点;在本实施例中,附属阈值为0.75。
对于两个多维数据点,每个多维数据点对应若干附属点,将多维数据点对应的每个附属点与另一个多维数据点的每个附属点两两结合获取若干附属点对,根据两个多维数据点的所有附属点对的第一相似度值和两个多维数据点的第一相似度值获取两个多维数据点的第二相似度值,公式如下:
式中,表示第k个附属点对的第一相似度值,/>表示第j个多维数据点与第h个多维数据点的附属点对的数量,/>表示第j个多维数据点与第h个多维数据点的第一相似度值,/>表示第j个多维数据点与第h个多维数据点的第二相似度值。
至此,获取了两个多维数据点的第二相似度值。
步骤S005,根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值,并根据密度值检测异常数据。
对于每个目标数据点,将第二相似度值大于预设阈值的多维数据点作为目标数据点的代表点,每个代表点与原点得到一条向量,对于所有向量,两两计算余弦相似度,将余弦相似度的均值的倒数作为每个目标数据点的密度值。基于多维数据点的特征获取每个多维数据点的密度值的实施流程如图2所示。
在对所有多维数据点进行一场检测时,根据每个多维数据点的密度值进行LOF监测获取每个多维数据点的局部离群因子,若局部离群因子大于1,则表示该多维数据点为异常数据点,说明采购数据存在异常,需要进一步核实。
本实施例提供一种基于大数据的企业采购管理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述步骤S001至步骤S005的方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (7)
1.一种基于大数据的企业采购管理方法,其特征在于,该方法包括以下步骤:
获取每次采购的多维数据点以及多维数据点对应的时间;
将多维数据点每个维度记为目标维度,将目标维度对应的所有数据值分为若干个数据类型,根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线;根据数据变化曲线的数量和相关性获取目标维度的特征值;根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值;
将所有维度的特征值根据大津阈值分类,将大于大津阈值的维度记为特征维度;根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线;将每个多维数据点的时间变化曲线分为若干时间段,根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段,并获取时间段与匹配时间段的第一匹配值和第二匹配值;根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度;将每个维度的特征值和两个多维数据点的附属变化关系程度的乘积在不同维度下的均值作为两个多维数据点的附属程度;
根据附属程度获取每个多维数据点的附属点,结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值;
根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值,并根据密度值检测异常数据;
所述将每个多维数据点的时间变化曲线分为若干时间段,根据两个多维数据点的时间段横纵坐标的差异获取时间段与匹配时间段,并获取时间段与匹配时间段的第一匹配值和第二匹配值的方法为:
将每条时间变化曲线中横坐标对应存在多维数据点的横坐标记为时间点,将相邻时间点之间的曲线作为一个时间段;
对于每个时间段,将其对应的两个时间点作差获取时间差值;
对于两条时间变化曲线,以其中一条为基准曲线,将基准曲线的每个时间段和另一条时间变化曲线的每个时间段作时间差值的差值绝对值,将差值绝对值记为第一匹配值;对于基准曲线中的每个时间段,选取与另一条时间变化曲线上第一匹配值最小对应的时间段作为基准曲线每个时间段的匹配时间段;
将每条时间变化曲线的两个时间点的纵坐标作差记为纵差值,并将基准曲线的每个时间段和另一条时间变化曲线的每个时间段的纵差值的差值绝对值作为第二匹配值;
所述根据时间段与其匹配时间段的第一匹配值、第二匹配值以及时间段的数量获取两个多维数据点的附属变化关系程度的方法为:
式中,表示第u个时间段与其匹配时间段的第一匹配值,/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的时间段的数量,/>表示第j个多维数据点与第h个多维数据点在第/>个特征维度下时间段和匹配时间段的第二匹配值的方差,/>表示以自然常数为底的指数函数,/> 表示第j个多维数据点与第h个多维数据点在第/>个特征维度下的附属变化关系程度值;
所述根据目标数据点与所有多维数据点的第二相似度值获取目标数据点的密度值,并根据密度值检测异常数据的方法为:
对于每个目标数据点,将第二相似度值大于预设阈值的多维数据点作为目标数据点的代表点,对于每个代表点的向量两两计算余弦相似度,将余弦相似度的均值的倒数作为每个目标数据点的密度值;
根据目标数据点的密度值进行LOF检测获取局部离群因子,若局部离群因子大于1,则目标数据点为异常数据。
2.如权利要求1所述的一种基于大数据的企业采购管理方法,其特征在于,所述将目标维度对应的所有数据值分为若干个数据类型,根据每个数据类型中的数据值获取数据类型对应的多条数据变化曲线的方法为:
将目标维度中每个不同的数据值作为一个数据类型,一个数据类型包含多个多维数据点,将每个数据类型包含的多维数据点记为第一类型多维数据点,将每个数据类型对应的所有第一类型多维数据点钟除了目标维度外的每个维度构成一条数据变化曲线,数据变化曲线的横坐标为多维数据点的序号,纵坐标为多维数据点在此维度下对应的数据值。
3.如权利要求2所述的一种基于大数据的企业采购管理方法,其特征在于,所述根据数据变化曲线的数量和相关性获取目标维度的特征值的方法为:
将目标维度对应的每个第一类型多维数据点的数据变化曲线记为第一数据变化曲线,计算第一数据变化曲线两两之间的皮尔逊相关系数,将其中皮尔逊相关系数的最小值作为目标维度对应的数据类型的最小相关性;
式中,表示第i个维度的所有数据类型的数量,/>表示所有多维数据点的数量即每个维度所有数据的数量,/>表示第i个维度对应的第/>个数据类型的最小相关性,/>表示第i个维度的特征值,所述第i个维度为目标维度。
4.如权利要求3所述的一种基于大数据的企业采购管理方法,其特征在于,所述根据两个多维数据点每个维度的数据值以及每个维度的特征值获取多维数据点间的第一相似度值的方法为:
式中,表示维度的数量,/>表示第j个多维数据点的第i个维度对应的数据值,/>表示第h个多维数据点的第i个维度对应的数据值,/>表示第i个维度的特征值归一化后的值,表示第j个多维数据点和第h个多维数据点的第一相似度值。
5.如权利要求1所述的一种基于大数据的企业采购管理方法,其特征在于,所述根据与目标数据点同一维度数据值的多维数据点的时间构建每个目标数据点的时间变化曲线的方法为:
将每个多维数据点的任意一个维度记为目标特征维度,将目标数据点的目标特征维度的数据值记为第一数据值,在除了目标数据点外的所有多维数据点中,将所有多维数据点的目标特征维度中挑选出数据值为第一数据值的多维数据点,将挑选出的多维数据点构成一条时间变化曲线,时间变化曲线的横坐标为多维数据点的时间,纵坐标为所在时间下对应的多维数据点的数量。
6.如权利要求1所述的一种基于大数据的企业采购管理方法,其特征在于,所述根据附属程度获取每个多维数据点的附属点,结合多维数据点的附属点的第一相似度值对两个多维数据点的第一相似度值修正获取两个多维数据点的第二相似度值的方法为:
将目标数据点与其余所有多维数据点的附属程度归一化,当归一化值大于预设附属阈值时,多维数据点作为目标数据点的附属点;
对于两个多维数据点,每个多维数据点对应若干附属点,将多维数据点对应的每个附属点与另一个多维数据点的每个附属点两两结合获取若干附属点对;
式中,表示第k个附属点对的第一相似度值,/>表示第j个多维数据点与第h个多维数据点的附属点对的数量,/>表示第j个多维数据点与第h个多维数据点的第一相似度值,/>表示第j个多维数据点与第h个多维数据点的第二相似度值。
7.一种基于大数据的企业采购管理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述一种基于大数据的企业采购管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576014.3A CN117290799B (zh) | 2023-11-24 | 2023-11-24 | 一种基于大数据的企业采购管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576014.3A CN117290799B (zh) | 2023-11-24 | 2023-11-24 | 一种基于大数据的企业采购管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117290799A CN117290799A (zh) | 2023-12-26 |
CN117290799B true CN117290799B (zh) | 2024-02-02 |
Family
ID=89241024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311576014.3A Active CN117290799B (zh) | 2023-11-24 | 2023-11-24 | 一种基于大数据的企业采购管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290799B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003638A (zh) * | 2021-10-25 | 2022-02-01 | 深圳市高德信通信股份有限公司 | 一种智能互联大数据处理系统 |
CN114065725A (zh) * | 2021-10-28 | 2022-02-18 | 福建正孚软件有限公司 | 一种采购大数据管理系统 |
CN114064811A (zh) * | 2020-07-29 | 2022-02-18 | 中移(苏州)软件技术有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN115766607A (zh) * | 2022-11-08 | 2023-03-07 | 陕西通信规划设计研究院有限公司 | 一种基于5g物联网的数据压缩传输方法 |
CN115983622A (zh) * | 2022-11-17 | 2023-04-18 | 浙江淏瀚信息科技有限公司 | 一种内控协同管理系统的风险预警方法 |
CN117093879A (zh) * | 2023-10-19 | 2023-11-21 | 无锡尚航数据有限公司 | 一种数据中心智能化运营管理方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11481448B2 (en) * | 2020-03-31 | 2022-10-25 | Microsoft Technology Licensing, Llc | Semantic matching and retrieval of standardized entities |
JP7386446B2 (ja) * | 2022-04-13 | 2023-11-27 | 株式会社マーケットヴィジョン | 情報処理システム |
-
2023
- 2023-11-24 CN CN202311576014.3A patent/CN117290799B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064811A (zh) * | 2020-07-29 | 2022-02-18 | 中移(苏州)软件技术有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN114003638A (zh) * | 2021-10-25 | 2022-02-01 | 深圳市高德信通信股份有限公司 | 一种智能互联大数据处理系统 |
CN114065725A (zh) * | 2021-10-28 | 2022-02-18 | 福建正孚软件有限公司 | 一种采购大数据管理系统 |
CN115766607A (zh) * | 2022-11-08 | 2023-03-07 | 陕西通信规划设计研究院有限公司 | 一种基于5g物联网的数据压缩传输方法 |
CN115983622A (zh) * | 2022-11-17 | 2023-04-18 | 浙江淏瀚信息科技有限公司 | 一种内控协同管理系统的风险预警方法 |
CN117093879A (zh) * | 2023-10-19 | 2023-11-21 | 无锡尚航数据有限公司 | 一种数据中心智能化运营管理方法及系统 |
Non-Patent Citations (2)
Title |
---|
Sergio Greco 等.Effective and efficient similarity search in time series.《CIKM '06: Proceedings of the 15th ACM international conference on Information and knowledge management》.2006,第808–809页. * |
基于云相似度的B2B供应商个性化推荐算法;卢志刚 等;《微计算机信息》;第56-58页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117290799A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444241B (zh) | 一种基于数据挖掘的台区线损异常关联用户精准定位方法 | |
Kejriwal et al. | Wald tests for detecting multiple structural changes in persistence | |
Wei et al. | Thermal error modeling and compensation based on Gaussian process regression for CNC machine tools | |
CN110263821B (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN110751371A (zh) | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 | |
CN104462217A (zh) | 一种基于分段统计近似表示的时间序列相似性度量方法 | |
CN103544499A (zh) | 一种基于机器视觉的表面瑕疵检测的纹理特征降维方法 | |
CN111340086A (zh) | 无标签数据的处理方法、系统、介质及终端 | |
CN110880007A (zh) | 一种机器学习算法自动选择方法和系统 | |
CN112036426A (zh) | 利用高维传感器数据的多数表决进行无监督异常检测和责任的方法和系统 | |
CN114417954B (zh) | 一种提升食品检测效果的信息处理方法及系统 | |
CN116596441A (zh) | 一种基于云计算的智能仓储服务管理方法及系统 | |
CN116957634A (zh) | 用于电子商务平台的信息智能采集处理方法 | |
Flores et al. | Statistical quality control with the qcr package | |
CN114968774A (zh) | 一种多源异构跨项目软件缺陷预测方法 | |
CN116842330B (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
CN117290799B (zh) | 一种基于大数据的企业采购管理方法及系统 | |
CN108280377A (zh) | 在物资仓储管理系统中多标签的防碰撞读取方法 | |
Li et al. | A control scheme for monitoring process covariance matrices with more variables than observations | |
CN117036781A (zh) | 一种基于树综合多样性深度森林的图像分类方法 | |
CN116503025A (zh) | 一种基于工作流引擎的业务工单流程处理方法 | |
CN111091243A (zh) | 基于pca-gm的电力负荷预测方法、系统、计算机可读存储介质和计算设备 | |
Wang et al. | ApproxCCA: An approximate correlation analysis algorithm for multidimensional data streams | |
Klyachkin et al. | Analysis of stable functioning of objects using machine learning | |
CN114490797A (zh) | 一种时间序列的定性趋势分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |