CN116957634B - 用于电子商务平台的信息智能采集处理方法 - Google Patents
用于电子商务平台的信息智能采集处理方法 Download PDFInfo
- Publication number
- CN116957634B CN116957634B CN202311211186.0A CN202311211186A CN116957634B CN 116957634 B CN116957634 B CN 116957634B CN 202311211186 A CN202311211186 A CN 202311211186A CN 116957634 B CN116957634 B CN 116957634B
- Authority
- CN
- China
- Prior art keywords
- main data
- distribution
- curve
- commodity
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000009826 distribution Methods 0.000 claims abstract description 170
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000007619 statistical method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Abstract
本发明涉及电子数字数据处理技术领域,具体涉及用于电子商务平台的信息智能采集处理方法,包括:通过对同类商品的主数据进行统计分析,并对每一主数据对应的数值分布曲线进行区间划分,对每一分布区间内部的集中度进行量化后,进一步获得主数据的差异容忍度,根据由差异容忍度获得的离散差异值对LOF算法的K值进行优化调整,获得优化后的K值。本发明通过对不同商品给予不同的K值,大大降低了商品录入相关主数据后对主数据进行异常分析时的误判以及漏判的出现,提高了对商品主数据的异常识别精度,进一步提高了电子商务平台的信息分析处理的准确性,避免了电子商务平台中商品信息录入错误的情况。
Description
技术领域
本发明涉及电子数字数据处理技术领域,具体涉及用于电子商务平台的信息智能采集处理方法。
背景技术
电子商务平台通常需要在商品进入物流仓储系统中时录入商品的相关数据,相关数据的录入对寄件物流的效率以及用户对商品信息的了解存在重要的作用。在商品入库过程中相关数据由仓库的工作人员进行采集,由于作业压力大或流程不规范的问题,会导致商品的相关数据录入错误,而当商品的相关数据录入错误时,物流工作人员需要花费大量的时间对寄件进行核实,避免出现错误配送,因此漫长的数据核实过程降低了物流运送的效率。
现有技术中对电子商务平台的商品相关数据进行处理分析通常利用LOF算法计算每一商品的局部离群因子,以直接进行商品相关数据的异常识别,但在实际情况中,商品的相关数据通常所存在的误差程度不同,且同类商品之间的数据本身也存在一定差异,因此固定的LOF算法的K值容易导致对部分误差较小的商品主数据的识别敏感度过低或过高,而造成异常数据识别错误。
发明内容
本发明提供用于电子商务平台的信息智能采集处理方法,以解决现有的问题。
本发明的用于电子商务平台的信息智能采集处理方法采用如下技术方案:
本发明提供了用于电子商务平台的信息智能采集处理方法,该方法包括以下步骤:
获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理;
将商家的任意商品记为目标商品,将商家历史出售的商品中与目标商品的品类信息相同的商品记为目标商品的同类商品,对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间;将数值分布曲线的数据点记为曲线数据点,根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度;将目标商品的同类商品的任意主数据的数据点记为特殊数据点,将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度;根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度;利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值;
利用离散差异值对预设的K值进行优化获得优化后的K值;
利用优化后的K值通过LOF算法完成电子商务平台的信息智能采集处理。
进一步的,所述获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理,包括的具体步骤如下:
首先,获得物流仓储系统中所有存储的商品的主数据,所述主数据包括商品的长度、宽度、高度、体积以及重量,则任一商品对应多个主数据,并获取商品所属的品类,将商品所属的品类记为商品的品类信息;
然后,将所有商品的第个主数据的单位统一,并利用线性变换对商品的主数据进行线性缩放,将主数据的数值映射到区间/>,缩放后数值的精度为/>,其中/>、/>表示预设的超参数。
进一步的,所述对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间,包括的具体步骤如下:
构建直角坐标系,以主数据的数值大小作为横坐标,以每一数值对应的数量为纵坐标,并通过最小二乘法拟合历史的所有同类商品中任意主数据对应的数据点,将拟合获得的曲线记为主数据的数值分布曲线;获取数值分布曲线中的所有极小值,获得若干个极小值,将极小值作为区间的端点,利用极小值将数值分布曲线划分为若干个区间记为分布区间。
进一步的,所述根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度,包括的具体步骤如下:
获取数值分布曲线中任意分布区间内所有曲线数据点的斜率,将分布区间内所有曲线数据点的斜率绝对值的平均值记为分布区间内曲线数据点的集中度。
进一步的,所述将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,包括的具体步骤如下:
获取数值分布曲线中任意分布区间内的极大值记为曲线极大值;
获取分布区间内任意特殊数据点与曲线极大值之间的欧式距离记为特殊数据点的特殊距离。
进一步的,所述根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度,包括的具体步骤如下:
分布区间的置信度的具体计算方法为:
其中,表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间的置信度;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间内特殊数据点的数量;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间的曲线数据点数量;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间内第/>个特殊数据点的特殊距离;/>表示自然常数。
进一步的,所述根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度,包括的具体步骤如下:
主数据的差异容忍度的具体计算方法为:
其中,表示第/>个主数据的差异容忍度;/>表示第/>个主数据的数值分布曲线中第/>个分布区间的归一化集中度;/>表示第/>个主数据的数值分布曲线中第/>个分布区间的置信度;/>表示第/>个主数据的数值分布曲线中分布区间的数量。
进一步的,所述利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值,包括的具体步骤如下:
利用线性归一化方法对同类商品的所有主数据的差异容忍度进行归一化处理,将归一化后的差异容忍度记为归一化差异容忍度,将1减归一化差异容忍度记为主数据的反差异容忍度,将同类商品中所有主数据的标准差记为标准特征;将同类商品中所有主数据的反差异容忍度与标准特征的乘积累加值记为离散差异值。
进一步的,所述利用离散差异值对预设的值进行优化获得优化后的/>值,包括的具体步骤如下:
优化后的K值的具体计算方法为:
其中,表示优化后的/>值;/>表示预设的超参数;/>表示离散差异值;/>表示预设的超参数;/>表示sigmoid归一化函数。
进一步的,所述利用优化后的值通过LOF算法完成电子商务平台的信息智能采集处理,包括的具体步骤如下:
利用LOF算法的优化后的值结合LOF算法对电子商务平台的物流仓储系统中所有商品的主数据进行局部离群因子计算,获得主数据的局部离群因子,利用线性归一化方法将所有主数据的局部离群因子进行归一化处理,将局部离群因子的归一化处理结果记为归一化局部离群因子,将归一化局部离群因子大于预设的离群阈值的主数据记为异常主数据。
本发明的技术方案的有益效果是:通过结合电子商务平台中商家出售商品时通常选用固定的快递物流,且商家的同类商品中对应的主数据较为相近,通过对同类商品的主数据进行统计分析,并对每一主数据对应的数值分布曲线进行区间划分,对每一分布区间内部的集中度进行量化后,进一步获得主数据的差异容忍度,根据由差异容忍度获得的离散差异值对LOF算法的值进行优化调整,通过对不同商品给予不同的/>值,大大降低了商品录入相关主数据后对主数据进行异常分析时的误判以及漏判的出现,提高了对商品主数据的异常识别精度,进一步提高了电子商务平台的信息分析处理的准确性,避免了商品信息录入错误的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用于电子商务平台的信息智能采集处理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用于电子商务平台的信息智能采集处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的用于电子商务平台的信息智能采集处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的用于电子商务平台的信息智能采集处理方法的步骤流程图,该方法包括以下步骤:
步骤S001,获取电子商务平台中商品的主数据以及商品的品类信息。
首先,获得物流仓储系统中所有存储的商品的主数据,所述主数据包括商品的长度、宽度、高度、体积以及重量,则任一商品对应多个主数据,并获取商品所属的品类,将商品所属的品类记为商品的品类信息。
另外,由于商品中的多个主数据中,主数据的单位以及数值的量级可能存在差异,导致在计算主数据之间的距离度量特征时,会造成个别主数据值过大或过小,表达不出实际的概念,因此首先需要进行主数据处理;
然后,将所有商品的第个主数据的单位统一,并利用线性变换对商品的主数据进行线性缩放,将主数据的数值映射到区间/>,缩放后数值的精度为/>,其中/>、/>表示预设的超参数。
需要说明的是,根据经验预设超参数为10,预设超参数/>为0.01,可根据实际情况进行调整,本实施例不作具体限定。
需要说明的是,由于不同类别商品对应的主数据本身便存在差异,例如体重秤和沙发所对应的主数据之间差异过大,因此本实施通过获取商品的品类信息以便于对同类的商品进行分析,对于所有存储的商品,根据商品的品类信息对商品进行区分。
需要说明的是,所述品类信息通常为层次型划分,例如:第一层次通常为电脑办公、生活电器以及冰洗产品等,以冰洗产品为例,对应的第二层次为清洁电器和制冷电器等,以制冷电器为例对应的第三层次为为冰箱和冷柜,本实施例中所述的品类信息为商品所对应的第三层次。
至此,获得商品的主数据。
步骤S002,根据相同的品类信息下商品的主数据的分布特征获得主数据的差异容忍度,根据主数据的差异容忍度以及主数据的标准差获得离散差异值。
商家通常对应着固定的物流,而同一商家通常所卖商品的品类信息都较为相近的,例如一些商家售卖生活电器,另一些商家售卖超市百货,因此同一商家在通过物流寄出所售卖商品时,商品之间的主数据相近。
本实施例通过分析商品与商家所寄出的历史商品之间主数据的差异,从而根据主数据之间的差异对LOF算法的值进行动态优化,以获取录入异常的主数据。
需要说明的是,LOF算法的中文名称为局部离群因子算法,且LOF算法为现有算法,因此本实施例不过多赘述。
由于同一商家通常所售卖的相同品类信息的商品对应主数据相近,因此当出现商品的主数据与商家历史售卖的商品的主数据差异较大时,便可能出现商品主数据录入异常。
步骤(1),根据任意商品与商家在历史售卖的相同品类信息的商品的所有主数据,计算任意主数据的差异容忍度。
虽然商品的主数据与商家历史所售卖的相同品类信息的商品的主数据之间存在的差异较大时,可能会出现商品的部分主数据录入存在异常,但是主数据中存在部分参数的误差范围也存在差异。
通常情况下同类商品之间的价格分布较为均匀,因此利用同类商品的主数据以判断是否出现主数据录入异常的问题时,主数据之间的差异分析的贡献度相对较弱,因此需要对每一个主数据进行分析量化。
首先,获取电商平台的物流仓储系统中的任意商品记为目标商品,获取目标商品的品类信息以及所属的商家,获取目标商品所属商家售出的历史的同类商品以及对应的主数据。
需要说明的是,本实施例后续中将与任意商品的品类信息相同的商品称为所述任意商品的同类商品,即将商家的任意商品记为目标商品,将商家历史出售的商品中与目标商品的品类信息相同的商品记为目标商品的同类商品。
构建直角坐标系,以主数据的数值大小作为横坐标,以每一数值对应的数量为纵坐标,并通过最小二乘法拟合历史的所有同类商品中任意主数据对应的数据点,将拟合获得的曲线记为主数据的数值分布曲线;获取数值分布曲线中的所有极小值,获得若干个极小值,利用极小值将数值分布曲线划分为若干个区间记为分布区间,即将极小值作为分布区间的端点。
通过对所有历史的同类商品中任意主数据的数据点进行曲线拟合,能够得到商家历史所寄出的同类商品的任意主数据的分布情况,并通过最小二乘法进行拟合能够平滑掉较小的变化波动,得到表示主要分布情况的数值分布曲线。
通过利用数值分布曲线中的极小值进行区间划分后,任一分布区间都表示在区间范围中,历史的同类商品的数量呈集中分布,可表征同类商品的任意主数据中所能够确定的取值。
然后,将数值分布曲线中的数据点记为曲线数据点,获取数值分布曲线中任意曲线数据点的斜率,根据目标商品所属商家的历史同类商品中第个主数据的分布曲线中多个分布区间的分布特征,获得同类商品的第/>个主数据在第/>个分布区间内曲线数据点的集中度,具体计算方法为:
其中,表示第/>个主数据的数值分布曲线中第/>个分布区间内曲线数据点的集中度;/>表示第/>个主数据的数值分布曲线的第/>个分布区间内的第/>个曲线数据点的斜率;表示第/>个主数据的数值分布曲线中第/>个分布区间内曲线数据点的数量;/>表示绝对值符号。
由于以相邻极小值作为左右两端,则分布区间内只存在一个极大值点,因此,当区间内数据点的斜率均值越高,则表示在该分布区间内,同类商品的第个主数据的集中分布程度越高,则该分布区间内越可能为该类商品的一个正常取值范围,从而会出现一极大值为中心,逐渐向左右两端极小值减小的分布趋势。
其次,由于进行最小二乘法拟合时,是通过对离散的数据点进行拟合的,而历史的同类商品的第个主数据并不是在每一个数值上都有分布,因此不同分布区间内数据点的占比越少,则拟合时该分布区间内数值分布曲线与实际的主数据分布差异越大,便会导致该分布区间内的置信度较差,因此该分布区间在参与对应主数据的差异容忍度计算中的贡献度相对减弱。
将目标商品的同类商品的任意主数据的数据点记为特殊数据点;获取数值分布曲线中任意分布区间内的极大值记为曲线极大值,获取分布区间内任意特殊数据点与曲线极大值之间的欧式距离记为特殊数据点的特殊距离,根据特殊数据点和曲线数据点的数量以及特殊距离获得目标商品所属商家的历史同类商品中第个主数据的第q个分布区间的置信度,具体计算方法为:
其中,表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间的置信度;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间内特殊数据点的数量;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间的曲线数据点数量;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间内第/>个特殊数据点的特殊距离;/>表示自然常数。
结合特殊数据点的数量与曲线数据点的数量的比值作为分布区间内的数值分布曲线的可信度,但是数值分布曲线中不是所有的曲线数据点都是需要关注的,本实施例只需要关注数值分布曲线中集中分布程度高的曲线数据点,因此通过将分布区间内特殊数据点对应的特殊距离作为指数衰减函数的输入,使得特殊数据点越接近所述分布区间内的极大值,进一步使得在参与获取置信度的计算中特殊数据点的权重值越高;
特殊距离越小,指数衰减函数增长的速度越快,从而进一步扩大特殊距离对应的特殊数据点之间的差距,而置信度越小表示对应分布区间内的数值分布曲线中特殊数据的占比越少,分布区间在后续参与差异容忍度的计算时对应的权重相对更弱。
最后,利用线性归一化方法将所有分布区间对应的集中度进行归一化处理,将对应的归一化处理结果记为归一化集中度;根据目标商品所属商家出售的历史的同类商品中,任意主数据的数值分布曲线的所有分布区间的归一化集中度以及置信度获得主数据的差异容忍度,具体计算方法为:
其中,表示第/>个主数据的差异容忍度;/>表示第/>个主数据的数值分布曲线中第/>个分布区间的归一化集中度;/>表示第/>个主数据的数值分布曲线中第/>个分布区间的置信度;/>表示第/>个主数据的数值分布曲线中分布区间的数量。
同类商品的任意主数据中,在正常的取值范围内可能存在多个不同的值,因此主数据与对应的数值分布曲线之间的误差通常以正常值为中心逐渐向较大或较小值分布,即反映在数值分布曲线中可能存在多个分布区间,因此主数据中包含有多个分布区间时,则表示主数据中可能存在的正常指标越多,且由于集中度是基于分布区间内曲线数据点的斜率均值得到的,而不是均值累加,因此主数据中分布区间的数量越多,且每一个分布区间的集中度越高时,则表示主数据得到的目标商品与历史的同类商品之间的差异较小,因此该差异在获取目标商品与同类商品之间的整体差异时对应的权重较小。
步骤(2),根据差异容忍度,得到目标商品与目标商品所属商家历史出售的同类商品之间的离散差异值。
获取目标商品与目标商品所属商家历史出售的同类商品中任意主数据的标准差,根据标准差以及差异容忍度获得离散差异值,具体计算方法为:
其中,表示目标商品与目标商品所属商家历史出售的同类商品之间的离散差异值;/>表示目标商品与同类商品的第/>个主数据的标准差;/>表示目标商品与同类商品的第/>个主数据的差异容忍度;/>表示目标商品的主数据的数量;/>表示线性归一化函数。
目标商品与目标商品所属商家历史出售的同类商品中任意主数据的标准差越大,表示目标商品与同类商品之间的主数据差异越大,则目标商品的主数据出错的可能性越大。
至此,获得离散差异值。
步骤S003,利用离散差异值对LOF算法的值进行优化调节,获得优化后的/>值。
利用离散差异值对LOF算法的值进行优化调节,获得优化后的/>值,具体计算方法为:
其中,表示优化后的/>值;/>表示预设的超参数;/>表示离散差异值;/>表示预设的超参数;/>表示sigmoid归一化函数。
需要说明的是,根据经验预设超参数为0.5,可根据实际情况进行调节,本实施例不作具体限定。
通过该方式,使得LOF算法优化后的K值的取值范围为,目标商品与同列商品的主数据之间的离散差异值越大时,则表示目标商品存在主数据录入错误的可能性越高,则目标商品在后续参与/>算法计算时,其得到的/>值越小,即LOF算法对目标商品的敏感度更高,而当目标商品对应的离散差异值越小时,则目标商品获得的LOF算法的优化后的/>值越大,则会通过选取更多的数据点来避免因数据点数量过少导致的误判。
至此,获得LOF算法的优化后的值。
步骤S004,利用优化后的值结合LOF算法对电子商务平台的物流仓储系统中所有商品的主数据进行局部离群因子计算,根据计算结果的大小获取异常主数据,利用异常主数据完成电子商务平台的信息智能采集处理。
首先,利用LOF算法的优化后的值结合LOF算法对电子商务平台的物流仓储系统中所有商品的主数据进行局部离群因子计算,获得主数据的局部离群因子,利用线性归一化方法将所有主数据的局部离群因子进行归一化处理,将局部离群因子的归一化处理结果记为归一化局部离群因子,将归一化局部离群因子大于预设的离群阈值的主数据记为异常主数据;
需要说明的是,根据经验预设离群阈值为0.9,可根据实际情况进行调整,本实施例不作具体限定。
然后,将电子商务平台的物流仓储系统中存在异常主数据的商品标注出来,并进行核实。
需要说明的是,本实施例中所用的模型仅用于表示负相关关系和约束模型输出的结果处于/>区间内,具体实施时,可替换成具有同样目的的其他模型,本实施例只是以/>模型为例进行叙述,不对其做具体限定,其中/>是指该模型的输入。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.用于电子商务平台的信息智能采集处理方法,其特征在于,该方法包括以下步骤:
获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理;
将商家的任意商品记为目标商品,将商家历史出售的商品中与目标商品的品类信息相同的商品记为目标商品的同类商品,对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间;将数值分布曲线的数据点记为曲线数据点,根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度;将目标商品的同类商品的任意主数据的数据点记为特殊数据点,将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度;根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度;利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值;
利用离散差异值对预设的值进行优化获得优化后的/>值;
利用优化后的值通过LOF算法完成电子商务平台的信息智能采集处理。
2.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理,包括的具体步骤如下:
首先,获得物流仓储系统中所有存储的商品的主数据,所述主数据包括商品的长度、宽度、高度、体积以及重量,则任一商品对应多个主数据,并获取商品所属的品类,将商品所属的品类记为商品的品类信息;
然后,将所有商品的第个主数据的单位统一,并利用线性变换对商品的主数据进行线性缩放,将主数据的数值映射到区间/>,缩放后数值的精度为/>,其中/>、/>表示预设的超参数。
3.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间,包括的具体步骤如下:
构建直角坐标系,以主数据的数值大小作为横坐标,以每一数值对应的数量为纵坐标,并通过最小二乘法拟合历史的所有同类商品中任意主数据对应的数据点,将拟合获得的曲线记为主数据的数值分布曲线;获取数值分布曲线中的所有极小值,获得若干个极小值,将极小值作为区间的端点,利用极小值将数值分布曲线划分为若干个区间记为分布区间。
4.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度,包括的具体步骤如下:
获取数值分布曲线中任意分布区间内所有曲线数据点的斜率,将分布区间内所有曲线数据点的斜率绝对值的平均值记为分布区间内曲线数据点的集中度。
5.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,包括的具体步骤如下:
获取数值分布曲线中任意分布区间内的极大值记为曲线极大值;
获取分布区间内任意特殊数据点与曲线极大值之间的欧式距离记为特殊数据点的特殊距离。
6.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度,包括的具体步骤如下:
分布区间的置信度的具体计算方法为:
其中,表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间的置信度;表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间内特殊数据点的数量;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间的曲线数据点数量;/>表示同类商品的第/>个主数据对应数值分布曲线的第/>个分布区间内第/>个特殊数据点的特殊距离;/>表示自然常数。
7.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度,包括的具体步骤如下:
利用线性归一化方法将所有分布区间对应的集中度进行归一化处理,将对应的归一化处理结果记为归一化集中度;主数据的差异容忍度的具体计算方法为:
其中,表示第/>个主数据的差异容忍度;/>表示第/>个主数据的数值分布曲线中第/>个分布区间的归一化集中度;/>表示第/>个主数据的数值分布曲线中第/>个分布区间的置信度;/>表示第/>个主数据的数值分布曲线中分布区间的数量。
8.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值,包括的具体步骤如下:
利用线性归一化方法对同类商品的所有主数据的差异容忍度进行归一化处理,将归一化后的差异容忍度记为归一化差异容忍度,将1减归一化差异容忍度记为主数据的反差异容忍度,将同类商品中所有主数据的标准差记为标准特征;将同类商品中所有主数据的反差异容忍度与标准特征的乘积累加值记为离散差异值。
9.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述利用离散差异值对预设的值进行优化获得优化后的/>值,包括的具体步骤如下:
优化后的K值的具体计算方法为:
其中,表示优化后的/>值;/>表示预设的超参数;/>表示离散差异值;/>表示预设的超参数;/>表示sigmoid归一化函数。
10.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述利用优化后的K值通过LOF算法完成电子商务平台的信息智能采集处理,包括的具体步骤如下:
利用LOF算法的优化后的值结合LOF算法对电子商务平台的物流仓储系统中所有商品的主数据进行局部离群因子计算,获得主数据的局部离群因子,利用线性归一化方法将所有主数据的局部离群因子进行归一化处理,将局部离群因子的归一化处理结果记为归一化局部离群因子,将归一化局部离群因子大于预设的离群阈值的主数据记为异常主数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311211186.0A CN116957634B (zh) | 2023-09-19 | 2023-09-19 | 用于电子商务平台的信息智能采集处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311211186.0A CN116957634B (zh) | 2023-09-19 | 2023-09-19 | 用于电子商务平台的信息智能采集处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116957634A CN116957634A (zh) | 2023-10-27 |
CN116957634B true CN116957634B (zh) | 2023-11-21 |
Family
ID=88454947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311211186.0A Active CN116957634B (zh) | 2023-09-19 | 2023-09-19 | 用于电子商务平台的信息智能采集处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116957634B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235651B (zh) * | 2023-11-14 | 2024-02-02 | 湖南璟泰信息系统有限公司 | 基于物联网的企业信息数据优化管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948724A (zh) * | 2019-03-28 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于改进lof算法的电商刷单行为检测方法 |
CN110569890A (zh) * | 2019-08-23 | 2019-12-13 | 河海大学 | 一种基于相似性度量的水文数据异常模式检测方法 |
CN113254733A (zh) * | 2020-12-26 | 2021-08-13 | 深圳市八方通达科技有限公司 | 基于大数据平台的信息分析方法、系统及存储介质 |
WO2021212752A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 基于设备指标数据的异常检测方法、装置、设备及存储介质 |
CN116703485A (zh) * | 2023-08-04 | 2023-09-05 | 山东创亿智慧信息科技发展有限责任公司 | 基于大数据的广告精准营销方法及系统 |
-
2023
- 2023-09-19 CN CN202311211186.0A patent/CN116957634B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948724A (zh) * | 2019-03-28 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于改进lof算法的电商刷单行为检测方法 |
CN110569890A (zh) * | 2019-08-23 | 2019-12-13 | 河海大学 | 一种基于相似性度量的水文数据异常模式检测方法 |
WO2021212752A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 基于设备指标数据的异常检测方法、装置、设备及存储介质 |
CN113254733A (zh) * | 2020-12-26 | 2021-08-13 | 深圳市八方通达科技有限公司 | 基于大数据平台的信息分析方法、系统及存储介质 |
CN116703485A (zh) * | 2023-08-04 | 2023-09-05 | 山东创亿智慧信息科技发展有限责任公司 | 基于大数据的广告精准营销方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116957634A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116957634B (zh) | 用于电子商务平台的信息智能采集处理方法 | |
Westermann et al. | Unsupervised learning of energy signatures to identify the heating system and building type using smart meter data | |
WO2021052031A1 (zh) | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 | |
CN110704730A (zh) | 基于大数据的产品数据推送方法、系统及计算机设备 | |
CN116596441A (zh) | 一种基于云计算的智能仓储服务管理方法及系统 | |
Gustriansyah et al. | An approach for sales forecasting | |
CN117010942B (zh) | 基于神经网络和线性模型的农产品销售预测方法和系统 | |
Wu et al. | Predication of futures market by using boosting algorithm | |
CN114565344A (zh) | 一种基于云平台的erp电商订单库存管理系统及方法 | |
CN110288383B (zh) | 基于用户属性标签的群体行为配电网用电异常检测方法 | |
CN116842330A (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
CN112488771B (zh) | 自动设置商品价格的方法、装置、设备和存储介质 | |
US8290913B2 (en) | Techniques for multi-variable analysis at an aggregate level | |
El Ghourabi et al. | A new financial stress index model based on support vector regression and control chart | |
CN117436936B (zh) | 基于销量预测与bom成品加工系统及方法 | |
CN115809355B (zh) | 用于电子商务管理系统的数据存储方法 | |
CN116862625B (zh) | 基于互联网大数据的生鲜水果线上推荐方法 | |
CN116977021B (zh) | 基于大数据的系统对接自动推单方法 | |
CN117196831B (zh) | 一种面向金融服务的风险预测方法及系统 | |
Bao et al. | SVR-based method forecasting intermittent demand for service parts inventories | |
CN116823331A (zh) | 数据预测方法、装置及电子设备 | |
Yuan et al. | Identification and Calibration Method of Deviation of Main Transformer Online Monitoring Date Groups | |
De Meyer | Determining the integrity of single-source condition-based maintenance data | |
CN116433273A (zh) | 一种商品销售折扣的确定方法及装置 | |
CN116611775A (zh) | 一种基于物联网的产品供应限制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |