CN109389453A - 一种价格分析方法及装置 - Google Patents

一种价格分析方法及装置 Download PDF

Info

Publication number
CN109389453A
CN109389453A CN201710685511.5A CN201710685511A CN109389453A CN 109389453 A CN109389453 A CN 109389453A CN 201710685511 A CN201710685511 A CN 201710685511A CN 109389453 A CN109389453 A CN 109389453A
Authority
CN
China
Prior art keywords
price range
data
price
cluster
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710685511.5A
Other languages
English (en)
Inventor
孙鹏飞
殷太兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Commerce Group Co Ltd
Original Assignee
Suning Commerce Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Commerce Group Co Ltd filed Critical Suning Commerce Group Co Ltd
Priority to CN201710685511.5A priority Critical patent/CN109389453A/zh
Publication of CN109389453A publication Critical patent/CN109389453A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种价格分析方法及装置,涉及电子商务领域,能够扩大价格分析方案的使用范围。本发明包括:获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据;对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到;对所获取的价格区间进行热度计算,并输出热度计算结果。本发明适用于分析价格区间。

Description

一种价格分析方法及装置
技术领域
本发明涉及电子商务领域,尤其涉及一种价格分析方法及装置。
背景技术
电子商务网站为了降低用户选择商品的难度,在结果页的高筛选项中引入价格筛选,按照关键词或类目对全部商品的价格进行分类,将其划分为价格区间。
但目前常用的价格区间的分析方式,依然存在一些缺陷,例如:完全按统计意义等间距进行划分,特别是在某些关键词或类目下的商品价格区间跨度比较大时,往往无法真实反应用户的偏好,以及还会造成某些价格区间无商品,从而导致价格区间的划分不准确的问题;并且受异常数据影响较大,如某些关键词和类目下商品价格存在异常数值,就会造成划分出来的价格区间不准确的问题。
由于目前方案中价格分析不准确的问题,导致了现有的价格分析方案所得的结果往往只能作为参考,难以基于价格分析的结果扩展出更多的业务方案,因此限制了价格分析方案的使用范围。
发明内容
本发明的实施例提供一种价格分析方法及装置,能够扩大价格分析方案的使用范围。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供的方法,包括:
获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据;
对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到;
对所获取的价格区间进行热度计算,并输出热度计算结果。
结合第一方面,在第一方面的第一种可能的实现方式中,还包括:
对所述样本数据集合进行数据特征提取,并识别出异常数据;
利用所述异常数据对所述样本数据集合进行平滑处理,并根据经过所述平滑处理的所述样本数据集合生成区间划分模型。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述对所述样本数据集合进行数据特征提取,并识别出异常数据,包括:
从所述样本数据集合中提取n个数据对象,并从所提取的数据对象中选择2个作为初始聚类中心,其中,n≥3;
根据与所述初始聚类中心之间的相似度,将所述初始聚类中心之外的数据对象,分配至各自最相似的类簇中,得到聚类的新簇;
计算所得到的聚类的类簇,得到各新簇中的数据对象的均值;
根据所述各新簇中的数据对象的均值和预设的阈值进行异常值识别,确定异常数据。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述从所提取的数据对象中选择2个作为初始聚类中心,包括:从25分位点和75分位点各自选取一个数据对象,作为初始聚类中心。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,还包括:
对从所述样本数据集合中的数据对象,进行标准化数值处理,得到各数据对象的Z分数;
将Z分数低于下限值或高于上限值的数据对象,确定为异常数据。
结合第一方面,在第一方面的第五种可能的实现方式中,所述对所获取的价格区间进行热度计算,包括:
获取所获取的各价格区间对应的网络行为概率,其中,对应一个价格区间的网络行为概率包括:这一个价格区间下的商品的网络行为之和,与所有区间下的商品的网络行为之和的商值;
根据所述网络行为概率,建立各价格区间对应的热度计算模型,并计算各价格区间的热度。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述获取所获取的各价格区间对应的网络行为概率,包括:
根据确定各价格区间对应的网络行为概率,其中,Pi(s)为与所述关键词信息相关联的类目s所对应的第i个价格区间的概率,Ni(s)为与所述关键词信息相关联的类目s所对应第i个价格区间对应的网络行为次数,k为价格区间的个数,所述网络行为包括对于商品的浏览、购买、收藏、点击行为;
所述计算各价格区间的热度,包括:
对于一个价格区间,获取这一个价格区间的网络行为概率的熵与所有价格区间的网络行为概率的熵之和的商值,并作为这一个价格区间的热度值其中Hi(s)第i个价格区间的熵,Pi(S)为第i个价格区间的网络行为概率,n为网络行为的种类,K为价格区间的个数,λ为引入的拉普拉斯平滑系数。
第二方面,本发明的实施例提供的装置,包括:
接收模块,用于获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据;
第一分析模块,用于对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到;
第二分析模块,用于对所获取的价格区间进行热度计算,并输出热度计算结果。
结合第二方面,在第二方面的第一种可能的实现方式中,还包括:
异常处理模块,用于从所述样本数据集合中提取n个数据对象,并从所提取的数据对象中选择2个作为初始聚类中心,其中,n≥3;并根据与所述初始聚类中心之间的相似度,将所述初始聚类中心之外的数据对象,分配至各自最相似的类簇中,得到聚类的新簇;再计算所得到的聚类的类簇,得到各新簇中的数据对象的均值;之后根据所述各新簇中的数据对象的均值和预设的阈值进行异常值识别,确定异常数据;
模型维护模块,用于利用所述异常数据对所述样本数据集合进行平滑处理,并根据经过所述平滑处理的所述样本数据集合生成区间划分模型。
结合第二方面,在第二方面的第二种可能的实现方式中,所述第二分析模块,具体用于获取所获取的各价格区间对应的网络行为概率,其中,对应一个价格区间的网络行为概率包括:这一个价格区间下的商品的网络行为之和,与所有区间下的商品的网络行为之和的商值;并根据所述网络行为概率,建立各价格区间对应的热度计算模型,并计算各价格区间的热度。
在本实施例中,对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间;再对所获取的价格区间进行热度计算,并输出热度计算结果,以此来反应用户的喜好度。相对于通常的价格区间的分析方式,在本实施例中,还获取所获取的各价格区间对应的网络行为概率,并根据所述网络行为概率,建立各价格区间对应的热度计算模型。再通过热度计算模型,计算各价格区间的热度,以此来反应用户的喜好度。从而缓减了价格分析不准确的问题。从而扩大了价格分析方案的使用范围。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的系统架构示意图;
图2为本发明实施例提供的方法流程示意图;
图3、图4、图5、图6为本发明实施例提供的具体实例的示意图;
图7、图8为本发明实施例提供的装置示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本实施例中的方法流程,具体可以在一种如图1所示的系统上执行,该系统包括:分析系统、商品数据库和用户终端。其中:
分析系统,具体用于存储并更新算法模型,这些算法模型可以是由运营商的技术人员输入算法系统的,也可以是通过网络共享工具,由第三方技术人员上传至算法系统的。
本实施例中所揭示的分析系统,在硬件层面上具体可以是工作站、超级计算机等设备,或者是由多个硬件设备组成的一种用于数据处理的服务器集群。
本实施例中所揭示的商品数据库,具体可以是一种用于存储并维护商品数据的数据库系统。
本实施例中所揭示的用户终端具体可以实做成单独一台装置,或整合于各种不同的媒体数据播放装置中,诸如移动电话、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digital assistant,简称PDA)等。
本发明实施例提供一种价格分析方法,如图2所示,包括:
S1、获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据。
其中,关键词信息具体可以是用户终端向分析系统发送的搜索词、短语、短句等文字信息;在于分析系统连接的数据库中,商品数据一般以数据库表的形式存储。并将不同类型商品的商品数据,归类至不同的商品类目下,而商品类目可以通过关键词或者数据标签进行标记区分,以便于分析系统通过所述关键词信息查询得到对应的商品类目,而查询得的商品类目的关键词或者数据标签则与所述关键词信息相关联。
S2、对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间。
其中,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到。对商品数据进行聚类,并建立区间划分模型,该模型可以利用Kmeans算法对区间进行划分,依据业务需要确认区间段个数,也就是Kmeans算法中的k值。同时,为了避免初始中心点对模型的影响,可以通过交叉验证每次结果的中心点后,再计算这些中心点的均值,并利用这些均值点作为区间划分模型的初始中心点,从而加快模型的收敛速度及提高模型的准确率。
S3、对所获取的价格区间进行热度计算,并输出热度计算结果。
在本实施例中,对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间;再对所获取的价格区间进行热度计算,并输出热度计算结果,以此来反应用户的喜好度。相对于通常的价格区间的分析方式,在本实施例中,还获取所获取的各价格区间对应的网络行为概率,并根据所述网络行为概率,建立各价格区间对应的热度计算模型。再通过热度计算模型,计算各价格区间的热度,以此来反应用户的喜好度。从而缓减了价格分析不准确的问题。从而扩大了价格分析方案的使用范围。
在实施例在实际应用中,通过分析预处理后数据发现,样本中存在异常点。针对这些异常点的平滑处理方式,具体还包括:
对所述样本数据集合进行数据特征提取,并识别出异常数据。
利用所述异常数据对所述样本数据集合进行平滑处理,并根据经过所述平滑处理的所述样本数据集合生成区间划分模型。
例如:可以采用基于Kmeans聚类的异常数据的提取方案。具体的:本实施例中对所述样本数据集合进行数据特征提取,并识别出异常数据的方式,包括:
从所述样本数据集合中提取n个数据对象,并从所提取的数据对象中选择2个作为初始聚类中心。根据与所述初始聚类中心之间的相似度,将所述初始聚类中心之外的数据对象,分配至各自最相似的类簇中,得到聚类的新簇。其中,新簇的数量和初始聚类中心的数量是一致的,在数据对象分配的过程中没有改变。之后,计算所得到的聚类的类簇,得到各新簇中的数据对象的均值。再根据所述各新簇中的数据对象的均值和预设的阈值进行异常值识别,确定异常数据。,例如:计算一个类簇中的所有样本点的均值,然后与阈值进行对比,如果均值大于阈值,则认为该类簇是由异常点组成的类簇,并将其认为异常类簇。在本实施例中,数据对象可以理解为模型训所需使用练用的样本点。
其中,可以先对从数据库中提取的商品数据进行预处理,预处理过程至少包括:对商品数据进行统计计算,并对脏数据进行清洗过滤。然后,按照统计规则计算每个关键词或类目对应商品的各个指标,比如:商品浏览量、商品点击量、商品收藏量、商品购买量和商品价格(商品价格包括了平均价格或客单价)等。经过预处理的商品数据可以作为样本数据集合。具体的,可以按照预设的统计规则计算每个关键词或类目对应商品的各个指标,其中,利用特征工程可以将“各个指标”转化为模型所需的特征。
具体的,n≥3。在本实施例的优选方案中,所述从所提取的数据对象中选择2个作为初始聚类中心,包括:从25分位点和75分位点各自选取一个数据对象,作为初始聚类中心。选取25分位点,接近下分位线更快;选取75分位点,则接近上分位线更快,从而提高收敛速度,并且避免随机选取初始中心造成每次训练结果不同的问题。而对于所剩下其它数据对象,则根据它们与这些聚类中心的相似度(相似度具体是距离值参数),分别将它们分配给相似的聚类(比如:一个数据对象被分配至与其距离值最小的聚类中心)。然后再计算每个聚类的类簇,得到各新簇中的数据对象的均值,并不断重复这一过程直到标准测度函数开始收敛为止。具体的,本实施例中可以采用均方差作为标准测度函数。从而利用聚类的方法将样本数据划分为两个类簇,在每个类簇中各个元素尽可能的紧凑,而各类簇之间尽可能的分开。
为了进一步识别出哪个类簇是异常值,哪个类簇是正常值,再引入阈值ε进行异常值识别。并且,对于该模型识别的异常值,进行平滑处理,利用样本的均值进行平滑处理,这样保证样本的整体性,同时,保留了样本中每个点的信息。例如:用“电视”这个关键词信息对应的数据进行说明分析,该数据包括商品销量(x1)、商品点击(x2)、商品价格(x3),建立上述Kmeans模型,首先,针对每个维度选取25分位数和75分位数作为初始聚类中心点,在本案例中,25分位数是(2.75,3.75,2099),75分位数是(62.25,34,5699),然后设置类簇的个数,即Kmeans算法中的k值,这里k设置为2,再利用Kmeans算法进行异常数据的识别,通过上述方法得到类簇1和类簇2;由于这里依然并不知道该哪个类簇是异常值,因为进一步计算得到类簇1的样本数量(S1)为9608,而类簇2的样本数量(S2)为664,这里设置阈值ε为1.5,故即S2为异常点,如图3所示。完成异常点识别后,进行异常值的平滑处理,采用样本的均值进行平滑处理,这里的(x1,x2,x3)=(262.7,56.9,5003),进行平滑处理后的数据如图4所示的。
由于利用本实施例所提供的基于Kmeans聚类的异常数据的提取方案,进行异常值识别可以很好的处理高度异常的异常值,但是对于单维度分布中的异常点误判率较高。因此,本方案在上述算法的基础上进一步分析样本的统计检验,建立3σ法则模型。作为基于Kmeans聚类的异常数据的提取方案的补充,具体还包括:对从所述样本数据集合中的数据对象,进行标准化数值处理,得到各数据对象的Z分数。并将Z分数低于下限值或高于上限值的数据对象,确定为异常数据。例如:若样本数据的总体x是服从正态分布的,则P(|x-μ|>3σ)≤0.003,其中,μ与σ分别表示正态分布的数学期望(即随机变量的均值)和标准差。此时,在样本中出现大于μ+3σ或小于μ-3σ数据值的概率是很小的。因此,根据上式对于大于μ+3σ或小于μ-3σ的样本数据值作为异常值。然而在实际应用中,样本的整体分布并不满足正态分布,因此,对样本数据进行标准化数值(Z-score),即z=(x-μ)/σ,其中,μ与σ分别表示平均数和标准差。Z-score标准化后的数据服从正态分布。故应用Z分数可识别异常值。
在本实施例的优选方案中,可以将Z分数低于-3或高于3的数据看成是异常值。针对该模型识别出来的异常值,同Kmeans模型一样,进行平滑处理,即利用样本的均值替换异常值。例如:依然采用“电视”这个关键词信息对应的数据进行说明分析,计算每个维度对应的平均值和标准差,(μ1,μ2,μ3)=(279.0,59.9,3778.2),(σ1,σ2,σ3)=(1279.1,160.9,2638.9),利用上述的公式P(|x-μ|>3σ)≤0.003计算每个维度,并对每个维度的异常值进行识别,如图5所示;同时,利用每个维度样本的均值进行平滑处理,即(x1,x2,x3)=(279.0,59.9,3778.2),结果如图6所示。
目前在价格分析方面,常用的方案有:等间距划分法、面积等分法、聚类法等,但是或多或少存在某种缺陷。例如:等间距划分法,完全按统计意义等间距进行划分,这样造成无法真实反应用户的偏好,特别是在某些关键词或类目下的商品价格区间跨度比较大时,等间距划分法还会造成某些价格区间无商品;面积等分法和聚类法易受异常数据影响,如某些关键词和类目下商品价格存在异常数值,这样就会造成划分出来的价格区间不准确的问题。由于目前方案中价格分析不准确的问题,导致了现有的价格分析方案所得的结果往往只能作为参考,难以基于价格分析的结果扩展出更多的业务方案,因此限制了价格分析方案的使用范围。本实施例中,通过对异常数据进行分析识别,并进行平滑处理,缓减了异常数据所造成的价格分析不准确的问题。
在本实施例中,所述对所获取的价格区间进行热度计算的具体方式,包括:
获取所获取的各价格区间对应的网络行为概率,其中,对应一个价格区间的网络行为概率包括:这一个价格区间下的商品的网络行为之和,与所有区间下的商品的网络行为之和的商值。
根据所述网络行为概率,建立各价格区间对应的热度计算模型,并计算各价格区间的热度。具体的,所述获取所获取的各价格区间对应的网络行为概率,包括:
根据确定各价格区间对应的网络行为概率,其中,Pi(s)为与所述关键词信息相关联的类目s所对应的第i个价格区间的概率,Ni(s)为与所述关键词信息相关联的类目s所对应第i个价格区间对应的网络行为次数,k为价格区间的个数,所述网络行为包括对于商品的浏览、购买、收藏、点击行为。
所述计算各价格区间的热度,包括:
对于一个价格区间,获取这一个价格区间的网络行为概率的熵与所有价格区间的网络行为概率的熵之和的商值,并作为这一个价格区间的热度值其中Hi(s)第i个价格区间的熵,Pi(s)为第i个价格区间的网络行为概率,n为网络行为的种类,K为价格区间的个数,λ为引入的拉普拉斯平滑系数。
例如:
在对所述样本数据集合进行数据特征提取后,建立区间划分模型,该模型利用上述Kmeans算法对区间进行划分,依据业务需要确认区间段个数,表示为Kmeans算法中的k值。同时,为了避免初始中心点对模型的影响,对通过交叉验证的数据,计算每次结果的中心点,再计算这些中心点的均值,利用这些均值点作为区间划分模型的初始中心点,从而加快模型的收敛速度及提高模型的准确率。针对上两步处理好的数据,根据上述描述建立Kmeans模型,本方案设置Kmeans算法中k值为4,初始中心点为X1=(1.0,1.0,19.9),X2=(3.0,4.0,1999.0),X3=(10.0,10.0,2999.0),X4=(69.0,36.0,4979.0),通过训练得到划分点为(1421.0,3264.0,5833.0,9704.0)。其中,交叉验证可以理解为:将样本数据按一定的比例(比例可自定义)进行划分,划分成两部分,当将第一部分进行训练时,获得模型,用第二部分进行验证这个模型是否准确。
再利用热度计算模型(该模型基于确定出来的价格区间),根据每个关键词或类目下(即被检索的)商品的网络行为建立热度模型。具体地,网络行为概率可以为该价格区间对应的商品网络行为之和与所有区间商品网络行为之和的商值,即,价格区间的热度模型可以根据该价格区间中网络行为概率确定。具体的,每个价格区间的热度值为该价格区间网络行为概率的熵值与所有价格区间网络行为概率的熵值之和的商值,即,利用本方案建立的热度计算模型,首先依据公式先计算每个网络行为对应的Pi(s),购买的数据为P11=0.156109,P12=0.482035,P13=0.288488,P14=0.063187,P15=0.010181;同理,点击行为的数据为P21=0.149278,P22=0.435868,P23=0.320695,P24=0.077551,P25=0.016608;然后,再按公式计算每个价格区间的熵值,H1=0.573844,H2=0.713711,H3=0.723335,H4=0.372785,H5=0.114760,最后,将上述计算得到数据带入公式其中λ=0.1,计算得到每个区间对应的热度,即(0-1421:0.230002,1421-3264:0.285101,3264-5833:0.288893,5833-9404:0.150795,9404-inf:0.049149)。
本实施例中,还提供一种种价格分析装置,如图7所示的,包括:
接收模块,用于获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据;
第一分析模块,用于对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到;
第二分析模块,用于对所获取的价格区间进行热度计算,并输出热度计算结果。
进一步的,如图8所示的,还包括:
异常处理模块,用于从所述样本数据集合中提取n个数据对象,并从所提取的数据对象中选择2个作为初始聚类中心,其中,n≥3;并根据与所述初始聚类中心之间的相似度,将所述初始聚类中心之外的数据对象,分配至各自最相似的类簇中,得到聚类的新簇;再计算所得到的聚类的类簇,得到各新簇中的数据对象的均值;之后根据所述各新簇中的数据对象的均值和预设的阈值进行异常值识别,确定异常数据;
模型维护模块,用于利用所述异常数据对所述样本数据集合进行平滑处理,并根据经过所述平滑处理的所述样本数据集合生成区间划分模型。
具体的,所述第二分析模块,具体用于获取所获取的各价格区间对应的网络行为概率,其中,对应一个价格区间的网络行为概率包括:这一个价格区间下的商品的网络行为之和,与所有区间下的商品的网络行为之和的商值;并根据所述网络行为概率,建立各价格区间对应的热度计算模型,并计算各价格区间的热度。
在本实施例中,对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间;再对所获取的价格区间进行热度计算,并输出热度计算结果,以此来反应用户的喜好度。相对于通常的价格区间的分析方式,在本实施例中,还获取所获取的各价格区间对应的网络行为概率,并根据所述网络行为概率,建立各价格区间对应的热度计算模型。再通过热度计算模型,计算各价格区间的热度,以此来反应用户的喜好度。从而缓减了价格分析不准确的问题。从而扩大了价格分析方案的使用范围。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种价格分析方法,其特征在于,包括:
获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据;
对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到;
对所获取的价格区间进行热度计算,并输出热度计算结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述样本数据集合进行数据特征提取,并识别出异常数据;
利用所述异常数据对所述样本数据集合进行平滑处理,并根据经过所述平滑处理的所述样本数据集合生成区间划分模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述样本数据集合进行数据特征提取,并识别出异常数据,包括:
从所述样本数据集合中提取n个数据对象,并从所提取的数据对象中选择2个作为初始聚类中心,其中,n≥3;
根据与所述初始聚类中心之间的相似度,将所述初始聚类中心之外的数据对象,分配至各自最相似的类簇中,得到聚类的新簇;
计算所得到的聚类的类簇,得到各新簇中的数据对象的均值;
根据所述各新簇中的数据对象的均值和预设的阈值进行异常值识别,确定异常数据。
4.根据权利要求3所述的方法,其特征在于,所述从所提取的数据对象中选择2个作为初始聚类中心,包括:从25分位点和75分位点各自选取一个数据对象,作为初始聚类中心。
5.根据权利要求3所述的方法,其特征在于,还包括:
对从所述样本数据集合中的数据对象,进行标准化数值处理,得到各数据对象的Z分数;
将Z分数低于下限值或高于上限值的数据对象,确定为异常数据。
6.根据权利要求1所述的方法,其特征在于,所述对所获取的价格区间进行热度计算,包括:
获取所获取的各价格区间对应的网络行为概率,其中,对应一个价格区间的网络行为概率包括:这一个价格区间下的商品的网络行为之和,与所有区间下的商品的网络行为之和的商值;
根据所述网络行为概率,建立各价格区间对应的热度计算模型,并计算各价格区间的热度。
7.根据权利要求6所述的方法,其特征在于,所述获取所获取的各价格区间对应的网络行为概率,包括:
根据确定各价格区间对应的网络行为概率,其中,Pi(s)为与所述关键词信息相关联的类目s所对应的第i个价格区间的概率,Ni(s)为与所述关键词信息相关联的类目s所对应第i个价格区间对应的网络行为次数,k为价格区间的个数,所述网络行为包括对于商品的浏览、购买、收藏、点击行为;
所述计算各价格区间的热度,包括:
对于一个价格区间,获取这一个价格区间的网络行为概率的熵与所有价格区间的网络行为概率的熵之和的商值,并作为这一个价格区间的热度值其中Hi(s)第i个价格区间的熵,Pi(s)为第i个价格区间的网络行为概率,n为网络行为的种类,K为价格区间的个数,λ为引入的拉普拉斯平滑系数。
8.一种价格分析装置,其特征在于,包括:
接收模块,用于获取关键词信息和与所述关键词信息相关联的类目,并提取所述相关联的类目下的商品数据;
第一分析模块,用于对所获取的商品数据进行聚类,并根据聚类的结果划分商品的价格区间,所述价格区间根据区间划分模型进行划分,所述区间划分模型通过预设的样本数据集合得到;
第二分析模块,用于对所获取的价格区间进行热度计算,并输出热度计算结果。
9.根据权利要求8所述的装置,其特征在于,还包括:
异常处理模块,用于从所述样本数据集合中提取n个数据对象,并从所提取的数据对象中选择2个作为初始聚类中心,其中,n≥3;并根据与所述初始聚类中心之间的相似度,将所述初始聚类中心之外的数据对象,分配至各自最相似的类簇中,得到聚类的新簇;再计算所得到的聚类的类簇,得到各新簇中的数据对象的均值;之后根据所述各新簇中的数据对象的均值和预设的阈值进行异常值识别,确定异常数据;
模型维护模块,用于利用所述异常数据对所述样本数据集合进行平滑处理,并根据经过所述平滑处理的所述样本数据集合生成区间划分模型。
10.根据权利要求8所述的装置,其特征在于,所述第二分析模块,具体用于获取所获取的各价格区间对应的网络行为概率,其中,对应一个价格区间的网络行为概率包括:这一个价格区间下的商品的网络行为之和,与所有区间下的商品的网络行为之和的商值;并根据所述网络行为概率,建立各价格区间对应的热度计算模型,并计算各价格区间的热度。
CN201710685511.5A 2017-08-11 2017-08-11 一种价格分析方法及装置 Pending CN109389453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710685511.5A CN109389453A (zh) 2017-08-11 2017-08-11 一种价格分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710685511.5A CN109389453A (zh) 2017-08-11 2017-08-11 一种价格分析方法及装置

Publications (1)

Publication Number Publication Date
CN109389453A true CN109389453A (zh) 2019-02-26

Family

ID=65414578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710685511.5A Pending CN109389453A (zh) 2017-08-11 2017-08-11 一种价格分析方法及装置

Country Status (1)

Country Link
CN (1) CN109389453A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598446A (zh) * 2020-12-28 2021-04-02 深圳壹账通创配科技有限公司 配件定价方法、系统、设备及存储介质
CN114708003A (zh) * 2022-04-27 2022-07-05 西南交通大学 一种异常数据检测方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729383A (zh) * 2012-10-16 2014-04-16 阿里巴巴集团控股有限公司 商品信息的推送方法和装置
US20140214492A1 (en) * 2004-05-28 2014-07-31 Vendavo, Inc. Systems and methods for price point analysis
CN105321089A (zh) * 2014-07-16 2016-02-10 苏宁云商集团股份有限公司 基于多算法融合的电子商务推荐方法和系统
CN105913276A (zh) * 2016-04-07 2016-08-31 南京新与力文化传播有限公司 基于sku的价格防错方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214492A1 (en) * 2004-05-28 2014-07-31 Vendavo, Inc. Systems and methods for price point analysis
CN103729383A (zh) * 2012-10-16 2014-04-16 阿里巴巴集团控股有限公司 商品信息的推送方法和装置
CN105321089A (zh) * 2014-07-16 2016-02-10 苏宁云商集团股份有限公司 基于多算法融合的电子商务推荐方法和系统
CN105913276A (zh) * 2016-04-07 2016-08-31 南京新与力文化传播有限公司 基于sku的价格防错方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598446A (zh) * 2020-12-28 2021-04-02 深圳壹账通创配科技有限公司 配件定价方法、系统、设备及存储介质
CN114708003A (zh) * 2022-04-27 2022-07-05 西南交通大学 一种异常数据检测方法、装置、设备及可读存储介质
CN114708003B (zh) * 2022-04-27 2023-11-10 西南交通大学 一种异常数据检测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
Li et al. An integrated cluster detection, optimization, and interpretation approach for financial data
Li et al. Positive unlabeled learning for data stream classification
Kumar et al. Knowledge discovery from database using an integration of clustering and classification
CN107894998B (zh) 视频推荐方法及装置
Surendro Predictive analytics for predicting customer behavior
Bai et al. Entropic dynamic time warping kernels for co-evolving financial time series analysis
Kao et al. A multi-stage control chart pattern recognition scheme based on independent component analysis and support vector machine
Tan et al. Time series clustering: A superior alternative for market basket analysis
Ter Hoeve et al. Faithfully explaining rankings in a news recommender system
CN117041017B (zh) 数据中心的智能运维管理方法及系统
US9367804B1 (en) System for instability detection and structure estimation of complex network dynamics
CN109389453A (zh) 一种价格分析方法及装置
Sagar et al. Analysis of prediction techniques based on classification and regression
Dhandayudam et al. An improved clustering algorithm for customer segmentation
Inman et al. A case study to examine the imputation of missing data to improve clustering analysis of building electrical demand
Wu et al. RETRACTED ARTICLE: Artificial neural network based high dimensional data visualization technique for interactive data exploration in E-commerce
Zobel* et al. An augmented neural network classification approach to detecting mean shifts in correlated manufacturing process parameters
Ye et al. Network analysis using entropy component analysis
Landis et al. Hebbian self-organizing integrate-and-fire networks for data clustering
Saremi et al. On criticality in high-dimensional data
Drago et al. Time series clustering from high dimensional data
Gavrilev et al. Anomaly detection in networks via score-based generative models
Jun Technology marketing using PCA, SOM, and STP strategy modeling
Xiao et al. XTSFormer: Cross-Temporal-Scale Transformer for Irregular Time Event Prediction
Lico Data mining techniques in database systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190226