CN107016583A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN107016583A CN107016583A CN201610054904.1A CN201610054904A CN107016583A CN 107016583 A CN107016583 A CN 107016583A CN 201610054904 A CN201610054904 A CN 201610054904A CN 107016583 A CN107016583 A CN 107016583A
- Authority
- CN
- China
- Prior art keywords
- attribute
- data object
- stability bandwidth
- candidate attribute
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据处理方法及装置。数据处理方法包括:获取目标类目下各数据对象具有的至少两个属性分别作为候选属性;对每个候选属性,根据具有候选属性的数据对象的指定业务参数在候选属性取不同属性值时的取值,获取候选属性对指定业务参数的影响程度;根据各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应业务需求的目标属性。本申请可以从众多属性中选择符合业务需求的部分属性,减少后续业务处理过程中的数据量,提高后续业务处理的效率。
Description
【技术领域】
本申请涉及互联网技术领域,尤其涉及一种数据处理方法及装置。
【背景技术】
随着互联网技术的发展,网站上提供的网络资源越来越多。同时,这些网络资源的库存量单位(Stock Keeping Unit,SKU)属性也越来越多样化。网络资源的SKU属性与网络资源之间存在密切关系。例如,在电商领域,商品的SKU属性一定程度上决定着商品所属的类目,而且有些SKU属性会影响商品的价格、销量等。因此,很多时候与网络资源有关的应用处理实际上都是对SKU属性数据的处理。
由于网站上网络资源种类繁多、资源数据海量、不同网络资源所包含的SKU属性的数目和属性类别千差万别,因此,需要预先对网络资源的SKU属性进行分析和处理,挑选出与业务需求关系最密切的部分SKU属性,这样可以降低数据量,提高业务处理的效率。如何从众多SKU属性中,选择与业务需求最为密切的部分属性,成为目前需要解决的问题。
【发明内容】
本申请的多个方面提供一种数据处理方法及装置,用以从众多属性中选择符合业务需求的部分属性,减少后续业务处理过程中的数据量,提高后续业务处理的效率。
本申请的一方面,提供一种数据处理方法,包括:
获取目标类目下各数据对象具有的至少两个属性分别作为候选属性;
对每个候选属性,根据具有所述候选属性的数据对象的指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度;
根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的目标属性。
本申请的另一方面,提供一种数据处理装置,包括:
第一获取模块,用于获取目标类目下各数据对象具有的至少两个属性分别作为候选属性;
第二获取模块,用于对每个候选属性,根据具有所述候选属性的数据对象的指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度;
选择模块,用于根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的目标属性。
在本申请中,获取目标类目下各数据对象具有的至少两个属性分别作为候选属性,对于每个候选属性,根据具有该候选属性的数据对象的指定业务参数在该候选属性取不同属性值时的取值,获取该候选属性对指定业务参数的影响程度,依据各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应的业务需求的目标属性,实现属性的自动选择,减少了后续业务处理过程中的数据量,有利于提高后续业务处理的效率,解决了现有技术存在的问题。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的数据处理方法的流程示意图;
图2为本申请另一实施例提供的数据处理装置的结构示意图;
图3为本申请又一实施例提供的数据处理装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的数据处理方法的流程示意图。如图1所示,该方法包括:
101、获取目标类目下各数据对象具有的至少两个属性分别作为候选属性。
102、对每个候选属性,根据具有该候选属性的数据对象的指定业务参数在该候选属性取不同属性值时的取值,获取该候选属性对指定业务参数的影响程度。
103、根据各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应业务需求的目标属性。
本实施例提供一种数据处理方法,用以从众多属性中选择符合业务需求的部分属性,减少后续业务处理的数据量,以提高后续业务处理的效率。
本实施例并不限定数据对象的类型,凡是能够以数据形式表示的各种对象都可以采用本实施例提供的方法进行处理。例如,数据对象可以是网络服务、商品对象等。另外,数据对象一般具有多个属性,例如材料、颜色、尺寸、体积等。根据数据对象的不同,数据对象具有的属性也会有所差别。
很多情况下,与数据对象有关的业务处理都可以通过数据对象的属性来执行。但是,数据对象的属性较多,如果直接使用全部属性,会导致后续业务处理的数据量较大,业务处理的效率较低。因此,需要从众多属性中选择部分与业务处理紧密相关,能够满足业务需求的属性。
值得说明的是,本实施例并不限制具体的业务场景,凡是依赖数据对象的属性进行业务处理的场景均可采用本实施例提供的方法。
随着数据对象的数量、类型越来越多,各平台开始通过类目对数据对象进行管理。类目之间具有层级关系,例如,可以从根类目开始逐级向下扩展,直到叶子类目。同一类目下的数据对象具有一些共性特征,例如具有相同或相似的属性。因此,可以以类目为单位,对各类目下的数据对象具有的属性分别进行处理,以获得各类目下满足业务需求的目标属性。
在本实施例中,目标类目可以是各层级的类目,较为优选的可以是叶子类目。在目标类目下有众多数据对象,每个数据对象都有一些属性。在进行属性选择时,首先需要确定候选属性。具体的,获取目标类目下各数据对象具有的至少两个属性分别作为候选属性。可选的,可以将目标类目下各数据对象具有的全部属性分别作为候选属性。
另外,为了进行属性选择,还需要预先确定需要使用属性数据的业务处理。该业务处理需要数据对象的部分属性数据,也就是说,需要从数据对象具有的全部属性中选择部分属性。为了便于选择,该业务处理设定业务需求,该业务需求决定了需要使用什么样的属性。另外,为了从数据对象的属性中获取满足业务需求的属性(即目标属性),需要预先指定数据对象的某个或某些业务参数,该业务参数与业务处理过程相关,并且数据对象的属性是否满足业务需求可以通过该数据对象的属性对该业务参数的影响程度来体现。根据应用场景的不同,该指定业务参数也会有所不同。举例说明,以电子商务领域为例,数据对象可以是商品对象,指定业务参数可以是商品对象的销售价格、销售量、销售额度等中的至少一个,相应的,后续业务处理可以是对销售价格的调整处理、反作弊处理等。
在一种可选实施方式中,可以将整个系统中的所有叶子类目分别作为目标类目,进而从每个叶子类目下各数据对象具有的属性中选择符合上述业务需求的目标属性。具体的,可以从系统数据库中选择具有至少两个属性的数据对象形成数据对象集合;按照数据对象所属的类目以及具有的属性,对数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合,每个聚类集合对应一个类目和一个属性;然后将聚类出的各类目分别作为目标类目,对每个目标类目,获取对应该目标类目的各聚类集合对应的属性作为该目标类目对应的候选属性。
可选的,上述对数据对象集合中各数据对象进行聚类处理的一种实施方式包括:
首先,对数据对象集合中的每个数据对象,使用该数据对象的指定业务参数、该数据对象所属的类目、该数据对象对应的平台编码、该数据对象具有的属性以及该数据对象具有的属性的属性值,形成该数据对象的特征数据向量;采用该方式,可以获得数据对象集合中各数据对象的特征数据向量;例如,第i个数据对象的特征数据向量可以表示为:f(ai)=(pi,li,idi,ci1:vi1,ci2:vi2,...,cim:vim);其中,m>1且m∈N+,其中pi为数据对象ai的指定业务参数,li为数据对象ai所属的类目,idi为数据对象ai的平台编号,cij为该数据对象ai的第j个属性的键(Key),vij为该数据对象ai的第j个属性的值(value);
然后,对数据对象集合中的各数据对象,按照特征数据向量中的类目字段和属性字段,对数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合。
由于预先形成了各数据对象的特征数据向量,对数据对象的特征数据进行了统一管理,在处理时更加方便,有利于提高处理效率。
候选属性是不是业务处理所需的属性,具体可以通过候选属性对指定业务参数的影响来体现。不同候选属性对指定业务参数的影响程度一般不同。例如,以苹果4s手机为例,内存容量是苹果4s手机的一属性,该属性在取不同属性值时该手机的价格会有较大差别,颜色也是苹果4s手机的一属性,该属性在取不同属性值时该手机的价格不会有太大差别或者没有差别,这说明内容容量和颜色这两个属性对苹果4s手机的价格的影响程度不同。
基于上述,对每个候选属性,可以根据具有该候选属性的数据对象的指定业务参数在候选属性取不同属性值时的取值,获取候选属性对该指定业务参数的影响程度;然后,根据各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应业务需求的目标属性。
在一种具体实施方式中,上述根据具有该候选属性的数据对象的指定业务参数在候选属性取不同属性值时的取值,获取候选属性对该指定业务参数的影响程度包括:
对每个具有该候选属性的数据对象,计算该数据对象对应的业务参数在该候选属性取不同属性值时的取值之间的相对波动率,并加入波动率集合;至此,可以获得由各具有该候选属性的数据对象对应的业务参数在该候选属性取不同属性值时的取值之间的相对波动率形成的波动率集合;
根据该波动率集合中的相对波动率,获取波动率均值和波动率方差;
根据该波动率均值和波动率方差,获取表示该候选属性对指定业务参数的影响程度的排名得分。
在一可选实施方式中,对每个具有该候选属性的数据对象,计算该数据对象对应的业务参数在该候选属性取不同属性值时的取值之间的相对波动率的方式包括:
将具有该候选属性的数据对象的指定业务参数在该候选属性取不同属性值时的取值,按照由小到大的顺序进行排列,以形成该数据对象对应的取值序列;
计算该数据对象对应的取值序列中任意相邻指定业务参数的取值之间的相对波动率。
例如,可以根据公式(1),计算取值序列中任意相邻指定业务参数的取值之间的相对波动率。
在上述公式(1)中,ri表示相邻取值pi和pi+1之间的相对波动率,pi表示取值序列中第i个指定业务参数的取值,pi+1表示取值序列中第i+1个指定业务参数的取值,i是自然数。
按照上述公式(1)可以获得各个具有该候选属性的数据对象对应的取值序列中任意相邻指定业务参数的取值之间的相对波动率,这些相对波动率构成波动率集合。
在一可选实施方式中,上述根据波动率集合中的相对波动率,获取波动率均值和波动率方差,包括:
将波动率集合作为初始集合;
从初始集合中随机抽取指定比例的相对波动率构成波动率统计集合;例如,可以抽取60%的相对波动率构成波动率统计集合,但并不限于60%;
根据上述波动率统计集合中的相对波动率,获取初始波动率均值和初始波动率方差;
当满足预设结束条件时,将初始波动率均值和初始波动率方差作为上述波动率均值和波动率方差;预设结束条件可以是循环次数,例如3次,当循环执行次数达到3次时,确定满足预设结束条件,或者是预设结束条件可以是指定执行时间长度,当执行时间长度达到指定执行时间长度时,确定满足预设结束条件;或者预设结束条件可以是每次循环处理后波动率统计集合中所包含的相对波动率的个数小于或等于某个预先指定的个数值,则当波动率统计集合所包含的相对波动率的个数小于或等于某个预先指定的个数值时,确定满足预设结束条件;
若未满足预设结束条件时,根据初始波动率均值和初始波动率方差,获取波动率置信区间,例如波动率置信区间可以是从波动率集合中获取位于波动率置信区间中的相对波动率,以形成新的初始集合,并返回继续执行从初始集合中随机抽取指定比例的相对波动率构成波动率统计集合的操作及后续操作。上述波动率置信区间中的表示初始波动率均值或波动率均值,σ表示初始波动率方差或波动率方差。
进一步,上述根据该波动率均值和波动率方差,获取表示该候选属性对指定业务参数的影响程度的排名得分,包括:
根据公式(2),获取上述排名得分。
在上述公式(2)中,score表示排名得分;表示波动率均值;σ表示波动率方差。
基于上述方法可以获得各候选属性的排名得分。
在获得各候选属性的排名得分之后,具体可以根据各候选属性的排名得分,从各候选属性中选择符合上述指定业务参数对应的业务需求的属性作为目标属性。以稳定性需求为例,候选属性对指定业务参数的影响越小,说明该候选属性越符合业务需求,基于此,具体可以根据各候选属性的排名得分,从各候选属性中选择排名得分最小的K个候选属性作为目标属性,K是自然数。
由上述可见,本申请实施例通过获取目标类目下各数据对象具有的至少两个属性分别作为候选属性,对于每个候选属性,根据具有该候选属性的数据对象的指定业务参数在该候选属性取不同属性值时的取值,获取该候选属性对指定业务参数的影响程度,依据各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应的业务需求的目标属性,实现属性的自动选择,减少了后续业务处理过程中的数据量,有利于提高后续业务处理的效率,解决了现有技术存在的问题。
另外,在本申请实施例中,当需要针对不同目标类目分别从候选属性中获取满足业务需求的目标属性时,可以采用MapReduce编程进行并行化处理,这种处理方式具有计算速度快、计算结果稳定可靠,整个算法流程易于自动化实现的特点。
下面以本申请技术方案在电子商务领域中的应用为例,详细说明本申请技术方案的实施流程。
在许多电商网站上,商品的SKU属性与商品所属类目及销售价格之间存在密切的关联性。对商品SKU属性的准确分析与理解,可以有助于提升网站对商品描述信息质量和商品价格的管控。例如,通过商品SKU属性与商品类目关系的分析,不仅可以对网站上存在商品类目错放的商品进行自动检测,而且还能帮忙不熟悉网站设置的卖家在商品上架时提供比较可靠的商品类目推荐,提升卖家用户体验。又例如,通过对商品SKU属性与商品价格关系的分析,可以对存在SKU作弊行为的商品及卖家进行检测和惩罚,从而净化网站环境,提升网站商品的质量。
在下面具体示例中,以对商品SKU属性与商品价格关系的分析为例,则数据对象具体为商品对象,指定业务参数具体为商品对象的销售价格,数据对象具有的属性具体为SKU属性。
在实际应用中,考虑到电商网站上商品种类繁多、商品数据海量、不同商品所包含的SKU属性数目和属性类别千差万别,因而在进行SKU作弊行为检测时,需要预先对商品的SKU属性进行分析和处理,挑选出与该业务处理关系最密切的部分SKU属性,过滤掉不重要或不相关的SKU属性,进而加速后续的相关计算,从而提升整个算法的效率。
将电商网站上包含多SKU属性的商品从网站的全部商品集合中选择出来,构成一个多SKU属性商品集合S={a,b,c,...},其中a,b,c等表示多SKU属性的商品;
对任意一个多SKU属性商品所包含的全部SKU属性,使用SKU商品的价格、商品所属类目、商品平台编码及商品所包含的SKU属性的键和值等信息,构成表征一个特定SKU商品的特征数据向量;例如:对于多SKU属性商品集合S中的第i个多SKU属性的商品表示为ai,其特征数据向量可以被表示为f(ai)=(pi,li,idi,ci1:vi1,ci2:vi2,...,cim:vim),m>1且m∈N+,其中pi为多SKU属性的商品ai的价格,li为该商品ai所属的类目,idi为该商品ai的平台编号,cij为该商品ai第j个SKU属性的Key,vij为该商品ai第j个SKU属性的值;
对多SKU属性商品集合S中的每一个多SKU属性的商品,依据其所包含的SKU商品的特征数据向量里的商品所属类目和SKU属性的Key两个关键字段,使用MapReduce编程对SKU商品进行并行聚类操作,将包含相同所属类目和SKU属性Key的SKU商品分配在同一个聚类集合中;
对任意一个聚类集合,依据同一商品的不同SKU属性共有同一个商品的平台编号的特点,统计聚类集合中每一个多SKU属性商品的数量,然后将该聚类集合中数量仅为一个的多SKU属性的商品剔除掉;
对保留在任意一个聚类集合中的多SKU属性的商品,分别使用这些商品的不同SKU属性对应的价格构成商品的SKU价格有序列表,例如假设对于一商品在某一个聚类集合中存在a1,a2,a3,a4,a5共五个不同的SKU属性的取值,对应SKU属性的这五个取值的商品价格分别为p1,p2,p3,p4,p5并且p1≤p2≤p3≤p4≤p5,则相应的SKU价格有序列表为list(a)=[p1,p2,p3.p4,p5];
对每一个聚类集合分别构造一个价格波动率集合Sr={},依次对上述步骤所得到的每一个SKU价格有序列表计算列表中任意相邻价格值之间的相对波动率,将该相对波动率添加到集合Sr;
在上述步骤的基础上,为了减少异常商品价格的影响,对每一个价格波动率集合Sr,随机抽取60%的数据,统计相对波动率的平均值与标准方差σ,将价格波动率集合Sr中处于置信区间之外的异常相对波动率剔除;
重复上述步骤的数据处理过程3次,将最后计算得到的相对波动率的平均值与标准方差σ作为价格波动率集合Sr的最终统计结果;
对任意一个聚类集合,按照该聚类集合所对应的价格波动率集合Sr在上述步骤统计得到的最终相对波动率的平均值和标准方差σ,使用公式(2)计算该聚类集合对应的SKU属性的排序得分;
按照不同聚类集合所包含的商品所属类目,使用上述步骤计算得到每个SKU属性的排序得分,并从中选择排序得分最小的前K(Top K)个SKU属性,作为该类目下的目标SKU属性,用于SKU作弊行为检测过程。
其中,得分最小的Top K个SKU属性是对价格波动的影响最小的K个SKU属性。例如,在成年男士衬衫类目下,颜色属性可能对于不同SKU差异比价明显,然而尺码属性在该类目下可能对SKU价格影响非常微小。因此,若利用尺码属性检测在特定颜色下的SKU价格差异,就可以准确地发现尺码上存在SKU价格作弊的商品。
另外,对于不同类目下的商品而言,选择出的目标SKU属性可能并不一样,本实施例能够对不同类目下的商品自适应地选择出相应的目标SKU属性,自适应性能力较强。例如,在儿童服装类目下,颜色属性可能对于商品价格波动的影响并不大,而尺码属性由于买家在选购时会考虑到儿童成长的特点,即身高变化较快,故对尺码属性比颜色属性更加敏感,导致不同尺码的同一商品价格波动比价明显,因此本实施例会选择颜色属性作为目标SKU属性。而在成年男士衬衫类目下,与尺码属性相比,颜色属性比更不稳当,因此本实施例会选择尺码属性作为目标SKU属性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本申请另一实施例提供的数据处理装置的结构示意图。如图2所示,该装置包括:第一获取模块21、第二获取模块22和选择模块23。
第一获取模块21,用于获取目标类目下各数据对象具有的至少两个属性分别作为候选属性。
第二获取模块22,用于对第一获取模块21获取的每个候选属性,根据具有候选属性的数据对象的指定业务参数在候选属性取不同属性值时的取值,获取候选属性对指定业务参数的影响程度。
选择模块23,用于根据第二获取模块22获取的各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应业务需求的目标属性。
在一可选实施方式中,如图3所示,该第一获取模块21的实现结构包括:第一获取单元211、聚类单元212和第二获取单元213。
第一获取单元211,用于从系统数据库中选择具有至少两个属性的数据对象形成数据对象集合。
聚类单元212,用于按照数据对象所属的类目以及具有的属性,对数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合,至少两个聚类集合中每个聚类集合对应一个类目和一个属性。
第二获取单元213,用于将聚类出的各类目分别作为目标类目,将对应于目标类目的各聚类集合对应的属性作为候选属性。
进一步,聚类单元212具体用于:
对数据对象集合中的每个数据对象,使用数据对象的指定业务参数、数据对象所属的类目、数据对象对应的平台编码、数据对象具有的属性以及数据对象具有的属性的属性值,形成数据对象的特征数据向量;
对数据对象集合中各数据对象,按照特征数据向量中的类目字段和属性字段,对数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合。
在一可选实施方式中,如图3所示,第二获取模块22的实现结构包括:计算单元221、第三获取单元222和第四获取单元223。
计算单元221,用于对于每个具有候选属性的数据对象,计算数据对象对应的业务参数在候选属性取不同属性值时的取值之间的相对波动率,并加入波动率集合中。
第三获取单元222,用于根据波动率集合中的相对波动率,获取波动率均值和波动率方差。
第四获取单元223,用于根据波动率均值和波动率方差,获取表示候选属性对指定业务参数的影响程度的排名得分。
进一步,计算单元221具体用于:
将数据对象的指定业务参数在候选属性取不同属性值时的取值,按照由小到大的顺序进行排列,以形成数据对象对应的取值序列;
计算数据对象对应的取值序列中任意相邻指定业务参数的取值之间的相对波动率。
进一步,第三获取单元222具体用于:
将波动率集合作为初始集合;
从初始集合中随机抽取指定比例的相对波动率构成波动率统计集合;
根据上述波动率统计集合中的相对波动率,获取初始波动率均值和初始波动率方差;
当满足预设结束条件时,将初始波动率均值和初始波动率方差作为波动率均值和波动率方差;
若未满足预设结束条件时,根据初始波动率均值和初始波动率方差,获取波动率置信区间;从波动率集合中获取位于波动率置信区间中的相对波动率,以形成新的初始集合,并返回继续执行从初始集合中随机抽取指定比例的相对波动率构成波动率统计集合的操作及后续操作。
进一步,第四获取单元223具体用于:按照公式(2),获取排名得分。关于公式(2)的描述可参见前述方法实施例,在此不再赘述。
在一可选实施方式中,业务需求具体为稳定性需求。基于此,选择模块23具体用于:
在业务需求为稳定性需求时,根据各候选属性的排名得分,从各候选属性中选择排名得分最小的K个候选属性作为目标属性,K是自然数。
在一可选实施方式中,上述属性为SKU属性,上述数据对象为商品对象,上述指定业务参数为商品对象的销售价格。
本实施例提供的数据处理装置,通过获取目标类目下各数据对象具有的至少两个属性分别作为候选属性,对于每个候选属性,根据具有该候选属性的数据对象的指定业务参数在该候选属性取不同属性值时的取值,获取该候选属性对指定业务参数的影响程度,依据各候选属性对指定业务参数的影响程度,从各候选属性中选择满足指定业务参数对应的业务需求的目标属性,实现属性的自动选择,减少了后续业务处理过程中的数据量,有利于提高后续业务处理的效率,解决了现有技术存在的问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (18)
1.一种数据处理方法,其特征在于,包括:
获取目标类目下各数据对象具有的至少两个属性分别作为候选属性;
对每个候选属性,根据具有所述候选属性的数据对象的指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度;
根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的目标属性。
2.根据权利要求1所述的方法,其特征在于,所述获取目标类目下各数据对象具有的至少两个属性分别作为候选属性,包括:
从系统数据库中选择具有至少两个属性的数据对象形成数据对象集合;
按照数据对象所属的类目以及具有的属性,对所述数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合,所述至少两个聚类集合中每个聚类集合对应一个类目和一个属性;
将聚类出的各类目分别作为所述目标类目,将对应于所述目标类目的各聚类集合对应的属性作为所述候选属性。
3.根据权利要求2所述的方法,其特征在于,所述按照数据对象所属的类目以及具有的属性,对所述数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合,包括:
对所述数据对象集合中的每个数据对象,使用所述数据对象的指定业务参数、所述数据对象所属的类目、所述数据对象对应的平台编码、所述数据对象具有的属性以及所述数据对象具有的属性的属性值,形成所述数据对象的特征数据向量;
对所述数据对象集合中各数据对象,按照特征数据向量中的类目字段和属性字段,对所述数据对象集合中各数据对象进行聚类处理,以获得所述至少两个聚类集合。
4.根据权利要求1所述的方法,其特征在于,所述根据具有所述候选属性的数据对象的指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度,包括:
对于每个具有所述候选属性的数据对象,计算所述数据对象对应的业务参数在所述候选属性取不同属性值时的取值之间的相对波动率,并加入波动率集合中;
根据所述波动率集合中的相对波动率,获取波动率均值和波动率方差;
根据所述波动率均值和波动率方差,获取表示所述候选属性对所述指定业务参数的影响程度的排名得分。
5.根据权利要求4所述的方法,其特征在于,所述计算所述数据对象对应的业务参数在所述候选属性取不同属性值时的取值之间的相对波动率,包括:
将所述数据对象的指定业务参数在所述候选属性取不同属性值时的取值,按照由小到大的顺序进行排列,以形成所述数据对象对应的取值序列;
计算所述数据对象对应的取值序列中任意相邻所述指定业务参数的取值之间的相对波动率。
6.根据权利要求4所述的方法,其特征在于,所述根据所述波动率集合中的相对波动率,获取波动率均值和波动率方差,包括:
将所述波动率集合作为初始集合;
从所述初始集合中随机抽取指定比例的相对波动率构成波动率统计集合;
根据所述波动率统计集合中的相对波动率,获取初始波动率均值和初始波动率方差;
当满足预设结束条件时,将所述初始波动率均值和初始波动率方差作为所述波动率均值和波动率方差;
若未满足预设结束条件时,根据所述初始波动率均值和初始波动率方差,获取波动率置信区间;从所述波动率集合中获取位于所述波动率置信区间中的相对波动率,以形成新的初始集合,并返回继续执行从所述初始集合中随机抽取指定比例的相对波动率构成波动率统计集合的操作及后续操作。
7.根据权利要求4所述的方法,其特征在于,所述根据所述波动率均值和波动率方差,获取表示所述候选属性对所述指定业务参数的影响程度的排名得分,包括:
按照公式获取所述排名得分;
score表示所述排名得分;
表示所述波动率均值;
σ表示所述波动率方差。
8.根据权利要求4所述的方法,其特征在于,所述根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的目标属性,包括:
在所述业务需求为稳定性需求时,根据所述各候选属性的排名得分,从所述各候选属性中选择排名得分最小的K个候选属性作为目标属性,K是自然数。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述属性为SKU属性,所述数据对象为商品对象,所述指定业务参数为商品对象的销售价格。
10.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取目标类目下各数据对象具有的至少两个属性分别作为候选属性;
第二获取模块,用于对每个候选属性,根据具有所述候选属性的数据对象的指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度;
选择模块,用于根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的目标属性。
11.根据权利要求10所述的装置,其特征在于,所述第一获取模块包括:
第一获取单元,用于从系统数据库中选择具有至少两个属性的数据对象形成数据对象集合;
聚类单元,用于按照数据对象所属的类目以及具有的属性,对所述数据对象集合中各数据对象进行聚类处理,以获得至少两个聚类集合,所述至少两个聚类集合中每个聚类集合对应一个类目和一个属性;
第二获取单元,用于将聚类出的各类目分别作为所述目标类目,将对应于所述目标类目的各聚类集合对应的属性作为所述候选属性。
12.根据权利要求11所述的装置,其特征在于,所述聚类单元具体用于:
对所述数据对象集合中的每个数据对象,使用所述数据对象的指定业务参数、所述数据对象所属的类目、所述数据对象对应的平台编码、所述数据对象具有的属性以及所述数据对象具有的属性的属性值,形成所述数据对象的特征数据向量;
对所述数据对象集合中各数据对象,按照特征数据向量中的类目字段和属性字段,对所述数据对象集合中各数据对象进行聚类处理,以获得所述至少两个聚类集合。
13.根据权利要求10所述的装置,其特征在于,所述第二获取模块包括:
计算单元,用于对于每个具有所述候选属性的数据对象,计算所述数据对象对应的业务参数在所述候选属性取不同属性值时的取值之间的相对波动率,并加入波动率集合中;
第三获取单元,用于根据所述波动率集合中的相对波动率,获取波动率均值和波动率方差;
第四获取单元,用于根据所述波动率均值和波动率方差,获取表示所述候选属性对所述指定业务参数的影响程度的排名得分。
14.根据权利要求13所述的装置,其特征在于,所述计算单元具体用于:
将所述数据对象的指定业务参数在所述候选属性取不同属性值时的取值,按照由小到大的顺序进行排列,以形成所述数据对象对应的取值序列;
计算所述数据对象对应的取值序列中任意相邻所述指定业务参数的取值之间的相对波动率。
15.根据权利要求13所述的装置,其特征在于,所述第三获取单元具体用于:
将所述波动率集合作为初始集合;
从所述初始集合中随机抽取指定比例的相对波动率构成波动率统计集合;
根据所述波动率统计集合中的相对波动率,获取初始波动率均值和初始波动率方差;
当满足预设结束条件时,将所述初始波动率均值和初始波动率方差作为所述波动率均值和波动率方差;
若未满足预设结束条件时,根据所述初始波动率均值和初始波动率方差,获取波动率置信区间;从所述波动率集合中获取位于所述波动率置信区间中的相对波动率,以形成新的初始集合,并返回继续执行从所述初始集合中随机抽取指定比例的相对波动率构成波动率统计集合的操作及后续操作。
16.根据权利要求13所述的装置,其特征在于,所述第四获取单元具体用于:
按照公式获取所述排名得分;
score表示所述排名得分;
表示所述波动率均值;
σ表示所述波动率方差。
17.根据权利要求13所述的装置,其特征在于,所述选择模块具体用于:
在所述业务需求为稳定性需求时,根据所述各候选属性的排名得分,从所述各候选属性中选择排名得分最小的K个候选属性作为目标属性,K是自然数。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述属性为SKU属性,所述数据对象为商品对象,所述指定业务参数为商品对象的销售价格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610054904.1A CN107016583A (zh) | 2016-01-27 | 2016-01-27 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610054904.1A CN107016583A (zh) | 2016-01-27 | 2016-01-27 | 数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107016583A true CN107016583A (zh) | 2017-08-04 |
Family
ID=59438877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610054904.1A Pending CN107016583A (zh) | 2016-01-27 | 2016-01-27 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107016583A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829638A (zh) * | 2018-06-01 | 2018-11-16 | 阿里巴巴集团控股有限公司 | 一种业务数据波动处理方法及装置 |
CN110647722A (zh) * | 2019-09-20 | 2020-01-03 | 北京中科寒武纪科技有限公司 | 数据处理方法及装置以及相关产品 |
CN111382969A (zh) * | 2018-12-30 | 2020-07-07 | 北京极智嘉科技有限公司 | 订单处理方法、装置、设备及存储介质 |
CN111860575A (zh) * | 2020-06-05 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123465A (zh) * | 2014-07-24 | 2014-10-29 | 中国软件与技术服务股份有限公司 | 一种基于聚类的大数据交叉分析预警方法及系统 |
CN104881797A (zh) * | 2015-06-03 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 特征属性的构建方法 |
US20150294391A1 (en) * | 2014-04-11 | 2015-10-15 | Exacttarget, Inc. | Guided Selling of Product |
-
2016
- 2016-01-27 CN CN201610054904.1A patent/CN107016583A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150294391A1 (en) * | 2014-04-11 | 2015-10-15 | Exacttarget, Inc. | Guided Selling of Product |
CN104123465A (zh) * | 2014-07-24 | 2014-10-29 | 中国软件与技术服务股份有限公司 | 一种基于聚类的大数据交叉分析预警方法及系统 |
CN104881797A (zh) * | 2015-06-03 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 特征属性的构建方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829638A (zh) * | 2018-06-01 | 2018-11-16 | 阿里巴巴集团控股有限公司 | 一种业务数据波动处理方法及装置 |
CN111382969A (zh) * | 2018-12-30 | 2020-07-07 | 北京极智嘉科技有限公司 | 订单处理方法、装置、设备及存储介质 |
CN111382969B (zh) * | 2018-12-30 | 2023-10-13 | 北京极智嘉科技股份有限公司 | 订单处理方法、装置、设备及存储介质 |
CN110647722A (zh) * | 2019-09-20 | 2020-01-03 | 北京中科寒武纪科技有限公司 | 数据处理方法及装置以及相关产品 |
CN110647722B (zh) * | 2019-09-20 | 2024-03-01 | 中科寒武纪科技股份有限公司 | 数据处理方法及装置以及相关产品 |
CN111860575A (zh) * | 2020-06-05 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866181B (zh) | 资源推荐的方法、装置及存储介质 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN110309840A (zh) | 风险交易识别方法、装置、服务器及存储介质 | |
CN107545315A (zh) | 订单处理方法及装置 | |
CN107016583A (zh) | 数据处理方法及装置 | |
CN107203866A (zh) | 订单的处理方法以及装置 | |
CN107016398A (zh) | 数据处理方法及装置 | |
CN111489201A (zh) | 一种客户价值分析的方法、设备、存储介质 | |
CN111931053A (zh) | 一种基于聚类和矩阵分解的事项推送方法和装置 | |
CN110310114A (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN104992348A (zh) | 一种信息展示的方法和装置 | |
CN111428007B (zh) | 基于跨平台的同步推送反馈方法 | |
CN110097302A (zh) | 分配订单的方法和装置 | |
CN107093122B (zh) | 对象分类方法及装置 | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111951051B (zh) | 一种为客户推荐产品的方法、装置和系统 | |
CN115879826B (zh) | 一种基于大数据的精细化工工艺质检方法、系统及介质 | |
CN112784212A (zh) | 一种优化库存的方法和装置 | |
CN111723122A (zh) | 数据间关联规则的确定方法、装置、设备及可读存储介质 | |
CN112434140B (zh) | 一种答复信息处理方法及系统 | |
CN113762415A (zh) | 一种基于神经网络的汽车金融产品智能匹配方法和系统 | |
CN107229640A (zh) | 相似度处理方法、对象筛选方法和装置 | |
Ghosh et al. | AI-based techniques in cellular manufacturing systems: a chronological survey and analysis | |
CN113762990A (zh) | 商品推荐的方法、装置、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170804 |