CN105808611A - 数据挖掘方法和装置 - Google Patents

数据挖掘方法和装置 Download PDF

Info

Publication number
CN105808611A
CN105808611A CN201410855435.4A CN201410855435A CN105808611A CN 105808611 A CN105808611 A CN 105808611A CN 201410855435 A CN201410855435 A CN 201410855435A CN 105808611 A CN105808611 A CN 105808611A
Authority
CN
China
Prior art keywords
user
point
subspace
preference
destination object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410855435.4A
Other languages
English (en)
Other versions
CN105808611B (zh
Inventor
邓珂
曾嘉
戴文渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410855435.4A priority Critical patent/CN105808611B/zh
Publication of CN105808611A publication Critical patent/CN105808611A/zh
Application granted granted Critical
Publication of CN105808611B publication Critical patent/CN105808611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据挖掘方法和装置,属于数据挖掘领域。所述方法包括:获取用户集合中各个用户的用户偏好的偏好数据,用户偏好用于采用多个特征描述用户选择的产品或服务,所述偏好数据包括各个特征的特征参数;根据用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合,并确定待挖掘数据中的各个对象在用户集合中的潜在用户集合;根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者。本发明通过针对特定的用户群,进一步分析各个对象之间竞争性关联程度,确定产品或服务的重要竞争者,从而为商家进行市场分析提供更准确的指导。

Description

数据挖掘方法和装置
技术领域
本发明涉及数据挖掘领域,特别涉及一种数据挖掘方法和装置。
背景技术
一个产品或服务通常包括多个特征,可以采用多维空间来描述,每一个维度描述一个特征。以通信套餐为例,其特征可以包括:价格、数据下载量、客户评价、免费通话时间等等,则对应的维度可以是4。在实际应用中,提前挖掘某个产品或服务的竞争者,对商家具有十分重要的意义。
现有技术中,提供了一种确定产品或服务的竞争者的方法,仍以通信套餐为例,假设有很多个待分析的通信套餐,首先采用多维空间的每个维度对应通信套餐的一个特征,则每一个通信套餐就与多维空间中的一个点对应,然后,通过聚类分析的方法,把多维空间中的这些点划分为多个不同的集合(或簇),在同一集合的多个点(即通信套餐)在各个维度上都比较接近,就可以认为它们之间互为竞争关系。
由于不同用户群(例如企业客户和大学生等)的用户偏好存在比较大的差异,根据现有技术确定的互为竞争关系的产品或服务的实际关联程度并不大即并非重要竞争关系,从而导致商家的市场分析结果不准确,例如,给定一个通信套餐Q,可以确定其竞争者为通信套餐A、B、C和D,但是对企业客户而言,通信套餐Q的重要竞争者(即与通信套餐B、C相比,更接近用户的偏好)可能是通信套餐A,而对大学生而言,通信套餐Q的重要竞争者可能是通信套餐B。
发明内容
本发明实施例提供了一种数据挖掘方法和装置,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度,确定产品或服务的重要竞争者,从而为商家进行市场分析提供更准确的指导,所述技术方案如下:
一方面,本发明实施例提供了一种数据挖掘方法,所述方法包括:
获取用户集合中各个用户的用户偏好的偏好数据,所述用户偏好用于采用多个特征描述所述用户选择的产品或服务,所述偏好数据包括各个所述特征的特征参数;
根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合;
根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合;
根据所述目标对象的潜在用户集合、所述待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定所述目标对象的重要竞争者。
进一步地,所述根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合,包括:
建立一个第一多维空间坐标,所述第一多维空间坐标的原点为全局偏好点,所述第一多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
确定所述用户集合中的各个用户的偏好数据在所述第一多维空间坐标中对应的多个用户偏好点,以及所述目标对象在所述第一多维空间坐标中对应的目标对象点;
分别以多个所述用户偏好点为中心,确定多个第一子空间,每个所述第一子空间中的任意一个点在任意一个维度上到所述第一子空间对应的所述用户偏好点之间的距离不大于第一设定值;
根据每个所述第一子空间,确定每个所述用户偏好点的用户偏好子空间,所述用户偏好子空间为所述第一子空间中除了第一被剪枝子空间和第二被剪枝子空间以外的子空间,所述第一被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第二被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
统计所述目标对象点所在的所述用户偏好子空间,所述目标对象点所在的所述用户偏好子空间对应的所有用户,构成所述目标对象的潜在用户集合。
进一步地,所述根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合,包括:
确定所述待挖掘数据中的各个对象在所述第一多维空间坐标中对应的待确定点;
分别统计每个所述待确定点所在的所述用户偏好子空间,每个所述待确定点所在的所述用户偏好子空间对应的所有用户构成所述各个对象各自的潜在用户集合。
进一步地,所述根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合,包括:
建立一个第二多维空间坐标,所述第二多维空间坐标的原点为全局偏好点,所述第二多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
确定所述目标对象在所述第二多维空间坐标中对应的目标对象点;
以所述目标对象点为中心,确定一个第二子空间,所述第二子空间中的任意一个点在任意一个维度上到所述目标对象点之间的距离不大于第二设定值;
根据所述第二子空间,确定所述目标对象点的目标偏好子空间,所述目标偏好子空间为所述第二子空间中除了第三被剪枝子空间和第四被剪枝子空间以外的子空间,所述第三被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第四被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
确定所述用户集合中的各个用户的用户偏好在所述多维空间坐标中对应的多个用户偏好点;
统计所有落在所述目标偏好子空间内的所述用户偏好点,所述所有落在所述目标对象偏好子空间内的所述用户偏好点对应的所有用户,构成所述目标对象的潜在用户集合。
进一步地,所述根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合,包括:
确定所述待挖掘数据中的各个对象的在所述第二多维空间坐标中对应的多个待确定点;
分别以多个所述待确定点为中心,确定多个第三子空间,所述第三子空间中的任意一个点在任意一个维度上到所述待确定点之间的距离不大于第三设定值;
根据每个所述第三子空间,确定每个所述待确定点的偏好子空间,所述偏好子空间为所述第三子空间中除了第五被剪枝子空间和第六被剪枝子空间以外的子空间,所述第五被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第六被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
确定所述目标对象的潜在用户集合中的各个用户的偏好数据在所述第二多维空间坐标中对应的目标偏好点;
分别统计所述目标偏好点落入的所述待确定点的偏好子空间,所述目标偏好点落入的所述待确定点的偏好子空间对应的用户,构成所述待挖掘数据中的各个对象的潜在用户集合。
进一步地,所述根据所述目标对象的潜在用户集合、所述待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定所述目标对象的重要竞争者,包括:
根据所述目标对象的潜在用户集合和所述待挖掘数据中的各个对象的潜在用户集合,分别确定所述目标对象与所述待挖掘数据中的各个对象的重要竞争关系值,所述重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为所述待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为所述目标对象的潜在用户集合;
分别判断每个所述重要竞争关系值是否满足α≥τ,其中,τ为所述设定的重要竞争关系阈值;
当所述α≥τ时,判定所述重要竞争关系值对应的所述待挖掘数据中的对象为所述目标对象的重要竞争者。
可选地,在所述确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合之前,所述方法还包括:
初步筛除所述待挖掘数据中的不可能为所述目标对象的重要竞争者的对象。
另一方面,本发明实施例提供了一种数据挖掘装置,所述装置包括:
获取模块,用于获取用户集合中各个用户的用户偏好的偏好数据,所述用户偏好用于采用多个特征描述所述用户选择的产品或服务,所述偏好数据包括各个所述特征的特征参数;
目标对象确定模块,用于根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合;
对象确定模块,用于根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合;
竞争者确定模块,用于根据所述目标对象的潜在用户集合、所述待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定所述目标对象的重要竞争者。
进一步地,所述目标对象确定模块,包括:
第一建立单元,用于建立一个第一多维空间坐标,所述第一多维空间坐标的原点为全局偏好点,所述第一多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
第一确定单元,用于确定所述用户集合中的各个用户的偏好数据在所述第一多维空间坐标中对应的多个用户偏好点,以及所述目标对象在所述第一多维空间坐标中对应的目标对象点;
第二确定单元,用于分别以多个所述用户偏好点为中心,确定多个第一子空间,每个所述第一子空间中的任意一个点在任意一个维度上到所述第一子空间对应的所述用户偏好点之间的距离不大于第一设定值;
所述第二确定单元还用于根据每个所述第一子空间,确定每个所述用户偏好点的用户偏好子空间,所述用户偏好子空间为所述第一子空间中除了第一被剪枝子空间和第二被剪枝子空间以外的子空间,所述第一被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第二被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
第一统计单元,用于统计所述目标对象点所在的所述用户偏好子空间,所述目标对象点所在的所述用户偏好子空间对应的所有用户,构成所述目标对象的潜在用户集合。
进一步地,所述对象确定模块,包括:
第一确定单元,用于确定所述待挖掘数据中的各个对象在所述第一多维空间坐标中对应的待确定点;
第一统计单元,用于分别统计每个所述待确定点所在的所述用户偏好子空间,每个所述待确定点所在的所述用户偏好子空间对应的所有用户构成所述各个对象各自的潜在用户集合。
进一步地,所述目标对象确定模块还包括:
第二建立单元,用于建立一个第二多维空间坐标,所述第二多维空间坐标的原点为全局偏好点,所述第二多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
第三确定单元,用于确定所述目标对象在所述第二多维空间坐标中对应的目标对象点;
第四确定单元,用于以所述目标对象点为中心,确定一个第二子空间,所述第二子空间中的任意一个点在任意一个维度上到所述目标对象点之间的距离不大于第二设定值;
第四确定单元还用于根据所述第二子空间,确定所述目标对象点的目标偏好子空间,所述目标偏好子空间为所述第二子空间中除了第三被剪枝子空间和第四被剪枝子空间以外的子空间,所述第三被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第四被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
第三确定单元还用于确定所述用户集合中的各个用户的偏好数据在所述多维空间坐标中对应的多个用户偏好点;
第二统计单元,用于统计所有落在所述目标偏好子空间内的所述用户偏好点,所述所有落在所述目标对象偏好子空间内的所述用户偏好点对应的所有用户,构成所述目标对象的潜在用户集合。
进一步地,所述对象确定模块还包括:
第二确定单元,用于确定所述待挖掘数据中的各个对象的在所述第二多维空间坐标中对应的多个待确定点;
第三确定单元,用于分别以多个所述待确定点为中心,确定多个第三子空间,所述第三子空间中的任意一个点在任意一个维度上到所述待确定点之间的距离不大于第三设定值;
第三确定单元还用于根据每个所述第三子空间,确定每个所述待确定点的偏好子空间,所述偏好子空间为所述第三子空间中除了第五被剪枝子空间和第六被剪枝子空间以外的子空间,所述第五被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第六被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
第二确定单元还用于确定所述目标对象的潜在用户集合中的各个用户的用户偏好在所述多维空间坐标中对应的目标偏好点;
第二统计单元,用于分别统计所述目标偏好点落入的所述待确定点的偏好子空间,所述目标偏好点落入的所述待确定点的偏好子空间对应的用户,构成所述待挖掘数据中的各个对象的潜在用户集合。
进一步地,所述竞争者确定模块,包括:
关系值确定单元,用于根据所述目标对象的潜在用户集合和所述待挖掘数据中的各个对象的潜在用户集合,分别确定所述目标对象与所述待挖掘数据中的各个对象的重要竞争关系值,所述重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为所述待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为所述目标对象的潜在用户集合;
判断单元,用于分别判断每个所述重要竞争关系值是否满足α≥τ,其中,τ为所述设定的重要竞争关系阈值;
判定单元,用于当所述α≥τ时,判定所述重要竞争关系值对应的所述待挖掘数据中的对象为所述目标对象的重要竞争者。
可选地,所述装置还包括:筛除模块,用于在所述确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合之前,初步筛除所述待挖掘数据中的不可能为所述目标对象的重要竞争者的对象。
筛除模块,用于初步筛除所述待挖掘数据中的不可能为所述目标对象的重要竞争者的对象。
本发明实施例提供的技术方案带来的有益效果是:
通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象在用户集合中的潜在用户集合,以及待挖掘数据中的各个对象在用户集合中的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度,确定产品或服务的重要竞争者,从而为商家进行市场分析提供更准确的指导。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种数据挖掘方法的流程图;
图2是本发明实施例二提供的一种数据挖掘方法的流程图;
图3是本发明实施例二提供的二维空间坐标中用户偏好子空间的示意图;
图4是本发明实施例三提供的一种数据挖掘方法的流程图;
图5是本发明实施例四提供的一种数据挖掘装置的结构示意图;
图6是本发明实施例五提供的一种数据挖掘装置的结构示意图;
图7是本发明实施例六提供的一种数据挖掘设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了便于理解本发明的实施例,下面以通信套餐为例,对用户偏好、潜在用户、竞争关系和竞争者做一个简要的介绍,对于用户来说,当其在多个不同的产品或服务中选择了某个产品或服务时,说明该用户选择的产品或服务比其他的产品或服务更接近用户的偏好,例如,王女士精心选择后,决定使用通信套餐Q,说明通信套餐Q比其它通信套餐(例如通信套餐B1、B2)更接近她的偏好,通信套餐Q称为王女士的用户偏好。仍以通信套餐为例,如果其它通信套餐(例如通信套餐B1、B2)至少在一个维度(即特征)上优于通信套餐Q(例如,通信套餐B1的免费通话时间比通信套餐Q多20%),但是在其它维度上比通信套餐Q差(例如通信套餐B1的价格比通信套餐Q高20%),则对于王女士来讲,通信套餐Q、B1、B2其实都是其可以考虑的候选对象,即通信套餐Q与通信套餐B1、B2等具有可比性,而对于通信套餐Q、B1、B2来讲,王女士均是其潜在用户,即通信套餐Q、B1和B2之间互为竞争关系,通信套餐B1和B2称为通信套餐Q的竞争者。
实施例一
本发明实施例提供了一种数据挖掘方法,参见图1,该方法包括:
步骤101:获取用户集合中各个用户的用户偏好的偏好数据,用户偏好用于采用多个特征描述用户选择的产品或服务,偏好数据包括各个特征的特征参数。
步骤102:根据用户集合中各个用户的偏好数据,确定目标对象在用户集合中的潜在用户集合。
步骤103:根据用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在用户集合中的潜在用户集合。
步骤104:根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者。
其中,待挖掘数据中的各个对象是与用户的用户偏好相类似或者相同的服务或者产品,例如通信套餐、酒店、手机和手提电脑等。用户集合优选为特定的用户集合,特定的用户集合即特定的用户群,例如,在校大学生、企业用户和50岁以上的中老年用户等。各个特征的特征参数可以包括各个特征的取值和各个特征的偏好参数,偏好参数是指在用户偏好中的每个特征的均值上下波动的波动值,例如,一类用户的用户偏好是价格为200元/时的四星级酒店,其中价格的偏好参数可以正负5%,即价格在190元/时~210元/时的范围内的酒店,可以认为是该类用户可以接受的用户偏好。
容易理解地,目标对象和待挖掘数据中的各个对象也分别包括多个特征,并且各个特征有对应的取值。特定的用户集合中的用户偏好可能会由于地域的不同而存在较大的差异,实现时,可以适当选择同一地域或相邻地域的特定的用户集合进行分析。
本发明实施例通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象在用户集合中的潜在用户集合,以及待挖掘数据中的各个对象在用户集合中的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度,确定产品或服务的重要竞争者,从而为商家进行市场分析提供更准确的指导。
实施例二
本发明实施例提供了一种数据挖掘方法,本实施例以待挖掘数据中的各个对象均为通信套餐,目标对象为特定的已知通信套餐为例进行说明,其中,特定的已知通信套餐不属于待挖掘数据,且目标对象与待挖掘数据中的各个对象互为竞争关系,参见图2,该方法包括:
步骤201:获取特定的用户集合的用户偏好的偏好数据,用户偏好用于采用多个特征描述用户选择的产品或服务,偏好数据包括各个特征的特征参数。
其中,特定的用户集合,例如在校大学生。实现时,可以通过调查问卷的方法收集某个地区的每个在校大学生的选用的通信套餐(即用户偏好)。各个特征的特征参数可以包括各个特征的取值和各个特征的偏好参数,偏好参数是指在用户偏好中的每个特征的均值上下波动的波动值,例如,一类用户的用户偏好是价格为200元/时的四星级酒店,其中价格的偏好参数可以正负5%,即价格在190元/时~210元/时的范围内的酒店,可以认为是该类用户可以接受的用户偏好。具体地,可以根据市场调查结果,人为设定每个特征的偏好参数。又例如,某地域的在校大学生一般选择的通信套餐,其特征包括了价格30元/月、30分钟免费通话、100条/月免费短信和80M流量等等,该免费短信数量的偏好参数可以是正负10%,即免费短信的数量在90条/月~110条/月的通信套餐均是该地域的在校大学生可接受的。
步骤202:确定目标对象的潜在用户集合。
在本实施例中,可以根据用户集合和用户集合中的各个用户的偏好数据,确定目标对象在用户集合中的潜在用户集合,其具体可以包括:
建立一个第一多维空间坐标,第一多维空间坐标的原点为全局偏好点,第一多维空间坐标的维度为待挖掘数据中的所有的对象的所有特征的总个数;
确定用户集合中的各个用户的偏好数据在第一多维空间坐标中对应的多个用户偏好点,以及目标对象在第一多维空间坐标中对应的目标对象点;
分别以多个用户偏好点为中心,确定多个第一子空间,每个第一子空间中的任意一个点在任意一个维度上到第一子空间对应的用户偏好点之间的距离不大于第一设定值;
根据每个第一子空间,确定各个用户偏好点的用户偏好子空间,用户偏好子空间为第一子空间中除了第一被剪枝子空间和第二被剪枝子空间以外的子空间,第一被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均大于目标对象点到全局偏好点的距离,第二被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均小于目标对象点到全局偏好点的距离;
统计目标对象点所在的用户偏好子空间,目标对象点所在的用户偏好子空间对应的所有用户构成目标对象的潜在用户集合。
其中,全局偏好点是人们的常识性偏好,具体的取值有人为设定,可以由产品或服务所属领域的专业人士(例如业务人员)进行设定,即业务人员综合所有的通信套餐后,寻找一种对用户最有利的通信套餐,是一种理想的通信套餐,比如,价格为最低0、通话时间为目前市场上最长、流量为目前市场最大等。
多维空间坐标的维度为待挖掘数据中的所有的对象的所有特征的个数的总和。假设待挖掘数据有两个对象:通信套餐A和B,通信套餐A有一个特征即价格30元/月、通信套餐B有两个特征即免费通话时间30分钟和价格40元/月,则多维空间坐标的维度为2。
各个用户的用户偏好点是根据各个用户的偏好数据中的各个特征的取值映射到多维坐标空间中得到的。第一设定值为每个特征(即每个维度上)的偏好参数r与该维度的值域范围domain(d)(例如价格维度的值域范围可以是0到1000元,通话时间维度的值域范围可以10000分钟到0分钟等)的乘积。这样,在每个维度上,用户偏好点将第一子空间均匀等分。
参见图3,以第一多维空间坐标的维度是2(即价格维度和通话时间维度)为例,对第一子空间和用户偏好子空间进行说明。全局偏好点O为价格最低(例如0元),通话时间最长(例如100分钟)的点,用户偏好点为m,第一子空间包括1、2、3和4四个区域,目标对象点Q落在区域3和4的交接线与边界线相交处上,则有,区域2和4中的任意一个点在价格维度和通话时间维度上,到全局偏好点O的距离均大于目标对象点Q到全局偏好点O的距离,所以区域2和4为第一被剪枝子空间,不存在第二被剪枝子空间,故用户偏好子空间为区域1和3。
步骤203:确定待挖掘数据中的各个对象的潜在用户集合。
在本实施例中,可以根据用户集合、用户集合中的各个用户的偏好数据和待挖掘数据,确定待挖掘数据中的各个对象在用户集合中的潜在用户集合,具体地,其可以包括:
确定待挖掘数据中的各个对象在第一多维空间坐标中对应的待确定点;
分别统计每个待确定点所在的用户偏好子空间,每个待确定点所在的用户偏好子空间对应的所有用户构成各个对象各自的潜在用户集合。
容易理解地,在步骤203之前,该方法还可以包括获取待挖掘数据。
步骤204:根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者。
具体地,根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者,可以包括:
根据目标对象的潜在用户集合和待挖掘数据中的各个对象的潜在用户集合,分别确定目标对象与待挖掘数据中的各个对象的重要竞争关系值,重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为目标对象的潜在用户集合;
分别判断每个重要竞争关系值是否满足α≥τ,其中,τ为设定的重要竞争关系阈值;设定的重要竞争关系阈值可以由具体应用的业务人员确定,一般取为80%~85%。
当α≥τ时,重要竞争关系值对应的待挖掘数据中的对象为目标对象的重要竞争者。
在实际应用中,由于待挖掘数据中的各个对象(即通信套餐)只有一部分与目标对象为重要竞争关系,在步骤203之前,该方法还可以包括:
初步筛除待挖掘数据中的不可能为目标对象的重要竞争者的对象。
具体为:建立另一个多维空间坐标,该另一个多维空间坐标的原点为全局偏好点,该另一个多维空间坐标的维度为待挖掘数据中的所有的对象(即通信套餐)的所有特征的个数;
确定待挖掘数据中的各个对象的在该另一个多维空间坐标中对应的待确定点;
分别以多个待确定点为中心,确定多个第三子空间,第三子空间中的任意一个点在任意一个维度上到待确定点之间的距离不大于第三设定值;其中,第三设定值为每个特征(即每个维度上)的偏好参数r与该维度的值域范围domain(d)(例如价格维度的值域范围可以是0到1000元,通话时间维度的值域范围可以10000分钟到0分钟等)的乘积。这样,在每个维度上,每个待确定点将第三子空间均匀等分。容易理解地,第三设定值可以与第一设定值相同,也可以不同。
假设已知给定的一个待确定点对应的对象不是目标对象的重要竞争者,则对于待挖掘数据中的其他任意一个对象,判断其他任意一个对象在多维空间坐标中对应的点到给定的待确定点之间的距离在每个维度上是否小于或者等于该任意一个对象对应的点到目标对象点之间的距离;
当该任意一个对象对应的点到给定的待确定点之间的距离在每个维度上均小于或者等于该任意一个对象对应的点到目标对象点之间的距离时,该任意一个对象不可能是目标对象的重要竞争者。
按照前述步骤202的方法,可以确定任意一个对象的偏好子空间,记为S(w),根据偏好子空间确定的任意一个对象的潜在用户集合,记为M(w),第三子空间记为SS(w),根据SS(w)确定任意一个对象的潜在用户集合记为MM(w),因为S(w)是SS(w)的子集,则有自然地,
M ( Q ) ∩ MM ( w ) M ( Q ) ≥ M ( Q ) ∩ M ( w ) M ( Q ) = α
通过初步筛除待挖掘数据中的不可能为目标对象的重要竞争者的对象,可以有效减少需要处理的通信套餐的个数,提高了效率。
本发明实施例通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象在用户集合中的潜在用户集合,以及待挖掘数据中的各个对象在用户集合中的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度,确定产品或服务的重要竞争者,从而为商家进行市场分析提供更准确的指导。
实施例三
本发明实施例提供了一种数据挖掘方法,本实施例与实施例二的不同之处在于确定目标对象的潜在用户集合和待挖掘数据中的各个对象的潜在用户集合的方式,本实施例仍以待挖掘数据中的各个对象均为通信套餐,目标对象为特定的已知通信套餐为例进行说明,其中,特定的已知通信套餐不属于待挖掘数据,且目标对象与待挖掘数据中的各个对象互为竞争关系,参见图4,该方法包括:
步骤301:获取用户集合中各个用户的用户偏好的偏好数据,用户偏好用于采用多个特征描述用户选择的产品或服务,偏好数据包括各个特征的特征参数。
该步骤同步骤201,这里不再赘述。
步骤302:确定目标对象的潜在用户集合。
在本实施例中,确定目标对象的潜在用户集合,具体可以包括:
建立一个第二多维空间坐标,第二多维空间坐标的原点为全局偏好点,第二多维空间坐标的维度为待挖掘数据中的所有的对象的所有特征的总个数;
确定目标对象在第二多维空间坐标中对应的目标对象点;
以目标对象点为中心,确定一个第二子空间,第二子空间中的任意一个点在任意一个维度上到目标对象点之间的距离不大于第二设定值;其中,第二设定值为每个特征(即每个维度上)的偏好参数r与该维度的值域范围domain(d)的乘积。这样,在每个维度上,目标对象点将第二子空间均匀等分。
根据第二子空间,确定目标对象点的目标偏好子空间,目标偏好子空间为第二子空间中除了第三被剪枝子空间和第四被剪枝子空间以外的子空间,第三被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均大于目标对象点到全局偏好点的距离,第四被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均小于目标对象点到全局偏好点的距离;
确定用户集合中的各个用户的用户偏好在多维空间坐标中对应的多个用户偏好点;
统计所有落在目标偏好子空间内的用户偏好点,所有落在目标对象偏好子空间内的用户偏好点对应的所有用户,构成目标对象的潜在用户集合。
在一种实现方式中,统计所有落在目标偏好子空间内的用户偏好点,所有落在目标对象偏好子空间内的用户偏好点对应的所有用户,构成目标对象的潜在用户集合,可以包括:
逐一比对判断各个用户偏好点是否在目标偏好子空间内;
当用户偏好点在目标偏好子空间内时,该用户偏好点对应的用户,为目标对象的潜在用户;
将该用户偏好点对应的用户,加入目标对象的潜在用户集合中。
在另一种实现方式中,统计所有落在目标偏好子空间内的用户偏好点,所有落在目标对象偏好子空间内的用户偏好点对应的所有用户,构成目标对象的潜在用户集合,可以采用如下方式:
采用用户集合中的所有用户偏好对应的用户偏好点,构成R树(R-tree)或四叉树(Quad-tree);
从R-tree或Quad-tree的最顶层节点开始按照R-tree或Quad-tree的查找方式依次查找,并判断目标偏好子空间与各个节点是否存在交集;
当节点与目标偏好子空间存在交集时,依次查找找到最低层的一个与目标偏好子空间存在交集的节点中所有的用户偏好点对应的用户即为目标对象的潜在用户集合。
其中,R-tree或Quad-tree的建立和查找方式均为现有技术,在此不再赘述。采用R-tree或Quad-tree确定目标对象的潜在用户集合由于树的特性,可以有效地提高效率。
步骤303:根据目标对象的潜在用户集合和待挖掘数据,确定待挖掘数据中的各个对象的潜在用户集合。
在本实施例中,根据目标对象的潜在用户集合和待挖掘数据,确定待挖掘数据中的各个对象的潜在用户集合,可以包括:
确定待挖掘数据中的各个对象的在第二多维空间坐标中对应的待确定点;
分别以多个待确定点为中心,确定多个第三子空间,第三子空间中的任意一个点在任意一个维度上到待确定点之间的距离不大于第三设定值;其中,第三设定值为每个特征(即每个维度上)的偏好参数r与该维度的值域范围domain(d)的乘积。第三设定值与第二设定值相同。
根据每个第三子空间,确定每个待确定点的偏好子空间,偏好子空间为第三子空间中除了第五被剪枝子空间和第六被剪枝子空间以外的子空间,第五被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均大于目标对象点到全局偏好点的距离,第六被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均小于目标对象点到全局偏好点的距离;
确定目标对象的潜在用户集合中的各个用户的偏好数据在第二多维空间坐标中对应的目标偏好点;
分别统计目标偏好点落入的待确定点的偏好子空间,目标偏好点落入的待确定点的偏好子空间对应的用户,构成待挖掘数据中的各个对象的潜在用户集合。
容易理解地,在步骤303之前,该方法还可以包括获取待挖掘数据。
步骤304:根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者。
具体地,根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者,可以包括:
根据目标对象的潜在用户集合和待挖掘数据中的各个对象的潜在用户集合,分别确定目标对象与待挖掘数据中的各个对象的重要竞争关系值,重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为目标对象的潜在用户集合;
分别判断每个重要竞争关系值是否满足α≥τ,其中,τ为设定的重要竞争关系阈值;设定的重要竞争关系阈值可以由具体应用的业务人员确定,一般取为80%~85%。
当α≥τ时,重要竞争关系值对应的待挖掘数据中的对象为目标对象的重要竞争者。
在实际应用中,由于待挖掘数据中的各个对象(即通信套餐)只有一部分与目标对象为重要竞争关系,在步骤303之前,该方法还可以包括:
初步筛除待挖掘数据中的不可能为目标对象的重要竞争者的对象。
具体为:建立一个第三多维空间坐标,第三多维空间坐标的原点为全局偏好点,第三多维空间坐标的维度为待挖掘数据中的所有的对象(即通信套餐)的所有特征的总个数;
确定待挖掘数据中的各个对象的在第三多维空间坐标中对应的待确定点;
分别以多个待确定点为中心,确定多个第三子空间,第三子空间中的任意一个点在任意一个维度上到待确定点之间的距离不大于第三设定值;其中,每个特征(即每个维度上)的偏好参数r与该维度的值域范围domain(d)(例如价格维度的值域范围可以是0到1000元,通话时间维度的值域范围可以10000分钟到0分钟等)的乘积。这样,在每个维度上,每个待确定点将第三子空间均匀等分。
假设已知给定的一个待确定点对应的对象不是目标对象的重要竞争者,则对于待挖掘数据中的其他任意一个对象,判断其他任意一个对象在多维空间坐标中对应的点到给定的待确定点之间的距离在每个维度上是否小于或者等于该任意一个对象对应的点到目标对象点之间的距离;
当该任意一个对象对应的点到给定的待确定点之间的距离在每个维度上均小于或者等于该任意一个对象对应的点到目标对象点之间的距离时,该任意一个对象不可能是目标对象的重要竞争者。
按照前述步骤303的方法,可以确定任意一个对象的偏好子空间,记为S(w),根据偏好子空间确定的任意一个对象的潜在用户集合,记为M(w),第三子空间记为SS(w),根据SS(w)确定任意一个对象的潜在用户集合记为MM(w),因为S(w)是SS(w)的子集,则有自然地,
M ( Q ) ∩ MM ( w ) M ( Q ) ≥ M ( Q ) ∩ M ( w ) M ( Q ) = α
通过初步筛除待挖掘数据中的不可能为目标对象的重要竞争者的对象,可以有效减少需要处理的通信套餐的个数,提高了效率。
本发明实施例通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象的潜在用户集合,以及待挖掘数据中的各个对象的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度。
实施例四
本发明实施例提供了一种数据挖掘装置,参见图5,该装置包括:获取模块41、目标对象确定模块42、对象确定模块43和竞争者确定模块44。
其中,获取模块41用于获取用户集合中各个用户的用户偏好的偏好数据,用户偏好用于采用多个特征描述用户选择的产品或服务,偏好数据包括各个特征的特征参数;
目标对象确定模块42用于根据用户集合中各个用户的偏好数据,确定目标对象在用户集合中的潜在用户集合;
对象确定模块43用于根据用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在用户集合中的潜在用户集合;
竞争者确定模块44用于根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者。
本发明实施例通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象的潜在用户集合,以及待挖掘数据中的各个对象的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度。
实施例五
本发明实施例提供了一种数据挖掘装置,参见图6,该装置包括:获取模块51、目标对象确定模块52、对象确定模块53、竞争者确定模块54和筛除模块55。
其中,获取模块51用于获取用户集合中各个用户的用户偏好的偏好数据,用户偏好用于采用多个特征描述用户选择的产品或服务,偏好数据包括各个特征的特征参数;
目标对象确定模块52用于根据用户集合中各个用户的偏好数据,确定目标对象在用户集合中的潜在用户集合;
对象确定模块53用于根据用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在用户集合中的潜在用户集合;
竞争者确定模块54用于根据目标对象的潜在用户集合、待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定目标对象的重要竞争者。
在本实施例中,目标对象确定模块52,可以包括:第一建立单元521、第一确定单元522、第二确定单元523和第一统计单元524。
其中,第一建立单元521用于建立一个第一多维空间坐标,第一多维空间坐标的原点为全局偏好点,第一多维空间坐标的维度为待挖掘数据中的所有的对象的所有特征的总个数;
第一确定单元522用于确定用户集合中的各个用户的偏好数据在第一多维空间坐标中对应的多个用户偏好点,以及目标对象在第一多维空间坐标中对应的目标对象点;
第二确定单元523用于分别以多个用户偏好点为中心,确定多个第一子空间,每个第一子空间中的任意一个点在任意一个维度上到第一子空间对应的用户偏好点之间的距离不大于第一设定值;
第二确定单元523还用于根据每个第一子空间,确定各个用户偏好点的用户偏好子空间,用户偏好子空间为第一子空间中除了第一被剪枝子空间和第二被剪枝子空间以外的子空间,第一被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均大于目标对象点到全局偏好点的距离,第二被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均小于目标对象点到全局偏好点的距离;
第一统计单元524用于统计目标对象点所在的用户偏好子空间,目标对象点所在的用户偏好子空间对应的所有用户,构成目标对象的潜在用户集合。
在本实施例中,对象确定模块53,可以包括:第一确定单元531和第一统计单元532。
第一确定单元531用于确定待挖掘数据中的各个对象在第一多维空间坐标中对应的待确定点;
第一统计单元532用于分别统计每个待确定点所在的用户偏好子空间,每个待确定点所在的用户偏好子空间对应的所有用户构成各个对象各自的潜在用户集合。
在本实施例中,目标对象确定模块52,还可以包括:第二建立单元525、第三确定单元526、第四确定单元527和第二统计单元528。
其中,第二建立单元525用于建立一个第二多维空间坐标,第二多维空间坐标的原点为全局偏好点,第二多维空间坐标的维度为待挖掘数据中的所有的对象的所有特征的总个数;
第三确定单元526用于确定目标对象在第二多维空间坐标中对应的目标对象点;
第四确定单元527用于以目标对象点为中心,确定一个第二子空间,第二子空间中的任意一个点在任意一个维度上到目标对象点之间的距离不大于第二设定值;
第四确定单元527还用于根据第二子空间,确定目标对象点的目标偏好子空间,目标偏好子空间为第二子空间中除了第三被剪枝子空间和第四被剪枝子空间以外的子空间,第三被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均大于目标对象点到全局偏好点的距离,第四被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均小于目标对象点到全局偏好点的距离;
第三确定单元526还用于确定用户集合中的各个用户的偏好数据在第二多维空间坐标中对应的多个用户偏好点;
第二统计单元528用于统计所有落在目标偏好子空间内的用户偏好点,所有落在目标对象偏好子空间内的用户偏好点对应的所有用户,构成目标对象的潜在用户集合。
在本实施例中,对象确定模块53,还可以包括:第二确定单元533、第三确定单元534和第二统计单元535。
其中,第二确定单元533用于确定待挖掘数据中的各个对象的在第二多维空间坐标中对应的待确定点;
第三确定单元534用于分别以多个待确定点为中心,确定多个第三子空间,第三子空间中的任意一个点在任意一个维度上到待确定点之间的距离不大于第三设定值;
第三确定单元534还用于根据每个第三子空间,确定每个待确定点的偏好子空间,偏好子空间为第三子空间中除了第五被剪枝子空间和第六被剪枝子空间以外的子空间,第五被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均大于目标对象点到全局偏好点的距离,第六被剪枝子空间中的任意一点在任意一个维度上到全局偏好点的距离均小于目标对象点到全局偏好点的距离;
第二确定单元533还用于确定目标对象的潜在用户集合中的各个用户的用户偏好在多维空间坐标中对应的目标偏好点;
第二统计单元535用于分别统计目标偏好点落入的待确定点的偏好子空间,目标偏好点落入的待确定点的偏好子空间对应的用户,构成待挖掘数据中的各个对象的潜在用户集合。
在本实施例中,竞争者确定模块54,可以包括:关系值确定单元541、判断单元542和判定单元543。
其中,关系值确定单元541用于根据目标对象的潜在用户集合和待挖掘数据中的各个对象的潜在用户集合,分别确定目标对象与待挖掘数据中的各个对象的重要竞争关系值,重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为目标对象的潜在用户集合;
判断单元542用于分别判断每个重要竞争关系值是否满足α≥τ,其中,τ为设定的重要竞争关系阈值;
判定单元543用于当α≥τ时,判定重要竞争关系值对应的待挖掘数据中的对象为目标对象的重要竞争者。
可选地,该装置还可以包括:
筛除模块55用于在确定待挖掘数据中的各个对象在用户集合中的潜在用户集合之前,初步筛除待挖掘数据中的不可能为目标对象的重要竞争者的对象。
本发明实施例通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象的潜在用户集合,以及待挖掘数据中的各个对象的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度。
实施例六
本发明实施例提供了一种数据挖掘设备,参见图7,该设备可以是一种服务器。其一般包括至少一个处理器1001(例如CPU)、至少一个通信接口1002、存储器1003和至少一个通信总线1004。其中,存储器1003用于存储计算机执行指令,处理器1001与存储器1003通过总线1004连接,当所述计算机运行时,处理器1001执行存储器1003存储的所述计算机执行指令,以使所述计算机执行实施例一、或实施例二或实施例三中数据挖掘方法。
本领域技术人员可以理解,图7中示出的服务器的结构并不构成对数据挖掘设备的限定,其可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图7对交换设备的各个构成部件进行具体的介绍:
通信总线1004用于实现处理器1001、存储器1003及通信接口1002之间的连接通信。
至少一个通信接口1002(可以是有线或者无线)实现交换设备分别与至少两个其他计算机(例如主机)和一个服务器(例如控制器)之间的通信连接(计算机与服务器可以共享一个通信接口1002分别与数据挖掘设备连接),可以使用互联网,广域网,本地网,城域网等。
存储器1003可用于存储软件程序以及应用模块,处理器1001通过运行存储在存储器1003的软件程序以及应用模块,从而执行数据挖掘设备的各种功能应用以及数据处理。存储器1003可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能(例如流表表项的匹配功能和执行指令功能)所需的应用程序等;存储数据区可存储根据交换设备的使用所创建的数据(例如存储的流表和数据库)等。此外,存储器1003可以包括高速RAM(RandomAccessMemory,随机存取存储器),还可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1001是数据挖掘设备的控制中心,利用各种接口和线路连接整个交换设备的各个部分,通过运行或执行存储在存储器1003内的软件程序和/或应用模块,以及调用存储在存储器1003内的数据,执行交换设备的各种功能和处理数据,从而对交换设备进行整体监控。
具体地,通过运行或执行存储在存储器1003内的软件程序和/或应用模块,以及调用存储在存储器1003内的数据,处理器1001可以实现实施例一、二和三中的操作的指令。
本发明实施例通过获取用户集合中的各个用户的用户偏好的偏好数据后,确定目标对象的潜在用户集合,以及待挖掘数据中的各个对象的潜在用户集合后,输出目标对象的重要竞争者,可以针对特定的用户群,进一步分析各个对象之间竞争性关联程度。
需要说明的是:上述实施例提供的数据挖掘装置在进行数据挖掘时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据挖掘装置和数据挖掘方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据挖掘方法,其特征在于,所述方法包括:
获取用户集合中各个用户的用户偏好的偏好数据,所述用户偏好用于采用多个特征描述所述用户选择的产品或服务,所述偏好数据包括各个所述特征的特征参数;
根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合;
根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合;
根据所述目标对象的潜在用户集合、所述待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定所述目标对象的重要竞争者。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合,包括:
建立一个第一多维空间坐标,所述第一多维空间坐标的原点为全局偏好点,所述第一多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
确定所述用户集合中的各个用户的偏好数据在所述第一多维空间坐标中对应的多个用户偏好点,以及所述目标对象在所述第一多维空间坐标中对应的目标对象点;
分别以多个所述用户偏好点为中心,确定多个第一子空间,每个所述第一子空间中的任意一个点在任意一个维度上到所述第一子空间对应的所述用户偏好点之间的距离不大于第一设定值;
根据每个所述第一子空间,确定每个所述用户偏好点的用户偏好子空间,所述用户偏好子空间为所述第一子空间中除了第一被剪枝子空间和第二被剪枝子空间以外的子空间,所述第一被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第二被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
统计所述目标对象点所在的所述用户偏好子空间,所述目标对象点所在的所述用户偏好子空间对应的所有用户,构成所述目标对象的潜在用户集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合,包括:
确定所述待挖掘数据中的各个对象在所述第一多维空间坐标中对应的待确定点;
分别统计每个所述待确定点所在的所述用户偏好子空间,每个所述待确定点所在的所述用户偏好子空间对应的所有用户构成所述各个对象各自的潜在用户集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合,包括:
建立一个第二多维空间坐标,所述第二多维空间坐标的原点为全局偏好点,所述第二多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
确定所述目标对象在所述第二多维空间坐标中对应的目标对象点;
以所述目标对象点为中心,确定一个第二子空间,所述第二子空间中的任意一个点在任意一个维度上到所述目标对象点之间的距离不大于第二设定值;
根据所述第二子空间,确定所述目标对象点的目标偏好子空间,所述目标偏好子空间为所述第二子空间中除了第三被剪枝子空间和第四被剪枝子空间以外的子空间,所述第三被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第四被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
确定所述用户集合中的各个用户的用户偏好在所述多维空间坐标中对应的多个用户偏好点;
统计所有落在所述目标偏好子空间内的所述用户偏好点,所述所有落在所述目标对象偏好子空间内的所述用户偏好点对应的所有用户,构成所述目标对象的潜在用户集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合,包括:
确定所述待挖掘数据中的各个对象的在所述第二多维空间坐标中对应的多个待确定点;
分别以多个所述待确定点为中心,确定多个第三子空间,所述第三子空间中的任意一个点在任意一个维度上到所述待确定点之间的距离不大于第三设定值;
根据每个所述第三子空间,确定每个所述待确定点的偏好子空间,所述偏好子空间为所述第三子空间中除了第五被剪枝子空间和第六被剪枝子空间以外的子空间,所述第五被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第六被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
确定所述目标对象的潜在用户集合中的各个用户的偏好数据在所述第二多维空间坐标中对应的目标偏好点;
分别统计所述目标偏好点落入的所述待确定点的偏好子空间,所述目标偏好点落入的所述待确定点的偏好子空间对应的用户,构成所述待挖掘数据中的各个对象的潜在用户集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标对象的潜在用户集合、所述待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定所述目标对象的重要竞争者,包括:
根据所述目标对象的潜在用户集合和所述待挖掘数据中的各个对象的潜在用户集合,分别确定所述目标对象与所述待挖掘数据中的各个对象的重要竞争关系值,所述重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为所述待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为所述目标对象的潜在用户集合;
分别判断每个所述重要竞争关系值是否满足α≥τ,其中,τ为所述设定的重要竞争关系阈值;
当所述α≥τ时,判定所述重要竞争关系值对应的所述待挖掘数据中的对象为所述目标对象的重要竞争者。
7.根据权利要求1所述的方法,其特征在于,在所述确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合之前,所述方法还包括:
初步筛除所述待挖掘数据中的不可能为所述目标对象的重要竞争者的对象。
8.一种数据挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取用户集合中各个用户的用户偏好的偏好数据,所述用户偏好用于采用多个特征描述所述用户选择的产品或服务,所述偏好数据包括各个所述特征的特征参数;
目标对象确定模块,用于根据所述用户集合中各个用户的偏好数据,确定目标对象在所述用户集合中的潜在用户集合;
对象确定模块,用于根据所述用户集合中各个用户的偏好数据,确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合;
竞争者确定模块,用于根据所述目标对象的潜在用户集合、所述待挖掘数据中的各个对象的潜在用户集合和设定的重要竞争关系阈值,确定所述目标对象的重要竞争者。
9.根据权利要求8所述的装置,其特征在于,所述目标对象确定模块,包括:
第一建立单元,用于建立一个第一多维空间坐标,所述第一多维空间坐标的原点为全局偏好点,所述第一多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
第一确定单元,用于确定所述用户集合中的各个用户的偏好数据在所述第一多维空间坐标中对应的多个用户偏好点,以及所述目标对象在所述第一多维空间坐标中对应的目标对象点;
第二确定单元,用于分别以多个所述用户偏好点为中心,确定多个第一子空间,每个所述第一子空间中的任意一个点在任意一个维度上到所述第一子空间对应的所述用户偏好点之间的距离不大于第一设定值;
所述第二确定单元还用于根据每个所述第一子空间,确定每个所述用户偏好点的用户偏好子空间,所述用户偏好子空间为所述第一子空间中除了第一被剪枝子空间和第二被剪枝子空间以外的子空间,所述第一被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第二被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
第一统计单元,用于统计所述目标对象点所在的所述用户偏好子空间,所述目标对象点所在的所述用户偏好子空间对应的所有用户,构成所述目标对象的潜在用户集合。
10.根据权利要求9所述的装置,其特征在于,所述对象确定模块,包括:
第一确定单元,用于确定所述待挖掘数据中的各个对象在所述第一多维空间坐标中对应的待确定点;
第一统计单元,用于分别统计每个所述待确定点所在的所述用户偏好子空间,每个所述待确定点所在的所述用户偏好子空间对应的所有用户构成所述各个对象各自的潜在用户集合。
11.根据权利要求8所述的装置,其特征在于,所述目标对象确定模块还包括:
第二建立单元,用于建立一个第二多维空间坐标,所述第二多维空间坐标的原点为全局偏好点,所述第二多维空间坐标的维度为所述待挖掘数据中的所有的对象的所有特征的总个数;
第三确定单元,用于确定所述目标对象在所述第二多维空间坐标中对应的目标对象点;
第四确定单元,用于以所述目标对象点为中心,确定一个第二子空间,所述第二子空间中的任意一个点在任意一个维度上到所述目标对象点之间的距离不大于第二设定值;
第四确定单元还用于根据所述第二子空间,确定所述目标对象点的目标偏好子空间,所述目标偏好子空间为所述第二子空间中除了第三被剪枝子空间和第四被剪枝子空间以外的子空间,所述第三被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第四被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
第三确定单元还用于确定所述用户集合中的各个用户的偏好数据在所述多维空间坐标中对应的多个用户偏好点;
第二统计单元,用于统计所有落在所述目标偏好子空间内的所述用户偏好点,所述所有落在所述目标对象偏好子空间内的所述用户偏好点对应的所有用户,构成所述目标对象的潜在用户集合。
12.根据权利要求11所述的装置,其特征在于,所述对象确定模块还包括:
第二确定单元,用于确定所述待挖掘数据中的各个对象的在所述第二多维空间坐标中对应的多个待确定点;
第三确定单元,用于分别以多个所述待确定点为中心,确定多个第三子空间,所述第三子空间中的任意一个点在任意一个维度上到所述待确定点之间的距离不大于第三设定值;
第三确定单元还用于根据每个所述第三子空间,确定每个所述待确定点的偏好子空间,所述偏好子空间为所述第三子空间中除了第五被剪枝子空间和第六被剪枝子空间以外的子空间,所述第五被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均大于所述目标对象点到所述全局偏好点的距离,所述第六被剪枝子空间中的任意一点在任意一个维度上到所述全局偏好点的距离均小于所述目标对象点到所述全局偏好点的距离;
第二确定单元还用于确定所述目标对象的潜在用户集合中的各个用户的用户偏好在所述多维空间坐标中对应的目标偏好点;
第二统计单元,用于分别统计所述目标偏好点落入的所述待确定点的偏好子空间,所述目标偏好点落入的所述待确定点的偏好子空间对应的用户,构成所述待挖掘数据中的各个对象的潜在用户集合。
13.根据权利要求8所述的装置,其特征在于,所述竞争者确定模块,包括:
关系值确定单元,用于根据所述目标对象的潜在用户集合和所述待挖掘数据中的各个对象的潜在用户集合,分别确定所述目标对象与所述待挖掘数据中的各个对象的重要竞争关系值,所述重要竞争关系值α如下:
α = M ( w ) ∩ M ( Q ) M ( Q )
其中,M(w)为所述待挖掘数据中的任意一个对象的潜在用户集合,M(Q)为所述目标对象的潜在用户集合;
判断单元,用于分别判断每个所述重要竞争关系值是否满足α≥τ,其中,τ为所述设定的重要竞争关系阈值;
判定单元,用于当所述α≥τ时,判定所述重要竞争关系值对应的所述待挖掘数据中的对象为所述目标对象的重要竞争者。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
筛除模块,用于在所述确定待挖掘数据中的各个对象在所述用户集合中的潜在用户集合之前,初步筛除所述待挖掘数据中的不可能为所述目标对象的重要竞争者的对象。
CN201410855435.4A 2014-12-31 2014-12-31 数据挖掘方法和装置 Active CN105808611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410855435.4A CN105808611B (zh) 2014-12-31 2014-12-31 数据挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410855435.4A CN105808611B (zh) 2014-12-31 2014-12-31 数据挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN105808611A true CN105808611A (zh) 2016-07-27
CN105808611B CN105808611B (zh) 2019-12-06

Family

ID=56465228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410855435.4A Active CN105808611B (zh) 2014-12-31 2014-12-31 数据挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN105808611B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562793A (zh) * 2017-08-01 2018-01-09 佛山市深研信息技术有限公司 一种大数据挖掘方法
CN107730320A (zh) * 2017-11-01 2018-02-23 北京小度信息科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质
CN108229999A (zh) * 2016-12-21 2018-06-29 百度在线网络技术(北京)有限公司 竞品评估方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090077126A1 (en) * 2007-09-19 2009-03-19 Nec (China) Co,. Ltd Method and system for calculating competitiveness metric between objects
CN102456203A (zh) * 2010-10-22 2012-05-16 阿里巴巴集团控股有限公司 确定候选产品链表的方法及相关装置
US20130091158A1 (en) * 2011-10-05 2013-04-11 Jun-hyeong Kim Apparatus and method for analyzing user preference about domain using multi-dimensional, multi-layered context structure
CN103198418A (zh) * 2013-03-15 2013-07-10 北京亿赞普网络技术有限公司 一种应用推荐方法和系统
CN103593417A (zh) * 2013-10-25 2014-02-19 安徽教育网络出版有限公司 基于关联规则预测的协同过滤推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090077126A1 (en) * 2007-09-19 2009-03-19 Nec (China) Co,. Ltd Method and system for calculating competitiveness metric between objects
CN102456203A (zh) * 2010-10-22 2012-05-16 阿里巴巴集团控股有限公司 确定候选产品链表的方法及相关装置
US20130091158A1 (en) * 2011-10-05 2013-04-11 Jun-hyeong Kim Apparatus and method for analyzing user preference about domain using multi-dimensional, multi-layered context structure
CN103198418A (zh) * 2013-03-15 2013-07-10 北京亿赞普网络技术有限公司 一种应用推荐方法和系统
CN103593417A (zh) * 2013-10-25 2014-02-19 安徽教育网络出版有限公司 基于关联规则预测的协同过滤推荐方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229999A (zh) * 2016-12-21 2018-06-29 百度在线网络技术(北京)有限公司 竞品评估方法及装置
CN108229999B (zh) * 2016-12-21 2022-01-21 百度在线网络技术(北京)有限公司 竞品评估方法及装置
CN107562793A (zh) * 2017-08-01 2018-01-09 佛山市深研信息技术有限公司 一种大数据挖掘方法
CN107730320A (zh) * 2017-11-01 2018-02-23 北京小度信息科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质
CN107730320B (zh) * 2017-11-01 2021-12-07 北京星选科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN105808611B (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN107102941B (zh) 一种测试用例的生成方法及装置
US9706411B2 (en) Small cell planning tool
US20150213631A1 (en) Time-based visualization of the number of events having various values for a field
CN110298539A (zh) 任务数据处理方法、装置、计算机设备及存储介质
US8229415B1 (en) Wireless communication data store construction and analysis
CN111382155B (zh) 一种数据仓库的数据处理方法、电子设备及介质
US7983946B1 (en) Systems and methods for identifying high complexity projects
US11609926B1 (en) Methods and systems for social awareness
JP6756744B2 (ja) 位置情報提供方法及び装置
CN111680108A (zh) 一种数据存储方法、装置及一种数据获取方法、装置
US20140173499A1 (en) Systems and methods for integrating storage usage information
CN113778286B (zh) 应用控件显示方法、装置、存储介质及电子设备
CN106815274A (zh) 基于Hadoop的日志数据挖掘方法及系统
CN111782317A (zh) 页面的测试方法和装置、存储介质和电子装置
CN105808611A (zh) 数据挖掘方法和装置
CN106844319A (zh) 报表生成方法及装置
CN104199964B (zh) 信息处理方法及装置
CN108846055A (zh) 搜索处理方法、装置、电子设备及可读存储介质
CN108399490A (zh) 一种服务于企业政策规划的大数据云计算平台
KR20190017395A (ko) 자동 셀 병합 기능이 구비된 데이터 관리 서비스 제공 방법 및 이를 수행하는 서비스 제공 서버
US8738628B2 (en) Community profiling for social media
US20240161125A1 (en) Method and system for data regulations-aware cloud storage and processing service allocation
CN110442369A (zh) 适用于git的代码清理方法及装置、存储介质
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
Akingbesote et al. Performance modeling of proposed guiset middleware for mobile healthcare services in e‐marketplaces

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant