CN108629023A - 数据挖掘方法、装置以及计算机可读存储介质 - Google Patents

数据挖掘方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN108629023A
CN108629023A CN201810434453.3A CN201810434453A CN108629023A CN 108629023 A CN108629023 A CN 108629023A CN 201810434453 A CN201810434453 A CN 201810434453A CN 108629023 A CN108629023 A CN 108629023A
Authority
CN
China
Prior art keywords
user
feature
various features
weight
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810434453.3A
Other languages
English (en)
Inventor
张晗
程建波
彭南博
郑爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Financial Technology Holding Co Ltd
Original Assignee
Beijing Jingdong Financial Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Financial Technology Holding Co Ltd filed Critical Beijing Jingdong Financial Technology Holding Co Ltd
Priority to CN201810434453.3A priority Critical patent/CN108629023A/zh
Publication of CN108629023A publication Critical patent/CN108629023A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据挖掘方法、装置以及计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取影响用户属性确定的各项特征;根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重;根据用户在各项特征上的特征值和各项特征的客观权重,确定该用户是否具有该用户属性。本公开通过用户实际行为数据确定各项特征对于用户属性的影响程度,提高了确定用户属性的准确性。

Description

数据挖掘方法、装置以及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种数据挖掘方法、装置以及计算机可读存储介质。
背景技术
在现在的网络时代中,积累了大量的数据。用户画像是基于用户行为数据对用户表现出的某种属性进行刻画的方法,精准的用户画像对企业的运营有巨大的帮助。对用户属性的刻画往往基于相关的多维特征信息,而不同特征信息对于最终用户属性的刻画的影响程度不同。
目前,确定不同特征信息对于最终用户属性的刻画的影响程度的方法主要有Delphi法(专家打分法)。
发明内容
发明人发现:目前,用户画像过程中确定不同特征信息对于最终用户属性的刻画的影响程度主要依赖对业务十分娴熟的人员,且带有较强的主观性,不同的人有不同的业务偏好。此外业务逻辑上影响程度较强的特征,实际数据中不一定支持,因此会造成精度较低且模型值不稳定。比如某种特征,在业务人员一致认为权重(影响程度)较高,但是很可能实际数据时大部分用户该项特征值为0,对该特征设置较大权重会导致对很多用户无法准确区分是否具备某种属性,导致用户属性确定的准确性降低。
本公开所要解决的一个技术问题是:如何提高确定用户属性的准确性。
根据本公开的一些实施例,提供的一种数据挖掘方法,包括:获取影响用户属性确定的各项特征;根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重;根据用户在各项特征上的特征值和各项特征的客观权重,确定该用户是否具有该用户属性。
在一些实施例中,确定各项特征的客观权重包括:根据各项特征对于用户的覆盖度和各项特征针对不同用户特征值的不确定度中至少一项,确定各项特征的客观权重;其中,一项特征对于用户的覆盖度越高,该特征的客观权重越大,一项特征针对不同用户特征值的不确定性越大,该特征的客观权重越大。
在一些实施例中,一项特征对于用户的覆盖度是根据预设时间内在该特征上特征值大于阈值的用户数和预设时间内的总用户数的比值确定的。
在一些实施例中,将一项特征对应的特征值的信息熵,作为该特征针对不同用户特征值的不确定度。
在一些实施例中,将一项特征对于用户的覆盖度和针对不同用户特征值的不确定度的乘积取对数值,作为该特征的客观权重。
在一些实施例中,根据用户在各项特征上的特征值和各项特征的客观权重,确定用户是否具有用户属性包括:根据各项特征的客观权重和基础权重,确定各项特征的综合权重;根据用户在各项特征上的特征值和各项特征的综合权重,确定用户是否具有用户属性。
在一些实施例中,各项特征的基础权重采用以下方法确定:获取各项特征的重要度矩阵,其中,矩阵每一个元素表示该元素所在行对应的特征相对于该元素所在列对应的特征的重要度;在重要度矩阵一致性检验通过的情况下,将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。
在一些实施例中,在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和综合权重确定;用户是否具有用户属性是根据该用户在最上层各项特征上表现的特征值和综合权重确定的。
在一些实施例中,综合权重为基础权重与客观权重的加权。
根据本公开的另一些实施例,提供的一种数据挖掘装置,包括:特征获取模块,用于获取影响用户属性确定的各项特征;权重确定模块,用于根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重;属性确定模块,用于根据用户在各项特征上的特征值和各项特征的客观权重,确定用户是否具有用户属性。
在一些实施例中,权重确定模块用于根据各项特征对于用户的覆盖度和各项特征针对不同用户特征值的不确定度中至少一项,确定各项特征的客观权重;其中,一项特征对于用户的覆盖度越高,该特征的客观权重越大,一项特征针对不同用户特征值的不确定性越大,该特征的客观权重越大。
在一些实施例中,一项特征对于用户的覆盖度是根据预设时间内在该特征上特征值大于阈值的用户数和预设时间内的总用户数的比值确定的。
在一些实施例中,将一项特征对应的特征值的信息熵,作为该特征针对不同用户特征值的不确定度。
在一些实施例中,将一项特征对于用户的覆盖度和针对不同用户特征值的不确定度的乘积取对数值,作为该特征的客观权重。
在一些实施例中,权重确定模块还用于根据各项特征的客观权重和基础权重,确定各项特征的综合权重;属性确定模块还用于根据用户在各项特征上的特征值和各项特征的综合权重,确定用户是否具有用户属性。
在一些实施例中,权重确定模块还用于获取各项特征的重要度矩阵,其中,矩阵每一个元素表示该元素所在行对应的特征相对于该元素所在列对应的特征的重要度,在重要度矩阵一致性检验通过的情况下,将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。
在一些实施例中,在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和综合权重确定;用户是否具有用户属性是根据该用户在最上层各项特征上表现的特征值和综合权重确定的。
在一些实施例中,综合权重为基础权重与客观权重的加权。
根据本公开的又一些实施例,提供的一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行如前述任意实施例的数据挖掘方法的步骤。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的数据挖掘方法的步骤。
本公开中首先获取影响用户属性确定的各项特征,采集用户在各项特征上实际表现的特征值数据,然后分析所有用户在各项特征上特征值的分布情况,从而确定各项特征的客观权重,最后根据用户在各项特征上的特征值和各项特征的客观权重,确定用户是否具有某项用户属性。本公开通过用户实际行为数据确定各项特征对于用户属性的影响程度,提高了确定用户属性的准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的数据挖掘方法的流程示意图。
图2示出本公开的另一些实施例的数据挖掘方法的流程示意图。
图3示出本公开的又一些实施例的数据挖掘方法的流程示意图。
图4示出本公开的一些实施例的数据挖掘装置的结构示意图。
图5示出本公开的另一些实施例的数据挖掘装置的结构示意图。
图6示出本公开的又一些实施例的数据挖掘装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种数据挖掘方法,可用于确定用户是否具有某种用户属性。下面结合图1描述本公开的数据挖掘方法。
图1为本公开数据挖掘方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。
在步骤S102中,获取影响用户属性确定的各项特征。
用户属性可以表示用户属于某一特定群体。例如,确定用户是否具有有房属性、有孩子属性、老年人属性等等,这些都可以作为用户画像的目标。确定了用户属性有利于向用户推荐相关商品等,有利于企业的运营。针对不同的用户属性,影响用户属性确定的各项特征也可能不同,可以根据经验和实际需求确定影响用户属性确定的各项特征。例如影响用户有房属性确定的特征可以包括:用户的消费能力、理财资产、用户年龄、居住城市、有车评分、相关品类产品的购物行为等等。
在步骤S104中,根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重。
例如可以采集一年内所有用户各项特征的特征值,分析特征值的分布情况从而确定各项特征的客观权重。所有用户在某项特征上的特征值分布情况可以反映该项特征对于用户的区分程度的大小,对于用户区分程度越大,则该特征对于确定用户属性的影响程度越大。
在一些实施例中,所有用户在各项特征上特征值的分布情况可以包括:各项特征对于用户的覆盖度、各项特征针对不同用户的特征值的不确定性中至少一项。
特征对于用户的覆盖度可以反映用户是否都表现出该特征,表现出该特征的用户越多则该特征对于确定用户属性的影响程度越大。例如,一项特征对于用户的覆盖度可以根据预设时间内在该特征上特征值大于阈值的用户数和预设时间内的总用户数的比值确定的。特征对于用户的覆盖度可以根据以下公式计算。
acd(Xj)=nj/n (1)
公式(1)中,j为正整数,Xj表示第j项特征,acd(Xj)表示第j项特征对于用户的覆盖度,nj表示预设时间内在第j项特征上特征值大于阈值的用户数,n表示预设时间内的总用户数。
对于某些特征例如用户年龄、居住城市等属于确定的特征,每个用户都具备这些特征,这些确定的特征对于用户的覆盖度则不足够表示这些特征对用户属性的影响程度,可以针对这些特征预设对于用户的覆盖度。
特征针对不同用户的特征值的不确定性可以反映用户针对同一项特征的特征值的离散程度,用户针对同一项特征的特征值越分散,则该特征对于确定用户属性的影响程度越大。特征针对不同用户的特征值的不确定性可以用该特征对应的特征值的信息熵表示。特征对应的特征值的信息熵可以根据以下公式确定。
上述公式中,1≤i≤n,i为正整数,n表示用户总数,表示用户i在第j项特征的特征值,表示所有用户在第j项特征的特征值均值,表示所有用户在第j项特征的特征值的方差。假设用户在第j项特征上特征值的分布近似服从正态分布,则根据公式(3)可得到第j项特征对应的特征值的信息熵h(Xj)。
可以根据各项特征对于用户的覆盖度、各项特征针对不同用户的特征值的不确定性中任一项确定各项特征的客观权重,也可以结合各项特征对于用户的覆盖度、各项特征针对不同用户的特征值的不确定性两项指标确定各项特征的客观权重。例如,将一项特征对于用户的覆盖度和针对不同用户特征值的不确定度的乘积取对数值,作为该特征的客观权重。可以根据以下公式确定特征的客观权重。
X_objj=log(acd(Xj)*h(Xj)) (5)
公式(5)中,X_objj表示第j项特征的客观权重,acd(Xj)表示第j项特征的覆盖度,h(Xj)表示第j项特征对应的特征值的信息熵。
需要说明的是,客观权重的计算方法可以根据实际需求选择,即可以根据实际需求选取其他指标来反映特征对于用户在某种属性上的区分程度的大小,例如可以选取用户在特征上特征值的方差、标准差等反映特征针对不同用户的特征值的不确定性等。又例如,结合各项特征对于用户的覆盖度、各项特征针对不同用户的特征值的不确定性两项指标确定各项特征的客观权重时,可以将两项指标加权作为特征的客观权重。
在步骤S106中,根据用户在各项特征上的特征值和各项特征的客观权重,确定该用户是否具有该用户属性。
在一些实施例中,根据各项特征的客观权重对用户在各项特征上的特征值加权,得到该用户的用户属性值。例如,可以根据用户的消费能力、理财资产、用户年龄、居住城市、有车评分、相关品类产品的购物行为等特征的客观权重,对一个用户在这些特征上的特征值进行加权,得到用户的有房评分。进一步,根据该用户的用户属性值在所有用户的用户属性值中的排名,确定该用户是否具有该用户属性。例如,用户A的有房评分排名为前10%,预设排名在前20%的用户为有房用户,则用户A具备有房属性。
上述实施例的方法,首先获取影响用户属性确定的各项特征,采集用户在各项特征上实际表现的特征值数据,然后分析所有用户在各项特征上特征值的分布情况,从而确定各项特征的客观权重,最后根据用户在各项特征上的特征值和各项特征的客观权重,确定用户是否具有某项用户属性。上述实施例的方法通过用户实际行为数据确定各项特征对于用户属性的影响程度,提高了确定用户属性的准确性。
为进一步提高用户属性确定的准确性,本公开还提供另一些实施例,不仅根据特征的客观权重来确定用户属性,还结合特征的基础权重,基础权重主要反映特征和用户属性在业务上的相关程度。下面结合图2描述本公开数据挖掘方法的另一些实施例。
图2为本公开数据挖掘方法另一些实施例的流程图。如图2所示,该实施例的方法包括:步骤S202~S208。
在步骤S202中,获取影响用户属性确定的各项特征。
在步骤S204中,根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重。
在步骤S206中,根据各项特征的客观权重和基础权重,确定各项特征的综合权重。
特征的基础权重是根据特征和用户属性在业务上的相关程度确定的,可以是根据经验预先设置的。结合客观权重和基础权重共同确定综合权重可以进一步提高用户属性确定的准确性。这是因为某些特征虽然可能在对于用户的覆盖度、针对不同用户的特征值的不确定性上表现并不好,但是与用户属性的确定强相关,这些特征在确定用户属性时也不能被忽略。
在特征较多时,可以采用以下方法确定各项特征的基础权重:获取各项特征的重要度矩阵,其中,矩阵每一个元素表示该元素所在行对应的特征相对于该元素所在列对应的特征的重要度;在重要度矩阵一致性检验通过的情况下,将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。重要度矩阵例如根据表1得到。表1中第i行第j列的值为第1列第i行的特征相对于第1行第j列的特征的重要度。
表1
当特征较多时,对重要度矩阵进行一致性检验,是为了避免出现特征A比特征B重要,特征B比特征C重要,结果特征C比特征A重要的矛盾情况出现。可以采用以下方法检验重要度矩阵的一致性。
(1)计算重要度矩阵最大特征根λmax
(2)计算指标其中,n为重要度矩阵的维数。
(3)计算指标CR=C7/RI,其中,RI可以查表得到。
(4)判断CR<0.1是否成立,如果成立,则重要度矩阵的一致性检验通过,否则,调整重要度矩阵中的数值,从步骤(1)开始重新执行。
将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。
在一些实施例中,综合权重为基础权重与客观权重的加权。例如,可以根据以下公式计算综合权重。
wight=α*X_subj+ β*X_objj,α+β=1 (6)
公式(6)中,X_subj表示第j项特征的基础权重,X_objj表示第j项特征的客观权重,α、β分别为基础权重和客观权重对应的权值。
在步骤S208中,根据用户在各项特征上的特征值和各项特征的综合权重,确定该用户是否具有该用户属性。
在一些实施例中,根据各项特征的综合权重对用户在各项特征上的特征值加权,得到该用户的用户属性值。根据该用户的用户属性值在所有用户的用户属性值中的排名,确定该用户是否具有该用户属性。
上述实施例的方法,综合考虑用户在各项特征上实际表现的特征值的分布情况,以及根据经验确定的各项特征与用户属性的相关程度等多方面确定各项特征的综合权重,从而确定用户是否具有某项用户属性,进一步提高了确定用户属性的准确性。
为进一步提高用户属性确定的准确性,可以增加特征的数量,并细化特征的粒度。在一些实施例中,在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和客观权重确定;用户是否具有用户属性是根据该用户在最上层各项特征上表现的特征值和客观权重确定的。
在另一些实施例中,在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和综合权重确定;用户是否具有用户属性是根据该用户在最上层各项特征上表现的特征值和综合权重确定的。
下面结合图3描述本公开数据挖掘方法又一些实施例。
图3为本公开数据挖掘方法又一些实施例的流程图。如图3所示,该实施例的方法包括:步骤S302~S316。
在步骤S302中,在影响用户属性确定的各项特征具有从属关系的情况下,将各项特征划分为不同层次的特征。
例如,影响用户有房属性确定的特征可以包括:用户的消费能力、理财资产、用户年龄、居住城市、有车评分、相关品类产品的购物行为等等。其中,相关品类产品的购物行为又可以包括:保健类产品的购物行为、宠物类产品的购物行为、家装类产品的购物行为、儿童类产品的购物行为等。进一步,保健类产品的购物行为可以包括:保健类产品的购买次数、保健类产品的浏览次数、保健类产品的搜索次数等,其他类产品以此类推。可以根据实际需求选取不同层次的特征来确定用户属性。
在步骤S304中,选取最底层特征。
最底层特征即划分粒度最细的特征或纬度最低的特征,例如,保健类产品的购买次数、保健类产品的浏览次数等。
在步骤S306中,针对当前层特征,根据预设时间内所有用户在各项特征上特征值的分布,确定各项特征的客观权重。
有些特征对应的特征值可能包含一些噪声数据,比如家装类品类,某些账号一年内可能购买几百次,远超普通用户,可以对这些噪声数据进行处理,降低其偏离正常数据的程度。例如,可以对这些噪声数据取对数值。对于某些确定的特征,例如用户年龄、居住城市等,可以进行离散化处理,使其表意更加明确同时可以参与后续计算。例如将年龄分为18岁以下,18岁到50岁,50岁以上;城市分为一线城市,二线城市,其他。这样一个用户就会有3个年龄特征和3个城市地址特征。一个40岁的北京地区用户就可能对应于[0 1 0 1 0 0]。
在步骤S308中,根据各项特征的客观权重和基础权重,确定各项特征的综合权重。
在步骤S310中,判断当前层特征是否为最上层特征,如果是,则执行步骤S312,否则,执行步骤S314。
在步骤S312中,根据用户在各项特征上的特征值和各项特征的综合权重,确定该用户是否具有该用户属性。
在步骤S314中,根据用户在各项特征上的特征值和各项特征的综合权重,确定该用户在上一层对应的特征的特征值。
例如,将保健类产品的购买次数、保健类产品的浏览次数、保健类产品的搜索次数根据对应的综合权重进行加权,可以得到用户在保健类产品的购物行为这一特征上的特征值,以此类推。
各项特征对应的特征值很可能不是同一数量级,可以对特征值进行归一化后再进行加权。
在步骤S316中,将当前层特征对应的上一层特征更新为当前层特征,返回步骤S306重新执行。
需要说明的是,并不是每一项特征都具有对应的下层特征或子特征,例如,用户年龄和居住城市等。各种特征对应的层次数也不一定相同。例如,消费能力这一特征可以只对应一层下层特征,可以包括预设时间内的消费次数、预设时间内交易的商户种类数、最常消费城市等。住址稳定性这一特征对应的下层特征可以包括:地址使用的时长,活跃天数,最近一次使用距今时间,地址订单总数等。特征的选取和层次的划分都可以根据实际需求和实际要确定的用户属性来选取。上述循环过程同样可以应用在只根据特征的客观权重确定用户属性的方案中,在此不再赘述。
上述实施例的方法,选取多层次的特征,针对每一层特征采用类似的方法确定特征值以及客观权重或综合权重,进一步提高了确定每一层特征对应用户属性的影响程度的准确性,从而提高了用户属性确定的准确性。
下面以根据大数据分析用户是否有房这一属性为例,描述本公开的一个应用例。
(1)确定影响用户有房属性确定的各项特征。
特征包括:消费能力、理财资产、年龄、居住城市、有车评分、相关品类产品的购物行为、住址稳定性中至少一项。其中,消费能力对应的下层特征包括:预设时间内的消费次数、预设时间内交易的商户种类数、最常消费城市中至少一项。理财资产特征对应的下层特征包括:基金订单笔数,存款订单笔数、理财类消费频次中至少一项。有车评分特征对应的下层特征包括:汽车装饰类产品的购物行为、汽车服务类产品的购物行为、租车行为中至少一项。其中每一项下层特征又可以包括购买次数、浏览次数、搜索次数中至少一项下层特征。例如,汽车服务类产品的购物行为包括:汽车服务类产品的购买次数、汽车服务类产品的浏览次数、汽车服务类产品的搜索次数中至少一项。相关品类产品的购物行为以包括:保健类产品的购物行为、宠物类产品的购物行为、家装类产品的购物行为、儿童类产品的购物行为。其中每一项下层特征又可以包括购买次数、浏览次数、搜索次数中至少一项下层特征。住址稳定性对应的下层特征包括:地址使用的时长,活跃天数,最近一次使用距今时间,地址订单总数至少一项特征。
(2)将影响用户有房属性确定的各项特征根据从属关系划分为多个层次。
(3)根据经验确定每一层中各项特征的基础权重。
可以参考前述实施例,首先确定每一层中各项特征的重要度矩阵,检验重要度矩阵的一致性从而确定各项特征的基础权重。
(4)选取最底层特征。
最底层特征即汽车服务类产品的购买次数、汽车服务类产品的浏览次数、汽车服务类产品的搜索次数,以及同一层级的各种特征。步骤(3)和(4)-(5)没有先后顺序。
(5)针对当前层特征,根据预设时间内计算各项特征的对于用户的覆盖度和特征值的信息上,确定各项特征的客观权重。
对于年龄、居住城市这样特征,可以将特征值划分为不同的范围,并针对不同范围赋予虚拟值,从而使该特征的客观权重更有实际价值。例如,居住城市分为一线城市,二线城市,其他,分别赋予虚拟值1、2、3等。
(6)根据各项特征的客观权重和基础权重,确定各项特征的综合权重。
(7)判断当前层特征是否为最上层特征,如果是,则执行步骤(8),否则,执行步骤(9)。
最上层特征即消费能力、理财资产以及同一层次的各项特征。
(8)根据用户在各项特征上的特征值和各项特征的综合权重,确定该用户是否具有房。
例如,用户在各项特征上的特征值和各项特征的综合权重计算的有房评分为90分,预设80分为阈值,超过该阈值的用户有房概率非常大,则该用户被判断为有房。发明人经过实践证明,本公开的方法可以有效区分用户,避免大量用户集中到同一分数段,难以区分其属性的情况出现。
(9)根据用户在各项特征上的特征值和各项特征的综合权重,确定该用户在上一层对应的特征的特征值。
(10)将当前层特征对应的上一层特征更新为当前层特征,返回步骤(5)重新执行。
本公开还提供一种数据挖掘装置,下面结合图4进行描述。
图4为本公开数据挖掘装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:特征获取模块410,权重确定模块420,属性确定模块430。
特征获取模块410,用于获取影响用户属性确定的各项特征。
权重确定模块420,用于根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重。
在一些实施例中,权重确定模块420用于根据各项特征对于用户的覆盖度和各项特征针对不同用户特征值的不确定度中至少一项,确定各项特征的客观权重;其中,一项特征对于用户的覆盖度越高,该特征的客观权重越大,一项特征针对不同用户特征值的不确定性越大,该特征的客观权重越大。
进一步,在一些实施例中,一项特征对于用户的覆盖度是根据预设时间内在该特征上特征值大于阈值的用户数和预设时间内的总用户数的比值确定的。将一项特征对应的特征值的信息熵,作为该特征针对不同用户特征值的不确定度。
进一步,在一些实施例中,将一项特征对于用户的覆盖度和针对不同用户特征值的不确定度的乘积取对数值,作为该特征的客观权重。
在一些实施例中,在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和客观权重确定;用户是否具有用户属性是根据该用户在最上层各项特征上表现的特征值和客观权重确定的。
属性确定模块430,用于根据用户在各项特征上的特征值和各项特征的客观权重,确定用户是否具有用户属性。
在一些实施例中,权重确定模块420还用于根据各项特征的客观权重和基础权重,确定各项特征的综合权重。相应的,属性确定模块430还用于根据用户在各项特征上的特征值和各项特征的综合权重,确定用户是否具有用户属性。
进一步,在一些实施例中,权重确定模块420还用于获取各项特征的重要度矩阵,其中,矩阵每一个元素表示该元素所在行对应的特征相对于该元素所在列对应的特征的重要度,在重要度矩阵一致性检验通过的情况下,将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。
进一步,在一些实施例中,综合权重为基础权重与客观权重的加权。
在一些实施例中,在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和综合权重确定;用户是否具有用户属性是根据该用户在最上层各项特征上表现的特征值和综合权重确定的。
本公开的实施例中的数据挖掘装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开数据挖掘装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的数据挖掘方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开数据挖掘装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (20)

1.一种数据挖掘方法,包括:
获取影响用户属性确定的各项特征;
根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重;
根据用户在各项特征上的特征值和各项特征的客观权重,确定所述用户是否具有所述用户属性。
2.根据权利要求1所述的数据挖掘方法,其中,所述确定各项特征的客观权重包括:
根据各项特征对于用户的覆盖度和各项特征针对不同用户特征值的不确定度中至少一项,确定各项特征的客观权重;
其中,一项特征对于用户的覆盖度越高,该特征的客观权重越大,一项特征针对不同用户特征值的不确定性越大,该特征的客观权重越大。
3.根据权利要求2所述的数据挖掘方法,其中,
一项特征对于用户的覆盖度是根据预设时间内在该特征上特征值大于阈值的用户数和预设时间内的总用户数的比值确定的。
4.根据权利要求2所述的数据挖掘方法,其中,
将一项特征对应的特征值的信息熵,作为该特征针对不同用户特征值的不确定度。
5.根据权利要求2所述的数据挖掘方法,其中,
将一项特征对于用户的覆盖度和针对不同用户特征值的不确定度的乘积取对数值,作为该特征的客观权重。
6.根据权利要求1-5任一项所述的数据挖掘方法,其中,所述根据用户在各项特征上的特征值和各项特征的客观权重,确定所述用户是否具有所述用户属性包括:
根据各项特征的客观权重和基础权重,确定各项特征的综合权重;
根据用户在各项特征上的特征值和各项特征的综合权重,确定所述用户是否具有所述用户属性。
7.根据权利要求6所述的数据挖掘方法,其中,
各项特征的基础权重采用以下方法确定:
获取各项特征的重要度矩阵,其中,矩阵每一个元素表示该元素所在行对应的特征相对于该元素所在列对应的特征的重要度;
在所述重要度矩阵一致性检验通过的情况下,将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。
8.根据权利要求6任一项所述的数据挖掘方法,其中,
在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;
除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和综合权重确定;
用户是否具有所述用户属性是根据该用户在最上层各项特征上表现的特征值和综合权重确定的。
9.根据权利要求6任一项所述的数据挖掘方法,其中,
所述综合权重为所述基础权重与所述客观权重的加权。
10.一种数据挖掘装置,包括:
特征获取模块,用于获取影响用户属性确定的各项特征;
权重确定模块,用于根据预设时间内所有用户在各项特征上特征值的分布情况,确定各项特征的客观权重;
属性确定模块,用于根据用户在各项特征上的特征值和各项特征的客观权重,确定所述用户是否具有所述用户属性。
11.根据权利要求10所述的数据挖掘装置,其中,
所述权重确定模块用于根据各项特征对于用户的覆盖度和各项特征针对不同用户特征值的不确定度中至少一项,确定各项特征的客观权重;
其中,一项特征对于用户的覆盖度越高,该特征的客观权重越大,一项特征针对不同用户特征值的不确定性越大,该特征的客观权重越大。
12.根据权利要求11所述的数据挖掘装置,其中,
一项特征对于用户的覆盖度是根据预设时间内在该特征上特征值大于阈值的用户数和预设时间内的总用户数的比值确定的。
13.根据权利要求11所述的数据挖掘装置,其中,
将一项特征对应的特征值的信息熵,作为该特征针对不同用户特征值的不确定度。
14.根据权利要求11所述的数据挖掘装置,其中,
将一项特征对于用户的覆盖度和针对不同用户特征值的不确定度的乘积取对数值,作为该特征的客观权重。
15.根据权利要求10-14任一项所述的数据挖掘装置,其中,
所述权重确定模块还用于根据各项特征的客观权重和基础权重,确定各项特征的综合权重;
所述属性确定模块还用于根据用户在各项特征上的特征值和各项特征的综合权重,确定所述用户是否具有所述用户属性。
16.根据权利要求15所述的数据挖掘装置,其中,
所述权重确定模块还用于获取各项特征的重要度矩阵,其中,矩阵每一个元素表示该元素所在行对应的特征相对于该元素所在列对应的特征的重要度,在所述重要度矩阵一致性检验通过的情况下,将一致性检验通过的特征根对应的特征向量的每个维度的值作为对应的特征的基础权重。
17.根据权利要求15所述的数据挖掘装置,其中,
在影响用户属性确定的各项特征具有从属关系的情况下,各项特征被划分为不同层次的特征;
除最底层以外其他层中,用户在一项特征上表现的特征值根据该用户在与该特征对应的下一层中各个特征上表现的特征值和综合权重确定;
用户是否具有所述用户属性是根据该用户在最上层各项特征上表现的特征值和综合权重确定的。
18.根据权利要求15所述的数据挖掘装置,其中,
所述综合权重为所述基础权重与所述客观权重的加权。
19.一种数据挖掘装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求1-9任一项所述的数据挖掘方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
CN201810434453.3A 2018-05-09 2018-05-09 数据挖掘方法、装置以及计算机可读存储介质 Pending CN108629023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810434453.3A CN108629023A (zh) 2018-05-09 2018-05-09 数据挖掘方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810434453.3A CN108629023A (zh) 2018-05-09 2018-05-09 数据挖掘方法、装置以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108629023A true CN108629023A (zh) 2018-10-09

Family

ID=63695890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810434453.3A Pending CN108629023A (zh) 2018-05-09 2018-05-09 数据挖掘方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108629023A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446235A (zh) * 2018-10-18 2019-03-08 哈尔滨工业大学(深圳) 多维高效用序列模式处理方法、装置和计算机设备
CN112148822A (zh) * 2020-08-28 2020-12-29 中国地质大学(武汉) 一种细粒度属性加权方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2386218A (en) * 2002-03-06 2003-09-10 Fujitsu Ltd Apparatus and method for evaluating web pages
CN101540018A (zh) * 2009-01-23 2009-09-23 浙江师范大学 一种企业信息技术应用程度评价方法及系统
CN102902882A (zh) * 2012-09-14 2013-01-30 安徽南瑞继远软件有限公司 一种信息系统运行质量的评价方法
CN106326473A (zh) * 2016-08-31 2017-01-11 国信优易数据有限公司 基于熵权算法与层次分析法的数据挖掘方法与系统
CN106407455A (zh) * 2016-09-30 2017-02-15 深圳市华傲数据技术有限公司 基于图数据挖掘的数据处理方法及装置
CN106407305A (zh) * 2016-08-30 2017-02-15 国信优易数据有限公司 一种数据挖掘系统和方法
CN106650763A (zh) * 2016-07-05 2017-05-10 国网内蒙古东部电力有限公司电力科学研究院 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法
CN107563680A (zh) * 2017-10-20 2018-01-09 广东电网有限责任公司电力科学研究院 一种基于ahp和熵权法的配电网可靠性评估方法
CN107633050A (zh) * 2017-09-18 2018-01-26 安徽蓝杰鑫信息科技有限公司 一种基于大数据分析用电行为判定窃电概率的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2386218A (en) * 2002-03-06 2003-09-10 Fujitsu Ltd Apparatus and method for evaluating web pages
CN101540018A (zh) * 2009-01-23 2009-09-23 浙江师范大学 一种企业信息技术应用程度评价方法及系统
CN102902882A (zh) * 2012-09-14 2013-01-30 安徽南瑞继远软件有限公司 一种信息系统运行质量的评价方法
CN106650763A (zh) * 2016-07-05 2017-05-10 国网内蒙古东部电力有限公司电力科学研究院 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法
CN106407305A (zh) * 2016-08-30 2017-02-15 国信优易数据有限公司 一种数据挖掘系统和方法
CN106326473A (zh) * 2016-08-31 2017-01-11 国信优易数据有限公司 基于熵权算法与层次分析法的数据挖掘方法与系统
CN106407455A (zh) * 2016-09-30 2017-02-15 深圳市华傲数据技术有限公司 基于图数据挖掘的数据处理方法及装置
CN107633050A (zh) * 2017-09-18 2018-01-26 安徽蓝杰鑫信息科技有限公司 一种基于大数据分析用电行为判定窃电概率的方法
CN107563680A (zh) * 2017-10-20 2018-01-09 广东电网有限责任公司电力科学研究院 一种基于ahp和熵权法的配电网可靠性评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何伟: "《国有企业财务管理中的监督管理研究》", 31 December 2017, 经济日报出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446235A (zh) * 2018-10-18 2019-03-08 哈尔滨工业大学(深圳) 多维高效用序列模式处理方法、装置和计算机设备
CN112148822A (zh) * 2020-08-28 2020-12-29 中国地质大学(武汉) 一种细粒度属性加权方法及系统
CN112148822B (zh) * 2020-08-28 2024-04-19 中国地质大学(武汉) 一种细粒度属性加权方法及系统

Similar Documents

Publication Publication Date Title
US20150302442A1 (en) System and method for visually building a market simulation
CN104798043B (zh) 一种数据处理方法和计算机系统
EP2858014A2 (en) User interfaces relating to performance
CN103927615B (zh) 将实体与类别相关联
US8768866B2 (en) Computer-implemented systems and methods for forecasting and estimation using grid regression
US20020032645A1 (en) System and method for score calculation
US11727420B2 (en) Time series clustering analysis for forecasting demand
CN106156791A (zh) 业务数据分类方法和装置
CN103678457A (zh) 基于初始数据可视化确定替代性数据可视化的方法和系统
CN110706096A (zh) 基于捞回用户管理授信额度的方法、装置和电子设备
CN110659985A (zh) 一种捞回误拒潜在用户的方法、装置和电子设备
CN107886300A (zh) 看板卡片管理方法、装置、计算机设备和存储介质
CN107292666A (zh) 销售潜力判断方法及装置
CN109858934A (zh) 定价方法、装置和计算机可读存储介质
CN110349013A (zh) 风险控制方法及装置
CN108694626A (zh) 客户档案建立方法及装置
CN112053097A (zh) 一种贷款催收方法、装置、电子设备及存储介质
CN108629023A (zh) 数据挖掘方法、装置以及计算机可读存储介质
CN112232944A (zh) 一种评分卡创建方法、装置和电子设备
US9251113B1 (en) System for enabling participants to discuss, debate, connect and compare media and information
Giovannetti et al. The “China effect” on EU exports to OECD markets: A focus on Italy
CN110175883A (zh) 一种排序方法、装置、电子设备和非易失性存储介质
CN115827994A (zh) 一种数据处理方法、装置、设备、存储介质
CN111984637B (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质
Kołodziej et al. Control sharing analysis and simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100176 Beijing Daxing District Beijing Economic Development Zone, Chuang Chuang eleven Street 18 hospital C block 2 floor, 221 rooms.

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: 100176 Beijing Daxing District Beijing Economic Development Zone, Chuang Chuang eleven Street 18 hospital C block 2 floor, 221 rooms.

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2nd floor, C Block, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, C Block, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2nd floor, C Block, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, C Block, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20181009

RJ01 Rejection of invention patent application after publication