CN103136247A - 属性数据区间划分方法及装置 - Google Patents
属性数据区间划分方法及装置 Download PDFInfo
- Publication number
- CN103136247A CN103136247A CN2011103877736A CN201110387773A CN103136247A CN 103136247 A CN103136247 A CN 103136247A CN 2011103877736 A CN2011103877736 A CN 2011103877736A CN 201110387773 A CN201110387773 A CN 201110387773A CN 103136247 A CN103136247 A CN 103136247A
- Authority
- CN
- China
- Prior art keywords
- attribute data
- interval
- user property
- initial
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种属性数据区间划分方法及装置,该方法包括步骤:抽取若干已分类会员的用户属性的属性数据;针对会员的每个用户属性,分别执行:根据抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间;针对该用户属性的属性数据缺失的已分类会员,将该属性数据设置为预设的缺失值;将缺失值分别并入确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的最大后验概率MAP贝叶斯评估值;将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。本申请技术方案解决了现有技术中划分属性数据区间的准确性较低的问题。
Description
技术领域
本申请涉及会员分类处理技术领域,尤其涉及一种属性数据区间划分方法及装置。
背景技术
现有技术中,网站一般会根据用户是否在网站中注册,而将用户区分为会员和非会员。会员在网站中进行注册时,网站会要求会员填写一些用户属性,例如年龄、注册日期、性别、所在地、注册来源、所属行业等,网站将会员针对各用户属性填写的属性数据与该会员在该网站中的会员标识对应保存在数据库中,通常以一条记录来保存一个会员的各项用户属性的属性数据,如表一所示。
表一
会员标识 | 年龄 | 注册日期 | 性别 | 所在地 |
会员A | 29 | 2011年11月17日 | 女 | 北京 |
会员B | 36 | 2010年5月1日 | 男 | 上海 |
会员C | 19 | 2009年3月5日 | 女 | 天津 |
在表一中,每一行表示一条记录,每条记录的一个字段保存会员针对一项用户属性所填写的属性数据,例如每条记录的“年龄”字段保存会员针对“年龄”这一用户属性所填写的属性数据。
由于各会员针对用户属性所填写的属性数据通常会存在很大的差异,网站会根据用户属性的属性数据来对会员进行分类,一般分为两类,一类为主类别,一类为次类别,例如,可以将会员分为活跃会员和非活跃会员,其中活跃会员为主类别,非活跃会员为次类别。后续可以根据会员的类别提供相应的服务。
现有技术在对会员进行分类时,预先在线下针对大量已分类的会员的属性数据进行训练,得到每个用户属性对应的多个属性数据区间,例如,“年龄”这一用户属性对应的属性数据区间可以为下述三个:[10,20],(20,40],(40,60],“所在地”这一用户属性对应的属性数据区间可以为下述四个:{北京、上海、天津、重庆},{河北、河南、山西},{福建、江西、浙江},{安徽、甘肃、山东},“注册日期”这一用户属性对应的属性数据区间可以为下述三个:[2001年1月1日,2005年12月31日],(2006年1月1日,2010年12月31日],(2011年1月1日,2015年12月31日]。得到每个用户属性对应的多个属性数据区间之后,针对每个用户属性,为该用户属性对应的每个属性数据区间分别赋予一个布尔特征,每个布尔特征具有唯一的特征标识。
后续在线上实时对待分类会员进行分类时,先针对该待分类会员的每个用户属性,分别在该用户属性对应的多个属性数据区间中,确定该待分类会员的该用户属性的属性数据所属的属性数据区间,将确定出的该属性数据区间对应的布尔特征取值为1,并保存取值为1的该布尔特征的特征标识,针对各用户属性,分别提取出对应的布尔特征的特征标识之后,根据各布尔特征对应的权重值,计算将该待分类会员划分为主类别的概率,若概率大于50%,则将该待分类会员划分为主类别,若概率不大于50%,则将该待分类会员划分为次类别。
如图1所示,其为现有技术确定用户属性对应的属性数据区间的方法流程示意图,具体处理流程如下:
步骤11,抽取大量已分类的会员的属性数据作为训练数据;
步骤12,针对每个用户属性,将该用户属性的每个属性数据分别作为一个单独的属性数据区间;
步骤13,根据最大后验概率(MAP,Maximum a Posteriori Probability)贝叶斯评估准则,计算按照步骤12的划分方式进行属性数据区间划分的评估值;
步骤14,将相邻区间进行合并,得到各属性数据区间,并计算按照此划分方式进行属性数据区间划分的评估值;
步骤15,若步骤13得到的评估值小于步骤14得到的评估值,则将步骤12得到各属性数据区间确定为该用户属性最终对应的属性数据区间;
步骤16,若步骤13得到的评估值大于或等于步骤14得到的评估值,则保留步骤14得到的各属性数据区间,继续将相邻区间进行合并,直至得到评估值最小的划分方式,并将按照该划分方式得到的各属性数据区间确定为该用户属性最终对应的属性数据区间。
由上述处理过程可知,现有技术根据抽取的训练数据中,用户属性的各属性数据来划分该用户属性的属性数据区间,后续可以直接在各属性数据区间中,确定待分类会员的该用户属性的属性数据所属的属性数据区间,但是会员在网站中进行注册时,可能没有填写某些用户属性的属性数据,那么该会员的该用户属性的属性数据就会缺失,例如,某会员在注册时未填写“年龄”这一用户属性的属性数据,则网站保存的该会员的记录中就缺失“年龄”这一用户属性的属性数据,那么后续在对该会员进行分类时,就无法准确的确定该会员的该用户属性的属性数据是属于哪个属性数据区间的,也就无法准确的对该会员进行分类,因此现有技术划分属性数据区间的准确性较低。
发明内容
本申请实施例提供一种属性数据区间划分方法及装置,用以解决现有技术中划分属性数据区间的准确性较低的问题。
本申请实施例技术方案如下:
一种属性数据区间划分方法,该方法包括:抽取若干已分类会员的用户属性的属性数据;针对会员的每个用户属性,分别执行:根据抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间;针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;将所述缺失值分别并入确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的MAP贝叶斯评估值;将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
一种属性数据区间划分装置,包括:属性数据抽取单元,用于抽取若干已分类会员的用户属性的属性数据;第一初始属性数据区间确定单元,用于针对会员的每个用户属性,根据属性数据抽取单元抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间;缺失值设置单元,用于针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;第一评估值计算单元,用于将所述缺失值分别并入第一初始属性数据区间确定单元确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的最大后验概率MAP贝叶斯评估值;第一最终属性数据区间确定单元,用于将第一评估值计算单元计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
本申请实施例技术方案中,网站抽取若干已分类会员的用户属性的属性数据,在针对会员的每个用户属性,确定出该用户属性对应的各初始属性数据区间后,还要针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值,并将所述缺失值分别并入确定出的各初始属性数据区间中,通过计算并入每个初始属性数据区间后的MAP贝叶斯评估值,将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。由上可见,本申请实施例技术方案中,由于在划分属性数据区间时考虑到了可能存在的已分类会员的用户属性的属性数据缺失的情况,因此提高了划分属性数据区间的准确性,有效避免了当会员的属性数据缺失时,无法准确的对该会员进行分类的问题,进而提高了会员分类的准确性。
附图说明
图1为现有技术中,确定用户属性对应的属性数据区间的方法流程示意图;
图2为本申请实施例一中,属性数据区间划分方法流程示意图;
图3为本申请实施例二中,线上对待分类会员进行会员分类的方法流程示意图;
图4为本申请实施例三中,属性数据区间划分的优选方法流程示意图;
图5为本申请实施例四中,线上对待分类会员进行会员分类的方法流程示意图;
图6为本申请实施例五中,属性数据区间划分装置结构示意图。
具体实施方式
下面结合各个附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
实施例一
如图2所示,其为本申请实施例一中属性数据区间划分方法流程示意图,具体处理过程如下:
步骤21,抽取若干已分类会员的用户属性的属性数据。
在线下划分属性数据区间时,要抽取已分类会员的用户属性的属性数据作为训练数据,对这些训练数据进行训练学习,以得到各属性数据区间。
其中,已分类会员的用户属性的属性数据可以预先保存在数据库中,通常以一条记录来保存一个会员的各项用户属性的属性数据,用户属性可以但不限于包括:年龄、注册日期、性别、所在地、注册来源、所属行业等。
抽取属性数据的方式可以但不限于采取从数据库保存的已分类会员的记录中随机抽取预定数目条记录的方式。
上述预定数目可以预先设置,设置预定数目时应考虑设备内存大小,在保证内存的情况下,使预定数目尽可能大,例如,设备内存为M兆,属性数据的每个字段的长度为4个字节,则上述预定数目应满足下述条件:
为了确保抽取的属性数据具有统计意义,在抽取属性数据时还要保证针对每种会员类别抽取出的记录数大于预设的规定记录数,例如,会员类别分为两类,主类别和次类别,预先设定的规定记录数为100,则针对主类别和次类别分别抽取出的记录数均要大于100。
步骤22,针对会员的每个用户属性,根据抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间。
确定用户属性对应的各初始属性数据区间可以采用现有技术提供的方法,通过计算MAP贝叶斯评估值的方式,来确定该用户属性对应的各初始属性数据区间。
其中,当划分出的属性数据区间为a1,a2,...aI时的MAP贝叶斯评估值可以通过下述方式确定:
其中n为抽取的训练数据记录数(包含针对主类别抽取出的记录数和针对次类别抽取出的记录数),为二项式系数,例如,I为划分的属性数据区间的数目,ni为属性数据区间ai(1≤i≤I)中的记录数,c为会员类别数(当会员类别为主类别和次类别时,c为2),ni,j为属性数据区间ai中类别为j的会员的数目。
确定用户属性对应的各初始属性数据区间时,先将该用户属性的属性数据中的每个取值都作为不同的属性数据区间,之后不断地合并相邻区间,将MAP贝叶斯评估值最小时的各属性数据区间作为初始属性数据区间。具体的:
步骤一,将该用户属性的每个属性数据分别作为一个单独的属性数据区间;
步骤二,根据MAP贝叶斯评估准则,计算按照步骤一的划分方式进行属性数据区间划分的MAP贝叶斯评估值;
步骤三,将相邻区间进行合并,得到各属性数据区间,并计算按照此划分方式进行属性数据区间划分的MAP贝叶斯评估值;
步骤四,若步骤二得到的MAP贝叶斯评估值小于步骤三得到的MAP贝叶斯评估值,则将步骤一得到各属性数据区间确定为该用户属性最终对应的属性数据区间;
步骤五,若步骤二得到的MAP贝叶斯评估值大于或等于步骤三得到的MAP贝叶斯评估值,则保留步骤三得到的各属性数据区间,继续将相邻区间进行合并,直至得到MAP贝叶斯评估值最小的划分方式,并将按照该划分方式得到的各属性数据区间确定为该用户属性最终对应的属性数据区间。
本申请实施例一中,在确定用户属性对应的各初始属性数据区间时,可以先将抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值,然后再根据转换后的各编码值以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间。
由于用户属性的属性数据通常有三种类型:数值类型、日期类型、集合类型,例如,用户属性“年龄”的属性数据为数值类型的属性数据,用户属性“注册日期”的属性数据为日期类型的属性数据,用户属性“所在城市”、“性别”的属性数据为集合类型的属性数据。下面对三种类型的属性数据对应的编码方式分别进行介绍。
数值类型的属性数据对应的编码方式:若用户属性的属性数据为数值类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的值作为对应的编码值,例如,用户属性“年龄”的属性数据为20,则对应的编码值也为20。
日期类型的属性数据对应的编码方式:若用户属性的属性数据为日期类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的日期与当前日期之间的时间长度,作为该属性数据对应的编码值,可以将该属性数据的日期与当前日期之间的天数,作为该属性数据对应的编码值,例如,当前日期为2011年11月18日,则属性数据2011年11月1日对应的编码值为17。
集合类型的属性数据对应的编码方式:若用户属性的属性数据为集合类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,计算该属性数据属于主类别的比率值,然后按照比率值由小到大的顺序,将该用户属性的各属性数据进行排序,再针对抽取出的属性数据中该用户属性的每个属性数据,分别将排序后的序号作为该属性数据对应的编码值,例如,各属性数据的比率值排序序号及对应的编码值如表二所示。
表二:
由于本申请实施例一在划分针对属性数据区间时,若用户属性的属性数据为集合类型的属性数据,则先对属性数据进行编码,然后针对编码后的属性数据采用与数值类型的属性数据相同的划分方式进行属性数据区间的划分,从而有效避免了现有技术中对集合类型的属性数据进行属性数据区间划分时,计算MAP贝叶斯评估值过程中存在超过计算机最大浮点数,导致属性数据区间划分不准确,进而导致对会员分类不准确的问题,因此有效地提高了划分属性数据区间的准确性以及会员分类的准确性。
步骤23,针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值。
其中,可以但不限于将缺失值设置为负整数,例如设置为-5。
步骤24,将所述缺失值分别并入确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的MAP贝叶斯评估值。
例如,初始属性数据区间有三个,分别为a1、a2、a3,将缺失值并入初始属性数据区间a1后的MAP贝叶斯评估值为MAP贝叶斯评估值一,将缺失值并入初始属性数据区间a2后的MAP贝叶斯评估值为MAP贝叶斯评估值二,将缺失值并入初始属性数据区间a3后的MAP贝叶斯评估值为MAP贝叶斯评估值三。如表三所示。
表三:
并入缺失值后的各属性数据区间 | MAP贝叶斯评估值 |
a1+缺失值、a2、a3 | MAP贝叶斯评估值一 |
a1、a2+缺失值、a3 | MAP贝叶斯评估值二 |
a1、a2、a3+缺失值 | MAP贝叶斯评估值三 |
步骤25,将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
如表三所示,若MAP贝叶斯评估值二最小,则将并入缺失值后的各属性数据区间a1、a2+缺失值、a3,确定为该用户属性最终对应的各属性数据区间。
在将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间之前,还可以包括下述过程:
判断该用户属性的属性数据缺失的已分类会员的数量是否小于第一规定阈值,若判断结果为小于第一规定阈值,则执行所述将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间的操作,若判断结果为不小于第一规定阈值,则将所述缺失值作为一个单独的属性数据区间,并计算此时的MAP贝叶斯评估值,然后判断此时的MAP贝叶斯评估值是否均小于将所述缺失值并入每个初始属性数据区间后的MAP贝叶斯评估值,若判断结果为均小于,则将确定出的各初始属性数据区间以及所述单独的属性数据区间,确定为该用户属性最终对应的各属性数据区间,若判断结果不为均小于,则执行所述将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间的操作。
本申请实施例技术方案中,网站抽取若干已分类会员的用户属性的属性数据,在针对会员的每个用户属性,确定出该用户属性对应的各初始属性数据区间后,还要针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值,并将所述缺失值分别并入确定出的各初始属性数据区间中,通过计算并入每个初始属性数据区间后的MAP贝叶斯评估值,将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。由上可见,本申请实施例技术方案中,由于在划分属性数据区间时考虑到了可能存在的已分类会员的用户属性的属性数据缺失的情况,因此提高了划分属性数据区间的准确性,有效避免了当会员的属性数据缺失时,无法准确的对该会员进行分类的问题,进而提高了会员分类的准确性。
实施例二
与本申请实施例一提出的属性数据区间划分方法对应,下面介绍确定待分类会员的会员类别的线上处理过程。
如图3所示,其为本申请实施例二中线上对待分类会员进行会员分类的方法流程示意图,具体处理过程如下:
步骤31,在待分类会员的各用户属性的属性数据中,将缺失的属性数据设置为预设的缺失值。
其中,预设的缺失值要与划分属性数据区间时预设的缺失值相同。
步骤32,针对待分类会员的每个用户属性,在该用户属性对应的多个属性数据区间中,确定该待分类会员的该用户属性的属性数据所属的属性数据区间。
若线下确定用户属性对应的各初始属性数据区间时,是先将抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值,然后确定该用户属性对应的各初始属性数据区间,则在步骤32之前,要针对待分类会员的每个用户属性,分别将该用户属性的属性数据替换为该属性数据对应的编码值。
步骤33,将确定出的该属性数据区间对应的布尔特征取值为1,并保存取值为1的该布尔特征的特征标识。
其中,可以将线下划分出的每个属性数据区间分配一个布尔特征。
步骤34,针对各用户属性,分别提取出对应的布尔特征为1的特征标识之后,根据各布尔特征对应的权重值,计算将该待分类会员划分为主类别的概率。
步骤35,根据步骤34计算出的该待分类会员划分为主类别的概率,确定该待分类会员所归属的会员类别。
例如,若概率大于50%,则将该待分类会员划分为主类别,若概率不大于50%,则将该待分类会员划分为次类别。
实施例三
按照本申请实施例一提出的方法划分属性数据区间时,若划分出的属性数据区间中包含的记录数过少,则会使得划分出的属性数据区间不具备统计意义,则按照划分出的属性数据区间进行会员分类时,就是使得分类的准确性较低。对此,本申请实施例三提出一种更佳地划分属性数据区间的实施方式。
如图4所示,其为本申请实施例三中属性数据区间划分方法流程示意图,具体处理过程如下:
步骤41,抽取若干已分类会员的用户属性的属性数据。
步骤42,针对会员的每个用户属性,根据抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间。
其中,本申请实施例三中的步骤41和步骤42的实施流程分别和本申请实施例一中的步骤21和步骤22的实施流程一致,这里不再赘述。
步骤43,针对确定出的该用户属性对应的每个初始属性数据区间,分别判断该用户属性的属性数据落入该初始属性数据区间内的已分类会员的数量是否大于第二规定阈值,若针对各初始属性数据区间的判断结果均为是,则转至步骤46,若针对至少一个初始属性数据区间的判断结果为否,则转至步骤44。
其中,第二规定阈值可以预先设定,可以基于划分出的初始属性数据区间是否具备统计意义来设定,例如,可以但不限于设定为30。
步骤44,针对每个判断结果为否的初始属性数据区间,分别执行:计算将该初始属性数据区间与前一个初始属性数据区间合并后的MAP贝叶斯评估值,以及将该初始属性数据区间与后一个初始属性数据区间合并后的MAP贝叶斯评估值。
步骤45,将MAP贝叶斯评估值较小的、合并后的各属性数据区间,作为该用户属性对应的各初始属性数据区间。
经过步骤45所确定的该用户属性对应的各初始属性数据区间一定满足下述条件:该用户属性的属性数据落入该初始属性数据区间内的已分类会员的数大于第二规定阈值。
步骤46,针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值。
步骤47,将所述缺失值分别并入确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的最大后验概率MAP贝叶斯评估值。
步骤48,将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
其中,本申请实施例三中的步骤46至步骤48的实施流程分别和本申请实施例一中的步骤23至步骤25的实施流程一致,这里不再赘述。
由上述处理过程可知,本申请实施例三技术方案中,不仅考虑到了用户属性的属性数据存在缺失的情况,而且在确定出该用户属性对应的各初始属性数据区间后,不是直接将各初始属性数据区间作为该用户属性对应的各属性数据区间,而是针对确定出的该用户属性对应的每个初始属性数据区间,分别判断该用户属性的属性数据落入该初始属性数据区间内的已分类会员的数量是否大于第二规定阈值,若针对至少一个初始属性数据区间的判断结果为否,则针对每个判断结果为否的初始属性数据区间,分别执行:计算将该初始属性数据区间与前一个初始属性数据区间合并后的MAP贝叶斯评估值,以及将该初始属性数据区间与后一个初始属性数据区间合并后的MAP贝叶斯评估值;将MAP贝叶斯评估值较小的、合并后的各属性数据区间,作为该用户属性对应的各初始属性数据区间,在此基础上再针对用户属性的属性数据缺失的情况,进一步确定该用户属性最终对应的各属性数据区间。由上可见,本申请实施例三技术方案中,在确定用户属性对应的各初始属性数据区间时,针对用户属性的属性数据落入各初始属性数据区间内的已分类会员的数量小于第二规定阈值的情况,进行了属性数据区间合并,使得确定出的各初始属性数据区间内的已分类会员的数量均大于第二规定阈值,因此划分出的各属性数据区间具备统计意义,提高了划分属性数据区间的准确性,进而提高了会员分类的准确性。
实施例四
若待分类会员的用户属性的属性数据存在缺失的情况,但是训练数据中各已分类会员的用户属性的属性数据不存在缺失的情况,这样就会导致根据上述训练数据所划分出的各属性数据区间中不包含缺失值,那么就无法确定待分类会员的该用户属性的属性数据所属的属性数据区间,从而无法准确地确定该待分类会员的会员类别。对此,本申请实施例四提出一种线上对待分类会员进行会员分类的方法,如图5所示,具体处理流程如下:
步骤51,针对待分类会员的每个用户属性,若该待分类会员的该用户属性的属性数据缺失,则判断预先划分出的该用户属性的各属性数据区间中是否存在包含预设的缺失值的属性数据区间;
若判断结果为是,则按照本申请实施例二的方法对待分类会员进行会员分类。
步骤52,若步骤51的判断结果为否,则获取各属性数据区间对应的主类别所占的比率。
其中,各属性数据区间对应的主类别所占的比率可以为在线下划分各属性区间时确定,在确定出最终的属性数据区间后,还要计算每个属性数据区间中主类别所占的比率,并将各属性数据区间与主类别所占的比率对应存储。
步骤53,将主类别所占的比率最小的属性数据区间确定为该待分类会员的该用户属性的属性数据所归属的属性数据区间。
步骤54,将确定出的该属性数据区间对应的布尔特征取值为1,并保存取值为1的该布尔特征的特征标识。
其中,可以将线下划分出的每个属性数据区间分配一个布尔特征。
步骤55,针对各用户属性,分别提取出对应的布尔特征为1的特征标识之后,根据各布尔特征对应的权重值,计算将该待分类会员划分为主类别的概率。
步骤56,根据步骤55计算出的该待分类会员划分为主类别的概率,确定该待分类会员所归属的会员类别。
实施例五
相应的,本申请实施例五提供一种属性数据区间划分装置,其结构如图6所示,包括属性数据抽取单元61、第一初始属性数据区间确定单元62、缺失值设置单元63、第一评估值计算单元64和第一最终属性数据区间确定单元65,其中:
属性数据抽取单元61,用于抽取若干已分类会员的用户属性的属性数据;
第一初始属性数据区间确定单元62,用于针对会员的每个用户属性,根据属性数据抽取单元61抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间;
缺失值设置单元63,用于针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;
第一评估值计算单元64,用于将所述缺失值分别并入第一初始属性数据区间确定单元62确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的最大后验概率MAP贝叶斯评估值;
第一最终属性数据区间确定单元65,用于将第一评估值计算单元64计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
较佳地,还包括第一数量判断单元,用于在第一最终属性数据区间确定单元65将第一评估值计算单元64计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间之前,判断该用户属性的属性数据缺失的已分类会员的数量是否小于第一规定阈值;
第一最终属性数据区间确定单元65,具体用于在第一数量判断单元的判断结果为小于第一规定阈值时,将第一评估值计算单元64计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
更佳地,还包括第二评估值计算单元、评估值判断单元和第二最终属性数据区间确定单元,其中:
第二评估值计算单元,用于在第一数量判断单元的判断结果为不小于第一规定阈值时,将所述缺失值作为一个单独的属性数据区间,并计算此时的MAP贝叶斯评估值;
评估值判断单元,用于判断第二评估值计算单元计算出的MAP贝叶斯评估值是否均小于第一评估值计算单元64计算出的将所述缺失值并入每个初始属性数据区间后的MAP贝叶斯评估值;
第二最终属性数据区间确定单元,用于在评估值判断单元的判断结果为均小于时,将第一初始属性数据区间确定单元62确定出的各初始属性数据区间以及所述单独的属性数据区间,确定为该用户属性最终对应的各属性数据区间;
第一最终属性数据区间确定单元65,具体用于在评估值判断单元的判断结果不为均小于时,将第一评估值计算单元64计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
较佳地,还包括第二数量判断单元、第三评估值计算单元和第二初始属性数据区间确定单元,其中:
第二数量判断单元,用于在缺失值设置单元63针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值之前,针对第一初始属性数据区间确定单元62确定出的该用户属性对应的每个初始属性数据区间,分别判断该用户属性的属性数据落入该初始属性数据区间内的已分类会员的数量是否大于第二规定阈值;
缺失值设置单元63,具体用于在第二数量判断单元针对各初始属性数据区间的判断结果均为是时,针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;
第三评估值计算单元,用于在第二数量判断单元针对至少一个初始属性数据区间的判断结果为否时,针对每个判断结果为否的初始属性数据区间,计算将该初始属性数据区间与前一个初始属性数据区间合并后的MAP贝叶斯评估值,以及将该初始属性数据区间与后一个初始属性数据区间合并后的MAP贝叶斯评估值;
第二初始属性数据区间确定单元,用于将第三评估值计算单元计算出的MAP贝叶斯评估值较小的、合并后的各属性数据区间,作为该用户属性对应的各初始属性数据区间。
较佳地,第一初始属性数据区间确定单元62具体包括编码值转换子单元和初始属性数据区间确定子单元,其中:
编码值转换子单元,用于将属性数据抽取单元61抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值;
初始属性数据区间确定子单元,用于根据编码值转换子单元转换后的各编码值以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间。
更佳地,编码值转换子单元,具体用于若该用户属性的属性数据为数值类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的值作为对应的编码值。
更佳地,编码值转换子单元,具体用于若该用户属性的属性数据为日期类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的日期与当前日期之间的时间长度,作为该属性数据对应的编码值。
更佳地,编码值转换子单元,具体用于若该用户属性的属性数据为集合类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,计算该属性数据属于主类别的比率值,按照比率值由小到大的顺序,将该用户属性的各属性数据进行排序,针对抽取出的属性数据中该用户属性的每个属性数据,分别将排序后的序号作为该属性数据对应的编码值。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (18)
1.一种属性数据区间划分方法,其特征在于,包括:
抽取若干已分类会员的用户属性的属性数据;
针对会员的每个用户属性,分别执行:
根据抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间;
针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;
将所述缺失值分别并入确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的最大后验概率MAP贝叶斯评估值;
将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
2.如权利要求1所述的方法,其特征在于,在将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间之前,还包括:
判断该用户属性的属性数据缺失的已分类会员的数量是否小于第一规定阈值;
若判断结果为小于第一规定阈值,则执行所述将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间的操作。
3.如权利要求2所述的方法,其特征在于,还包括:
若判断结果为不小于第一规定阈值,则将所述缺失值作为一个单独的属性数据区间,并计算此时的MAP贝叶斯评估值;
判断此时的MAP贝叶斯评估值是否均小于将所述缺失值并入每个初始属性数据区间后的MAP贝叶斯评估值;
若判断结果为均小于,则将确定出的各初始属性数据区间以及所述单独的属性数据区间,确定为该用户属性最终对应的各属性数据区间;
若判断结果不为均小于,则执行所述将MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间的操作。
4.如权利要求1所述的方法,其特征在于,还包括:
在确定待分类会员的会员类别时,针对待分类会员的每个用户属性,若该待分类会员的该用户属性的属性数据缺失,则将该待分类会员的该用户属性的属性数据设置为预设的缺失值,并在该用户属性对应的各属性数据区间中,选择所述缺失值所属的属性数据区间;
根据针对每个用户属性分别选择的属性数据区间,确定该待分类会员的会员类别。
5.如权利要求1所述的方法,其特征在于,在针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值之前,还包括:
针对确定出的该用户属性对应的每个初始属性数据区间,分别判断该用户属性的属性数据落入该初始属性数据区间内的已分类会员的数量是否大于第二规定阈值;
若针对各初始属性数据区间的判断结果均为是,则执行所述针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值的操作;
若针对至少一个初始属性数据区间的判断结果为否,则针对每个判断结果为否的初始属性数据区间,分别执行:
计算将该初始属性数据区间与前一个初始属性数据区间合并后的MAP贝叶斯评估值,以及将该初始属性数据区间与后一个初始属性数据区间合并后的MAP贝叶斯评估值;
将MAP贝叶斯评估值较小的、合并后的各属性数据区间,作为该用户属性对应的各初始属性数据区间。
6.如权利要求1所述的方法,其特征在于,根据抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间,具体包括:
将抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值;
根据转换后的各编码值以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间。
7.如权利要求6所述的方法,其特征在于,若该用户属性的属性数据为数值类型的属性数据,则将抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值,具体包括:
针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的值作为对应的编码值。
8.如权利要求6所述的方法,其特征在于,若该用户属性的属性数据为日期类型的属性数据,则将抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值,具体包括:
针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的日期与当前日期之间的时间长度,作为该属性数据对应的编码值。
9.如权利要求6所述的方法,其特征在于,若该用户属性的属性数据为集合类型的属性数据,则将抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值,具体包括:
针对抽取出的属性数据中该用户属性的每个属性数据,计算该属性数据属于主类别的比率值;
按照比率值由小到大的顺序,将该用户属性的各属性数据进行排序;
针对抽取出的属性数据中该用户属性的每个属性数据,分别将排序后的序号作为该属性数据对应的编码值。
10.如权利要求6所述的方法,其特征在于,还包括:
在确定待分类会员的会员类别时,针对待分类会员的每个用户属性,分别将该属性数据替换为该属性数据对应的编码值。
11.一种属性数据区间划分装置,其特征在于,包括:
属性数据抽取单元,用于抽取若干已分类会员的用户属性的属性数据;
第一初始属性数据区间确定单元,用于针对会员的每个用户属性,根据属性数据抽取单元抽取出的属性数据中该用户属性的属性数据以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间;
缺失值设置单元,用于针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;
第一评估值计算单元,用于将所述缺失值分别并入第一初始属性数据区间确定单元确定出的各初始属性数据区间中,并分别计算并入每个初始属性数据区间后的最大后验概率MAP贝叶斯评估值;
第一最终属性数据区间确定单元,用于将第一评估值计算单元计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
12.如权利要求11所述的装置,其特征在于,还包括:
第一数量判断单元,用于在第一最终属性数据区间确定单元将第一评估值计算单元计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间之前,判断该用户属性的属性数据缺失的已分类会员的数量是否小于第一规定阈值;
第一最终属性数据区间确定单元,具体用于在第一数量判断单元的判断结果为小于第一规定阈值时,将第一评估值计算单元计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
13.如权利要求12所述的装置,其特征在于,还包括:
第二评估值计算单元,用于在第一数量判断单元的判断结果为不小于第一规定阈值时,将所述缺失值作为一个单独的属性数据区间,并计算此时的MAP贝叶斯评估值;
评估值判断单元,用于判断第二评估值计算单元计算出的MAP贝叶斯评估值是否均小于第一评估值计算单元计算出的将所述缺失值并入每个初始属性数据区间后的MAP贝叶斯评估值;
第二最终属性数据区间确定单元,用于在评估值判断单元的判断结果为均小于时,将第一初始属性数据区间确定单元确定出的各初始属性数据区间以及所述单独的属性数据区间,确定为该用户属性最终对应的各属性数据区间;
第一最终属性数据区间确定单元,具体用于在评估值判断单元的判断结果不为均小于时,将第一评估值计算单元计算出的MAP贝叶斯评估值最小时的各属性数据区间,确定为该用户属性最终对应的各属性数据区间。
14.如权利要求11所述的装置,其特征在于,还包括:
第二数量判断单元,用于在缺失值设置单元针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值之前,针对第一初始属性数据区间确定单元确定出的该用户属性对应的每个初始属性数据区间,分别判断该用户属性的属性数据落入该初始属性数据区间内的已分类会员的数量是否大于第二规定阈值;
缺失值设置单元,具体用于在第二数量判断单元针对各初始属性数据区间的判断结果均为是时,针对该用户属性的属性数据缺失的已分类会员,将该已分类会员的该用户属性的属性数据设置为预设的缺失值;
第三评估值计算单元,用于在第二数量判断单元针对至少一个初始属性数据区间的判断结果为否时,针对每个判断结果为否的初始属性数据区间,计算将该初始属性数据区间与前一个初始属性数据区间合并后的MAP贝叶斯评估值,以及将该初始属性数据区间与后一个初始属性数据区间合并后的MAP贝叶斯评估值;
第二初始属性数据区间确定单元,用于将第三评估值计算单元计算出的MAP贝叶斯评估值较小的、合并后的各属性数据区间,作为该用户属性对应的各初始属性数据区间。
15.如权利要求11所述的装置,其特征在于,第一初始属性数据区间确定单元,具体包括:
编码值转换子单元,用于将属性数据抽取单元抽取出的属性数据中该用户属性的每个属性数据分别转换为对应的编码值;
初始属性数据区间确定子单元,用于根据编码值转换子单元转换后的各编码值以及各已分类会员的会员类别,确定该用户属性对应的各初始属性数据区间。
16.如权利要求15所述的装置,其特征在于,编码值转换子单元,具体用于若该用户属性的属性数据为数值类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的值作为对应的编码值。
17.如权利要求15所述的装置,其特征在于,编码值转换子单元,具体用于若该用户属性的属性数据为日期类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,分别将该属性数据的日期与当前日期之间的时间长度,作为该属性数据对应的编码值。
18.如权利要求15所述的装置,其特征在于,编码值转换子单元,具体用于若该用户属性的属性数据为集合类型的属性数据,则针对抽取出的属性数据中该用户属性的每个属性数据,计算该属性数据属于主类别的比率值,按照比率值由小到大的顺序,将该用户属性的各属性数据进行排序,针对抽取出的属性数据中该用户属性的每个属性数据,分别将排序后的序号作为该属性数据对应的编码值。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110387773.6A CN103136247B (zh) | 2011-11-29 | 2011-11-29 | 属性数据区间划分方法及装置 |
TW101107347A TW201322028A (zh) | 2011-11-29 | 2012-03-05 | 屬性資料區間劃分方法及裝置 |
JP2014543637A JP6010133B2 (ja) | 2011-11-29 | 2012-11-29 | 属性データ区間の分類 |
PCT/US2012/067090 WO2013082297A2 (en) | 2011-11-29 | 2012-11-29 | Classifying attribute data intervals |
EP12809387.9A EP2786221A4 (en) | 2011-11-29 | 2012-11-29 | CLASSIFICATION OF ATTRIBUTE DATA INTERVALS |
US13/689,447 US9092725B2 (en) | 2011-11-29 | 2012-11-29 | Classifying attribute data intervals |
HK13108749.2A HK1181512A1 (zh) | 2011-11-29 | 2013-07-26 | 屬性數據區間劃分方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110387773.6A CN103136247B (zh) | 2011-11-29 | 2011-11-29 | 属性数据区间划分方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103136247A true CN103136247A (zh) | 2013-06-05 |
CN103136247B CN103136247B (zh) | 2015-12-02 |
Family
ID=47471992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110387773.6A Active CN103136247B (zh) | 2011-11-29 | 2011-11-29 | 属性数据区间划分方法及装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9092725B2 (zh) |
EP (1) | EP2786221A4 (zh) |
JP (1) | JP6010133B2 (zh) |
CN (1) | CN103136247B (zh) |
HK (1) | HK1181512A1 (zh) |
TW (1) | TW201322028A (zh) |
WO (1) | WO2013082297A2 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139095A (zh) * | 2015-09-23 | 2015-12-09 | 河海大学 | 基于属性区间模型的配电网运行状态评估方法 |
CN105224690A (zh) * | 2015-10-30 | 2016-01-06 | 上海达梦数据库有限公司 | 生成并选择对应含参语句的执行计划的方法及系统 |
CN106033457A (zh) * | 2015-03-18 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种确定水果目标属性的属性信息的方法与装置 |
CN106446021A (zh) * | 2013-06-24 | 2017-02-22 | 北京奇虎科技有限公司 | 一种异常数据检测处理的方法和系统 |
CN107491509A (zh) * | 2017-08-02 | 2017-12-19 | 腾讯科技(深圳)有限公司 | 一种用户属性信息挖掘方法、装置和介质 |
CN105101475B (zh) * | 2014-05-12 | 2018-09-25 | 中国移动通信集团湖南有限公司 | 一种识别无线局域网wlan潜在用户的方法及装置 |
CN112561479A (zh) * | 2020-12-16 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 基于智能决策的企业增员的方法、装置及计算机设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013243946A1 (en) * | 2012-04-02 | 2014-10-30 | Moderna Therapeutics, Inc. | Modified polynucleotides for the production of membrane proteins |
AU2013243949A1 (en) * | 2012-04-02 | 2014-10-30 | Moderna Therapeutics, Inc. | Modified polynucleotides for the production of biologics and proteins associated with human disease |
US10832135B2 (en) * | 2017-02-10 | 2020-11-10 | Samsung Electronics Co., Ltd. | Automatic thresholds for neural network pruning and retraining |
CN106919706A (zh) * | 2017-03-10 | 2017-07-04 | 广州视源电子科技股份有限公司 | 数据更新的方法及装置 |
CN107392220B (zh) | 2017-05-31 | 2020-05-05 | 创新先进技术有限公司 | 数据流的聚类方法和装置 |
CN110795638A (zh) * | 2019-11-13 | 2020-02-14 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112445410B (zh) * | 2020-12-07 | 2023-04-18 | 北京小米移动软件有限公司 | 触控事件识别方法、装置及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000070481A1 (en) * | 1999-05-14 | 2000-11-23 | Manna, Inc. | Intelligent computer system |
US20020010691A1 (en) * | 2000-03-16 | 2002-01-24 | Chen Yuan Yan | Apparatus and method for fuzzy analysis of statistical evidence |
CN101923561A (zh) * | 2010-05-24 | 2010-12-22 | 中国科学技术信息研究所 | 一种文件自动分类方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000003281A (ja) * | 1998-06-12 | 2000-01-07 | Fujitsu Ltd | 欠落属性値推定装置 |
GB9828241D0 (en) * | 1998-12-22 | 1999-02-17 | Ncr Int Inc | Estimating a missing observation in a database |
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US20050137991A1 (en) | 2003-12-18 | 2005-06-23 | Bruce Ben F. | Method and system for name and address validation and correction |
US7557729B2 (en) | 2004-02-05 | 2009-07-07 | Ecologic Analytics, LLC | Method and system for validation, estimation and editing of daily meter read data |
US20070011183A1 (en) | 2005-07-05 | 2007-01-11 | Justin Langseth | Analysis and transformation tools for structured and unstructured data |
US7584884B2 (en) | 2005-09-06 | 2009-09-08 | Capital One Financial Corporation | System and method for capturing sales tax deduction information from monetary card transactions |
US7346594B2 (en) | 2005-10-18 | 2008-03-18 | International Business Machines Corporation | Classification method and system for small collections of high-value entities |
US20080065694A1 (en) | 2006-09-08 | 2008-03-13 | Google Inc. | Local Search Using Address Completion |
US20080222129A1 (en) | 2007-03-05 | 2008-09-11 | Komatsu Jeffrey G | Inheritance of attribute values in relational database queries |
US8335714B2 (en) | 2007-05-31 | 2012-12-18 | International Business Machines Corporation | Identification of users for advertising using data with missing values |
US20090259505A1 (en) | 2008-04-09 | 2009-10-15 | Vali Tadayon | Inventory management system and method |
US8495151B2 (en) | 2009-06-05 | 2013-07-23 | Chandra Bodapati | Methods and systems for determining email addresses |
CN101604435A (zh) * | 2009-07-14 | 2009-12-16 | 阿里巴巴集团控股有限公司 | 一种监测网站访客价值的方法及装置 |
US8572191B2 (en) | 2009-08-03 | 2013-10-29 | Yahoo! Inc. | Systems and methods for profile building |
-
2011
- 2011-11-29 CN CN201110387773.6A patent/CN103136247B/zh active Active
-
2012
- 2012-03-05 TW TW101107347A patent/TW201322028A/zh unknown
- 2012-11-29 WO PCT/US2012/067090 patent/WO2013082297A2/en active Application Filing
- 2012-11-29 JP JP2014543637A patent/JP6010133B2/ja active Active
- 2012-11-29 US US13/689,447 patent/US9092725B2/en active Active
- 2012-11-29 EP EP12809387.9A patent/EP2786221A4/en not_active Withdrawn
-
2013
- 2013-07-26 HK HK13108749.2A patent/HK1181512A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000070481A1 (en) * | 1999-05-14 | 2000-11-23 | Manna, Inc. | Intelligent computer system |
US20020010691A1 (en) * | 2000-03-16 | 2002-01-24 | Chen Yuan Yan | Apparatus and method for fuzzy analysis of statistical evidence |
CN101923561A (zh) * | 2010-05-24 | 2010-12-22 | 中国科学技术信息研究所 | 一种文件自动分类方法 |
Non-Patent Citations (2)
Title |
---|
RUSSELL J.STEEL等: "Inference from Multiple Imputation for Missing Data Using Mixtures of Normals", 《NIH PUBLIC ACCESS AUTHOR MANUSCRIPT》 * |
黄梯云等: "数据挖掘中一种基于粗糙集理论的属性值离散映射方法", 《情报学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446021A (zh) * | 2013-06-24 | 2017-02-22 | 北京奇虎科技有限公司 | 一种异常数据检测处理的方法和系统 |
CN106446021B (zh) * | 2013-06-24 | 2019-08-02 | 北京奇虎科技有限公司 | 一种异常数据检测处理的方法和系统 |
CN105101475B (zh) * | 2014-05-12 | 2018-09-25 | 中国移动通信集团湖南有限公司 | 一种识别无线局域网wlan潜在用户的方法及装置 |
CN106033457A (zh) * | 2015-03-18 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种确定水果目标属性的属性信息的方法与装置 |
CN106033457B (zh) * | 2015-03-18 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 一种确定水果目标属性的属性信息的方法与装置 |
CN105139095A (zh) * | 2015-09-23 | 2015-12-09 | 河海大学 | 基于属性区间模型的配电网运行状态评估方法 |
CN105224690A (zh) * | 2015-10-30 | 2016-01-06 | 上海达梦数据库有限公司 | 生成并选择对应含参语句的执行计划的方法及系统 |
CN105224690B (zh) * | 2015-10-30 | 2019-06-18 | 上海达梦数据库有限公司 | 生成并选择对应含参语句的执行计划的方法及系统 |
CN107491509A (zh) * | 2017-08-02 | 2017-12-19 | 腾讯科技(深圳)有限公司 | 一种用户属性信息挖掘方法、装置和介质 |
CN107491509B (zh) * | 2017-08-02 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 一种用户属性信息挖掘方法、装置和介质 |
CN112561479A (zh) * | 2020-12-16 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 基于智能决策的企业增员的方法、装置及计算机设备 |
CN112561479B (zh) * | 2020-12-16 | 2023-09-19 | 中国平安人寿保险股份有限公司 | 基于智能决策的企业增员的方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
US20130138598A1 (en) | 2013-05-30 |
HK1181512A1 (zh) | 2013-11-08 |
WO2013082297A2 (en) | 2013-06-06 |
CN103136247B (zh) | 2015-12-02 |
JP6010133B2 (ja) | 2016-10-19 |
EP2786221A2 (en) | 2014-10-08 |
TW201322028A (zh) | 2013-06-01 |
US9092725B2 (en) | 2015-07-28 |
JP2015504564A (ja) | 2015-02-12 |
WO2013082297A3 (en) | 2013-08-01 |
EP2786221A4 (en) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103136247B (zh) | 属性数据区间划分方法及装置 | |
CN103605970A (zh) | 一种基于机器学习的图纸建筑元素识别方法及系统 | |
CN109388712A (zh) | 一种基于机器学习的行业分类方法及终端设备 | |
WO2023024407A1 (zh) | 基于相邻卷积的模型剪枝方法、装置及存储介质 | |
CN107305577B (zh) | 基于K-means的妥投地址数据处理方法和系统 | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN106384282A (zh) | 构建决策模型的方法和装置 | |
CN105469611B (zh) | 一种短时交通流预测模型方法 | |
CN111597348A (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN106228554A (zh) | 基于多属性约简的模糊粗糙集煤粉尘图像分割方法 | |
CN105139282A (zh) | 一种电网指标数据处理方法、装置以及计算设备 | |
CN117743870B (zh) | 一种基于大数据的水利数据管理系统 | |
CN102073867A (zh) | 一种遥感图像分类方法及装置 | |
CN106919719A (zh) | 一种面向大数据的信息补全方法 | |
CN103455534A (zh) | 对文档进行聚类的方法和装置 | |
CN102567375A (zh) | 数据挖掘方法及设备 | |
CN113408561A (zh) | 模型生成方法、目标检测方法、装置、设备及存储介质 | |
CN103049263B (zh) | 一种基于相似性的文件分类方法 | |
CN102880834A (zh) | 一种保持数据数字特征的隐私信息保护方法 | |
CN104346411B (zh) | 对多个稿件进行聚类的方法和设备 | |
CN101594313A (zh) | 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统 | |
CN114511587A (zh) | 一种ct图像的标记方法、系统、介质及设备 | |
CN107729918B (zh) | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 | |
CN105590167A (zh) | 电场多元运行数据分析方法及装置 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1181512 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1181512 Country of ref document: HK |