CN104239335A - 特定用户信息获取方法及装置 - Google Patents
特定用户信息获取方法及装置 Download PDFInfo
- Publication number
- CN104239335A CN104239335A CN201310244476.5A CN201310244476A CN104239335A CN 104239335 A CN104239335 A CN 104239335A CN 201310244476 A CN201310244476 A CN 201310244476A CN 104239335 A CN104239335 A CN 104239335A
- Authority
- CN
- China
- Prior art keywords
- user
- specific
- information
- operation behavior
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了特定用户信息获取方法及装置,所述方法包括:获取系统中记录的各个第一用户的操作行为信息;获取系统中记录的各个第二用户的统计数据;根据第二用户在各个变量上的取值建立特定第二用户集合;根据所述第一用户的操作行为信息以及特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;根据判断结果以及第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;返回特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。通过本发明,可客观、全面地建立起特定第一用户集合及特定第二用户集合,为信息推荐等应用或服务提供数据基础。
Description
技术领域
本申请涉及数据挖掘技术领域,特别是涉及特定用户信息获取方法及装置。
背景技术
计算机应用或者服务系统一般都拥有自己的用户群,并且一般都希望能够充分地利用系统中记录用户的各种信息,对系统功能等方面进行完善或者丰富。
例如,在第三方交易平台中,卖方用户数量众多,发布的商品信息数量更是巨大,此时,如何能够帮助买方用户更加方便快捷的找到自己所需的商品信息,是交易平台在提升自身功能方面需要考虑的问题。为此,交易平台可以基于买方用户之间的相似度来向用户进行信息推荐。也即,针对当前买方用户A,从所有买方用户中找到与该买方用户在购物喜好方面最相似的N个买方用户,然后将这N个买方用户最常光临的店铺等信息推荐给该买方用户A。
但是,由于需要从交易平台的所有买方用户中查找与当前买方用户最相似的N个买家,而买方用户数量非常多,因此,计算量会非常巨大,严重耗费系统资源;另一方面,最终推荐给买方用户的店铺中商品信息的质量等信息是不可知的。这样,即使当前买方用户确实对推荐的结果感兴趣,但如果最终购买到的商品有质量差等问题,可能还会进入退货流程等等,这也相当于交易平台所做的推荐其实是无效的,同时也会降低买方用户对交易平台的信任度。
如何更加高效、全面的从众多用户中发现特殊的用户,以便为后续的信息推荐等应用提供数据基础,是迫切需要本领域技术人员解决的技术问题。
发明内容
本申请提供了特定用户信息获取方法及装置,能够客观、全面地建立起特定第一用户集合及特定第二用户集合,进而可以为信息推荐等应用或服务提供数据基础。
本申请提供了如下方案:
一种特定用户信息获取方法,包括:
获取系统中记录的各个第一用户的操作行为信息;
获取系统中记录的各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;
根据第二用户在各个变量上的取值建立特定第二用户集合;
根据所述第一用户的操作行为信息以及所述特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;其中,某第一用户关联的第二用户是指该第一用户的操作对象对应的第二用户;
根据判断结果以及所述第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;
接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。
一种特定用户信息获取装置,包括:
操作行为信息获取单元,用于获取系统中记录的各个第一用户的操作行为信息;
统计数据获取单元,用于获取系统中记录的各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;
特定第二用户集合建立单元,用于根据第二用户在各个变量上的取值建立特定第二用户集合;
判断单元,用于根据所述第一用户的操作行为信息以及所述特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;其中,某第一用户关联的第二用户是指该第一用户的操作对象对应的第二用户;
特定第二用户集合建立单元,用于根据判断结果以及所述第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;
接口单元,用于接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,能够根据系统中记录的第一用户以及第二用户的各项数据,挖掘出其中包含的特定第一用户集合及特定第二用户集合,因此,最终能够客观、全面地建立起特定第一用户集合及特定第二用户集合,进而可以为信息推荐等应用或服务提供数据基础。另外,在挖掘的过程中考虑了特定第二用户对评判特定第一用户的影响,因此,使得建立起的第一用户集合更接近实际的情况,更符合具体应用环境的需要。
其中,还可以利用新获取到的操作行为信息,对特定第一用户集合及特定第二用户集合进行更新,在更新的过程中,充分体现出特定第一用户与特定第二用户之间的相互影响,因此进一步优化了特定第一用户集合,并且也是的特定第二用户集合也能反映出特定第一用户对其的影响,更真实地反映出实际应用中的情况。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法的流程图;
图2是本申请实施例提供的装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
首先需要说明的是,在本申请实施例中,交易平台系统中的买方用户称为“第一用户”,卖方用户称为“第二用户”。可以理解的是,“第一用户”与“第二用户”之间的关系也限于买卖关系,也可以是其他系统中的某种操作行为的发起方与接受方之间的关系。
其中,在从所有的第一用户中提取特定的第一用户集合时,可以首先计算各个第一用户的质量(例如,可以由某种得分来表示),将得分较高的部分第一用户作为特定的第一用户。在本申请实施例中,在计算各个第一用户的质量得分时,不仅可以考虑各个第一用户自身的属性信息,还可以考虑第一用户关联的第二用户的“质量”(所谓的“关联”,是指两个用户之间产生过操作行为,例如,某买方用户购买过某卖方用户的某商品,则这两个用户之间相互关联)。也就是说,在系统中,第一用户产生的操作行为,其操作对象一般是第二用户提供的某些业务对象(例如商品、服务等等),而第二用户同样数量众多,并且其中存在一些质量较高的第二用户,另外一些可能质量较差,如果某第一用户关联的第二用户总是具有较高的质量,则该第一用户的历史操作行为中对应的业务对象一般也会具有较高的质量,利用这样的信息向当前用户的质量进行推荐等操作时,有效性也会大大提高,相应的,这样的第一用户的质量也会比较高。而对于第二用户而言,其质量的高低可以根据系统中记录的一些属性信息进行统计计算得到,例如,在电子商品交易平台中,其中一些卖方用户从商品质量、发货速度等等多方面来评判都能够提供优质的商品和/或服务,这样的卖方用户质量就会比较高,还有一些卖方用户则相反,其提供的商品和/或服务的质量可能比较差,这种卖方用户的质量就比较低。
也就是说,在评判第一用户的质量时,其关联到的第二用户的质量也可以作为其中的一种评判标准。例如,在电子商务交易平台中,如果一个买方用户能够从大量的卖方用户中区分出哪些是质量较高的卖方用户哪些是质量较低的卖方用户,则证明该买方用户具有发现优质的卖方用户的能力,其购买过的商品对象属于优质商品、其关联卖方用户的店铺属于优质店铺的概率也就比较大,因此,可以在对该买方用户的质量评价时也会有加分。
可见,要想从第一用户中提取出特定的第一用户,可以首先统计出各个第二用户的质量得分,从中挑选出特定的第二用户。但同时,第二用户的质量其实与其关联的第一用户的质量也是有关的。例如,如果一个卖方用户的店铺经常吸引优质的买方用户,则证明该卖方用户能够提供优质商品或服务的概率也比较大,在评判其优质的程度时,应该也有相应的加分。因此,在实际应用中,第一用户与第二用户的优质程度之间可以是相互影响,互相促进的。
为了便于描述,在本申请实施例中,将符合前述条件的优质的第一用户称为“特定第一用户”,优质的第二用户称为“特定第二用户”。
总之,在本申请实施例中,需要从第一用户中挑选出一些特定第一用户,例如,在电子商务交易平台中,这些特定第一用户就可以是指:很熟悉互联网购物流程,与电子商务交易平台之间有深度关系,并且善于发现优质卖方用户或者店铺的买方用户。也就是说,所谓的特定第一用户是第一用户中的精华,他们深入了解系统中某一领域的信息,并善于采集、挑选并最终达成交易等操作。因此,这种特定第一用户的操作行为对应的操作对象(例如某卖方用户提供的某商品等)一般也较为优质。
在实际应用中,可以采用数据挖掘的方式来发现特定第一用户。例如,在电子商务交易平台中,系统会在数据库中保存有各个买方用户以及卖方用户的相关数据。这些数据包括各个买方用户的历史购买行为信息,包括各个买方用户过去达成的各项交易中,关联的卖方用户的信息、商品信息等等;另外,系统中还会保存各个卖方用户的数据统计信息,这种数据统计信息通常可以通过多个变量(包括好评率、熟客交易占比、拍发时间差等等)上的取值来体现卖方用户的情况。因此,可以通过对这些数据进行有效的分析挖掘,可以从中发现优质买方对象,也即特定第一用户。这样可以避免人工指定时的主观性及局限性,可以客观、全面地发现特定第一用户。
具体在采用数据挖掘的方式来发现特定第一用户时,可以采用建模的方式来建立其评价第一用户得分的算法,然后利用具体的模型来计算各个第一用户的得分,进而判断其是否为特定第一用户。也就是说,可以根据系统中记录的各个第一用户的操作行为信息,计算各个第一用户的得分,将得分大于某阈值的第一用户确定为符合预置条件的特定第一用户。具体实现时,在建立特定第一用户的计算模型时,可以仅考虑第一用户的一些操作行为信息,例如,对于买方用户这种第一用户,可以包括其购买次数、退货次数、卖方对象对买方对象的好评率,等等。但是,如前文所述,特定第一用户与特定第二用户之间一般是相互影响的,因此,在建立特定第一用户的计算模型时,还可以考虑第一用户关联的第二用户的优质情况,也就是说,在获取第一用户的操作行为信息时,可以包括以下信息:在操作行为中,第一用户关联的第二用户是否为特定第二用户。例如,如果很多优质买方用户到一个卖方用户的店铺购买,则这个卖方用户的质量一般不会差;如果一个买方用户购买行为对应的店铺很多都是优质卖方用户的店铺,则该买方用户的“品位”也比较好,比较善于发现优质卖方用户的店铺,这是一个循环的过程。因此,为了使得建立的计算模型更能符合实际的情况,可以在模型中体现出这种关联性,也即,在评判第一用户是否优质时,是与其关联的第二用户是否优质相关的,同时,一个第二用户是否优质又是可能会随着与其关联的第一用户而发生变化。
为此,在本申请实施例中,通过如下方式来建立特定第一用户集合以及特定第二用户集合:
由于系统中对于作为操作行为接受方的第二用户记录的信息一般相对全面,因此相当于系统对第二用户更为“了解”,因此,可以首先计算出第二用户的质量得分基础值,并据此先确定出一些特定第二用户;然后再根据第一用户关联的第二用户是否为特定第二用户,统计出第一用户关联的特定第二用户所占的比例等信息,对第一用户是否为特定第一用户做出判断。也就是说,最初建立特定第二用户集合时,可以先不考虑其关联的第一用户的情况,而是仅根据在各个变量上的取值来进行选择,这相当于可以得到第一批特定第二用户,接下来,就可以结合第二用户的操作行为信息以及该特定第二用户的情况,来确定第一用户是否为特定第一用户,这样,根据第一批特定第二用户可以得到第一批特定第一用户。之后,还可以根据新获取到的操作行为信息,对第一用户是否为特定第一用户、第二用户是否为特定第二用户进行重新评估,进而实现对特定第一用户集合及特定第二用户集合的更新。当然,在更新的过程中,无论对于第一用户还是第二用户,都会考虑其关联的第二用户/第一用户是否为特定第二用户/特定第一用户这些信息,也即,体现出特定第一用户与特定第二用户之间的相互促进。其中,系统中一般都记录有各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;这样,具体在获取特定第一用户集合及特定第二用户集合时,可以按照以下方式进行:
首先,根据第二用户在各个变量上的取值确定各个第二用户的得分,将得分大于预置阈值的第二用户确定为第一批特定第二用户;然后,根据第一用户的操作行为信息以及已经获取到的第一批特定第二用户集合,确定在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户,进一步计算出各个第一用户的得分,这样,就可以将得分大于预置阈值的第一用户确定为第一批特定第一用户。
然后通过以下各步骤对特定第一用户集合及特定第二用户集合进行循环更新:根据第一用户在指定时间段内产生的新的操作行为信息,以及操作行为中关联的第二用户是否为特定第二用户,重新确定各个第一用户是否为特定第一用户,并根据重新确定的结果更新所述特定第一用户集合;根据第二用户在指定时间段内产生的新的操作信息,以及新的操作信息中关联的第一用户是否为特定第一用户,重新确定各个第二用户是否为特定第二用户,并根据重新确定的结果更新所述特定第二用户集合。
也就是说,在更新过程中,上一步中各个第一用户、第二用户的得分相当于作为一种基础值,之后就可以在上一步得分的基础上,对第一用户及第二用户的得分进行更新。
当然,在实际应用中,也可以直接将第一批的特定第一用户集合以及特定第二用户集合提供给相关的应用程序来使用,具体实现时,参见图1,本发明实施例提供的特定用户信息获取方法可以包括以下步骤:
S101:获取系统中记录的各个第一用户的操作行为信息;
第一用户的操作行为信息可以包括第一用户的浏览行为、预订行为信息等等,从中获取到第一用户在某时间段内执行过多少次操作,在每次操作中,第一用户关联的是哪个第二用户等等,作为后续评判一个第一用户是否为特定第一用户的数据基础。
S102:获取系统中记录的各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;
S103:根据第二用户在各个变量上的取值建立特定第二用户集合;
S104:根据所述第一用户的操作行为信息以及所述特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;其中,某第一用户关联的第二用户是指该第一用户的操作对象对应的第二用户;
S105:根据判断结果以及所述第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;
S106:接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。
其中,所谓的相关应用程序可以是用于向用户进行信息推荐的应用程序。例如,在电子商务平台中,当该应用程序需要向当前用户推荐其可能感兴趣的商品或者店铺信息时,就可以请求获取该特定第一用户集合,然后可以从特定第一用户集合中查找与当前用户相似的特定第一用户,将该相似的特定第一用户最常浏览或订购的商品信息或者店铺信息推荐给当前用户。这样,由于特定第一用户集合是所有第一用户中的一部分,因此可以使得信息推荐过程中的计算量减小;同时,特定第一用户集合又与其关联的第二用户是否属于特定第二用户有关,例如一般可以是质量较高的第一用户,因此,推荐出的信息的有效性也得到提高。当然,在相关应用程序并不限于上述用于进行信息推荐的应用程序,例如还可以是用于商品列表页面中对买方用户的商品对象进行排序的应用程序,等等。
下面就以电子商务平台中的买方用户(对应第一用户)、卖方用户(对应第二用户)以及平台中为各种用户记录的统计信息为例,对上述过程进行详细的介绍。
首先,由于交易平台系统中记录的卖方用户的信息更为全面,相当于系统对卖方用户的“了解”更多,因此,可以首先从卖方用户的相关统计数据开始进行挖掘,之后再在此基础上发现特定买方用户。其中,在根据卖方用户的相关统计数据进行挖掘时,也就是要首先根据这些统计数据对卖方用户进行打分(可以将其得分称为“优质指数”),从中发现可能优质的卖方用户,当然由于此过程中还没有考虑优质买方用户对卖方用户是否优质的影响,因此,这种打分得到的优质指数可以称为“单边优质指数”(后续当该优质指数根据优质买方用户信息进行更新之后,就成为“双边优质指数”)。在得到各个卖方用户的单边优质指数之后,就可以将其作为卖方用户优质指数的基础值,将基础值满足一定条件的卖方用户作为优质卖方用户(也即对应特定第二用户)。这样,相当于已经了得到了一些关于卖方用户是否优质的基础信息,之后就可以以这些信息为基础开始对买方用户是否优质进行评判。
下面首先介绍如何从系统的统计数据中得到卖方用户的单边优质指数。
在本申请实施例中,卖方用户的单边优质指数用于表示一个卖方用户是否是优质的卖方用户,因此,在计算卖方用户的优质指数时,可以基于某个或者某几个变量上的取值来进行表示。例如,基于好评率、之前购买过的买方对象再次购买的比例,等等。而一个卖方用户是否优质时,如果使用的评判标准不同,则可能会得到不同的结果。例如,从“好评率”角度来进行评判,卖方用户A对应的取值比较高,则该卖方用户A是优质的,但如果从“熟客交易占比”角度来评判,卖方用户A对应的取值比较低,则该卖方用户A就不能看作是优质的。但是,总会存在一些卖方用户对象,从多个变量对应的不同角度来评判,可能都是优质的,因此,就可以将这些卖方用户看作是优质的;另外也会存在一些卖方用户从多个变量对应的不同角度来评判都不是优质的,则就可以将这些卖方用户对象看作是非优质的。当然,系统中为卖方用户记录的变量数目非常多,一般可能会有一百多个,如果要求卖方用户在所有这些变量上的取值都比较高,是不太现实的,并且即使有可能也是极少数,会造成数据稀疏的结果,无法用于后续对买方用户是否优质的评判。
因此,在实际应用中,为了尽可能全面地评价第二用户的优质指数,可以首先挑选出一些特定变量,这些特定变量就是那些能够在不同特定类别的第二用户之间体现出一定的区分度的变量。例如,假设就是要简单的将第二用户划分为优质第二用户及非优质第二用户这两类,则就可以分别基于各个变量对第二用户进行聚类,看哪些变量能够将第二用户明确地划分为优质与非优质这两类,并且界限明显,则这些变量就可以作为特定变量被提取出来。进而,可以利用这些特定变量对第二用户进行打分,得分最高的N个第二用户就可以作为特定第二用户的极端样本,也就是说,这些第二用户具有非常明显的优质特征,因此,作为极端样本被标注出来。当然,同样的道理,还可以标注出非优质类别下的极端样本。也即,可以分别基于各个变量对第二用户进行多次聚类,将能够将第二用户聚类为预置类别并且能够在各个类别之间体现出预置的区分度的变量确定为特定变量。
需要说明的是,在第二用户对应交易平台中的卖方用户的情况下,在基于各个变量对卖方用户进行聚类的过程中,一些卖方用户可能是由于其店铺的规模比较大,使得其在一些变量上获得高的取值的机会可能相对较高;而另一些卖方用户,虽然在一些变量上的取值并没有那么高,但一方面的原因可能是其店铺规模比较小,相应的,其商品被买方用户发现的概率可能要相对较小,但并不代表这些卖方用户不能提供优质的商品或服务,相反的,这种小规模的卖方用户经常是那些能够提供一些极具特点或者个性化商品或服务的卖方用户。因此,如果简单的利用能够将卖方用户聚类为优质与非优质这两类的变量对卖方用户进行打分,则可能会使得一些规模小但实际很优质的卖方用户无法得到较高的分数,错误地将其作为非优质卖方对象来看待,最终也使得这种卖方用户的店铺或者商品无法被推荐给买方对象。
因此,为了使得卖方用户的单边优质指数更真实地反映实际情况,在挑选特定变量时,可以考虑到店铺规模的因素。其中,在各个变量中,店铺的GMV(Gross Merchandise volume,网站成交金额)一般能够反映一个店铺的规模,因此,可以将该变量单独提取出来,在每次聚类时,都进行二维的聚类,也即,其中一个维度是销售额,另一个维度是其他各个变量中的一个。这样,在选择特定变量时,就要看哪些变量的聚类结果能够把卖方用户聚类为“小而美”(也即店铺规模小并且优质)、“小而丑”(也即店铺规模小并且非优质)、“大而美”(也即规模大并且优质)、“大而丑”(也即店铺规模大并且非优质)这样四个类别,并且四个类别之间的界限清晰的变量,确定为特定变量。也就是说,这些变量能够将具有大规模店铺以及小规模店铺的卖方用户区分开,并且既能够从大规模店铺中区分出优质及非优质的店铺,也能够从小规模店铺中区分出优质及非优质的店铺。
例如,在某交易平台中,符合上述条件的特定变量可能包括以下变量之一或组合:
好评率、熟客交易占比、宝贝在线成交率、宝贝收藏率、发货DSR(DetailSeller Rating,卖方服务评级系统)高于行业的百分比、品质DSR高于行业的百分比、服务DSR高于行业的百分比、物流DSR高于行业的百分比、IPV转化率(其中,PV是指Page Views,也即页面浏览次数,IPV是指商品详情页面的PV)、熟客单价/普通客单价、站内搜索带来IPV占比、相关即时通信产品中的响应率、拍发时间差。
也就是说,上述变量能够让“小而美”与“大而美”、“小而美”与“小而丑”、“小而美”与“大而丑”的卖方对象有显著区别。
在得到上述特定变量之后,可以直接分别将各个第二用户在这些特定变量上的取值进行相加,将得到的结果作为第二用户的优质指数。但是,实际上,虽然这些变量都是优质的,但是各自在体现各类别之间区分度时的重要性可能又是不同的,因此,如果不能体现出这种区别,则计算出的第二用户的优质指数也是无法准确体现实际情况的。因此,在本申请实施例中,还可以通过继续的数据挖掘获取到各个特定变量的权重,用以表示各自在体现类别之间区分度时的重要性,进而根据特定变量及各自的权重建立第二用户的得分计算公式,将各个第二用户在各个特定变量上的取值代入到计算公式中,计算出各个第二用户的优质指数基础值。
为了获取各个特定变量的权重,具体实现时,可以基于特定变量,采用半监督分类及回归的方式对各个第二用户进行类别标注及打分,并在此过程中,计算出各个特定变量的权重。具体的,可以通过以下步骤来实现:
步骤一:首先可以假设之前得到的特定变量的权重都是相等的,例如都可以将各自的权重初始值设为1,然后利用特定变量以及各个特定变量的初始权重为各个第二用户打分,将各个类别中得分最高的预置数目的第二用户标注为对应类别中的极端样本。例如,结合前述例子,该步骤相当于基于这些特定变量分别计算各个卖方对象的得分,将各个类别中得分最高的N个卖方对象标注为对应类别的极端样本。也即,“小而美”、“大而美”、“小而丑”、“大而丑”这几个类别下都可的得到一些极端样本,这些样本相当于具有属于某类别的非常明显的特征,无论各个特定变量的权重是按照相等的初始值来计算,还是按照更接近于实际情况的值的计算,这些变量计算出的得分应该都是在所属类别中最高的,因此,可以作为对应类别中的极端样本。
然后,基于极端样本,利用半监督分类算法进行预置次数的循环学习,逐步更新各个特定变量的权重,其中,每次学习时进行以下操作:
步骤二:基于各个类别中的已标注样本集合,更新各个特定变量的权重;其中,在首次学习时,已标注样本集合由极端样本组成;
步骤三:计算其他第二用户与各已标注样本之间的相似度,对置信度满足预置条件的第二用户进行类别标注,以便将新标注的第二用户加入到对应类别的已标注样本集合中,供下一次半监督分类学习使用。例如,某卖方用户A与某极端样本B的相似度高于某一阈值,并且极端样本B属于“小而美”类,则将卖方用户A也可以标注为“小而美”类,以此类推。总之,可以分别计算各个未标注卖方用户与各个极端样本之间的相似度,对置信度(半监督分类中的概念)最高的n%卖方用户标注为对应的类别,对各个类别中包含的样本进行更新,并返回到步骤二更新特定变量的权重,循环学习数次之后,得到各个特定变量的权重。
以上通过半监督分类算法标注了第二用户所属的类别,并对各个特定变量的权重进行了计算及更新,在每一次更新之后都相当于学习到了更多的知识,都使得各个特定变量的权重更接近于实际情况。当然,由于在半监督分类过程中,是基于对各个第二用户的标注结果对特定变量的权重进行计算及更新的,标注结果是一个离散的信息,也即,只能标注出各个第二用户属于哪个类别,相当于同一类别中的各个第二用户之间不区分“优质”程度。但是实际情况是,同一类别中的各个第二用户可能也具有不同的“优质”程度,如果不在这方面进行区分,则计算并更新得到的特定变量的权重仍然无法进一步接近真实情况。也就是说,通过半监督分类的方式,计算并更新得到的各个特定变量的权重仍然不够精确,因此,在本申请实施例中,还需要再通过半监督回归的方式,最终确定出各个特定变量的权重。具体的步骤如下:
步骤一:利用所述半监督学习得到的各个特定变量的权重对已标注样本集合中的各个样本进行打分;其中,在首次学习时,已标注样本集合由极端样本组成;
步骤二:基于已打分样本集合中的样本,更新各个特定变量的权重;
步骤三:计算其他第二用户与各已打分样本之间的相似度,对置信度满足预置条件的第二用户进行打分,以便将新打分的第二用户加入到对应类别的已打分样本集合中,供下一次半监督回归学习使用。也就是说,可以计算其他未标注第二用户与极端样本之间的相似度,找到置信度最高的n%卖方对象,并利用特定变量及当前的权重进行打分,然后回到步骤二,重新更新特定变量的权重,以此循环学习数次之后,得到各个特定变量最终的权重。
也就是说,在半监督回归的过程中,是基于各个第二用户的得分来对特定变量的权重进行更新,相当于在获取到各个第二用户所属类别的基础上获取了更详细的分数信息,因此基于这种更详细的信息更新得到的特定变量的权重也更接近与真实情况。
总之,通过半监督分类以及回归过程中的多次循环更新,能够为之前得到的各个特定变量确定出各自的权重,以此来表达各个特定变量在体现各个类别之间区分度方面的重要性。
在得到各个特定变量的权重之后,就可以生成用于计算第二用户单边优质指数的公式,在实际应用中,该公式可以形象地称为“优质指数打分卡”。例如,最终得到的各个特定变量对应的权重如表1所示:
表1
变量 | 权重 |
好评率 | 10.6 |
熟客交易占比 | 1.9 |
宝贝在线成交率 | 1.8 |
宝贝收藏率 | 1.6 |
发货DSR高于行业的百分比 | 1.4 |
品质DSR高于行业的百分比 | 1.2 |
服务DSR高于行业的百分比 | 1.1 |
物流DSR高于行业的百分比 | 0.4 |
IPV转化率 | 0.3 |
熟客单价/普通客单价 | 0.2 |
站内搜索带来IPV占比 | -0.2 |
相关即时通信产品中的响应率 | 0.2 |
“直通车”和“淘宝客”引导IPV占比 | -0.1 |
拍发时间差 | -0.04 |
将表1中的各个变量分别乘以对应的权重,再相加,即可作为计算第二用户单边优质指数的公式。然后就可以分别针对各个第二用户,取出在上述各个特定变量上的取值,然后带入到公式中,即可将计算得到的数值作为第二用户对应的单边优质指数。
需要说明的是,虽然在半监督学习的过程中也涉及到对第二用户进行打分等,但是这种打分仅仅是学习过程的一些中间值,并不是最终的结果,只有在得到上述计算公式之后,计算出的数值才能作为第二用户的单边优质指数。
在得到各个第二用户的单边优质指数之后,就可以将其作为双边优质指数的基础值,并且,双边优质指数最高的N个第二用户就可以作为当前的特定第二用户。后续随着第二用户双边优质指数的变化,特定第二用户集合中包括的特定第二用户可能会发生变化。
以上对获取第二用户双边优质指数基础值的过程进行了介绍,得到了该基础值,相当于为发现特定第一用户提供了一些依据,接下来,就介绍具体如何根据第二用户的优质指数来发现特定第一用户。
首先,对于第一用户而言,也可以根据系统中记录的历史操作行为信息计算出第一用户的“优质指数”,并将其作为第一用户优质指数的基础值。具体的,可以根据第一用户某一较长的时间段内在各个第二用户产生的历史操作行为信息,确定第一用户的优质指数,将其作为第一用户的双边优质指数的基础值;具体在获取第一用户的优质指数时,可以根据第一用户在预置时间段内发生购买行为的次数、浏览商品对象的次数、购买行为对应的第二用户为特定第二用户的数目、第一用户的级别以及上述各参数的权重来确定。例如,具体的公式可以如下公式(1)所示:
其中,A1、A2、A3、A4分别为各个参数对应的权重,并且A1+A2+A3+A4=1。
其中,Tr(x)以及函数是在数据处理过程中为了使得所得结果更合理进行了的一些技巧性的处理,Percentile0.9(x)是0.9的分位数函数。
可见,在计算第一用户的得分基础值时,就已经考虑了其关联的第二用户是否为特定第二用户这种信息,因此,对于第一用户的得分而言,不存在“单边优质指数”的情况,都是双边优质指数,只不过后续仍然可以将最初获取到的得分作为基础值,进行多次更新。在得到了各个第一用户以及第二用户的双边优质指数基础值之后,就可以建立起数学模型对第二用户的双边优质指数以及第一用户的双边优质指数进行更新,当然,该数学模型应该能够体现出特定第二用户与特定第一用户之间相互影响相互促进的关系。
具体实现时,首先可以根据第一用户在一定时间段内的购买行为所对应的第二用户的优质指数等信息,来更新第一用户的优质指数。按照这样的方式完成几次更新之后,算法就会收敛,最终就可以为各个第一用户得到双边优质指数的取值,双边优质指数较高的第一用户就可以作为特定第一用户。当然,在使用第二用户的优质指数对第一用户的优质指数进行更新之后,相当于第一用户的优质指数也体现出了第二用户的影响。
例如,在实际应用中,可以通过以下公式(5)来更新第一用户的双边优质指数:
其中:
也就是说,在对第一用户的优质指数进行更新时,主要与以下信息有关:新的操作行为信息中该第一用户总的操作次数、该第一用户的各次操作行为中关联的第二用户为特定第二用户的数目、该第一用户分别在各个第二用户中的操作次数以及各个第二用户上一步的得分。例如,在电子商务交易平原中,在一段时间(一般可以一周更新一次,当然也可以是其他值)内产生的新的购买行为信息中该买方用户总的订单数(也即购买次数)、该买方用户关联的卖方用户为优质卖方用户的数目、该买方用户分别在各个卖方用户中的订单数以及各个卖方用户上一步的优质指数。其中,所谓的“上一步”的优质指数也就是指上一状态中卖方用户或者买方用户的优质指数,由于更新优质指数的过程相当于是一个迭代的过程,当前这一步计算出的优质指数与上一步的优质指数有关系。
I(x)这个函数的含义是:如果当前更新周期内第一用户关联的第二用户包括特定第二用户的数目大于等于某数值,则函数值才为1,否则函数值为0,也就是说,只有当第一用户在一个更新周期内关联了一定数目的特定第二用户,其优质指数才会更新,否则第一用户的优质指数保持不变。可见,在该算法中,第一用户只有关联了一定数目的特定第二用户,才会“吸收”第二用户的优质,提高其优质指数。这一点比较符合实际的情况,例如,如果一个买方用户偶然购买了一个或者少数几个优质卖方用户的商品,则并不能代表该买方用户就一定具有发现优质卖方用户的能力。
在对第一用户的优质指数进行更新的过程中,也会对第二用户的优质指数进行更新,这样,由于更新后的优质指数不仅体现了第二用户自身的统计数据,还体现了第一用户的影响,因此,可以逐渐成为“双边优质指数”。具体的,更新的算法可以是如下公式(6)所示:
(6)
也即就是说,更新后的第二用户优质指数与以下信息相关:新的操作信息中该第二用户关联的特定第一用户的数目、该第二用户被特定第一用户操作的总次数、该第二用户分别被各特定第一用户操作的总次数以及各个特定第一用户上一步的得分。例如,在电子商务交易平原中,可以包括:新的订单信息中该卖方用户对应的优质买方用户数目、该卖方用户被优质买方用户购买的总订单数、该卖方用户分别被各优质买方用户购买的订单数以及各个优质买方用户上一步的优质指数。类似的,也是只有当卖方用户关联的优质买方用户的数目达到某数值Q之后,才会对卖方用户双边优质指数进行更新,避免偶然性带来的误差。但与买方用户优质指数的更新不同的是,卖方用户是按照交易比例,吸收所有优质买方用户的优质。
总之,通过上述方式,可以逐步更新第一用户及第二用户的双边优质指数,最终,在算法收敛后,就可以根据各个第一用户的双边优质指数的取值,确定出哪些第一用户可以成为特定第一用户。
当然,在实际应用中,还可以预先根据第二用户在指定变量上的取值对第二用户进行过滤。例如,在电子商务平台中,一些作为第二用户的卖方用户可能是存在一些“炒信”的情况,即故意通过一些不良手段来提高自己店铺的信誉、评分等,因此,在提取优质卖方用户之前可以先将这部分卖方用户过滤掉,然后再计算从剩余的卖方用户中选择特定第二用户。具体在对卖方用户进行过滤时,可以从以下几个变量上进行限制:
正常订单所占的比例(也即卖方对象是否是大部分订单为正常状态);
店铺DSR
另外,也可以预先根据第一用户的特定操作行为信息对第一用户进行过滤。例如,在电子商务平台中,对于作为第一用户的买方用户而言,一般来说,只有“买的多”、“看的多”、“熟悉网络”、“有品位”并且不存在“炒信”行为的买方用户才可能成为优质买方用户。总之,作为优质买方用户,其购买的量不能太小,太小的话没有足够多的数据来支撑其代表性。当然,购买的量也不能过大,因为过大的话有可能是批发商,无法体现买方在某方面的代表性。因此,在提取优质买方之前也可以首先对买方对象进行过滤,具体的,可以通过以下几个变量上进行控制:
半年内的购买次数;
近一个月内的浏览次数;
买方对象的等级;
正常购买行为的比例;
买方对象在宝贝DSR低于行业平均值的卖方对象中购买次数占比。
只有以上几个变量上的取值都符合要求的买方用户才会进入到后续计算优质指数,以及进一步判断其是否属于特定第一用户的过程。
需要说明的是,在实际应用中,第一用户以及第二用户一般都能够分为多个类别。基于同一类的第一用户进行信息推荐时,可以进一步提高推荐的有效性。因此,具体实现时,可以预先根据第一用户的基本属性将所有第一用户划分为至少两个类别,针对每个类别建立各自的特定第一用户集合。这样,在信息推荐应用中,具体在确定与当前用户相似的特定第一用户时,可以首先确定出当前用户所属的类别,然后从该类别的特定第一用户集合中查找与当前用户的相似度符合预置条件的目标特定第一用户。当然,如果该类别的特定第一用户集合中,与当前用户的相似度符合条件的目标特定第一用户的数目比较多,则可以根据目标特定第一用户的操作行为信息记录,向当前用户提供推荐信息。而如果该类别的特定第一用户集合中,与当前用户的相似度符合条件的目标特定第一用户的数目小于某阈值,则可以从该类别的所有第一用户中,查找与当前用户的相似度符合条件的目标第一用户,然后利用这些第一用户的历史操作信息为当前用户提供推荐信息。
例如,在交易平台中的商品对象数目众多,交易平台一般会按照商品类目(服装类、数码类等等)进行分类管理;对于卖方用户以及买方用户而言,与类目也一般具有一定的关系,例如,卖方用户一般具有自己的主营类目,因此,可以按照卖方用户的主营类目,将卖方用户划分为多个类目。同时,买方用户也一般具有自己喜欢的类目,例如有的买方用户喜欢服装类,还有的买方用户则喜欢购买数码类,因此,按照买方用户喜欢的类目可以将买方用户划分为多个买方用户类别(通常,可以将同一类别下的买方用户称为一个“微群”)。当然,喜欢购买服装类的买方用户对数码类的了解就不够高,相应的,喜欢购买数码类的买方用户对服装类的了解也比较低。因此,在实际应用中,在获取优质买方用户时,可以是分别获取各个微群中的优质买方用户,当然,同一个买方用户有可能在多个微群中都属于优质买方用户。
在获取各个类别中的特定第一用户时,具体的方法从大的思路上来看与前文所述也是相同的,只不过在从系统中提取第一用户属性信息、第二用户属性信息、以及第一用户与第二用户之间的关联关系属性信息时,需要局限在一定的范围内,而不是所有的信息都提取。
例如,如果需要提取服装类微群中的优质买方用户,则在计算买方用户的双边优质指数基础值时,则应该提取买方用户在购买服装类商品对象过程中的购买行为信息,后续在更新优质指数的过程中,也是获取在一定时间段内新产生的关于服装类商品对象的购买行为信息。另外,前文所述的对买方用户进行过滤时,也可以是根据卖方用户在某类目下的对应属性进行过滤。而对于卖方用户而言,如果当前需要获取某微群中的优质买方用户,则可以在前文所述的对卖方用户进行过滤时进行限制,也即,除了限制“非炒信”等条件之外,还要根据卖方用户的主营类目进行过滤,如果卖方用户的主营类目是当前微群对应的类目,则留下进行后续的优质指数计算,否则过滤掉。
总之,在本申请实施例中,能够根据系统中记录的第一用户以及第二用户的各项数据,挖掘出其中包含的特定第一用户集合及特定第二用户集合,因此,最终能够更客观、全面地建立起特定第一用户集合及特定第二用户集合,进而可以为信息推荐等应用或服务提供数据基础。另外,在挖掘的过程中考虑了特定第二用户对评判特定第一用户的影响,因此,使得建立起的第一用户集合更接近实际的情况,更符合具体应用环境的需要。
当然,还可以利用新获取到的操作行为信息,对特定第一用户集合及特定第二用户集合进行更新,在更新的过程中,充分体现出特定第一用户与特定第二用户之间的相互影响,因此进一步优化了特定第一用户集合,并且也是的特定第二用户集合也能反映出特定第一用户对其的影响,更真实地反映出实际应用中的情况。
与本申请实施例提供的特定用户信息获取方法相对应,本申请实施例还提供了一种特定用户信息获取装置,参见图2,所述装置包括:
操作行为信息获取单元201,用于获取系统中记录的各个第一用户的操作行为信息;
统计数据获取单元202,用于获取系统中记录的各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;
特定第二用户集合建立单元203,用于根据第二用户在各个变量上的取值建立特定第二用户集合;
判断单元204,用于根据所述第一用户的操作行为信息以及所述特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;其中,某第一用户关联的第二用户是指该第一用户的操作对象对应的第二用户;
特定第二用户集合建立单元205,用于根据判断结果以及所述第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;
接口单元206,用于接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。
其中,该装置还可以包括:
第一更新单元,用于根据第一用户在指定时间段内产生的新的操作行为信息,以及操作行为中关联的第二用户是否为特定第二用户,重新确定各个第一用户是否为特定第一用户,并根据重新确定的结果更新所述特定第一用户集合;
第二更新单元,用于根据第二用户在指定时间段内产生的新的操作信息,以及新的操作信息中关联的第一用户是否为特定第一用户,重新确定各个第二用户是否为特定第二用户,并根据重新确定的结果更新所述特定第二用户集合。
其中,在重新确定各个第一用户是否为特定第一用户时,与以下信息相关:
新的操作行为信息中该第一用户总的操作次数、该第一用户的各次操作行为中关联的第二用户为特定第二用户的数目、该第一用户分别在各个第二用户中的操作次数以及各个第二用户上一步的计算结果。
在重新确定各个第二用户是否为特定第一用户时,与以下信息相关:
新的操作信息中该第二用户关联的特定第一用户的数目、该第二用户被特定第一用户操作的总次数、该第二用户分别被各特定第一用户操作的总次数以及各个特定第一用户上一步的计算结果。
特定第二用户集合建立单元203具体在根据第二用户在各个变量上的取值建立特定第二用户集合时,可以通过以下方式实现:
分别基于各个变量对第二用户进行多次聚类,将能够将第二用户聚类为预置类别并且能够在各个类别之间体现出预置的区分度的变量确定为特定变量;
获取各个特定变量的权重,所述权重用于表明各个特定变量在体现所述区分度时的重要性;
根据所述特定变量及各自的权重建立第二用户的得分计算公式;
将各个第二用户在各个特定变量上的取值代入到所述计算公式中,计算出各个第二用户的得分;
将得分满足第一预置条件的第二用户确定为特定第二用户。
具体在获取各个优质变量的权重时,可以如下进行:
利用所述特定变量以及各个特定变量的初始权重为各个第二用户打分,将各个类别中得分最高的预置数目的第二用户标注为对应类别中的极端样本;其中,各个特定变量的初始权重相等;
基于所述极端样本,利用半监督分类算法进行预置次数的循环学习,逐步更新各个特定变量的权重,其中,每次学习时进行以下操作:
基于各个类别中的已标注样本集合,更新各个特定变量的权重;其中,在首次学习时,所述已标注样本集合由所述极端样本组成;
计算其他第二用户与各已标注样本之间的相似度,对置信度满足预置条件的第二用户进行类别标注,以便将新标注的第二用户加入到对应类别的已标注样本集合中,供下一次半监督分类学习使用。
为了使得得到的各个优质变量的权重更符合实际情况,还可以包括:
利用半监督回归算法进行预置次数的循环学习,逐步更新各个特定变量的权重,其中,每次学习时进行以下操作:
利用所述半监督学习得到的各个特定变量的权重对已标注样本集合中的各个样本进行打分;其中,在首次学习时,所述已标注样本集合由所述极端样本组成;
基于已打分样本集合中的样本,更新各个特定变量的权重;
计算其他第二用户与各已打分样本之间的相似度,对置信度满足预置条件的第二用户进行打分,以便将新打分的第二用户加入到对应类别的已打分样本集合中,供下一次半监督回归学习使用。
所述系统包括电子商务交易平台,所述特定变量包括以下各变量中的一个或多个:好评率、再次发生相关行为信息的比率、商品对象在线成交率、商品对象的收藏率、服务评级系统中的得分高于平均值的比例、商品对象详情页面带来页面浏览次数的转化率、站内搜索带来页面浏览次数的比例、相关即时通信系统中的响应率、从用户确认订单到货品发出之间的时间差。
其中,所述系统包括电子商务交易平台,在分别基于各个变量对第二用户进行多次聚类时,每次聚类均为二维聚类,以第二用户的销售额信息为一个维度,以其他各个变量中一个变量为另一个维度。
在具体实现时,还可以预先根据第二用户在指定变量上的取值对第二用户进行过滤。另外还可以预先根据第一用户的特定操作行为信息对第一用户进行过滤。
在实际应用中,不同的类目可以对应有不同的特定第一用户集合及特定第二用户集合;
此时,所述操作行为信息获取单元201具体可以用于:获取系统中记录的该类目下各个第一用户的操作行为信息;
所述统计数据获取单元202具体可以用于:获取系统中记录的该类目下各个第二用户的统计数据。
其中,接口单元206具体可以用于:接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以便所述相关应用程序根据所述特定第一用户集合和/或特定第二用户集合,向当前用户进行信息推荐。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的特定用户信息获取方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种特定用户信息获取方法,其特征在于,包括:
获取系统中记录的各个第一用户的操作行为信息;
获取系统中记录的各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;
根据第二用户在各个变量上的取值建立特定第二用户集合;
根据所述第一用户的操作行为信息以及所述特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;其中,某第一用户关联的第二用户是指该第一用户的操作对象对应的第二用户;
根据判断结果以及所述第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;
接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过以下各步骤对特定第一用户集合及特定第二用户集合进行循环更新:
根据第一用户在指定时间段内产生的新的操作行为信息,以及操作行为中关联的第二用户是否为特定第二用户,重新确定各个第一用户是否为特定第一用户,并根据重新确定的结果更新所述特定第一用户集合;
根据第二用户在指定时间段内产生的新的操作信息,以及新的操作信息中关联的第一用户是否为特定第一用户,重新确定各个第二用户是否为特定第二用户,并根据重新确定的结果更新所述特定第二用户集合。
3.根据权利要求2所述的方法,其特征在于,在重新确定各个第一用户是否为特定第一用户时,与以下信息相关:
新的操作行为信息中该第一用户总的操作次数、该第一用户的各次操作行为中关联的第二用户为特定第二用户的数目、该第一用户分别在各个第二用户中的操作次数以及各个第二用户上一步的计算结果。
4.根据权利要求2所述的方法,其特征在于,在重新确定各个第二用户是否为特定第一用户时,与以下信息相关:
新的操作信息中该第二用户关联的特定第一用户的数目、该第二用户被特定第一用户操作的总次数、该第二用户分别被各特定第一用户操作的总次数以及各个特定第一用户上一步的计算结果。
5.根据权利要求1所述的方法,其特征在于,所述根据第二用户在各个变量上的取值建立特定第二用户集合,包括:
分别基于各个变量对第二用户进行多次聚类,将能够将第二用户聚类为预置类别并且能够在各个类别之间体现出预置的区分度的变量确定为特定变量;
获取各个特定变量的权重,所述权重用于表明各个特定变量在体现所述区分度时的重要性;
根据所述特定变量及各自的权重建立第二用户的得分计算公式;
将各个第二用户在各个特定变量上的取值代入到所述计算公式中,计算出各个第二用户的得分;
将得分满足第一预置条件的第二用户确定为特定第二用户。
6.根据权利要求5所述的方法,其特征在于,所述获取各个特定变量的权重包括:
利用所述特定变量以及各个特定变量的初始权重为各个第二用户打分,将各个类别中得分最高的预置数目的第二用户标注为对应类别中的极端样本;其中,各个特定变量的初始权重相等;
基于所述极端样本,利用半监督分类算法进行预置次数的循环学习,逐步更新各个特定变量的权重,其中,每次学习时进行以下操作:
基于各个类别中的已标注样本集合,更新各个特定变量的权重;其中,在首次学习时,所述已标注样本集合由所述极端样本组成;
计算其他第二用户与各已标注样本之间的相似度,对置信度满足预置条件的第二用户进行类别标注,以便将新标注的第二用户加入到对应类别的已标注样本集合中,供下一次半监督分类学习使用。
7.根据权利要求6所述的方法,其特征在于,还包括:
利用半监督回归算法进行预置次数的循环学习,逐步更新各个特定变量的权重,其中,每次学习时进行以下操作:
利用所述半监督学习得到的各个特定变量的权重对已标注样本集合中的各个样本进行打分;其中,在首次学习时,所述已标注样本集合由所述极端样本组成;
基于已打分样本集合中的样本,更新各个特定变量的权重;
计算其他第二用户与各已打分样本之间的相似度,对置信度满足预置条件的第二用户进行打分,以便将新打分的第二用户加入到对应类别的已打分样本集合中,供下一次半监督回归学习使用。
8.根据权利要求5至7任一项所述的方法,其特征在于,其中,所述系统包括电子商务交易平台,所述特定变量包括以下各变量中的一个或多个:好评率、再次发生相关行为信息的比率、商品对象在线成交率、商品对象的收藏率、服务评级系统中的得分高于平均值的比例、商品对象详情页面带来页面浏览次数的转化率、站内搜索带来页面浏览次数的比例、相关即时通信系统中的响应率、从用户确认订单到货品发出之间的时间差。
9.根据权利要求5至7任一项所述的方法,其特征在于,其中,所述系统包括电子商务交易平台,在分别基于各个变量对第二用户进行多次聚类时,每次聚类均为二维聚类,以第二用户的销售额信息为一个维度,以其他各个变量中一个变量为另一个维度。
10.根据权利要求1至7任一项所述的方法,其特征在于,还包括:
预先根据第二用户在指定变量上的取值对第二用户进行过滤。
11.根据权利要求1至7任一项所述的方法,其特征在于,还包括:
预先根据第一用户的特定操作行为信息对第一用户进行过滤。
12.根据权利要求1至7任一项所述的方法,其特征在于,所述系统中存在至少两个用户类目,每个类目下具有各自的第一用户集合以及第二用户集合,分别为各个类目建立特定第一用户集合和/或特定第二用户集合;其中,在为某类目建立特定第一用户集合和/或特定第二用户集合时,
所述获取系统中记录的各个第一用户的操作行为信息包括:
获取系统中记录的该类目下各个第一用户的操作行为信息;
所述获取系统中记录的各个第二用户的统计数据包括:
获取系统中记录的该类目下各个第二用户的统计数据。
13.根据权利要求1至7任一项所述的方法,其特征在于,所述接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用,包括:
接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以便所述相关应用程序根据所述特定第一用户集合和/或特定第二用户集合,向当前用户进行信息推荐。
14.一种特定用户信息获取装置,其特征在于,包括:
操作行为信息获取单元,用于获取系统中记录的各个第一用户的操作行为信息;
统计数据获取单元,用于获取系统中记录的各个第二用户的统计数据,所述统计数据包括第二用户在预置的多个变量上的取值;
特定第二用户集合建立单元,用于根据第二用户在各个变量上的取值建立特定第二用户集合;
判断单元,用于根据所述第一用户的操作行为信息以及所述特定第二用户集合信息,判断在第一用户的操作行为中,第一用户关联的第二用户是否为特定第二用户;其中,某第一用户关联的第二用户是指该第一用户的操作对象对应的第二用户;
特定第二用户集合建立单元,用于根据判断结果以及所述第一用户的操作行为信息,确定各个第一用户是否为特定第一用户,并建立特定第一用户集合;
接口单元,用于接收到相关应用程序的访问请求时,返回所述特定第一用户集合和/或特定第二用户集合的信息,以供所述相关应用程序使用。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310244476.5A CN104239335B (zh) | 2013-06-19 | 2013-06-19 | 特定用户信息获取方法及装置 |
HK15103040.7A HK1202667A1 (zh) | 2013-06-19 | 2015-03-25 | 特定用戶信息獲取方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310244476.5A CN104239335B (zh) | 2013-06-19 | 2013-06-19 | 特定用户信息获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104239335A true CN104239335A (zh) | 2014-12-24 |
CN104239335B CN104239335B (zh) | 2017-10-27 |
Family
ID=52227422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310244476.5A Active CN104239335B (zh) | 2013-06-19 | 2013-06-19 | 特定用户信息获取方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104239335B (zh) |
HK (1) | HK1202667A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133811A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种目标用户的识别方法和装置 |
CN107169052A (zh) * | 2017-04-26 | 2017-09-15 | 北京小度信息科技有限公司 | 推荐方法及装置 |
CN108269117A (zh) * | 2017-01-03 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 数据的推送、确定方法及装置、计算机终端 |
CN108305099A (zh) * | 2018-01-18 | 2018-07-20 | 阿里巴巴集团控股有限公司 | 确定代购用户的方法及装置 |
CN108319595A (zh) * | 2017-01-16 | 2018-07-24 | 北京金山云网络技术有限公司 | 一种应用程序数据分析方法及装置 |
CN109961309A (zh) * | 2017-12-25 | 2019-07-02 | 网智天元科技集团股份有限公司 | 业务推荐方法和系统 |
CN111782941A (zh) * | 2016-05-11 | 2020-10-16 | 阿里巴巴集团控股有限公司 | 信息推荐方法、装置及服务器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270250A1 (en) * | 2007-04-26 | 2008-10-30 | Ebay Inc. | Flexible asset and search recommendation engines |
CN102339445A (zh) * | 2010-07-23 | 2012-02-01 | 阿里巴巴集团控股有限公司 | 对网络交易用户的可信度进行评价的方法和系统 |
CN102750647A (zh) * | 2012-06-29 | 2012-10-24 | 南京大学 | 一种基于交易网络的商家推荐方法 |
-
2013
- 2013-06-19 CN CN201310244476.5A patent/CN104239335B/zh active Active
-
2015
- 2015-03-25 HK HK15103040.7A patent/HK1202667A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270250A1 (en) * | 2007-04-26 | 2008-10-30 | Ebay Inc. | Flexible asset and search recommendation engines |
CN102339445A (zh) * | 2010-07-23 | 2012-02-01 | 阿里巴巴集团控股有限公司 | 对网络交易用户的可信度进行评价的方法和系统 |
CN102750647A (zh) * | 2012-06-29 | 2012-10-24 | 南京大学 | 一种基于交易网络的商家推荐方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133811A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种目标用户的识别方法和装置 |
WO2017148272A1 (zh) * | 2016-02-29 | 2017-09-08 | 阿里巴巴集团控股有限公司 | 一种目标用户的识别方法和装置 |
CN111782941A (zh) * | 2016-05-11 | 2020-10-16 | 阿里巴巴集团控股有限公司 | 信息推荐方法、装置及服务器 |
CN111782941B (zh) * | 2016-05-11 | 2023-12-12 | 创新先进技术有限公司 | 信息推荐方法、装置及服务器 |
CN108269117A (zh) * | 2017-01-03 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 数据的推送、确定方法及装置、计算机终端 |
CN108319595A (zh) * | 2017-01-16 | 2018-07-24 | 北京金山云网络技术有限公司 | 一种应用程序数据分析方法及装置 |
CN107169052A (zh) * | 2017-04-26 | 2017-09-15 | 北京小度信息科技有限公司 | 推荐方法及装置 |
CN109961309A (zh) * | 2017-12-25 | 2019-07-02 | 网智天元科技集团股份有限公司 | 业务推荐方法和系统 |
CN109961309B (zh) * | 2017-12-25 | 2021-09-28 | 网智天元科技集团股份有限公司 | 业务推荐方法和系统 |
CN108305099A (zh) * | 2018-01-18 | 2018-07-20 | 阿里巴巴集团控股有限公司 | 确定代购用户的方法及装置 |
CN108305099B (zh) * | 2018-01-18 | 2021-11-19 | 创新先进技术有限公司 | 确定代购用户的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
HK1202667A1 (zh) | 2015-10-02 |
CN104239335B (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239338A (zh) | 信息推荐方法及装置 | |
CN108521439B (zh) | 一种消息推送的方法和装置 | |
CN104239335A (zh) | 特定用户信息获取方法及装置 | |
CN105868847A (zh) | 一种购物行为的预测方法及装置 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
CN108805598B (zh) | 相似度信息确定方法、服务器及计算机可读存储介质 | |
CN105469263A (zh) | 一种商品推荐方法及装置 | |
CN105556512A (zh) | 用于分析关注实体特性的设备、系统以及方法 | |
CN103824192A (zh) | 混合推荐系统 | |
CN104866484A (zh) | 一种数据处理方法和装置 | |
CN103164804A (zh) | 一种个性化的信息推送方法及装置 | |
CN103678518A (zh) | 一种推荐列表调整方法和装置 | |
US20200234218A1 (en) | Systems and methods for entity performance and risk scoring | |
Lee et al. | Fundamentals of big data network analysis for research and industry | |
CN105335518A (zh) | 生成用户偏好信息的方法及装置 | |
CN105095311A (zh) | 推广信息的处理方法、装置及系统 | |
CN111612581A (zh) | 一种物品推荐的方法、装置、设备及存储介质 | |
Squires et al. | House price affordability, the global financial crisis and the (ir) relevance of mortgage rates | |
CN111861605A (zh) | 业务对象推荐方法 | |
CN116823498A (zh) | 一种基于大数据分析和机器学习的个性化保险产品推荐引擎系统 | |
Putri et al. | Big data and strengthening msmes after the covid-19 pandemic (development studies on batik msmes in east java) | |
Chernenko et al. | Information system of economic and mathematical modelling of pricing in the residential sector of Ukraine | |
CN112801803B (zh) | 一种理财产品推荐方法和装置 | |
CN111680213A (zh) | 信息推荐方法、数据处理方法及装置 | |
WO2011031795A1 (en) | Web-based interactive geographic information systems mapping analysis and methods for improving business performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1202667 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1202667 Country of ref document: HK |