CN107369058A - 一种关联推荐方法及服务器 - Google Patents

一种关联推荐方法及服务器 Download PDF

Info

Publication number
CN107369058A
CN107369058A CN201610323275.8A CN201610323275A CN107369058A CN 107369058 A CN107369058 A CN 107369058A CN 201610323275 A CN201610323275 A CN 201610323275A CN 107369058 A CN107369058 A CN 107369058A
Authority
CN
China
Prior art keywords
article
user
sample
mark
associated article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610323275.8A
Other languages
English (en)
Inventor
张观侣
胡楠
曹国祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610323275.8A priority Critical patent/CN107369058A/zh
Publication of CN107369058A publication Critical patent/CN107369058A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种关联推荐方法及服务器,涉及数据挖掘推荐领域,包括:获取网络平台的目标用户选中的被关联物品的标识;根据被关联物品的标识确定出候选关联物品;向关联推荐模型输入候选关联物品,利用关联推荐模型生成推荐列表;向目标用户呈现推荐列表;关联推荐模型是根据平台用户的第一类历史操作以及平台用户的第二类历史操作生成的;第一类历史操作是平台用户在网络平台的关联推荐页面进行的操作,第二类历史操作是平台用户在网络平台的非关联推荐页面进行的操作。

Description

一种关联推荐方法及服务器
技术领域
本发明涉及数据挖掘推荐领域,尤其涉及一种关联推荐方法及服务器。
背景技术
这是一个信息过载的时代,面对海量的数据,用户越来越难以找到他们需要的信息。搜索引擎逐渐成为人们快速获取目标信息的有效途径,用户通过在搜索引擎输入关键字快速找到自己需要的信息。但是,当用户需求不明确或者难以用简单的关键字来描述时,就难以搜索引擎来获取到需要的信息了。为了更好地满足用户的需求,衍生出了推荐系统。
推荐系统能够根据用户在网站上的一系列行为,为用户提供商品推荐服务,其重要部分是关联推荐。所谓关联推荐是用户点击或浏览物品时,系统为用户推荐相关或者用户感兴趣的其它物品。目前,主要的关联推荐算法有基于机器学习的推荐算法等。
基于机器学习的推荐算法包括样本采集、特征提取、模型训练、模型预测等步骤。这种算法需要进行大量有效的数据训练,根据训练数据确定推荐模型。其中,训练数据一般是由关联推荐模型采集的数据,在采集过程中关联推荐模型往往会屏蔽很多可能的关联样本,造成样本不够丰富的问题,进而导致推荐效果不是很理想。目前来说有一些针对这种缺陷的方法,例如从互联网上收集用户的相关信息加入到训练样本中,这种方法收集的数据只是充实了用户维度的刻画,实际上并没有彻底的解决样本不丰富的问题。
发明内容
本发明实施提供一种关联推荐方法及服务器,能够丰富关联样本,提高关联推荐方法的推荐效果。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,公开了一种关联推荐方法,包括:
获取网络平台的目标用户选中的被关联物品的标识,该目标用户是在网络平台进行操作的用户。根据所述被关联物品的标识确定出候选关联物品,所述候选关联物品是与所述被关联物品相关的物品,可以是属性相关、也可以是逻辑上的相关。如:电饭煲、榨汁机都是厨房用品,可以确定电饭煲、榨汁机是相关的物品。接着将所述候选关联物品作为所述关联推荐模型的输入,利用所述关联推荐模型生成推荐列表,所述推荐列表包含符合预设条件的候选关联物品,是所述关联推荐模型根据所述候选关联物品中符合预设条件的候选关联物品生成的。也就是说推荐模型的输入为候选关联物品,输出就是为该目标用户生成的推荐列表。最后,向所述目标用户呈现所述推荐列表。
其中,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,如:下载、浏览或购买关联推荐页面向用户推荐的关联物品。所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作,如:在游戏页面或网络平台首页等下载物品的操作。所述平台用户是在所述网络平台进行操作的用户。通常认为用户的下载、购买操作为正例,浏览操作为负例,所述关联推荐页面根据所述平台用户的操作为所述平台用户推荐关联物品,非关联推荐页面不会根据所述平台用户的操作为所述平台用户推荐关联物品。
另外,在本发明中,网络平台是涉及关联推荐场景的平台,可以是网购平台,也可以是应用下载平台,也可以是搜索引擎平台。
现有推荐算法进行大量的数据训练,根据训练数据确定推荐模型。所采用的训练数据一般是由关联推荐模型采集的数据,在采集过程中关联推荐模型往往会屏蔽很多可能的关联样本,如用户在其他页面点击(即下载)过的物品,这样就会造成样本不够丰富的问题,进而根据这些训练样本确定出来的关联推荐模型为用户推荐的关联物品也不够丰富,导致推荐效果不是很理想。
本发明中的训练样本包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,这样,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
结合第一方面,在第一方面的第一种可能的实现方式中,所述获取网络平台的目标用户选中的被关联物品的标识之前,所述方法还包括:
根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合;利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型。
这样,就可以收集到更丰富的训练样本,进而得到的推荐模型就可以为用户推荐出更丰富的关联物品,提高关联推荐的效果。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合具体包括:
首先,根据用户在网络平台的关联推荐页面进行的第一类历史操作获取一部分训练样本(即现有技术),具体地,获取所述网络平台的日志信息中的第一类四元组信息,该第一类四元组信息是用户进行所述第一类历史操作生成的,所述第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符;所述操作标识符用于指示所述第一类历史操作为正例或负例。示例的,第一类四元组信息可以是:<用户标识、关联物品、被关联物品、操作标识符>。
其次,需要根据用户在网络平台的关联推荐页面进行的第二类历史操作获取一部分训练样本,具体地,针对每一个所述平台用户,确定所述平台用户进行第二类历史操作对应的N个物品,将所述第二历史操作对应的物品两两组合,获得个样本组合。根据每一个所述平台用户的样本组合,确定样本组合集合;所述样本组合集合包括的样本组合互不相同。确定所有样本组合集合包括的样本组合中支持度数值大于等于第一门限阈值的样本组合为候选样本组合,确定所述候选样本组合的第二类四元组信息;所述第二类四元组信息用户标识、关联物品的标识、被关联物品的标识、正例标识符。也就是说需要根据样本组合去构造包含该样本组合的四元组信息,其中,被关联物品、关联物品分别是样本组合中的物品,有几个用户下载过该样本组合中的物品,就可以构造多少个包含不同用户标识的四元组信息,当然,由于是根据用户历史下载物品获取的样本组合,因此构造出的四元组信息的操作标识符均为正例标识符。
示例的,样本组合<a,b>,下载过a的用户有用户1、用户2,下载过b的用户有用户3,可见有3个用户下载过该样本组合中的物品,因此该样本组合对应有3个四元组信息,分别是<用户1、a、b、正例>,<用户2、a、b、正例>,<用户3、a、b、正例>。
最后,将所述第一类四元组信息与所述第二类四元组信息组合,构成所述训练样本集合。
需要说明一点,这里所述的用户泛指在该网络平台进行过操作的用户,这里的操作可以是下载、浏览或者购买。另外,所谓样本组合的支持度数值,即该样本组合在所有购买事件中出现的次数,示例的,样本组合是<a,b>,该样本组合的支持度数值即在所有购买事件同时购买a,b的事件出现的次数。
这样,本发明中的训练样本不仅包括用户在网络平台的关联推荐页面的关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,极大地丰富了训练样本的数量、种类。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述构成所述训练样本集合之后,所述方法还包括:
确定所述训练样本集合的特征集合;所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性。其中,所述样本用户是所述训练样本集合包括的所有用户标识指示的用户,所述样本物品是所述训练样本集合包括的关联物品和被关联物品。
也就是说,在具体实现中,还需要将训练样本集合特征化,以便更具体地表述样本用户以及样本物品的特征及互相之间的关联性。用户特征用于描述用户的属性特征,示例的,<男性,学生,22岁>就可以是一组用户特征。具体实现中,可以通过笛卡尔积表达关联特征,在此不作详述,后续实施例将给出详细的实现方式。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型具体包括:
将所述训练样本集合、所述训练样本集合的所述特征集合作为候选模型的输入,利用预设算法对所述训练样本集合以及所述特征集合进行训练,获得所述关联推荐模型。
结合第一方面,在第一方面的第五种可能的实现方式中,所述根据所述被关联物品的标识确定出候选关联物品具体包括:
根据所述被关联物品的标识确定所述被关联物品的属性特征,根据所述被关联物品的属性特征确定关联物品集合;所述关联物品集合包括与所述被关联物品相关的物品;
获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数;
将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
需要说明的是,还可以根据确定的候选关联物品生成候选推荐列表,若所述候选推荐列表的长度小于第三门限阈值,则在所述推荐列表中增加关联物品,使得所述推荐列表的长度等于所述第三门限阈值。
另外,这里增加的关联物品可以是原系统推荐给用户的关联物品,也可以是关联物品集合中下载次数小于第二门限阈值的候选关联物品。
结合第一方面的第一种可能的实现方式中,在本发明的第六种可能的实现方式中,
所述利用推荐模型在所述候选关联物品中选中符合预设条件的候选关联物品,根据所述符合预设条件的候选关联物品生成推荐列表具体包括:
确定所有所述候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识;
将所有所述候选关联物品的三元组信息输入所述关联推荐模型,以便所述关联推荐模型确定每一个所述候选关联物品的打分值以及将所有所述候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
在本发明中,由于推荐模型建立时考虑了用户在非关联推荐页面下载过的物品(简称兴趣物品),因此推荐模型会固化有该用户与这类兴趣物品的关联关系,进而会对推荐模型对这一类兴趣物品的三元组信息的打分产生影响,使得这类物品的打分升高,可以存在于推荐列表中推荐给用户。而现有技术并不会考虑用户在非关联推荐页面下载过的物品。示例的,用户在用户在非关联推荐页面下载过物品A,且候选关联物品中包含物品A,依照现有技术,推荐模型对用户与物品A的关联关系并不敏感,对物品A的打分较低,进而推荐列表中不会包含物品A,可见现有技术为用户推荐的关联物品也不够丰富,推荐效果不是很理想。而本发明推荐模型则可以明确对物品A与用户的关联关系,进而物品A的打分较高,生成的推荐列表中包含物品A,能够根据用户的历史操作为用户推荐较为丰富、个性化的关联物品,有效提高了推荐效果。
第二方面,公开了一种服务器,包括:
获取单元,用于获取网络平台的目标用户选中的被关联物品的标识;
确定单元,用于根据所述获取单元获取的所述被关联物品的标识确定出候选关联物品;
推荐列表生成单元,用于向关联推荐模型输入所述确定单元确定的所述候选关联物品,利用所述关联推荐模型生成推荐列表;所述推荐列表包含符合预设条件的候选关联物品,是所述关联推荐模型根据所述候选关联物品中符合预设条件的候选关联物品生成的;
推荐列表呈现单元,用于向所述目标用户呈现所述列表生成单元生成的所述推荐列表;
其中,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作;所述平台用户是在所述网络平台进行操作的用户,所述关联推荐页面根据所述平台用户的操作为所述平台用户推荐关联物品。
在本发明中,网络平台是涉及关联推荐场景的平台,可以是网购平台,也可以是应用下载平台,也可以是搜索引擎平台。
现有推荐算法进行大量的数据训练,根据训练数据确定推荐模型。所采用的训练数据一般是由关联推荐模型采集的数据,在采集过程中关联推荐模型往往会屏蔽很多可能的关联样本,如用户在其他页面点击(即下载)过的物品,这样就会造成样本不够丰富的问题,进而根据这些训练样本确定出来的关联推荐模型为用户推荐的关联物品也不够丰富,导致推荐效果不是很理想。
本发明中的训练样本包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,这样,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
结合第二方面,在第二方面的第一种可能的实现方式,还包括模型生成单元,
所述模型生成单元用于,在所述获取单元获取网络平台的目标用户选中的被关联物品的标识之前,根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合;
利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型。
结合第二方面的第一种可能的实现方式,在第二方面的第一种可能的实现方式,所述模型生成单元具体用于,获取所述网络平台的日志信息中的第一类四元组信息;所述第一类四元组信息根据所述第一类历史操作生成的,所述第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符;所述操作标识符用于指示所述第一类历史操作为正例或负例;
针对每一个所述平台用户,确定所述平台用户进行第二类历史操作对应的N个物品,将所述第二历史操作对应的物品两两组合,获得个样本组合;
根据每一个所述平台用户的样本组合,确定样本组合集合;所述样本组合集合包括的样本组合互不相同;
确定所有样本组合集合包括的样本组合中支持度数值大于等于第一门限阈值的样本组合为候选样本组合;确定所述候选样本组合的第二类四元组信息;所述第二类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、正例标识符;
将所述第一类四元组信息与所述第二类四元组信息组合,构成所述训练样本集合。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式,还包括特征集合生成单元,
所述特征集合生成单元用于,确定所述训练样本集合的特征集合;所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性;
其中,所述样本用户是所述训练样本集合包括的所有用户标识指示的用户,所述样本物品是所述训练样本集合包括的关联物品和被关联物品。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式,所述模型生成单元具体用于,将所述训练样本集合、所述训练样本集合的所述特征集合作为候选模型的输入,利用预设算法对所述训练样本集合以及所述特征集合进行训练,获得所述关联推荐模型。
结合第二方面,在第二方面的第五种可能的实现方式,所述确定单元具体用于,根据所述被关联物品的标识确定所述被关联物品的属性特征,根据所述被关联物品的属性特征确定关联物品集合;所述关联物品集合包括与所述被关联物品相关的物品;
获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数;
将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
结合第二方面,在第二方面的第六种可能的实现方式,所述推荐列表生成单元具体用于,
确定每一个候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识;
将所有所述候选关联物品的三元组信息输入所述关联推荐模型,以便所述关联推荐模型确定每一个所述候选关联物品的打分值以及将所有所述候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是支持度算法示意图;
图1b是置信度算法示意图;
图2是本发明实施例提供的关联推荐系统的示意图;
图3是本发明实施例提供的表达物品之间的关联性的示意图;
图4是本发明实施例提供的服务器的结构框图;
图5是本发明实施例提供的关联推荐方法的流程示意图;
图6是本发明实施例提供的候选关联物品及候选推荐列表的生成示意图;
图7是本发明实施例提供的关联推荐模型的生成方法的流程示意图;
图8是本发明实施例提供的候选样本组合的生成方法的流程示意图;
图9是本发明实施例提供的服务器的另一结构框图;
图10是本发明实施例提供的服务器的另一结构框图;
图11是本发明实施例提供的服务器的另一结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
推荐系统能够根据用户在网站上的一系列行为,为用户提供商品推荐服务。其中,关联推荐主要用于在用户点击或浏览物品时,为用户推荐相关或者用户感兴趣的其它物品。
目前的关联推荐算法主要包括:关联规则推荐算法、基于机器学习的推荐算法等。其中,关联规则推荐算法是指通过算法发现物品的关联性。具体地,通过置信度和支持度来描述物品之间的关联性,当两个物品之间的支持度、置信度均超过了相应的阈值,则认为这两个物品之间的关联规则是有效的,进而可以在其中一个物品为被关联物品(用户下载或浏览的物品)时,将另外一个物品作为关联物品推荐给用户。以消费者在超市购买商品为例,如果把每一个消费者的一次购买看作一个事件。针对商品X和商品Y,通过二者之间的置信度和支持度评价从商品X到商品Y的关联规则。具体地,参考图1a,较大的集合A表示所有事件,较小的集合B表示同时购买商品X和商品Y的事件,集合B被包含在集合A中。支持度是指在所有事件中同时购买商品X和商品Y的事件所占比例。参考图1b,较大的集合C表示所有购买了商品X的事件,较小的集合D表示购买商品Y的事件,集合D被包含在集合C中。置信度则是在所有购买了商品X的事件中也购买商品Y的事件所占比例。如果支持度和置信度都超过了相应的阈值,则从X到Y的规则被认为是有效的。
通过关联规则推荐算法,可以将物品关联起来,进行关联推荐。但是这种推荐算法仅仅考虑了物品之间的关联性,没有参考用户的信息,不能进行个性化推荐,推荐效果不是很明显。
另外,基于机器学习的推荐算法中主要有样本采集、特征提取、模型训练、模型预测等步骤。需要大量有效的训练数据以确定出推荐模型。其中,训练数据的一般是关联推荐模型采集的数据,即已有关联推荐模型推荐的关联物品,根据用户推荐的关联物品的操作获得的数据。在采集的过程中往往会屏蔽很多可能的关联样本,如:用户网络平台的首页、游戏首页等非关联推荐页面下载的物品,造成训练样本不够丰富的问题,进而导致训练确定的推荐模型的推荐效果不是很理想。
基于此,本发明的原理在于:通过引入系统内关联推荐模型以外的数据,解决了关联推荐算法中样本量不足,相关性不强等问题,提高了个性化关联推荐模型的推荐效果。
本发明实施例提供一种关联推荐系统,如图2所示,包括:外部数据引入模块1、关联数据提取模块2、特征构造模块3、模型训练模块4、关联推荐模型5以及候选关联物品生成模块6。本发明需要收集除关联推荐模型推荐的关联物品以外的数据,丰富训练样本,再根据训练样本确定新的关联推荐模型。
具体地,参考图2,以任一网络平台(可以是网购平台或搜索引擎)为例,本发明提供的关联推荐方法包括以下步骤:S1.数据提取模块2从该网络平台的数据库提取所有在该网络平台操作的用户的日志信息,包括该系统原先的关联推荐模型记录的数据。在本发明中,这里提取的数据是推荐模型根据用户在所述网络平台的关联推荐页面进行的第一类历史操作生成的,所述第一类历史操作可以是下载、浏览或购买关联推荐页面向用户推荐的关联物品。
需要说明的是,这里提取的与用户在该网络平台进行的第一类历史操作有关的数据,是第一类四元组信息的形式。第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符。所述操作标识符用于指示所述第一类历史操作为正例或负例。示例的,第一类四元组信息可以是:<用户标识、关联物品、被关联物品、操作标识符>。通常认为用户的下载、购买操作为正例,浏览操作为负例。
S2.外部数据引入模块1获取首页模块、游戏模块等记录的数据。在本发明中,这里提取的数据是根据用户在所述网络平台的非关联推荐页面进行的第二类历史操作生成的,第二类历史操作可以是用户在游戏页面或网络平台首页等下载物品。
需要说明的是,这里提取的与用户在该网络平台进行的第二类历史操作有关的数据,是用户在非关联推荐页面下载过的物品。外部数据引入模块1首先确定所述第二类历史操作对应的N个物品,将所述第二历史操作对应的物品两两组合,获得个样本组合;确定所述个样本组合中支持度数值大于等于第一门限阈值的候选样本组合;确定所述候选样本组合的第二类四元组信息;所述第二类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、正例标识符。也就是说需要根据样本组合去构造包含该样本组合的四元组信息,其中,被关联物品、关联物品分别是样本组合中的物品,有几个用户下载过该样本组合中的物品,就可以构造多少个包含不同用户标识的四元组信息,当然,由于是根据用户历史下载物品获取的样本组合,因此构造出的四元组信息的操作标识符均为正例标识符。示例的,样本组合<a,b>,下载过a的用户有用户1、用户2,下载过b的用户有用户3,可见有3个用户下载过该样本组合中的物品,因此该样本组合对应有3个四元组信息,分别是<用户1、a、b、正例>,<用户2、a、b、正例>,<用户3、a、b、正例>。
另外,外部数据引入模块1、数据提取模块2会分别将其获取到的第二类四元组信息和第一类四元组信息传递给特征构造模块3,特征构造模块3会将第二类四元组信息和第一类四元组信息组合构成训练样本集合。
S3.特征构造模块3提取接收到的四元组信息的特征,构成特征集合。
所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性。其中,所述样本用户是所述训练样本集合包括的所有用户标识指示的用户,所述样本物品是所述训练样本集合包括的关联物品和被关联物品。
也就是说,在具体实现中,还需要将训练样本集合特征化,以便更具体地表述样本用户以及样本物品的特征及互相之间的关联性。用户特征用于描述用户的属性特征,示例的,<男性,学生,22岁>就可以是一组用户特征。具体实现中,可以通过笛卡尔积表达关联特征。
如图3所示,是表达物品之间的关联性(即上述关联特征指示的任意两个所述样本间的关联性)的示意图。具体地,首先表达出各个物品的属性,如属性1、属性2……属性n,接着再根据各个物品的属性确定有类似属性的物品为关联物品。示例的,物品1的属性为:<黑色、保暖、真皮>,物品2的属性为:<白色、保暖、棉>,由于二者均有“保暖”这一属性特征,因此可以确定物品1、物品3为关联物品。
另外,特征构造模块3会将训练样本集合(由第二类四元组信息和第一类四元组信息组合而成)、所述训练样本集合的特征集合传递给模型训练模块4。
S4.模型训练模块4训练样本,确定出关联推荐模型5。
具体地,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作;所述平台用户是在所述网络平台进行操作的用户,所述关联推荐页面根据所述平台用户的操作为所述平台用户推荐关联物品。
S5.候选关联物品生成模块6接收关联推荐请求,根据目标用户选中的被关联物品的标识确定出候选关联物品。
具体实现中,关联推荐系统后台检测到目标用户选中了被关联物品,则获取网络平台的目标用户选中的被关联物品的标识。接着根据被关联物品的标识确定出被关联物品,进而确定出被关联物品的属性特征,再对应每一个属性特征确定关联物品集合,所述关联物品集合包括与所述被关联物品相关的物品。接着获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数,并将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
示例的,被关联物品为鞋,鞋的属性特征可以是保暖物品、真皮类等。针对“保暖物品”这一属性特征确定的候选关联物品可以是围巾、帽子等,针对“真皮类”这一属性特征确定出的候选关联物品可以是皮包、钱包等。因此,被关联物品“鞋”对应的候选关联物品可以是“围巾、帽子、皮包、钱包”。
需要说明的是,该目标用户是在网络平台进行操作的用户。另外,还可以根据确定的候选关联物品生成候选推荐列表,若所述候选推荐列表的长度小于第三门限阈值,则在所述推荐列表中增加关联物品,使得所述推荐列表的长度等于所述第三门限阈值。
S6.将候选关联物品传递给关联推荐模型5。
S7.利用关联推荐模型5生成推荐列表。
具体地,关联推荐模型5在所述候选关联物品中选中符合预设条件的候选关联物品,根据所述符合预设条件的候选关联物品生成推荐列表,向所述目标用户呈现所述推荐列表。
也就是说,推荐模型的输入为候选关联物品,输出就是为该目标用户生成的推荐列表。
具体实现中,包括以下步骤:针对每一个候选关联物品,确定所述候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识。进而可以获得所有候选关联物品的三元组信息。
接着,将所有候选关联物品的三元组信息输入所述关联推荐模型。
关联推荐模型接收所有候选关联物品的三元组信息,根据每一个候选关联物品的三元组信息对其进行打分,就可以获得所有候选关联物品的打分值。另外,关联推荐模型还需要将所有候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
在本发明中,由于推荐模型建立时考虑了用户在非关联推荐页面下载过的物品(简称兴趣物品),因此推荐模型会固化有该用户与这类兴趣物品的关联关系,进而会对推荐模型对这一类兴趣物品的三元组信息的打分产生影响,使得这类物品的打分升高,可以存在于推荐列表中推荐给用户。而现有技术并不会考虑用户在非关联推荐页面下载过的物品。示例的,用户在用户在非关联推荐页面下载过物品A,且候选关联物品中包含物品A,依照现有技术,推荐模型对用户与兴趣物品的关联关系并不敏感,进而推荐列表中不会包含物品A,可见现有技术为用户推荐的关联物品也不够丰富,推荐效果不是很理想。而本发明推荐模型则会获取到物品A的下载次数,生成的推荐列表中包含物品A,能够根据用户的历史操作为用户推荐较为丰富、个性化的关联物品,有效提高了推荐效果。
另外,上述关联推荐系统运行于服务器中,如图4所示,所述服务器包括处理器101、接收器102、发射器103以及存储器104。存储器104中存储一组代码,处理器101调用存储器104中的代码程序实现上述外部数据引入模块1、关联数据提取模块2、特征构造模块3、模型训练模块4、关联推荐模型5以及候选关联物品生成模块6。具体实现中,处理器101将生成的推荐列表发送给客户端,由客户端的显示器将推荐列表显示给目标用户,以实现“向目标用户呈现所述推荐列表”。
需要说明的是,处理器101可以为中央处理器(英文:centralprocessing unit,缩写:CPU)。
发射器102可以由光发射器,电发射器,无线发射器或其任意组合实现。例如,光发射器可以是小封装可插拔(英文:small form-factorpluggable transceiver,缩写:SFP)发射器(英文:transceiver),增强小封装可插拔(英文:enhanced small form-factor pluggable,缩写:SFP+)发射器或10吉比特小封装可插拔(英文:10Gigabit small form-factorpluggable,缩写:XFP)发射器。电发射器可以是以太网(英文:Ethernet)网络接口控制器(英文:network interface controller,缩写:NIC)。无线发射器可以是无线网络接口控制器(英文:wireless network interfacecontroller,缩写:WNIC)。
接收器103可以由光接收器,电接收器,无线接收器或其任意组合实现。例如,光接收器可以是小封装可插拔接收器,增强小封装可插拔接收器或吉比特小封装可插拔接收器。电接收器可以是以太网网络接口控制器。无线接收器可以是无线网络接口控制器。
存储器104,用于存储程序代码,并将该程序代码传输给该处理器101,处理器101根据程序代码执行下述指令。存储器104可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器104(存储器204)也可以包括非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flashmemory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD)。存储器104(还可以包括上述种类的存储器的组合。
本发明实施例提供的关联推荐系统、服务器,收集的训练样本包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
实施例1:
本发明实施例提供一种关联推荐方法,如图5所示,所述方法包括以下步骤:
201、获取网络平台的目标用户选中的被关联物品的标识。
其中,所述目标用户是在网络平台进行操作的用户。具体实现中,当用户点击网络平台的某页面上的某一物品(即本发明所述的被关联物品),该网络平台内部自动获取该被关联物品的标识。
202、根据所述被关联物品的标识确定出候选关联物品;所述候选关联物品是与所述被关联物品相关的物品。
这里所谓的“相关”可以是属性相关,也可以是逻辑上的相关。具体实现中,根据所述被关联物品的标识确定所述被关联物品的属性特征,根据所述被关联物品的属性特征确定关联物品集合;所述关联物品集合包括与所述被关联物品相关的物品。
接着获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数,并将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
需要说明的是,还可以根据确定的候选关联物品生成候选推荐列表,若所述候选推荐列表的长度小于第三门限阈值,则在所述推荐列表中增加关联物品,使得所述推荐列表的长度等于所述第三门限阈值。
另外,这里增加的关联物品可以是原系统推荐给用户的关联物品,也可以是关联物品集合中下载次数小于第二门限阈值的候选关联物品。
示例的,电饭煲、榨汁机都是厨房用品(属性),可见二者的属性相关,因此可以确定电饭煲、榨汁机是相关的物品。
示例的,参考图6,被关联物品A对应的候选关联物品包括:关联物品B、关联物品C、关联物品D、关联物品E、关联物品F、关联物品H,过滤模块判断其中关联物品B、关联物品H的下载次数小于第二门限阈值,则将关联物品B、关联物品H滤除,将关联物品C、关联物品D、关联物品E、关联物品F确定为候选关联物品,生成候选推荐列表。
需要说明的是,若所述候选推荐列表的长度小于第三门限阈值,则在所述候选推荐列表中增加关联物品,使得所述候选推荐列表的长度等于所述第三门限阈值。示例的,参考图6,若生成的候选推荐列表的长度大于或等于第三门限阈值,则默认该候选推荐列表;若候选推荐列表的长度小于第三门限阈值,则将候选推荐列表中增加关联物品。这里增加的关联物品可以是原系统推荐给用户的关联物品,也可以是关联物品集合中下载次数小于第二门限阈值的关联物品。
203、向关联推荐模型输入所述候选关联物品,利用所述关联推荐模型生成推荐列表。
具体地,所述推荐列表包含符合预设条件的候选关联物品,是所述关联推荐模型根据所述候选关联物品中符合预设条件的候选关联物品生成的。
其中,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,如:下载、浏览或购买关联推荐页面向用户推荐的关联物品。所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作,如:在游戏页面或网络平台首页等下载物品的操作。所述平台用户是在所述网络平台进行操作的用户。不同于现有技术,本发明中的训练样本不但包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,这样,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
也就是说,将所述候选关联物品输入所述关联推荐模型,则输出的即为推荐列表。
具体实现中,可以包括以下步骤:包括以下步骤:针对每一个候选关联物品,确定所述候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识。进而可以获得所有候选关联物品的三元组信息。
接着,将所有候选关联物品的三元组信息输入所述关联推荐模型。
关联推荐模型接收所有候选关联物品的三元组信息,根据每一个候选关联物品的三元组信息对其进行打分,就可以获得所有候选关联物品的打分值。另外,关联推荐模型还需要将所有候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
所谓“符合预设条件”,即按照打分值降序顺序排列后的前K个候选关联物品。实际上就是推荐模型对候选推荐列表包括的候选关联物品进行打分、排序,将Top K个关联物品推荐给用户。
204、向所述目标用户呈现所述推荐列表。
在本发明的优选实施例中,本发明还提供一种关联推荐模型的生成方法,如图7所示,所述方法包括以下步骤:
301、获取所述网络平台的日志信息中的第一类四元组信息。
其中,所述第一类四元组信息根据所述第一类历史操作生成的,所述第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符;所述操作标识符用于指示所述第一类历史操作为正例或负例。示例的,第一类四元组信息可以是:<用户标识、关联物品、被关联物品、操作标识符>。通常认为用户的下载、购买操作为正例,浏览操作为负例。
302、确定所述第二类历史操作对应的候选样本组合。
具体地,针对每一个所述平台用户,确定所述平台用户进行所述第二类历史操作对应的N个物品,即所有用户在该网络平台的非关联推荐页面下载过的物品。将所述N个物品两两组合,获得个样本组合。根据每一个所述平台用户的样本组合,确定样本组合集合;所述样本组合集合包括的样本组合互不相同。确定样本组合集合包括的样本组合中支持度数值大于等于第一门限阈值的样本组合为候选样本组合。样本组合的支持度数值即该样本组合在所有事件中同时下载该样本组合的事件出现的次数。
示例的,参考图8,用户A下载过的物品为<abcd>,将物品abcd两两组合,得到的样本组合有<ab><ac><ad><bc><bd><cd>;用户B下载过的物品为<acd>,将物品acd两两组合,得到的样本组合有<cd><ac>
<ad>;用户C下载过的物品为<bde>,将物品bde两两组合,得到的样本组合有<bd><be><de>;用户D下载过的物品为<cd>,得到的样本组合就是<cd>。综合用户A~D对应的样本组合,统计模块最终获得的样本组合为<cd><ac><ad><bd><be><ab><bc><de>。
同时,各个样本组合的支持度分别为3、2、2、2、2、1、1、1,过滤模块滤除支持度小于1(这里假定1为第一门限阈值)的样本组合,则确定的候选样本组合为<cd><ac><ad><bd><be>。
303、确定所述候选样本组合的第二类四元组信息。
所述第二类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、正例标识符。
也就是说需要根据样本组合去构造包含该样本组合的四元组信息,其中,被关联物品、关联物品分别是样本组合中的物品,有几个用户下载过该样本组合中的物品,就可以构造多少个包含不同用户标识的四元组信息,当然,由于是根据用户历史下载物品获取的样本组合,因此构造出的四元组信息的操作标识符均为正例标识符。示例的,样本组合<a,b>,下载过a的用户有用户1、用户2,下载过b的用户有用户3,可见有3个用户下载过该样本组合中的物品,因此该样本组合对应有3个四元组信息,分别是<用户1、a、b、正例>,<用户2、a、b、正例>,<用户3、a、b、正例>。
304、将所述第一类四元组信息与所述第二类四元组信息组合,构成所述训练样本集合。
305、确定所述训练样本集合的特征集合。
其中,所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性。
也就是说,在具体实现中,还需要将训练样本集合特征化,以便更具体地表述样本用户以及样本物品的特征及互相之间的关联性。用户特征用于描述用户的属性特征,示例的,<男性,学生,22岁>就可以是一组用户特征。
305、将所述训练样本集合、所述训练样本集合的所述特征集合作为候选模型的输入,利用预设算法对所述训练样本集合以及所述特征集合进行训练,获得所述关联推荐模型。
其中,候选模型可以是很多监督学习的算法,例如SVM,神经网络等。预设算法是逻辑回归算法。示例的:候选模型可以是aX+b=Y,训练样本可以是大量的{X,Y}值,如{X=3,Y=1},这样就可以确定出a,b(如a=1,b=2),进而确定出推荐模型是X+2=Y。
本发明实施例提供的关联推荐方法,收集的训练样本包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
实施例2:
本发明实施例提供一种服务器,如图9所示,所述服务器包括:获取单元401、确定单元402、推荐列表生成单元403、推荐列表呈现单元404。
获取单元401,用于获取网络平台的目标用户选中的被关联物品的标识。
确定单元402,用于根据所述获取单元获取的所述被关联物品的标识确定出候选关联物品。
推荐列表生成单元403,用于向关联推荐模型输入所述确定单元确定的所述候选关联物品,利用所述关联推荐模型生成推荐列表;所述推荐列表包含符合预设条件的候选关联物品,是所述关联推荐模型根据所述候选关联物品中符合预设条件的候选关联物品生成的。
推荐列表呈现单元404,用于向所述目标用户呈现所述列表生成单元生成的所述推荐列表。
其中,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作;所述平台用户是在所述网络平台进行操作的用户。
在本发明中,网络平台是涉及关联推荐场景的平台,可以是网购平台,也可以是应用下载平台,也可以是搜索引擎平台。
现有推荐算法进行大量的数据训练,根据训练数据确定推荐模型。所采用的训练数据一般是由关联推荐模型采集的数据,在采集过程中关联推荐模型往往会屏蔽很多可能的关联样本,如用户在其他页面点击(即下载)过的物品,这样就会造成样本不够丰富的问题,进而根据这些训练样本确定出来的关联推荐模型为用户推荐的关联物品也不够丰富,导致推荐效果不是很理想。
本发明中的训练样本包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,这样,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
如图10所示,所述服务器还包括模型生成单元405。
所述模型生成单元405用于,在所述获取单元获取网络平台的目标用户选中的被关联物品的标识之前,根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合;
利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型。
所述模型生成单元405具体用于,获取所述网络平台的日志信息中的第一类四元组信息;所述第一类四元组信息根据所述第一类历史操作生成的,所述第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符;所述操作标识符用于指示所述第一类历史操作为正例或负例。
针对每一个所述平台用户,确定所述平台用户进行第二类历史操作对应的N个物品,将所述第二历史操作对应的物品两两组合,获得个样本组合。
根据每一个所述平台用户的样本组合,确定样本组合集合;所述样本组合集合包括的样本组合互不相同。
确定所有样本组合集合包括的样本组合中支持度数值大于等于第一门限阈值的样本组合为候选样本组合;确定所述候选样本组合的第二类四元组信息;所述第二类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、正例标识符。
将所述第一类四元组信息与所述第二类四元组信息组合,构成所述训练样本集合。
如图11所示,所述服务器还包括特征集合生成单元406。
所述特征集合生成单元406用于,确定所述训练样本集合的特征集合;所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性。
其中,所述样本用户是所述训练样本集合包括的所有用户标识指示的用户,所述样本物品是所述训练样本集合包括的关联物品和被关联物品。
所述模型生成单元405具体用于,将所述训练样本集合、所述训练样本集合的所述特征集合作为候选模型的输入,利用预设算法对所述训练样本集合以及所述特征集合进行训练,获得所述关联推荐模型。
所述确定单元402具体用于,根据所述被关联物品的标识确定所述被关联物品的属性特征,根据所述被关联物品的属性特征确定关联物品集合;所述关联物品集合包括与所述被关联物品相关的物品。
获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数。
将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
所述推荐列表生成单元404具体用于,确定每一个候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识。
将所有所述候选关联物品的三元组信息输入所述关联推荐模型,以便所述关联推荐模型确定每一个所述候选关联物品的打分值以及将所有所述候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
本发明实施例提供的服务器,收集的训练样本包括用户在网络平台的关联推荐页面进行操作的物品,如用户在关联推荐列表中浏览、下载或购买的物品,还包括用户其他非关联推荐页面(如:网络平台的首页、游戏首页等)下载过的物品,极大地丰富了训练样本的数量、种类,利用这些训练样本确定出来的关联推荐模型能够为用户推荐较为丰富的关联物品,有效提高了推荐效果。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种关联推荐方法,其特征在于,包括:
获取网络平台的目标用户选中的被关联物品的标识;
根据所述被关联物品的标识确定出候选关联物品;所述候选关联物品是与所述被关联物品相关的物品;
向关联推荐模型输入所述候选关联物品,利用所述关联推荐模型生成推荐列表;所述推荐列表包含符合预设条件的候选关联物品;
向所述目标用户呈现所述推荐列表;
其中,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作;所述平台用户是在所述网络平台进行操作的用户,所述关联推荐页面根据所述平台用户的操作为所述平台用户推荐关联物品。
2.根据权利要求1所述的方法,其特征在于,所述获取网络平台的目标用户选中的被关联物品的标识之前,所述方法还包括:
根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合;
利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合具体包括:
获取所述网络平台的日志信息中的第一类四元组信息;所述第一类四元组信息根据所述第一类历史操作生成的,所述第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符;所述操作标识符用于指示所述第一类历史操作为正例或负例;
针对每一个所述平台用户,确定所述平台用户进行第二类历史操作对应的N个物品,将所述第二历史操作对应的物品两两组合,获得个样本组合;
根据每一个所述平台用户的样本组合,确定样本组合集合;所述样本组合集合包括的样本组合互不相同;
确定所有样本组合集合包括的样本组合中支持度数值大于等于第一门限阈值的样本组合为候选样本组合;确定所述候选样本组合的第二类四元组信息;所述第二类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、正例标识符;
将所述第一类四元组信息与所述第二类四元组信息组合,构成所述训练样本集合。
4.根据权利要求3所述的方法,其特征在于,所述构成所述训练样本集合之后,所述方法还包括:
确定所述训练样本集合的特征集合;所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性;
其中,所述样本用户是所述训练样本集合包括的所有用户标识指示的用户,所述样本物品是所述训练样本集合包括的关联物品和被关联物品。
5.根据权利要求4所述的方法,其特征在于,所述利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型具体包括:
将所述训练样本集合、所述训练样本集合的所述特征集合作为候选模型的输入,利用预设算法对所述训练样本集合以及所述特征集合进行训练,获得所述关联推荐模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述被关联物品的标识确定出候选关联物品具体包括:
根据所述被关联物品的标识确定所述被关联物品的属性特征,根据所述被关联物品的属性特征确定关联物品集合;所述关联物品集合包括与所述被关联物品相关的物品;
获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数;
将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
7.根据权利要求1所述的方法,其特征在于,所述利用推荐模型生成推荐列表具体包括:
确定每一个候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识;
将所有所述候选关联物品的三元组信息输入所述关联推荐模型,以便所述关联推荐模型确定每一个所述候选关联物品的打分值以及将所有所述候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
8.一种服务器,其特征在于,包括:
获取单元,用于获取网络平台的目标用户选中的被关联物品的标识;
确定单元,用于根据所述获取单元获取的所述被关联物品的标识确定出候选关联物品;
推荐列表生成单元,用于向关联推荐模型输入所述确定单元确定的所述候选关联物品,利用所述关联推荐模型生成推荐列表;所述推荐列表包含符合预设条件的候选关联物品;
推荐列表呈现单元,用于向所述目标用户呈现所述列表生成单元生成的所述推荐列表;
其中,所述关联推荐模型是根据平台用户的第一类历史操作以及所述平台用户的第二类历史操作生成的;所述第一类历史操作是所述平台用户在所述网络平台的关联推荐页面进行的操作,所述第二类历史操作是所述平台用户在所述网络平台的非关联推荐页面进行的操作;所述平台用户是在所述网络平台进行操作的用户,所述关联推荐页面根据所述平台用户的操作为所述平台用户推荐关联物品。
9.根据权利要求8所述的服务器,其特征在于,还包括模型生成单元,
所述模型生成单元用于,在所述获取单元获取网络平台的目标用户选中的被关联物品的标识之前,根据所述第一类历史操作对应的物品以及所述第二类历史操作对应的物品生成训练样本集合;
利用预设算法对所述训练样本集合包括的训练样本进行训练,获得所述关联推荐模型。
10.根据权利要求9所述的服务器,其特征在于,所述模型生成单元具体用于,获取所述网络平台的日志信息中的第一类四元组信息;所述第一类四元组信息根据所述第一类历史操作生成的,所述第一类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、操作标识符;所述操作标识符用于指示所述第一类历史操作为正例或负例;
针对每一个所述平台用户,确定所述平台用户进行第二类历史操作对应的N个物品,将所述第二历史操作对应的物品两两组合,获得个样本组合;
根据每一个所述平台用户的样本组合,确定样本组合集合;所述样本组合集合包括的样本组合互不相同;
确定所有样本组合集合包括的样本组合中支持度数值大于等于第一门限阈值的样本组合为候选样本组合;确定所述候选样本组合的第二类四元组信息;所述第二类四元组信息包括用户标识、关联物品的标识、被关联物品的标识、正例标识符;
将所述第一类四元组信息与所述第二类四元组信息组合,构成所述训练样本集合。
11.根据权利要求10所述的服务器,其特征在于,还包括特征集合生成单元,
所述特征集合生成单元用于,确定所述训练样本集合的特征集合;所述特征集合包括用户特征、物品特征以及关联特征;所述用户特征是样本用户的属性特征;所述物品特征是样本物品的属性特征;所述关联特征指示所述样本用户与所述样本物品的关联性、任意两个所述样本间的关联性;
其中,所述样本用户是所述训练样本集合包括的所有用户标识指示的用户,所述样本物品是所述训练样本集合包括的关联物品和被关联物品。
12.根据权利要求11所述的服务器,其特征在于,所述模型生成单元具体用于,将所述训练样本集合、所述训练样本集合的所述特征集合作为候选模型的输入,利用预设算法对所述训练样本集合以及所述特征集合进行训练,获得所述关联推荐模型。
13.根据权利要求8所述的服务器,其特征在于,所述确定单元具体用于,根据所述被关联物品的标识确定所述被关联物品的属性特征,根据所述被关联物品的属性特征确定关联物品集合;所述关联物品集合包括与所述被关联物品相关的物品;
获取所述关联物品集合中的每一个关联物品在预设时长内的下载次数;
将所述关联物品集合中下载次数大于等于第二门限阈值的关联物品确定为所述候选关联物品。
14.根据权利要求8所述的服务器,其特征在于,所述推荐列表生成单元具体用于,
确定每一个候选关联物品的三元组信息;所述三元组信息包括所述候选物品对应的平台用户的标识、所述候选关联物品的标识以及所述被关联物品的标识;
将所有所述候选关联物品的三元组信息输入所述关联推荐模型,以便所述关联推荐模型确定每一个所述候选关联物品的打分值以及将所有所述候选关联物品按照打分值降序顺序排列,根据排序后的前K个候选关联物品生成所述推荐列表;所述K为大于1的整数。
CN201610323275.8A 2016-05-13 2016-05-13 一种关联推荐方法及服务器 Pending CN107369058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610323275.8A CN107369058A (zh) 2016-05-13 2016-05-13 一种关联推荐方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610323275.8A CN107369058A (zh) 2016-05-13 2016-05-13 一种关联推荐方法及服务器

Publications (1)

Publication Number Publication Date
CN107369058A true CN107369058A (zh) 2017-11-21

Family

ID=60303721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610323275.8A Pending CN107369058A (zh) 2016-05-13 2016-05-13 一种关联推荐方法及服务器

Country Status (1)

Country Link
CN (1) CN107369058A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN109903103A (zh) * 2017-12-07 2019-06-18 华为技术有限公司 一种推荐物品的方法和装置
CN109934646A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 预测新商品关联购买行为的方法及装置
CN110465086A (zh) * 2018-05-11 2019-11-19 腾讯科技(深圳)有限公司 一种游戏物品展示方法、装置及存储介质
CN111144986A (zh) * 2019-12-25 2020-05-12 清华大学 一种基于分享行为的社交电商网站商品推荐方法及装置
CN111815405A (zh) * 2020-06-28 2020-10-23 深圳市赛宇景观设计工程有限公司 一种基于人工智能的商品购买方法
CN112150225A (zh) * 2019-06-28 2020-12-29 北京沃东天骏信息技术有限公司 物品信息反馈方法、装置、设备及计算机可读存储介质
CN113255712A (zh) * 2020-02-12 2021-08-13 华为技术有限公司 一种推荐方法以及装置
CN113313597A (zh) * 2020-02-26 2021-08-27 京东数字科技控股股份有限公司 产品组合的推荐方法、装置及系统、存储介质、电子装置
CN113781138A (zh) * 2020-09-29 2021-12-10 北京沃东天骏信息技术有限公司 一种信息推送的方法、装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279279A (ja) * 2001-03-22 2002-09-27 Just Syst Corp 商品推薦装置、商品推薦方法、及び商品推薦プログラム
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN102929964A (zh) * 2012-10-11 2013-02-13 北京百度网讯科技有限公司 一种网址推送方法及系统
CN103377250A (zh) * 2012-04-27 2013-10-30 杭州载言网络技术有限公司 基于邻域的top-k推荐方法
CN104615681A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 文本选取方法及装置
CN105224623A (zh) * 2015-09-22 2016-01-06 北京百度网讯科技有限公司 数据模型的训练方法及装置
CN105469263A (zh) * 2014-09-24 2016-04-06 阿里巴巴集团控股有限公司 一种商品推荐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279279A (ja) * 2001-03-22 2002-09-27 Just Syst Corp 商品推薦装置、商品推薦方法、及び商品推薦プログラム
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN103377250A (zh) * 2012-04-27 2013-10-30 杭州载言网络技术有限公司 基于邻域的top-k推荐方法
CN102929964A (zh) * 2012-10-11 2013-02-13 北京百度网讯科技有限公司 一种网址推送方法及系统
CN105469263A (zh) * 2014-09-24 2016-04-06 阿里巴巴集团控股有限公司 一种商品推荐方法及装置
CN104615681A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 文本选取方法及装置
CN105224623A (zh) * 2015-09-22 2016-01-06 北京百度网讯科技有限公司 数据模型的训练方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903103A (zh) * 2017-12-07 2019-06-18 华为技术有限公司 一种推荐物品的方法和装置
CN109934646A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 预测新商品关联购买行为的方法及装置
CN109934646B (zh) * 2017-12-15 2021-09-17 北京京东尚科信息技术有限公司 预测新商品关联购买行为的方法及装置
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN110465086A (zh) * 2018-05-11 2019-11-19 腾讯科技(深圳)有限公司 一种游戏物品展示方法、装置及存储介质
CN112150225A (zh) * 2019-06-28 2020-12-29 北京沃东天骏信息技术有限公司 物品信息反馈方法、装置、设备及计算机可读存储介质
CN111144986A (zh) * 2019-12-25 2020-05-12 清华大学 一种基于分享行为的社交电商网站商品推荐方法及装置
CN111144986B (zh) * 2019-12-25 2024-05-31 清华大学 一种基于分享行为的社交电商网站商品推荐方法及装置
CN113255712A (zh) * 2020-02-12 2021-08-13 华为技术有限公司 一种推荐方法以及装置
CN113313597A (zh) * 2020-02-26 2021-08-27 京东数字科技控股股份有限公司 产品组合的推荐方法、装置及系统、存储介质、电子装置
CN113313597B (zh) * 2020-02-26 2023-09-26 京东科技控股股份有限公司 产品组合的推荐方法、装置及系统、存储介质、电子装置
CN111815405A (zh) * 2020-06-28 2020-10-23 深圳市赛宇景观设计工程有限公司 一种基于人工智能的商品购买方法
CN111815405B (zh) * 2020-06-28 2021-04-16 省广营销集团有限公司 一种基于人工智能的商品购买方法
CN113781138A (zh) * 2020-09-29 2021-12-10 北京沃东天骏信息技术有限公司 一种信息推送的方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN107369058A (zh) 一种关联推荐方法及服务器
CN104412265B (zh) 更新用于促进应用搜索的搜索索引
CN104866474B (zh) 个性化数据搜索方法及装置
CN103914492B (zh) 查询词融合方法、商品信息发布方法和搜索方法及系统
US9613371B2 (en) Dynamic taxonomy generation with demand-based product groups
CN105808685B (zh) 推广信息的推送方法及装置
CN104679771B (zh) 一种个性化数据搜索方法和装置
US9690846B2 (en) Intelligent navigation of a category system
CN102831234B (zh) 基于新闻内容和主题特征的个性化新闻推荐装置和方法
JP5693746B2 (ja) 製品情報のランク付け
CN103699669B (zh) 一种浏览器中进行消息推送的方法和一种浏览器终端
CN108629665A (zh) 一种个性化商品推荐方法和系统
CN107330115A (zh) 一种信息推荐方法及装置
CN109658206A (zh) 信息推荐方法和装置
CN107784066A (zh) 信息推荐方法、装置、服务器及存储介质
CN109636494A (zh) 药品推荐方法及系统
CN108021708B (zh) 内容推荐方法、装置与计算机可读存储介质
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
JP2016503914A (ja) 商品評価の分析
CN104199872A (zh) 一种信息推荐的方法以及装置
WO2014008139A2 (en) Generating search results
CN111639255B (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
CN109815381A (zh) 用户画像构建方法、系统、计算机设备及存储介质
TWI645348B (zh) 商品相關網路文章之自動圖文摘要方法及系統
CN110222260A (zh) 一种搜索方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171121

RJ01 Rejection of invention patent application after publication