CN108665007B - 一种基于多分类器的推荐方法、装置及电子设备 - Google Patents

一种基于多分类器的推荐方法、装置及电子设备 Download PDF

Info

Publication number
CN108665007B
CN108665007B CN201810497025.5A CN201810497025A CN108665007B CN 108665007 B CN108665007 B CN 108665007B CN 201810497025 A CN201810497025 A CN 201810497025A CN 108665007 B CN108665007 B CN 108665007B
Authority
CN
China
Prior art keywords
classifier
data
sub
target sub
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810497025.5A
Other languages
English (en)
Other versions
CN108665007A (zh
Inventor
杨新星
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810497025.5A priority Critical patent/CN108665007B/zh
Publication of CN108665007A publication Critical patent/CN108665007A/zh
Priority to TW108106001A priority patent/TWI721374B/zh
Priority to PCT/CN2019/076241 priority patent/WO2019223380A1/zh
Priority to SG11202005991UA priority patent/SG11202005991UA/en
Application granted granted Critical
Publication of CN108665007B publication Critical patent/CN108665007B/zh
Priority to US16/918,869 priority patent/US11269966B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了一种基于多分类器的推荐方法、装置及电子设备。该方法包括:针对接收到的特征数据,从多分类器的k个子分类器中获取目标子分类器,其中,目标子分类器选择多分类器中数据分布与数据特征相似度最大的子分类器,获得主分类器对特征数据进行预测的第一预测数据、目标子分类器对特征数据进行分类的第二预测数据,综合第一预测数据和第二预测数据获得第三预测数据,从而获得更为准确的预测数据,解决了现有技术中数据分类预测准确性较低的技术问题;进一步的,根据第三预测数据对特征数据对应的待推荐实体进行推荐,从而提高了数据推荐的准确性。

Description

一种基于多分类器的推荐方法、装置及电子设备
技术领域
本说明书涉及软件技术领域,特别涉及一种基于多分类器的推荐方法、装置及电子设备。
背景技术
近年来,随着电子商务、社交网络和移动网络的发展,网络信息数据日益增多,大数据(Big Data)作为一张新兴数据概念而被定义。与此同时,数据的爆炸式增长使得我们进入了大规模数据缝隙的时代。在海量数据环境下,为了快速有效、有针对性地提的利用已有信息,分类器在数据推荐方面得到了快速的发展。
传统分类方法大多数是假设数据是线性可分,采用一个分类器对所有的数据进行分类预测。随着大数据时代来临,数据分类要求越来越高,单一的、模糊化的数据分类已无法满足现在的需求,亟需一种新的分类推荐方法,来提数据分类预测的准确性。
发明内容
本说明书实施例提供一种基于多分类器的推荐方法、装置及电子设备,用于实现对数据的多元化分类预测,提高数据分类预测的准确性。
第一方面,本说明书实施例提供一种基于多分类器的推荐方法,包括:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;
根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
可选地,针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,包括:
如果所述k个子分类器中每个子分类器均具有数据分布的中心点,查找获取中心点与所述特征数据的数据向量距离最近的子分类器作为所述目标子分类器。
可选地,针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,包括:
如果所述k个子分类器中每个子分类器均为具有数据分布参数的高斯混合模型,查找获取所述k个子分类器中数据分布参数与所述特征数据的相似度最大的子分类器作为所述目标子分类器。
可选地,在根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐之后,所述方法还包括:
检测用户是否选择所述特征数据对应的被推荐实体;
根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数。
可选地,根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数,包括:
如果用户选择了被推荐实体对所述多分类器进行正反馈,如果用户未选择被推荐实体对所述多分类器进行负反馈;根据所述正反馈的或所述负反馈更新所述特征数据对应的目标子分类器和主分类器的参数。
可选地,在根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据之后,所述方法还包括:
根据所述特征数据的数据向量更新所述目标子分类器的中心点。
可选地,根据所述特征数据的数据向量更新所述目标子分类器的中心点,包括:
Figure BDA0001669454930000031
其中,Pt+1表示所述目标子分类器更新后的中心点,Pt表示所述目标子分类器更新前的中心点,xt表示所述数据向量,ni表示更新前被分配到所述目标子分类器的数据数量,ni+1表示所述目标子分类器更新后的数据数量。
第二方面,本说明书实施例提供一种基于多分类器的推荐装置,包括:
第一分类单元,用于根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
查找单元,用于针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;
第二分类单元,用于根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
综合处理单元,用于根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
推荐单元,用于根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
可选地,所述查找单元用于:
如果所述k个子分类器中每个子分类器均具有数据分布的中心点,查找获取中心点与所述特征数据的数据向量距离最近的子分类器作为所述目标子分类器。
可选地,所述查找单元用于:
如果所述k个子分类器中每个子分类器均为具有数据分布参数的高斯混合模型,查找获取所述k个子分类器中数据分布参数与所述特征数据的相似度最大的子分类器作为所述目标子分类器。
可选地,所述装置还包括:
更新单元,用于在根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐之后,检测用户是否选择所述特征数据对应的被推荐实体;根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数。
可选地,所述更新单元用于:
如果用户选择了被推荐实体对所述多分类器进行正反馈,如果用户未选择被推荐实体对所述多分类器进行负反馈;根据所述正反馈的或所述负反馈更新所述特征数据对应的目标子分类器和主分类器的参数。
可选地,所述装置还包括:
更新单元,用于在根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据之后,根据所述特征数据的数据向量更新所述目标子分类器的中心点。
可选地,所述更新单元还用于根据如下公式更新目标子分类器的中心点:
Figure BDA0001669454930000041
其中,Pt+1表示所述目标子分类器更新后的中心点,Pt表示所述目标子分类器更新前的中心点,xt表示所述数据向量,ni表示更新前被分配到所述目标子分类器的数据数量,ni+1表示所述目标子分类器更新后的数据数量。
第三方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;
根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
第四方面,本说明书实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;
根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本说明书实施例提供一种基于多分类器的推荐方法,通过采用多分类器的主分类器和目标子分类器来对特征数据进行分类,实现了对数据的多元化分类预测,提高了数据分类预测的准确性;并且,目标子分类器选择多分类器中数据分布与数据特征相似度最大的子分类器,获得主分类器对特征数据进行预测的第一预测数据、目标子分类器对特征数据进行分类的第二预测数据,综合第一预测数据和第二预测数据获得第三预测数据,从而获得更为准确的预测数据,解决了现有技术中数据分类预测准确性较低的技术问题;进一步的,根据第三预测数据对特征数据进行推荐处理,从而提高了数据推荐的准确性。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种基于多分类器的推荐方法的流程图;
图2为本说明书实施例提供的一种基于多分类器的推荐装置的示意图;
图3为本说明书实施例提供的一种电子设备的示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
在本说明书实施例提供一种基于多分类器的推荐方法、装置及电子设备,用于实现对数据的多元化分类预测,提高数据分类预测的准确性。
下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
本说明书实施提供一种预设的多分类器,包含一个主分类器和k个子分类器,k≥2。基于预设的多分类器,本申请说明书实施例还提供一种基于多分类器的推荐方法,如图1所示,所示方法包括:
S101:根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
S102:针对所述特征数据,在预设的多分类器的k个子分类器中获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;
S103:根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
S104:根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
S105:根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
具体实施过程中,预设的多分类器可以对待推荐实体的特征进行分类预测,预测待推荐实体属于哪一类实体。预设的多分类器也可以对用户特征和待推荐实体的特征共同组成的特征进行分类预测,预测待推荐实体在该用户侧的得分,按照得分的高低选择是否向该用户推荐该实体。为此,多分类器接收的特征数据可以是待推荐实体的特征数据,也可以是待推荐实体特征和用户特征的组合形成的特征数据。
预设的多分类器在接收到特征数据之后执行S101和S102,其中,S101和S102的执行顺序不分先后,可以同时执行,也可以先执行S101或S102。
S101根据主分类器对接收到的特征数据进行预测获得第一预测数据,具体可以将特征数据输入主分类器,由主分类器对特征数据进行打分获得第一得分即第一预测数据。
S102针对接收到的特征数据查找目标子分类器,从多分类器的k个子分类器中查找数据分布与特征数据的相似度最大的子分类器作为目标子分类器。子分类器的数据分布是指该子分类器接收并分类的数据的分布,或者,训练形成该子分类器的样本数据的分布。接收到的数据特征与子分类器的数据分布越相似,该子分类器对该数据特征进行分类的准确性越高。
其中,S102可以通过如下任一方式查找获得目标子分类器:
方式一、如果多分类器的k个子分类器中每个子分类器均具有数据分布的中心点,查找获取中心点与特征数据的数据向量距离最近的子分类器作为目标子分类器。每一个子分类器均具有一个数据分布的中心点,特征数据的数据向量与哪一个中心点最近,则表明该特征数据与对应的子分类器的数据分布的相似度最大,将该子分类器作为目标子分类器。
具体实施过程中,本说明书实施可以为任一子分类器建立并更新数据分布的中心点。首先,对k个子分类器进行初始化,将其数据分布的中心点初始化为空。然后,通过多分类器接收待分类的特征数据,在多分类器接收的特征数据的数据量小于设定阈值时,随机选取一个子分类器作为目标子分类器,目标子分类器对该特征数据进行分类预测后,根据该特征数据的数据向量更新目标子分类器的中心点:
若目标子分类器的中心点为空,将该特征数据的数据向量作为该目标子分类器的中心点;
若目标子分类器的中心点不为空,根据如下公式1更新目标子分类器的中心点:
Figure BDA0001669454930000081
其中,Pt+1表示目标子分类器更新后的中心点,Pt表示目标子分类器更新前的中心点,xt表示特征数据的数据向量,ni表示更新前被分配到目标子分类器的数据数量,ni+1表示目标子分类器更新后的数据数量。
在多分类器接收的特征数据的数据量大于等于设定阈值时,计算特征数据的数据向量与每个子分类器的中心点之间的距离,本说明书实施例并不限制数据向量与中心点之间距离的具体算法,可以采用欧式距离、曼哈顿距离、切比雪夫距离等。获取中心点与数据向量之间距离最近的子分类器作为目标子分类器,在目标子分类器对该特征数据的数据向量进行分类预测后,利用公式1对目标子分类器进行更新。
方式二、如果多分类器的k个子分类器中每个子分类器均为具有数据分布参数的高斯混合模型,查找获取k个子分类器中数据分布参数与特征数据的相似度最大的子分类器作为目标子分类器。数据分布参数与特征数据之间的相似度可以采用余弦相似度、皮尔逊相关系数、欧几里德距离等方法计算。
在S102获得目标子分类器之后,执行S103根据获得的目标子分类器对特征数据进行预测获得第二预测数据。具体的,将特征数据输入目标子分类器,由目标子分类器对该特征数据进行打分获得第二得分即第二预测数据。
进一步的,在获得第一预测数据和第二预测数据之后,执行S104根据预设算法对第一预测数据和第二预测数据进行综合处理,获得第三预测数据。具体的,预设算法可以是将第一预测数据和第二预测数据相加获得第三预测数据,也可以将第一预测数据与第一权重相乘获得第一乘积,将第二预测数据与第二权重相乘获得第二乘积,获得第一乘积和第二乘积之和作为第三预测数据。
S104之后,执行S105根据第三预测数据对特征数据对应的待推荐实体进行推荐。具体的,对第三预测数据进行排序,将排序靠前的第三预测数据所属的特征数据对应的待推荐实体推荐给用户。或者,判断第三预测数据是否在预设范围内,若在预设范围内,将第三预测数据所属的特征数据对应的待推荐实体推荐给用户。
具体实施过程中,本说明书实施例还基于用户对被推荐实体的选择与否对多分类器进行反馈,以更新多分类器的相关参数。检测用户是否选择特征数据对应的被推荐实体;根据用户对被推荐实体的选择与否,更新特征数据对应的目标子分类器和主分类器的参数。如果用户选择了被推荐实体向多分类器反馈标识1即进行正反馈,如果用户未选择被推荐实体对所述多分类器进行负反馈即进行负反馈;根据所述正反馈的或所述负反馈更新特征数据对应的目标子分类器和主分类器的参数。
下面以一具体的更新方法对目标子分类器和主分类器的参数更新进行详细说明,但本说明书实施例并不限于该更新方法。
本说明书实施例为每个分类器(主分类器和每个子分类器)配置一个权值向量和一个关系矩阵。初始化时权值向量为0,关系矩阵初始化时为单位矩阵。
假设输入的样本特征维度为d,那么每个分类器的权值向量的维度为d*1,关系矩阵的维度为d*d,为此,多分类器的权值向量、关系矩阵整体可以表示如下:
Figure BDA0001669454930000101
Figure BDA0001669454930000102
其中,
Figure BDA0001669454930000103
表示多分类器的权值向量,
Figure BDA0001669454930000104
表示多分类器的关系矩阵;μ表示主分类器的权值向量;μ1至μK表示第1~k个子分类器的权值向量,μj表示第j个子分类器的权值向量;λ表示主分类器的权重,一般取值为1;Σ表示主分类器的关系矩阵,Σ1至Σk表示第1~k个子分类器的关系矩阵。为了便于区分更新前后参数的不同,t时刻多分类器的权值向量可以表示为
Figure BDA0001669454930000105
更新后的权值向量可以表示为
Figure BDA0001669454930000106
同样的,t时刻关系矩阵表示为
Figure BDA0001669454930000107
更新后为
Figure BDA0001669454930000108
假设被推荐实体对应的特征数据的数据向量为第i个数据向量xt被分配到了第j个子分类器即目标子分类器,相对于整个多分类器,可以构建新的数据形式:
Figure BDA0001669454930000109
通过上述数据形式的构建,使得第i个数据向量xt分别对应主分类器和第j个子分类器。根据用户对被推荐实体的选择与否,对多分类器进行正反馈或负反馈。例如,用户可以通过点击、长按、重按等任一操作来选择被推荐实体,若用户选择被推荐实体进行正反馈,向多分类器反馈标识yt=+1,若用户未选择被推荐实体进行负反馈,向多分类器反馈标识yt=-1。
根据正反馈或者负反馈更新主分类器和第j个子分类器的权值向量以及主分类器和第j个子分类器的权值向量的关系矩阵。具体的,可以先根据反馈的标识yt和第i个数据向量,计算对第i个数据向量进行预测的损失值,若损失值大于零进行更新,否则不进行更新,提高更新的准确性。
计算损失值时,可以根据yt、第i个数据向量以及主类器和第j个子分类器两者的权值向量和关系矩阵,通过如下公式计算获得多分类器对第i条数据进行预测的损失值:
Figure BDA0001669454930000111
其中,l表示损失值,
Figure BDA0001669454930000112
表示超参数,
Figure BDA0001669454930000113
由第i个数据向量xt构建而成(详见公式4),
Figure BDA0001669454930000114
分别表示多分类器的权重向量、关系矩阵(详见公式1、2)。
Figure BDA0001669454930000115
通常可以为正态分布累加函数的逆函数如
Figure BDA0001669454930000116
判断其损失值l是否大于零;若损失值l大于零,根据yt、第i个数据向量,更新主分类器和第j个子分类器的权值向量以及主分类器和第j个子分类器的关系矩阵。反之,若损失值l不大于零,则暂时不对权值向量和关系矩阵进行更新。更新权值向量和关系矩阵时,还可以根据第i个数据向量更新多分类器的其它参数,其中,
Figure BDA0001669454930000117
可以为预设参数,也可以根据下述参数进行更新,具体更新公式如下:
Figure BDA0001669454930000118
Figure BDA0001669454930000119
Figure BDA00016694549300001110
Figure BDA00016694549300001111
Figure BDA00016694549300001112
Figure BDA00016694549300001113
Figure BDA0001669454930000121
其中,
Figure BDA0001669454930000122
表示更新后的多分类器的权值向量,
Figure BDA0001669454930000123
表示更新后的多分类器的关系矩阵。根据公式1、2的表示方式,从
Figure BDA0001669454930000124
中获得所述主分类器和所述第j个子分类器更新后的权值向量μ、μj;从
Figure BDA0001669454930000125
中获得所述主分类器和所述第j个子分类器更新后的关系矩阵Σ、Σj。C为超参数,一般可以设置为1。
在上述实施例中,通过采用多分类器的主分类器和目标子分类器来对特征数据进行分类,实现了对数据的多元化分类预测,提高了数据分类预测的准确性;并且,目标子分类器选择多分类器中数据分布与数据特征相似度最大的子分类器,获得主分类器对特征数据进行预测的第一预测数据、目标子分类器对特征数据进行分类的第二预测数据,综合第一预测数据和第二预测数据获得第三预测数据,从而获得更为准确的预测数据,解决了现有技术中数据分类预测准确性较低的技术问题;进一步的,根据第三预测数据对特征数据进行推荐处理,从而提高了数据推荐的准确性。
进一步的,上述实施例还基于每一次用户对被推荐实体的选择与否,对多分类器进行反馈,以实现多分类器的在线更新、实时学习,从而可以利用实时数据流,实时预测用户的偏好和兴趣,使得所有接收数据只使用一次,不需要存储任何历史信息,减少了线上的存储压力和计算复杂度。并且,通过中心点和分类器参数的更新,多分类器模型可以在线上实时训练,减少了模型上线和下线的运维压力。
基于上述实施例提供的一种基于多分类器的推荐方法,本实施例还对应提供一种基于多分类器的推荐装置,请参考图2,所述装置包括:
第一分类单元21,用于根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
查找单元22,用于针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;
第二分类单元23,用于根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
综合处理单元24,用于根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
推荐单元25,用于根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
作为一种可选的实施方式,所述查找单元22用于:
如果所述k个子分类器中每个子分类器均具有数据分布的中心点,查找获取中心点与所述特征数据的数据向量距离最近的子分类器作为所述目标子分类器。或者,如果所述k个子分类器中每个子分类器均为具有数据分布参数的高斯混合模型,查找获取所述k个子分类器中数据分布参数与所述特征数据的相似度最大的子分类器作为所述目标子分类器。
作为一种可选的实施方式,所述装置还包括更新单元26。更新单元26可以用于:在根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐之后,检测用户是否选择所述特征数据对应的被推荐实体;根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数。具体的,如果用户选择了被推荐实体对所述多分类器进行正反馈,如果用户未选择被推荐实体对所述多分类器进行负反馈;根据所述正反馈的或所述负反馈更新所述特征数据对应的目标子分类器和主分类器的参数。
更新单元26还可以用于:在根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据之后,根据所述特征数据的数据向量更新所述目标子分类器的中心点。具体的,所述更新单元可以根据如下公式更新目标子分类器的中心点:
Figure BDA0001669454930000131
其中,Pt+1表示所述目标子分类器更新后的中心点,Pt表示所述目标子分类器更新前的中心点,xt表示所述数据向量,ni表示更新前被分配到所述目标子分类器的数据数量,ni+1表示所述目标子分类器更新后的数据数量。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关方法的实施例中进行了详细描述,此处不再详细阐述。
请参考图3,是根据一示例性实施例示出的一种用于实现数据查询方法的电子设备700的框图。例如,电子设备700可以是计算机,数据库控制台,平板设备,个人数字助理等。
参照图3,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,输入/输出(I/O)的接口710,以及通信组件712。
处理组件702通常控制电子设备700的整体操作,诸如与显示,数据通信,及记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
I/O接口710为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
通信组件712被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件712经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件712还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由电子设备700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得电子设备能够执行一种基于多分类器的推荐方法,所述方法包括:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种基于多分类器的推荐方法,包括:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;其中,子分类器的数据分布是指该子分类器接收并分类的数据的分布;
根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
2.如权利要求1所述的方法,针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,包括:
如果所述k个子分类器中每个子分类器均具有数据分布的中心点,查找获取中心点与所述特征数据的数据向量距离最近的子分类器作为所述目标子分类器。
3.如权利要求1所述的方法,针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,包括:
如果所述k个子分类器中每个子分类器均为具有数据分布参数的高斯混合模型,查找获取所述k个子分类器中数据分布参数与所述特征数据的相似度最大的子分类器作为所述目标子分类器。
4.如权利要求1所述的方法,在根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐之后,所述方法还包括:
检测用户是否选择所述特征数据对应的被推荐实体;
根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数。
5.如权利要求4所述的方法,根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数,包括:
如果用户选择了被推荐实体,则对所述多分类器进行正反馈,如果用户未选择被推荐实体,则对所述多分类器进行负反馈;根据所述正反馈或所述负反馈更新所述特征数据对应的目标子分类器和主分类器的参数。
6.如权利要求2所述的方法,在根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据之后,所述方法还包括:
根据所述特征数据的数据向量更新所述目标子分类器的中心点。
7.如权利要求6所述的方法,根据所述特征数据的数据向量更新所述目标子分类器的中心点,包括:
Figure FDA0002244060000000021
ni+1=ni+1
其中,Pt+1表示所述目标子分类器更新后的中心点,Pt表示所述目标子分类器更新前的中心点,xt表示所述数据向量,ni表示更新前被分配到所述目标子分类器的数据数量,ni+1表示所述目标子分类器更新后的数据数量。
8.一种基于多分类器的推荐装置,包括:
第一分类单元,用于根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
查找单元,用于针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;其中,子分类器的数据分布是指该子分类器接收并分类的数据的分布;
第二分类单元,用于根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
综合处理单元,用于根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
推荐单元,用于根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
9.如权利要求8所述的装置,所述查找单元用于:
如果所述k个子分类器中每个子分类器均具有数据分布的中心点,查找获取中心点与所述特征数据的数据向量距离最近的子分类器作为所述目标子分类器。
10.如权利要求8所述的装置,所述查找单元用于:
如果所述k个子分类器中每个子分类器均为具有数据分布参数的高斯混合模型,查找获取所述k个子分类器中数据分布参数与所述特征数据的相似度最大的子分类器作为所述目标子分类器。
11.如权利要求8所述的装置,所述装置还包括:
更新单元,用于在根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐之后,检测用户是否选择所述特征数据对应的被推荐实体;根据用户对被推荐实体的选择与否,更新所述特征数据对应的目标子分类器和主分类器的参数。
12.如权利要求11所述的装置,所述更新单元用于:
如果用户选择了被推荐实体,则对所述多分类器进行正反馈,如果用户未选择被推荐实体,则对所述多分类器进行负反馈;根据所述正反馈或所述负反馈更新所述特征数据对应的目标子分类器和主分类器的参数。
13.如权利要求9所述的装置,所述装置还包括:
更新单元,用于在根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据之后,根据所述特征数据的数据向量更新所述目标子分类器的中心点。
14.如权利要求13所述的装置,所述更新单元还用于根据如下公式更新目标子分类器的中心点:
Figure FDA0002244060000000031
其中,Pt+1表示所述目标子分类器更新后的中心点,Pt表示所述目标子分类器更新前的中心点,xt表示所述数据向量,ni表示更新前被分配到所述目标子分类器的数据数量,ni+1表示所述目标子分类器更新后的数据数量。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;其中,子分类器的数据分布是指该子分类器接收并分类的数据的分布;
根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
16.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上的程序所包含的用于进行以下操作的指令:
根据预设的多分类器的主分类器对接收到的特征数据进行预测,获得第一预测数据;
针对所述特征数据,在预设的多分类器的k个子分类器中查找获得目标子分类器,所述目标子分类器的数据分布与所述特征数据之间的相似度最大,k≥2;其中,子分类器的数据分布是指该子分类器接收并分类的数据的分布;
根据所述目标子分类器对所述特征数据进行预测,获得第二预测数据;
根据预设算法对所述第一预测数据和所述第二预测数据进行综合处理,获得第三预测数据;
根据所述第三预测数据对所述特征数据对应的待推荐实体进行推荐。
CN201810497025.5A 2018-05-22 2018-05-22 一种基于多分类器的推荐方法、装置及电子设备 Active CN108665007B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810497025.5A CN108665007B (zh) 2018-05-22 2018-05-22 一种基于多分类器的推荐方法、装置及电子设备
TW108106001A TWI721374B (zh) 2018-05-22 2019-02-22 基於多分類器的推薦方法、裝置及電子設備
PCT/CN2019/076241 WO2019223380A1 (zh) 2018-05-22 2019-02-27 一种基于多分类器的推荐方法、装置及电子设备
SG11202005991UA SG11202005991UA (en) 2018-05-22 2019-02-27 Multi-Classifier-Based Recommendation Method And Device, And Electronic Device
US16/918,869 US11269966B2 (en) 2018-05-22 2020-07-01 Multi-classifier-based recommendation method and device, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810497025.5A CN108665007B (zh) 2018-05-22 2018-05-22 一种基于多分类器的推荐方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108665007A CN108665007A (zh) 2018-10-16
CN108665007B true CN108665007B (zh) 2020-03-17

Family

ID=63776447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810497025.5A Active CN108665007B (zh) 2018-05-22 2018-05-22 一种基于多分类器的推荐方法、装置及电子设备

Country Status (5)

Country Link
US (1) US11269966B2 (zh)
CN (1) CN108665007B (zh)
SG (1) SG11202005991UA (zh)
TW (1) TWI721374B (zh)
WO (1) WO2019223380A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665007B (zh) * 2018-05-22 2020-03-17 阿里巴巴集团控股有限公司 一种基于多分类器的推荐方法、装置及电子设备
JP7239354B2 (ja) * 2019-03-12 2023-03-14 株式会社日立製作所 データ分類装置
CN111177568B (zh) * 2020-01-02 2020-08-21 平安科技(深圳)有限公司 基于多源数据的对象推送方法、电子装置及存储介质
CN113111251A (zh) * 2020-01-10 2021-07-13 阿里巴巴集团控股有限公司 项目推荐方法、装置及系统
US11539529B2 (en) * 2020-05-27 2022-12-27 Wipro Limited System and method for facilitating of an internet of things infrastructure for an application
CN111494964B (zh) * 2020-06-30 2020-11-20 腾讯科技(深圳)有限公司 虚拟物品的推荐方法、模型的训练方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407477A (zh) * 2016-11-22 2017-02-15 深圳市互联在线云计算股份有限公司 一种多维互联推荐方法及系统
CN107566856A (zh) * 2016-07-01 2018-01-09 腾讯科技(北京)有限公司 提供推送信息的方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201011575A (en) * 2008-09-12 2010-03-16 Univ Nat Cheng Kung Recommendation apparatus and method of integrating rough sets and multiple-characteristic exploration
CN103729351B (zh) * 2012-10-10 2017-10-03 阿里巴巴集团控股有限公司 查询词推荐方法及装置
US9471671B1 (en) * 2013-12-18 2016-10-18 Google Inc. Identifying and/or recommending relevant media content
US20160092893A1 (en) * 2014-09-29 2016-03-31 Ebay Inc. System, method, and apparatus for predicting item characteristic popularity
US9697232B2 (en) * 2015-03-19 2017-07-04 International Business Machines Corporation System and method for creating a preference profile from shared images
TWI573034B (zh) * 2016-05-09 2017-03-01 Chunghwa Telecom Co Ltd Application Method and System of Application Service Data on Information Platform
US10607154B2 (en) * 2016-07-27 2020-03-31 Facebook, Inc. Socioeconomic group classification based on user features
US10460257B2 (en) * 2016-09-08 2019-10-29 Conduent Business Services, Llc Method and system for training a target domain classifier to label text segments
US11087202B2 (en) * 2017-02-28 2021-08-10 Fujifilm Business Innovation Corp. System and method for using deep learning to identify purchase stages from a microblog post
US11334933B2 (en) * 2017-11-30 2022-05-17 Palo Alto Research Center Incorporated Method, system, and manufacture for inferring user lifestyle and preference information from images
CN108665007B (zh) * 2018-05-22 2020-03-17 阿里巴巴集团控股有限公司 一种基于多分类器的推荐方法、装置及电子设备
US11682474B2 (en) * 2018-12-12 2023-06-20 International Business Machines Corporation Enhanced user screening for sensitive services

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107566856A (zh) * 2016-07-01 2018-01-09 腾讯科技(北京)有限公司 提供推送信息的方法及系统
CN106407477A (zh) * 2016-11-22 2017-02-15 深圳市互联在线云计算股份有限公司 一种多维互联推荐方法及系统

Also Published As

Publication number Publication date
SG11202005991UA (en) 2020-07-29
US11269966B2 (en) 2022-03-08
WO2019223380A1 (zh) 2019-11-28
US20200334312A1 (en) 2020-10-22
TWI721374B (zh) 2021-03-11
CN108665007A (zh) 2018-10-16
TW202004520A (zh) 2020-01-16

Similar Documents

Publication Publication Date Title
CN108665007B (zh) 一种基于多分类器的推荐方法、装置及电子设备
CN110297848B (zh) 基于联邦学习的推荐模型训练方法、终端及存储介质
WO2020034849A1 (zh) 音乐推荐的方法、装置、计算设备和介质
CN107590224B (zh) 基于大数据的用户偏好分析方法与装置
CN107704070B (zh) 应用清理方法、装置、存储介质及电子设备
CN109783656B (zh) 音视频数据的推荐方法、系统及服务器和存储介质
WO2021155691A1 (zh) 用户画像生成方法、装置、存储介质及设备
CN107678531B (zh) 应用清理方法、装置、存储介质及电子设备
US20160217385A1 (en) Method and apparatus for analyzing missing not at random data and recommendation system using the same
CN111143543A (zh) 一种对象推荐方法、装置、设备及介质
CN103902654A (zh) 聚类方法、装置及终端设备
WO2019120007A1 (zh) 用户性别预测方法、装置及电子设备
CN110598084A (zh) 对象排序方法、商品排序方法、装置及电子设备
Pujahari et al. Model-based collaborative filtering for recommender systems: An empirical survey
Zhang et al. Towards mobile query auto-completion: An efficient mobile application-aware approach
CN115619448A (zh) 用户流失预测方法、装置、计算机设备及存储介质
CN113378067B (zh) 基于用户挖掘的消息推荐方法、设备、介质
CN112115354A (zh) 信息处理方法、装置、服务器及存储介质
CN109961163A (zh) 性别预测方法、装置、存储介质及电子设备
CN110287398B (zh) 一种信息更新的方法以及相关装置
CN107861769B (zh) 应用清理方法、装置、存储介质及电子设备
CN113609380B (zh) 标签体系更新方法、搜索方法、装置以及电子设备
CN112100441B (zh) 视频推荐方法、电子设备和计算机可读存储介质
CN110275986B (zh) 基于协同过滤的视频推荐方法、服务器及计算机存储介质
CN112418442A (zh) 联邦迁移学习的数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1262025

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201022

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201022

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right