CN112287976A - 一种对象推荐方法、装置、电子设备及存储介质 - Google Patents
一种对象推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112287976A CN112287976A CN202011059041.XA CN202011059041A CN112287976A CN 112287976 A CN112287976 A CN 112287976A CN 202011059041 A CN202011059041 A CN 202011059041A CN 112287976 A CN112287976 A CN 112287976A
- Authority
- CN
- China
- Prior art keywords
- sample
- sample set
- objects
- candidate
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种对象推荐方法、装置、电子设备及存储介质。该方法包括:将目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到表征每个对象组合包括的两个对象之间是否存在关联关系的分类结果,其中,分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;将目标对象的特征分别和与目标对象存在关联关系的多个候选对象中每个候选对象的特征进行比较,确定多个候选对象各自的显示顺序;将多个候选对象和多个候选对象各自的显示顺序发送给显示终端,以使显示终端按照所述多个候选对象各自的显示顺序进行显示,通过该方法能准确地推荐出与目标对象存在关联关系的对象。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种对象推荐方法、装置、电子设备及存储介质。
背景技术
为了更好地对目标对象进行定位并实现其价值,目前许多平台已经不满于关注目标对象本身,而是扩展到与其存在关联关系的其它对象,通过对其它对象进行分析,从而更好地了解目标对象。例如,某商家在得知用户购买某一类型的对象后,可以将与该类型的对象存在关联关系的其它对象向用户推荐,以引导其购买。
例如当关联关系是相似关系时,相关技术中已有的挖掘目标对象的相似对象的技术方案为:首先,根据预先构建的关系网络,确定目标对象基于关系网络挖掘的候选相似对象,以及,候选相似对象基于相应关系网络与目标对象的第一相似度指标。接着,根据第一相似度指标,从基于关系网络挖掘的候选相似对象中确定待比较候选相似对象。最后通过将待比较候选相似对象与目标对象的种子对象进行比较,确定目标对象的相似对象。
然而,该种技术方案主要依赖于数据挖掘的方式获得目标对象的相似对象,而对象池中对象数量庞大,种类繁多,加之数据挖掘条件有限,导致众多满足挖掘条件而并非目标对象的真实相似对象的对象混入其中,影响数据挖掘效果,降低相似对象挖掘准确率。
发明内容
本申请实施例提供一种对象推荐方法、装置、电子设备及存储介质,旨在克服相关技术中存在的问题。
本申请实施例第一方面提供了一种对象推荐方法,所述方法包括:
获得目标对象和多个候选对象;
将所述目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,所述分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,所述分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;
获得与所述目标对象存在关联关系的多个候选对象;
将所述目标对象的特征分别与所述多个候选对象中每个候选对象的特征进行比较,确定所述多个候选对象各自的显示顺序;
将所述多个候选对象和所述多个候选对象各自的显示顺序发送给显示终端,以使所述显示终端按照所述多个候选对象各自的显示顺序进行显示。
可选地,所述分类模型的训练过程包括以下步骤:
以所述正样本集、所述负样本集以及所述未标注样本集为输入,对所述二分类器进行当前轮次训练,得到经过当前轮次训练后的二分类器;
利用经过当前轮次训练后的二分类器对所述未标注样本集进行分类,得到当前轮次的相对负样本集;
在当前轮次的相对负样本集满足预设条件的情况下,以所述正样本集、所述负样本集以及所述当前轮次的相对负样本集为输入,对所述二分类器进行下一轮次训练,直至当前轮次的相对负样本集不满足预设条件为止,结束训练;
其中,所述预设条件为:当前轮次的相对负样本集的大小小于等于上一轮次的相对负样本集的大小,并且所述正样本集的大小小于当前轮次的相对负样本集的大小。
可选地,所述正样本集中的正样本、所述负样本集中的负样本、以及所述未标注样本集中的未标注样本,是按照以下步骤得到的:
根据预设划分因子,对样本对象池进行划分,得到多个样本对象组合,一个样本对象组合包括两个样本对象,所述预设划分因子包括以下至少一者:样本对象的属性、样本对象对应的用户行为或用户评论;
对所述多个样本对象组合进行采样,得到多个待标注样本对象组合;
根据所述多个待标注样本对象组合各自的标注结果,生成正样本或负样本,一个待标注样本对象组合的标注结果表征该待标注样本对象组合包括的两个样本对象之间是否存在关联关系;
将所述多个样本对象组合中未被采样的样本对象组合的样本,确定为未标注样本。
可选地,对所述多个样本对象组合进行采样,得到多个待标注样本对象组合,包括:
根据所述多个样本对象组合各自的属性,对所述多个样本对象组合进行分层;
从每层样本对象组合中抽取预设比例的样本对象组合,得到该层的待标注样本对象组合;
汇总每层的待标注样本对象组合,得到所述多个待标注样本对象组合。
可选地,在结束训练之后,所述方法还包括:
获得所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,并获得对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果;
在所述分类结果与所述标注结果的匹配度大于预设阈值时,将所述二分类器确定为所述分类模型;
在所述分类结果与所述标注结果的匹配度不大于所述预设阈值时,根据所述标注结果生成正样本或负样本,并利用新生成的正样本或负样本对所述二分类器继续进行训练,直至所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,与对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果的匹配度大于所述预设阈值。
本申请实施例第二方面提供一种对象推荐装置,所述装置包括:
第一获得模块,用于获得目标对象和多个候选对象;
输入模块,用于将所述目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,所述分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,所述分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;
第二获得模块,用于获得与所述目标对象存在关联关系的多个候选对象;
第一确定模块,用于将所述目标对象的特征分别与所述多个候选对象中每个候选对象的特征进行比较,确定所述多个候选对象各自的显示顺序;
发送模块,用于将所述多个候选对象和所述多个候选对象各自的显示顺序发送给显示终端,以使所述显示终端按照所述多个候选对象各自的显示顺序进行显示。
可选地,所述装置还包括模型训练模块,所述模型训练模块包括:
第一训练子模块,用于以所述正样本集、所述负样本集以及所述未标注样本集为输入,对所述二分类器进行当前轮次训练,得到经过当前轮次训练后的二分类器;
分类子模块,用于利用经过当前轮次训练后的二分类器对所述未标注样本集进行分类,得到当前轮次的相对负样本集;
第二训练子模块,用于在当前轮次的相对负样本集满足预设条件的情况下,以所述正样本集、所述负样本集以及所述当前轮次的相对负样本集为输入,对所述二分类器进行下一轮次训练,直至当前轮次的相对负样本集不满足预设条件为止,结束训练;
其中,所述预设条件为:当前轮次的相对负样本集的大小小于等于上一轮次的相对负样本集的大小,并且所述正样本集的大小小于当前轮次的相对负样本集的大小。
可选地,所述装置还包括样本划分模块,所述样本划分模块包括:
划分子模块,用于根据预设划分因子,对样本对象池进行划分,得到多个样本对象组合,一个样本对象组合包括两个样本对象,所述预设划分因子包括以下至少一者:样本对象的属性、样本对象对应的用户行为或用户评论;
采样子模块,用于对所述多个样本对象组合进行采样,得到多个待标注样本对象组合;
生成子模块,用于根据所述多个待标注样本对象组合各自的标注结果,生成正样本或负样本,一个待标注样本对象组合的标注结果表征该待标注样本对象组合包括的两个样本对象之间是否存在关联关系;
确定子模块,用于将所述多个样本对象组合中未被采样的样本对象组合的样本,确定为未标注样本。
可选地,所述采样子模块包括:
分层子模块,用于根据所述多个样本对象组合各自的属性,对所述多个样本对象组合进行分层;
抽取子模块,用于从每层样本对象组合中抽取预设比例的样本对象组合,得到该层的待标注样本对象组合;
汇总子模块,用于汇总每层的待标注样本对象组合,得到所述多个待标注样本对象组合。
可选地,所述装置还包括:
第三获得模块,用于获得所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,并获得对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果;
第二确定模块,用于在所述分类结果与所述标注结果的匹配度大于预设阈值时,将所述二分类器确定为所述分类模型;
所述模型训练模块还用于在所述分类结果与所述标注结果的匹配度不大于所述预设阈值时,根据所述标注结果生成正样本或负样本,并利用新生成的正样本或负样本对所述二分类器继续进行训练,直至所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,与对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果的匹配度大于所述预设阈值。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的对象推荐方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的对象推荐方法中的步骤。
通过本申请提供的对象推荐方法,首先获得目标对象和多个候选对象,然后将目标对象和多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,该分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;接着获得与目标对象存在关联关系的多个候选对象,将目标对象的特征分别与多个候选对象中每个候选对象的特征进行比较,确定多个候选对象各自的显示顺序。最后将多个候选对象和多个候选对象各自的显示顺序发送给显示终端,以使显示终端按照多个候选对象各自的显示顺序进行显示。为更好地实现对目标对象的对象挖掘,本申请提出了一种分类模型,由于该分类模型在挖掘目标对象的具有关联关系的对象时具有较高的准确率,因此本申请通过该分类模型能较为准确地对目标对象的多个候选对象进行分类,从而推荐出更符合用户实际需求的对象。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例示出的一种对象推荐方法的流程图;
图2是本申请一实施例示出的分类模型的训练过程示意图;
图3是本申请一实施例示出的对二分类器的准确率进行检验的方法的流程图;
图4是本申请一实施例示出的一种样本获得方法的流程图;
图5是本申请一实施例示出的对样本对象组合进行采样的方法的流程图;
图6是本申请一实施例示出的相似对象推荐的方法的流程图;
图7是本申请一实施例提供的一种对象推荐装置的结构框图;
图8是本申请一实施例示出的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对本申请的对象推荐方法进行详细说明之前,下面首先对现有技术中的相关方案进行简单介绍。
现有技术中提供了一种相似对象的挖掘方案,具体包括:首先,根据预先构建的关系网络,确定目标对象基于关系网络挖掘的候选相似对象,以及,候选相似对象基于相应关系网络与目标对象的第一相似度指标。接着,根据第一相似度指标,从基于关系网络挖掘的候选相似对象中确定待比较候选相似对象。最后通过将待比较候选相似对象与目标对象的种子对象进行比较,确定目标对象的相似对象。然而,该种技术方案主要依赖于数据挖掘的方式获得目标对象的相似对象,而对象池中对象数量庞大,种类繁多,加之数据挖掘条件有限,导致众多满足挖掘条件而并非目标对象的真实相似对象的对象混入其中,影响数据挖掘效果,降低相似对象挖掘准确率。
为克服相关技术中的问题,本申请提供了一种对象推荐方法。下面将对本申请的对象推荐方法进行详细介绍。
图1是本申请一实施例示出的一种对象推荐方法的流程图。参照图1,本申请的对象推荐方法可以包括如下步骤:
步骤S11:获得目标对象和多个候选对象。
在本实施例中,对象可以是实体对象,例如电脑、手机、桌子、空调等,也可以是抽象对象,例如打车服务、租赁服务、送餐服务等,本实施例对实体对象的类型和抽象对象的类型不作具体限制。
由于对象具有一定的特征,因此,针对某一个对象(下文将以目标对象指代),本申请将与其在某一方面或多个方面具有相同特征的其它对象称为其候选对象。示例地,当目标对象为某类型的手表时,可以将所有具有“便携”和“查看时间”的特征的对象作为该目标对象的候选对象,例如其它类型的手表、各类型的怀表、各类型的智能手机等。再示例地,当目标对象为茶壶时,可以将具有“用于饮茶”的特征的对象作为该目标对象的候选对象,例如茶杯、茶盘、茶漏等。再示例地,当目标对象为运动鞋时,可以将所有具有“运动”和“鞋”的特征的对象作为该目标对象的候选对象,例如足球鞋、篮球鞋、跑步鞋等。再示例地,当目标对象为打车服务时,可以将所有不同于该打车服务的其它打车服务作为该目标对象的候选对象。
在本实施例中,可以采用数据挖掘方式获得多个候选对象,也可以采用其它方式获得多个候选对象,本实施例对此不作具体限制。
步骤S12:将所述目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,所述分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,所述分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的。
在本实施例中,根据目标对象和多个候选对象生成对象组合的过程可以是:将目标对象与其每一个候选对象生成一个对象组合。示例地,目标对象X有候选对象1-候选对象5,那么可以得到5个候选对象组合,分别为{目标对象X、候选对象1}、{目标对象X、候选对象2}、{目标对象X、候选对象3}、{目标对象X、候选对象4}以及{目标对象X、候选对象5}。
在本实施例中,关联关系可以是任意人为设定的关系,例如相似关系、组合关系、从属关系、竞争关系等。示例地,各种型号的摄像机均为同一类对象,属于相似关系;茶壶和茶杯、茶盘、茶漏等由于通常配套使用,属于组合关系;足球鞋、篮球鞋、跑步鞋等都是属于运动类的鞋,因此运动鞋和足球鞋、篮球鞋、跑步鞋之间属于从属关系;某公司生产的手机和其他公司生产的手机之间属于竞争关系。本实施例对关联关系的类型不作具体限制。
在一种实施场景中,用户通过某平台购买一款电脑,平台首先向用户展示各个品类的电脑,例如台式电脑、笔记本电脑、平板电脑等,当用户选择台式电脑后,平台向用户推荐各个公司生产的台式电脑,例如A品牌电脑、B品牌电脑、C品牌电脑等,当用户选择A品牌电脑后,平台继续展示与A品牌电脑相关的其他对象,例如键盘、鼠标、鼠标垫等。在上述过程中,电脑与台式电脑、笔记本电脑、平板电脑等之间则属于从属关系,台式电脑与A品牌电脑、B品牌电脑、C品牌电脑等之间则属于竞争关系,A品牌电脑与键盘、鼠标、鼠标垫等之间则属于组合关系。
在本实施例中,当一个对象组合中的两个对象各自的特征满足预设条件时,表示该对象组合中的两个对象之间存在关联关系。本申请提出了一种分类模型,且通过该分类模型来判断每一个对象组合中的两个对象各自的特征是否满足预设条件,进而获得所有与目标对象具有关联关系的对象,分类结果即所有对象组合中两个对象之间是否具有关联关系的结果。
本实施例中,分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的,由于该分类模型在挖掘目标对象的具有关联关系的对象时具有较高的准确率,因此,本实施例通过所提出的分类模型能较为准确地对目标对象的多个候选对象进行分类。而关于该分类模型的训练过程将在后文详细说明。
步骤S13:获得与所述目标对象存在关联关系的多个候选对象。
在本实施例中,在获得分类模型输出的分类结果后,可以根据分类结果获得所有与目标对象存在关联关系的候选对象。
步骤S14:将所述目标对象的特征分别与所述多个候选对象中每个候选对象的特征进行比较,确定所述多个候选对象各自的显示顺序。
在本实施例中,可以将各个候选对象与目标对象的比较分数的高低作为各个候选对象的排序依据。
在本实施例中,在不同类型的关联关系下,将目标对象与候选对象进行比较时使用的特征不同。具体地,可以包括如下三种情况:
一、在目标对象和候选对象之间属于相似关系时,比较时使用的特征可以是下单量、收藏量、浏览量等中的一个或多个,例如特征是下单量时,下单量越高,表示相似度越高,下单量越低,表示相似度越低。
二、在目标对象和候选对象之间属于组合关系时,比较时使用的特征可以是型号、形状、尺寸、颜色等中的一个或多个,例如目标对象是黑色时,灰色、白色与其为组合关系的概率较大,黄色与其组合的概率较小。
三、在目标对象和候选对象之间属于从属关系时,比较时使用的特征可以是已有技术中对其进行分类的类别特征。例如类别特征是多个购物平台对各个对象的分类数据,足球鞋、篮球鞋、跑步鞋被划分到运动鞋的频次较多,因此,足球鞋、篮球鞋、跑步鞋从属于运动鞋的概率较大,而休闲鞋被划分到运动鞋的频次较少,休闲鞋从属于运动鞋的概率较小。
在一种实施方式中,当候选对象与目标对象属于相似关系时,可以采用如下方式对候选对象进行排序:
根据下单量、收藏量、浏览量、价格等一个或多个特征,采用预设公式计算匹配分数,最后进行分数的加权求和,从而得到每一个候选对象与目标对象的相似分数,并按相似分数的高低进行排序。例如考虑下单量(权重为60%)和浏览量(权重40%)时,一个候选对象对下单量的匹配分数为80分(总分100分),对浏览量的匹配分数为60分,那么该候选对象的相似分数为80*60%+60*40%=72分。
排序靠前的候选对象为相似分数较高的候选对象,与目标对象的相似度较高,排序靠后的候选对象为相似分数较低的候选对象,与目标对象的相似度较低。其中,预设公式可以采用高斯函数、自定义函数等,本实施例对此不作具体限制。
当候选对象与目标对象属于组合关系时,也可以按照组合概率的高低对候选对象进行排序。当候选对象与目标对象属于从属关系时,也可以按照从属概率的高低对候选对象进行排序。当候选对象与目标对象属于竞争关系时,也可以按照竞争强度的高低对候选对象进行排序。本实施例对此排序方式不作具体限制。
步骤S15:将所述多个候选对象和所述多个候选对象各自的显示顺序发送给显示终端,以使所述显示终端按照所述多个候选对象各自的显示顺序进行显示。
在本实施例中,在获得候选对象各自的显示顺序后,可以将目标对象的候选对象发送给用户所用的显示终端,以供用户进一步处理。
示例地,当用户在某购物平台上对商品X给予了五星好评时,该平台推断用户可能对该类商品比较感兴趣,因此,为吸引用户的关注度,平台可能存在获得商品X的相似商品的需求。那么,该平台首先可以获得多个可能为商品X的相似商品的候选相似商品,然后将商品X和各个候选相似商品按照一对一组合的方式获得多个商品组合,再将这些商品组合输入到分类模型,获得分类结果,最后根据分类结果获得商品X的相似商品,将这些相似商品按照相似度的高低顺序发送给用户终端,以供其选择。
通过本实施例,首先获得目标对象和多个候选对象,然后将目标对象和多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,该分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;接着获得与目标对象存在关联关系的多个候选对象,将目标对象的特征分别与多个候选对象中每个候选对象的特征进行比较,确定多个候选对象各自的显示顺序。最后将多个候选对象和多个候选对象各自的显示顺序发送给显示终端,以使显示终端按照多个候选对象各自的显示顺序进行显示。为更好地实现对目标对象的对象挖掘,本申请提出了一种分类模型,由于该分类模型在挖掘目标对象的具有关联关系的对象时具有较高的准确率,因此本申请通过该分类模型能较为准确地对目标对象的多个候选对象进行分类,从而推荐出更符合用户实际需求的对象。
图2是本申请一实施例示出的分类模型的训练过程示意图。参照图2,下面将对本申请使用的分类模型的训练过程进行详细介绍,具体包括以下步骤:
步骤S21:以所述正样本集、所述负样本集以及所述未标注样本集为输入,对所述二分类器进行当前轮次训练,得到经过当前轮次训练后的二分类器。
在本实施例中,正样本集中包含多个被标注为存在关联关系的对象组合,负样本集中包含多个被标注为不存在关联关系的对象组合,未标注样本集中包括多个未标注是否存在关联关系的对象组合。由于对象组合的数量较多,根据经验可以得知未标注样本集中负样本(被标注为不存在关联关系的对象组合)远多于正样本(被标注为存在关联关系的对象组合),因此,本实施例采用PU-learning算法对未标注样本集进行分类,一个对象组合为一个样本。
在本实施例中,可以预先由专家人工对样本进行标注,即判断每个样本中的两个对象之间是否存在关联关系,从而获得一部分正样本和一部分负样本,且这些由专家标注的样本均为可靠样本。其中,正样本组成正样本集,负样本组成负样本集,剩余未标注的样本组成未标注样本集。
在步骤S21中,首先利用正样本集、负样本集以及未标注样本集对二分类器进行当前轮次的训练,得到训练后的具有分类功能的二分类器。
步骤S22:利用经过当前轮次训练后的二分类器对所述未标注样本集进行分类,得到当前轮次的相对负样本集。
在步骤S22中,利用步骤S21中训练后的二分类器对未标注样本集进行分类,获得分类后的负样本集,即相对负样本集。
步骤S23:在当前轮次的相对负样本集满足预设条件的情况下,以所述正样本集、所述负样本集以及所述当前轮次的相对负样本集为输入,对所述二分类器进行下一轮次训练,直至当前轮次的相对负样本集不满足预设条件为止,结束训练。其中,所述预设条件为:当前轮次的相对负样本集的大小小于等于上一轮次的相对负样本集的大小,并且所述正样本集的大小小于当前轮次的相对负样本集的大小。
在经过步骤S21得到训练后的二分类器后,判断该二分类器是否满足预设条件,预设条件包括两个,一个是当前轮次的相对负样本集的大小小于等于上一轮次的相对负样本集的大小(如果当前轮次为第一个轮次,那么将当前轮次分类得到的相对负样本集当作上一轮次的相对负样本集),另一个是正样本集的大小小于当前轮次的相对负样本集的大小。如果当前轮次的相对负样本集满足预设条件,则继续以正样本集、负样本集以及当前轮次的相对负样本集为输入,对二分类器进行下一轮次训练,直到当前轮次的相对负样本集不满足预设条件为止,则结束训练,获得最终的二分类器。
在本实施例中,设置预设条件的目的是保证相对负样本集的数量不会太多也不会太少。
为更好地实现对目标对象的候选对象的分类,本实施例提供了一种分类模型并给出了具体的训练方式,通过该方式可以训练出具有较高的对象分类准确率的分类模型,因而能更好地挖掘出与用户指定的目标对象具有关联关系的对象。
结合以上实施例,在一种实施方式中,本申请还提供了一种对二分类器的准确率进行检验的方法。图3是本申请一实施例示出的对二分类器的准确率进行检验的方法的流程图。参照图3,该检验方法可以包括如下步骤:
步骤S31:获得所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,并获得对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果。
在本实施例中,通过二分类器获得每个对象组合包括的两个对象之间是否存在关联关系的标注结果。
步骤S32:在所述分类结果与所述标注结果的匹配度大于预设阈值时,将所述二分类器确定为所述分类模型。
在本实施例中,由于是以专家的经验作为绝对的划分依据,将专家标注的正样本作为绝对正样本,将专家标注的负样本作为绝对负样本,因此,针对二分类器输出的标注结果,还需要通过专家进行验证。例如对于一个二分类器标注的正样本,如果专家认为该样本应当为正样本,那么表示二分类器标注结果正确,如果专家认为该样本应当为负样本,那么表示二分类器标注结果错误,依次地,通过专家人工对所有二分类器输出的标注结果进行校验,得到二分类器标注结果与专家标注结果的匹配度,当匹配度大于预设阈值时,表示二分类器的标注准确率达到预设条件,反之,当匹配度不大于预设阈值时,表示二分类器的标注准确率未达到预设条件,需要进一步提升。
步骤S33:在所述分类结果与所述标注结果的匹配度不大于所述预设阈值时,根据所述标注结果生成正样本或负样本,并利用新生成的正样本或负样本对所述二分类器继续进行训练,直至所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,与对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果的匹配度大于所述预设阈值。
在本实施例中,如果二分类器的标注结果与专家的标注结果的匹配度不大于预设阈值,那么根据专家的标注结果生成正样本或负样本,并利用新生成的正样本或负样本接着对二分类器继续进行训练,训练过程可参考步骤S21-步骤S23所述,直到二分类器的标注结果与专家的标注结果的匹配度大于预设阈值。
在本实施例中,为保证分类模型的分类准确率,通过专家人工对分类模型输出的分类结果进行校验,且只需对少量的分类结果进行校验即可提升模型的分类准确率,能在付出少量人工成本的情况下显著提升模型的性能。
结合以上实施例,在一种实施方式中,本申请还提供了一种正样本、负样本以及未标注样本的获得方法。图4是本申请一实施例示出的一种样本获得方法的流程图。参照图4,本申请可以采取如下方法获得正样本、负样本以及未标注样本:
步骤S41:根据预设划分因子,对样本对象池进行划分,得到多个样本对象组合,一个样本对象组合包括两个样本对象,所述预设划分因子包括以下至少一者:样本对象的属性、样本对象对应的用户行为或用户评论。
在本实施例中,预设划分因子可以是用于判定两个对象之间是否存在关联关系的划分依据,如样本对象的属性、样本对象对应的用户行为、用户评论等。例如针对样本对象的属性,可以将位于同一城市的酒店,或者同一商圈的酒店,又或者同一区域的酒店两两作为对象组合,再例如针对样本对象对应的用户行为,可以将用户在预设时长内同时点击过同类对象,或者点击多个对象后购买同类的另一对象两两作为对象组合,又或者针对用户评论,可以将用户在评论时同时提到的同类对象作为划分依据。本实施例对预设划分因子的类型不作具体限制。
在本实施例中,样本对象池中包含有多个样本对象,根据预设划分因子可以对样本对象池进行划分,得到多个样本对象组合。
步骤S42:对所述多个样本对象组合进行采样,得到多个待标注样本对象组合。
在本实施例中,考虑到样本对象组合的数量较多,因此在标注获得正样本和负样本时,人工标注的工作量太大,为减少人工标注的工作量,可以从多个样本对象组合中采样出少量具有代表性的样本对象组合,作为待标注样本对象组合。
步骤S43:根据所述多个待标注样本对象组合各自的标注结果,生成正样本或负样本,一个待标注样本对象组合的标注结果表征该待标注样本对象组合包括的两个样本对象之间是否存在关联关系。
在本实施例中,针对待标注样本对象组合,由专家人工对待标注样本对象组合进行标注,将每一个待标注样本对象组合标注为正样本或者负样本。由于模型或者设备对待标注样本对象组合的标注结果不一定完全满足训练要求,因此本实施例通过专家人工对少量待标注样本对象组合进行标注,并将专家标注的正样本作为绝对正样本,将专家标注的负样本作为绝对负样本。
步骤S44:将所述多个样本对象组合中未被采样的样本对象组合的样本,确定为未标注样本。
在本实施例中,由于专家只对样本对象组合中的少量样本对象组合进行标注,因此剩余的未被标注的样本对象组合作为未被标注样本。
本实施例在基于数据挖掘为主获得候选对象组合的同时,辅以人机结合的方式,即专家人工标注待标注样本对象组合,从而将数据挖掘与人工标注结合,高效地提升了模型分类的准确率,由于专家只需标注少量的待标注样本对象组合,因此本申请可以在付出极少人工成本的情况下大幅提升分类模型的性能,使其能更为准确地挖掘出与目标对象具有关联关系的对象,进而满足用户的需求。
结合以上实施例,在一种实施方式中,本申请还提供了一种对多个样本对象组合进行采样,得到多个待标注样本对象组合的方法。图5是本申请一实施例示出的对样本对象组合进行采样的方法的流程图。参照图5,具体地,该方法可以包括以下步骤:
步骤S51:根据所述多个样本对象组合各自的属性,对所述多个样本对象组合进行分层。
在本实施例中,属性可以包括:地理位置、价格区间、下单量等,本实施例对此不作具体限制。以属性是价格区间为例,可以按照不同的价格区间,将多个样本对象组合划分为多层样本对象组合。
步骤S52:从每层样本对象组合中抽取预设比例的样本对象组合,得到该层的待标注样本对象组合。
在本实施例中,在划分得到多层样本对象组合后,可以按照预设的挑选比例系数(可以为一个经验值)在每层的样本对象组合中挑选一定比例的样本对象组合,作为每层的待标注样本对象组合。
步骤S53:汇总每层的待标注样本对象组合,得到所述多个待标注样本对象组合。
在本实施例中,在获得每层的待标注样本对象组合后,可以汇总每一层的待标注样本对象组合,得到多个待标注样本对象组合。
通过本实施例,可以将原来的大量样本对象组合缩减为采样后的少量样本对象组合,从而降低了后续专家人工标注的数据量。
下面将以一个具体的实施例对本申请的对象推荐方法进行详细说明。图6是本申请一实施例示出的相似对象推荐的方法的流程图。结合图6,在该具体实施例中,某平台需要统计各个对象的具有关联关系的对象组,以实现对用户的针对性推荐。那么从模型训练到最后实现对象的推荐的完整过程如下所示:
第一部分:召回
Step1:构建候选的具有关联关系的对象组对
由于不是所有对象之间都存在两两相似的关系,因此需要构建候选的具有关联关系的对象组对,即将有可能存在相似关系的两个对象A和B构成一对具有关联关系的对象组对{A,B}。因此可以通过对象池,可以获得多个对象的具有关联关系的对象组对。
具体而言,可以根据对象的属性和经验作为划分因子,用于划分候选具有关联关系的对象组对。例如,当目标对象是酒店时,可以选择地理位置属性作为划分因子,限定与目标对象同处于一个城市/商圈/区域的酒店作为目标对象的候选具有关联关系的对象组,并分别与目标对象构成具有关联关系的对象组对;再例如当目标对象是用户网上购买的商品时,可以根据流量转移(即用户在N小时内同时点击过的与目标对象同类的A对象,或者点击过目标对象并购买与目标对象同类的B对象,那么A对象、B对象可以作为目标对象的候选具有关联关系的对象组)构建候选具有关联关系的对象组对;再例如可以根据用户的评论构建候选具有关联关系的对象组对,例如某一用户评论中同时提到了目标对象和与其同类的对象C,那么可以将目标对象和对象C作为一对候选具有关联关系的对象组对。
其次,构建候选具有关联关系的对象组对时可以有多个划分依据的组合,即同时使用多个划分因子来筛选目标对象的候选具有关联关系的对象组,进而构建候选具有关联关系的对象组对,本实施例对此不作具体限制。
在划分出候选具有关联关系的对象组对后,可以根据划分得到的候选具有关联关系的对象组对形成一个关系网络,其中节点为各个对象,对象A与对象B的有向边则代表对象A与对象B存在相似关系,此处设置为有向的原因是:可以设置A->B和B->A的边的权重不同,既对象A对对象B的相似程度,不同于对象B对对象A的相似程度。
通过Step1,候选具有关联关系的对象组对的配对数量从原有的对象池中所有对象两两配对时的数量,缩减到通过划分因子进行了筛选的候选具有关联关系的对象组对的配对数量,降低了将不是相似关系的对象配对为候选具有关联关系的对象组对的概率,提升了配对质量。
Step2:挑选少量待标注样本
对于候选具有关联关系的对象组对,设定挑选比例系数a(a<1,一般选择较小的数,保证获取的待标注样本不会太多)。对于所有的候选具有关联关系的对象组对,根据属性进行分层(例如根据不同城市/商品价格带等进行分层),对每层的候选具有关联关系的对象组对,假设该层共有N对具有关联关系的对象组对,那么随机抽取出N*a条候选具有关联关系的对象组对,称为待标注样本。最后,汇总每一层的待标注样本,称为待标注样本集。
Step3:专家样本标注
将待标注样本集发送给相关专家进行标注。一个样本是一个候选具有关联关系的对象组对,专家判断该对候选具有关联关系的对象组对是否具有相似关系,如果是,将该候选具有关联关系的对象组对标注为“是”,反之,将该候选具有关联关系的对象组对标注为“否”。即专家对于候选具有关联关系的对象组对只需标注为“是”或者“否”。
第二部分:分类
Step4:根据专家标注的正负样本和未标记样本,采用PU_Learning进行分类
由于候选具有关联关系的对象组对数量多,根据经验可以想见未标注的样本中负样本数目远多于正样本,因此本申请考虑使用PU-learning对未标注的样本进行分类。
由于Step3中得到的样本同时包含正样本和负样本,这些负样本是可靠的负样本,因此Step4在使用PU_Learning时进行了一些改进,改进后的使用过程包括如下步骤:
S1:将专家标注的正样本集合记为P,专家标注的负样本集合记为N(又称为绝对可靠负样本集),其他所有未标注的样本集合记为初始未标注样本集合U(P、N、U为初始数据,后续迭代不会发生改变)。
S2:初始化轮次迭代系数i=1;
S3:将正样本集P和负样本集N作为输入,训练得到第i轮的二分类器Ci;
S4:用训练后的二分类器Ci对未标记样本集U进行分类;
S5:将步骤S4中,由第i轮的分类器Ci分类得到的负样本集Qi称为第i轮相对可靠负样本集RNi,记Q0为Qi的副本(设置Q0的原因是:下一个轮次的判定条件会涉及到Q0,使下一个轮次可以进行判断);
S6:在同时满足:
(1)当前轮次分类器Ci得到的负样本集Qi的大小,小于等于Qi-1的大小;
(2)专家正样本集P的大小,小于当前轮次相对可靠负样本集RNi的大小;
的情况下,执行以下S6.1-S6.4的循环:
S6.1:迭代轮次系数更新i为i+1(进入了下一轮次);
S6.2:准备训练i轮的二分类器,其中输入的正样本依旧为专家标注的正样本集合P,输入的负样本则为专家标注的负样本集合N以及上一轮分类器得到的相对可靠副样本集RNi-1,用这些数据训练得到二分类器Ci;
S6.3:利用Ci对RNi-1进行分类,将分类结果中的负样本记为Qi;
S6.4:将RN2i更新为Qi;
S7:最终得到的Ci为准确率较高的二分类器。
Step5:利用PU_Learning得到的二分类器进行具有关联关系的对象组的分类
根据PU_Learning得到的二分类器,对所有未标注样本进行分类,即针对每一对候选具有关联关系的对象组对,输出其是否为相似关系。
Step6:抽取分类结果进行准确率检验
随机挑选少量样本,供专家进行判定是否准确,根据判定结果进行准确率统计,如果准确率达到了阈值,那么认为该分类器分类结果准确度达标,可以跳转到Step7进行后续的排序操作;否则,进行标注样本数据扩充,如下表所示:
分类模型判断“是“相似 | 分类模型判断“否”相似 | |
专家判断“是“相似 | 该样本加入正样本集 | 该样本加入正样本集 |
专家判断“否“相似 | 该样本加入可靠负样本集 | 该样本加入可靠负样本集 |
如此,标注样本量进一步提升,可以重复Step4~Step6,以提升分类器分类结果的准确率。
第三部分:排序
Step7:相似度排序
根据Step4~6,能够获得较为准确的分类结果。对于每个对象而言,可以得到较为准确的多个具有关联关系的对象组。在实际应用时,可能还需要对这些具有关联关系的对象组进行排序,从而确定与目标对象最相似的topK个具有关联关系的对象组,因而可以对具有关联关系的对象组进行排序。
针对每一个目标对象的经过二分类器输出的具有关联关系的对象组进行排序,排序排名越靠前的对象,与目标对象的相似程度越高。
其中,排序的方式有多种,例如,可以根据目标对象和具有关联关系的对象组的特征(例如价格、销量等)挑选合适的计算公式(例如高斯函数、自定义函数等)计算匹配分数,最后进行分数的加权求和,从而得到相似分数。
在该实施例中,结合人机进行目标对象的具有关联关系的对象组的挖掘,只需要人工进行简单的小范围的数据标注,以及分类结果的准确率的校验,就可以结合数据挖掘获得较为准确的具有关联关系的对象组。
本申请的对象推荐方法具有如下多个技术效果:
一、在基于数据挖掘为主获得多个对象组合的同时,辅以人机结合的方式,即人工进行简单的小范围的数据标注,将数据挖掘与人工标注结合,利用人工标注绝对准确的特性(本申请以人工标注样本为绝对可靠样本),能准确地挖掘出与目标对象具有关联关系的推荐对象,从而能更好地对用户进行推荐。
二、本申请中虽然需要人工参与,一是对待标注样本对象组合的人工标注,另一是对分类模型输出的分类结果进行人工校验,但是两次都是小范围的人工处理,不仅能在人工付出代价较少的情况下显著提升模型的性能,提升分类准确率,而且大大降低了人工处理的难度。
三、在本申请中,人工标注的数据会用于分类模型的训练,即在训练分类模型时会加入专家标注的负样本数据(原有的训练过程是不会加入的专家标注的负样本数据的)以提升训练效果,能最大化地发挥人工处理数据的使用价值。
基于同一发明构思,本申请一实施例提供一种对象推荐装置700。参考图700,图7是本申请一实施例提供的一种对象推荐装置的结构框图。如图7所示,该对象推荐装置700包括:
第一获得模块701,用于获得目标对象和多个候选对象;
输入模块702,用于将所述目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,所述分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,所述分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;
第二获得模块703,用于获得与所述目标对象存在关联关系的多个候选对象;
第一确定模块704,用于将所述目标对象的特征分别与所述多个候选对象中每个候选对象的特征进行比较,确定所述多个候选对象各自的显示顺序;
发送模块705,用于将所述多个候选对象和所述多个候选对象各自的显示顺序发送给显示终端,以使所述显示终端按照所述多个候选对象各自的显示顺序进行显示。
可选地,所述装置700还包括模型训练模块,所述模型训练模块包括:
第一训练子模块,用于以所述正样本集、所述负样本集以及所述未标注样本集为输入,对所述二分类器进行当前轮次训练,得到经过当前轮次训练后的二分类器;
分类子模块,用于利用经过当前轮次训练后的二分类器对所述未标注样本集进行分类,得到当前轮次的相对负样本集;
第二训练子模块,用于在当前轮次的相对负样本集满足预设条件的情况下,以所述正样本集、所述负样本集以及所述当前轮次的相对负样本集为输入,对所述二分类器进行下一轮次训练,直至当前轮次的相对负样本集不满足预设条件为止,结束训练;
其中,所述预设条件为:当前轮次的相对负样本集的大小小于等于上一轮次的相对负样本集的大小,并且所述正样本集的大小小于当前轮次的相对负样本集的大小。
可选地,所述装置700还包括样本划分模块,所述样本划分模块包括:
划分子模块,用于根据预设划分因子,对样本对象池进行划分,得到多个样本对象组合,一个样本对象组合包括两个样本对象,所述预设划分因子包括以下至少一者:样本对象的属性、样本对象对应的用户行为或用户评论;
采样子模块,用于对所述多个样本对象组合进行采样,得到多个待标注样本对象组合;
生成子模块,用于根据所述多个待标注样本对象组合各自的标注结果,生成正样本或负样本,一个待标注样本对象组合的标注结果表征该待标注样本对象组合包括的两个样本对象之间是否存在关联关系;
确定子模块,用于将所述多个样本对象组合中未被采样的样本对象组合的样本,确定为未标注样本。
可选地,所述采样子模块包括:
分层子模块,用于根据所述多个样本对象组合各自的属性,对所述多个样本对象组合进行分层;
抽取子模块,用于从每层样本对象组合中抽取预设比例的样本对象组合,得到该层的待标注样本对象组合;
汇总子模块,用于汇总每层的待标注样本对象组合,得到所述多个待标注样本对象组合。
可选地,所述装置700还包括:
第三获得模块,用于获得所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,并获得对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果;
第二确定模块,用于在所述分类结果与所述标注结果的匹配度大于预设阈值时,将所述二分类器确定为所述分类模型;
所述模型训练模块还用于在所述分类结果与所述标注结果的匹配度不大于所述预设阈值时,根据所述标注结果生成正样本或负样本,并利用新生成的正样本或负样本对所述二分类器继续进行训练,直至所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,与对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果的匹配度大于所述预设阈值。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备800,如图8所示。图8是本申请一实施例示出的一种电子设备的示意图。该电子设备包括存储器802、处理器801及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序对象。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序对象的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序对象的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种对象推荐方法、装置、存储介质和电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种对象推荐方法,其特征在于,所述方法包括:
获得目标对象和多个候选对象;
将所述目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,所述分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,所述分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;
获得与所述目标对象存在关联关系的多个候选对象;
将所述目标对象的特征分别与所述多个候选对象中每个候选对象的特征进行比较,确定所述多个候选对象各自的显示顺序;
将所述多个候选对象和所述多个候选对象各自的显示顺序发送给显示终端,以使所述显示终端按照所述多个候选对象各自的显示顺序进行显示。
2.根据权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括以下步骤:
以所述正样本集、所述负样本集以及所述未标注样本集为输入,对所述二分类器进行当前轮次训练,得到经过当前轮次训练后的二分类器;
利用经过当前轮次训练后的二分类器对所述未标注样本集进行分类,得到当前轮次的相对负样本集;
在当前轮次的相对负样本集满足预设条件的情况下,以所述正样本集、所述负样本集以及所述当前轮次的相对负样本集为输入,对所述二分类器进行下一轮次训练,直至当前轮次的相对负样本集不满足预设条件为止,结束训练;
其中,所述预设条件为:当前轮次的相对负样本集的大小小于等于上一轮次的相对负样本集的大小,并且所述正样本集的大小小于当前轮次的相对负样本集的大小。
3.根据权利要求1或2所述的方法,其特征在于,所述正样本集中的正样本、所述负样本集中的负样本、以及所述未标注样本集中的未标注样本,是按照以下步骤得到的:
根据预设划分因子,对样本对象池进行划分,得到多个样本对象组合,一个样本对象组合包括两个样本对象,所述预设划分因子包括以下至少一者:样本对象的属性、样本对象对应的用户行为或用户评论;
对所述多个样本对象组合进行采样,得到多个待标注样本对象组合;
根据所述多个待标注样本对象组合各自的标注结果,生成正样本或负样本,一个待标注样本对象组合的标注结果表征该待标注样本对象组合包括的两个样本对象之间是否存在关联关系;
将所述多个样本对象组合中未被采样的样本对象组合的样本,确定为未标注样本。
4.根据权利要求3所述的方法,其特征在于,对所述多个样本对象组合进行采样,得到多个待标注样本对象组合,包括:
根据所述多个样本对象组合各自的属性,对所述多个样本对象组合进行分层;
从每层样本对象组合中抽取预设比例的样本对象组合,得到该层的待标注样本对象组合;
汇总每层的待标注样本对象组合,得到所述多个待标注样本对象组合。
5.根据权利要求2所述的方法,其特征在于,在结束训练之后,所述方法还包括:
获得所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,并获得对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果;
在所述分类结果与所述标注结果的匹配度大于预设阈值时,将所述二分类器确定为所述分类模型;
在所述分类结果与所述标注结果的匹配度不大于所述预设阈值时,根据所述标注结果生成正样本或负样本,并利用新生成的正样本或负样本对所述二分类器继续进行训练,直至所述二分类器输出的每个对象组合包括的两个对象之间是否存在关联关系的分类结果,与对每个对象组合包括的两个对象之间是否存在关联关系进行标注的标注结果的匹配度大于所述预设阈值。
6.一种对象推荐装置,其特征在于,所述装置包括:
第一获得模块,用于获得目标对象和多个候选对象;
输入模块,用于将所述目标对象和所述多个候选对象一对一组合而得到的多个对象组合分别输入分类模型,得到分类结果,所述分类结果表征每个对象组合包括的两个对象之间是否存在关联关系,其中,所述分类模型是以正样本集、负样本集以及未标注样本集为训练样本,对二分类器进行训练得到的;
第二获得模块,用于获得与所述目标对象存在关联关系的多个候选对象;
第一确定模块,用于将所述目标对象的特征分别与所述多个候选对象中每个候选对象的特征进行比较,确定所述多个候选对象各自的显示顺序;
发送模块,用于将所述多个候选对象和所述多个候选对象各自的显示顺序发送给显示终端,以使所述显示终端按照所述多个候选对象各自的显示顺序进行显示。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一所述的对象推荐方法中的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-5任一所述的对象推荐方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011059041.XA CN112287976A (zh) | 2020-09-30 | 2020-09-30 | 一种对象推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011059041.XA CN112287976A (zh) | 2020-09-30 | 2020-09-30 | 一种对象推荐方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287976A true CN112287976A (zh) | 2021-01-29 |
Family
ID=74422266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011059041.XA Pending CN112287976A (zh) | 2020-09-30 | 2020-09-30 | 一种对象推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287976A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860999A (zh) * | 2021-02-10 | 2021-05-28 | 脸萌有限公司 | 信息推荐方法、装置、设备和存储介质 |
CN113191812A (zh) * | 2021-05-12 | 2021-07-30 | 深圳索信达数据技术有限公司 | 业务推荐方法、计算机设备及计算机可读存储介质 |
-
2020
- 2020-09-30 CN CN202011059041.XA patent/CN112287976A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860999A (zh) * | 2021-02-10 | 2021-05-28 | 脸萌有限公司 | 信息推荐方法、装置、设备和存储介质 |
CN112860999B (zh) * | 2021-02-10 | 2023-04-18 | 脸萌有限公司 | 信息推荐方法、装置、设备和存储介质 |
CN113191812A (zh) * | 2021-05-12 | 2021-07-30 | 深圳索信达数据技术有限公司 | 业务推荐方法、计算机设备及计算机可读存储介质 |
CN113191812B (zh) * | 2021-05-12 | 2024-02-02 | 深圳索信达数据技术有限公司 | 业务推荐方法、计算机设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239338A (zh) | 信息推荐方法及装置 | |
CN108205766A (zh) | 信息推送方法、装置及系统 | |
CN107730311A (zh) | 一种推荐信息的推送方法、装置及服务器 | |
US20200234218A1 (en) | Systems and methods for entity performance and risk scoring | |
CN110532351A (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
CN105868847A (zh) | 一种购物行为的预测方法及装置 | |
CN105447730A (zh) | 目标用户定向方法及装置 | |
CN105373597A (zh) | 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法 | |
CN108960719A (zh) | 选品方法和装置以及计算机可读存储介质 | |
CN108416616A (zh) | 投诉举报类别的排序方法和装置 | |
CN109978033A (zh) | 同操作人识别模型的构建与同操作人识别的方法和装置 | |
CN109583966A (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
CN108932646B (zh) | 基于运营商的用户标签验证方法、装置和电子设备 | |
CN104239335B (zh) | 特定用户信息获取方法及装置 | |
CN111611496A (zh) | 产品推荐方法及其装置 | |
CN112287976A (zh) | 一种对象推荐方法、装置、电子设备及存储介质 | |
CN106354867A (zh) | 多媒体资源的推荐方法及装置 | |
CN109325845A (zh) | 一种金融产品智能推荐方法及系统 | |
CN113051486A (zh) | 基于交友场景的推荐模型的训练方法、装置、电子设备和计算机可读存储介质 | |
CN111460301B (zh) | 对象推送方法、装置、电子设备及存储介质 | |
CN113761348A (zh) | 一种信息推荐方法、装置、电子设备和存储介质 | |
CN106919588A (zh) | 一种应用程序搜索系统及方法 | |
CN114595323B (zh) | 画像构建、推荐、模型训练方法、装置、设备及存储介质 | |
CN110457387A (zh) | 一种应用于网络中用户标签确定的方法及相关装置 | |
KR101028810B1 (ko) | 광고 대상 분석 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |