CN107341176B - 一种样本权重设置方法及装置,电子设备 - Google Patents

一种样本权重设置方法及装置,电子设备 Download PDF

Info

Publication number
CN107341176B
CN107341176B CN201710370473.4A CN201710370473A CN107341176B CN 107341176 B CN107341176 B CN 107341176B CN 201710370473 A CN201710370473 A CN 201710370473A CN 107341176 B CN107341176 B CN 107341176B
Authority
CN
China
Prior art keywords
sample
heat
weight
trained
heat index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710370473.4A
Other languages
English (en)
Other versions
CN107341176A (zh
Inventor
张钦
杨一帆
张弓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201710370473.4A priority Critical patent/CN107341176B/zh
Publication of CN107341176A publication Critical patent/CN107341176A/zh
Priority to PCT/CN2017/119844 priority patent/WO2018214503A1/zh
Priority to US16/615,830 priority patent/US20200175023A1/en
Priority to KR1020197035385A priority patent/KR102340463B1/ko
Priority to CA3062119A priority patent/CA3062119A1/en
Priority to EP17911294.1A priority patent/EP3617909A4/en
Priority to JP2019564949A priority patent/JP6964689B2/ja
Application granted granted Critical
Publication of CN107341176B publication Critical patent/CN107341176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种样本权重设置方法,属于计算机技术领域,用于解决样本标注时存在的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。所述方法包括:获取待训练样本的预设热度指标的值,根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重。通过适当降低热度高的区域或时间段或品类的样本的样本权重,即降低存在标注与样本特征不一致性的样本的样本权重,减少样本标注不准确导致的训练的模型准确性降低的问题,提升训练的模型的准确性,进一步提升呈现给用户的搜索或推荐结果的准确率。

Description

一种样本权重设置方法及装置,电子设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种样本权重设置方法及装置,电子设备。
背景技术
O2O平台提供的搜索、推荐等服务的准确性直接影响服务给用户带来的直观体验。无论搜索还是推荐等服务,其技术手段大部分是基于已有用户行为日志获取训练样本,然后应用一定的算法,训练排序模型。在基于已有训练样本训练模型的过程中,为了提高训练得到的模型的准确性,通常需要对样本进行手动标注、人工或自动筛选,以选取具有一定代表性的样本。现有技术中的样本标注方法主要是将被点击的兴趣点定义为正样本,未被点击的兴趣点归为负样本。但是,对于O2O领域,由于兴趣点存在显著的地理区域化或时间分布等特点,用户访问量高的热门地区或热点时间段的兴趣点分布密集,都属于优质商户或产品的样本,这部分兴趣点应该作为正样本。然而,仅根据点击与否等简单规则进行样本标注后,必然出现标注与样本特征之间的不一致性,即从特征上看明显应该标为正样本的兴趣点却被标成负样本。
可见,现有技术中的样本标注方法对于特定场景下样本(如热门地区的兴趣点、高频品类的产品的兴趣点)存在的样本标注不准确的问题,将导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确。
发明内容
本申请实施例提供一种样本权重设置方法,解决现有技术中的特定场景下的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种样本权重设置方法,包括:
获取待训练样本的预设热度指标的值;
根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重;
根据所有所述单一热度指标权重,确定所述待训练样本的样本权重。
第二方面,本申请实施例提供了一种样本权重设置装置,包括:
热度指标获取模块,用于获取待训练样本的预设热度指标的值;
单一热度指标权重确定模块,用于根据所述热度指标获取模块获取的每个述预设热度指标的值确定所述待训练样本的单一热度指标权重;
样本权重确定模块,用于根据所有所述单一热度指标权重,确定所述待训练样本的样本权重。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例公开的所述的样本权重设置方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的所述样本权重设置方法的步骤。
本申请实施例公开的样本权重设置方法,通过获取待训练样本的预设热度指标的值,然后根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重,解决了现有技术中特定场景下的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。通过结合热度指标设置样本的样本权重,使得热度高的区域或时间段或品类的样本的样本权重适当降低,即降低存在标注与样本特征不一致性的样本的样本权重,减少样本标注不准确导致的训练的模型准确性降低的问题,从而提升训练的模型的准确性,并进一步提升呈现给用户的搜索或推荐结果的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的样本权重设置方法的流程图;
图2是本申请实施例二的样本权重设置方法的流程图;
图3是本申请实施例三的样本权重设置方法的流程图;
图4是本申请实施例四的样本权重设置装置结构图之一;
图5是本申请实施例四的样本权重设置装置结构图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请公开的一种样本权重设置方法,如图1所示,该方法包括:步骤100至步骤120。
步骤100,获取待训练样本的预设热度指标的值。
本申请实施例中所采用的样本为当前系统或平台内的日志数据,例如O2O平台上用户的点击或购买商品的日志、搜索系统内用户的点击或浏览产品或商家的日志等。具体实施时,将日志数据作为样本数据来源。获取日志数据和从日志数据中获取样本数据的具体方法为现有技术,此处不再赘述。
本申请实施例中获取的样本数据包括:样本特征和样本的关联信息,样本特征包括:商户星级分、评论数、购买量、点击反馈,以及用户偏好等特征;样本的关联信息包括:商家或产品的访问量、访问时间信息;商家或产品的地理位置信息;商家或产品的品类信息等。其中,样本特征构成训练模型时的特征向量,即待训练样本;样本的关联信息决定了相应待训练样本的热度指标的取值。获取样本特征(即待训练样本)的具体方案参见现有技术,此处不再赘述。
具体实施时,热度指标可以设置为:区域热度、时间热度、品类热度中的一项或多项。例如,热度指标可以只包括区域热度,也可以既包括区域热度又包括品类热度和时间热度。通过对待训练样本进行分析,可以获取每个待训练样本的区域热度、时间热度和品类热度的值。
步骤110,根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重。
每一种热度指标都会影响待训练样本的权重,具体实施时,将根据每一种热度指标分别计算得到的权重称为单一热度指标权重。例如:根据区域热度指标的值计算得到样本的区域热度权重;根据时间热度指标的值计算得到样本的时间热度权重;根据品类热度指标的值计算得到样本的品类热度权重。具体实施时,通过热度指标的单调递减函数计算每一种热度指标对应的待训练样本的单一热度指标权重。对于不同的热度指标,单调递减函数中的参数可能会有不同,参数的值根据实验确定。在训练模型时,将根据每一种热度指标分别计算得到的权重作为该样本的样本权重的一个因子。
步骤120,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重。
在根据每一种热度指标分别计算得到相应的单一热度指标权重之后,将所有单一热度指标权重相乘,得到的乘积作为所述待训练样本的样本权重。即,在训练模型时,根据预设的热度指标的值确定所述待训练样本的样本权重。或者,根据单一热度指标重要程度调整至少一个所述单一热度指标权重,然后计算调整后的所有所述单一热度指标权重的乘积,并将所述乘积作为所述待训练样本的样本权重。在调整所述单一热度指标权重时,如果,某一单一热度指标的权重在得到的样本权重中的占比与预先设置的重要程度相适应,则不对该单一热度指标的权重进行调整;如果某一单一热度指标权重在得到的样本权重中的占比与预先设置的重要程度不相适应,则需要对该单一热度指标的权重进行调整。具体实施时,可以通过将该单一热度指标权重放大或缩小一定比例,使得调整后的该单一热度指标的权重占所述待训练样本的样本权重的比例与所述单一热度指标重要程度相适应。
本申请实施例公开的样本权重设置方法,通过获取待训练样本的预设热度指标的值,然后根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重,解决了现有技术中特定场景下的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。通过结合热度指标设置样本的样本权重,使得热度高的区域或时间段或品类的样本的样本权重适当降低,即降低存在标注与样本特征不一致性的样本的样本权重,减少样本标注不准确导致的训练的模型准确性降低的问题,从而提升训练的模型的准确性,并进一步提升呈现给用户的搜索或推荐结果的准确率。
实施例二
本实施例公开的一种样本权重设置方法,如图2所示,该方法包括:步骤200至步骤220。
具体实施时,热度指标可以设置为:区域热度、时间热度、品类热度中的一项或多项。本实施例中,以热度指标为区域热度为例,说明热度指标的值的获取方法,以及根据获取的热度指标的值确定所述待训练样本的单一热度指标权重的具体过程。
步骤200,获取待训练样本的区域热度值。
获取待训练样本的具体方法参见实施例一,此处不再赘述。本申请实施例中获取的样本数据包括:样本特征和样本的关联信息,其中样本的关联信息进一步包括:商家或产品的访问量、访问时间信息、访问行为;商家或产品的地理位置信息;商家或产品的品类信息等。具体实施时,以商家的地理位置信息为经纬度坐标为例,说明获取待训练样本的区域热度指标的值的具体方案。
具体实施时,获取待训练样本的区域热度值包括:将所有待训练样本按照地理位置划分至相应的区域块;确定每个所述区域块的区域热度。
首先,解析所有待训练样本的数据结构,根据每个待训练样本的地理位置信息确定所述待训练样本覆盖的整体区域;然后,按照预设规则将所述整体区域划分为相应的多个区域块;最后,分别确定每个区域块的区域热度。具体实施时,区域热度的值可以通过多种数据表征,例如,区域块的历史访问用户数、区域块内的商户数,以及地理位置在该区域块内的历史访问请求数等。
本实施例以区域块的划分规则为:将整体区域划分为500m×500m的相邻区域块为例。假设样本的地理位置采用经纬度表示,为了计算的方便,将样本的地理位置的经纬度值分别乘以200再取整,然后,统计所有样本的经纬度值,根据经纬度值将所有样本覆盖的整体区域划分为本500m×500m的区域块。
然后,根据每个区域块的经纬度值范围,和样本的地理位置,将样本和区域块进行关联,进一步确定每个区域块关联的所有样本,即地理位置位于该区域块内的所有样本。
最后,根据每个区域块关联的样本分别确定每个区域块的区域热度。以通过月历史访问请求数作为区域热度为例,对于每个区域块,基于该区域块关联的所有样本,统计最近一个月内的访问请求数,将得到的访问请求数作为该区域块的区域热度。具体实施时,还可以将该区域块关联的所有样本中发生点击和浏览行为的样本的数量作为该区域块的区域热度;或者,将该区域块关联的所有样本涉及的商家数量作为该区域块的区域热度。本申请对确定每个区域块的区域热度的具体方式不做限定。
若所有训练样本分布在M个区域块内,将获取到M个区域块对应的M个区域热度值F(lngj,latj),其中,1≤j≤M。
步骤210,根据区域热度值确定所述待训练样本的区域热度权重。
具体实施时,根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重包括:根据区域热度的单调递减函数确定待训练样本的区域热度权重。具体实施时,样本区域热度权重的计算公式可以表示为:
Figure BDA0001302650520000061
xifromD(lngj,latj);
其中,Favg为所有区域块的区域热度平均值,可以根据公式
Figure BDA0001302650520000062
计算得到;F(lngj,latj)为第j个区域块的区域热度值;xi表示区域块j中的一个待训练样本;W(xi)表示区域块j中的一个待训练样本的样本区域热度权重;D(lngj,latj)表示第j个区域块关联的训练样本集合;H(F(lngj,latj))表示区域热度的单调递减函数。
具体实施时,单调递减函数可以表示为:
Figure BDA0001302650520000071
或者,
Figure BDA0001302650520000072
其中,F(lngj,latj)为第j个区域块的区域热度值;c为控制单调趋势缓急的调和参数,此参数的设定要考虑区域热度值的分布,同时可以根据模型训练的auc、MAP等指标来确定。其中,auc是衡量分类结果好坏的指标,用于分类模型的评价;MAP是衡量排序好坏的指标。
由样本区域热度权重的计算公式可以得出,对于区域热度值较低的区域块,其关联的样本的权重得到了提升;而对于区域热度值较高的区域块,其关联的样本的权重得到了降低。
步骤220,确定所述区域热度权重,作为所述待训练样本的样本权重。
当热度指标只有区域热度时,将待训练样本的区域热度权重作为所述待训练样本的样本权重。
本申请实施例公开的样本权重设置方法,通过获取待训练样本的区域热度的值,然后根据每个所述区域热度的值确定所述待训练样本的区域热度权重,确定所述区域热度权重作为所述待训练样本的样本权重,解决了现有技术中特定场景下的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。通过结合热度指标设置样本的样本权重,使得热度高的区域的样本的样本权重适当降低,即降低存在标注与样本特征不一致性的样本的样本权重,减少样本标注不准确导致的训练的模型准确性降低的问题,从而提升训练的模型的准确性,并进一步提升呈现给用户的搜索或推荐结果的准确率。
实施例三
本实施例公开的一种样本权重设置方法,如图3所示,该方法包括:步骤300至步骤320。
本实施例中,以热度指标包括区域热度、品类热度和时间热度为例,说明在训练模型时,热度指标的值的获取方法,以及根据获取的热度指标的值确定所述待训练样本的单一热度指标权重,并根据单一热度指标权重确定样本的权重的具体过程。
步骤300,获取待训练样本的区域热度值、品类热度值和时间热度值。
获取待训练样本的具体方法参见实施例一,此处不再赘述。本申请实施例中获取的样本数据的样本关联信息包括:商家或产品的访问量、访问时间信息、访问行为;商家或产品的地理位置信息;商家或产品的品类信息等。具体实施时,以商家的地理位置信息为经纬度坐标为例,说明获取待训练样本的区域热度指标的值的具体方案。
具体实施时,获取待训练样本的区域热度值包括:将所有待训练样本按照地理位置划分至相应的区域块;确定每个所述区域块的区域热度。获取待训练样本的区域热度值的具体实施方式参见实施例二,此处不再赘述。若所有训练样本分布在M1个区域块内,将获取到M1个区域块对应的M1个区域热度值F1(lngj,latj),其中,1≤j≤M1
获取待训练样本的时间热度值包括:将所有待训练样本按照时间划分至相应的时间段;确定每个所述时间段的时间热度。首先,解析所有待训练样本的数据结构,根据每个待训练样本的访问时间信息确定所述待训练样本覆盖的整体时间段;然后,按照预设规则(如每7天为一个时间段)将所述整体时间段划分为多个时间段;最后,分别确定每个时间段的时间热度。具体实施时,时间热度的值可以通过多种数据表征,例如,时间段内的访问用户数、该时间段内的历史访问请求数等。本申请对确定每个时间段的时间热度的具体方式不做限定。若所有训练样本分布在M2个时间段内,将获取到M2个时间段对应的M2个时间热度值F2(Timej),其中,1≤j≤M2
获取待训练样本的品类热度值包括:根据所有待训练样本确定每个品类的品类热度,其中,每个品类的品类热度为该品类的商户总数量或该品类的历史访问数量。具体实施时,首先,解析所有待训练样本的数据结构,根据每个待训练样本的产品品类信息确定所述待训练样本覆盖的所有产品品类;然后,分别确定每个品类的商户总数量或该品类的历史访问数量作为该品类的品类热度值。本申请对确定品类热度值的具体方式不做限定。若所有训练样本分布在M3个品类内,将获取到M3个品类对应的M3个品类热度值F3(Proj),其中,1≤j≤M3
步骤310,根据区域热度值、时间热度值和品类热度值分别确定所述待训练样本的区域热度权重、时间热度权重和品类热度权重。
具体实施时,在训练模型时,根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重包括:根据区域热度的单调递减函数确定待训练样本的区域热度权重;根据时间热度的单调递减函数确定待训练样本的时间热度权重;根据品类热度的单调递减函数确定待训练样本的品类热度权重。
根据区域热度的单调递减函数确定待训练样本的区域热度权重的具体实施方式参见实施例二,此处不再赘述。
根据时间热度的单调递减函数确定待训练样本的时间热度权重时,样本时间热度权重的计算公式可以表示为:
Figure BDA0001302650520000091
xifromD(Timej);
其中,F2avg为所有时间段的时间热度平均值,可以根据公式
Figure BDA0001302650520000092
计算得到;F2(Timej)为第j个时间段的时间热度值;xi表示时间段j中的一个待训练样本;W2(xi)表示时间段j中的一个待训练样本的样本时间热度权重;D(Timej)表示第j个时间段关联的训练样本集合;H(F2(Timej))表示区域热度的单调递减函数。
具体实施时,单调递减函数参见计算区域热度的单调递减函数,例如可以表示为:
Figure BDA0001302650520000101
其中,F2(Timej)为第j个时间段的时间热度值;c为控制单调趋势缓急的调和参数,具体设置方法参见区域热度公式中的调和参数设置方法。
根据品类热度的单调递减函数确定待训练样本的品类热度权重时,样本品类热度权重的计算公式可以表示为:
Figure BDA0001302650520000102
xifromD(Proj);
其中,F3avg为所有时间段的时间热度平均值,可以根据公式
Figure BDA0001302650520000103
计算得到;F3(Proj)为第j个品类的品类热度值;xi表示品类j中的一个待训练样本;W3(xi)表示品类j中的一个待训练样本的样本品类热度权重;D(Proj)表示第j个品类关联的训练样本集合;H(F3(Proj))表示品类热度的单调递减函数。具体实施时,品类热度的单调递减函数参见计算区域热度的单调递减函数,参见区域热度的单调递减函数,此处不再赘述。
由单一热度指标权重的计算公式可以得出,对于热度指标的值较低的区域块或时间段或品类,其关联的样本的权重得到了提升;而对于单一热度指标的值较高的区域块或时间段或品类,其关联的样本的权重得到了降低。
以美食搜索为例,当热门地域的优质商家较多时,用户选择对展现的商家的点击行为带有一定的随机性,因此,采集到的训练样本会出现很多优质商家没有被点击的情况。当描述商家的特征维度较少时,可能会出现被点击的样本的特征和未被点击的样本的特征相同的情况,在模型训练时,大量的特征向量既属于正样本又属于负样本,会导致模型训练不准确。适当降低该热度较高的区域、时间段或品类的正、负样本的权重,以减少训练模型时大量相同特征向量被标注为不同标签造成的影响,强化特征在模型训练中所起的作用,以提高模型训练的准确性。
步骤320,根据所述区域热度权重、时间热度权重和品类热度权重,确定所述待训练样本的样本权重。
具体实施时,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重的步骤,包括:确定所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重;或,根据单一热度指标重要程度调整至少一个所述单一热度指标权重,并将调整后的所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重;其中,所述调整至少一个所述单一热度指标权重包括:调整至少一个热度指标的权重,使得调整后的单一热度指标的权重占所述待训练样本的样本权重的比例与所述单一热度指标重要程度相适应。
当热度指标包括区域热度、时间热度和品类热度时,具体实施时,可以将待训练样本的所述区域热度权重、时间热度权重和品类热度权重的乘积,作为所述待训练样本的样本权重。以待训练样本xi为例,其训练模型时的样本权重为W1(xi)×W2(xi)×W3(xi),其中,W1(xi)等于待训练样本xi所处区域块中的待训练样本的样本区域热度权重;W2(xi)等于待训练样本xi所处时间段中的待训练样本的样本时间热度权重;W3(xi)等于待训练样本xi所处品类中的待训练样本的样本品类热度权重。
当预先根据业务需求设置了单一热度指标重要程度时,首先根据单一热度指标重要程度相应调整所述单一热度指标权重,然后将调整后的所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重。例如,单一热度指标重要程度设置为:区域热度指标权重占比大于80%、时间热度指标权重占比小于5%。则具体实施时,首先,计算区域热度权重、时间热度权重和品类热度权重的乘积,然后分别确定区域热度权重和时间热度权重的占比。如果区域热度权重的占比大于80%,并且时间热度权重的占比小于5%,则不对权重做任何调整。如果区域热度权重的占比小于或等于80%,并且时间热度权重的占比小于5%,则将区域热度权重放大一定比例,如1.5倍,然后重新计算区域热度权重的占比,直到区域热度权重的占比超过80%。最后,通过调整后的区域热度权重、时间热度权重和品类热度权重的乘积,作为所述待训练样本的样本权重。如果区域热度权重的占比小于或等于80%,并且时间热度权重的占比大于5%,则将区域热度权重放大一定比例的同时,将时间热度权重缩小一定比例,如缩小至90%,然后重新计算区域热度权重和时间热度权重的占比,直到区域热度权重和时间热度权重的占比与预设重要程度相适应。最后,通过调整后的区域热度权重、时间热度权重和品类热度权重的乘积,作为所述待训练样本的样本权重。
下面以训练的模型为线性模型为例,根据线性模型的逻辑回归,说明本申请的样本权重设置方法的效果。
逻辑回归的基本关系如下:
线性边界:
Figure BDA0001302650520000121
预测函数:
Figure BDA0001302650520000122
损失函数:
Figure BDA0001302650520000123
其中,线性边界公式中,θ为样本特征权重,x为特征值,n即样本特征维数,
Figure BDA0001302650520000131
为样本向量,
Figure BDA0001302650520000132
为样本特征权重向量。预测函数对应样本回归值。损失函数中y为标注的样本标签,正样本的标签为1,负样本的标签为0。随着损失函数不断迭代,样本权重会随着更新,直到模型收敛,正样本回归趋近于1,负样本则趋近于0。从损失函数形式可见,模型在对样本遍历迭代时,权重越大的样本对模型学习过程影响越大,这种样本也就被学习得更充分。因此,当根据热度调整了样本的权重之后,那些标注不够准确的样本在模型训练时的重要性就被降低,即达到了提高模型训练准确性的效果。
本申请实施例公开的样本权重设置方法,通过获取待训练样本的预设热度指标的值,然后根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重,解决了现有技术中特定场景下的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。通过结合热度指标设置样本的样本权重,使得热度高的区域或时间段或品类的样本的样本权重适当降低,即降低存在标注与样本特征不一致性的样本的样本权重,减少样本标注不准确导致的训练的模型准确性降低的问题,从而提升训练的模型的准确性,并进一步提升呈现给用户的搜索或推荐结果的准确率。
实施例四
本实施例公开的一种样本权重设置装置,如图4所示,该装置包括:
热度指标获取模块400,用于获取待训练样本的预设热度指标的值;
单一热度指标权重确定模块410,用于根据所述热度指标获取模块400获取的每个述预设热度指标的值确定所述待训练样本的单一热度指标权重;
样本权重确定模块420,用于根据所有所述单一热度指标权重,确定所述待训练样本的样本权重。
可选的,所述预设热度指标包括:区域热度、时间热度、品类热度中的至少一项。
可选的,如图5所示,所述样本权重确定模块420包括:
第一样本权重确定单元4201,用于确定所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重;或,
第二样本权重确定单元4202,用于根据单一热度指标重要程度调整至少一个所述单一热度指标权重,并将调整后的所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重;
其中,所述调整至少一个所述单一热度指标权重包括:
调整至少一个热度指标的权重,使得调整后的单一热度指标的权重占所述待训练样本的样本权重的比例与所述单一热度指标重要程度相适应。
当所述预设热度指标包括区域热度时,可选的,如图5所示,所述单一热度指标权重确定模块410包括第一单一热度指标权重确定单元4101,所述第一单一热度指标权重确定单元4101用于:
根据区域热度的单调递减函数确定待训练样本的区域热度权重。
当所述预设热度指标包括时间热度时,可选的,如图5所示,所述单一热度指标权重确定模块410包括第二单一热度指标权重确定单元4102,所述第二单一热度指标权重确定单元4102用于:
根据时间热度的单调递减函数确定待训练样本的时间热度权重。
当所述预设热度指标包括品类热度时,可选的,如图5所示,所述单一热度指标权重确定模块410包括第三单一热度指标权重确定单元4103,所述第三单一热度指标权重确定单元4103用于:
根据品类热度的单调递减函数确定待训练样本的品类热度权重。
本申请实施例公开的样本权重设置装置,通过获取待训练样本的预设热度指标的值,然后根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重,根据所有所述单一热度指标权重,确定所述待训练样本的样本权重,解决了现有技术中特定场景下的样本标注不准确,从而导致训练的模型准确性降低,呈现给用户的搜索或推荐结果不准确的问题。通过结合热度指标设置样本的样本权重,使得热度高的区域或时间段或品类的样本的样本权重适当降低,即降低存在标注与样本特征不一致性的样本的样本权重,减少样本标注不准确导致的训练的模型准确性降低的问题,从而提升训练的模型的准确性,并进一步提升呈现给用户的搜索或推荐结果的准确率。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一至实施例三所述的样本权重设置方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一至实施例三所述的样本权重设置方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种样本权重设置方法、装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (14)

1.一种样本权重设置方法,其特征在于,包括:
获取待训练样本的预设热度指标的值,其中,所述待训练样本为当前系统或平台内的日志数据,具体包括:样本特征和样本的关联信息;
根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重;
根据所有所述单一热度指标权重,确定所述待训练样本的样本权重,具体包括:确定所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重;或,根据单一热度指标重要程度调整至少一个所述单一热度指标权重,并将调整后的所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重。
2.根据权利要求1所述的方法,其特征在于,所述预设热度指标包括:区域热度、时间热度、品类热度中的至少一项。
3.根据权利要求1或2所述的方法,其特征在于,所述调整至少一个所述单一热度指标权重包括:
调整至少一个热度指标的权重,使得调整后的单一热度指标的权重占所述待训练样本的样本权重的比例与所述单一热度指标重要程度相适应。
4.根据权利要求2所述的方法,其特征在于,当所述预设热度指标包括区域热度时,所述根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重的步骤包括:
根据区域热度的单调递减函数确定待训练样本的区域热度权重。
5.根据权利要求2所述的方法,其特征在于,当所述预设热度指标包括时间热度时,所述根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重的步骤包括:
根据时间热度的单调递减函数确定待训练样本的时间热度权重。
6.根据权利要求2所述的方法,其特征在于,当所述预设热度指标包括品类热度时,所述根据每个所述预设热度指标的值确定所述待训练样本的单一热度指标权重的步骤包括:
根据品类热度的单调递减函数确定待训练样本的品类热度权重。
7.一种样本权重设置装置,其特征在于,包括:
热度指标获取模块,用于获取待训练样本的预设热度指标的值,其中,所述待训练样本为当前系统或平台内的日志数据,具体包括:样本特征和样本的关联信息;
单一热度指标权重确定模块,用于根据所述热度指标获取模块获取的每个述预设热度指标的值确定所述待训练样本的单一热度指标权重;
样本权重确定模块,用于根据所有所述单一热度指标权重,确定所述待训练样本的样本权重;其中,所述样本权重确定模块包括:
第一样本权重确定单元,用于确定所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重;或,
第二样本权重确定单元,用于根据单一热度指标重要程度调整至少一个所述单一热度指标权重,并将调整后的所有所述单一热度指标权重的乘积,作为所述待训练样本的样本权重。
8.根据权利要求7所述的装置,其特征在于,所述预设热度指标包括:区域热度、时间热度、品类热度中的至少一项。
9.根据权利要求7或8所述的装置,其特征在于,所述第二样本权重确定单元调整至少一个所述单一热度指标权重包括:
调整至少一个热度指标的权重,使得调整后的单一热度指标的权重占所述待训练样本的样本权重的比例与所述单一热度指标重要程度相适应。
10.根据权利要求8所述的装置,其特征在于,当所述预设热度指标包括区域热度时,所述单一热度指标权重确定模块进一步包括:
第一单一热度指标权重确定单元,用于根据区域热度的单调递减函数确定待训练样本的区域热度权重。
11.根据权利要求8所述的装置,其特征在于,当所述预设热度指标包括时间热度时,所述单一热度指标权重确定模块进一步包括:
第二单一热度指标权重确定单元,用于根据时间热度的单调递减函数确定待训练样本的时间热度权重。
12.根据权利要求8所述的装置,其特征在于,当所述预设热度指标包括品类热度时,所述单一热度指标权重确定模块进一步包括:
第三单一热度指标权重确定单元,用于根据品类热度的单调递减函数确定待训练样本的品类热度权重。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项权利要求所述的样本权重设置方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述的样本权重设置方法的步骤。
CN201710370473.4A 2017-05-23 2017-05-23 一种样本权重设置方法及装置,电子设备 Active CN107341176B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201710370473.4A CN107341176B (zh) 2017-05-23 2017-05-23 一种样本权重设置方法及装置,电子设备
PCT/CN2017/119844 WO2018214503A1 (zh) 2017-05-23 2017-12-29 一种样本权重设置方法及装置、电子设备
US16/615,830 US20200175023A1 (en) 2017-05-23 2017-12-29 Sample weight setting method and device, and electronic device
KR1020197035385A KR102340463B1 (ko) 2017-05-23 2017-12-29 샘플 가중치 설정방법 및 장치, 전자 기기
CA3062119A CA3062119A1 (en) 2017-05-23 2017-12-29 Method and device for setting sample weight, and electronic apparatus
EP17911294.1A EP3617909A4 (en) 2017-05-23 2017-12-29 SAMPLE WEIGHT ADJUSTMENT METHOD AND DEVICE AND ELECTRONIC APPARATUS
JP2019564949A JP6964689B2 (ja) 2017-05-23 2017-12-29 サンプル重み設定方法及び装置、電子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710370473.4A CN107341176B (zh) 2017-05-23 2017-05-23 一种样本权重设置方法及装置,电子设备

Publications (2)

Publication Number Publication Date
CN107341176A CN107341176A (zh) 2017-11-10
CN107341176B true CN107341176B (zh) 2020-05-29

Family

ID=60221310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710370473.4A Active CN107341176B (zh) 2017-05-23 2017-05-23 一种样本权重设置方法及装置,电子设备

Country Status (7)

Country Link
US (1) US20200175023A1 (zh)
EP (1) EP3617909A4 (zh)
JP (1) JP6964689B2 (zh)
KR (1) KR102340463B1 (zh)
CN (1) CN107341176B (zh)
CA (1) CA3062119A1 (zh)
WO (1) WO2018214503A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809434B1 (en) * 2014-03-11 2023-11-07 Applied Underwriters, Inc. Semantic analysis system for ranking search results
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN110309253A (zh) * 2018-03-01 2019-10-08 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN110309417A (zh) * 2018-04-13 2019-10-08 腾讯科技(深圳)有限公司 评价因子的权重确定方法和装置
US20200065706A1 (en) * 2018-08-24 2020-02-27 Htc Corporation Method for verifying training data, training system, and computer program product
CN109284285B (zh) * 2018-09-07 2024-05-28 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及计算机可读存储介质
CN110363346A (zh) * 2019-07-12 2019-10-22 腾讯科技(北京)有限公司 点击率预测方法、预测模型的训练方法、装置及设备
CN110472665A (zh) * 2019-07-17 2019-11-19 新华三大数据技术有限公司 模型训练方法、文本分类方法及相关装置
CN113688304A (zh) * 2020-05-19 2021-11-23 华为技术有限公司 搜索推荐模型的训练方法、搜索结果排序的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831153A (zh) * 2012-06-28 2012-12-19 北京奇虎科技有限公司 一种选取样本的方法和装置
CN104504124A (zh) * 2014-12-31 2015-04-08 合一网络技术(北京)有限公司 通过视频搜索和播放行为表现出实体热度的方法
CN104899368A (zh) * 2015-05-29 2015-09-09 浙江宇视科技有限公司 基于数据热度的监控布点需求图生成方法及装置
CN105787061A (zh) * 2016-02-29 2016-07-20 广东顺德中山大学卡内基梅隆大学国际联合研究院 信息推送方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097821A1 (en) * 2006-10-24 2008-04-24 Microsoft Corporation Recommendations utilizing meta-data based pair-wise lift predictions
CN104077306B (zh) * 2013-03-28 2018-05-11 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
CN104915734B (zh) * 2015-06-25 2017-03-22 深圳市腾讯计算机系统有限公司 基于时间序列的商品热度预测方法和系统
CN105653683B (zh) * 2015-12-30 2020-10-16 东软集团股份有限公司 一种个性化推荐方法及装置
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831153A (zh) * 2012-06-28 2012-12-19 北京奇虎科技有限公司 一种选取样本的方法和装置
CN104504124A (zh) * 2014-12-31 2015-04-08 合一网络技术(北京)有限公司 通过视频搜索和播放行为表现出实体热度的方法
CN104899368A (zh) * 2015-05-29 2015-09-09 浙江宇视科技有限公司 基于数据热度的监控布点需求图生成方法及装置
CN105787061A (zh) * 2016-02-29 2016-07-20 广东顺德中山大学卡内基梅隆大学国际联合研究院 信息推送方法

Also Published As

Publication number Publication date
CN107341176A (zh) 2017-11-10
CA3062119A1 (en) 2019-11-22
KR20200003109A (ko) 2020-01-08
EP3617909A4 (en) 2020-05-06
JP2020522061A (ja) 2020-07-27
WO2018214503A1 (zh) 2018-11-29
KR102340463B1 (ko) 2021-12-17
US20200175023A1 (en) 2020-06-04
EP3617909A1 (en) 2020-03-04
JP6964689B2 (ja) 2021-11-10

Similar Documents

Publication Publication Date Title
CN107341176B (zh) 一种样本权重设置方法及装置,电子设备
CN109902708B (zh) 一种推荐模型训练方法及相关装置
CN107451199B (zh) 问题推荐方法及装置、设备
US20200294111A1 (en) Determining target user group
CN106372249B (zh) 一种点击率预估方法、装置及电子设备
WO2018121700A1 (zh) 基于已安装应用来推荐应用信息的方法、装置、终端设备及存储介质
CN108460618B (zh) 一种资源配置方法及装置,电子设备
EP2960849A1 (en) Method and system for recommending an item to a user
CN107402961B (zh) 一种推荐方法及装置,电子设备
CN110874787A (zh) 推荐模型的效果评测方法和相关装置
CN107577736B (zh) 一种基于bp神经网络的文件推荐方法及系统
CN112395496A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110472995A (zh) 到店预测方法、装置、可读存储介质及电子设备
CN111626767B (zh) 资源数据的发放方法、装置及设备
CN110825974B (zh) 推荐系统内容排序方法及装置
CN109190040B (zh) 基于协同演化的个性化推荐方法及装置
WO2016149051A1 (en) Enhanced template curating
CN111428125B (zh) 排序方法、装置、电子设备及可读存储介质
CN112950320A (zh) 基于机器自学习的商品自动上下线方法、装置和电子设备
CN110490682B (zh) 分析商品属性的方法和装置
JP5182509B2 (ja) 情報推薦装置、情報推薦方法および情報推薦プログラム
US20230071641A1 (en) Generation of product strategy using user segment search terms
CN113468402B (zh) 目标对象确定方法、装置及存储介质
CN116739665A (zh) 信息投放方法、装置、电子设备及存储介质
CN113987034A (zh) 信息展示方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant