CN116051166A - 列表排序方法、装置、电子设备及介质 - Google Patents

列表排序方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN116051166A
CN116051166A CN202211734969.2A CN202211734969A CN116051166A CN 116051166 A CN116051166 A CN 116051166A CN 202211734969 A CN202211734969 A CN 202211734969A CN 116051166 A CN116051166 A CN 116051166A
Authority
CN
China
Prior art keywords
data
training
sample data
training data
purchase rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211734969.2A
Other languages
English (en)
Inventor
王安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elongnet Information Technology Beijing Co Ltd
Original Assignee
Elongnet Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elongnet Information Technology Beijing Co Ltd filed Critical Elongnet Information Technology Beijing Co Ltd
Priority to CN202211734969.2A priority Critical patent/CN116051166A/zh
Publication of CN116051166A publication Critical patent/CN116051166A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种列表排序方法、装置、电子设备及介质,包括:获取待排序列表中的候选产品数据;将候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值;其中,购买率预测模型是基于去除偏差后的样本数据训练得到的;基于购买率预估值确定候选产品在待排序列表中的排序。本发明能够更加准确的反映用户的真实偏好,提高用户购买率。

Description

列表排序方法、装置、电子设备及介质
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种列表排序方法、装置、电子设备及介质。
背景技术
用户通过购物或者购票平台搜索产品信息时,通常曝光在用户面前的产品列表都是按照某种规则进行排序的结果。现有的个性化排序有两种方法,一是采用最小价或最多好评(依产品属性决定,在线旅游(Online TravelAgency,OTA)领域还有可能是最短耗时)等人工规则,二是采用一般的机器学习方法预测产品的购买率,收集在列表中的产品曝光、点击、购买数据,通过已知好坏标签(Know Good Bad,KGB)样本进行线上的KGB_CVR预估,对召回的列表按KGB_CVR预估值进行从大到小排列。CVR即Conversion Rate,一般称为转化率,KGB_CVR预估指完全采用已知的曝光后下单的数据训练得到模型,进而对全部候选集进行线上预估。三是采用已有的拒绝推断技术。但是,现有的排序方法中,样本数据存在偏差,无法挖掘出用户的真实偏好,从而导致用户购买率较低。
发明内容
有鉴于此,本发明的目的在于提供一种列表排序方法、装置、电子设备及介质,能够更加准确的反映用户的真实偏好,提高用户购买率。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种列表排序方法,包括:获取待排序列表中的候选产品数据;将候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值;其中,购买率预测模型是基于去除偏差后的样本数据训练得到的;基于购买率预估值确定候选产品在待排序列表中的排序。
在一种实施方式中,基于购买率预估值确定候选产品在待排序列表中的排序,包括:将候选产品按照购买率预估值从大到小的顺序进行排序;基于排序结果,截取预设数量的候选产品在待排序列表进行展示。
在一种实施方式中,购买率预测模型的训练过程包括:获取第一样本数据和第二样本数据;其中,第一样本数据为曝光后产品数据,第二样本数据为包括第一样本数据的候选产品数据;基于第一样本数据和第二样本数据确定训练数据;其中,训练数据包括:产品的场景特征、产品属性、购买信息和数据类型;基于训练数据进行训练得到概率预测模型,并基于概率预测模型确定训练数据属于第一样本数据的概率;基于训练数据属于第一样本数据的概率对训练数据进行抽样,得到无偏的训练数据;基于无偏的训练数据训练得到购买率预测模型。
在一种实施方式中,基于训练数据属于第一样本数据的概率对第一样本数据进行抽样,得到无偏的训练数据,包括:基于训练数据属于第一样本数据的概率,采用预设加权算法确定抽样权重;基于抽样权重对第一样本数据进行抽样。
在一种实施方式中,基于抽样权重对所述第一样本数据进行抽样,得到无偏的训练数据之后,购买率预测模型的训练过程还包括:计算无偏的训练数据的标准化均数差,并基于标准化均数差判断无偏的训练数据是否存在偏差;如果无偏的训练数据存在偏差,则继续对第一样本数据进行抽样。
在一种实施方式中,基于标准化均数差判断无偏的训练数据是否存在偏差,包括:判断标准化均数差的绝对值是否超过预设值;如果是,则确定无偏的训练数据存在偏差。
第二方面,本发明实施例提供了一种列表排序装置,包括:数据获取模块,用于获取待排序列表中的候选产品数据;预测模块,用于将候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值;其中,购买率预测模型是基于去除偏差后的样本数据训练得到的;排序模块,用于基于购买率预估值确定候选产品在待排序列表中的排序。
在一种实施方式中,上述装置还包括模型训练模块,用于:获取第一样本数据和第二样本数据;其中,第一样本数据为曝光后产品数据,第二样本数据为包括第一样本数据的候选产品数据;基于第一样本数据和第二样本数据确定训练数据;其中,训练数据包括:产品的场景特征、产品属性、购买信息和数据类型;基于训练数据进行训练得到概率预测模型,并基于概率预测模型确定训练数据属于第一样本数据的概率;基于训练数据属于第一样本数据的概率对训练数据进行抽样,得到无偏的训练数据;基于无偏的训练数据训练得到购买率预测模型。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供列表排序方法、装置、电子设备及介质,首先,获取待排序列表中的候选产品数据;然后,将候选产品数据输入到预先训练好的购买率预测模型(基于去除偏差后的样本数据训练得到的)中,得到每个候选产品的购买率预估值;最后,基于购买率预估值确定候选产品在待排序列表中的排序。上述方法根据去除偏差后的样本数据训练得到购买率预测模型,降低了购买率预测模型参数估计的偏差,从而提高了输出的购买率预估值的准确性;其次,上述方法根据购买率预测模型输出的购买率预估值对候选产品进行排序,排序结果能够更加准确的反映用户的真实偏好,从而提高用户购买率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种列表排序方法的流程图;
图2为本发明实施例提供的另一种列表排序方法的流程图;
图3为本发明实施例提供的一种列表排序装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,现有的个性化排序有两种方法,一是采用最小价或最多好评等人工规则,二是采用一般的机器学习方法预测产品的购买率,收集在列表中的产品曝光、点击、购买数据,进行线上的KGB_CVR预估,对召回的列表按KGB_CVR预估值进行从大到小排列,KGB_CVR预估指完全采用已知的曝光后下单的数据训练得到模型,进而对全部候选集进行线上预估。三是采用已有的拒绝推断技术。但是,上述三种方案均存在自身缺陷:
第一,人工规则方法没有考虑在不同场景下对产品购买意愿的区别。比如,在购买电器一类的产品时,好评比价格重要;在购买电影票一类的产品时,价格比好评重要。业务规则只是业务猜测,基于自身对产品和用户的理解做出的配置,但是结果不一定真实可靠。
第二,KGB样本为准入模型允许通过的样本集,已知标签。由KGB样本训练的模型又叫KGB模型。未知标签(Inferred Good Bad,IGB)拒绝样本为准入模型拒绝的样本集,未知标签。由于IGB样本没有标签,通常不会用于训练模型。在部分方法中可能会生成伪标签,从而参与建模过程。全量(All Good Bad,AGB)样本为包含KGB和IGB两部分的全量样本集。由该部分数据训练得到的模型又称AGB模型。候选产品KGB_CVR预估,使用产品的真实曝光与成单数据进行训练得到KGB模型,然后,使用KGB模型在线预估用户对候选集中的所有产品的购买率。但是由于KGB模型使用的真实曝光数据在候选集中占比较小,在未曝光的数据中也存在购买率较高的可能,因此直接使用KGB模型对所有候选集进行预估会存在偏差。
第三,已有的拒绝推断技术:(1)数据法:获取拒绝样本的其他表现数据,但是时间周期长,需要承受较大的损失;(2)推断法:拒绝推断经典方法包括硬截断法(HardCutoff)、模糊展开法(Fuzzy Augmentation)、重新加权法(Reweighting)、外推法(Extrapolation)、迭代再分类法(IterativeReclassification)、双评分卡法(两阶段法),这些方法都采用猜测AGB正样本概率的方式对KGB样本进行扩充,可能会引入样本不真实的好坏噪音。
综上所述,现有的列表排序方法,样本数据存在偏差,无法挖掘出用户的真实偏好,从而导致用户购买率较低。
基于此,本发明实施例提供的一种列表排序方法、装置、电子设备及介质,能够更加准确的反映用户的真实偏好,提高用户购买率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种列表排序方法进行详细介绍,该方法可以应用于电商平台、OTA等领域,可以由电子设备执行,诸如智能手机、电脑、平板电脑等。参见图1所示的一种列表排序方法的流程图,示意出该方法主要包括以下步骤S101至步骤S103:
步骤S101:获取待排序列表中的候选产品数据。
在一种实施方式中,用户在购物或购票等平台进行搜索时,可以得到多个候选产品,为了使用户得到满意的搜索结果,需要对候选产品进行排序,具体的可以获取候选产品的候选产品数据,包括:场景特征、产品属性等。其中,场景特征包括:当前的时间信息、关键字、用户的属性信息(性别、年龄、历史购买记录等)等信息,产品属性包括:产品名称、产品价格、产品品类等。
步骤S102:将候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值。
其中,购买率预测模型是基于去除偏差后的样本数据训练得到的。在一种实施方式中,可以预先采用机器学习算法,基于去除偏差后的样本数据训练得到购买率预测模型。购买率预测模型可以根据场景特征和产品属性预测该场景下产品的购买率预估值。
步骤S103:基于购买率预估值确定候选产品在待排序列表中的排序。
在一种实施方式中,可以将每个候选产品的购买率估值按照从大到小的顺序进行排序,并根据排序结果将候选产品在待排序列表中从上到下进行展示。
本发明实施例提供列表排序方法,根据去除偏差后的样本数据训练得到的购买率预测模型,降低了购买率预测模型参数估计的偏差,从而提高了输出的购买率预估值的准确性;其次,上述方法根据购买率预测模型输出的购买率预估值对候选产品进行排序,排序结果能够更加准确的反映用户的真实偏好,从而提高用户购买率。
为了提高用户的购买率,将购买率更高的产品排在列表前面。本发明实施例中在基于购买率预估值确定候选产品在待排序列表中的排序时,可以采用包括但不限于以下方式:
首先,将候选产品按照购买率预估值从大到小的顺序进行排序。
然后,基于排序结果,截取预设数量的候选产品在待排序列表进行展示。
在具体实施时,可以将候选产品的购买率估值记为SCORE,并按照SCORE从大到小的顺序对候选产品进行排序;然后,根据排序结果进行TOPN截取,即截取排序结果中的前N各候选产品进行展示,其中N为预设数量,具体可根据实际情况进行确定。
本发明实施例还提供了一种购买率预测模型的训练方法,主要包括以下步骤1至步骤5:
步骤1:获取第一样本数据和第二样本数据。
其中,第一样本数据为曝光后产品数据,第二样本数据为包括第一样本数据的候选产品数据。在具体实施时,收集、构造第一样本数据,即KGB数据,单条数据结构如下:[X,I,Y],X表示场景特征,I表示产品属性,Y表示是否购买,以及收集、构造第二样本数据,即AGB数据,单条数据结构如下:[X,I,Y],X表示场景特征,I表示产品属性,Y表示是否购买。
步骤2:基于第一样本数据和第二样本数据确定训练数据。
其中,训练数据包括:产品的场景特征、产品属性、购买信息和数据类型,数据类型包括第一样本数据和第二样本数据。具体的,组装AGB-KGB训练、测试数据,即根据KGB数据和AGB数据确定训练数据,单条训练数据结构如下:[X,I,Y,T],X表示场景特征,I表示产品属性,Y表示是否购买,T表示该条训练数据是AGB还是KGB数据,T=0表示该条训练数据属于AGB数据,T=1表示该条训练数据只属于KGB数据。
在得到训练数据之后,可以通过标准化均数差(standardized meandifference,SMD)指标判断AGB数据和KGB数据在不同产品属性上的偏差水平,SMD绝对值越小表明数据的偏差越小。例如:AGB数据和KGB数据的关于产品价格的SMD为-0.34,AGB数据和KGB数据的关于产品品类的SMD为-0.42,假设SMD绝对值大于0.1表明数据有偏,则AGB数据和KGB数据在产品价格和产品品类上均存在偏差。
步骤3:基于训练数据进行训练得到概率预测模型,并基于概率预测模型确定训练数据属于第一样本数据的概率。
在一种实施方式中,概率预测模型用于依据产品场景预测该场景下该产品属于KGB数据的概率。在得到AGB-KGB训练数据后,可以根据AGB-KGB训练数据训练得到[X,I]->T的概率预测模型,即依据X预测该场景下该产品I属于KGB数据的概率,并根据概率预测模型得到每个训练数据属于第一样本数据的概率。
步骤4:基于训练数据属于第一样本数据的概率对训练数据进行抽样,得到无偏的训练数据。
在一种实施方式中,为了减少数据偏差对预测结果的影响,提高预测的准确性,需要对训练数据进行降偏处理,即降低训练数据的偏差。具体的,可以采用包括但不限于以下方式实现:首先,基于训练数据属于第一样本数据的概率,采用预设加权算法确定抽样权重;然后,基于抽样权重对第一样本数据进行抽样,得到无偏的训练数据。
具体的,可以基于训练数据属于第一样本数据的概率,采用逆概率加权(IPW)或者SMRW等手段,确定抽样权重,IPW算法对应的抽样权重为1/P,SMRW算法在多分类场景中对应的抽样权重为(1-P)/P,其中,P为训练数据属于第一样本数据的概率。进一步,可以根据抽样权重对第一样本数据进行抽样,对第一样本数据进行降偏,得到相对AGB数据无偏的训练数据。
步骤5:基于无偏的训练数据训练得到购买率预测模型。
在一种实施方式中,对新的无偏的训练数据进行训练,得到购买率预测模型,即[X,I]->Y的预测模型,该购买率预测模型可以依据X预测此场景下该产品I的购买概率IAGB_CVR。
进一步地,为了确保新的无偏的训练数据不存在偏差,可以根据SMD指标判断数据偏差是否得到改善。在具体实施时,在基于抽样权重对所述第一样本数据进行抽样,得到无偏的训练数据之后,上述购买率预测模型的训练过程还包括:
首先,计算无偏的训练数据的标准化均数差,并基于标准化均数差判断无偏的训练数据是否存在偏差。具体的,可以判断标准化均数差的绝对值是否超过预设值;如果是,则确定无偏的训练数据存在偏差。
然后,如果无偏的训练数据存在偏差,则继续对第一样本数据进行抽样。
具体的,如果经过降偏处理的训练数据依然存在较大的偏差,可以根据概率预测模型重新计算训练数据属于第一样本数据的概率,然后根据训练数据属于第一样本数据的概率确定新的抽样权重,继续对第一样本数据进行抽样,直至训练数据没有偏差。
使用购买率预测模型计算列表中每个候选产品的IAGB_CVR预估值,记为SCORE,按SCORE从大到小排列将列表产品进行从上到下展示,并进行TOPN截取。相比于没有对KGB数据去偏的方法,在离线测试数据上进行评估,AGB离线数据中AUC指标提升1个百分点。
为了便于理解,本发明实施例还提供了具体的列表排序的方法,参见图2所示,示意出该方法主要包括以下步骤S201至步骤S206:
步骤S201:收集和构造KGB样本数据和AGB样本数据。
具体的,KGB数据是指曝光后的产品数据,AGB数据是指包含KGB数据的候选产品数据。KGB样本数据和AGB样本数据中包括训练数据和测试数据。其中,单条数据结构如下:[X,I,Y],X表示场景特征,I表示产品属性,Y表示是否购买。
步骤S202:组装AGB-KGB训练数据和测试数据,并检验AGB样本数据和KGB样本数据是否有偏。
具体的,组装AGB-KGB训练数据和测试数据,标注AGB样本数据中的数据是否为KGB样本数据,得到的AGB-KGB训练数据的单条训练数据结构如下:[X,I,Y,T],X表示场景特征,I表示产品属性,Y表示是否购买,T表示该条训练数据是AGB还是KGB数据,T=0表示该条训练数据属于AGB数据,T=1表示该条训练数据只属于KGB数据。进一步,可以通过SMD指标检测AGB样本数据和KGB样本数据在不同属性上的偏差水平。
步骤S203:基于AGB-KGB训练数据训练得到预测模型M1。
具体的,可以在AGB-KGB训练数据上训练得到[X,I]->T的预测模型M1(即概率预测模型),即可以依据X预测此场景下该产品I属于KGB的概率。例如在场景X时产品I属于KGB的概率为P。
步骤S204:基于预测模型M1对KGB样本数据进行降偏得到无偏训练数据,并验证KGB样本数据的偏差是否降低。
具体的,可以根据预测模型M1得到[X,I]属于KGB的概率P,然后,根据概率P使用IPW、SMRW等方式,对KGB样本数据进行降偏,得到相对AGB样本数据偏差降低的训练数据,并通过SMD指标验证降偏后的训练数据的有偏是否得到改善。
步骤S205:对无偏训练数据进行训练得到预测模型M2。
具体的,对新的无偏训练数据进行训练,得到[X,I]->Y的预测模型M2(即购买率预测模型),即可以依据X预测此场景下该产品I的购买概率IAGB_CVR。
步骤S206:基于预测模型M2计算每个候选产品的IAGB_CVR预估值,并根据IAGB_CVR预估值将候选产品进行排序和展示。
具体的,可以使用预测模型M2计算列表中每个候选产品的IAGB_CVR预估值,将其记为SCORE,按照SCORE从大到小的顺序将列表中候选产品进行从上到下展示,并进行TOPN截取。
本发明实施例提供的上述列表排序方法,相较于人工规则方法,本发明考虑在不同场景下、不同用户对产品购买意愿的区别,并且基于收集数据应用机器学习算法,挖掘出用户的真实偏好;相较于候选产品KGB_CVR预估方法,本发明使用拒绝推断技术,修正建模样本数据和实际全量样本数据之间的差异,降低模型参数估计的偏差,采用IAGB_CVR对所有候选产品在线预估,排序结果能够更加准确的反映用户的真实偏好,从而提高了用户购买率;相较于现有的拒绝推断技术,一方面不需要获取额外数据,从而不需要承受相应的损失;另一方面只采用KGB数据作样本,更能体现真实的样本好坏,因为标签真实,使得结果能够更加准确的反映用户的真实偏好,此外还可以应用pairwise等方法提升效果。
对于前述实施例提供的列表排序方法,本发明实施例还提供了一种列表排序装置,参见图3所示的一种列表排序装置的结构示意图,该装置可以包括以下部分:
数据获取模块301,用于获取待排序列表中的候选产品数据;
预测模块302,用于将候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值;其中,购买率预测模型是基于去除偏差后的样本数据训练得到的;
排序模块303,用于基于购买率预估值确定候选产品在待排序列表中的排序。
本发明实施例提供列表排序装置,根据去除偏差后的样本数据训练得到的购买率预测模型,降低了购买率预测模型参数估计的偏差,从而提高了输出的购买率预估值的准确性;其次,上述方法根据购买率预测模型输出的购买率预估值对候选产品进行排序,排序结果能够更加准确的反映用户的真实偏好,从而提高用户购买率。
在一种实施方式中,上述排序模块303进一步还用于:将候选产品按照购买率预估值从大到小的顺序进行排序;基于排序结果,截取预设数量的候选产品在待排序列表进行展示。
在一种实施方式中,上述装置还包括模型训练模块,用于获取第一样本数据和第二样本数据;其中,第一样本数据为曝光后产品数据,第二样本数据为包括第一样本数据的候选产品数据;基于第一样本数据和第二样本数据确定训练数据;其中,训练数据包括:产品的场景特征、产品属性、购买信息和数据类型;基于训练数据进行训练得到概率预测模型,并基于概率预测模型确定训练数据属于第一样本数据的概率;基于训练数据属于第一样本数据的概率对训练数据进行抽样,得到无偏的训练数据;基于无偏的训练数据训练得到购买率预测模型。
在一种实施方式中,上述模型训练模块进一步还用于:基于训练数据属于第一样本数据的概率,采用预设加权算法确定抽样权重;基于抽样权重对第一样本数据进行抽样。
在一种实施方式中,上述模型训练模块进一步还用于:计算无偏的训练数据的标准化均数差,并基于标准化均数差判断无偏的训练数据是否存在偏差;如果无偏的训练数据存在偏差,则继续对第一样本数据进行抽样。
在一种实施方式中,上述模型训练模块进一步还用于:判断标准化均数差的绝对值是否超过预设值;如果是,则确定无偏的训练数据存在偏差。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。
图4为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种列表排序方法,其特征在于,包括:
获取待排序列表中的候选产品数据;
将所述候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值;其中,所述购买率预测模型是基于去除偏差后的样本数据训练得到的;
基于所述购买率预估值确定所述候选产品在所述待排序列表中的排序。
2.根据权利要求1所述的方法,其特征在于,基于所述购买率预估值确定所述候选产品在所述待排序列表中的排序,包括:
将所述候选产品按照所述购买率预估值从大到小的顺序进行排序;
基于排序结果,截取预设数量的候选产品在所述待排序列表进行展示。
3.根据权利要求1所述的方法,其特征在于,所述购买率预测模型的训练过程包括:
获取第一样本数据和第二样本数据;其中,所述第一样本数据为曝光后产品数据,所述第二样本数据为包括所述第一样本数据的候选产品数据;
基于所述第一样本数据和所述第二样本数据确定训练数据;其中,所述训练数据包括:产品的场景特征、产品属性、购买信息和数据类型;
基于所述训练数据进行训练得到概率预测模型,并基于所述概率预测模型确定所述训练数据属于所述第一样本数据的概率;
基于所述训练数据属于所述第一样本数据的概率对所述训练数据进行抽样,得到无偏的训练数据;
基于所述无偏的训练数据训练得到所述购买率预测模型。
4.根据权利要求3所述的方法,其特征在于,基于所述训练数据属于所述第一样本数据的概率对所述训练数据进行抽样,得到无偏的训练数据,包括:
基于所述训练数据属于所述第一样本数据的概率,采用预设加权算法确定抽样权重;
基于所述抽样权重对所述第一样本数据进行抽样,得到无偏的训练数据。
5.根据权利要求4所述的方法,其特征在于,基于所述抽样权重对所述第一样本数据进行抽样,得到无偏的训练数据之后,所述购买率预测模型的训练过程还包括:
计算所述无偏的训练数据的标准化均数差,并基于所述标准化均数差判断所述无偏的训练数据是否存在偏差;
如果所述无偏的训练数据存在偏差,则继续对所述第一样本数据进行抽样。
6.根据权利要求5所述的方法,其特征在于,基于所述标准化均数差判断所述无偏的训练数据是否存在偏差,包括:
判断所述标准化均数差的绝对值是否超过预设值;
如果是,则确定所述无偏的训练数据存在偏差。
7.一种列表排序装置,其特征在于,包括:
数据获取模块,用于获取待排序列表中的候选产品数据;
预测模块,用于将所述候选产品数据输入到预先训练好的购买率预测模型中,得到每个候选产品的购买率预估值;其中,所述购买率预测模型是基于去除偏差后的样本数据训练得到的;
排序模块,用于基于所述购买率预估值确定所述候选产品在所述待排序列表中的排序。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括模型训练模块,用于:
获取第一样本数据和第二样本数据;其中,所述第一样本数据为曝光后产品数据,所述第二样本数据为包括所述第一样本数据的候选产品数据;
基于所述第一样本数据和所述第二样本数据确定训练数据;其中,所述训练数据包括:产品的场景特征、产品属性、购买信息和数据类型;
基于所述训练数据进行训练得到概率预测模型,并基于所述概率预测模型确定所述训练数据属于所述第一样本数据的概率;
基于所述训练数据属于所述第一样本数据的概率对所述训练数据进行抽样,得到无偏的训练数据;
基于所述无偏的训练数据训练得到所述购买率预测模型。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。
CN202211734969.2A 2022-12-30 2022-12-30 列表排序方法、装置、电子设备及介质 Pending CN116051166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211734969.2A CN116051166A (zh) 2022-12-30 2022-12-30 列表排序方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211734969.2A CN116051166A (zh) 2022-12-30 2022-12-30 列表排序方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN116051166A true CN116051166A (zh) 2023-05-02

Family

ID=86132973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211734969.2A Pending CN116051166A (zh) 2022-12-30 2022-12-30 列表排序方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN116051166A (zh)

Similar Documents

Publication Publication Date Title
CN110163647B (zh) 一种数据处理方法及装置
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN112966189B (zh) 一种基金产品推荐系统
CN111160783B (zh) 数字资产价值的评价方法、系统及电子设备
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN110334936B (zh) 一种信贷资质评分模型的构建方法、装置和设备
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN109460474B (zh) 用户偏好趋势挖掘方法
CN110688540A (zh) 一种作弊账户筛选方法、装置、设备及介质
CN113537693A (zh) 人员风险等级获取方法、终端、存储装置
CN111582647A (zh) 用户数据处理方法、装置及电子设备
CN111985226A (zh) 标注数据生成方法及装置
CN116051166A (zh) 列表排序方法、装置、电子设备及介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN107291722B (zh) 一种描述词的分类方法及设备
CN114202418A (zh) 信息处理方法、装置、设备及介质
CN114297235A (zh) 风险地址识别方法、系统及电子设备
CN116049386A (zh) 文本对应类目的预测方法、装置以及电子设备
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN112070530A (zh) 广告预估模型的上线评估方法及相关装置
CN112115258A (zh) 一种用户的信用评价方法、装置、服务器及存储介质
CN115293848A (zh) 列表排序的方法、装置、电子设备及介质
CN117573814B (zh) 一种舆论态势评估方法、装置、系统以及存储介质
CN112949752B (zh) 业务预测系统的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination