发明内容
本申请提供一种搜索结果排序方法及系统、搜索结果排序优化方法及系统,能够解决搜索结果与用户预期不同,用户通过客户端反复的发送搜索请求而导致的服务器负担增加以及网络堵塞的问题。
为了解决上述问题,本申请公开了一种搜索结果排序方法,包括以下步骤:
获取原始特征集合,所述原始特征包括预先设定的可能对搜索结果的排序产生影响的特征;
基于历史交易数据从原始特征集合提取有效特征,所述有效特征指根据历史交易数据确定的能够对搜索结果的排序产生影响的特征;
基于历史交易数据确定各有效特征的初始权重,并利用历史交易数据和预定训练模型对初始权重进行训练得到最终权重;
基于所述有效特征的最终权重对搜索结果进行排序。
进一步地,所述基于历史交易数据从原始特征集合提取有效特征包括:
基于历史交易数据选取两组测试产品,其中一组为有成交记录的产品,另外一组为没有成交记录的产品;
从历史交易数据中分别提取所述两组测试产品在一定时间段内的相关数据,并利用所述相关数据计算两组测试产品各原始特征的特征值;
比较所述两组测试产品相同原始特征的特征值的差值,若超过阈值,则选取所述原始特征为有效特征。
进一步地,所述基于历史交易数据从原始特征集合提取有效特征包括:
从历史交易数据中提取预定时间段内的交易数据,计算该预定时间段内各产品的成交转化率;
选取成交转化率差值大于阈值的两组产品作为测试产品;
从历史交易数据中提取所述两组测试产品在所述预定时间段之后的一定时间段内的交易数据,并计算两组测试产品的原始特征集合中各原始特征的特征值;
比较所述两组测试产品相同原始特征的特征值的差值,若超过阈值,则选取所述原始特征为有效特征。
进一步地,所述基于历史交易数据确定各有效特征的初始权重,并利用历史交易数据和训练模型对初始权重进行训练得到最终权重包括:
确定有效特征的初始权重;
将历史交易数据和初始权重代入预定训练模型中,计算理论数据;
比较理论数据与实际数据,若二者差异在预定范围内,则确定该初始权重为有效特征的最终权重,反之,则返回确定有效特征的初始权重这一步骤。
进一步地,所述基于所述有效特征的最终权重对搜索结果进行排序包括:
确定搜索结果的实际有效特征值;
基于有效特征的最终权重和实际有效特征值计算搜索结果的预测成交转化率;
按照预测成交转化率对搜索结果进行排序。
本申请还公开了一种搜索结果排序优化方法,包括以下步骤:
分别获取搜索结果的有效特征的各组备选权重值;
分别采用各备选权重值计算某一预定时间点的搜索结果的理论排序分数,并根据理论排序分数对搜索结果进行排序得到各组排序结果;
分别获取各组排序结果排在前面预定数量的搜索结果,并获取所述搜索结果在所述预定时间点以后的交易数据;
根据所述交易数据计算各组排序结果中排在前面预定数量的搜索结果的实际排序分数;
选取实际排序分数最高的一组排序结果所对应的备选权重值作为有效特征的最终权重值。
进一步地,所述理论排序分数为单一特征预测值或者特征组合的预测值,所述实际排序分数为与所述理论排序分数对应的单一特征实际值或者特征组合的实际值。
进一步地,所述理论排序分数为预测成交转化率,所述实际排序分数为实际成交转化率;或者
所述理论排序分数为预测好评率,所述实际排序分数为实际好评率。
进一步地,所述选取实际排序分数最高的一组排序结果所对应的备选权重值作为有效特征的最终权重值包括:
选取实际排序分数总和或平均值最高的一组排序结果所对应的备选权重值作为有效特征的最终权重值。
本申请还公开了一种搜索结果排序优化方法,包括以下步骤:
获取某一预定时间点根据搜索结果的理论排序分数进行排序的排序结果,所述理论排序分数根据有效特征的最终权重和各搜索结果的实际有效特征值得到;
获取所述排序结果中排列在前面预定数量的搜索结果在所述预定时间点后的交易数据,并根据所述交易数据计算所述搜索结果的实际排序分数;
比较所述实际排序分数和理论排序分数,若两者差值大于阈值,则优化所述有效特征的最终权重。
进一步地,所述理论排序分数为预测成交转化率,所述实际排序分数为实际成交转化率;或者
所述理论排序分数为预测好评率,所述实际排序分数为实际好评率。
本申请还公开了一种搜索结果排序系统,包括:
原始特征集合获取模块,用于获取原始特征集合,所述原始特征包括预先设定的可能对搜索结果的排序产生影响的特征;
有效特征提取模块,用于基于历史交易数据从原始特征集合提取有效特征,所述有效特征指根据历史交易数据确定的能够对搜索结果的排序产生影响的特征;
有效特征权重确定模块,用于基于历史交易数据确定各有效特征的初始权重,并利用历史交易数据和预定训练模型对初始权重进行训练得到最终权重;
排序模块,用于基于所述有效特征的最终权重对搜索结果进行排序。
进一步地,所述有效特征提取模块包括:
测试产品选取子模块,用于基于历史交易数据选取两组测试产品,其中一组为有成交记录的产品,另外一组为没有成交记录的产品;
特征值计算子模块,用于从历史交易数据中分别提取所述两组测试产品在一定时间段内的相关数据,并利用所述相关数据计算两组测试产品各原始特征的特征值;
比较子模块,用于比较所述两组测试产品相同原始特征的特征值的差值,若超过阈值,则选取所述原始特征为有效特征。
本申请还公开了一种搜索结果排序优化系统,包括:
备选权重值获取模块,用于分别获取搜索结果的有效特征的各组备选权重值;
理论排序分数计算模块,用于分别采用各备选权重值计算某一预定时间点的搜索结果的理论排序分数,并根据理论排序分数对搜索结果进行排序得到各组排序结果;
交易数据获取模块,用于分别获取各组排序结果排在前面预定数量的搜索结果,并获取所述搜索结果在所述预定时间点以后的交易数据;
实际排序分数计算模块,用于根据所述交易数据计算各组排序结果中排在前面预定数量的搜索结果的实际排序分数;
最终权重确定模块,用于选取实际排序分数最高的一组排序结果所对应的备选权重值作为有效特征的最终权重值。
本申请还公开了一种搜索结果排序优化系统,包括:
理论排序分数计算模块,用于获取某一预定时间点根据搜索结果的理论排序分数进行排序的排序结果,所述理论排序分数根据有效特征的最终权重和各搜索结果的实际有效特征值得到;
实际排序分数计算模块,用于获取所述排序结果中排列在前面预定数量的搜索结果在所述预定时间点后的交易数据,并根据所述交易数据计算所述搜索结果的实际排序分数;
优化模块,用于比较所述实际排序分数和理论排序分数,若两者差值大于阈值,则优化所述有效特征的最终权重。
与现有技术相比,本申请包括以下优点:
本申请的搜索结果排序方法及系统通过历史交易数据来选取影响排序结果的有效特征,并结合历史交易数据来确定有效特征的最终权重,最终利用这些权重对搜索结果进行排序。在这个过程中,除了会依照历史交易数据确定出各有效特征和初始权重,还会利用历史交易数据对初始权重进行训练,从而得到一个优化后的最终权重,保证了最终权重的客观性和准确度,从而提高了排序结果的客观性和准确性,避免了用户因为排序不准确,无法得到预期的搜索结果而不断的请求获取剩余数据或者通过客户端重新向服务器发送新的搜索请求,从而减少了服务器的负担和对网络资源的占用,同时减少了数据的传输量。
另外,在选取有效特征的过程中,首先依照历史交易数据选取出成交率高和低的两组对比度较高的测试产品来作为测试依据。并依照历史交易数据对两组测试产品的特征值分别进行计算后,比较两组产品在相同原始特征的特征值上的差异的方式来确定特征对于产品成交率的影响,从而准确的选取出有效特征,提高了排序的准确性。
本申请的搜索结果排序优化方法及系统中,通过利用某一时间点以及该时间点以后的交易数据来确定最优的权重值或者对已经确定的权重值进行优化方式,也即借助于真实的历史交易数据来确定相对优化的搜索结果的排序方式或者对现有的搜索结果的排序方式进行优化,可以使排序结果更为客观准确,同样也可以避免用户因为排序不准确,无法得到预期的搜索结果而不断的请求获取剩余数据或者通过客户端重新向服务器发送新的搜索请求,从而减少了服务器的负担和对网络资源的占用,同时减少了数据的传输量。
当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出本申请的一种搜索结果排序方法实施例一,包括以下步骤:
步骤101,获取原始特征集合,所述原始特征包括预先设定的可能对搜索结果的排序产生影响的特征。
原始特征集合可以根据历史交易数据或者经验确定。一般情况下,原始特征集合所包含的特征有交易量、成交转化率、好评率、发货速度、图片文字质量、交易金额等等。
其中,搜索结果的原始特征集合可以预先设定好,当需要时可以直接从服务器或者其他数据库中获取,也可以通过实时从服务器或数据库中获取历史交易数据,并通过实时分析的方法提取。
步骤102,基于历史交易数据从原始特征集合提取有效特征,所述有效特征指根据历史交易数据确定的能够对搜索结果的排序产生影响的特征。
历史交易数据可以直接从服务器中读取,基于历史交易数据从原始特征集合提取有效特征具体包括以下步骤:
基于历史交易数据选取两组测试产品,其中一组为有成交记录的产品,另外一组为没有成交记录的产品。
从历史交易数据中分别提取所述两组测试产品在一定时间段内的相关数据,并利用所述相关数据计算两组测试产品各原始特征的特征值;
比较所述两组测试产品相同原始特征的特征值的差值,若超过阈值,则选取所述原始特征为有效特征。
相关数据用于计算原始特征集合中各特征的具体数值。特征不同,其所需要的相关数据也并不相同,具体的相关数据可以根据具体需要来确定。例如,对于交易量这一特征来说,其所需要的数据为预定时间段内成交的笔数,那么相关数据即为成交笔数。又如,对于好评率来说,其所需要的原始数据为预定时间段内的评价总数和好评数,那么相关数据即为评价总数和好评数。
其中,原始特征集合中各原始特征的特征值的计算公式可以根据实际情况来确定,优选考虑如何有效的表示出该特征。例如,对于交易量这一特征来说,若直接用交易量的数值来表示其特征值,那么其理论数值可以是0到任意一个自然数。但是在具体取值时,单单比较数值的差异往往无法说明问题。例如,对于交易量分别为0和1这两种情况,此时二者交易量的特征值相差1,但是对应的却是是否有交易这两种差异较大的情况。而,对于交易量分别为100和101这两种情况,这个差别只能说明交易数量相差1。为此,可以针对该特征重新设定计算公式,即不单纯以交易量数值作为特征值,而是将交易量作为参数,计算出一个最终的特征值。例如,假设交易量为n,可以采用1-1/(1+n),对应的,0笔交易的特征值为0,1笔的特征值为0.5,而100笔为0.9901,而101笔为0.9902。此种方式,可以更有效的表示出交易量的变化差异。同理,对于其他特征也可以采用类似的处理方式,只要能够有效的表示出特征即可,本申请对比并不限制。
可以理解,前述步骤中选取两组测试产品时的标准为是否有成交记录,为了增加两组测试产品的对比性以及增加选取产品的范围,提高结果的准确性,优选地,选取的两组测试产品中,一组为成交记录高于第一阈值的产品,另外一组为没有成交记录或者低于第二阈值的产品。其中,第一阈值和第二阈值可以根据实际情况来设定,可以将第一阈值设置得尽可能高,第二阈值设置得尽可能低,从而保证两组测试产品具有更大的差异性,从而便于后续准确的提取有效特征。
可以理解,测试产品的选取除了依照成交记录这一历史交易数据,还可以依照某些特征来进行。优选地,因为本申请的主要目的是对电子商务网站中的搜索结果进行排序,并尽可能将符合用户期望的搜索结果排在前面,从而增加产品被购买的几率,避免用户反复的通过客户端向服务器发送搜索请求来获取其所期望的搜索结果。也即,本申请在排序时除了相关性之外,会优先考虑产品的成交转化率,即某个产品在搜索结果中出现后被购买的概率,这一特征为对排序结果有较大权重的特征。一般来说,若一个产品在搜索结果中出现后,被购买的概率越大,那么对于有相同搜索请求的用户来说,其购买该产品的概率也会增加。因此,在选取测试产品时,还可以依照成交转化率来进行,具体采用如下方式:
从历史交易数据中提取预定时间段内的交易数据,计算该预定时间段内各产品的成交转化率;
选取成交转化率差值大于阈值的两组产品作为测试产品;
从历史交易数据中提取所述两组测试产品在所述预定时间段之后的一定时间段内的交易数据,并计算两组测试产品的原始特征集合中各原始特征的特征值;
比较所述两组测试产品相同原始特征的特征值的差值,若超过阈值,则选取所述原始特征为有效特征。
预定时间段的长度可以根据实际需要设定,为了节省计算时间、减少计算量,可以设置较短的长度;为了提供结果的准确性或者系统计算能力足够强大,则可以设置较长的长度,例如,可以是一天、三天、十天、三十天或者其他长度,本申请对此并不限制。预定时间段内之后的一定时间段的长度也可以根据实际需要来设定。优选地,为了保证计算结果的匹配性,可以设定为与预定时间段具有相同的长度。
此过程中,首先根据预定时间段内的成交转化率,将成交转化率差值较大的两组产品选取为测试产品。在具体实现时,可以设定第一转化值和第二转化值,二者的差值为阈值,若一组产品的成交转化率高于第一转化值,一组产品的成交转化率低于第二转化值,那么就可以选取该两组产品作为测试产品。然后利用预定时间段内之后的一定时间段内,该两组测试产品的交易数据来计算两组测试产品的原始特征集合中各原始特征的特征值。若两组测试产品的同一原始特征的特征值差值较大,例如超过设定的阈值,那么就可以将该原始特征作为有效特征。因为选取的是成交转化率差异明显的两组测试产品,若某个原始特征特征值的差值越大,则说明该原始特征对于产品是否成交的影响越大。通过此种方式对原始特征进行筛选,提取出相关的有效特征,从而使排序结果更为准确。
采用前述几种方法进行有效特征选取时主要依赖于成交对比度较高的两组测试产品(例如,一组为有成交记录的产品,另一组为没有成交记录的产品;或者一组为成交转化率高的产品,另一组为成交转化率低的产品),如果某一特征对于产品的成交有较大影响,那么通过交易数据所计算的特征值的差异也会较大。如果某一特征对于产品的成交影响很小或者几乎没有影响,那么成交对比度较高的两组产品的该特征值的差异也会很小或者几乎没有。因此,通过此种方法可以更好的筛选出有效特征,从而提高后续搜索结果排序的准确性。
可以理解,对于测试产品的选取还可以参照其他特征,例如,若排序结果更偏重于好评度,则可以选取好评度差异较大的两组产品作为测试产品,然后采用前述相类似的方式,计算两组测试产品的原始特征的特征值,选取特征值差异较大的原始特征作为有效特征。同样,排序结果更偏重于交易量,则可以选取交易量差异较大的两组产品作为测试产品。具体选取可以采用前述方法类似的过程进行,在此不再赘述。
步骤103,基于历史交易数据确定各有效特征的初始权重,并利用历史交易数据和预定训练模型对初始权重进行训练得到最终权重。
各有效特征的初始权重和最终权重都可以通过模型训练的方式来确定,可以理解,初始权重也可以根据经验设定。以多维线性模型为例,首先可以通过多维线性拟合的方式,确定各有效特征的初始权重,然后将这些初始权重代入计算公式中与历史交易数据结合计算出理论数据,将理论数据与实际数据比较,差异越小,则说明初始权重确定得越准确。若差异在预定范围内,则选用该初始权重作为有效特征的最终权重,反之,则重新确定初始权重并采用前述方法计算直到差异缩小到预定范围内。
以产品的成交情况为例,首选,根据初始权重和历史交易数据计算出产品的理论成交情况,最后,将计算出的理论成交情况与实际成交情况比较,差异越小,则说明初始权重确定得越准确,则可以将初始权重作为有效特征的最终权重,反之,则需要重新确定权重,直到确定的权重值使理论成交情况与实际成交情况的差异达到最小值或者在预定范围内。具体训练时,成交情况可以用成交转化率或者是否成交来表示。可以理解,因为模型训练可以通过较多的机器学习的方法来进行,本申请对此并不详述。
步骤104,基于所述有效特征的最终权重对搜索结果进行排序。
优选地,基于有效特征的最终权重对搜索结果进行排序包括:
确定搜索结果的实际有效特征值;
基于有效特征的最终权重和实际有效特征值计算搜索结果的预测成交转化率;
按照预测成交转化率对搜索结果进行排序。
可以理解,此处的排序参考的主要因素为搜索结果的预测成交转化率。在实际应用中,还可以根据其他因素来排序,例如,搜索结果的好评率等等,排序参考的主要因素可以根据不同的排序目的来确定,当排序目的不同时,其参考的主要因素也可以不同,排序结果也可以相应的变化。但是,排序时无论参考的主要因素如何变化,都可以参照前述方法来计算各搜索结果的排序分数,并进行排序。
下面结合具体实例对前述方法进行详细的说明。假设,提取的原始特征集合中包含的特征为交易量、成交转化率、好评率、发货速度以及图片文字质量五个。
提取有效特征的过程为:
根据如下表1,假设预定时间段为30天,可以确定需要获取的历史交易数据包括成交笔数、曝光数、好评数、总评价数、发货天数、图片数以及文字数。在获取了这些历史交易数据之后,便可以依照计算方法进行计算,确定各原始特征的特征值。
表1特征值计算方法和原始数据
序号 |
原始数据 |
特征名称 |
计算方法 |
1 |
30天成交笔数(n) |
交易量 |
1-1/(1+n) |
2 |
30天成交笔数(n),30天曝光数(d) |
成交转化率 |
(n+0.2)/(d+10) |
3 |
30天好评数(g),30天总评价数(f) |
好评率 |
(g+8.5)/(f+10) |
4 |
发货天数(t) |
发货速度 |
if(t>3)3/t;else1; |
5 |
图片数(i),文字数(w) |
图片文字质量 |
(1-1/(1+i))*(1-1/(1+w)) |
假设,利用前述历史交易数据计算出的这两组测试产品五个特征的特征值为初始特征值。根据计算出的初始特征值可以选取出对比度较高的两组测试产品,假设一组为成交转化率超过70%的产品,另一组为成交转化率低于1%的产品。可以理解,因为这里是为了选取测试产品,若偏重成交转化率,那么可以仅计算成交转化率,其他特征的特征值则可以不用计算。
接下来,需要获取该两组测试产品在前述30天之后的若干时间段内的历史交易数据,例如,可以是一周内,也可以仍然是30天内的历史交易数据,并依照这些历史交易数据计算两组测试产品五个特征的特征值,假设为验证特征值。
然后,分别比较两组测试产品相同特征的验证特征值的差值,若二者差值超过阈值,则确定该特征为有效特征。假设阈值为0.3,经过前述比较,该两组测试产品的交易量、成交转化率、好评率、发货速度以及图片文字质量五个特征的差值分别为0.6、0.9、0.8、0.5和0.02。那么可以看出,最终选取的有效特征为交易量、成交转化率、好评率以及发货速度。
最后,基于历史交易数据通过模型训练的方式来确定这四个有效特征的最终权重,并获取搜索结果中这四个有效特征的实际值,最后基于确定的有效特征的最终权重和实际值来计算各搜索结果的排序分数,然后依照排序分数对搜索结果进行排序。
本申请的搜索结果排序方法及系统通过历史交易数据来选取影响排序结果的有效特征,并结合历史交易数据来确定有效特征的最终权重,最终利用这些权重对搜索结果进行排序。在这个过程中,除了会依照历史交易数据确定出各有效特征和初始权重,还会利用历史交易数据对初始权重进行训练,从而得到一个优化后的最终权重,保证了最终权重的客观性和准确度,从而提高了排序结果的客观性和准确性,避免了用户因为排序不准确,无法得到预期的搜索结果而不断的请求获取剩余数据或者通过客户端重新向服务器发送新的搜索请求,从而减少了服务器的负担和对网络资源的占用,同时减少了数据的传输量。
另外,在选取有效特征的过程中,首先依照历史交易数据选取出成交率高和低的两组对比度较高的测试产品来作为测试依据。并依照历史交易数据对两组测试产品的特征值分别进行计算后,比较两组产品在相同原始特征的特征值上的差异的方式来确定特征对于产品成交率的影响,从而准确的选取出有效特征,提高了排序的准确性。
参照图2,示出本申请的搜索结果排序优化方法实施例一,包括以下步骤:
步骤201,分别获取搜索结果的有效特征的各组备选权重值。
有效特征的备选权重值至少为两组,也可以为三组或者四组。
步骤202,分别采用各备选权重值计算某一预定时间点的搜索结果的理论排序分数,并根据理论排序分数对搜索结果进行排序得到各组排序结果。
其中,理论排序分数可以是搜索结果的预测成交转化率、预测好评率或者其他特征、或者特征组合的具体分数,主要根据实际排序目的来确定,本申请对此并不限制。
优选地,在本申请的实施例中,以预测成交转化率为例进行说明。即,分别采用各备选权重值计算某一预定时间点的搜索结果的预测成交转化率,并依照预测成交转化率对搜索结果进行排序得到各组排序结果。
当某一预定时间点的搜索结果确定后,可以首先获取搜索结果的有效特征,并根据实际数据来计算这些搜索结果的有效特征值。然后根据有效特征值,分别与各组备选权重值相结合,计算出搜索结果不同的预测成交转化率,并根据不同的预测成交转化率得到不同的排序结果。
例如,假设某一预定时间点的搜索结果共有四个,包括a、b、c、d,假设有两组备选权重值,则可能出现,根据其中一组权重值计算出的排序结果为a、b、c、d;根据另外一组权重值计算出的排序结果为d、c、a、b。
步骤203,分别获取各组排序结果排在前面预定数量的搜索结果,并获取所述搜索结果在所述预定时间点以后的交易数据。
其中,排在前面预定数量的具体数值可以根据实际搜索结果的数量以及系统的计算能力来确定。例如,实际搜索结果的数量很大,系统的计算能力一般,则可以将预定数量值设置为一个较小的值,例如2%、4%等等。如果系统的计算能力允许,也可以将预定数量值设置为一个较大的值,例如,10%等等。当然,数据越多,所能提供的结果也越客观准确,因此还可以设置多个预定数量,例如2%、4%、6%、8%、10%等等。
预定时间点以后的交易数据可以根据实际情况来设定其具体的范围,例如,可以是预定时间点以后一周内的交易数据,也可以是十天、二十天或者其它时间段的交易数据,只要能够保证是从预定时间点之后能够获取到的交易数据即可。
步骤204,根据所述交易数据计算各组排序结果中排在前面预定数量的搜索结果的实际排序分数。
实际排序分数是指根据实际数据采用计算理论排序分数相同的方法计算出的搜索结果的实际排序分数。例如,以理论排序分数为预测成交转化率为例,此时的实际排序分数则指实际成交转化率。
步骤205,选取实际排序分数最高的一组排序结果所对应的备选权重值作为有效特征的最终权重值。
因为在进行排序时,计算的是各搜索结果的理论排序分数,其理论排序分数越高,其排序才会越靠前。当其实际排序分数越高,才说明排序结果与实际情况越相符,此时的排序才更为准确。可以理解,实际排序分数最高,可以是某一排序结果中选取的搜索结果的实际排序分数都高于其它排序结果中相同位置的搜索结果的实际排序分数。但是,这是一个相对理想的排序结果,在实际进行时可能无法得到如此优化的排序结果,因此,为了简化计算流程,实际排序分数最高可以是实际排序分数的总和或者平均值最高。
以前述的两种排序结果a、b、c、d和d、c、a、b为例。假设排序的依据为成交转化率,根据预测成交转化率的大小进行排序后,选取每组排序结果中排在前面两位的搜索结果,分别为a、b和d、c。根据交易数据计算出这四个搜索结果(a、b、d、c)的实际成交转化率分别为5%、4%、3%和2%。那么可以看出,a、b的实际成交转化率平均值为4.5%,高于d、c的实际成交转化率平均值2.5%。因此,排序结果为a、b、c、d这一组所对应的备选权重值应该作为有效特征的最终权重值。
下面,以成交转化率为例,结合具体实例对前述搜索结果排序优化方法实施例进行详细的说明。
假设,在某个时间点T,根据某一关键词进行搜索可以得到一组搜索结果。根据前述方法,这组搜索结果的有效特征是固定的,其有效特征值也是固定的。假设,有效特征的最终权重共有两组,根据这两组权重值来计算搜索结果的预测成交转化率,然后根据预测成交转化率的高低对搜索结果进行排序。假设共有五十个搜索结果,因为权重值的区别,可以得出两组排序结果,假设分别为N和O,如图3所示,对于排序结果N和O,可以统计前x%的搜索结果在T以后一段时间内的实际成交转化率平均值,例如一周内。如果排序结果N的前x%的实际成交转化率平均值高于排序结果O的前x%的实际成交转化率平均值,则表示,排序结果N在时间点T对于搜索结果的成交转化率的预测与实际结果更为接近。也即,如果倒回到时间点T,用排序结果N所采用的权重值对搜索结果进行排序,能够将在时间点T之后成交转化率更高的搜索结果排在前面,从而提高这些搜索结果的展示机会,促成更多交易。
优选地,为了得到更全面客观的比较,可以取不同的x值来计算两组排序结果的差异。例如,可以计算前2%商品的实际成交转化率平均值,然后计算前4%、6%、8%、……,如表2所示,依次类推,便可以在多个不同点对两种排序结果进行比较。可以看到,排序结果N的预测效果要明显优于排序结果O。可以理解,这个数据还可以进一步绘制实际成交转化率平均值的曲线,更加直观地看到两者的效果差异。
表2两种排序结果(N和O)前x%商品的实际成交转化率平均值
x% |
2% |
4% |
6% |
8% |
10% |
... |
N |
0.038671 |
0.037019 |
0.036061 |
0.035228 |
0.034294 |
... |
O |
0.031106 |
0.030587 |
0.029903 |
0.029179 |
0.028548 |
... |
优选地,为了确保排序结果N所采用的有效特征的最终权重比排序结果O所采用的有效特征的最终权重在效果的提升是有统计意义的,而非出自偶然,还可以进一步做显著性验证。显著性验证有很多现成的方法,例如,以T检验为例。T检验是比较两组样本均值的常用方法。T检验中的P值表示两个样本的均值存在差异的假设不成立的概率。一般认为,P<=0.01则两种样本的差异非常显著。假设表1中共有50个实际成交转化率平均值,那么对于表1中两种排序结果的50个实际成交转化率平均值进行T检验,得到的P值约为8.7E-07,远小于0.01,因此从统计意义而言,排序结果N所采用的有效特征的最终权重相对于排序结果O所采用的有效特征的最终权重的优化非常显著。
可以理解,前述方法以成交转化率为例进行了说明,在实际应用中,还可以根据其他特征,例如好评率、发货速度等等来进行排序以及优化。优选地,还可以根据综合特征来进行排序以及优化。具体可以设定不同的排序计算公式,但是排序的主要思想与本申请前述过程类似,在此不再赘述。
进一步地,前述的优化方法是在还未确定出有效特征的最终权重,需要从多组可能的结果中选取最优的一组有效特征的最终权重时的搜索结果排序优化方法。可以理解,当需要在已经确定出有效特征的最终权重的基础上进行的优化时,可以采用如下方法。
参照图4,示出本申请的搜索结果排序优化方法实施例二,包括以下步骤:
步骤401,获取某一预定时间点根据搜索结果的理论排序分数进行排序的排序结果,所述理论排序分数根据有效特征的最终权重和各搜索结果的实际有效特征值得到;
步骤402,获取所述排序结果中排列在前面预定数量的搜索结果在所述预定时间点后的交易数据,并根据所述交易数据计算所述搜索结果的实际排序分数;
步骤403,比较所述实际排序分数和理论排序分数,若两者差值大于阈值,则优化所述有效特征的最终权重。
其中,优化有效特征的最终权重可以采用前述的排序方法中所提及的模型训练的方式,即获取历史交易数据,并结合训练模型来确定优化各有效特征的最终权重,在此不再详述。阈值的设定也可以根据实际排序分数和理论排序分数所对应的实际特征来设定,例如,若实际排序分数和理论排序分数分别为实际成交转化率和预测成交转化率时,其阈值则可以根据一般情况下,成交转化率所允许的差值范围来确定,例如为0.2或者其他值。另外,对于此方法实施例中所提及的具体细节,可以参照搜索结果排序优化方法实施例一,在此也不再详述。
本申请的搜索结果排序优化方法中,通过利用某一时间点以及该时间点以后的交易数据来确定最优的权重值或者对已经确定的权重值进行优化方式,也即借助于真实的历史交易数据来确定相对优化的搜索结果的排序方式或者对现有的搜索结果的排序方式进行优化,可以使排序结果更为客观准确。
参照图5,示出本申请的搜索结果排序系统实施例,包括原始特征集合获取模块10、有效特征提取模块20、有效特征权重确定模块30和排序模块40。
原始特征集合获取模块10,用于获取原始特征集合,所述原始特征包括预先设定的可能对搜索结果的排序产生影响的特征。
有效特征提取模块20,用于基于历史交易数据从原始特征集合提取有效特征,所述有效特征指根据历史交易数据确定的能够对搜索结果的排序产生影响的特征。优选地,有效特征提取模块包括测试产品选取子模块、特征值计算子模块和比较子模块。其中,测试产品选取子模块,用于基于历史交易数据选取两组测试产品,其中一组为有成交记录的产品,另外一组为没有成交记录的产品。特征值计算子模块,用于从历史交易数据中分别提取所述两组测试产品在一定时间段内的相关数据,并利用所述相关数据计算两组测试产品各原始特征的特征值。比较子模块,用于比较所述两组测试产品相同原始特征的特征值的差值,若超过阈值,则选取所述原始特征为有效特征。
有效特征权重确定模块30,用于基于历史交易数据确定各有效特征的初始权重,并利用历史交易数据和预定训练模型对初始权重进行训练得到最终权重。
排序模块40,用于基于所述有效特征的最终权重对搜索结果进行排序。
参照图6,示出本申请的搜索结果排序优化系统实施例一,包括备选权重值获取模块61、理论排序分数计算模块63、交易数据获取模块65、实际排序分数计算模块67和最终权重确定模块69。
备选权重值获取模块61,用于分别获取搜索结果的有效特征的各组备选权重值。
理论排序分数计算模块63,用于分别采用各备选权重值计算某一预定时间点的搜索结果的理论排序分数,并根据理论排序分数对搜索结果进行排序得到各组排序结果。
交易数据获取模块65,用于分别获取各组排序结果排在前面预定数量的搜索结果,并获取所述搜索结果在所述预定时间点以后的交易数据。
实际排序分数计算模块67,用于根据所述交易数据计算各组排序结果中排在前面预定数量的搜索结果的实际排序分数。
最终权重确定模块69,用于选取实际排序分数最高的一组排序结果所对应的备选权重值作为有效特征的最终权重值。
参照图7,示出本申请的搜索结果排序优化系统实施例二,包括理论排序分数计算模块71、实际排序分数计算模块73和优化模块75。
理论排序分数计算模块71,用于获取某一预定时间点根据搜索结果的理论排序分数进行排序的排序结果,所述理论排序分数根据有效特征的最终权重和各搜索结果的实际有效特征值得到。
实际排序分数计算模块73,用于获取所述排序结果中排列在前面预定数量的搜索结果在所述预定时间点后的交易数据,并根据所述交易数据计算所述搜索结果的实际排序分数。
优化模块75,用于比较所述实际排序分数和理论排序分数,若两者差值大于阈值,则优化所述有效特征的最终权重。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的搜索结果排序方法及系统、搜索结果排序优化方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。