CN110083542B

CN110083542B - 一种推荐系统中模型测试方法、装置及电子设备

Info

Publication number: CN110083542B
Application number: CN201910371846.9A
Authority: CN
Inventors: 王宇婷; 杨水月; 王峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2023-11-07
Anticipated expiration: 2039-05-06
Also published as: CN110083542A

Abstract

本发明涉及计算机技术领域，提供一种推荐系统中模型测试方法、装置、电子设备及计算机可读存储介质，以解决测试准确性不足问题。该方法包括：获取待测模型对应的测试样本数据；通过待测模型对测试样本数据进行处理，获得第一输出结果；根据第一输出结果与第二输出结果，获得比对结果；其中，第二输出结果为通过线上已使用的线上模型，对测试样本数据进行处理输出的结果，待测模型与线上模型为同一功能模型；基于比对结果获得待测模型的测试结果。不但考虑了线上模型的第二输出结果，而且考虑了待测模型的第一输出结果，通过与第一输出结果和第二输出结果相关的比对结果确定测试结果，以提高测试结果的准确性。

Description

一种推荐系统中模型测试方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种推荐系统中模型测试方法、装置、电子设备及计算机可读存储介质。

背景技术

推荐系统(Recommender system)是一种通过运用深度学习、神经网络等技术帮助用户快速获取有用信息的复杂系统，通过分析用户的历史行为，对用户画像进行建模，从而主动给用户推荐能够满足他们兴趣和需求的内容。目前的推荐系统产品多样，涉及衣食住行的各个行业，涉及范围广。其中，推荐系统涉及一系列模型，例如，内容模型、质量模型、排序模型、召回模型以及推荐模型等，这一系列模型共同实现推荐系统的功能。

模型的好坏决定推荐系统推荐效果的好坏，为确保推荐系统的推荐效果，在推荐系统的模型新版本上线之前，需对该模型进行测试。目前，在进行模型测试过程中，一般采用A/B测试(即对照测试或随机测试)，即为同一个目标设计A方案和B方案，让一部分用户使用A方案，一部分用户使用B方案。记录用户的使用情况，根据用户反馈，比较得出哪个方案更佳。然而，上述测试方法依赖参与测试的用户的反馈，主观性较强容易带来偏差且容易以偏概全，从而导致测试结果准确性不足。

发明内容

本发明实施例提供一种推荐系统中模型测试方法、装置、电子设备及计算机可读存储介质，以解决现有技术在测试过程中得到的测试结果准确性不足的问题。

第一方面，本发明实施例提供了一种推荐系统中模型测试方法，所述方法包括：

获取待测模型对应的测试样本数据；

通过所述待测模型对所述测试样本数据进行处理，获得第一输出结果；

根据所述第一输出结果与第二输出结果，获得比对结果；其中，所述第二输出结果为通过线上已使用的线上模型，对所述测试样本数据进行处理输出的结果，所述待测模型与所述线上模型为同一功能模型；

基于所述比对结果获得所述待测模型的测试结果。

可选的，所述根据所述第一输出结果与第二输出结果，获得比对结果，包括：

根据所述第一输出结果，确定第一指标参数的值；

将所述第一输出结果与第二输出结果进行比对，获得第一比对结果；

将所述第一指标参数的值与所述第一指标参数的预设值进行比对，获得第二比对结果，所述第一指标参数的预设值为基于所述线上模型的第二输出结果确定的值。

可选的，所述基于所述比对结果获得所述待测模型的测试结果包括：

若所述第一比对结果满足第一预设条件，或/和所述第二比对结果满足第二预设条件，获得测试通过结果。

可选的，若所述第一比对结果中，所述第一输出结果中数值大于第一预设值的数量，超过所述第二输出结果中数值大于所述第一预设值的数量，则所述第一比对结果满足所述第一预设条件。

可选的，所述第一指标参数包括正确率、召回率、误召率以及扩召回率中的至少一种。

可选的，在所述第一指标参数不包括误召率的情况下，若所述第二比对结果中，所述第一指标参数的值超过所述第一指标参数的预设值，则所述第二比对结果满足第二预设条件；

在所述第一指标参数包括误召率的情况下，若所述第二比对结果中，所述第一指标参数中所述误召率的值低于所述误召率的预设值，目标指标参数的值超过所述目标指标参数的预设值，则所述第二比对结果满足第二预设条件，其中，所述目标指标参数为所述第一指标参数中除所述误召率之外的指标参数。

可选的，所述测试样本数据的正样本数据包括第一正样本数据和第二正样本数据，所述测试样本数据的负样本数据包括第一负样本数据和第二负样本数据；

其中，所述第一正样本数据为初始测试正样本数据中满足预设样本筛选条件的正样本数据，所述第一负样本数据为初始测试负样本数据中满足所述预设样本筛选条件的负样本数据；

所述第二正样本数据为根据用户对目标样本数据的类别的修正操作，修正所述目标样本数据的类别得到的修正后的目标样本数据中的正样本数据，所述第二负样本数据为所述修正后的目标样本数据中的负样本数据；

其中，所述目标样本数据包括所述初始测试正样本数据中除所述第一正样本数据以外的正样本数据，以及所述初始测试负样本数据中除所述第一负样本数据以外的负样本数据。

可选的，所述预设样本筛选条件包括样本数据的目标输出结果与所述样本数据的预设标准结果相同，所述目标输出结果为所述样本数据输入第一模型得到的输出结果，所述第一模型为与所述线上模型为同一功能模型。

第二方面，本发明实施例还提供一种推荐系统中模型测试装置，包括：

测试样本获取模块，用于获取待测模型对应的测试样本数据；

第一输出结果获得模块，用于通过所述待测模型对所述测试样本数据进行处理，获得第一输出结果；

对比结果获得模块，用于根据所述第一输出结果与第二输出结果，获得比对结果；其中，所述第二输出结果为通过线上已使用的线上模型，对所述测试样本数据进行处理输出的结果，所述待测模型与所述线上模型为同一功能模型；

测试结果获得模块，用于基于所述比对结果获得所述待测模型的测试结果。

可选的，所述对比结果获得模块，包括：

指标参数值确定模块，用于根据所述第一输出结果，确定第一指标参数的值；

第一对比结果获取模块，用于将所述第一输出结果与第二输出结果进行比对，获得第一比对结果；

第二对比结果获取模块，用于将所述第一指标参数的值与所述第一指标参数的预设值进行比对，获得第二比对结果，所述第一指标参数的预设值为基于所述线上模型的第二输出结果确定的值。

可选的，所述测试结果获得模块，用于若所述第一比对结果满足第一预设条件，或/和所述第二比对结果满足第二预设条件，获得测试通过结果。

第三方面，本发明实施例还提供一种电子设备，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的推荐系统中模型测试方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的推荐系统中模型测试方法中的步骤。

本申请实施例的推荐系统中模型测试方法中，通过待测模型对测试样本数据进行处理得到第一输出结果，根据第一结果与线上模型对上述测试样本数据进行处理得到的第二输出结果，获得比对结果，利用比对结果确定待测模型的测试结果。即测试过程中，无需利用用户的反馈进行测试，可避免用户主观性对测试结果带来的偏差以及可减小以偏概全的情况，而且本推荐系统中模型测试方法中，不但考虑了线上模型的第二输出结果，而且考虑了待测模型的第一输出结果，通过与第一输出结果和第二输出结果相关的比对结果确定测试结果，以提高测试结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的推荐系统中模型测试方法的流程图之一；

图2是本发明实施例提供的推荐系统的原理图之一；

图3是本发明实施例提供的推荐系统中内容模型的原理图之一；

图4是本发明实施例提供的推荐系统中质量模型的原理图之一；

图5是本发明实施例提供的推荐系统中模型测试的原理图之一；

图6是本发明实施例提供的电子设备的示意图之一；

图7是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，在一个实施例中，提供了一种推荐系统中模型测试方法，可应用于电子设备(例如，可以是服务器)，包括：

步骤101：获取待测模型对应的测试样本数据。

推荐系统可涉及一系列模型，推荐系统的功能通过这一系列模型的功能一起实现，例如，可以包括内容模型、质量模型、排序模型、召回模型以及推荐模型等，这一系列模型共同实现推荐系统的功能。如图2所示，为一个实施例的推荐系统的原理图，通过图2的推荐系统可实现向用户推荐信息。一个模型对应有输入、过程参数以及输出，输出由输入和过程参数决定，即模型可以理解为根据过程参数建立的输入与输入的对应关系，模型训练过程即为基于训练样本对过程参数进行不断调整的过程，从而调整输入与输出之间的对应关系。在需要对某个数据预测其对应的输出时，将该数据作为训练完成的模型的输入，进行预测可获得预测结果即输出。上述待测模型可以理解为推荐系统中一个训练完成需进行测试的模型，在测试过程中，即是将测试数据作为待测模型的输入，待测模型进行预测可得到输出结果。

针对不同模型，可采用不同的测试样本数据，以确保测试的准确性。从而，在本实施例的测试过程中，首先需获取待测模型对应的测试样本数据。可在电子设备中搭建测试环境，电子设备获取待测模型对应的测试样本数据，为后续测试过程提供数据。

步骤102：通过待测模型对测试样本数据进行处理，获得第一输出结果。

将测试样本数据作为待测模型的输入，即将测试样本数据输入待测模型，通过待测模型进行输出预测，即可得到第一输出结果。

步骤103：根据第一输出结果与第二输出结果，获得比对结果。

其中，第二输出结果为通过线上已使用的线上模型，对测试样本数据进行处理输出的结果，待测模型与线上模型为同一功能模型。

对于不同的模型，其对应的功能不同，在推荐系统中，可以包括内容模型(如图3所示)和质量模型(如图4所示)，内容模型可丰富资源的内容，比如分类、兴趣点、标签等，分类、兴趣点和标签分别对应不同的模型，以实现对应的功能，但类型是相同的，均是属于内容模型。质量模型可以给资源打质量标签(即对资源进行质量评价给出对应的质量评价值)，例如，可以包括旧闻模型、抄袭模型和标题党模型等。旧闻模型、抄袭模型和标题党模型各自对应的功能不同，以旧闻模型为例，可用于识别待推荐资源中为旧闻的资源，其功能为识别待推荐资源中的旧闻。再以抄袭模型为例，可用于识别待推荐资源中为抄袭的资源，其功能为识别待推荐资源中的抄袭资源。

在本实施例中，待测模型与线上模型为同一功能模型，即待测模型和线上模型的功能相同，不同之处在于过程参数，过程参数不同，模型的输入和输出之间的对应关系不同，相同的输入，得到的输出就不同，模型的效果随之不同。例如，待测模型的输入与输出之间的对应关系为Y＝A*X，X为输入，Y为输出，线上模型的输入与输出之间的对应关系为Y＝B*X，过程参数A和过程参数B不同，则对应关系不同。

待测模型与线上模型也可以理解为功能相同但版本不同的模型，线上模型已在线上使用的版本，而待测模型是与线上模型的功能相同，但还未投入线上使用的模型，测试通过后可将其上线，作为新的线上模型，代替上述线上模型。以待测模型为旧闻模型为例，可实现对旧闻的识别，则线上模型也为旧闻模型，可实现对旧闻的识别，不同之处在于输入与输出之间的对应关系，对旧闻识别的效果则不同。在待测模型通过测试后，即可将其上线，取代线上模型，后续可利用上述通过测试的待测模型进行旧闻识别。

在根据第一输出结果与第二输出结果，获得比对结果之前，已通过线上模型对测试样本数据进行预测，得到第二输出结果。具体地，将测试样本数据作为线上模型的输入，即将测试样本数据输入线上模型，通过线上模型进行输出预测，即可得到第二输出结果。如此，可根据第一输出结果与第二输出结果，获得比对结果。

步骤104：基于比对结果获得待测模型的测试结果。

得到比对结果后，基于比对结果可确定待测模型的测试结果，即基于比对结果可确定待测模型的测试是否通过，其中，待测模型的测试结果可以是测试通过结果和测试未通过结果中的一种，是测试通过结果和测试未通过结果哪一种，由比对结果确定。

在一个实施例中，根据第一输出结果与第二输出结果，获得比对结果，包括：根据第一输出结果，确定第一指标参数的值；将第一输出结果与第二输出结果进行比对，获得第一比对结果；将第一指标参数的值与第一指标参数的预设值进行比对，获得第二比对结果，第一指标参数的预设值为基于线上模型的第二输出结果确定的值。

其中，第一指标参数用于衡量待测模型对测试样本数据进行预测的效果好坏。在本实施例中，不仅可利用第一指标参数的值确定第二比对结果，还可将第一输出结果与第二输出结果进行比对，获得第一比对结果，即上述比对结果包括第一比对结果和第二比对结果，后续基于第一比对结果和第二比对结果确定测试结果。即在确定测试结果的过程中，考虑了第一指标参数的值和第一指标参数的预设值之间的差别，也考虑了第一输出结果和第二输出结果之间的差别，即从不同层面进行对比，可使比对结果更加全面，依此确定的测试结果更加准确。

在一个示例中，第一指标参数可以包括正确率、召回率、误召率以及扩召回率中的至少一种，可根据第一输出结果，确定第一指标参数的值。正确率、召回率、误召率以及扩召回率均是用来评价结果的质量，其中，正确率也称为准确率，即捕获的成果中目标成果所占比例，正确率P＝(a+d)/(a+b+c+d)，a为测试样本数据中正样本判定为正样本的数量(可以理解为测试样本数据中预期命中且实际命中的数量)，b为测试样本数据中正样本判定为负样本的数量(可以理解为测试样本数据中预期命中但实际不命中)，c为测试样本数据中负样本判定为正样本的数量(可以理解为测试样本数据中预期不命中但实际命中)，d为测试样本数据中负样本判定为负样本的数量(可以理解为测试样本数据中预期不命中且实际不命中的数量)。召回率即召回目标类别的比例，召回率R＝a/(a+c)。误召率ER＝c/(a+b+c+d)。扩召回率KR＝a/(a+b+c+d)。

在一个实施例中，基于比对结果获得待测模型的测试结果包括：若第一比对结果满足第一预设条件，或/和第二比对结果满足第二预设条件，获得测试通过结果。

存在两种比对结果，在确定测试结果的过程中，两种比对结果即第一比对结果和第二比对结果中至少一个满足对应的预设条件，则确定该待测模型通过测试。在测试通过的情况下(即获得测试通过结果的情况下)，才能进行后续的压力测试等，否则，对该待测模型进行拦截，不再进行后续的压力测试。若第一比对结果不满足第一预设条件，且第二比对结果不满足第二预设条件，则确定测试未通过，即可获得测试未通过结果。

在一个实施例中，若第一比对结果中，第一输出结果中数值大于第一预设值的数量，超过第二输出结果中数值大于第一预设值的数量，则第一比对结果满足第一预设条件。

待测模型对每个测试样本数据进行处理后均得到一个输出结果，则第一输出结果包括待测模型对每个测试样本数据的输出结果，测试样本数据的输出结果可以理解为待测模型对测试样本数据的一个打分，能用于确定待测模型预测待测样本数据是否属于正样本或者属于正样本的程度，数值越大表示为正样本的程度越大，表示该待测模型对正样本识别能力，若数值大于第一预设数值的数量超过第二输出结果中数值大于第一预设值的数量，表示待测模型对正样本的识别能力大于线上模型对正样本的识别能力，则认为第一比对结果满足第一预设条件。

例如，以抄袭模型为例，抄袭模型可用于识别抄袭资源，测试样本数据的数量为40，其中，测试样本数据中包括不同抄袭程度的样本数据，通过待测的抄袭模型对测试样本数据进行处理，得到第一输出结果，第一输出结果中数值为3的有20个，数值为2的有15个，数值为1的有10个，数值为0的有10个，数值越大表示抄袭的程度越大，即识别到有20个抄袭程度比较大的样本，若第一预设值为2，则第一输出结果中数值大于2的数量有20个，然而，针对相同的测试样本数据，第二输出结果中数值为3的有15个，数值为2的有15个，数值为1的有10个，数值为0的有15个，即识别到有15个抄袭程度比较大的样本。即第一比对结果中第一结果中数值大于2的样本数量大于第二结果中数值大于2的样本数量，可以理解，待测的抄袭模型对抄袭比较严重的样本的识别强度比线上的抄袭模型对抄袭比较严重的样本的识别强度好，此时，可认为第一比对结果满足第一预设条件。第一输出结果中的不同数值可以理解为表示不同类别，例如，抄袭模型中，对应的类别可以包括严重抄袭、中等抄袭、轻度抄袭以及未抄袭，数值越大，表示抄袭程度越大，例如，数值3表示严重抄袭类别，数值2表示中等抄袭类别，数值1表示轻度抄袭类别，数值0表示未抄袭类别，上述第一输出结果中数值为3的有20个，表示识别到严重抄袭的有20个。

在一个实施例中，在第一指标参数不包括误召率的情况下，若第二比对结果中，第一指标参数的值超过第一指标参数的预设值，则第二比对结果满足第二预设条件。

在第一指标参数包括误召率的情况下，若第二比对结果中，第一指标参数中误召率的值低于误召率的预设值，目标指标参数的值超过目标指标参数的预设值，则第二比对结果满足第二预设条件，其中，目标指标参数为第一指标参数中除误召率之外的指标参数。

正确率、召回率、误召率以及扩召回率中，正确率、召回率和扩召回率的值越大，表示待测模型的效果越好，误召率的值越小，表示待测模型的效果越好，从而在判断第二比对结果是否满足第二预设条件的过程中，在第一指标参数包括误召率的情况下，若误召率的值低于误召率的预设值，目标指标参数的值超过目标指标参数的预设值，则第二比对结果满足第二预设条件。在第一指标参数不包括误召率的情况下，第一指标参数的值超过第一指标参数的预设值，则第二比对结果满足第二预设条件。

例如，以旧闻模型以及第一指标参数为召回率为例，若根据线上模型对测试样本数据进行测试，得到第二输出结果，以此确定的召回率的预设值为1％，意味着每100篇图文有1篇会命中旧闻。利用待测的旧闻模型对相同的测试样本数据进行测试，得到第一输出结果，若确定的召回率的预设值为1.2％，超过1％，则认为待测的旧闻模型比线上模型对旧闻的识别效果好，可确定第二比对结果满足第二预设条件，否则，不满足。

在一个实施例中，测试样本数据的正样本数据包括第一正样本数据和第二正样本数据，测试样本数据的负样本数据包括第一负样本数据和第二负样本数据。

其中，第一正样本数据为初始测试正样本数据中满足预设样本筛选条件的正样本数据，第一负样本数据为初始测试负样本数据中满足预设样本筛选条件的负样本数据。所述第二正样本数据为根据用户对目标样本数据的类别的修正操作，修正目标样本数据的类别得到的修正后的目标样本数据中的正样本数据，所述第二负样本数据为修正后的目标样本数据中的负样本数据。其中，目标样本数据包括初始测试正样本数据中除第一正样本数据以外的正样本数据，以及初始测试负样本数据中除第一负样本数据以外的负样本数据。

每个模型对应一个样本库，样本库中存储该模型对应的测试样本数据，测试样本数据可以包括测试样本的特征数据以及测试样本的类别，正样本的类别为正类别，负样本的类别为负类别。比如，对于用来识别旧闻的旧闻模型，其对应的测试样本中正类别即为旧闻类别，负类别即为非旧闻类别。

在获取测试样本数据进行模型测试之前，需建立待测模型的样本库。首先，获取初始测试正样本数据和初始测试负样本数据，其中，初始测试负样本数据可以从用户反馈的负面数据、用户举报数据以及负评论数据等数据来源中获取。然后需对初始测试正样本数据和初始测试负样本数据进行质量评估实现待测模型的样本库的建立。具体地，将初始测试正样本中满足预设样本筛选条件的第一正样本数据作为测试正样本数据，将初始测试负样本数据中满足预设样本筛选条件的第一负样本数据作为测试负样本数据。对于初始测试正样本数据和初始测试负样本数据中不满足预设样本筛选条件的样本，需要人工进行评估，以确定样本为正样本还是负样本。即用户可对不满足预设筛选条件的目标样本数据进行评估，并可对其进行类别修正操作，例如，对于目标样本数据中样本e的数据，属于正样本，其不满足预设筛选条件，通过人工评估，确定其不属于正样本，用户可对其类别进行修正，将其修正为负样本，即改变样本e的类别。又比如，对于目标样本数据中样本f的数据，属于正样本，其不满足预设筛选条件，通过人工评估，确定其属于正样本，用户可对其类别进行确认，还是属于正样本，可以理解，样本f修正后的类别与修正前的类别相同。根据用户对目标样本数据的类别的修正操作可获得修正后的目标样本数据，可将修正后的目标样本数据中的正样本数据确定为第二正样本数据，将修正后的目标样本数据中的负样本数据确定为第二负样本数据，从而实现第二正样本数据和第二负样本数据的确定，然后将第二正样本数据作为测试正样本数据，将第二负样本数据作为测试负样本数据。如此，完成待测模型的样本库的建立，即样本库中包括待测模型对应的测试样本数据。

以“旧闻”资源(样本)为例，资源的字段如表1所示，资源以表1的形式存储与样本库中。其中，策略对应模型，这样其含义为旧闻，表示为旧闻模型，资源用于旧闻模型的测试。资源ID为资源标识信息，可唯一区分资源。模型与资源类型是对应的，即每个模型有对应的资源类型，在进行测试过程中，利用对应资源类型的测试样本数据进行测试。比如，旧闻模型，其对应的资源类型可以为图文，如表1所示。样本类型为正样本，即为旧闻，作者等级为5级作者，即表示该资源的作者的等级为5级。

表1

字段	含义
		策略	旧闻
资源ID	1234567897654321
		资源类型	图文
样本类型	正样本(为旧闻)
		作者等级	5级作者

例如，对于初始测试正样本数据，包括50个正样本数据，其中，有40个正样本数据满足预设筛选条件，即第一正样本数据的数量为40，将其作为测试样本数据的正样本数据。对于初始测试负样本数据，包括50个负样本数据，其中，有45个负样本数据满足预设筛选条件，即第一负样本数据的数量为45，将其作为测试样本数据的负样本数据。剩余的10个初始测试正样本数据和5个初始测试负样本数据，需要通过人工评估以确定将其划分为测试样本数据的正样本数据还是负样本数据，以确保得到的测试样本数据的准确定。比如，通过人工评估，剩余的5个初始测试负样本数据虽然没有满足预设筛选条件，但可确定其为负样本，则可将其作为测试样本数据的负样本数据。又例如，通过人工评估，剩余的10个初始测试正样本数据中，确定有8个为正样本，则将这8个初始测试正样本数据作为测试样本数据的正样本数据，另外2个初始测试正样本数据确定为负样本，则用户可对上述2个初始正样本数据的类别进行修正，将上述2个初始测试正样本数据修正为负样本，即将2个初始测试正样本数据的正样本类别修正为负样本类别，比如，2个初始测试正样本数据均属于旧闻类别，将其修正为非旧闻类别，将其作为测试样本数据的负样本数据，即将其划分到负样本类中。通过上述对初始测试样本数据进行预设筛选条件的判断以及人工评估，可确保得到的测试样本数据的准确性。

另外，以低俗模型为例，低俗模型用于识别低俗资源，即识别属于低俗类别的资源，低俗模型对应的资源类型可以包括图文和视频，对于不同资源类型，低俗模型可以不同。例如，对于图文对应的低俗模型，在测试过程中，采用图文类型的测试样本数据进行测试，可对图文中低俗类别的图文进行识别。对于视频对应的低俗模型，在测试过程中，采用视频类型的测试样本数据进行测试，可对视频中低俗类别的视频进行识别。

在一个实施例中，预设样本筛选条件包括样本数据的目标输出结果与样本数据的预设标准结果相同，目标输出结果为样本数据输入第一模型得到的输出结果，第一模型为与线上模型为同一功能模型。

每个初始测试样本数据有对应的预设标准结果，比如，对于旧闻模型，每个初始测试样本数据有对应的预设标准结果，即为旧闻或不为旧闻，若为旧闻，则预设标准结果可以为1，不为旧闻，则预设标准结果可以为0。可将一个初始测试样本(例如，图文X)输入到第一模型中进行测试，目标输出结果为1，识别其为旧闻，但是对应的预设标准结果为0，表示不为旧闻，即目标输出结果与该测试数据样本的预设标准结果不同，则不满足预设样本筛选条件。若上述目标输出结果为0，识别其不为旧闻，但是对应的预设标准结果为1，表示为旧闻，即目标输出结果与该测试数据样本的预设标准结果不同，则不满足预设样本筛选条件。若目标输出结果为1，识别其为旧闻，对应的预设标准结果为1，表示为旧闻，即目标输出结果与该测试数据样本的预设标准结果相同，则满足预设样本筛选条件。若目标输出结果为0，识别其不为旧闻，对应的预设标准结果为0，表示不为旧闻，即目标输出结果与该测试数据样本的预设标准结果相同，则满足预设样本筛选条件。根据上述预设样本筛选条件对初始测试样本数据进行筛选，可提高筛选得到的第一正样本数据和第二正样本数据的准确性。其中，第一模型可以为在上述线上模型线上使用之前的模型，第一模型与线上模型可以理解为功能相同但版本不同的模型。

下面以一个具体实施例对上述推荐系统中模型测试方法的过程加以说明。

现有工程能力质量保证方案，也是目前推荐系统中模型测试比较常见的方案。工程能力质量保证方案可以理解为对待测模型的功能进行测试(功能校验层面)，以确保其能实现相应功能，但其不对模型的效果的好坏以及用户的满意度高低做保证。只是通过建设和完善工程质量的流水线自动验收能力，保证推荐系统的模型的稳定性和健壮性，但对于模型的效果是完全黑盒的，即模型的效果无法确保。只有后续通过人工自行评估以确定其效果，通过召集一定数量用户进行测试测，或者就是内部人员来对模型效果进行摸底，包括满意度、质量、相关性等指标，对进行样本抽样评估出准确率和召回率等。然而，评估人员始终圈定在固定的用户群体，也会影响评估本身的差异性，而且评估人员本身在长期对产品进行评估后也会对在评估标准上有一定的固化，无法对模型的效果进行准确测试。

如图5所示，本实施例的推荐系统中模型测试方法对应图5中的模型测试部分。一个推荐系统涉及一系列错综复杂的模型，每次模型升级和迭代，需确保模型的效果，每一次对新模型的需求变更上线，需保证原有模型不受影响，作为产品交付的质量保证工程师，需要建设一个完备的推荐系统质量保障体系，确保推荐系统质量的过程中，需对推荐系统中的模型进行测试。

在本实施例中，针对推荐系统资源层面的模型(例如，内容模型和质量买模型)的效果测试，在功能校验层面加入字段层面的数据diff拦截能力，通过字段映射到资源层面的具体策略，集合线上模型召回情况做比对，判断模型在样本集范围内的变化情况。

以图文对应的旧闻模型为例，线上模型的召回率为1％，意味着每100篇图文有一篇会命中旧闻策略。利用相同的数据集输入待测模型进行预测，计算旧闻的召回率，相等于仿真环境下观察待测模型的召回效果。若待测模型的召回率低于1％，那么视为本次待测模型的质量不达标，测试不通过，进行上线拦截，若高于1％，则确认测试通过，后续可将其上线。

本实施例的方案相比于A/B测试方案，规避了去线上试错的风险。模型的效果的影响都是在线下验证，一定程度上对于用户是“无损”的。由于将模型效果保证能力打入到流水线中，除了确保程序的稳定性和健壮性，还在一定程度上减少了由于模型效果不符合预期造成的回滚再上线的时间消耗，提高了产品全生命周期的效率。模型本身针对测试样本数据确定准确率、召回率、扩招率、误召率等指标参数，会极大的减少评估人员的人力投入。

如图6所示，本发明还提供一个实施例的推荐系统中模型测试装置600，包括：

测试样本获取模块601，用于获取待测模型对应的测试样本数据；

第一输出结果获得模块602，用于通过待测模型对测试样本数据进行处理，获得第一输出结果；

对比结果获得模块603，用于根据第一输出结果与第二输出结果，获得比对结果；其中，第二输出结果为通过线上已使用的线上模型，对测试样本数据进行处理输出的结果，待测模型与线上模型为同一功能模型；

测试结果获得模块604，用于基于比对结果获得待测模型的测试结果。

在一个实施例中，对比结果获得模块603，包括：

第一对比结果获取模块，用于将第一输出结果与第二输出结果进行比对，获得第一比对结果；

第二对比结果获取模块，用于将第一指标参数的值与第一指标参数的预设值进行比对，获得第二比对结果，第一指标参数的预设值为基于线上模型的第二输出结果确定的值。

在一个实施例中，测试结果获得模块604，用于若第一比对结果满足第一预设条件，或/和第二比对结果满足第二预设条件，获得测试通过结果。

在一个实施例中，所述第一指标参数包括正确率、召回率、误召率以及扩召回率中的至少一种。

在一个实施例中，在第一指标参数不包括误召率的情况下，若第二比对结果中，第一指标参数的值超过第一指标参数的预设值，则第二比对结果满足第二预设条件；

在一个实施例中，测试样本数据的正样本数据包括第一正样本数据和第二正样本数据，测试样本数据的负样本数据包括第一负样本数据和第二负样本数据；

其中，第一正样本数据为初始测试正样本数据中满足预设样本筛选条件的正样本数据，第一负样本数据为初始测试负样本数据中满足预设样本筛选条件的负样本数据；

其中，目标样本数据包括初始测试正样本数据中除第一正样本数据以外的正样本数据，以及初始测试负样本数据中除第一负样本数据以外的负样本数据。

本发明实施例提供的电子设备中的技术特征与上述推荐系统中模型测试方法中的技术特征对应，通过电子设备实现上述推荐系统中模型测试方法的各个过程，并能得到相同的效果，为避免重复，在此不再赘述。

参照图1，本发明实施例还提供一种电子设备700，包括处理器701和存储器702，存储器702存储有可在处理器701上运行的计算机程序，该计算机程序被处理器701执行时实现上述推荐系统中模型测试方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述推荐系统中模型测试方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者电子设备中还存在另外的相同要素。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是计算机等)执行本发明各个实施例的方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种推荐系统中模型测试方法，其特征在于，所述方法包括：

获取待测模型对应的测试样本数据；

基于所述比对结果获得所述待测模型的测试结果；

其中，所述根据所述第一输出结果与第二输出结果，获得比对结果，包括：

根据所述第一输出结果，确定第一指标参数的值；

将所述第一指标参数的值与所述第一指标参数的预设值进行比对，获得第二比对结果，所述第一指标参数的预设值为基于所述线上模型的第二输出结果确定的值；

所述基于所述比对结果获得所述待测模型的测试结果包括：

若所述第一比对结果满足第一预设条件，或/和所述第二比对结果满足第二预设条件，获得测试通过结果；

其中，若所述第一比对结果中，所述第一输出结果中数值大于第一预设值的数量，超过所述第二输出结果中数值大于所述第一预设值的数量，则所述第一比对结果满足所述第一预设条件，所述第一输出结果中数值用于表示所述待测模型对正样本识别的能力，所述第二输出结果中数值用于表示所述线上模型对正样本识别的能力；

其中，所述测试样本数据的正样本数据包括第一正样本数据和第二正样本数据，所述测试样本数据的负样本数据包括第一负样本数据和第二负样本数据；

2.根据权利要求1所述的方法，其特征在于，所述第一指标参数包括正确率、召回率、误召率以及扩召回率中的至少一种。

3.根据权利要求2所述的方法，其特征在于，

在所述第一指标参数不包括误召率的情况下，若所述第二比对结果中，所述第一指标参数的值超过所述第一指标参数的预设值，则所述第二比对结果满足第二预设条件；

4.根据权利要求1所述的方法，其特征在于，所述预设样本筛选条件包括样本数据的目标输出结果与所述样本数据的预设标准结果相同，所述目标输出结果为所述样本数据输入第一模型得到的输出结果，所述第一模型为与所述线上模型为同一功能模型。

5.一种推荐系统中模型测试装置，其特征在于，包括：

测试结果获得模块，用于基于所述比对结果获得所述待测模型的测试结果；

所述对比结果获得模块，包括：

第二对比结果获取模块，用于将所述第一指标参数的值与所述第一指标参数的预设值进行比对，获得第二比对结果，所述第一指标参数的预设值为基于所述线上模型的第二输出结果确定的值；

所述测试结果获得模块，用于若所述第一比对结果满足第一预设条件，或/和所述第二比对结果满足第二预设条件，获得测试通过结果；

所述测试样本数据的正样本数据包括第一正样本数据和第二正样本数据，所述测试样本数据的负样本数据包括第一负样本数据和第二负样本数据；

6.根据权利要求5所述的装置，其特征在于，所述第一指标参数包括正确率、召回率、误召率以及扩召回率中的至少一种。

7.根据权利要求6所述的装置，其特征在于，

8.根据权利要求5所述的装置，其特征在于，所述预设样本筛选条件包括样本数据的目标输出结果与所述样本数据的预设标准结果相同，所述目标输出结果为所述样本数据输入第一模型得到的输出结果，所述第一模型为与所述线上模型为同一功能模型。

9.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的推荐系统中模型测试方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的推荐系统中模型测试方法的步骤。