CN112163159A

CN112163159A - 资源推荐和参数确定方法、装置、设备及介质

Info

Publication number: CN112163159A
Application number: CN202011074769.XA
Authority: CN
Inventors: 王朝旭; 彭志洺; 秦首科; 宋乃飞; 胡小雨; 崔宁馨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-01
Anticipated expiration: 2040-10-09
Also published as: JP7350815B2; EP3905069A3; JP2022063224A; US20210406327A1; KR20210122213A; EP3905069A2; CN112163159B

Abstract

本申请公开了一种资源推荐和参数确定方法、装置、设备及介质，涉及智能搜索和推荐领域。具体实现方案为：确定目标用户的推荐参考特征；基于至少两个资源推荐模型，根据目标用户的推荐参考特征，为目标用户确定资源推荐结果；其中，至少两个资源推荐模型中的至少两个推荐策略参数根据历史用户的推荐行为数据共同确定，至少两个资源推荐模型关联的资源处理阶段不同。本申请实施例通过共同确定至少两个资源推荐模型中的至少两个推荐策略参数，避免了由于单一策略参数孤立确定致使各策略参数不匹配的问题，从而兼顾了各推荐策略参数之间的相互作用，进而提高了资源推荐结果的准确性和资源推荐结果与目标用户的匹配度，提高了用户满意度。

Description

资源推荐和参数确定方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，尤其涉及智能搜索和推荐技术，具体涉及一种资源推荐和参数确定方法、装置、设备及介质。

背景技术

随着移动互联网的深入发展，为资源推荐系统的广泛应用奠定了基础。在现实生活中，许多应用程序都运用了资源推荐系统，如出行、购物、视频、新闻和社交等，从而能够向用户提供更多用户自身感兴趣的信息，或便于用户快速搜索自身感兴趣的信息。

然而，现有的资源推荐系统在进行资源推荐时，存在推荐结果较差，用户体验度较低。

发明内容

本申请提供了一种资源推荐结果更好的资源推荐和参数确定方法、装置、设备及介质。

根据本申请的一方面，提供了一种资源推荐方法，包括：

确定目标用户的推荐参考特征；

基于至少两个资源推荐模型，根据所述目标用户的推荐参考特征，为所述目标用户确定资源推荐结果；

其中，所述至少两个资源推荐模型中的至少两个推荐策略参数根据历史用户的推荐行为数据共同确定，所述至少两个资源推荐模型关联的资源处理阶段不同。根据本申请实施例的另一方面，还提供了一种参数确定方法，包括：

确定历史用户的推荐行为数据；

根据所述历史用户的推荐行为数据，共同确定至少两个推荐策略参数；

其中，所述推荐策略参数为至少两个资源推荐模型中的使用参数，所述至少两个资源推荐模型关联的资源处理阶段不同。

根据本申请的另一方面，还提供了一种资源推荐装置，包括：

推荐参考特征确定模块，用于确定目标用户的推荐参考特征；

资源推荐结果确定模块，用于基于至少两个资源推荐模型，根据所述目标用户的推荐参考特征，为所述目标用户确定资源推荐结果；

其中，所述至少两个资源推荐模型中的至少两个推荐策略参数根据历史用户的推荐行为数据共同确定，所述至少两个资源推荐模型关联的资源处理阶段不同。

根据本申请的另一方面，还提供了一种参数确定装置，包括：

推荐行为数据确定模块，用于确定历史用户的推荐行为数据；

推荐策略参数确定模块，用于根据所述历史用户的推荐行为数据，共同确定至少两个推荐策略参数；

根据本申请的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意实施例提供的一种资源推荐方法，和/或，执行本申请任意实施例提供的一种参数确定方法。

根据本申请的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请任意实施例提供的一种资源推荐方法，和/或，执行本申请任意实施例提供的一种参数确定方法。

根据本申请的技术，提高了资源推荐结果与目标用户的匹配度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的一种资源推荐方法的流程图；

图2是本申请实施例提供的一种参数确定方法的流程图；

图3是本申请实施例提供的另一种参数确定方法的流程图；

图4A是本申请实施例提供的一种资源推荐系统的结构图；

图4B是本申请实施例提供的一种在线推荐系统的框架结构示意图；

图4C是本申请实施例提供的一种参数寻优模型的结构示意图；

图4D是本申请实施例提供的另一种资源推荐方法的流程图；

图5是本申请实施例提供的一种资源推荐装置的结构图；

图6是本申请实施例提供的一种参数确定装置的结构图；

图7是用来实现本申请实施例的资源推荐方法和/或参数确定方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例所公开了的各资源推荐方法，适用于在数据处理技术领域，采用资源推荐系统向目标用户进行资源推荐的情况。本申请实施例所公开的资源推荐方法，可以由资源推荐装置执行，该装置采用软件和/或硬件实现，并具体配置于具备资源推荐功能的电子设备中。

图1是本申请实施例提供的一种资源推荐方法的流程图，该方法包括：

S101、确定目标用户的推荐参考特征。

其中，目标用户可以理解为进行资源推荐的待推荐用户。

其中，推荐参考特征可以理解为在资源推荐过程中所依据的特征数据。示例性地，推荐参考特征可以包括场景特征、用户基本特征和用户偏好特征等中的至少一种。

示例性地，场景特征用于表征对目标用户进行资源推荐时的场景状态数据，例如，可以包括刷新次数、刷新状态、刷新大小、网络状态和刷新时段等中的至少一种。可以理解的是，通过在推荐参考特征中引入场景特征，能够在后续进行资源推荐时，针对不同场景向目标用户进行不同待推荐资源的推荐，从而达到基于场景的个性化推荐的目的。

示例性地，用户基本特征用于表征用户自身的基本属性，例如，可以包括用户性别、年龄、教育程度、用户活跃度和用户历史点赞比等中的至少一种。可以理解的是，通过在推荐参考特征中引入用户特征，能够在后续进行资源推荐时，实现基于目标用户的个性化推荐，从而提高资源推荐结果与目标用户自身的匹配度，进而提高用户满意度。

示例性地，用户偏好特征用于表征目标用户对不同类型资源中不同种类资源内容的喜爱程度等。可以理解的是，通过在推荐参考特征中引入用户偏好特征，能够在后续进行资源推荐时，能够向目标用户进行感兴趣内容的推荐，进而提高用户满意度。

可选地，目标用户的推荐参考特征可以预先存储在电子设备本地、与电子设备关联的其他存储设备或云端中。相应的，在需要进行资源推荐时，从电子设备本地、与电子设备关联的其他存储设备或云端中，根据目标用户的标识信息，进行目标用户的推荐参考特征的获取。

或者可选地，还可以预先在电子设备本地、与电子设备关联的其他存储设备或云端中，进行推荐参考数据的存储；相应的，在需要进行资源推荐时，从电子设备本地、与电子设备关联的其他存储设备或云端中，根据目标用户的标识信息读取目标用户的推荐参考数据，并对推荐参考数据进行特征提取，生成结构化表示的推荐参考特征。其中，目标用户的推荐参考特征包括但不限于场景特征、用户基本特征和用户偏好特征等数据。

S102、基于至少两个资源推荐模型，根据目标用户的推荐参考特征，为目标用户确定资源推荐结果；其中，至少两个资源推荐模型中的至少两个推荐策略参数根据历史用户的推荐行为数据共同确定，至少两个资源推荐模型关联的资源处理阶段不同。

本申请实施例所涉及的至少两个资源推荐模型可以组成资源推荐系统，用于通过不同资源处理阶段的资源推荐模型相级联的方式，给目标用户进行资源推荐。其中一个资源推荐模型用于对待推荐资源或前序级联的资源推荐模型的输出结果进行资源选取，并将选取的资源作为后续级联的资源推荐模型的输入，或作为资源推荐结果呈现给目标用户。

在一实施例中，资源推荐阶段包括但不限于资源召回阶段、资源粗排阶段、资源精排阶段和资源重排阶段。相应的，资源推荐模型包括但不限于资源召回模型、资源粗排模型、资源精排模型和资源重排模型。需要说明的是，上述资源推荐系统可以根据需要对资源推荐阶段和相应的资源推荐模型进行增加、删除或调整。当然，根据实际需求，还可以将至少一个资源处理阶段设置为包括至少一个子阶段，例如，资源重排阶段可以包括候选资源序列生成阶段和目标资源序列生成阶段等。

在本申请实施例中，各资源推荐模型中采用至少一种推荐策略，用于对资源推荐模型的推荐结果加以约束；相应的，各推荐策略中包括至少一个推荐策略参数，其中，不同推荐策略参数能够影响相应资源推荐模型的推荐性能。

在一可选实施例中，推荐策略包括但不限于资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略等策略。相应的，推荐策略参数包括但不限于种类配比参数、多样化调权参数和多推荐指标融合参数等参数。

可选的，资源种类配比策略可以理解为在进行资源推荐时，设置至少两种类型资源的综合推荐的策略，从而提高用户对资源推荐结果的满意度。例如，在信息流推荐时，会综合推荐图文、短视频和小视频等资源。相应的，资源种类配比策略中的使用参数可以是种类配比参数。

可选的，资源内容多样化策略可以理解为在进行资源推荐时，以保证同种类型资源提供所推荐资源内容的多样性，从而避免由于资源内容单一带来的过拟合问题，并提高相同类型资源的覆盖面，进而提高用户体验满意度。相应的，资源内容多样化策略中的使用参数可以是多样化所采用的调权公式中的多样化调权参数。其中，多样化调权参数用于设置同种类型资源中不同资源内容类别的配比权重。其中，调权公式可以由技术人员根据需要或经验进行确定，或通过大量试验反复确定。

可选的，多推荐指标均衡策略是指在资源推荐时，如何满足不同资源推荐指标要求的策略。例如推荐指标可以包括点击率、落地页时长、列表页时长、评论、点赞、和分享等中的至少一种。由于不同资源推荐指标之间可能存在相互制约的情况，因此通过多推荐指标均衡兼顾的方式，能够平衡不同推荐指标之间的影响。相应的，多推荐指标均衡策略的使用参数，可以是多推荐指标推荐时所采用的融合公式的多推荐指标融合参数。其中，融合公式可以由技术人员根据需要或经验进行确定，或通过大量试验反复确定。

在本实施例中，将目标用户的推荐参考特征作为资源推荐系统中在首的资源推荐模型的输入数据，并将在首的资源推荐模型的输出数据作为后续级联的资源推荐模型的输入数据，最终通过在尾的资源推荐模型输出目标用户的资源推荐结果，从而达到向目标用户进行资源推荐的目的。

其中，历史用户的推荐行为数据可以包括但不限于向历史用户进行资源推荐时所依据的推荐参考特征、历史用户的资源推荐结果和历史用户对资源推荐结果进行响应时的行为数据等。

可以理解的是，通过历史用户的推荐行为数据进行资源推荐模型中至少两个推荐策略参数的确定，使得所确定的资源推荐参数能够更好地适配资源推荐模型。同时通过推荐策略参数的功能确定，能够兼顾各推荐策略参数的相互作用，为资源推荐模型推荐结果的准确性的提高奠定了基础。

本申请实施例通过确定目标用户的推荐参考特征；基于至少两个资源推荐模型，根据目标用户的推荐参考特征，为目标用户确定资源推荐结果。其中，至少两个资源推荐模型中的至少两个资源推荐参数根据历史用户的推荐行为数据共同确定，至少两个资源推荐模型关联的资源处理阶段不同。上述技术方案通过共同确定至少两个资源推荐模型中的至少两个推荐策略参数，从而实现了对不同资源处理阶段的各推荐策略参数的动态确定和自动调整，避免了人为设定参数不准确导致资源推荐结果不佳的问题；同时，通过各推荐策略参数的共同确定，避免了由于单一推荐策略参数孤立确定，致使各推荐策略参数不匹配的问题，从而兼顾了各推荐策略参数之间的相互作用，进而提高了资源推荐结果的准确性和资源推荐结果与目标用户的匹配度和用户满意度。

在上述各实施例的技术方案的基础上，可以将历史用户的推荐行为数据细化为历史用户的推荐参考特征和用户反馈数据，从而完善资源推荐参数的确定机制，也即根据历史用户的推荐参考特征和用户反馈数据，共同确定至少两个推荐策略参数。其中，至少两个策略推荐参数为至少两个资源推荐模型的使用参数；至少两个资源推荐模型关联的资源处理阶段不同。

需要说明的是，进行资源推荐时所采用的电子设备(资源推荐设备)和进行推荐策略参数确定的电子设备(参数确定设备)可以是相同或不同的电子设备，本申请实施例对此不做任何限定。

其中，用户反馈数据可以理解为历史用户对资源推荐结果进行响应，所生成的数据。

在一个可选实施例中，推荐策略参数可以采用参数寻优模型，基于历史用户的推荐参考数据和用户反馈数据进行确定。其中，参数寻优模型可以基于进化学习(EvolutionStrategy，ES)算法实现，还可以采用其他算法实现，本申请实施例对此不做任何限定。

需要说明的是，由于ES算法属于一种进化策略，通过模拟自然界进化进行全局优化，遵循达尔文物竞天择、适者生存的进化理论。因此，在基于ES算法实现的参数寻优模型，进行推荐策略参数确定时，仅依赖于用户反馈数据，不依赖于误差的反向传播，适用于包含多阶段多策略的资源推荐模型中各策略参数的优化过程，同时，使用ES算法计算简单高效，可高度并行，资源损耗小，因此还能够提高策略参数的确定效率。因此，在一优选实施例中，可以采用基于ES算法所实现的参数寻优模型进行推荐策略参数的确定。

在一可选实施方式中，可以根据用户反馈数据对参数寻优模型中的网络参数进行调整，从而使得参数寻优模型的模型输出结果具备资源推荐模型中推荐策略参数对应的物理意义。同时，采用历史用户的推荐参考特征，基于调整后的参数寻优模型，得到模型输出结果，以进行推荐策略参数的确定，提高了参数寻优模型的模型输出结果(也即推荐策略参数)与资源推荐模型匹配度。相应的，将所确定的推荐策略参数作用至资源推荐系统中相应的资源推荐模型中，以更新资源推荐模型，进而采用更新后的资源推荐模型向目标用户进行资源推荐。

可以理解的是，推荐策略参数的确定操作可以预先执行，并将得到的各推荐策略参数进行存储；相应的，在进行资源推荐模型使用时，从推荐策略参数的存储区域进行推荐策略参数的获取和使用。

为了保证推荐策略参数的时效性，一般的，用户反馈数据可以是在向目标用户进行资源推荐之前，在设定时段内向历史用户进行历史资源推荐后所确定的用户反馈数据。相应的，实时或定时进行推荐策略参数的重新确定，以更新资源推荐模型中的各推荐策略参数。

本申请实施例通过引入参数确定模型进行推荐策略参数的确定，实现了各策略参数的联合寻优，无需单一资源处理阶段的单推荐策略参数寻优，减少了参数寻优过程的数据运算量，提高了推荐策略参数的确定效率，从而为资源推荐模型中各推荐策略参数的在线实时更新提供了可能。另外，在联合寻优过程中综合考量不同推荐策略参数之间的相互作用，避免了孤立进行单一推荐策略参数确定时出现策略参数相互制约，导致资源推荐系统不稳定的情况。同时，通过引入历史用户的用户反馈数据指导参数寻优模型的训练过程，使得所参数寻优模型的输出结果具备了推荐策略参数的物理意义，为推荐策略参数的联合寻优奠定了基础。另外，通过历史反馈用户的推荐参考特征进行策略参数的确定，使得推荐策略参数确定过程所使用的数据与资源推荐模型进行资源推荐时所采用的数据相适应，从而提高了最终确定的推荐策略参数与资源推荐模型的匹配度。

为了进一步完善基于用户反馈数据进行推荐策略参数的确定机制，在下述一个可选实施例中，对用户反馈数据的生成过程进行了详细说明。

示例性地，用户反馈数据可以通过资源推荐设备或参数确定设备采用以下方式加以确定：确定历史用户在业务指标下对历史资源推荐结果的响应行为数据统计值；其中，业务指标为资源推荐模型使用的指标；根据各业务指标下的响应行为数据统计值，确定用户反馈数据。

其中，业务指标可以理解为在进行资源推荐时，需要满足的推荐指标需求。示例性地业务指标可以是推荐指标，包括点击率、落地页时长、列表页时长、评论数量、点赞数量、和分享数量等中的至少一种，或基于上述至少一种参数进行推荐指标的确定。

可选的，业务指标可以包括时间响应指标，用于表征资源推荐系统的响应时间，或资源推荐系统与历史用户之间的交互时间。

可选的，业务指标可以包括交互行为的交互响应指标，用于表征资源推荐系统在进行资源推荐后，历史用户对资源推荐结果的交互情况。

当然，上述仅对业务指标所包含内容进行示例说明，业务指标还可以根据资源推荐系统的实际业务需求，确定为其他的指标参数，在此不再赘述。

示例性地，响应行为数据统计值可以包括对时长响应数据的时长累加值；或者可选的，响应行为数据统计值可以包括对交互响应数据的频次参数的频次累加值。

在一个具体实现方式中，若业务指标包括时间响应指标；相应的，根据各业务指标下的响应行为数据统计值，确定用户反馈数据，可以是：根据时间响应指标下的响应行为数据统计值，确定资源响应总时长；根据资源响应总时长，确定各历史用户的用户反馈数据。

可以理解的是，基于时间响应指标下的响应行为数据统计值，进行用户反馈数据的确定，能够侧面表征历史用户对资源推荐模型的时间粘度。从而，后续使用与时间粘度相关联的用户反馈数据，进行资源推荐模型的推荐策略参数的确定，使得所确定的推荐策略参数作用在资源推荐系统时，资源推荐结果能够更贴近时间响应指标。

示例性地，可以将历史用户单次刷新总时长作为时间响应指标。相应的，将历史用户单次刷新时的落地页时长和列表页时长的和值，作为资源响应总时长；根据资源响应总时长，确定用户反馈数据。例如，直接将资源响应总时长作为用户反馈数据。

可以理解的是，在资源推荐系统中，通过引入资源响应总时长，以期用户单次刷新的时长足够长，从而提高目标用户对资源推荐系统所关联应用程序的使用粘性。其中，资源推荐系统即为前述关联有不同资源处理阶段的至少两个资源推荐模型所构建的系统，

在另一具体实现方式中，若业务指标包括至少一个交互行为的交互响应指标；相应的，根据各业务指标下的响应行为数据统计值，确定用户反馈数据，可以是：根据交互响应指标下的响应行为数据统计值，确定交互响应数据；根据交互响应数据，确定用户反馈数据。其中，交互行为可以包括点击、刷新、评论、点赞、和分享等行为中的至少一种。

可以理解的是，通过基于交互响应指标下的响应行为数据统计值所确定的交互响应数据，能够侧面表征历史用户对资源推荐系统的交互情况，从而基于该与用户交互情况相关联的用户反馈数据，进行资源推荐模型的推荐策略参数的确定，使得所确定的推荐策略参数作用在资源推荐系统时，资源推荐结果能够更贴近交互响应指标。

示例性地，可以将单次刷新时的点赞数量、分享数量、评论数量、和点击阅读数量中的至少一种，根据预设公式，确定交互响应数据，并直接将该交互响应数据作为用户反馈数据。其中，预设公式为各自变量的递增公式。其中，自变量可以包括但不限于点赞数量、分享数量、评论数量、和点击阅读数量等参数。

可以理解的是，在资源推荐系统中，通过引入交互响应数据，以期用户单次刷新资源推荐系统所关联的应用程序时，与应用程序的交互次数足够多，从而提高用户对该应用程序的喜爱度。

在又一具体实现方式中，业务指标可以包括时间响应指标和交互响应指标；由于时间响应指标与交互响应指标可能存在一定制约关系。例如，在资源推荐系统中，通过引入资源响应总时长，以保证用户单次刷新的时长足够长，可能存在系统推荐的单个资源的资源时长过长的情况；而通过引入交互响应数据，以保证用户单次刷新时的交互次数足够多，可能存在系统推荐的单位资源的时长过短的情况。另外，在实际推荐过程中，还存在用户实际浏览的资源时长与进行资源推荐时所推荐资源的总时长不一致的情况，例如用户仅浏览量所推荐资源中的部分资源、或仅浏览了一个资源中的部分内容，使得推荐结果和用户实际浏览结果之间的差异较大。为了实现两者的兼顾，以期保证最终确定的推荐策略参数更加合理，从而为提高用户的使用体验奠定基础，根据各业务指标下的响应行为数据统计值，确定用户反馈数据，还可以是：根据时间响应指标下的响应行为数据统计值，确定资源响应总时长；根据交互响应指标下的响应行为数据统计值和历史响应时长，确定时长修正量；根据时长修正量和资源响应总时长，确定各历史用户的用户反馈数据。

其中，历史响应时长用于表征资源响应总时长在设定时间段的平均水平。其中，设定时间段可以由技术人员根据需要或经验值进行确定，或者通过大量试验反复确定。例如，设定时间段可以是对目标用户进行资源推荐前一天当天，向各历史用户推荐的各资源的资源响应总时长与资源总数量的比值。

可以理解的是，通过引入时长修正量，实现了对交互响应指标和时间响应指标的兼顾，从而使后续生成的推荐策略参数更加合理，为提高资源推荐系统的推荐性能奠定了基础，为提高用户的使用体验提供了保障。

示例性地，可以将历史用户单次刷新时的落地页时长和列表页时长的和值作为资源响应总时长；将至少一种交互行为的统计次数与资源页平均时长的乘积作为时长修正量；确定资源响应总时长与时长修正量的和值，并将该和值作为用户反馈数据，用于指引后续推荐策略参数的确定。

在上述技术方案的基础上，为了便于用户反馈数据的复用，可以将用户反馈数据预先存储在参数确定设备本地、或者与参数确定设备相关联的其他存储设备或云端中，相应的，在进行资源推荐时，从参数确定设备本地、或者与参数确定设备相关联的其他存储设备或云端中进行用户反馈数据的获取，进而根据所获取的用户反馈数据，进行推荐策略参数的确定。

在本申请实施例中，通过引入历史用户对历史资源推荐结果的响应行为数据统计值，进行用户反馈数据的确定，完善了用户反馈数据的确定机制。同时，通过业务指标对响应行为数据统计值加以限定，使得所确定的用户反馈数据能够表征业务指标需求，从而通过基于用户反馈数据所确定的策略推荐参数，能够与业务指标需求更加匹配，提高了所确定的推荐策略参数与资源推荐系统的匹配度，从而为提高资源推荐系统的推荐性能奠定了基础，为提高用户的使用体验提供了保障。

上述各可选实施例中的技术方案，对资源推荐方法的具体实现方式进行了详细说明。为了便于理解，以下可选实施例将对资源推荐方法中所涉及的资源推荐模型中的推荐策略参数的具体确定过程，进行详细说明。在本实施例所提供的参数确定方法，可以由参数确定装置执行，该装置采用软件和/或硬件实现，并具体配置于具备参数确定能力的电子设备中，也即参数确定设备。需要说明的是，参数确定设备可以是与前述资源推荐设备相同或不同的设备。

参见图2所示的一种参数确定方法，应用于参数确定设备，包括：

S201、确定历史用户的推荐行为数据。

S202、根据历史用户的推荐行为数据，共同确定至少两个推荐策略参数；其中，推荐策略参数为至少两个资源推荐模型中的使用参数，至少两个资源推荐模型关联的资源处理阶段不同。

本申请实施例通过确定历史用户的推荐行为数据；根据历史用户的推荐行为数据，共同确定至少两个推荐策略参数；其中推荐策略参数为至少两个资源推荐模型中的使用参数，至少两个资源推荐模型关联的资源处理阶段不同。上述技术方案通过共同确定至少两个资源推荐模型中的至少两个推荐策略参数，从而实现了对不同资源处理阶段的各推荐策略参数的动态确定和自动调整，避免了人为设定参数不准确导致资源推荐结果不佳的问题；同时，通过各推荐策略参数的共同确定，避免了由于单一推荐策略参数孤立确定，致使各推荐策略参数不匹配的问题，从而兼顾了各推荐策略参数之间的相互作用，进而提高了资源推荐结果的准确性和资源推荐结果与目标用户的匹配度和用户满意度。

在上述各技术方案的基础上，在一个可选实施例中，将历史用户的推荐行为数据细化为包括历史用户的推荐参考特征和用户反馈数据，从而基于历史用户的推荐参考特征和用户反馈数据，进行推荐策略参数的确定，完善了推荐策略参数的确定机制。

参见图3所示的一种参数确定方法，包括：

S301、确定历史用户的推荐参考特征和用户反馈数据。

其中，推荐参考特征可以理解为在资源推荐过程中所依据的特征数据。示例性地，推荐参考特征可以包括但不限于场景特征、用户基本特征和用户偏好特征等中的至少一种。

需要说明的是，此处进行参数确定时所采用的推荐参考特征，与基于资源推荐模型进行资源推荐结果确定所采用的推荐参考特征相一致。

示例性地，场景特征用于表征对历史用户进行资源推荐时的场景状态数据，例如，可以包括刷新次数、刷新状态、刷新大小、网络状态和刷新时段等中的至少一种。可以理解的是，通过在推荐参考特征中引入场景特征，使得后续确定的推荐策略参数作用在资源推荐模型时，使资源推荐模型具备了针对不同场景向目标用户进行不同待推荐资源推荐的能力，从而达到基于场景的个性化推荐的目的。

示例性地，用户基本特征用于表征用户自身的基本属性，例如，可以包括用户性别、年龄、教育程度、用户活跃度和用户历史点赞比等中的至少一种。可以理解的是，通过在推荐参考特征中引入用户特征，使得后续确定的推荐策略参数作用在资源推荐模型时，使资源推荐模型具备了基于目标用户进行个性化推荐的能力，从而提高资源推荐结果与目标用户自身的匹配度，进而提高用户满意度。

示例性地，用户偏好特征用于表征目标用户对不同类型资源中不同种类资源内容的喜爱程度等。可以理解的是，通过在推荐参考特征中引入用户偏好特征，使得后续确定的推荐策略参数作用在资源推荐模型时，使资源推荐模型具备了向目标用户进行感兴趣内容推荐的能力，进而提高用户满意度。

可选的，历史用户的推荐参考特征可以预先存储在电子设备本地、与电子设备关联的其他存储设备或云端中。相应的，在需要进行参数确定时，从电子设备本地、与电子设备关联的其他存储设备或云端中，根据历史用户的标识信息，进行历史用户的推荐参考特征的获取。

或者可选地，还可以预先在电子设备本地、与电子设备关联的其他存储设备或云端中，进行推荐参考数据的存储；相应的，在需要进行资源推荐时，从电子设备本地、与电子设备关联的其他存储设备或云端中，根据历史用户的标识信息读取历史用户的推荐参考数据，并对推荐参考数据进行特征提取，生成结构化表示的推荐参考特征。其中，推荐参考特征包括但不限于场景特征、用户基本特征和用户偏好特征等数据。

需要说明的是，上述技术方案通过引入历史用户对历史资源推荐结果的响应行为数据统计值，进行用户反馈数据的确定，完善了用户反馈数据的确定机制。同时，通过业务指标对响应行为数据统计值加以限定，使得所确定的用户反馈数据能够表征业务指标需求，从而通过基于用户反馈数据所确定的策略推荐参数，能够与业务指标需求更加匹配，提高了所确定的推荐策略参数与资源推荐系统的匹配度，从而为提高资源推荐系统的推荐性能奠定了基础，为提高用户的使用体验提供了保障。

S302、根据用户反馈数据，调整参数寻优模型中的网络参数。

其中，参数寻优模型基于进化学习算法实现，还可以采用其他算法实现，本申请实施例对此不做任何限定。

在本申请实施例的一个可选实施方式中，根据用户反馈数据，调整参数寻优模型中的网络参数，可以是：根据历史用户的账户信息和时间信息，生成扰动数据组；根据用户反馈数据和扰动数据组，确定参数调整步长；根据参数调整步长，调整参数寻优模型中的网络参数。

其中，账户信息可以是历史用户在资源推荐系统中的登录账户，用于唯一表征用户身份。其中，时间信息用于表征历史用户使用资源推荐系统的时间段。其中，时间信息的计量单位可以由技术人员根据需要进行设定，例如，可以采用小时作为最小计量单位。

在一种可选实施方式中，根据历史用户的账户信息和时间信息，生成扰动数据组，可以是：对历史用户的账户信息和时间信息，进行哈希运算，得到随机数种子；采用分布函数基于随机数种子生成扰动数据组。其中，扰动数据组中的扰动数据个数与策略参数中的数量相同，用于表征不同推荐策略参数中的随机扰动量。其中，分布函数可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。示例性地，分布函数可以是高斯分布函数。

需要说明的是，由于资源推荐系统具备针对性和时效性，例如针对不同用户推荐的资源内容不同，针对相同用户在相同时间段内推荐的资源内容相似，相同用户在不同时间段推荐的资源内容也不同。因此，在生成扰动数据组时引入历史用户的账户信息和时间信息，使得所生成的随机数种子针对相同用户在相同时间段数值相同，针对不同用户在相同时间段数值不同，针对相同用户在不同时间段不同，进而使得基于随机数种子生成的扰动数据组，能够更好地适配资源推荐系统。

可以理解的是，为了能够实现对随机数种子的复用，在针对各历史用户生成不同时间段的随机数种子之后，还可以将包括随机数种子的数据进行存储，以供后续使用。

可选的，对历史用户的登录账户、账户登录日期和时间进行哈希计算，得到随机数种子；采用高斯分布函数基于随机数种子，生成扰动数据组。

在一个可选实施例中，根据用户反馈数据和扰动数据组，确定参数调节步长，可以是：根据扰动数据组确定初始参数调整补步长；根据用户反馈数据对初始调整补偿进行修正，得到最终的参数调整步长。

在另一可选实施例中，根据用户反馈数据和扰动数据组，确定参数调整步长，还可以是：根据用户反馈数据，对扰动数据组中的各扰动数据进行加权，得到扰动增强数据；根据扰动增强数据，确定参数调整步长。

可以理解的是，通过引入扰动数据组进行参数调整步长的确定，并通过引入用户反馈数据对各策略参数对应的扰动量进行加强或削弱，使得最终确定的扰动增强数据，更加适配资源推荐系统当前采用的策略参数的情况，从而为后续基于扰动增强数据所确定的参数调整步长的准确度和合理性奠定了基础。

可选的，根据用户反馈数据，对扰动数据组中的各扰动数据进行加权，得到扰动增强数据，包括：根据历史用户的历史反馈数据，对用户反馈数据进行标准化处理，以更新用户反馈数据；根据更新后的用户反馈数据，对扰动数据组中的各扰动数据进行加权，得到扰动增强数据。

示例性地，根据历史用户的历史反馈数据，对用户反馈数据进行标准化处理，以更新用户反馈数据，可以是：针对每个历史反馈用户，根据该历史反馈用户的历史反馈数据，确定该历史反馈用户的历史反馈统计值；根据历史反馈统计值，对历史反馈用户的用户反馈数据进行标准化处理，以更新用户反馈数据。

示例性地，根据历史用户的历史反馈数据，对用户反馈数据进行标准化处理，以更新用户反馈数据，可以是：针对每个历史反馈用户，根据该历史反馈用户的历史反馈数据，确定历史反馈用户在当前时段的反馈预测值；根据反馈预测值，对历史反馈用户的用户反馈数据进行标准化处理，以更新用户反馈数据。

示例性地，根据历史用户的历史反馈数据，对用户反馈数据进行标准化处理，以更新用户反馈数据，还可以是：针对每个历史反馈用户，根据该历史反馈用户的历史反馈数据，确定该历史反馈用户的标准反馈数据；确定用户反馈数据与标准反馈数据的差值，并将该差值作为更新后的用户反馈数据。其中，标准反馈数据可以是历史反馈统计值中的均值或反馈预测值。

示例性地，根据历史用户的历史反馈数据，对用户反馈数据进行标准化处理，以更新用户反馈数据，还可以是：针对每个历史反馈用户，根据该历史反馈用户的历史反馈数据，确定该历史反馈用户的标准反馈数据；确定用户反馈数据与标准反馈数据的差值，并确定所确定差值与对应的标准反馈数据的比值；将该比值作为更新后的用户反馈数据。其中，标准反馈数据可以是历史反馈统计值中的均值或反馈预测值。

当然，本申请实施例还可以采用现有技术中的其他方式，对用户反馈数据进行标准化处理，在此不再赘述。

需要说明的是，通过对用户反馈数据进行标准化处理，消除了不同反馈用户由于自身与资源推荐系统之间的紧密度，导致用户反馈数据差异明显的情况，从而避免了异常活跃用户和异常失活用户的用户反馈数据给扰动增强数据的准确度带来影响，进而影响最终确定各推荐策略参数的准确度。其中，历史反馈统计值可以包括最大值、最小值、均值、方差和标准差等中的至少一种。

在一实施例中，所确定的参数调节步长包括调整幅值和调整方向。其中，调整幅值用于表征对参数寻优模型中网络参数进行调整的数值大小；调整方向用于表征对参数寻优模型中网络参数进行正向调整或负向调整。一般的，会通过正负号对调整方向加以区分。

示例性地，根据参数调节步长，调整参数寻优模型中的网络参数，可以是：确定参数调节步长与参数寻优模型最新使用的网络参数之间的和值，并将确定的和值作为新的网络参数。

可以理解的是，通过历史用户的账户信息和时间信息，生成扰动数据组，用于进行参数调节步长的确定，进而根据参数调节步长进行参数寻优模型的网络参数的调整，从而完善了网络参数的调整方式，为策略参数的生成提供了数据支撑，同时为策略参数与资源推荐系统的匹配度的提高，奠定了基础。

S303、将历史用户的推荐参考特征输入至调整后的参数寻优模型，得到至少两个推荐策略参数。其中，推荐策略参数为至少两个资源推荐模型中的使用参数，至少两个资源推荐模型关联的资源处理阶段不同。

其中，参数寻优模型用于进行推荐策略参数的确定。其中，参数寻优模型的模型输入数据为历史用户的推荐参考特征；模型输出数据为资源推荐模型中的各推荐策略参数。其中，推荐参考特征包括但不限于场景特征、用户基本特征和用户偏好特征。为了保证推荐策略参数与资源推荐模型的匹配度，优选是在进行参数确定时采用的历史用户的推荐参考特征与进行资源推荐时，资源推荐模型所采用的目标用户的推荐参考特征中所包含的数据相对应，也即数据类型相一致。

具体的，将历史用户的推荐参考特征输入至调整后的参数寻优模型中，得到新的各推荐策略参数，用于作用至资源推荐模型中，向目标用户进行资源推荐。相应的，获取目标用户对资源推荐结果的反馈情况，并基于该反馈情况确定用户反馈数据，指引后续对参数寻优模型的网络参数的调整过程，循环往复，直至满足模型训练截止条件，逐渐得到与资源推荐模型匹配度较高的策略参数。

在本申请实施例的一种可选实施方式中，模型训练截止条件可以是达到设定训练次数，或者参数寻优模型趋于稳定。

需要说明的是，由于资源推荐系统在进行资源推荐时，可能会受到资源自身性能或推荐环境等诸多因素影响，因此，当参数寻优模型自身趋于稳定之后，还可能出现再次波动的情况，那么，对应的参数寻优模型所确定的推荐策略参数与资源推荐系统中的各资源推荐模型之间的匹配度，也会降低。

为了减少上述情况给资源推荐模型的推荐性能带来影响，进而提高用户对资源推荐结果的满意度，还可以在参数寻优模型稳定之后，继续对参数寻优模型进行训练。在训练过程中，首先确定参数寻优模型的稳定情况；若参数寻优模型波动情况大于设定阈值，则表明参数寻优模型不稳定，因此需要继续进行参数寻优模型的网络参数的调整，并基于调整后的参数寻优模型，进行推荐策略参数的重新确定和使用；若参数寻优模型波动情况不大于设定阈值，则表明参数寻优模型相对稳定，因此保持原来的网络参数，并基于原来的参数寻优模型进行策略参数的重新确定和使用。或者可选的，可以对参数寻优模型进行周期性初始化，也即，在达到参数寻优模型的使用周期之后，对参数寻优模型中的至少部分网络参数进行初始化，然后对初始化后的参数寻优模型在相应的使用周期中进行再训练。其中，设定阈值和使用周期，可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

本申请实施例在上述各技术方案的基础上，还提供了一种优选实施例。为了清楚的介绍本实施例的技术方案，首先对本申请实施例所涉及的资源推荐系统进行详细说明。

参见图4A所示的一种资源推荐系统，包括在线推荐系统100和在线进化系统200，其中，在线推荐系统100中设置有至少两个级联的资源推荐模型，各资源推荐模型的资源处理阶段不同。其中，各资源处理阶段用于对待处理资源进行选取，并将最终选取的待处理资源作为资源推荐结果反馈至目标用户。其中，在首的资源推荐模型的待处理资源为待召回资源；在尾的资源推荐模型的选取结果为目标用户的资源推荐结果。其中，在线进化系统200中设置有基于ES算法实现的参数寻优模型，用于基于历史用户对资源推荐结果的用户反馈数据，对资源推荐模型组中所采用的推荐策略中的推荐策略参数进行共同确定，并将所确定的推荐策略参数作用到在线推荐系统中所设置的各资源推荐模型中，用于对新的目标用户进行资源推荐。

参见图4B所示的一种在线推荐系统的框架结构示意图，该在线推荐系统为一个漏斗形架构，包括资源召回阶段、资源粗排阶段、资源精排阶段和资源重排阶段四个资源处理阶段。相应的，资源推荐模型包括资源召回模型、资源粗排模型、资源精排模型和资源重排模型。其中，各资源处理阶段可以根据需要设置至少一个子阶段。例如，资源重排阶段可以设置为包括候选资源序列生成子阶段和目标资源序列生成子阶段。

在上述各资源处理阶段的资源推荐模型，采用至少一种推荐策略，用于对资源推荐过程加以约束。其中，推荐策略包括但不限于资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略。

其中，资源种类配比策略可以理解为在进行资源推荐时，设置至少两种类型资源的综合推荐的策略，从而提高用户对资源推荐结果的满意度。例如，在信息流推荐时，会综合推荐图文、短视频和小视频等资源。相应的，资源种类配比策略中的使用参数可以是资源配比参数。

其中，资源内容多样化策略可以理解为在进行资源推荐时，保证同种类型资源提供所推荐资源内容的多样性，从而避免了由于资源内容单一带来的过拟合问题，同时提高了相同类型资源的覆盖面，进而提高了用户体验满意度。相应的，资源内容多样化策略中的使用参数可以是多样化所采用的调权公式中的多样化调权参数。其中调权参数用于设置同种类型资源中不同资源内容类别的配比权重。其中，调权公式可以由技术人员根据需要或经验进行确定，或通过大量试验反复确定。

其中，多推荐指标均衡策略是指在资源推荐时，如何满足不同资源推荐指标要求的策略。例如推荐指标可以包括点击率、落地页时长、列表页时长、评论、点赞、和分享等中的至少一种。由于不同资源推荐指标之间可能存在相互制约的情况，因此通过多推荐指标均衡兼顾的方式，能够平衡不同推荐指标之间的影响。相应的，多推荐指标均衡策略的使用参数可以是多推荐指标推荐时所采用的融合公式的多推荐指标融合参数。其中，融合公式可以由技术人员根据需要或经验进行确定，或通过大量试验反复确定。

参见图4C所示的一种参数寻优模型的结构示意图，该参数寻优模型为基于ES学习算法所构建的DNN(Deep Neural Networks，深度神经网络)模型，包括输入层、隐藏层和输出层。其中，输入层用于输入历史用户的场景特征、用户基本特征和用户偏好特征，并将包括历史用户的场景特征、用户基本特征和用户偏好特征的推荐参考特征输入至隐藏层进行处理；隐藏层用于对历史用户的推荐参考特征的各特征进行处理；输出层用于根据隐藏层的输出数据，确定在线推荐系统中各资源推荐模型的推荐策略参数。

其中，场景特征可以包括但不限于刷新次数、刷新状态、刷新大小、网络状态和刷新时段等。用户基本特征可以包括但不限于目标用户的性别、年龄、教育程度、用户活跃度、用户历史点赞比和用户资源偏好等。用户偏好特征可以包括但不限于目标用户对不同类型资源中不同种类资源内容的喜爱程度等。

后续将在图4A至图4C的基础上，对本实施例中的资源推荐方法进行详细说明。

参见图4D所示的一种资源推荐方法，包括：

S410、用户反馈数据确定阶段；

S420、扰动数据生成阶段；

S430、网络参数进化阶段；

S440、资源推荐阶段。

示例性地，用户反馈数据确定阶段，包括：

S411、获取上一次生成的推荐策略参数作用在在线推荐系统后，历史用户的单次刷新的落地页时长、列表页时长和点击数。

S412、针对每个历史用户，确定资源页均时长和点击数的乘积，并将该乘积与落地页时长和列表页时长的和值，作为用户反馈数据。

具体的，根据以下公式进行用户反馈数据确定：

Reward＝Sum(落地页时长+列表页时长)+资源页均时长*点击数。

其中，Reward为反馈用户在当前时段一次刷新对应的用户反馈数据；Sum()为求和公式；资源页均时长为前一天推荐系统全天所推荐资源的总时长的平均值。

S413、确定每个历史用户的用户反馈数据与该历史用户的反馈数据预测值的差值，并将该差值作为新的用户反馈数据。

其中，反馈数据预测值可以理解为通过历史用户在历史时段的反馈数据，对当前时段的用户反馈情况进行预测的预测结果。

具体的，根据以下公式进行用户反馈数据的更新：

△Reward＝Reward-re_base；

其中，Reward为反馈用户在当前时段的用户反馈数据；re_base为反馈用户在当前时段的反馈数据预测值；△Reward为反馈用户在当前时段的更新后的用户反馈数据。

示例性地，扰动数据生成阶段，包括：

S421、对历史用户的登录账户和登录时间进行哈希计算，生成随机数种子。

S422、基于随机数种子，采用高斯分布函数，生成与网络参数相匹配的扰动数据组。

其中，扰动数据组中所包含的扰动数据的数量与网络参数的数量相同，各网络参数与扰动数据一一对应。

示例性地，网络参数进化阶段，包括：

S431、确定扰动数据组中各扰动数据与对应的参数寻优模型的上次迭代的网络参数的和值，得到新的网络参数。

示例性地，采用以下公式进行新的网络参数的确定：

w_i'＝w_i+e_i；

其中，w_i为参数寻优模型中第i个网络参数；e_i为扰动数据组中与第i个网络参数对应的扰动数据；w_i'为第i个网络参数对应的新的网络参数。

S432、通过新的用户反馈数据对扰动数据组中各扰动数据组加权，得到扰动增强数据。

示例性地，采用以下公式进行扰动增强数据的确定：

Step_list＝append(e_i*△Reward)；

其中，Step_list为扰动增强数据所形成的数组；该数组的长度为扰动数据数量与用户反馈数据数量的乘积。其中，用户反馈数据的数量为当前时段历史用户数量与刷新次数的乘积。

S433、根据扰动增强数据的和值与扰动增强数据的比值，确定参数调节步长。

示例性地，采用以下公式进行参数调节步长的确定：

Step＝Sum(Step_list)/len(Step_list)*learning_rate；

其中，Step为确定的参数调节步长；len()为数组长度确定函数；

learning_rate为学习率，数值为经验值。

S434、将新的网络参数累加相应的参数调节步长，得到本次迭代的网络参数。

示例性地，资源推荐阶段，包括：

S441、将目标用户的推荐参考特征，输入至采用本次迭代的网络参数的参数寻优模型，得到本次迭代的推荐策略参数。

其中，目标用户的推荐参考特征包括但不限于场景特征、用户基本特征和用户偏好特征。需要说明的是，为了提高在线推荐系统的资源推荐结果与目标用户匹配度，在资源推荐阶段所使用的目标用户的推荐参考特征所包含内容与参数寻优模型输入层所使用的历史用户的推荐参考特征所包含的内容相同或对应。

S442、将本次迭代的推荐策略参数作用在在线推荐系统后，收集目标用户的单次刷新的落地页时长、列表页时长和点击数。返回执行S411。

本申请实施例通过在线进化学习实现了推荐系统中全部处理策略中各策略参数的全局组合寻优，全系统目标一致，使得最终确定的策略参数与推荐系统匹配度更好。另外，在进行策略参数确定时，引入场景特征和用户特征等，使得推荐模型具备了深度个性化的场景自适应推荐能力。

需要说明的是，本申请实施例所涉及的资源推荐方法，同样适用于包含有至少一个资源处理阶段，各资源处理阶段采用至少一种处理策略，各处理策略包含至少一个策略参数的其他资源处理系统，并通过资源处理系统进行资源处理的情况。本申请仅以资源推荐方法为例进行示例性说明，不应理解为对其进行的限定。

作为上述各资源推荐方法的实现，本申请还提供了一种实施资源推荐方法的虚拟装置的一个实施例。进一步地，参见图5所示的一种资源推荐装置的结构图，该资源推荐装置500，包括：推荐参考特征确定模块501和资源推荐结果确定模块502。其中，

推荐参考特征确定模块501，用于确定目标用户的推荐参考特征；

资源推荐结果确定模块502，用于基于至少两个资源推荐模型，根据目标用户的推荐参考特征，为目标用户确定资源推荐结果；

其中，至少两个资源推荐模型中的至少两个推荐策略参数根据历史用户的推荐行为数据共同确定，至少两个资源推荐模型关联的资源处理阶段不同。

本申请实施例通过推荐参考特征确定模块确定目标用户的推荐参考特征；通过资源推荐结果确定模块基于至少两个资源推荐模型，根据目标用户的推荐参考特征，为目标用户确定资源推荐结果。其中，至少两个资源推荐模型中的至少两个资源推荐参数根据历史用户的推荐行为数据共同确定，至少两个资源推荐模型关联的资源处理阶段不同。上述技术方案通过共同确定至少两个资源推荐模型中的至少两个推荐策略参数，从而实现了对不同资源处理阶段的各推荐策略参数的动态确定和自动调整，避免了人为设定参数不准确导致资源推荐结果不佳的问题；同时，通过各推荐策略参数的共同确定，避免了由于单一推荐策略参数孤立确定，致使各推荐策略参数不匹配的问题，从而兼顾了各推荐策略参数之间的相互作用，进而提高了资源推荐结果的准确性和资源推荐结果与目标用户的匹配度和用户满意度。

进一步地，历史用户的推荐行为数据包括历史用户的推荐参考特征和用户反馈数据；

用户反馈数据用于对参数寻优模型中的网络参数进行调整；参数寻优模型基于进化学习算法实现；

推荐策略参数基于调整后的参数寻优模型根据历史用户的推荐参考特征确定。

进一步地，装置还包括用户反馈数据确定模块，用于确定用户反馈数据；

用户反馈数据确定模块，具体包括：

响应行为数据统计值确定单元，用于确定历史用户在业务指标下对历史资源推荐结果的响应行为数据统计值；其中，业务指标为资源推荐模型使用的指标；

用户反馈数据确定单元，用于根据各业务指标下的响应行为数据统计值，确定用户反馈数据。

进一步地，业务指标包括时间响应指标和/或交互响应指标；

用户反馈数据确定单元，包括：

资源响应总时长确定子单元，用于根据时间响应指标下的响应行为数据统计值，确定资源响应总时长；

时长抑制量确定子单元，用于根据交互响应指标下的响应行为数据统计值和历史响应时长，确定时长修正量；

用户反馈数据确定子单元，用于根据资源响应总时长，确定各历史用户的用户反馈数据；或者，根据时长修正量和资源响应总时长，确定各历史用户的用户反馈数据。

进一步地，推荐策略包括资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略中的至少一种；

推荐策略参数包括种类配比参数、多样化调权参数和多推荐指标融合参数中的至少一种。

进一步地，资源处理阶段包括资源召回阶段、资源粗排阶段、资源精排阶段和资源重排阶段中的至少两个；

资源推荐模型包括资源召回模型、资源粗排模型、资源精排模型和资源重排模型中的至少两个。

进一步地，推荐参考特征包括场景特征、用户基本特征和用户偏好特征中的至少一种。

上述资源推荐装置可执行本发明任意实施例所提供的资源推荐方法，具备执行资源推荐方法相应的功能模块和有益效果。

作为上述参数确定方法的实现，本申请还提供了一种实施参数确定方法的虚拟装置的一个实施例。进一步地，参见图6所示的一种参数确定装置的结构图，该参数确定装置600，包括：推荐行为数据确定模块601和推荐策略参数确定模块602。其中，

推荐行为数据确定模块601，用于确定历史用户的推荐行为数据；

推荐策略参数确定模块602，用于根据历史用户的推荐行为数据，共同确定至少两个推荐策略参数；

其中，推荐策略参数为至少两个资源推荐模型中的使用参数，至少两个资源推荐模型关联的资源处理阶段不同。

本申请实施例通过推荐行为数据确定模块确定历史用户的推荐行为数据；用户推荐策略参数确定模块根据历史用户的推荐行为数据，共同确定至少两个推荐策略参数；其中推荐策略参数为至少两个资源推荐模型中的使用参数，至少两个资源推荐模型关联的资源处理阶段不同。上述技术方案通过共同确定至少两个资源推荐模型中的至少两个推荐策略参数，从而实现了对不同资源处理阶段的各推荐策略参数的动态确定和自动调整，避免了人为设定参数不准确导致资源推荐结果不佳的问题；同时，通过各推荐策略参数的共同确定，避免了由于单一推荐策略参数孤立确定，致使各推荐策略参数不匹配的问题，从而兼顾了各推荐策略参数之间的相互作用，进而提高了资源推荐结果的准确性和资源推荐结果与目标用户的匹配度和用户满意度。

推荐策略参数确定模块602，包括：

网络参数调整单元，用于根据用户反馈数据，调整参数寻优模型中的网络参数；参数寻优模型基于进化学习算法实现；

推荐策略参数得到单元，用于将历史用户的推荐参考特征输入至调整后的参数寻优模型，得到至少两个推荐策略参数。

进一步地，网络参数调整单元，包括：

扰动数据组生成子单元，用于根据历史用户的账户信息和时间信息，生成扰动数据组；

参数调整步长确定子单元，用于根据用户反馈数据和扰动数据组，确定参数调整步长；

网络参数调整子单元，用于根据参数调整步长，调整参数寻优模型中的网络参数。

进一步地，参数调整步长确定子单元，包括：

扰动增强数据得到从单元，用于根据用户反馈数据，对扰动数据组中的各扰动数据进行加权，得到扰动增强数据；

参数调整步长确定从单元，用于根据扰动增强数据，确定参数调整步长。

进一步地，扰动增强数据得到从单元，包括：

用户反馈数据更新子从单元，用于根据历史用户的历史反馈数据，对用户反馈数据进行标准化处理，以更新用户反馈数据；

扰动增强数据得到子从单元，用于根据更新后的用户反馈数据，对扰动数据组中的各扰动数据进行加权，得到扰动增强数据。

用户反馈数据确定模块，具体包括：

进一步地，业务指标包括时间响应指标和/或交互响应指标；

用户反馈数据确定单元，包括：

上述参数确定装置可执行本发明任意实施例所提供的参数确定方法，具备执行参数确定方法相应的功能模块和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是实现本申请实施例的资源推荐方法和/或参数确定方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的资源推荐方法和/或参数确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的资源推荐方法和/或参数确定方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的资源推荐方法对应的程序指令/模块(例如，附图5所示的推荐参考特征确定模块501和资源推荐结果确定模块502)；又如本申请实施例中的参数确定方法对应的程序指令/模块(例如，附图6所示的推荐行为数据确定模块601和推荐策略参数确定模块602)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的资源推荐方法和/或参数确定方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现资源推荐方法和/或参数确定方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至实现资源推荐方法和/或参数确定方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现资源推荐方法和/或参数确定方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与实现资源推荐方法和/或参数确定方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，通过共同确定至少两个资源推荐模型中的至少两个推荐策略参数，从而实现了对不同资源处理阶段的各推荐策略参数的动态确定和自动调整，避免了人为设定参数不准确导致资源推荐结果不佳的问题；同时，通过各推荐策略参数的共同确定，避免了由于单一推荐策略参数孤立确定，致使各推荐策略参数不匹配的问题，从而兼顾了各推荐策略参数之间的相互作用，进而提高了资源推荐结果的准确性和资源推荐结果与目标用户的匹配度和用户满意度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种资源推荐方法，包括：

确定目标用户的推荐参考特征；

2.根据权利要求1所述的方法，其中，所述历史用户的推荐行为数据包括所述历史用户的推荐参考特征和用户反馈数据；

所述用户反馈数据用于对参数寻优模型中的网络参数进行调整；所述参数寻优模型基于进化学习算法实现；

所述推荐策略参数基于调整后的参数寻优模型根据历史用户的推荐参考特征确定。

3.根据权利要求2所述的方法，其中，所述用户反馈数据通过以下方式确定：

确定所述历史用户在业务指标下对历史资源推荐结果的响应行为数据统计值；其中，所述业务指标为所述资源推荐模型使用的指标；

根据各所述业务指标下的响应行为数据统计值，确定所述用户反馈数据。

4.根据权利要求3所述的方法，其中，所述业务指标包括时间响应指标和/或交互响应指标；

所述根据各所述业务指标下的响应行为数据统计值，确定所述用户反馈数据，包括：

根据所述时间响应指标下的响应行为数据统计值，确定资源响应总时长；

根据所述交互响应指标下的响应行为数据统计值和历史响应时长，确定时长修正量；

根据所述资源响应总时长，确定各所述历史用户的用户反馈数据；或者，根据所述时长修正量和所述资源响应总时长，确定各所述历史用户的用户反馈数据。

5.根据权利要求1-4任一项所述的方法，其中，推荐策略包括资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略中的至少一种；

所述推荐策略参数包括种类配比参数、多样化调权参数和多推荐指标融合参数中的至少一种。

6.根据权利要求1-4任一项所述的方法，其中，所述资源处理阶段包括资源召回阶段、资源粗排阶段、资源精排阶段和资源重排阶段中的至少两个；

所述资源推荐模型包括资源召回模型、资源粗排模型、资源精排模型和资源重排模型中的至少两个。

7.根据权利要求1-4任一项所述的方法，其中，所述推荐参考特征包括场景特征、用户基本特征和用户偏好特征中的至少一种。

8.一种参数确定方法，包括：

确定历史用户的推荐行为数据；

9.根据权利要求8所述的方法，其中，所述历史用户的推荐行为数据包括所述历史用户的推荐参考特征和用户反馈数据；

所述根据所述历史用户的推荐行为数据，共同确定至少两个推荐策略参数，包括：

根据所述用户反馈数据，调整参数寻优模型中的网络参数；所述参数寻优模型基于进化学习算法实现；

将所述历史用户的推荐参考特征输入至调整后的参数寻优模型，得到所述至少两个推荐策略参数。

10.根据权利要求9所述的方法，其中，所述根据所述用户反馈数据，调整参数寻优模型中的网络参数，包括：

根据历史用户的账户信息和时间信息，生成扰动数据组；

根据所述用户反馈数据和所述扰动数据组，确定参数调整步长；

根据所述参数调整步长，调整所述参数寻优模型中的网络参数。

11.根据权利要求10所述的方法，其中，所述根据所述用户反馈数据和所述扰动数据组，确定参数调整步长，包括：

根据所述用户反馈数据，对所述扰动数据组中的各扰动数据进行加权，得到扰动增强数据；

根据所述扰动增强数据，确定所述参数调整步长。

12.根据权利要求11所述的方法，其中，所述根据所述用户反馈数据，对所述扰动数据组中的各扰动数据进行加权，得到扰动增强数据，包括：

根据所述历史用户的历史反馈数据，对所述用户反馈数据进行标准化处理，以更新所述用户反馈数据；

根据更新后的用户反馈数据，对所述扰动数据组中的各扰动数据进行加权，得到扰动增强数据。

13.根据权利要求9-12任一项所述的方法，其中，所述用户反馈数据通过以下方式确定：

14.根据权利要求13所述的方法，其中，所述业务指标包括时间响应指标和/或交互响应指标；

15.根据权利要求8-12任一项所述的方法，其中，推荐策略包括资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略中的至少一种；

16.根据权利要求9-12任一项所述的方法，其中，所述推荐参考特征包括场景特征、用户基本特征和用户偏好特征中的至少一种。

17.一种资源推荐装置，包括：

18.根据权利要求17所述的装置，其中，所述历史用户的推荐行为数据包括所述历史用户的推荐参考特征和用户反馈数据；

19.根据权利要求18所述的装置，其中，所述装置还包括用户反馈数据确定模块，用于确定所述用户反馈数据；

所述用户反馈数据确定模块，具体包括：

响应行为数据统计值确定单元，用于确定所述历史用户在业务指标下对历史资源推荐结果的响应行为数据统计值；其中，所述业务指标为所述资源推荐模型使用的指标；

用户反馈数据确定单元，用于根据各所述业务指标下的响应行为数据统计值，确定所述用户反馈数据。

20.根据权利要求19所述的装置，其中，所述业务指标包括时间响应指标和/或交互响应指标；

所述用户反馈数据确定单元，包括：

资源响应总时长确定子单元，用于根据所述时间响应指标下的响应行为数据统计值，确定资源响应总时长；

时长抑制量确定子单元，用于根据所述交互响应指标下的响应行为数据统计值和历史响应时长，确定时长修正量；

用户反馈数据确定子单元，用于根据所述资源响应总时长，确定各所述历史用户的用户反馈数据；或者，根据所述时长修正量和所述资源响应总时长，确定各所述历史用户的用户反馈数据。

21.根据权利要求17-20任一项所述的装置，其中，推荐策略包括资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略中的至少一种；

22.根据权利要求17-20任一项所述的装置，其中，所述资源处理阶段包括资源召回阶段、资源粗排阶段、资源精排阶段和资源重排阶段中的至少两个；

23.根据权利要求17-20任一项所述的装置，其中，所述推荐参考特征包括场景特征、用户基本特征和用户偏好特征中的至少一种。

24.一种参数确定装置，包括：

25.根据权利要求24所述的装置，其中，所述历史用户的推荐行为数据包括所述历史用户的推荐参考特征和用户反馈数据；

所述推荐策略参数确定模块，包括：

网络参数调整单元，用于根据所述用户反馈数据，调整参数寻优模型中的网络参数；所述参数寻优模型基于进化学习算法实现；

推荐策略参数得到单元，用于将所述历史用户的推荐参考特征输入至调整后的参数寻优模型，得到所述至少两个推荐策略参数。

26.根据权利要求25所述的装置，其中，所述网络参数调整单元，包括：

参数调整步长确定子单元，用于根据所述用户反馈数据和所述扰动数据组，确定参数调整步长；

网络参数调整子单元，用于根据所述参数调整步长，调整所述参数寻优模型中的网络参数。

27.根据权利要求26所述的装置，其中，所述参数调整步长确定子单元，包括：

扰动增强数据得到从单元，用于根据所述用户反馈数据，对所述扰动数据组中的各扰动数据进行加权，得到扰动增强数据；

参数调整步长确定从单元，用于根据所述扰动增强数据，确定所述参数调整步长。

28.根据权利要求27所述的装置，其中，所述扰动增强数据得到从单元，包括：

用户反馈数据更新子从单元，用于根据所述历史用户的历史反馈数据，对所述用户反馈数据进行标准化处理，以更新所述用户反馈数据；

扰动增强数据得到子从单元，用于根据更新后的用户反馈数据，对所述扰动数据组中的各扰动数据进行加权，得到扰动增强数据。

29.根据权利要求25-28任一项所述的装置，其中，所述装置还包括用户反馈数据确定模块，用于确定用户反馈数据；

所述用户反馈数据确定模块，具体包括：

30.根据权利要求29所述的装置，其中，所述业务指标包括时间响应指标和/或交互响应指标；

所述用户反馈数据确定单元，包括：

31.根据权利要求24-28任一项所述的装置，其中，推荐策略包括资源种类配比策略、资源内容多样化策略和多推荐指标均衡策略中的至少一种；

32.根据权利要求25-28任一项所述的装置，其中，所述推荐参考特征包括场景特征、用户基本特征和用户偏好特征中的至少一种。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的一种资源推荐方法；和/或，执行权利要求8-16中任一项所述的一种参数确定方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的一种资源推荐方法；和/或，执行权利要求8-16中任一项所述的一种参数确定方法。