CN113076471A

CN113076471A - 信息处理方法及装置、计算设备

Info

Publication number: CN113076471A
Application number: CN202110266996.0A
Authority: CN
Inventors: 张榕芝; 谢淼; 赵亮; 印卧涛
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-07-06

Abstract

本申请实施例提供一种信息处理方法及装置、计算设备，该方法包括：检测目标用户针对目标处理系统发起的系统访问请求；响应于所述系统访问请求，确定多个在线决策模型分别在所述目标处理系统产生的决策结果；基于所述多个在线决策模型分别对应的决策结果，确定目标推荐信息；为目标用户输出所述目标推荐信息。本申请实施例提高了推荐准确度及有效性。

Description

信息处理方法及装置、计算设备

技术领域

本申请涉及电子设备技术领域，尤其涉及一种信息处理方法及装置、计算设备。

背景技术

在线决策系统是一种基于在线决策模型产生推荐内容，将推荐内容在线推荐给用户，并通过快速获取用户线上反馈对在线决策模型进行调整，以不断根据用户反馈进行推荐内容更新的访问平台。例如，线上课程系统、在线交易系统、社交网络系统、线上金融系统等，线上课程系统可以进行课程推荐、在线交易系统可以进行商品推荐，社交网络系统可以进行社交内容推荐，线上金融系统可以进行金融产品的推荐等。

现有技术中，在线决策模型实际是通过平衡探索(Exploration)与利用(Exploitation)的过程，实现在线决策算法收敛，以获得能够产生最高反馈的推荐内容。在线决策算法可以通过学习以获得在线决策模型，在学习模型过程中，管理方可以是确定在线学习算法，并根据经验设置算法超参数以进行建模，之后利用训练数据进行训练，获得在线决策算法的模型参数，并在线决策模型确定之后，还可以通过用户对推荐内容的反馈不断更新在线决策算法的模型参数。

但是，在线决策算法通常是依据人工经验选择的，人工经验实际缺乏时会导致算法设置不够准确，导致在线决策模型的决策效果较差，推荐内容的有效性不高。

发明内容

有鉴于此，本申请实施例提供一种信息处理方法及装置、计算设备，用以解决现有技术中在线决策算法以及其超参数通常由人工设置而导致推荐有效性较低的技术问题。

第一方面，本申请实施例提供一种信息处理方法，包括：

检测目标用户针对目标处理系统发起的系统访问请求；

响应于所述系统访问请求，确定多个在线决策模型分别在所述目标处理系统产生的决策结果；

基于所述多个在线决策模型分别对应的决策结果，确定目标推荐信息；

为目标用户输出所述目标推荐信息。

第二方面，本申请实施例提供一种信息处理方法，包括：

检测目标用户针对网络交易系统发起的系统访问请求；

响应于所述系统访问请求，确定多个在线决策模型分别在所述网络交易系统产生的决策结果；

基于所述多个在线决策模型分别对应的决策结果，确定推荐交易对象的目标推荐信息；

为目标用户输出所述推荐交易对象的目标推荐信息。

第三方面，本申请实施例提供一种信息处理方法，包括：

检测目标用户针对内容推荐系统发起的系统访问请求；

响应于所述系统访问请求，确定多个在线决策模型分别在所述内容推荐系统产生的决策结果；

基于所述多个在线决策模型分别对应的决策结果，确定目标推荐内容；

为所述目标用户输出所述目标推荐内容。

第四方面，本申请实施例提供一种信息处理方法，包括：

响应于对抗决策接口的调用请求，确定所述对抗决策接口对应的信息处理资源；

利用所述对抗决策接口对应的信息处理资源执行如下步骤：

利用所述对抗决策接口检测所述目标用户针对目标处理系统发起的系统访问请求；

利用所述对抗决策接口为所述目标用户输出所述目标推荐信息。

第五方面，本申请实施例提供一种信息处理装置，包括：

请求检测模块，用于检测目标用户针对目标处理系统发起的系统访问请求；

请求响应模块，用于响应于所述系统访问请求，确定多个在线决策模型分别在所述目标处理系统产生的决策结果；

信息确定模块，用于基于所述多个在线决策模型分别对应的决策结果，确定目标推荐信息；

信息输出模块，用于为所述目标用户输出所述目标推荐信息。

第六方面，本申请实施例提供一种计算设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用；

所述处理组件用于：

检测目标用户针对目标处理系统发起的系统访问请求；响应于所述系统访问请求，确定多个在线决策模型分别在所述目标处理系统产生的决策结果；基于所述多个在线决策模型分别对应的决策结果，确定目标推荐信息；为目标用户输出所述目标推荐信息。

本申请实施例，接收到目标用户针对目标处理系统发起的系统访问请求时，可以响应于该系统访问请求，确定目标处理系统的多个在线决策模型。进而基于对目标处理系统的推荐目标，获取多个在线决策模型分别对应的决策结果；进而根据将多个决策结果进行结果融合处理之后，可以获得目标决策结果目标推荐信息。进而该目标决策结果目标推荐信息即可以为目标用户输出。通过多在线决策模型的同时决策，以综合多个在线决策模型的决策结果进行推荐，以获得融合了多个在线决策模型的决策结果，实现多模型的综合推荐，有效考虑多个模型的决策结果，增加目标决策结果目标推荐信息的有效性以及可靠性，提高推荐效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信息处理方法的一个实施例的流程图；

图2为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图3为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图4为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图5为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图6为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图7为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图8为本申请实施例提供的一种信息处理方法的一个应用示例图；

图9为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图10为本申请实施例提供的一种信息处理方法的又一个实施例的流程图；

图11为本申请实施例提供的一种信息处理装置的一个实施例的结构示意图；

图12为本申请实施例提供的一种计算设备的一个实施例的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

本申请实施例的技术方案可以应用于在线决策场景中，通过采用多个在线决策模型同时进行在线推荐，并多个决策结果进行结果融合，以实现有效推荐，提高推荐效率。

现有技术中，在线决策系统中，在线决策算法的选择以及在线决策模型的构建，甚至是后续在线决策模型的训练过程中，可能都会涉及到管理方的选择操作。因此，采用在线决策算法产生推荐内容，以获得推荐内容，将推荐内容展示给用户，以实现推荐。之后，获取用户反馈，通过普通用户反馈更新在线决策算法。但是，以上过程中模型选择以及用户模型通过专家用户设置获得。如果专家用户的经验较差，可能会导致模型准确度较差，使用效果不佳。

本申请实施例中，接收到目标用户针对目标处理系统发起的系统访问请求时，可以响应于该系统访问请求，确定目标处理系统多个在线决策模型分别对应的决策结果；进而根据多个决策结果可以获得目标推荐信息。进而该目标推荐信息即可以为目标用户输出。通过多在线决策模型的同时决策，以综合多个在线决策模型的决策结果进行推荐，实现多模型的综合推荐，有效考虑多个模型的决策结果，增加目标推荐信息的有效性以及可靠性，提高推荐效率。

下面将结合附图对本申请实施例进行详细描述。

如图1所示，为本申请实施例提供的一种信息处理方法的一个实施例的流程图，方法可以包括以下几个步骤：

101：接收目标用户针对目标处理系统发起的系统访问请求。

本申请实施提供的信息处理方法可以应用于计算设备中，该计算设备例如可以包括：计算机、服务器、云服务器、超级个人计算机、笔记本电脑、平板电脑等。本申请实施例对计算设备的具体类型并不作出过多限定。

可选地，目标处理系统可以为在线向用户推荐产品或者内容的网络平台，通常可以从N个候选内容或者产品中选择K个内容或产品向用户推荐，其中，N大于K。目标处理系统例如可以包括：网络交易系统、社交网络系统、电子商务系统、线上教育系统等，本申请实施例中对目标处理系统的具体类型并不作出过多限定。

系统访问请求可以由目标用户发起。用户端可以检测目标用户针对目标处理系统发起的访问操作，响应于该访问操作可以生成系统访问请求，并将系统访问请求发送至计算设备。

102：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

在线决策模型可以对目标处理系统进行在线决策，以产生相应的决策结果。在线决策模型可以包括机器学习模型。在线决策模型可以基于用户发起的系统访问请求，为用户实现在线决策，以产生反馈信息的过程。例如，在电子商务应用中，使用在线决策模型可以从多个候选对象中选择一些对象为用户推荐，可以被选择的对象即可以为决策结果。

在线决策模型可以为运行在训练数据上的在线决策算法的输出结果，可以通过训练数据运行在线决策算法以获得在线决策模型。在线决策算法可以为使用的决策方法或者过程，算法可以基于训练数据的学习以建立模型。例如，在线决策算法中UCB(UpperConfidence Bound Algorithm，上置信界算法)与TS(Thompson Sampling，汤普森采样)，通过训练数据在UCB算法以及TS算法上运行以产生UCB模型以及TS模型，产生的UCB模型以及TS模型均可以作为在线决策模型。在线决策算法的训练数据可以是用户对推荐内容的操作以实时产生的反馈数据。

多个在线决策模型中可以包括算法种类相同但模型超参数不同的在线决策模型，以UCB算法为例，可以设置3种超参数，利用3种超参数分别构建的在线决策模型，在对构建的超参数进行训练之后可以获得3个UCB模型。

可选地，多个在线决策模型可以通过以下方式确定：响应于系统访问请求，确定目标处理系统中的多个在线决策算法；针对任一个在线决策算法，获取该在线决策算法的至少一个超参数，利用训练数据训练利用至少一个超参数分别构建的在线决策模型，获得在线决策算法对应的至少一个在线决策模型，进而获取至少一个在线决策算法分别对应的所有在线决策模型以构成多个在线决策模型。

103：基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。

多个在线决策模型可以分别产生决策结果。通常，决策结果主要基于目标处理系统的推荐目标获取。例如，在电子商务系统中，推荐目标为向用户推荐产品，在线决策模型可以在线推荐产品，目标推荐信息可以为推荐产品的目标产品信息；在网络社交系统中，推荐目标可以为向用户推荐的内容，在线决策模型可以在线推荐热点新闻、热点事件等内容，目标推荐内容可以为目标推荐内容。

目标推荐信息中融合了多个决策结果，综合了多个在线决策模型的决策结果，实现多个在线决策模型的综合推荐，避免使用单个在线决策模型导致的决策结果的简单性能，实现决策结果的有效推荐，提高推荐效果。

104：为目标用户输出目标推荐信息。

可选地，为目标用户目标推荐信息具体可以包括：将目标推荐信息发送至目标用户的用户端，以供用户端输出目标推荐信息。

本申请实施例中，接收目标用户针对目标处理系统发起的系统访问请求之后，可以响应于该系统访问请求，确定目标处理系统的多个在线决策模型。通过获取多个在线决策模型分别对应的决策结果，并将多个决策结果进行结果融合处理，获得目标推荐信息，进而为目标用户输出目标推荐信息。通过多个在线决策模型的同时决策，综合多个决策结果，以获得融合了多个在线决策模型各自决策结果的目标推荐信息，实现多模型的综合推荐，有效考虑多个在线决策模型的决策结果，增加目标推荐信息的有效性以及可靠性，提高推荐效率。

为了获得准确的决策结果，作为一个实施例，获取多个在线决策模型分别产生的决策结果包括：

基于对目标处理系统的推荐目标，获取多个在线决策模型分别产生的决策结果。

可选地，推荐目标可以包括对在线决策模型的计算结果产生影响的约束条件，通过约束条件约束在线决策模型的决策结果，决策结果需要满足约束条件。例如在电子商务系统中，推荐目标可以为推荐点击率超过预定阈值的产品，在网络社交系统中，推荐目标可以为推荐点击量超过一定数量的热点事件，在线上教育系统中，推荐目标可以为评价分数较高的教师的身份信息。

任一个在线决策模型产生的决策结果可以包括：对多个候选对象的使用效果进行预测，获得多个候选对象分别对应的推荐数据，确定多个候选对象分别对应的推荐数据中满足约束条件的至少一个推荐对象。每个在线决策模型均产生至少一个推荐对象，其中，任一个推荐对象可以被一个或多个在线决策模型推荐。

至少一个在线决策模型分别产生的至少一个推荐对象确定之后，基于多个在线决策模型分别对应的决策结果，确定目标推荐信息具体可以包括：确定任一个推荐对象在多个在线决策模型分别对应的推荐数据；其中，若任一在线决策模型未推荐该推荐对象时，该推荐对象在此在线决策模型的推荐数据为0。基于任一个推荐对象对应的多个推荐数据，计算该推荐对象的平均推荐数据，进而确定所有推荐对象的平均推荐数据，根据所有推荐对象的平均推荐数据，从所有推荐对象中选择至少一个目标对象，进而确定至少一个目标对象构成的目标推荐信息。

多个在线决策模型可以从算法选择以及参数选择两个角度进行。如图2所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

201：接收目标用户针对目标处理系统发起的系统访问请求。

本申请实施例中部分步骤与图1所示实施例中部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

202：从多个在线决策算法中选择至少一个目标决策算法。

至少一个目标决策算法可以从多个在线决策算法中选择获得。

为了便于理解，以多个在线决策算法可以包括TS(Thompson Sampling，汤普森采样),UCB(Upper Confidence Bound，上置信界算法)、LinUCB(Linear Upper ConfidenceBound，线性上置信界算法),LinTS(Linear Thompson Sampling，线性汤普森采样算法)以及Exp3(Exponential-weight algorithm for Exploration and Exploitation，平衡探索与利用的指数更新权重算法)为例，可以从多个在线决策算法中选择LinTS,LinUCB作为目标决策算法。

203：获得任一个目标决策算法对应的至少一个在线决策模型，以获取所述至少一个目标决策算法各自的至少一个在线决策模型构成的多个在线决策模型。

204：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

可选地，目标处理系统中可以提供多个候选对象供在线决策模型决策。任一个在线决策模型可以对多个候选对象被推荐的概率或者分数进行预测，以获得多个候选对象分别对应的推荐数据构成的决策结果。推荐数据可以包括推荐概率或者推荐分数。推荐数据的大小可以标识候选对象被推荐的可能性的高低，推荐数据越大，候选对象被推荐的概率越高，推荐数据越小，候选对象被推荐的概率越低。

205：基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。

目标推荐信息中可以通过多个在线决策模型分别对应的决策结果确定，综合了多个在线决策模型分别对应的决策结果，可以使得目标推荐信息更准确，推荐效率更高。

在对象推荐场景中，任一个在线决策模型分别对应的决策结果可以包括对多个候选对象分别预测的推荐数据。目标推荐信息的确定步骤可以包括：获取任一个候选对象分别在多个在线决策模型对应的推荐数据，以确定该候选对象的平均推荐数据，从而确定多个候选对象分别对应的平均推荐数据；根据多个候选对象分别对应的平均推荐数据，从多个候选对象中选择K个目标对象；利用K个目标对象各自的对象信息，生成的目标推荐信息。

可选地，K个目标对象的选择步骤可以包括：按照平均推荐数据从高到低的顺序从多个候选对象中选择K个目标对象。

可选地，K个目标对象的选择步骤可以包括：确定多个候选对象分别对应的历史推荐数据，基于任一个候选对象对应的平均推荐数据与历史推荐数据计算该推荐偏移数据，以获得多个候选对象分别对应的推荐偏移数据，根据多个候选对象分别对应的推荐偏移数据，从多个候选对象中选择推荐偏移数据满足预设偏移阈值的K个目标推荐对象。

其中，多个候选对象的对象数量为N，K为小于等于N且大于等于1的正整数。

206：为目标用户输出目标推荐信息。

本申请实施例中，接收到目标用户针对目标处理系统发起的系统访问请求时，可以响应于该系统访问请求，从多个在线决策算法中选择至少一个目标决策算法，以获得任一个目标决策算法对应的至少一个在线决策模型。初步实现算法的选择之后，可以在算法基础上建立决策模型，进而获得多个在线决策模型，实现在线决策模型的准确筛选。确定多个在线决策模型之后，可以获取多个在线决策模型分别对应的决策结果，将多个决策结果进行结果融合处理，获得目标推荐信息。目标推荐信息中融合了多个在线推荐模型的决策结果，通过多在线决策模型的同时决策，以综合多个在线决策模型的决策结果进行推荐，以获得融合了多个在线决策模型的决策结果，实现多模型的综合推荐，有效考虑多个在线决策模型的决策结果，增加目标推荐信息的有效性以及可靠性，提高推荐效率。

在一种可能的设计中，可以由系统管理用户对决策算法进行选择。从多个在线决策算法中选择至少一个目标决策算法可以包括：

为系统管理用户输出多个在线决策算法。

获取系统管理用户从多个在线决策算法中选择的至少一个目标决策算法。

通过与系统管理用户进行算法选择交互，可以实现算法的有效选择，使其与用户使用习惯匹配度更高，提供更具个性化的算法选择服务。

在线决策模型可以通过算法以及超参数的双重选择确定。作为一种可能的实现方式，任一个目标决策算法对应的至少一个在线决策模型可以通过以下方式确定：

确定任一个目标决策算法的超参数设置规则；

基于所述超参数设置规则，确定所述目标决策算法的至少一个超参数；

获取所述至少一个超参数分别对应的在线决策模型，以获得所述目标决策算法对应的至少一个在线决策模型。

其中，任一个目标决策算法可以对应有超参数设置规则，以利用超参数设置规则生成该目标决策算法的至少一个超参数，进而利用至少一个超参数分别构建相应的在线决策模型。在模型建立之初，模型参数未知，需要使用训练参数训练获得至少一个在线决策模型的模型参数。

为了便于理解，以选择LinTS,LinUCB作为目标决策算法为例，假设LinUCB含有超参数alpha,且alpha的参数取值范围为[0,1]，假设，alpha取值分别选取0.1、0.5、0.8以及1.0，获得的多个在线决策模型分别为：LinTS模型、LinUCB及alpha＝0.1对应的第一LinUCB模型，LinUCB及alpha＝0.5对应的第二LinUCB模型，LinUCB及alpha＝0.8对应的第三LinUCB模型，LinUCB及alpha＝1.0对应的第四LinUCB模型。

可选地，至少一个超参数分别对应的在线决策模型的获取步骤可以包括：分别构建目标决策算法在至少一个超参数对应的在线决策模型，获得参数未知的至少一个在线决策模型；利用训练数据分别训练获得至少一个在线决策模型的模型参数。其中，任一个在线决策模型的模型参数的训练过程可以参考现有的在线决策模型的训练方式，在此不再赘述。

目标处理系统的系统特征可以为与系统特性相关的特征，系统的特征信息可以作为决策算法的选择条件，以获得与系统特征关联度更高的决策算法，实现算法的有效选择。作为一种可能的实现方式，从多个在线决策算法中选择至少一个目标决策算法可以包括：

确定目标处理系统的系统特征信息。

根据系统特征信息，从多个在线决策算法中选择获得至少一个目标决策算法。

可选地，系统特征信息可以包括：系统功能信息、推荐目标、相关历史数据、系统版本、系统类型和/或运行状态信息等信息，相关历史信息可以包括：系统的历史使用信息、历史推荐信息、用户对历史推荐信息执行的历史操作、以及历史操作对应的历史操作数据等。在从多个在线决策算法中选择至少一个目标决策算法时，可以按照系统的特征信息进行选择，系统的特征信息与系统的实际运行情况相关，例如可以通过用户对历史推荐信息执行的历史操作判断系统的历史推荐效果，从而将历史推荐效果较高的对象，在某个在线决策算法获得的推荐数据较大时，可以将该在线决策算法作为目标决策算法，而在另一个在线决策算法获得的推荐数据较小时，可以不将该在线决策算法作为目标决策算法。

在一种可能的设计中，根据系统特征信息，从多个在线决策算法中选择获得至少一个目标决策算法可以包括：

分别确定多个在线决策算法与系统特征信息的第一匹配度。

按照多个在线决策算法分别对应的第一匹配度，从多个在线决策算法中选择获得至少一个目标决策算法。

任一个在线决策算法与系统特征信息的第一匹配度越高，说明该在线决策算法对目标处理系统的决策结果的准确性越高，第一匹配度越低，说明该在线决策算法对目标处理系统的决策结果的准确性越低。

任一个在线决策算法与系统特征信息的第一匹配度可以通过将在线决策算法与系统特征信息进行匹配分数打分，获得在线决策算法与系统特征信息的匹配分数。诸如，当系统特征信息包括至少一个系统特征时，可以对任一个在线决策算法与至少一个系统特征进行匹配分数估计，获得该在线决策算法与至少一个系统特征各自的匹配分数，并利用在线决策算法与至少一个系统特征各自的匹配分数进行分数加和或者均值计算，获得该在线决策算法与系统特征信息的匹配分数。在实际应用中，可以将任一个系统特征与多个在线决策算法的匹配关系预先存储，匹配关系例如可以为匹配数据、匹配区间等，在获得任一个目标处理系统的至少一个系统特征时，可以查询任一个在线决策算法分别与至少一个系统特征记录的匹配关系，进行匹配分数的预估，获得在线决策算法与至少一个系统特征的匹配分数。

目标决策算法的参数设置规则可以根据该决策算法的历史使用经验确定。在某些实施例中，在线决策算法的模型参数可以满足一定的参数取值范围，进而保障获得的模型参数能够处于参数需要满足的范围之内。在目标处理系统工作的过程中，可以直接对多个在线决策算法进行参数的设置。

作为又一个实施例，基于任一个目标决策算法对应参数设置规则，确定目标决策算法对应的至少一个模型参数，以获得目标决策算法对应的至少一个在线决策模型可以包括：

基于任一个目标决策算法对应的参数取值范围，利用预设参数选择规则，确定目标决策算法的至少一个模型参数，以获得目标决策算法对应的至少一个在线决策模型。

可选地，将任一个目标决策算法对应的至少一个模型参数设置至少一个在线决策模型，从而获得该目标决策算法对应的至少一个在线决策模型。按照参数选择规则的方式在目标决策算法的参数选择范围内进行至少一次模型采样，可以确保模型参数满足参数取值范围，获得准确而有效的模型参数。

目标处理系统可以包括在线处理系统，在系统使用过程中进行决策推荐。在目标处理系统运行过程中，可以按照使用需求启动系统决策，每启动一次系统学习，即可以对在线决策算法进行参数设置。

此外，由于目标处理系统在运行过程中，可以读取之前保存的多个目标决策算法各自对应的历史模型参数作为新的模型参数，实现参数更新。作为又一个实施例，基于任一个目标决策算法对应参数设置规则，确定目标决策算法对应的至少一个模型参数，以获得目标决策算法对应的至少一个在线决策模型可以包括：读取任一个目标决策算法分别对应的至少一个历史模型参数，根据至少一个历史模型参数分别对应的历史推荐效果，确定至少一个历史模型参数中的历史推荐效果数据最大的目标历史参数；根据目标历史参数对该目标决策算法重新进行至少一次参数采样，获得该目标决策算法对应的至少一个模型参数，以获得该目标决策算法的至少一个在线决策模型。以推荐效果最高的模型参数作为参数选择基础，可以提高参数选择效率以及准确性。

除系统特征信息之外，用户的相关特征信息，例如用户的身份信息、兴趣爱好信息、历史收藏信息、历史购买信息、历史浏览信息等，也可以作为算法的选择依据。作为又一个实施例，从多个在线决策算法中选择至少一个目标决策算法可以包括：

确定目标用户的用户特征信息；

根据用户特征信息，从多个在线决策算法中选择获得至少一个目标决策算法。

在从多个在线决策算法中选择至少一个目标决策算法时，可以按照目标用户的特征信息进行选择，目标用户的用户特征信息与目标用户对目标处理系统的实际使用情况相关。例如，目标用户对历史推荐信息执行的历史操作可以用于确定目标处理系统的历史推荐效果，从而将历史推荐效果较高的对象，在某个在线决策算法获得的推荐数据较大时，可以将该在线决策算法作为目标决策算法，而在另一个在线决策算法获得的推荐数据较小时，可以不将该在线决策算法作为目标决策算法。

作为一种可能的实现方式，根据用户特征信息，从多个在线决策算法中选择获得至少一个目标决策算法可以包括：

分别确定多个在线决策算法与用户特征信息的第二匹配度；

按照多个在线决策算法分别对应的第二匹配度，从多个在线决策算法中选择获得至少一个目标决策算法。

任一个在线决策算法与用户特征信息的第二匹配度越高，说明该在线决策算法对目标处理系统的决策结果的准确性越高，第二匹配度越低，说明该在线决策算法对目标处理系统的决策结果的准确性越低。

任一个在线决策算法与用户特征信息的第二匹配度可以通过将在线决策算法与用户特征信息进行匹配分数打分，获得在线决策算法与用户特征信息的匹配分数。诸如，当用户特征信息包括至少一个用户特征时，可以对任一个在线决策算法与至少一个用户特征进行匹配分数估计，获得该在线决策算法与至少一个用户特征各自的匹配分数，并利用在线决策算法与至少一个用户特征各自的匹配分数进行分数加和或者均值计算，获得该在线决策算法与用户特征信息的匹配分数。在实际应用中，可以将任一个用户特征与多个在线决策算法的匹配关系预先存储，匹配关系例如可以为匹配数据、匹配区间等，在获得任一个目标处理系统的至少一个用户特征时，可以查询任一个在线决策算法分别与至少一个用户特征记录的匹配关系，进行匹配分数的预估，获得在线决策算法与至少一个用户特征的第二匹配分数。

在一种可能的设计中，还可以利用用户特征以及系统特征综合考量，以进行算法的选择。此时，从多个在线决策算法中选择至少一个目标决策算法可以包括：

确定目标用户的用户特征信息以及目标处理系统的系统特征信息；

分别确定多个在线决策算法与系统特征信息的第一匹配度；

分别确定多个在线决策算法与用户特征信息的第二匹配度；

根据多个在线决策算法分别对应的第一匹配度以及第二匹配度，从多个在线决策算法中选择获得至少一个目标决策算法。

第一匹配度以及第二匹配度的具体确定方式与前述实施例中的确定方式相同，在此不再赘述。根据多个在线决策算法分别对应的第一匹配度以及第二匹配度，从多个在线决策算法中获得至少一个目标决策算法可以包括：根据任一个在线决策算法对应的第一匹配度以及第二匹配度，确定该目标决策算法的目标匹配度，根据多个在线决策算法的目标匹配度，从多个在线决策算法中选择获得至少一个目标决策算法。任一个在线决策算法的目标匹配度可以通过第一匹配度与第二匹配度进行均值计算、加权计算和/或方差计算、协方差计算获得。

可选地，按照匹配度从多个在线决策算法中选择至少一个目标决策算法时，可以将多个在线决策算法分别对应的匹配度按照从高到低的顺序进行排序，并从排序后的多个在线决策算法中选择前K个目标决策算法。匹配度例如可以为第一匹配度、第二匹配度或者目标匹配度。

如图3所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

301：检测目标用户针对目标处理系统发起的系统访问请求。

302：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

303：将多个在线决策模型分别对应的决策结果进行结果融合处理，获得目标决策结果。

目标决策结果中融合了多个在线决策模型分别对应的决策结果，相比于单一的在线决策模型一次决策获得的决策结果，决策内容更全面，决策有效性更高。

304：根据目标决策结果，确定目标推荐信息。

305：为目标用户输出目标推荐信息。

需要说明的是，本申请实施例中与图1所示实施例中部分步骤相同，在此不再赘述。

本申请实施例中，接收目标用户针对目标处理系统发起的系统访问请求时，可以响应于系统访问请求，确定多个在线决策模型分别对应的决策结果。通过将多个决策结果进行结果融合以获得目标决策结果。进而利用目标决策结果，获得目标推荐信息。目标决策结果中融合了多个在线推荐模型的决策结果，进而通过目标决策结果获得的目标推荐信息也综合了多个在线决策模型的决策结果，通过多在线决策模型的同时决策，实现多个在线决策模型的综合推荐，有效考虑多个模型的决策结果，增加目标推荐信息的有效性以及可靠性，提高推荐效率。

作为一个实施例，将多个在线决策模型分别对应的决策结果进行结果融合处理，获得目标决策结果可以包括：

确定多个在线决策模型分别对应的决策权重；

根据多个在线决策模型分别对应的决策权重，将多个在线决策模型分别对应的决策结果进行加权处理，获得目标决策结果。

在融合多个决策结果以获得目标决策结果可以时采用权重计算方式，将多个决策结果分别按照对应的决策权重进行结果加权，获得目标决策结果，实现决策结果的精准融合，提高融合的准确度。

目标处理系统可以为在线系统，目标用户在访问用户目标处理系统的过程中，目标处理系统可以为目标用户展示目标推荐信息。目标用户可以在查看目标推荐信息时，可以针对目标推荐信息执行相应的反馈操作。例如，在电子商务领域中，目标推荐信息可以包括目标推荐对象的对象信息，将获得的目标推荐对象的对象信息展示给目标用户之后，目标用户可以浏览目标推荐对象，并可以针对目标推销对象执行一定的操作，例如点击操作、浏览操作或者购买操作等。

在某些实施例中，为目标用户输出目标推荐信息之后，该方法还可以包括：

获取目标用户针对目标推荐信息执行的反馈操作；

基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型；

获取更新后的多个在线决策模型分别对应的决策结果，并返回至基于多个在线决策模型分别对应的决策结果，确定目标推荐信息的步骤继续执行。

可选地，基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型可以包括：将反馈操作对应的反馈数据增加到训练数据中，利用新的训练数据分别训练多个在线决策模型各自的模型参数，获得更新后的多个在线决策模型。

目标用户对目标推荐信息执行的反馈操作，可以标识推荐效果，例如，当用户浏览并购买一个目标推荐对象时，目标推荐信息的推荐有效性较高，当用户未浏览并购买任一个目标推荐对象，目标推荐信息的推荐有效性较低。用户执行的反馈操作可以用于对在线决策模型和/或结果融合过程中使用的决策权重进行更新。

在实际应用中，用户执行的反馈操作，通常是对用户动作行为的一种描述信息，为了对用户行为进行数据化表示，以便于使用用户的操作行为对在线决策模型以及决策权重进行更新，可以使用操作标识对用户的操作行为进行记录。例如，假设用户的操作行为包括点击操作、浏览操作以及购买操作。可以使用标识H1标识点击操作、标识H2标识浏览操作以及标识H3标识购买操作。反馈操作对应的操作数据即可以包括反馈操作对应的操作标识。

本申请实施例中，以目标用户发起的系统访问请求为反馈依据，在一种可能的设计中，目标用户可以针对目标处理系统发起多次系统访问请求，针对目标用户发起的任一系统访问请求向目标用户输出目标推荐信息之后，可以获取该目标用户针对目标推荐信息执行的反馈操作。

在目标用户发起的系统访问请求包括多次时，可以获得多个反馈操作。此时，基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型可以包括：基于多个反馈操作分别对应的操作标识，统计目标用户对目标推荐对象分别执行多个反馈操作的操作次数，基于多个反馈操作分别对应的操作次数，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型。获得的反馈操作可以包括当前获得的反馈操作以及针对历史推荐对象对应的历史反馈操作。例如，多个反馈操作分别对应的操作次数可以为统计获得的同一推荐对象在当前以及历史访问过程中被浏览的次数、被购买的次数等。

如图4所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

401：检测目标用户针对目标处理系统发起的系统访问请求。

需要说明的是，本申请实施例中，部分步骤与前述实施例中部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

402：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

403：基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。

404：为目标用户输出目标推荐信息。

405：获取目标用户针对目标推荐信息执行的反馈操作。

406：基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型。

407：获取更新后的多个在线决策模型分别对应的决策结果，并返回403的步骤继续执行。

本申请实施例中，检测目标用户针对目标处理系统发起的系统访问请求之后，可以响应于该系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。进而基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。该目标推荐信息中融合了多个在线决策模型分别对应的决策结果，决策内容更全面，对应的推荐效果得到有效提升。为目标用户输出目标推荐信息之后，可以获取目标用户针对目标推荐信息执行的反馈操作，进而基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型。获得更新后的多个在线决策模型分别对应的决策结果，实现利用用户的反馈操作对多个在线决策模型的模型更新，实现多个在线决策模型的实时更新，进而使得多个在线决策模型的决策结果与用户的实际操作强关联，提高多个在线决策模型与目标用户的操作关联图，使得模型向用户使用操作方向进行有效学习，进而在再次使用多个在线决策模型分别对目标处理系统进行决策时，可以获得更准确的决策结果，进而实现更准确更高效的信息推荐。

可选地，在实际应用中，目标反馈数据可以以操作日志的形式存储。操作日志可以为目标用户对目标推荐信息执行的相关操作进行记录时所形成的文件，例如点击、浏览、购买等操作所对应的日志。每个操作可以使用不同的操作标识进行标识，并通过操作标识按照日志记录格式生成操作日志。此时，获取目标用户针对目标推荐信息执行的反馈操作可以包括：解析目标用户针对目标推荐信息执行的操作日志，以获得操作标识；确定反馈操作对应的目标反馈数据可以包括，确定反馈操作对应的操作标识所对应的目标反馈数据。

在目标用户查看目标推荐信息之后，可以针对目标推荐信息执行相应的反馈操作，反馈操作可以为目标用户对决策结果的反馈。以电子商务场景为例，若向目标用户推荐某个产品对象，用户点击并浏览该产品对象时，可以确定该目标推荐信息获得反馈，当用户未点击以及浏览该产品对象时，可以确定该目标推荐信息未获得反馈。反馈操作可以包括：获得反馈1，未获得反馈0。反馈操作与目标用户的关联度较大，可以将用户执行的反馈操作作为新的训练数据增加到在线决策模型的训练过程中，以利用目标反馈数据，更新多个在线决策模型各自的模型参数，以获得各个新模型参数对应的在线决策模型。任一个在线决策模型的模型参数可以利用目标反馈数据进行更新，以获得新模型参数对应的在线决策模型。在获得新的多个在线决策模型之后，可以返回至响应于系统访问请求，确定目标处理系统的多个在线决策模型的步骤继续执行。

可选地，基于目标反馈数据，更新多个在线决策模型各自的模型参数可以包括：将目标反馈数据增加到训练数据中，以基于更新的训练数据，分别训练获得多个在线决策模型各自的模型参数。假设原训练数据为第一训练数据，可以将目标反馈数据增加到第一训练数据中，获得第二训练数据；利用训练数据分别训练多个在线决策模型，以获得多个在线决策模型新的模型参数。

在将多个决策结果进行结果融合时，可以利用多个决策结果分别对应的决策权重进行结果加权，以获得目标推荐信息。但是，多个决策结果分别对应的决策权重可以为对应的在线决策系统对应的系统权重。

在某些实施例中，多个决策结果分别对应的决策结果可以通过以下方式确定：确定多个在线决策系统分别对应的系统权重，将任一个在线决策模型的系统权重作为该在线决策模型的决策结果对应的决策权重。

任一在线决策模型的系统权重可以根据在线决策模型对应的历史反馈数据确定。在一种可能的设计中，可以统计历史反馈数据中针对目标推荐信息中的推荐对象的反馈次数，确定反馈次数较高的推荐对象所对应的在线决策模型的系统权重高于反馈次数较低的推荐推荐所对应的在线决策模型的系统权重。

在目标处理系统运行的过程中，可以利用用户的目标反馈数据对多个在线决策模型分别对应的系统权重进行更新，系统权重更新之后，多个决策结果分别对应的决策权重即随着对应的在线决策系统的系统权重而更新。

如图5所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

501：检测目标用户针对目标处理系统发起的系统访问请求。

502：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

503：确定多个在线决策模型分别对应的决策权重。

504：根据多个在线决策模型分别对应的决策权重，将多个在线决策模型分别对应的决策结果进行加权处理，获得目标决策结果。

505：为目标用户输出目标推荐信息。

506：获取目标用户针对目标推荐信息执行的反馈操作。

507：基于反馈操作对应的反馈数据，更新多个在线决策模型分别对应的决策权重，并返回至步骤504继续执行。

需要说明的是，本申请实施例中部分步骤与图1所示实施例中部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

可选地，基于反馈操作对应的反馈数据，更新多个在线决策模型分别对应的决策权重可以包括：基于反馈操作对应的反馈数据，确定多个在线决策模型分别对应的推荐效果，利用各个在线决策模型分别对应的推荐效果确定多个在线决策模型分别对应的权重调整数据，利用多个在线决策模型分别对应的权重调整数据对各自的决策权重进行更新，获得多个在线决策模型各自更新后的决策权重。

在一种可能的设计中，权重调整数据可以包括调整方向以及调整步长。各个在线决策模型的推荐效果可以为推荐分数或者实际的点击率等数据。当一个在线决策模型的推荐效果越高，推荐越有效，可以增加该在线决策模型的决策权重，当一个在线决策模型的推荐效果越低，推荐越无效，可以降低在线决策模型的决策权重。决策权重的增加或降低可以为调整方向，具体增加或者降低的具体数值则可以为调整步长。调整步长可以根据各个在线决策模型的推荐效果之间的效果差异确定，例如，可以将多个在线决策模型分别对应的推荐效果进行归一化，将归一化后的效果数据与原有决策权重进行比较，以确定调整步长以及调整方向，例如，当某个在线决策模型的归一化效果数据为0.4，原有决策权重为0.1，则可以确定调整方向为增加，调整步长可以根据0.4与0.1的差值确定，例如以调整3次为例，每次的调整步长可以为0.1。本申请实施例中，检测目标用户针对目标处理系统发起的系统访问请求时，可以响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。确定多个在线决策模型分别对应的决策权重之后，可以根据多个在线决策模型分别对应的决策权重，将多个在线决策模型分别对应的决策结果进行加权处理，获得目标决策结果，进而为目标用户输出目标推荐信息。在确定目标推荐信息之后，目标用户可以对目标推荐信息执行相应的推荐操作，进而利用用户对目标推荐信息执行的相应的反馈操作，基于反馈操作对应的反馈数据，更新多个在线决策模型分别对应的决策权重，实现决策权重的更新，进而利用更新的权重再次进行目标决策结果的更新，实现参数的有效更新，实现参数的有效更新，进而在再次使用多个在线决策模型分别对目标处理系统进行决策时，可以获得更准确的决策结果，进而实现更准确更高效的信息推荐。

如图6所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括：

601：检测目标用户针对目标处理系统发起的系统访问请求。

602：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

603：确定多个在线决策模型分别对应的决策权重。

604：根据多个在线决策模型分别对应的决策权重，将多个在线决策模型分别对应的决策结果进行加权处理，获得目标决策结果。

605：根据目标决策结果，确定目标推荐信息。

606：为目标用户输出目标推荐信息。

607：获取目标用户针对目标推荐信息执行的反馈操作；

608：基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型。

609：获取更新后的多个在线决策模型分别对应的决策结果。

610：基于反馈操作对应的反馈数据，更新多个在线决策模型分别对应的决策权重，以返回604的步骤继续执行。

本申请实施例中，获得目标推荐信息为目标用户输出之后，可以利用获取到的目标用户对目标推荐信息执行的反馈操作。进而基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，并同时更新多个在线决策模型分别对应的决策权重。利用更新后的多个在线决策模型重新进行决策，获得多个在线决策模型分别对应的决策结果。之后，利用更新后的多个在线决策模型分别对应决策权重对决策结果进行加权处理，获得目标决策结果，实现决策模型以及决策权重的实时更新，进而在再次使用多个在线决策模型分别对目标处理系统进行决策时，可以获得更准确的决策结果，进而实现更准确更高效的信息推荐。

为了对多个在线决策模型进行更有效的管理，在一种可能的设计中，更新多个决策结果分别对应的决策权重之后，该方法还可以包括：

为系统管理用户输出更新后的多个在线决策模型分别对应的决策权重。

为了使系统管理用户可以根据自身的管理需求调整决策权重，作为一个实施例，为系统管理用户输出更新后的多个决策结果分别对应的决策权重之后，还可以包括：

检测系统管理用户对多个决策权重触发的权重调整操作，获取系统管理用户输入的权重调整信息；

根据权重调整信息，对多个决策权重进行更新，获得更新后的多个决策权重，并返回至根据所述多个在线决策模型分别对应的决策权重，将所述多个在线决策模型分别对应的决策结果进行加权处理，获得所述目标决策结果继续执行。

在又一种可能的设计中，基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型之后，该方法还可以包括：

获取更新候选的多个在线决策模型各自的模型参数。

针对任一个在线决策模型，确定在线决策模型更新后的模型参数对应的模型收敛信息，以获得多个在线决策模型分别对应的模型收敛信息。

根据多个在线决策模型分别对应的模型收敛信息，生成目标处理系统的运行状态信息。

基于运行状态信息，确定目标处理系统的目标操作内容。

对目标处理系统执行与目标操作内容相匹配的目标操作。

多个在线决策模型各自的模型参数确定之后，可以根据多个在线决策模型分别对应的模型参数确定各个模型参数在各自的在线决策模型的收敛程度，获得多个在线决策模型分别对应的模型收敛信息。模型收敛信息可以用于确定在线决策模型的收敛信息，对模型参数的更新结果进行监控。在系统运行过程中，运行状态信息可以不断生成，除当前获取到的运行状态信息之外，还可以包括多个历史运行状态信息。此时，基于运行状态信息，确定目标处理系统的目标操作内容可以包括：基于当前的运行状态信息与历史运行状态信息的差异，可以确定目标处理系统是否正常运行，进而确定目标处理系统的目标操作内容。在一种可能的设计中，运行状态信息可以以表格或者文件等方式进行存储，以便于将当前的运行状态信息与历史运行状态信息进行比较，实现目标操作内容的确定。

可选地，可以预先建立运行状态信息与目标处理系统的操作内容之间的关联关系。基于运行状态信息，确定目标处理系统的目标操作内容可以包括：查询运行状态信息与操作内容之间的关联关系，以确定当前的运行状态信息对应的目标操作内容。

在某些实施例中，基于运行状态信息，确定目标操作信息的目标操作内容可以包括：

基于运行状态信息，判断目标处理系统是否存在运行故障；

如果是，确定目标操作内容为目标处理系统的故障处理指令；对目标处理系统执行与目标操作内容相匹配的目标操作包括：响应于故障处理指令，处理信息目标处理系统中的运行故障；

如果否，返回至获取更新后的多个在线决策模型各自的模型参数的步骤继续执行。

在某些实施例中，基于运行状态信息，确定目标处理系统的目标操作内容可以包括：

基于运行状态信息，对多个在线决策模型分别在目标处理系统的贡献度进行打分，获得多个在线决策模型分别对应的系统贡献分数；

根据多个在线决策模型分别对应的系统贡献分数，生成多个在线决策模型的贡献提示信息；

对目标处理系统执行与目标操作内容相匹配的目标操作包括：

为目标处理系统的系统管理用户输出贡献提示信息。

作为又一个实施例，该方法还可以包括：

为目标处理系统的系统管理用户输出更新后的多个在线决策模型各自的模型参数；

检测系统管理用户针对任一个在线决策模型触发的参数调整操作，获取系统管理用户针对在线决策模型输入的参数调整信息；

根据参数调整信息，调整在线决策模型的模型参数，返回至基于目标处理系统的处理目标，获取多个在线决策模型分别对应的决策结果的步骤继续执行。

在实际应用中，目标处理系统主要可以用于向目标用户推荐决策对象。

在一种可能的设计中，任一个在线决策模型在目标处理系统产生的决策结果包括：在线决策模型为目标处理系统的多个候选对象确定的推荐数据。

为了便于以MAB(Muti-Armed Bandit，多臂老虎机)算法为例，在线决策模型可以为MAB模型。目标处理系统的多个候选对象可以作为MAB模型的机器臂(Arm)。MAB模型可以对多个机器臂的获胜概率进行预估。此时，在线决策模型为目标处理系统的多个候选对象确定的推荐数据即可以为MAB模型为目标处理系统的多个候选对象确定的获胜概率。MAB模型对多个机器臂的获胜概率进行预估的方式可以参考现有的MAB算法的概率预估方式，在此不再赘述。

根据多个在线决策模型分别对应的决策权重，将多个在线决策模型分别对应的决策结果进行加权处理，获得目标决策结果包括：

确定任一个候选对象在多个在线决策模型分别对应的推荐数据，以获得多个候选对象各自在多个在线决策模型分别对应的推荐数据；

根据多个在线决策模型分别对应的决策权重，将任一个候选对象在多个在线决策模型分别对应的推荐数据进行加权计算，获得候选对象的目标推荐数据，以获得多个候选对象分别对应的目标推荐数据；

确定多个候选对象分别对应的目标推荐数据构成的目标决策结果。

在某些实施例中，根据目标决策结果，确定目标推荐信息可以包括：

根据多个候选对象分别对应的目标推荐数据，从多个候选对象中选择至少一个目标对象；

确定至少一个目标对象构成的目标推荐信息。

参考图7，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括：

701：检测目标用户针对网络交易系统发起的系统访问请求。

702：响应于系统访问请求，确定多个在线决策模型分别在网络交易系统产生的决策结果。

703：基于多个在线决策模型分别对应的决策结果，确定推荐交易对象对应的目标推荐信息。

可选地，网络交易系统可以是一种通过网络将产品以网页页面的形式展示，并通过展示页面发起产品交易的信息系统，网络交易系统可以通过网站、应用程序等方式对外提供产品交易服务。网络交易系统可以向目标用户推荐可交易对象。目标推荐信息可以包括网络交易系统中推荐的交易对象的对象信息，例如可以包括对象链接、名称、标题、内容简介、图像、视频介绍、文字描述内容等。

704：目标用户输出推荐交易对象的目标推荐信息。

本申请实施例中，目标处理系统可以包括网络交易系统。检测目标用户针对网络交易系统发起的系统访问请求时，可以响应于系统访问请求，确定多个在线决策模型分别在网络交易系统产生的决策结果，进而利用多个在线决策模型分别对应的决策结果，确定推荐交易对象对应的目标推荐信息。目标推荐信息中的推荐交易对象可以实现对象的有效推荐。在推荐交易对象的过程中综合考量了多个在线决策模型分别产生的决策结果，实现多模型的综合推荐，增加目标推荐信息的有效性以及可靠性，提高推荐效率。

作为一个实施例，基于所述多个在线决策模型分别对应的决策结果，确定推荐交易对象的目标推荐信息可以包括：

将所述多个在线决策模型分别对应的决策结果进行结果融合处理，获得目标决策结果；

根据所述目标决策结果，确定所述推荐交易对象的目标推荐信息。

作为又一个实施例，多个在线决策模型通过以下方式确定：

从多个在线决策算法中选择至少一个目标决策算法；

基于任一个目标决策算法对应超参数设置规则，确定所述目标决策算法对应的至少一个超参数；获得所述至少一个超参数分别对应的在线决策模型，以获得所述目标决策算法对应的至少一个在线决策算法；

获取所述至少一个目标决策算法各自的至少一个在线决策模型构成的所述多个在线决策模型。

图7所示实施例中部分步骤与图1所示实施例中部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

为了便于理解，以本申请实施例提供的信息处理方法配置于云端服务器为例对本申请实施例的技术方案进行详细说明。参考图8，以目标用户U可以通过计算机M1与云服务器M2交互实现信息处理为例详细介绍本申请的技术方案。

计算机M1可以检测801目标用户发起的系统访问请求，并将系统访问请求发送802至云服务器M2。云服务器M2中配置有目标处理系统以及本申请实施例提供的信息处理方法。

云服务器M2检测目标用户针对目标处理系统发起的系统访问请求之后，可以响应于系统访问请求，确定803多个在线决策模型分别在目标处理系统产生的决策结果。

以多个在线决策模型为前述示例中的LinTS模型、第一LinUCB模型、第二LinUCB模型、第三LinUCB模型、第四LinUCB模型为例。由于以上几个模型均为在线决策模型，在线决策模型的决策对象通常可以称为机器臂，机器臂可以对应与多个在线决策模型的决策对象，也即多个候选对象。任一个在线决策模型在目标处理系统产生的决策结果可以包括多个机器臂分别对应的推荐数据。

云服务器M2获得多个决策系统分别在目标处理系统产生的决策结果之后，可以基于多个在线决策模型分别对应的决策结果，确定804目标推荐信息。进而为目标用户输出目标推荐信息。云服务器M2输出目标推荐信息时，可以将目标推荐信息发送805至计算机M1。

计算机M1接收到目标推荐信息之后，可以为用户显示806目标推荐信息，为目标用户及时显示最新获得的目标推荐信息，可以实现有效推荐，提高推荐效率。计算机M1为目标用户输出目标推荐信息时，具体的输出方式可以包括多种形式，例如可以以数据、页面、信息或者消息等输出方式，本申请实施例对目标推荐信息的具体输出方式并不作出过多限定。

如图9所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

901：检测目标用户针对内容推荐系统发起的系统访问请求。

902：响应于系统访问请求，确定多个在线决策模型分别在内容推荐系统产生的决策结果。

903：基于多个在线决策模型分别对应的决策结果，确定目标推荐内容。

904：为目标用户输出目标推荐内容。

内容推荐系统可以是一种通过网络为用户提供内容推荐，并进行内容查看的信息系统。内容推荐的具体应用场景可以包括：在线课程推荐、音视频的封面素材推荐、视频标题推荐、医疗场景中的疾病诊断结果对应的药品在线推荐等。

图9所示实施例中部分步骤与图1所示实施例中部分步骤相同，为了描述的简洁性考虑，在此不再赘述。

本申请实施例中，目标处理系统可以包括内容推荐系统。检测目标用户针对内容推荐系统发起的系统访问请求时，可以响应于系统访问请求，确定多个在线决策模型分别在内容推荐系统产生的决策结果，进而利用多个在线决策模型分别对应的决策结果，确定推荐交易对象对应的目标推荐信息。目标推荐信息中的推荐内容可以实现内容的有效推荐。在推荐内容获取的过程中综合考量了多个在线决策模型分别产生的决策结果，实现多模型的综合推荐，增加目标推荐内容的有效性以及可靠性，提高推荐效率。

作为一个实施例，基于所述多个在线决策模型分别对应的决策结果，确定推荐交易对象的目标推荐内容可以包括：

根据所述目标决策结果，确定所述推荐交易对象的目标推荐内容。

作为又一个实施例，多个在线决策模型通过以下方式确定：

从多个在线决策算法中选择至少一个目标决策算法；

如图10所示，为本申请实施例提供的一种信息处理方法的又一个实施例的流程图，该方法可以包括：

1001：响应于对抗决策接口的调用请求，确定对抗决策接口对应的信息处理资源。

利用对抗决策接口对应的信息处理资源执行如下步骤：

1002：利用对抗决策接口检测目标用户针对目标处理系统发起的系统访问请求。

1003：响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

1004：基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。

1005：利用对抗决策接口为目标用户输出目标推荐信息。

在一种可能的设计中，对抗决策接口可以为将本申请实施例提供的技术方案作为处理协议进行定义，获得一对外提供软件服务的应用程序接口。对抗决策接口包括SDK(Software Development Kit，软件开发工具包)、API(Application ProgrammingInterface，应用程序编程接口)等类型的接口。本申请实施例的技术方案应用过程中，可以以接口的形式被用户获取，并通过接口接收用户的系统访问请求，并在获取到目标推荐信息之后，通过接口向用户输出目标推荐信息，以网络交易系统为例，可以向用户反馈产品对象的对象信息。

可选地，本申请实施例提供的技术方案可以配置于一云服务器中，通过将信息处理方法封装之后，形成一对外提供信息处理方法的对抗决策接口，该对抗决策接口可以被用户设备调用，以为用户提供信息处理服务。

本申请实施例中的对抗决策接口对应的处理资源所执行的具体步骤与图1所示的信息处理方法所执行的处理步骤相同，各个技术特征的具体实现方式以及技术效果已在图1所示实施例中详细描述，在此不再赘述。

将本申请实施例中的信息处理方案以服务的形式向目标用户提供，具体的服务形式包括网页服务、软件程序服务或者以SDK或者API形式存在的程序模块，目标用户通过浏览信息处理界面、服务软件或者软件模块接口等方式获取本申请实施例提供的信息处理服务。

本申请实施例的技术方案可以应用于人工智能交互、数据检索、内容推荐、点击率预测、智能工厂、工业控制等多种领域，特别是在内容推荐领域，例如电子商务领域、视频直播领域、社交领域、在线教育领域中的内容推荐，以及资源分配领域，例如金融产品配置、电力资源、水利资源、供应链分配等领域中的适用性更强。

为了便于理解，以如下几个实际领域场景中的问题案例为例对本申请实施例进行详细介绍。

(1)电子商务场景

在电商领域的特征搜索、直播场景下的产品推荐、内容推荐和计算广告点击率等应用场景最为常见，本实施例以内容推荐场景为例，进行了实例部署。推荐场景下的通用推荐过程可以为，对选定场景的推荐对象进行初步确认。用户浏览网页页面的过程中，可以将，从而根据提供信息处理服务的服务器，利用多个在线决策模型分别在目标处理系统产生的决策结果，从而基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。目标推荐信息即可以向目标用户反馈。

(2)社交场景

在社交领域中，对社交用户进行内容推荐、对学生进行素材推荐也较为常见。社交领域的推荐通常是，社交用户浏览社交应用程序，应用程序的显示界面中输出用户感兴趣的社交内容。通常，社交领域的推荐通常是，以用户的历史浏览行为、关注领域、购买行为等用户信息。目标用户浏览某个社交网络提供的社交页面时，用户端可以为目标用户生成系统访问请求，并将系统访问请求发送至配置有本申请提供的技术方案的服务器。

服务器接收到用户端发送的系统访问请求时，通常可以响应于该系统访问请求，确定多个在线决策模型分别在社交网络中产生的决策结果，进而基于多个在线决策模型分别产生的决策结果，确定目标推荐信息。目标推荐信息即可以为经过多个在线决策模型对社交网络中的内容进行综合决策获得，准确度更高，从而查找到对社交用户感兴趣的内容，获得准确的社交用户内容。

(3)素材推荐场景

在视频网站中发布视频时，需要为目标用户设置海报图、视频情节截屏等信息。用户可以触发针对某个视频的素材获取请求，该素材获取请求即为系统访问请求。在推荐过程中，由于不同用户的兴趣领域不同，对不同类型的封面图像而言，为用户展示出其感兴趣更高的封面图像可以有效提升视频的点击率以及观看时长。为某个视频从多个候选类型中选择合适的类型，以作为封面图像的类型完成视频发布。在通用推荐场景下的内容推荐，采用本申请的技术方案，可以响应于用户发起的封面图像的类型的系统访问请求，利用多个在线决策模型分别在目标处理系统产生的决策结果，从而基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。多个决策结果可以为对封面图像的多个候选类型进行的决策。目标推荐信息可以为决策获得的目标类型。目标类型可以包括一个或多个。获得目标类型之后，即可以向目标用户反馈目标类型，供用户按照决策的目标类型制作视频的封面图像，完成视频发布。

(4)内容投放场景

在内容投放领域中，需要商品的宣传内容往往可以在多种场景下进行投放，不同投放场景获得的投放效果不同。此外，在商品的宣传内容通常可以包括多种，不同宣传内容的投放获得的投放效果也不同。采用本申请提供的技术方案可以对投放场景和/或投放内容进行决策推荐。

为了获得较好的投放效果，通常可以对宣传内容的多个候选投放场景进行决策。在内容投放之前，采用本申请提供的技术方案，内容投放者可以向计算设备发起场景决策请求。响应于该场景决策请求，可以采用利用多个在线决策模型分别在内容点击系统产生的决策结果。内容点击系统可以为模拟的用户对投放的宣传内容进行点击、购买或者浏览等操作的系统，在线决策模型可以学习与决策用户在内容点击系统中对不同场景的投放结果。基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。在一种可能的设计中，任一个决策结果可以为对多个候选场景进行的决策获胜的概率。目标推荐信息即可以为获胜概率最高的候选场景，该候选场景即可以作为目标推荐信息为用户输出，供用户按照该场景对宣传内容进行投放。

此外，对于不同的宣传内容而言，目标用户通常可以发起针对内容点击系统的内容决策请求。响应于该内容决策请求，可以采用多个在线决策模型分别在内容点击系统产生的决策结果。内容点击系统可以为模拟用户对投放的宣传内容进行点击、购买或者浏览等操作的系统，用户点击一个宣传内容即可以认为该宣传内容获胜。在线决策模型可以对多个候选宣传内容在内容点击系统中的宣传结果。基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。在一种可能的设计中，任一个决策结果可以为多个候选宣传内容分别获胜的概率。目标推荐信息即可以为获胜概率最高的候选宣传内容，该候选宣传内容即可以作为目标推荐信息为用户输出，供用户按照目标推荐信息推荐的宣传内容进行投放。

通过对不同场景或者不同内容进行预先决策，可以实现有效投放，提高投放效果。在决策过程中采用多个在线决策模型进行决策，以综合多个在线决策模型的决策结果，实现多角度决策，提高决策准确度。

如图11所示，为本申请实施例提供的一种信息处理装置的一个实施例的结构示意图，该装置可以包括以下几个模块：

请求检测模块1101：用于检测目标用户针对目标处理系统发起的系统访问请求。

请求响应模块1102：用于响应于系统访问请求，确定多个在线决策模型分别在目标处理系统产生的决策结果。

信息确定模块1103：用于基于多个在线决策模型分别对应的决策结果，确定目标推荐信息。

信息输出模块1104：用于为目标用户输出目标推荐信息。

作为一个实施例，信息确定模块可以包括：

结果融合单元，用于将多个在线决策模型分别对应的决策结果进行结果融合处理，获得目标决策结果；

推荐确定单元，用于根据目标决策结果，确定目标推荐信息。

在某些实施例中，结果融合单元可以包括：

权重确定子单元，用于确定多个在线决策模型分别对应的决策权重；

结果融合子单元，用于根据多个在线决策模型分别对应的决策权重，将多个在线决策模型分别对应的决策结果进行加权处理，获得目标决策结果。

在某些实施例中，该装置还可以包括：

操作获取模块，用于获取目标用户针对目标推荐信息执行的反馈操作；

反馈更新模块，用于基于反馈操作对应的反馈数据，更新多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型；

决策更新模块，用于获取更新后的多个在线决策模型分别对应的决策结果，并跳转至信息确定模块继续执行。

在某些实施例中，结果融合单元还可以包括：

权重更新子单元，用于基于反馈操作对应的反馈数据，更新多个在线决策模型分别对应的决策权重，以返回至结果融合子单元继续执行。

在某些实施例中，该装置还可以包括：

权重输出单元，用于为系统管理用户输出更新后的多个在线决策模型分别对应的决策权重。

在一种可能的设计中，该装置还可以包括：

信息获取模块，用于检测目标处理系统的系统管理用户对多个在线决策模型分别对应的决策权重触发的权重调整操作，获取系统管理用户输入的权重调整信息；

权重调整模块，用于根据权重调整信息，对多个在线决策模型分别对应的决策权重进行更新，获得更新后的多个在线决策模型分别对应的决策权重，并返回至继续执行。

作为又一个实施例，该装置还可以包括：

模型确定模块，用于获取更新后的多个在线决策模型各自的模型参数。

收敛获取模块，用于针对任一个在线决策模型，确定在线决策模型更新后的模型参数对应的模型收敛信息，以获得多个在线决策模型分别对应的模型收敛信息。

状态确定模块，用于根据多个在线决策模型分别对应的模型收敛信息，生成目标处理系统的运行状态信息。

操作确定模块，用于基于运行状态信息，确定目标处理系统的目标操作内容。

系统操作模块，用于对目标处理系统执行与目标操作内容相匹配的目标操作。

在一种可能的设计中，操作确定模块可以包括：

故障判断单元，用于基于运行状态信息，判断目标处理系统是否存在运行故障。

第一处理单元，用于如果是，确定目标操作内容为目标处理系统的故障处理指令。系统操作模块可以包括：指令控制单元，用于响应于故障处理指令，处理信息目标处理系统中的运行故障。

第二处理单元，用于如果否，返回至获取更新后的多个在线决策模型各自的模型参数的步骤继续执行。

在又一种可能的设计中，操作确定模块可以包括：

分数确定单元，用于基于运行状态信息，对多个在线决策模型分别在目标处理系统的贡献度进行打分，获得多个在线决策模型分别对应的系统贡献分数；

贡献提示单元，用于根据多个在线决策模型分别对应的系统贡献分数，生成多个在线决策模型的贡献提示信息；

作为又一个实施例，任一个在线决策模型在目标处理系统产生的决策结果可以包括：在线决策模型为目标处理系统的多个候选对象确定的推荐数据。

结果融合子单元可以包括：

数据确定模块，用于确定任一个候选对象在多个在线决策模型分别对应的推荐数据，以获得多个候选对象各自在多个在线决策模型分别对应的推荐数据。

数据加权模块，用于根据多个在线决策模型分别对应的决策权重，将任一个候选对象在多个在线决策模型分别对应的推荐数据进行加权计算，获得候选对象的目标推荐数据，以获得多个候选对象分别对应的目标推荐数据；

结果确定模块，用于确定多个候选对象分别对应的目标推荐数据构成的目标决策结果。

在某些实施例中，推荐确定单元可以包括：

对象选择子单元，用于根据多个候选对象分别对应的目标推荐数据，从多个候选对象中选择至少一个目标对象。

信息确定子单元，用于确定至少一个目标对象构成的目标推荐信息。

作为又一个实施例，该装置还可以包括：

算法选择模块，用于从多个在线决策算法中选择至少一个目标决策算法。

参数设置模块，用于获得目标决策算法对应的至少一个在线决策模型，以获取至少一个目标决策算法各自的至少一个在线决策模型构成的多个在线决策模型。

在一种可能的设计中，算法选择模块可以包括：

系统特征单元，用于确定目标处理系统的系统特征信息。

第一确定单元，用于根据系统特征信息，从多个在线决策算法中选择获得至少一个目标决策算法。

在某些实施例中，第一确定单元可以包括：

第一匹配子单元，用于分别确定多个在线决策算法与系统特征信息的第一匹配度。

第一决策子单元，用于按照多个在线决策算法分别对应的第一匹配度，从多个在线决策算法中选择获得至少一个目标决策算法。

在某些实施例中，算法选择模块可以包括：

用户特征单元，用于确定目标用户的用户特征信息。

第二确定单元，用于根据用户特征信息，从多个在线决策算法中选择至少一个目标决策算法。

在一种可能的设计中，第二确定单元可以包括：

第二匹配子单元，用于分别确定多个在线决策算法与用户特征信息的第二匹配度；

第二决策子单元，用于按照多个在线决策算法分别对应的第二匹配度，从多个在线决策算法中选择获得至少一个目标决策算法。

作为一种可能的实现方式，算法选择模块可以包括：

算法输出单元，用于为系统管理用户输出所述多个在线决策算法。

用户选择单元，用于获取所述系统管理用户从所述多个在线决策算法中选择的所述至少一个目标决策算法。

在某些实施例中，任一个目标决策算法对应的至少一个在线决策模型通过以下方式确定：

确定任一个目标决策算法的超参数设置规则；

图11的实现信息处理装置可以执行图1所示实施例的信息处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的各个模块、单元及子单元所执行的各个步骤的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在实际应用中，图11所示的信息处理装置可以配置为一计算设备。如图12所示，为本申请实施例提供的种计算设备的一个实施例的结构示意图，该设备可以包括：存储组件1201以及处理组件1202；存储组件1201用于存储一条或多条计算机指令；一条或多条计算机指令被处理组件1202调用以执行图1～图10所示的任一种信息处理方法。

其中，处理组件1202可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件1201被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

此外，本申请实施例还提供一种计算机可读存储介质，存储介质可以存储一条或多条计算机指令，一条或多条计算机指令执行时用以实现本申请实施例中任一种信息处理方法。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息处理方法，其特征在于，包括：

检测目标用户针对目标处理系统发起的系统访问请求；

为所述目标用户输出所述目标推荐信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个在线决策模型分别对应的决策结果，确定目标推荐信息包括：

根据所述目标决策结果，确定所述目标推荐信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述多个在线决策模型分别对应的决策结果进行结果融合处理，获得目标决策结果包括：

确定所述多个在线决策模型分别对应的决策权重；

根据所述多个在线决策模型分别对应的决策权重，将所述多个在线决策模型分别对应的决策结果进行加权处理，获得所述目标决策结果。

4.根据权利要求3所述的方法，其特征在于，所述为所述目标用户输出所述目标推荐信息之后，还包括：

获取所述目标用户针对所述目标推荐信息执行的反馈操作；

基于所述反馈操作对应的反馈数据，更新所述多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型；

获取更新后的所述多个在线决策模型分别对应的决策结果，并返回至所述基于所述多个在线决策模型分别对应的决策结果，确定目标推荐信息的步骤继续执行。

5.根据权利要求4所述的方法，其特征在于，还包括：

基于所述反馈操作对应的反馈数据，更新所述多个在线决策模型分别对应的决策权重，以返回至所述根据所述多个在线决策模型分别对应的决策权重，将所述多个在线决策模型分别对应的决策结果进行加权处理，获得所述目标决策结果的步骤继续执行。

6.根据权利要求4所述的方法，其特征在于，所述基于所述反馈操作对应的反馈数据，更新所述多个在线决策模型各自的模型参数，获得参数更新后的多个在线决策模型之后，还包括：

获取更新后的所述多个在线决策模型各自的模型参数；

针对任一个在线决策模型，确定所述在线决策模型更新后的模型参数对应的模型收敛信息，以获得所述多个在线决策模型分别对应的模型收敛信息；

根据所述多个在线决策模型分别对应的模型收敛信息，生成所述目标处理系统的运行状态信息；

基于所述运行状态信息，确定所述目标处理系统的目标操作内容；

对所述目标处理系统执行与所述目标操作内容相匹配的目标操作。

7.根据权利要求6所述的方法，其特征在于，所述基于所述运行状态信息，确定所述目标处理系统的目标操作内容包括：

基于所述运行状态信息，判断所述目标处理系统是否存在运行故障；

如果是，确定所述目标操作内容为所述目标处理系统的故障处理指令；所述对所述目标处理系统执行与所述目标操作内容相匹配的目标操作包括：响应于所述故障处理指令，处理信息目标处理系统中的运行故障；

如果否，返回至所述获取更新后的所述多个在线决策模型各自的模型参数的步骤继续执行。

8.根据权利要求6所述的方法，其特征在于，所述基于所述运行状态信息，确定所述目标处理系统的目标操作内容包括：

基于所述运行状态信息，对所述多个在线决策模型分别在所述目标处理系统的贡献度进行打分，获得所述多个在线决策模型分别对应的系统贡献分数；

根据所述多个在线决策模型分别对应的系统贡献分数，生成所述多个在线决策模型的贡献提示信息；

所述对所述目标处理系统执行与所述目标操作内容相匹配的目标操作包括：

为所述目标处理系统的系统管理用户输出所述贡献提示信息。

9.根据权利要求6所述的方法，其特征在于，还包括：

为所述目标处理系统的系统管理用户输出所述更新后的所述多个在线决策模型各自的模型参数；

检测所述系统管理用户针对任一个在线决策模型触发的参数调整操作，获取所述系统管理用户针对所述在线决策模型输入的参数调整信息；

根据所述参数调整信息，调整所述在线决策模型的模型参数，返回至所述基于所述目标处理系统的处理目标，获取所述多个在线决策模型分别对应的决策结果的步骤继续执行。

10.根据权利要求1所述的方法，其特征在于，所述多个在线决策模型通过以下方式确定：

从多个在线决策算法中选择至少一个目标决策算法；

获得任一个目标决策算法对应的至少一个在线决策模型，以获取所述至少一个目标决策算法各自的至少一个在线决策模型构成的多个在线决策模型。

11.根据权利要求10所述的方法，其特征在于，所述从多个在线决策算法中选择至少一个目标决策算法包括：

确定所述目标处理系统的系统特征信息；

根据所述系统特征信息，从所述多个在线决策算法中选择获得所述至少一个目标决策算法。

12.根据权利要求11所述的方法，其特征在于，所述根据所述系统特征信息，从所述多个在线决策算法中选择获得所述至少一个目标决策算法包括：

分别确定所述多个在线决策算法与所述系统特征信息的第一匹配度；

按照所述多个在线决策算法分别对应的第一匹配度，从所述多个在线决策算法中选择获得所述至少一个目标决策算法。

13.根据权利要求10所述的方法，其特征在于，所述从多个在线决策算法中选择至少一个目标决策算法包括：

确定所述目标用户的用户特征信息；

根据所述用户特征信息，从所述多个在线决策算法中选择所述至少一个目标决策算法。

14.根据权利要求13所述的方法，其特征在于，所述根据所述用户特征信息，从所述多个在线决策算法中选择获得所述至少一个目标决策算法包括：

分别确定所述多个在线决策算法与所述用户特征信息的第二匹配度；

按照多个在线决策算法分别对应的第二匹配度，从所述多个在线决策算法中选择获得所述至少一个目标决策算法。

15.根据权利要求10所述的方法，其特征在于，所述从多个在线决策算法中选择至少一个目标决策算法包括：

为系统管理用户输出所述多个在线决策算法；

获取所述系统管理用户从所述多个在线决策算法中选择的所述至少一个目标决策算法。

16.根据权利要求10所述的方法，其特征在于，所述任一个目标决策算法对应的至少一个在线决策模型通过以下方式确定：

确定任一个目标决策算法的超参数设置规则；

17.一种信息处理方法，其特征在于，包括：

检测目标用户针对网络交易系统发起的系统访问请求；

为所述目标用户输出所述推荐交易对象的目标推荐信息。

18.根据权利要求17所述的方法，其特征在于，所述基于所述多个在线决策模型分别对应的决策结果，确定推荐交易对象的目标推荐信息包括：

19.根据权利要求17所述的方法，其特征在于，所述多个在线决策模型通过以下方式确定：

从多个在线决策算法中选择至少一个目标决策算法；

20.一种信息处理方法，其特征在于，包括：

检测目标用户针对内容推荐系统发起的系统访问请求；

为所述目标用户输出所述目标推荐内容。

21.一种信息处理方法，其特征在于，包括：

利用所述对抗决策接口对应的信息处理资源执行如下步骤：

利用所述对抗决策接口检测目标用户针对目标处理系统发起的系统访问请求；

22.一种信息处理装置，其特征在于，包括：

23.一种计算设备，其特征在于，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行权利要求1～16任一项所述的信息处理方法。