CN115170195A

CN115170195A - 信息处理方法和装置、电子设备、计算机可读介质

Info

Publication number: CN115170195A
Application number: CN202210836126.7A
Authority: CN
Inventors: 王琳博; 崔燕; 朱景曦; 黄岳; 申宇林; 师敏花
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-11

Abstract

本公开提供了一种信息处理方法和装置，涉及深度学习、自然语言处理技术领域。具体实现方案为：获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略。该实施方式提高了目标属性的属性值调整的可靠性。

Description

信息处理方法和装置、电子设备、计算机可读介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、自然语言处理技术领域，尤其涉及一种信息处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术

广告一直是互联网变现的重要方式之一，随着科技的发展，基于广告衍生出来的系统也是千变万化。各大媒体平台或DSP(Demand-Side Platform，就是需求方平台)提供的投放工具，能够帮助广告主针对性地、界面化地进行广告的投放。随着竞价广告的兴起，广告主需要传递给运营平台一个预期的报价去参加竞价，如何更好地进行报价而获得更高的回报，是亟待解决的技术问题。

发明内容

提供了一种信息处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面，提供了一种信息处理方法，该方法包括：获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略，属性值调整策略用于调整不同信息的目标属性的属性值。

根据第二方面，提供了一种信息处理装置，该装置包括：获取单元，被配置成获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；确定单元，被配置成基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；检测单元，被配置成基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；调整单元，被配置成响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略，属性值调整策略用于调整不同信息的目标属性的属性值。

根据第三方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。

本公开的实施例提供的信息处理方法和装置，首先，获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；其次，基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；再次，基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；最后，响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略，属性值调整策略用于调整不同信息的目标属性的属性值。由此，基于信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息，确定信息竞价平台的下一时刻的属性环境状态，通过属性环境状态衡量信息竞价平台的因素变化，为信息竞价平台提供一种可靠地量化手段；在下一时刻需要调整目标属性的属性值时，通过智能体给出基于下一时刻的属性环境和属性调整目标的属性值调整策略，可以面向多种不同目标对多种信息的目标属性的属性值进行调整，帮助信息竞价平台在多个目标中自动取得平衡状态，提高了信息竞价平台在多目标下的协同能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开信息处理方法的一个实施例的流程图；

图2是本公开信息处理方法中向量集合得到的一种结构示意图；

图3是本公开当前时刻的价格向量编码得到过程结构示意图；

图4是本公开信息处理方法中各个子智能体工作关系结构示意图；

图5是根据本公开信息处理装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的信息处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本实施例中，“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

信息竞价平台是一种用户自主投放、自主管理的平台，通过调整该平台上信息的显示顺序实现不同显示信息的价格。随着竞价广告的蓬勃发展，现有的信息竞价平台可以实现分钟级甚至秒级的竞价排序，排序环境千变万化，涉及到的因素非常多。如何对这些因素进行量化，并为广告主清晰地刻画竞价的环境呢？前者是一个“如何表达”的数学问题，后者是一个“指标衡量”的技术问题，两者相辅相成才能共同量化竞价环境。

针对竞价广告，当前出价的最细粒度是字级别，所以调价策略的根本目标在于在正确的时间、以正确的价格、将正确的广告发送给正确的用户。这个过程中的评价指标至少有客户转化(包括线索成本、转化行为的转化率等)、代运营平台ROI(Return onInvestment，投资回报率)、代运营平台收入规模、投放平台CTR(Click-Through-Rate，点击率)，面向不同的目标有不同的调价策略，一个好的信息竞价平台需要在多个目标中自动取得平衡状态，保证多个目标互相协同，稳步增长。传统信息竞价平台中的调价策略都是半自动化，需要操作人员预先选择需要的目标，调节策略也并不能自动识别应该面向哪种目标。

针对当前信息竞价平台的缺陷，本公开提供的一种信息处理方法，能够快速、准确地量化信息竞价平台的竞价环境，并且还可以为信息竞价平台提供有效地属性值调整策略。，图1示出了根据本公开信息处理方法的一个实施例的流程100，上述信息处理方法包括以下步骤：

步骤101，获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息。

本实施例中，信息竞价平台是发布信息投放主自主投放的信息的平台，基于该平台上不同信息的显示顺序为确定信息的目标属性的属性值的依据，并且在信息投放主在向信息竞价平台投放信息时，会预先给即将投放的信息赋初始的属性值。

本实施例中，信息竞价平台的当前时刻的当前信息、历史信息是从信息竞价平台获取得到的信息，当信息竞价平台是一种信息搜索平台时，以搜索词为视角，当前信息是当前时刻通过技术手段获取得到任何当前时刻的搜索信息，如搜索词的趋势、类目、该搜索词的搜索结果等。历史信息是与当前信息相关历史时刻的搜索信息，例如，与该搜索词相关的前两天的搜索内容。当前信息和历史信息的指标信息是指衡量当前信息和历史信息的指标，例如，与当前信息和历史信息对应的竞价词的ROI、CTR以及ACP(Average Click Price，平均点击价格)等。

本实施例中，指标信息可以通过离线训练好的各类决策因子预估模型预测得到，例如，ROI的值通过ROI决策因子预估模型预测得到，ACP的值通过ACP决策因子预估模型预测得到。各类决策因子预估模型是一种业界常用的预估模型，比如LR分类器(LogisticRegression Classifier，逻辑回归分类器)、SVM(support vector machine，支持向量机模型)等，与“各类决策因子预估模型”是同一个模型，指标信息属于预估结果。

本实施例中，竞价词具有相应地竞价环境联系图谱，该图谱可以直接使用竞价词间的语义图谱中的关系进行替代，即默认语义关系与竞价环境的关系等价。

步骤102，基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态。

本实施例中，属性环境状态是用于描述不同信息的目标属性在当前信息竞价平台的状态，目标属性的属性值不同，属性环境状态相应地也不同。目标属性是信息竞价平台上不同信息的固定特征，目标属性的属性值为量化目标属性的值。例如，目标属性为不同信息在信息竞价平台的价值，则目标属性的属性值为价值的具体衡量量—价格，则属性环境状态可以为强化学习过程中，信息竞价平台的竞价环境向量。

本实施例中，利于当前时刻的当前信息以及历史时刻的历史信息，以及当前信息和历史信息的指标信息对信息竞价平台下一时刻的属性环境状态进行预估，可以有效地刻画信息竞价平台的目标属性的所在环境。

步骤103，基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值。

本实施例中，调整目标属性的属性值之前进行调价判别，如果信息竞价平台的下一时刻的环境不用调价，则信息竞价平台的目标属性的属性值调整策略不变，信息竞价平台执行初始的属性值调整策略。如果信息竞价平台的下一时刻的环境需要调价，执行步骤104。

步骤104，响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略。

本实施例中，属性值调整策略用于调整不同信息的目标属性的属性值，智能体将属性值调整策略发送给信息竞价平台，可以使信息竞价平台将初始的属性调整策略替换为智能体发送的属性值调整策略，使信息竞价平台可以随时改变目标属性的环境状态。

本实施例中，预设的属性调整目标可以是不同操作主体设置的、智能体需要达到目标，当操作主体为向信息竞价平台投放信息的信息投放主时，属性调整目标可以是与信息投放主投放的信息相关的目标。当操作主体为信息竞价平台本身时，属性调整目标为信息竞价平台内部使用的增强嵌入算法对应的平衡目标，通过增强嵌入算法可以使发布在信息竞价平台上的所有信息基于其初始是的目标属性的属性值逐渐趋于各种信息发布的平衡。例如，属性调整目标为ROI和奖励值，在调整目标属性的属性值的过程中，还可以在属性调整目标中增加保证信息投放主的评价标准，评价标准包括：电话点击率、电话转化率、IM(Instant Messaging，即时通讯)咨询率与IM转化率等。

可选地，在调整信息竞价平台上不同信息的目标属性的属性值之前，可以先根据信息竞价平台线上真实信息的各种指标信息，对不同信息进行分类，不同的信息使用不同的类目的智能体。当各个智能体根据当前的信息和当前的竞价环境做出属性值调整策略选择后，该属性值调整策略会被投放在线下模拟环境中进行进一步的收益预估，直至模拟环境下预估完成，将收益最大的属性值调整策略作为发送给信息竞价平台的属性值调整策略。

本公开的实施例提供的信息处理方法，首先，获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；其次，基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；再次，基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；最后，响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略，属性值调整策略用于调整不同信息的目标属性的属性值。由此，基于信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息，确定信息竞价平台的下一时刻的属性环境状态，通过属性环境状态衡量信息竞价平台的因素变化，为信息竞价平台提供一种可靠地量化手段；在下一时刻需要调整目标属性的属性值时，通过智能体给出基于下一时刻的属性环境和属性调整目标的属性值调整策略，可以面向多种不同目标对多种信息的目标属性的属性值进行调整，帮助信息竞价平台在多个目标中自动取得平衡状态，提高了信息竞价平台在多目标下的协同能力。

在本公开的一些实施例中，在上述步骤104中的智能体向信息竞价平台发送属性值调整策略之前，信息处理方法还包括：基于属性环境状态和属性值调整策略，确定奖励值；向智能体发送奖励值，以使智能体检测是否向信息竞价平台发送属性值调整策略。

本可选实现方式提供的信息处理方法，可以通过训练完成的模拟投放模型生成奖励值，其中，模拟投放模型模拟信息竞价平台训练生成的模型，该模拟投放模型输入为下一时刻的属性环境状态和属性值调整策略，模拟投放模型的输出为奖励值，奖励值用于表示当前属性环境状态下属性值调整策略是否合适的概率值。

可选地，还可以搭建一套模拟信息竞价平台的仿真环境，先将信息竞价平台的调价策略在模拟环境中验证一遍，若是起到了效果，确定奖励值。在搭建仿真环境时，会根据信息竞价平台的技术性指标数据(如信息竞价平台反馈回的投放效果报告)进行智能定向，调价的同时改变流量分布。

在本可选实现方式提供的信息处理方法，基于属性环境状态和属性值调整策略，确定奖励值，并向智能体发送奖励值，可以使智能体基于奖励值确定是否发送属性值调整策略，提高了属性值调整策略选取的准确性。

随着人工智能广泛应用到业务场景，如今的信息竞价平台都会使用深度学习或机器学习模型对广告的CTR进行预估，从而直接影响信息在媒介平台上的排名。在训练模型的过程中需要积累历史数据才能对未来进行预估，与此同时会出现一个问题，那就是排名体系过于依赖历史数据，导致以前效果做的不好的广告主很难“咸鱼翻身”“痛改前非”，有时候需要重起炉灶，重新进行新账号的投放，成本代价高，用户体验也会受到损失。

为了解决上述问题打破上述历史依赖，获得更多的新流量或新曝光，让之前做的不好的信息投放主也能重新获得机会，给模型增加一些噪声的扰动是可取的方法，在本公开的另一些实施例中，在执行上述步骤103之前，上述信息处理方法还包括：将属性环境状态发送给训练完成的扰动分类模型，得到扰动控制模型输出的扰动分类结果，扰动分类模型用于判断属性环境状态是否增加扰动；响应于扰动分类结果为不需要加扰动，基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值。

本可选实现方式中，在信息处理方法运行于其上的执行主体输出当前的属性环境状态

之后，需要先通过一个训练完成的扰动分类模型(可以采用二分类模型)判断信息竞价平台当前的竞价状态是否需要扰动，如果需要扰动，则使用加扰动的方法，如果不需要则进入下一时刻是否需要调整目标属性的属性值的判断。

扰动分类模型的输入为当前的竞价环境状态

输出的扰动分类结果例如可以包括0或1，其中，0表示不需要进行扰动，1表示需要进行扰动。当前扰动分类模型的标签较难获得，需要定期回访客户，询问客户近日调价的体验。扰动分类模型中一般需要进行扰动的特征为：连续调价3次却得不到一点曝光、该客户的各项指标评估连续两周没有大幅度的变动，业务人员还可以根据经验进行制定。

可选地，在扰动分类结果为需要加扰动时，可以采用历史信息的某项指标的缺失进行加噪。具体地，加噪为当需要对某个竞价词进行扰动时，根据从远由近，从不重要到重要的原则对该竞价词进行关键特征的灭活，例如，当判断“cornmill”这个关键字的第i个客户需要进行扰动，则对其当前时刻至历史某一时刻之间的指标信息进行灭活，将其设置为缺失。

本可选实现方式提供的信息处理方法，通过扰动分类模型对信息竞价平台的环境状态的判断，确定是否增加扰动，这样既能保证信息竞价平台的鲁棒性，又可以避免信息竞价平台对信息投放主的惯性肌肉记忆的判断。

在本实施例的一些可选实现方式中，上述步骤102可以包括：基于当前信息、历史信息和指标信息，得到多种信息的向量集合，向量集合包括当前信息的向量、历史信息的向量和指标信息的向量；基于向量集合，得到下一时刻的评估指标；基于评估指标、向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态。

当前信息和历史信息可以是变化多样的，例如，当前信息和历史信息可以是多模态的，包括：文本(如广告的标题)、图像(如广告相关的图片)、结构化数据(如商品的参数、价格相关的参考因子)；进一步，当当前信息和历史信息为文本时，当前信息和历史信息可以包括至少一个词，该词对应一个竞价词和竞价词的目标属性的属性值，例如“奶茶加盟”为当前信息，“奶茶加盟”对应一个竞价词“奶茶品牌”，该“奶茶品牌”在属性环境图谱中具有相应的价格。

如图2所示，当前信息和历史信息包括：不同时刻的文本、图像。在图2中(h)表示历史时刻的相关数据、(t)表示当前时刻的相关数据，

表示多模态的信息的向量集合，将向量集合输入各类决策因子预估模型，可以得到下一时刻的评估指标。在图2中，T表示文本模态的当前信息和历史信息，V表示图像模态的当前信息和历史信息，文本模态的信息需要经过自然语言模型处理得到文本模态的向量，图像模态的信息需要经过图像处理模型得到图像模态的向量，在图2中还包括当前信息和历史信息的指标信息：ROI、ASN(Average Show Number，平均展示条数)，并且ROI、ASN对应指标也分类为当前时刻a(h)和历史时刻w(h)的指标。

本可选实现方式中，下一时刻的评估指标是与当前信息和历史信息的指标信息相对应的指标信息，其中，下一时刻的评估指标可以是与当前信息和历史信息的指标信息相同的指标，也可以是与当前信息和历史信息的指标信息相关的指标。

本可选实现方式中，预设的属性环境图谱是基于不同领域或者不同行业在信息竞价平台的竞价词建立的竞价词间的竞价环境联系图谱，该图谱可以直接使用竞价词间的语义图谱中的关系进行替代，即默认语义关系与竞价环境的关系等价。

本可选实现方式中，当前信息与历史信息中基本文本单位(如词)与属性环境图谱中的竞价词具有相同或者相似关系，通过将当前信息与历史信息拆分为多个不同的基本文本单位，可以将当前信息、历史信息与预设的属性环境图谱联系在一起。

本可选实现方式提供的确定下一时刻的属性环境状态的方法，将当前信息的向量和历史信息的向量组合在一起得到向量集合，通过向量集合，得到下一时刻的评估指标，基于评估指标、向量集合以及属性环境图谱得到下一时刻的属性环境状态，从而为下一时刻的属性环境状态的获得提供了一种可靠的手段。

在本实施例的一些可选实现方式中，上述基于评估指标、向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态，包括:基于向量集合和评估指标，确定下一时刻的目标属性编码；将下一时刻的目标属性编码与向量集合进行融合，得到下一时刻的属性环境状态；基于属性环境图谱，将下一时刻的属性环境状态中相关类目的属性环境状态进行关联。

本可选实现方式中，上述将下一时刻的目标属性编码与向量集合进行融合，得到下一时刻的属性环境状态，包括：

基于向量集合确定历史时刻的目标属性编码、当前时刻的目标属性编码；将历史时刻的目标属性编码、当前时刻的目标属性编码与下一时刻的目标属性编码加权求和得到总目标属性编码；将总目标属性编码与向量集合进行融合，得到下一个时刻的属性环境状态。

本可选实现方式中，将总目标属性编码与向量集合进行融合主要是将总目标属性编码与向量集合中各种信息进行对抗，寻找向量集合中与总目标属性编码息息相关的向量，在对抗过程通过增加多头注意力机制，最终确定最终的下一个时刻的属性环境状态。

在多框架中，价格相关的参考因子被表示为图结构，进行编码并最终融入向量中。

本可选实现方式中，上述基于属性环境图谱，将下一时刻的属性环境状态中相关类目的属性环境状态进行关联，包括：基于属性环境图谱，确定具有关联关系的竞价词(如苹果和手机)；基于竞价词之间的关联关系，确定下一时刻的属性环境状态中具有关联关系的属性环境状态，并将具有关联关系的属性环境状态进行关联。

本可选实现方式提供的得到下一时刻的属性环境状态的方法，通过目标属性编码与向量集合进行融合，可以得到至少一种类目的下一时刻的属性环境状态，基于属性环境图谱，将下一时刻的属性环境状态中相关类目的属性环境进行关联，可以有效地将当前信息和历史信息中相关信息联系在一起，从而提高了预估的下一时刻的属性环境状态的内部关联性。

在本实施例的一些可选实现方式中，当目标属性的属性值为价格时，上述基于评估指标、向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态，包括：将评估指标、向量集合输入已经训练完成竞价状态编码模型，得到竞价状态编码模型输出的下一时刻的价格向量编码，将价格向量编码与向量集合进行融合得到下一时刻的属性环境状态。

本可选实现方式中，竞价状态编码模型结合当前时刻、历史时刻的信息以及指标信息，确定价格向量，在竞价状态编码模型具有多个价格编码单元，多个价格编码单元可以实现历史时刻的价格向量编码P_h、当前时刻的价格向量编码P_t以及下一时刻的预估价格向量编码P_t+1，将三者加权求和得到最终的下一时刻的价格向量编码。

如图3所示，为当前时刻的价格向量编码P_t得到过程结构示意图。价格编码单元遵循马尔可夫假设，当前时刻的价格只与上一时刻的因素有关。该价格编码单元从设计上来看共分为三层，从下往上看分别为：

指标信息层，即图3中包括六边形的那一层，包含ROI、ASN、CTR、Average Rank(平均等级)指标的协同融合。

语义与价格交互层，即图3中包括四边形的那一层，包含上一时刻的语义e_t-1、上一时刻的综合价格Bid_t-1、当前时刻的语义e_t和当前时刻的综合价格Bid_t。

输出层，即图3中最终的P_t，由bid_t和e_t共同决定。

下面根据上述所说的三层进行详细说明：

(1)指标信息层

决定价格的指标往往是多重因素互相协同，在图3中展示的六边形只是示意图，最终实际使用时取决于有多少影响价格的因素，此处以其中四个为例进行说明，即ROI、ASN、CTR和Average rank。

根据业务经验按照重要程度不同进行加权求和，并根据因素的个数进行多项式和累加，此处对他们四个的重要性排序为ROI>Average rank>CTR>ASN，以下以t时刻为例进行详细说明。

在式(2)中，i取4，最终六边形的输出表示为h⁴。

(2)语义与价格交互层

由于信息竞价平台的竞价环境是实时变化，需要将这种变化引入语义中，即想要不同竞价时刻的语义表示不同。对于初始语义，还是从预训练的自然语言模型(如Ernie，知识增强语义模型)中进行初始化。该自然语言模型与其他的部分的自然语言模型共享一个，如与图2中的自然语言模型相同。

Bid_t＝[h⁴；Bid_t-1；e_t] (3)

在式(4)中，e_t为考虑到当前的语义信息和t-1时刻的语义信息的整体情况。

(3)输出层

P_t＝Dense(Bid_t,maxpool(e_t)) (5)

在式(5)中，P_t表示考虑到最关键的语义信息的情况下的Bid的向量。

在本实施例的一些可选实现方式中，上述步骤102还可以包括：基于信息竞价平台中不同投放词的分布，对当前信息、历史信息以及指标信息进行分层采样，得到至少一层层信息和各层层信息相应的指标信息；将各层层信息和相应的指标信息分别输入训练完成的多模态融合模型，得到各层层信息的向量集合，多模态融合模型用于对多种模态信息进行向量计算，得到各种模态信息的向量；计算各层层信息的向量集合对应的评估指标；基于各层层信息的评估指标、各层层信息的向量集合以及预设的属性环境图谱，得到各层层信息的下一时刻的属性环境状态；组合所有层的层信息的下一时刻的属性环境状态，得到信息竞价平台的下一时刻的属性环境状态。

本可选实现方式中，投放词为构成当前信息和历史信息的基本单元，基于不同投放词的分布，对当前信息和历史信息以及指标信息进行分层采样，可以针对不同信息的分布，给出更加合理的下一时刻的属性环境状态。

本可选实现方式中，基于不同投放词的分布，可以将当前信息、历史信息以及指标信息分层为四层，第一层，以TOP词进行划分，可以确定大量的展现，TOP词对应的指标信息(如ROI)有好有坏，往往数量不多。第二层，以中等好词进行划分，规模不大，但是中等好词对应的指标信息很高，往往可以补Top词的收入空缺，该类词的基数大，基本占整体有消费词的70％-80％。第三层，以规模小的差词进行划分，差词对应的指标信息较低，在面向收入规模调价时可以用来适当补充。第四层，以有展无点词进行划分，没有消费也没有收入，但是有展现，这类词往往占总体投放词的90％。

本可选实现方式中，信息竞价平台的下一时刻的属性环境状态包括多层层信息的下一时刻的属性环境状态，所有层信息的下一时刻的属性环境状态组合在一起得到信息竞价平台的下一时刻的属性环境状态。

本可选实现方式提供的确定信息竞价平台的下一时刻的属性环境状态，针对信息竞价平台中信息的分布不均匀性，对当前信息、历史信息以及当前信息和历史信息的指标信息进行分层采样，可以使不同层的样本在训练时进入不同的调价选择模型，提高了数据划分的精细度。

可选地，针对下一时刻的属性环境状态中的不同层信息的属性环境状态，可以将步骤104中的智能体设置为多个子智能体，每个子智能体对应一个层信息，如图4所示的，智能体具有四个子智能体(Q-Network₁、Q-Network₂、Q-Network₃、Q-Network₄)，每个子智能体基于下一时刻的属性环境状态S_t，依次执行步骤104。

进一步，在图4中，可以通过模拟投放模型提供的奖励值R包括为各个子智能体提供奖励值(Reward1、Reward2、Reward3、Reward4)，从而使各个子智能体基于各自的奖励值，得到下一时刻的初始属性值调整策略对应的Q值(Q1(S,A)、Q2(S,A)、Q3(S,A)、Q4(S,A))。

可选地，还可以预设多个预置属性值调整策略，在各个子智能体得到属性环境状态St，各个子智能体依次执行多个预置调整策略，计算新环境下的所有动作的Q值，将获得的最大Q值和奖励Reward作为更新的目标。子智能体可以是一个属性环境状态与Q值对应关系表，在实际使用过程中，子智能体还可以是训练完成深度神经网络，如卷积神经网络、深度神经网络、循环神经网络等网络。

本可选实现方式中，每层的子智能体Q-Network_i(i＝1,2,3,4)都可以由两种DQN(Deep Q Network，强化学习网络)组成，一种为DQN_Revenue，另一种为DQN_ROI。其中DQN_Revenue网络的奖励值为r_Revenue，DQN_ROI网络的奖励值为r_ROI。该层最终的Reward为：

R_i＝[r_Revenue,r_ROI] (6)

在式(6)中，R_i表示各层的奖励，则整体的ROI奖励是每一层内在奖励的加权求和:

其中，在式(7)中，L为子智能体的个数，也就是分层的层数。

在本实施例的一些可选实现方式中，上述步骤103可以包括：基于当前信息、历史信息以及指标信息，预测下一时刻的评估指标；将评估指标、属性环境状态输入已训练完成的调价判别模型，得到调价判断模型输出的是否调整目标属性的属性值的判别结果；基于判别结果，确定下一时刻是否需要调整目标属性的属性值。

本可选实现方式中，已训练完成的调价判别模型用于判断预测得到的下一时刻的属性环境状态是否需要调价，而已训练完成的调价判别模型参考下一时刻的评估指标给出判别结果，例如，当下一时刻的评估指标的值较高，且属性环境状态的状态较稳定，已训练完成的调价判别模型确定不需要调整目标属性的属性值。

调价判别模型可以采用softmax函数进行是否需要调整目标属性的属性值的判断，在训练调价判别模型时，可以采用交叉熵函数作为条件判别模型的损失函数。

上述于判别结果，确定下一时刻是否需要调整目标属性的属性值包括：当判别结果为需要调整目标属性的属性值(如判别结果为1)时，将属性环境状态发送给调整属性值的智能体，使智能体基于属性环境状态选择属性值调整策略。

可选地，上述于判别结果，确定下一时刻是否需要调整目标属性的属性值还包括：当判别结果为不需要调整目标属性的属性值(如判别结果为0)时，则信息竞价平台的属性值调整策略不变。

本可选实现方式提供的检测是否调整目标属性的属性值的方法，通过调价判别模型对评估指标和属性环境状态进行判断，提高了得到是否调整目标属性的属性值的判别结果的可靠性。

在本实施例的一些可选实现方式中，上述属性值调整策略是从多个预置调整策略中选取的一个预置调整策略；预置调整策略包括以下至少一项：

第一提价策略，用于针对信息竞价平台中展示次数大于预设次数且无消费的第一输入信息，在第一输入信息对应的目标属性的属性值中增加展示惩罚项。当目标属性的属性值为价格时，在第一提价策略中，展示次数越多的信息，调价系数越小，通过增加展示惩罚项，保证整体的调价系数控制在第一预设范围(如[1，1.3))内。

new_bid₁＝bid₁*k₁ (8)

在式(8)中，bid₁为第一输入信息的初始竞价价格，初始竞价价格乘以调价系数k₁，得到更新后的更新价格new_bid₁。

式(9)为第一输入信息的调价系数的，调价系数中的Ratio和λ均为超参数，min和max都需要提前算好，参数为整个集合。1为调价系数下界，1.3为调价系数上界。

在式(10)中，设置截距为1的作用是避免小数相乘越来越小的情况，

为信息投放主的当天账号的平均CPC(Cost Per Click，每点击成本)，

为历史n(N＞1)天该第一输入信息的平均CPC，

历史n天该账号的平均CPC。

在式(11)中，λ₁为惩罚因子，s_i越大值λ_i越小。s_i为该第一输入信息的展示量集合，

为s_i集合的均值。由于数据分布离散，所以分母中加入经验系数10进行方差均衡，N为S集合中的样本个数。

第一降价策略，用于针对信息竞价平台中展示等级小于预设等级值的第二输入信息，在第二输入信息对应的目标属性的属性值中增加压价项。展示等级越小的信息，越需要压价，通过增加压价项，将调价系数控制在第二预设范围(如[0.5，1)其中，0.5为经验值)之间。

new_bid₂＝max(bid_lowest₂,bid₂*k₂) (12)

在式(12)中，bid_lowest₂为第二输入信息的价格bid₂绝对值的下边界，bid₂为第二输入信息的初始竞价价格，该初始竞价价格乘以调价系数k₂，得到更新后的更新价格new_bid₂。

在式(13)中，各个符号的说明与式(9)解释相似，ω为ω₂的整体序列，min(ω)的含义为ω整体序列的最小值。

在式(14)中，加号前表示考虑历史出价分布和展示等级因子，加号后为等级的压价系数，其中压价系数中4是超参数，α与β为两个权重，两者之和为1，ratio_i计算方式分别与式(10)相同，λ₂的计算方式与式(11)相同。

第二提价策略，用于针对信息竞价平台中展示等级小于预设等级值且预定指标满足指标要求的第三输入信息，在第三输入信息对应的目标属性的属性值中增加上边界界限，以限制第三输入信息的目标属性的属性值。为展示等级低但是预定指标(如ROI)高的信息提价可以博得更好的收益，在调价时，需要考虑预定指标因素，且要避免出现因竞价词过高导致被过滤的问题。需要考虑上界，调价系数控制在第三预设范围如([1，1.2)之间，其中，1.2为经验值)。

new_bid₃＝min(bid_largest₃,bid₃*k₃) (15)

在式(15)中，bid_lowest₃为第三输入信息的价格bid₃绝对值的下边界，bid₃为第三输入信息的初始竞价价格，初始竞价价格乘以调价系数k₃，得到更新后的更新价格new_bid₃。

在式(16)中，各个符号的说明与式(13)相同。

ω₃＝α(ratio_i*λ₃)+β*ρ₃ (17)

在式(17)中，加号前表示考虑历史出价分布和展示等级因子，加号后为等级的提价系数，α与β为两个权重，两者之和为1，ratio_i的计算方式与式(10)相同。

在式(18)中，需要考虑CTR的因素，CTR越高，提价系数越高，N＞1，

为CTR序列的均值。

在式(19)中，这里ROI的范围在[0.5,1.5)的样本，提价系数高，其余区间的ROI提价系数低，即roi_i与提价系数近似满足方差为1期望为1的正态分布。

第二降价策略，用于针对信息竞价平台中收入规模大于预设规模值的第四输入信息，在第四输入信息对应的目标属性的属性值中增加收入奖励因子，以维持第一输入信息的输入规模。为了在降价时尽可能地不损害收入规模，可以将原始调价系数控制在第四预设范围(如[0.5，1])

在式(20)中，bid_lowest₄为第四输入信息的价格bid₄绝对值的下边界，new_bid₄为更新后的第四输入信息的价格。

在式(21)中，I_reward_i为收入规模奖励因子，其中M为调价当天的全量样本，income_i为第四输入信息的价格的具体值。

在式(22)中，各个符号的说明与式(9)相同。

ω₄＝ratio_i*λ_t (23)

在式(23)中，ratio_i中各个符号的说明与式(10)相同。

在式(24)中，需要考虑CTR的因素，CTR越高，调价系数越高，N＞1，

为CTR序列的均值。

ρ₄＝ln(1+roi_i)+0.5 (25)

在式(25)中，roi_i越小，调价系数越低。0.5截距是为了与k₄的阈值对齐。

本可选实现方式中，多个预置调整策略是在实现本申请的信息处理方法之前需要预先配置好的调整策略，多个预置调整策略是预先经过验证的调整策略，其中有提价策略也有降价策略，智能体从多个预置调整策略中取一个平衡，为信息竞价平台的策略执行提供了可靠的基础。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了信息处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图5所示，本实施例提供的信息处理装置500包括：获取单元501，确定单元502，检测单元503，调整单元504。其中，上述获取单元501，可以被配置成获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息。上述确定单元502，可以被配置成基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态。上述检测单元503，可以被配置成基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值。上述调整单元504，可以被配置成响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略，属性值调整策略用于调整不同信息的目标属性的属性值。

在本实施例中，信息处理装置500中：获取单元501，确定单元502，检测单元503，调整单元504的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置500还包括：奖励单元(图中未示出)。其中，上述奖励单元，可以被配置成基于属性环境状态和属性值调整策略，确定奖励值；向智能体发送奖励值，以使智能体检测是否向信息竞价平台发送属性值调整策略。

在本实施例的一些可选的实现方式中，上述装置500还包括：扰动单元(图中未示出)。其中，上述扰动单元，可以被配置成将属性环境状态发送给训练完成的扰动分类模型，得到扰动控制模型输出的扰动分类结果，扰动分类模型用于判断属性环境状态是否增加扰动；响应于扰动分类结果为不需要加扰动，控制检测单元工作503。

在本实施例的一些可选的实现方式中，上述确定单元502包括：向量得到模块(图中未示出)，评估模块(图中未示出)，状态得到模块(图中未示出)。其中，上述向量得到模块，可以被配置成基于当前信息、历史信息和指标信息，得到多种信息的向量集合，向量集合包括当前信息的向量、历史信息的向量和指标信息的向量。上述评估模块，可以被配置成基于向量集合，得到下一时刻的评估指标。上述状态得到模块，可以被配置成基于评估指标、向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态。

在本公开的一些可选实现方式中，上述状态得到模块进一步被配置成：基于向量集合和评估指标，确定下一时刻的目标属性编码；将下一时刻的目标属性编码与向量集合进行融合，得到下一时刻的属性环境状态；基于属性环境图谱，将下一时刻的属性环境状态中相关类目的属性环境状态进行关联。

在本公开的一些可选实现方式中，上述当前信息和历史信息为多模态信息，上述确定单元502进一步被配置成：基于信息竞价平台中不同投放词的分布，对当前信息、历史信息以及指标信息进行分层采样，得到至少一层层信息和各层层信息相应的指标信息；将各层层信息和相应的指标信息分别输入训练完成的多模态融合模型，得到各层层信息的向量集合，多模态融合模型用于对多种模态信息进行向量计算，得到各种模态信息的向量；计算各层层信息的向量集合对应的评估指标；基于各层层信息的评估指标、各层层信息的向量集合以及预设的属性环境图谱，得到各层层信息的下一时刻的属性环境状态；组合所有层的层信息的下一时刻的属性环境状态，得到信息竞价平台的下一时刻的属性环境状态。

在本公开的一些可选实现方式中，上述检测单元503进一步被配置成：基于当前信息、历史信息以及指标信息，预测下一时刻的评估指标；将评估指标、属性环境状态输入已训练完成的调价判别模型，得到调价判断模型输出的是否调整目标属性的属性值的判别结果；基于判别结果，确定下一时刻是否需要调整目标属性的属性值。

在本公开的一些可选实现方式中，属性值调整策略是从多个预置调整策略中选取的一个预置调整策略；预置调整策略包括以下至少一项：第一提价策略，用于针对信息竞价平台中展示次数大于预设次数且无消费的第一输入信息，在第一输入信息对应的目标属性的属性值中增加展示惩罚项。第一降价策略，用于针对信息竞价平台中展示等级小于预设等级值的第二输入信息，在第二输入信息对应的目标属性的属性值中增加压价项。第二提价策略，用于针对信息竞价平台中展示等级小于预设等级值且预定指标满足指标要求的第三输入信息，在第三输入信息对应的目标属性的属性值中增加上边界界限，以限制第三输入信息的目标属性的属性值。第二降价策略，用于针对信息竞价平台中收入规模大于预设规模值的第四输入信息，在第四输入信息对应的目标属性的属性值中增加收入奖励因子，以维持第一输入信息的输入规模。

本公开的实施例提供的信息处理装置，首先，获取单元501获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；其次，确定单元502基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；再次，检测单元503基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；最后，调整单元504响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略，属性值调整策略用于调整不同信息的目标属性的属性值。由此，基于信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息，确定信息竞价平台的下一时刻的属性环境状态，通过属性环境状态衡量信息竞价平台的因素变化，为信息竞价平台提供一种可靠地量化手段；在下一时刻需要调整目标属性的属性值时，通过智能体给出基于下一时刻的属性环境和属性调整目标的属性值调整策略，可以面向多种不同目标对多种信息的目标属性的属性值进行调整，帮助信息竞价平台在多个目标中自动取得平衡状态，提高了信息竞价平台在多目标下的协同能力。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如信息处理方法。例如，在一些实施例中，信息处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的信息处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程信息处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息处理方法，所述方法包括：

获取信息竞价平台的当前时刻的当前信息、历史信息以及所述当前信息和所述历史信息的指标信息；

基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态；

基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值；

响应于所述信息竞价平台在下一时刻需要调整目标属性的属性值，将所述属性环境状态和预设的属性调整目标发送给智能体，以使所述智能体基于所述属性环境状态和所述属性调整目标，向所述信息竞价平台发送属性值调整策略，所述属性值调整策略用于调整不同信息的目标属性的属性值。

2.根据权利要求1所述的方法，在所述智能体向所述信息竞价平台发送所述属性值调整策略之前，所述方法还包括：

基于所述属性环境状态和所述属性值调整策略，确定奖励值；向所述智能体发送所述奖励值，以使所述智能体检测是否向所述信息竞价平台发送所述属性值调整策略。

3.根据权利要求1所述的方法，在所述基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值之前，所述方法还包括：将所述属性环境状态发送给训练完成的扰动分类模型，得到所述扰动控制模型输出的扰动分类结果，所述扰动分类模型用于判断属性环境状态是否增加扰动；

响应于所述扰动分类结果为不需要加扰动，基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值。

4.根据权利要求1-3之一所述的方法，其中，所述基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态，包括：

基于所述当前信息、所述历史信息和所述指标信息，得到多种信息的向量集合，所述向量集合包括所述当前信息的向量、所述历史信息的向量和所述指标信息的向量；

基于所述向量集合，得到下一时刻的评估指标；

基于所述评估指标、所述向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态。

5.根据权利要求4所述的方法，其中，所述基于所述评估指标、所述向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态，包括:

基于所述向量集合和所述评估指标，确定下一时刻的目标属性编码；

将所述下一时刻的目标属性编码与所述向量集合进行融合，得到下一时刻的属性环境状态；

基于所述属性环境图谱，将所述下一时刻的属性环境状态中相关类目的属性环境状态进行关联。

6.根据权利要求1-3之一所述的方法，其中，所述当前信息和所述历史信息为多模态信息，所述基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态，包括：

基于所述信息竞价平台中不同投放词的分布，对所述当前信息、所述历史信息以及所述指标信息进行分层采样，得到至少一层层信息和各层层信息相应的指标信息；

将各层层信息和相应的指标信息分别输入训练完成的多模态融合模型，得到各层层信息的向量集合，所述多模态融合模型用于对多种模态信息进行向量计算，得到各种模态信息的向量；

计算各层层信息的向量集合对应的评估指标；

基于各层层信息的评估指标、各层层信息的向量集合以及预设的属性环境图谱，得到各层层信息的下一时刻的属性环境状态；

组合所有层的层信息的下一时刻的属性环境状态，得到所述信息竞价平台的下一时刻的属性环境状态。

7.根据权利要求1所述的方法，其中，所述基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值，包括：

基于所述当前信息、所述历史信息以及所述指标信息，预测下一时刻的评估指标；

将所述评估指标、所述属性环境状态输入已训练完成的调价判别模型，得到所述调价判断模型输出的是否调整目标属性的属性值的判别结果；

基于所述判别结果，确定下一时刻是否需要调整目标属性的属性值。

8.根据权利要求1所述的方法，其中，所述属性值调整策略是从多个预置调整策略中选取的一个预置调整策略；

所述预置调整策略包括以下至少一项：

第一提价策略，用于针对所述信息竞价平台中展示次数大于预设次数且无消费的第一输入信息，在所述第一输入信息对应的目标属性的属性值中增加展示惩罚项；

第一降价策略，用于针对所述信息竞价平台中展示等级小于预设等级值的第二输入信息，在所述第二输入信息对应的目标属性的属性值中增加压价项；

第二提价策略，用于针对所述信息竞价平台中展示等级小于预设等级值且预定指标满足指标要求的第三输入信息，在所述第三输入信息对应的目标属性的属性值中增加上边界界限，以限制所述第三输入信息的目标属性的属性值；

第二降价策略，用于针对所述信息竞价平台中收入规模大于预设规模值的第四输入信息，在所述第四输入信息对应的目标属性的属性值中增加收入奖励因子，以维持所述第一输入信息的输入规模。

9.一种信息处理装置，所述装置包括：

获取单元，被配置成获取信息竞价平台的当前时刻的当前信息、历史信息以及所述当前信息和所述历史信息的指标信息；

确定单元，被配置成基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态；

检测单元，被配置成基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值；

调整单元，被配置成响应于所述信息竞价平台在下一时刻需要调整目标属性的属性值，将所述属性环境状态和预设的属性调整目标发送给智能体，以使所述智能体基于所述属性环境状态和所述属性调整目标，向所述信息竞价平台发送所述属性值调整策略，所述属性值调整策略用于调整不同信息的目标属性的属性值。

10.根据权利要求9所述的装置，所述装置还包括：

奖励单元，被配置成基于所述属性环境状态和所述属性值调整策略，确定奖励值；向所述智能体发送所述奖励值，以使所述智能体检测是否向所述信息竞价平台发送所述属性值调整策略。

11.根据权利要求9所述的装置，所述装置还包括：

扰动单元，被配置成将所述属性环境状态发送给训练完成的扰动分类模型，得到所述扰动控制模型输出的扰动分类结果，所述扰动分类模型用于判断属性环境状态是否增加扰动；响应于所述扰动分类结果为不需要加扰动，控制所述检测单元工作。

12.根据权利要求9-11之一所述的装置，其中，所述确定单元包括：

向量得到模块，被配置成基于所述当前信息、所述历史信息和所述指标信息，得到多种信息的向量集合，所述向量集合包括所述当前信息的向量、所述历史信息的向量和所述指标信息的向量；

评估模块，被配置成基于所述向量集合，得到下一时刻的评估指标；

状态得到模块，被配置成基于所述评估指标、所述向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态。

13.根据权利要求12所述的装置，其中，所述状态得到模块进一步被配置成：基于所述向量集合和所述评估指标，确定下一时刻的目标属性编码；将所述下一时刻的目标属性编码与所述向量集合进行融合，得到下一时刻的属性环境状态；基于所述属性环境图谱，将所述下一时刻的属性环境状态中相关类目的属性环境状态进行关联。

14.根据权利要求9-11之一所述的装置，其中，所述当前信息和所述历史信息为多模态信息，所述确定单元进一步被配置成：基于所述信息竞价平台中不同投放词的分布，对所述当前信息、所述历史信息以及所述指标信息进行分层采样，得到至少一层层信息和各层层信息相应的指标信息；将各层层信息和相应的指标信息分别输入训练完成的多模态融合模型，得到各层层信息的向量集合，所述多模态融合模型用于对多种模态信息进行向量计算，得到各种模态信息的向量；计算各层层信息的向量集合对应的评估指标；基于各层层信息的评估指标、各层层信息的向量集合以及预设的属性环境图谱，得到各层层信息的下一时刻的属性环境状态；组合所有层的层信息的下一时刻的属性环境状态，得到所述信息竞价平台的下一时刻的属性环境状态。

15.根据权利要求9所述的装置，其中，所述检测单元进一步被配置成：基于所述当前信息、所述历史信息以及所述指标信息，预测下一时刻的评估指标；将所述评估指标、所述属性环境状态输入已训练完成的调价判别模型，得到所述调价判断模型输出的是否调整目标属性的属性值的判别结果；基于所述判别结果，确定下一时刻是否需要调整目标属性的属性值。

16.根据权利要求9所述的装置，其中，所述属性值调整策略是从多个预置调整策略中选取的一个预置调整策略；所述预置调整策略包括以下至少一项：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。