CN114005014B

CN114005014B - 一种模型训练、社交互动策略优化方法

Info

Publication number: CN114005014B
Application number: CN202111586916.6A
Authority: CN
Inventors: 李津; 蒋婉棋
Original assignee: Hangzhou Huali Intelligent Technology Co ltd
Current assignee: Hangzhou Huali Intelligent Technology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-06-17
Anticipated expiration: 2041-12-23
Also published as: CN114005014A

Abstract

本说明书一个或多个实施例提供一种模型训练、社交互动策略优化方法。将社交化运营（业务视角）描述为动作与社交场景的环境之间的数据交互（技术视角），即“环境状态‑将动作施加于环境‑环境对动作进行响应以得到新环境状态”。进而，可以在上述技术视角下，采用特定的模型训练方法训练一个策略选择模型，该策略选择模型用于根据社交场景的环境状态来提供相应的互动发起策略，以便指导运营方账号基于有效的互动发起策略向用户发起社交互动。

Description

一种模型训练、社交互动策略优化方法

技术领域

本说明书一个或多个实施例涉及信息技术领域，尤其涉及一种模型训练、社交互动策略优化方法。

背景技术

在互联网时代，出现了社交化运营这种新型的业务运营模式。社交化运营通常是指运营方在社交场景下与用户进行社交互动，利用社交互动来实现特定的运营目标。

有时运营方需要主动发起与用户之间的社交互动，这种情况下，以怎样的策略发起社交互动是非常重要的，这会直接影响到业务运营效果。

基于此，需要一种比较有效的发起社交互动的技术方案。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种模型训练、社交互动策略优化方法。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种模型训练方法，包括：

监测社交场景的环境状态，得到第一环境状态信息；其中，环境状态包括：社交场景下注册的运营方账号的当前运营目标，以及社交场景下注册的用户账号与运营方账号之间的历史社交互动相关特征；

将第一环境状态信息输入待训练的策略选择模型，输出从互动发起策略集合中选择的互动发起策略；

基于输出的互动发起策略向用户账号发起社交互动，以影响环境状态；

再次监测社交场景的环境状态，得到第二环境状态信息；

基于第一环境状态信息与第二环境状态信息所表征的环境状态变化，以及预设的奖励规则，确定奖励值；其中，环境状态变化越有利于达成所述当前运营目标，所述奖励值越高；

将第一环境状态信息与第二环境状态信息输入待训练的状态评价模型，输出相应的评分；

对第一环境状态信息的评分与第二环境状态信息的评分进行对比，根据对比结果与奖励值确定训练误差，根据训练误差更新策略选择模型与状态评价模型，完成一次训练迭代。

在一些实施例中，运营方账号的当前运营目标包括以下至少一种：

提升用户对品牌的认可度；吸引用户关注新上架的产品；吸引用户领取优惠券。

在一些实施例中，用户账号与运营方账号之间的历史社交互动相关特征包括以下至少一种：

历史上用户账号与运营方账号进行社交互动的频率；

历史上用户账号向运营方账号发起交易订单的数量；

历史上用户账号向运营方账号发起交易订单的金额；

用户账号最近一次与运营方账号进行过的社交互动所对应的时间；

用户账号最近一次向运营方账号发起过的交易订单所对应的时间。

在一些实施例中，所述环境状态还包括：

用户账号对应的一项或多项用户画像特征。

在一些实施例中，用户画像特征包括：

社交场景下为用户标记的类型标签，或者，社交场景下用户对应的影响力指数。

在一些实施例中，基于输出的互动发起策略向用户账号发起社交互动，包括：

若输出的互动发起策略属于需要发起社交互动的策略类型，则基于输出的互动发起策略向用户账号发起社交互动。

在一些实施例中，还包括：

若输出的互动发起策略属于不需要发起社交互动的策略类型，则结束本次训练迭代。

将输出的互动发起策略发送给聊天机器人，以使得聊天机器人从语料库中选择匹配于该互动发起策略的互动发起语句并返回；

将该互动发起语句发送给用户账号。

在一些实施例中，再次监测社交场景的环境状态，包括：

在经过指定时长之后，再次监测社交场景的环境状态。

在一些实施例中，还包括：

在开始训练迭代之前，获取若干数据样本；其中，每个数据样本用于表征一个环境状态与针对该环境状态给出的标准的互动发起策略；

基于模仿学习方式，使用所述若干数据样本对策略选择模型进行预训练。

在一些实施例中，还包括：

在进行既更新策略选择模型又更新状态评价模型的训练迭代之前，进行若干次仅更新状态评价模型的训练迭代。

根据本说明书一个或多个实施例的第二方面，提出了一种社交互动发起方法，所述方法基于第一方面所述方法训练得到策略选择模型，所述方法包括：

监测社交场景的环境状态，得到第三环境状态信息；

将第三环境状态信息输入策略选择模型，输出从互动发起策略集合中选择的互动发起策略；

基于输出的互动发起策略向用户账号发起社交互动。

在一些实施例中，还包括：

若输出的互动发起策略属于需要发起社交互动的策略类型，基于输出的互动发起策略向用户账号发起社交互动。

在一些实施例中，若输出的互动发起策略属于不需要发起社交互动的策略类型，则不向用户账号发起社交互动。

在一些实施例中，周期性执行所述会话发起方法。

根据本说明书一个或多个实施例的第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

根据本说明书一个或多个实施例的第四方面，提供了一种计算设备，包括存储器、处理器；所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现第一方面所述的方法。

通过上述技术方案，可以确定比较有效的社交互动发起策略，用于运营方主动向用户发起社交互动，用户更容易对运营方做出有利于达成当前运营目标的响应。

附图说明

图1是本说明书提供的一种模型训练方法的流程示意图。

图2是本说明书提供的一种社交互动策略优化方法的流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

本文所述的社交场景，可以是指任何具有社交功能的线上场景或线下场景。线上的社交场景可以是社交媒体平台（如微信、微博、B站、论坛BBS），也可以是网络游戏、元宇宙。线下的社交场景可以是商场内的导购机器人与消费者之间的进行社交互动、智能汽车的车载机器人与司机或乘客进行社交互动等等。

在社交场景下，可以注册用户账号与运营方账号。容易理解，用户账号有狭义与广义之分。广义上的用户账号可以是指任何人或机构在社交场景下注册的账号，也就是说，用户账号既可以是普通用户注册的账号，也可以是运营方作为非普通用户所注册的账号。而狭义上的用户账号是指普通用户注册的账号。后文为了描述上的区分，当使用“用户账号”的表述时，其实是指普通用户注册的账号。

运营方可以理解为存在运营需求（或称运营目的）的一方，常见的运营需求可以是营销需求，例如进行品牌营销、产品营销、购物活动营销等等。运营方账号可以主动向用户账号发送社交互动，引导用户关注品牌、产品、购物活动，如果能够进一步引导用户成为品牌付费会员、购买产品或者参与购物活动，则更符合运营方的运营目标。

本文所述的社交互动，可以有多种具体表现形式。例如，社交场景是社交媒体平台的情况下，社交互动的具体表现形式可以是社交方账号与用户账号之间通过聊天窗口界面进行会话，社交方账号与用户账号之间可以互相发送文字、图片、音频、视频、链接等数据，这种会话的社交互动方式通常被称为私信。社交方账号可以主动发起与用户账号之间的会话，这属于主动发起社交互动的行为。

又如，社交场景是社交媒体平台的情况下，社交互动的具体表现形式还可以是点赞、转发、评论、收藏等操作。需要说明的是，社交方账号可以对用户账号发布的内容进行点赞、转发、评论、收等操作，这种情况可以视为社交方账号主动发起社交互动的行为，此外，用户账号也可以主动对社交方账号发布的内容进行点赞、转发、评论、收藏等操作。

在实际应用中，运营方账号的当前运营目标可以是不时更新的，运营方账号可以周期性或不时向用户账号发起社交互动以实现当时的运营目的（即当前运营目的）。

在本公开提供的技术方案中，将社交化运营（业务视角）描述为动作与社交场景的环境之间的数据交互（技术视角），即“环境状态-将动作施加于环境-环境对动作进行响应以得到新环境状态”。进而，可以在上述技术视角下，采用特定的模型训练方法训练一个策略选择模型，该策略选择模型用于根据社交场景的环境状态来提供相应的互动发起策略，以便指导运营方账号基于有效的互动发起策略向用户发起社交互动。

上述特定的模型训练方法的构思包括：

一方面，考虑到社交化运营的特点，将社交场景的环境状态定义为社交场景下注册的运营方账号的当前运营目标，以及社交场景下注册的用户账户与运营方账号之间的历史社交互动相关特征。其中，运营方账号的当前运营目标可以表明运营方账号当前向用户账号发起社交互动的动机与所期望实现的目的；而用户账号与运营方账号之间的历史社交互动相关特征可以表明用户账号与运营方账号之间在过去一段时期的社交互动情况。如此，社交场景的环境状态可以作为有意义的参考，用于选择互动发起策略。

另一方面，可以预设互动发起策略集合，不同的互动发起策略用于指导运营方账号以不同的互动发起行为方式向用户账号发起社交互动，可以将互动发起策略理解为互动发起行为方式的类型（可以按行为意图划分类型），一个互动发起策略可以包括若干互动发起行为方式，在明确了互动发起策略之后，可以从其所包括的若干互动发起行为方式中选择一个互动发起行为方式。可以将预设的互动发起策略集合中的互动发起策略对应的互动发起行为定义为施加于环境中的动作。

基于上述两个方面的考虑，可以发现动作施加于环境之后可能会导致环境状态发生变化，即用户账号对于互动发起策略对应的互动发起行为的响应情况可能导致了用户账号与运营方账号之间的历史社交互动相关特征发生变化，也就导致了环境状态发生变化。此外，运营方账号的当前运营目标可能改变，同样也会导致环境状态发生变化。另外，动作施加于环境之后，环境状态也可能没有发生变化，例如，用户账号对互动发起行为没有响应，社交方账号的当前运营目标也没有变化。

在动作施加于环境之前与之后，环境状态变化（可以包含没有变化的情况）可能是符合运营方期望（即有利于运营方的当前运营目标的达成）的，也可能是不符合运营方期望（即不利于运营方的当前运营目标的达成）的，因此，采用强化学习的思路来进行模型训练，即奖励能够导致符合运营方期望的环境状态变化的动作，惩罚不能够导致符合运营方期望的环境状态变化的动作，如此，被训练的模型可以越来越有能力将环境状态朝符合运营方期望的方向进行改变。例如，环境状态变化为0（即没有变化）时，可以惩罚导致该环境状态变化的动作。

在训练架构的设计上，构建策略选择模型与状态评价模型，这两个模型可以基于深度神经网络构建，也可以基于其他算法结构进行构建。将社交场景的环境状态信息作为策略选择模型的输入，也作为状态评价模型的输入；将预设的互动发起策略集合中的互动发起策略作为策略选择模型的输出，将对状态的评分作为状态评价模型的输出。

此外，还需要预先设置奖励规则（或称奖励函数），该奖励规则用于监督训练过程，如果社交方账号基于互动发起策略向用户账号发起社交互动之后导致的环境状态变化（至少包括用户账号的响应情况）比较符合运营方账号的当前运营目标，有利于达成当前运营目标，那么可以对本次训练迭代中策略选择模型的表现（即输出互动发起策略的表现）进行奖励，赋予较高的奖励值；如果社交方账号基于互动发起策略向用户账号发起社交互动之后导致的环境状态变化比较不符合运营方账号的当前运营目标，不利于达成当前运营目标，那么可以对本次训练迭代中策略选择模型的表现进行惩罚，赋予较低的奖励值。容易理解，奖励值正相关于环境状态变化对当前运营目标的符合程度，符合程度越高，越有利于达成当前运营目标。上述的训练架构可以具体是深度强化学习架构Actor-Critic。

在一次训练迭代中，需要在向用户账号发起社交互动之前，监测一次社交场景的环境状态并输入到策略选择模型，进而确定出互动发起策略；还需要在向用户账号社交互动之后，再监测一次社交场景的环境状态，得到新环境状态，可以理解，新环境状态包括了用户账号对该会话发起语句的响应情况（可以包含不响应的特殊情况）。然后根据环境状态变化与奖励规则，确定奖励值。

在明确了对本次训练迭代中策略选择模型所反馈的奖励值之后，需要对策略选择模型的参数进行优化，为了实现此优化目的，需要借助状态评价模型，在奖励值的基础上参考状态评价模型对旧环境状态与新环境状态分别输出的评分之间的对比结果，明确本次训练迭代中的训练误差，以便明确对策略选择模型参数进行优化的方向。

另外，由于状态评价模型本身也是预先构建出来的，状态评价模型在早期的训练迭代中并不能很好的评价环境状态，因此，实际上需要同时训练策略选择模型与状态评价模型，即同样需要在一次训练迭代中，根据训练误差对状态评价模型的参数进行优化，随着训练迭代次数的增多，策略选择模型与状态评价模型一起得到优化。

在完成多次训练迭代之后，可以得到合格的策略选择模型，该策略选择模型可以根据当前监测的社交场景的环境状态，提供能够比较符合运营方账号的当前运营目标的互动发起策略。

图1是本说明书提供的一种模型训练方法的流程示意图，包括如下步骤：

S100：监测社交场景的环境状态，得到第一环境状态信息。

S102：将第一环境状态信息输入待训练的策略选择模型，输出从互动发起策略集合中选择的互动发起策略。

S104：基于输出的互动发起策略向用户账号发起社交互动，以影响环境状态。

S106：再次监测社交场景的环境状态，得到第二环境状态信息。

S108：基于第一环境状态信息与第二环境状态信息所表征的环境状态变化，以及预设的奖励规则，确定奖励值。

S110：将第一环境状态信息与第二环境状态信息输入待训练的状态评价模型，输出相应的评分。

S112：对第一环境状态信息的评分与第二环境状态信息的评分进行对比，根据对比结果与奖励值确定训练误差，根据训练误差更新策略选择模型与状态评价模型，完成一次训练迭代。

在实际应用中，社交场景下注册的用户账号可以有多个，社交场景下也可以注册有不同运营方的运营方账号。

本文为了描述的方便，以单个运营方账号与单个用户账号之间的社交化运营关系为一组进行说明，容易理解，在实际应用中，社交场景下可以存在若干组运营方账号与用户账号的社交化运营关系。因此，社交场景的环境状态，也是针对一组运营方账号与用户账号的社交化运营关系而言的，不同组的社交化运营关系对应于不同的环境状态。

在实际应用中，可以在社交场景下部署模型训练系统，模型训练系统利用社交场景下的一组组运营方账号与用户账号的社交化运营关系所产生的数据为样本数据进行模型训练。在训练得到策略选择模型之后，可以指定任一组社交化运营关系，根据该组社交化运营关系对应的当前环境状态，选择相应的互动发起策略，以便该组社交化运营关系中的运营方账号向用户账号发起社交互动。

还需要说明的是，在实际应用中不同社交场景下的社交互动机制不同，可能导致同一运营方在不同社交场景下进行运营所面对的环境不同，因此，可以在不同社交场景下部署独立的模型训练系统，基于该社交场景下的数据进行独立训练，训练专用于该社交场景的策略选择模型。

社交场景的环境状态可以包括社交场景上的运营方账号的当前运营目标，以及社交场景上的用户账号与运营方账号之间的历史社交互动相关特征。其中，运营方账号的当前运营目标中所谓的“当前”，是指监测社交场景的环境状态时的时间点。容易理解，每次监测社交场景的当前环境状态时，“当前”对应的时间点是不同的，而社交场景在不同时间点的环境状态也可能是不同的。

在一些实施例中，运营方账号的当前运营目标包括以下至少一种：提升用户对品牌的认可度；吸引用户关注新上架的产品；吸引用户领取优惠券。

需要说明的是，本文中定义的用户账号与社交方账号之间的一次社交互动，可以理解为一个互动过程，而不是一轮互动。在一次社交互动过程中，可以发生若干轮次的互动，例如，用户账号与社交方账号在会话中，可以进行若干轮对话。

历史上用户账号与运营方账号进行社交互动的频率；

历史上用户账号向运营方账号发起交易订单的数量；

历史上用户账号向运营方账号发起交易订单的金额；

需要说明的是，随着用户账号与运营方账号之间进行越来越多次的社交互动，上述的历史社交互动相关特征会发生更新。其中，运营方账号主动向用户账号发起社交互动时，用户账号的响应情况会导致历史社交互动特征发生更新。另外，用户账号主动向运营方账号发起社交互动，或者用户账号与运营方账号在已经发起的社交互动中进行若干轮次的互动，也会导致历史社交互动特征发生更新。

用户账号对该运营方账号发起的社交互动的响应情况可以是回应，也可以是不回应，其中，回应的方式可以是口头回话、在聊天界面中回复聊天，也可以是针对运营方账号发起社交互动时携带的信息进行某些操作（如点击下单、点击领券、点击参加活动）。

此外，除了历史社交互动相关特征发生更新会导致社交场景的环境状态发生更新以外，运营方账号的当前运营目标也可能发生更新，也会导致环境状态发生更新。

另外，在一些实施例中，环境状态还可以包括用户账号对应的一项或多项用户画像特征。用户画像特征是对用户在社交场景下的行为进行记录而确定的，其通常不会因为运营方账号与用户账号之间发生社交互动而即刻发生更新。例如，用户画像特征可以是用户的性别、年龄、所属地域、教育背景、工作领域等等。

在一些实施例中，用户画像特征可以包括社交场景下为用户标记的类型标签（如财经博主、军事博主、搞笑博主、数码博主等），或者，社交场景下用户对应的影响力指数（例如，用户的粉丝数量与影响力指数正相关）。

需要说明的是，预设的互动发起策略集合中，可以包括属于需要发起社交互动的策略类型，也可以包括属于不需要发起社交互动的策略类型。而需要发起社交互动的策略类型往往有多个，可以进一步包括不同意图的互动发起策略类型，例如打招呼、产品上新介绍、活动提醒、优惠券发放等。

在一些实施例中，若输出的互动发起策略属于需要发起社交互动的策略类型，则基于输出的互动发起策略向用户账号发起社交互动。进一步地，若输出的互动发起策略属于不需要发起社交互动的策略类型，则结束本次训练迭代。

在一些实施例中，可以将输出的互动发起策略发送给聊天机器人，以使得聊天机器人从语料库中选择匹配于该互动发起策略的互动发起语句并返回；将该互动发起语句发送给用户账号。

在一些实施例中，运营方账号基于模型选择的互动发起策略向用户账号发起社交互动之后，可以在经过指定时长之后，再次监测社交场景的环境状态。所述指定时长可以根据预先统计的多个用户对运营方的社交互动发起行为的回应时间间隔的平均值确定。如果经过指定时长之后，用户没有回应，则可以认定用户的响应情况为忽略，这种情况下，可以将用户忽略的响应情况纳入历史社交互动相关特征，也可以将用户忽略的响应情况不纳入历史社交互动相关特征。

在一些实施例中，可以在开始训练迭代之前，获取若干数据样本，其中，每个数据样本用于表征一个环境状态与针对该环境状态给出的标准的互动发起策略。然后，可以基于模仿学习方式，使用所述若干数据样本对策略选择模型进行预训练。其中，这些数据样本的来源可以是向人类专家提供一个环境状态之后，获取该人类专家选择的会话发起策略。

这样做的目的是为了提升训练效率，预先让策略选择模型学习人类的社交互动发起模式，得到一定的策略选择能力，这样可以加速后续的强化学习训练过程。

在一些实施例中，可以在进行既更新策略选择模型又更新状态评价模型的训练迭代之前，进行若干次仅更新状态评价模型的训练迭代。

这样做的目的也是为了提升训练效率，先训练过程的前几次训练迭代，先固化策略选择模型的参数，聚焦于优化状态评价模型，待到状态评价模型的打分能力比较稳定之后，再进行同时优化策略选择模型与状态评价模型的训练迭代。

图2是本说明书提供的一种社交互动策略优化方法的流程示意图，包括如下步骤：

S200：监测社交场景台的环境状态，得到第三环境状态信息。

S202：将第三环境状态信息输入策略选择模型，输出从互动发起策略集合中选择的互动发起策略。

S204：基于输出的互动发起策略向用户账号发起社交互动。

在一些实施例中，若输出的互动发起策略属于需要发起社交互动的策略类型，基于输出的互动发起策略向用户账号发起社交互动。进一步地，若输出的互动发起策略属于不需要发起社交互动的策略类型，则不向用户账号发起社交互动。

在一些实施例中，可以周期性或不定时执行图2所示的社交互动发起方法。

此外，在线上的社交场景下，运营方账号向用户账号发起社交互动的方式，可以是向用户发送社交互动发起语句。在已经发起的社交互动过程中，用户账号进一步向运营方账号发送语句时，运营方账号可以调用聊天机器人与用户账号进行对话。

另外，对于用户账号主动向运营方账号发起社交互动的情况，运营方账号可以直接调用聊天机器人对用户发送的社交互动发起语句进行意图识别，如果意图识别成功，则聊天机器人启动知识图谱模式，即基于与运营方的业务领域相关的知识图谱，与用户账号进行对话；如果意图识别失败，则聊天机器人启动闲聊模式，与用户账号进行闲聊。

本说明书还提供一种虚拟装置，包括若干软件模块，用于实现图1或图2所示方法。

本说明书还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现图1或图2所示方法。

本说明书还提供一种计算设备，包括存储器、处理器；所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现图1或图2所述方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中，计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种模型训练方法，包括：

基于输出的互动发起策略向用户账号发起社交互动，以影响环境状态；其中，环境状态发生更新包括：运营方账号的当前运营目标发生更新，和/或，用户账号与运营方账号之间的历史社交互动相关特征发生更新；

再次监测社交场景的环境状态，得到第二环境状态信息；

2.如权利要求1所述方法，运营方账号的当前运营目标包括以下至少一种：

3.如权利要求1所述方法，用户账号与运营方账号之间的历史社交互动相关特征包括以下至少一种：

历史上用户账号与运营方账号进行社交互动的频率；

历史上用户账号向运营方账号发起交易订单的数量；

历史上用户账号向运营方账号发起交易订单的金额；

4.如权利要求1所述方法，所述环境状态还包括：

用户账号对应的一项或多项用户画像特征。

5.如权利要求4所述方法，用户画像特征包括：

6.如权利要求1所述方法，基于输出的互动发起策略向用户账号发起社交互动，包括：

7.如权利要求6所述方法，还包括：

8.如权利要求1所述方法，基于输出的互动发起策略向用户账号发起社交互动，包括：

将该互动发起语句发送给用户账号。

9.如权利要求1所述方法，再次监测社交场景的环境状态，包括：

在经过指定时长之后，再次监测社交场景的环境状态。

10.如权利要求1所述方法，还包括：

11.如权利要求1所述方法，还包括：

12.一种社交互动策略优化方法，所述方法基于权利要求1-11任一项所述方法训练得到策略选择模型，所述方法包括：

监测社交场景的环境状态，得到第三环境状态信息；

基于输出的互动发起策略向用户账号发起社交互动。

13.如权利要求12所述方法，基于输出的互动发起策略向用户账号发起社交互动，包括：

14.如权利要求13所述方法，还包括：

若输出的互动发起策略属于不需要发起社交互动的策略类型，则不向用户账号发起社交互动。

15.如权利要求12-14任一项所述方法，周期性执行所述社交互动发起方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1-15任一项所述的方法。

17.一种计算设备，包括存储器、处理器；所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1-15任一项所述的方法。