CN114090888A

CN114090888A - 服务模型构建方法及相关装置

Info

Publication number: CN114090888A
Application number: CN202111384578.8A
Authority: CN
Inventors: 周峰; 陈伟; 李莉; 林佳佳; 王晶晶; 刘键
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-25
Anticipated expiration: 2041-11-19
Also published as: CN114090888B

Abstract

本申请提供的服务模型构建方法及相关装置中，服务设备获取一具有服务信息记忆能力的环境交互模型，将其作为该强化学习模型的交互环境，训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型。由于该环境交互模型具有服务信息记忆能力，因此，在对强化学习模型生成的服务策略进行评价时，能够综合用户的历史状态以及历史状态对应服务策略的服务价值进行评估，使得最终获得的用户服务模型在为用户制定服务策略时，能够适应用户状态的变化，更为灵活的为用户制定服务策略。

Description

服务模型构建方法及相关装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种服务模型构建方法及相关装置。

背景技术

随着互联网技术蓬勃发展，使得海量的信息传输在网络当中。例如，用户在服务平台的各种用户状态可以通过网络传输并被记录，而不同的用户之间，其用户状态存在一定的差异，因此，为了提供更好的服务质量，服务平台会为不同的用户提供差异化的服务策略。

发明人研究发现，现有服务策略的制定往往根据用户在服务平台的历史状态求得一个固定的策略。而现实场景中，用户的需求会随着时间产生变化，使得用户在服务平台的相应用户状态同样会发生变化；因此，基于用户的历史状态求得一个固定的策略难以适应用户状态动态变化的场景。

发明内容

为了克服现有技术中的至少一个不足，本申请实施例提供一种服务模型构建方法及相关装置，包括：

第一方面，本申请实施例提供一种服务模型构建方法，应用于服务设备，所述服务设备配置有待训练的强化学习模型，所述方法包括：

获取具有服务信息记忆能力的环境交互模型，其中，所述服务信息包括样本用户的样本状态以及所述样本状态对应服务策略产生的服务价值；

通过所述环境交互模型训练所述强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型，其中，所述环境交互模型用于评估所述用户状态对应的服务策略产生的服务价值，并根据所述用户状态以及所述用户状态对应的服务策略产生新的用户状态。

在一种实现方式中，所述服务设备配置有待训练的循环神经网络，所述获取具有服务信息记忆能力的环境交互模型，包括：

获取第一序列以及第二序列，其中，所述第一序列包括由所述样本状态以及所述样本状态对应服务策略构建的多个状态策略对；所述第二序列包括与所述多个状态策略对一一对应的服务价值；

将所述第一序列输入到所述循环神经网络；

依据预测序列与所述第二序列之间的差异，调整所述循环神经网络的网络参数，以获得所述环境交互模型，其中，所述预测序列由所述循环神经网络根据所述第一序列进行预测获得，所述预测序列包括与所述多个状态策略对一一对应的多个预测价值。

在一种实现方式中，所述通过所述环境交互模型训练所述强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型，包括：

初始化用户状态；

将所述用户状态输入到所述强化学习模型，获得所述用户状态对应的服务策略；

通过所述环境交互模型处理所述用户状态以及所述用户状态对应的服务策略，获得新的用户状态以及所述用户状态对应的服务策略的服务价值；

根据所述服务价值获得所述强化学习模型的训练损失；

若所述训练损失满足预设收敛条件，则获得所述用户服务模型；

若所述训练损失不满足所述预设收敛条件，则根据所述新的用户状态返回执行将所述用户状态输入到所述强化学习模型，获得所述用户状态对应的服务策略的步骤，直到所述强化学习模型的训练损失满足所述预设收敛条件。

在一种实现方式中，所述方法还包括：

获取目标用户的状态；

将所述目标用户的状态输入到所述用户服务模型进行处理，获得与所述目标用户的状态相匹配的服务策略。

在一种实现方式中，所述获取目标用户的状态之前，所述方法还包括：

获取多个待识别用户的历史购物信息；

根据所述历史购物信息从所述多个待识别用户中确定出稳定型用户以及动态型用户，其中，所述稳定型用户表征对服务策略反应迟钝的用户，所述动态型用户表征对服务策略反应敏感的用户；

从所述动态型用户中选取所述目标用户。

在一种实现方式中，所述历史购物信息包括商品属性、商品价格以及购物进度，所述根据所述历史购物信息从所述多个待识别用户中确定出稳定型用户以及动态型用户，包括：

针对每个所述待识别用户，根据所述待识别用户的商品属性、商品价格以及购物进度各自的权重进行加权求和，获得所述待识别用户的类型得分；

根据所述多个待识别用户的类型得分，确定出所述稳定型用户以及所述动态型用户，其中，所述稳定型用户的类型得分小于或者等于分数阈值，所述动态型用户的类型得分大于所述分数阈值。

第二方面，本申请实施例提供一种服务模型构建装置，应用于服务设备，所述服务设备配置有待训练的强化学习模型，所述服务模型构建装置，包括：

环境构建模块，用于获取具有服务信息记忆能力的环境交互模型，其中，所述服务信息包括样本用户的样本状态以及所述样本状态对应服务策略产生的服务价值；

模型构建模块，用于通过所述环境交互模型训练所述强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型，其中，所述环境交互模型用于评估所述用户状态对应的服务策略产生的服务价值，并根据所述用户状态以及所述用户状态对应的服务策略产生新的用户状态。

在一种实现方式中，所述服务设备配置有待训练的循环神经网络，所述环境构建模块获取环境交互模型的方式，包括：

将所述第一序列输入到所述循环神经网络；

在一种实现方式中，所述模型构建模块构建用户服务模型的方式，包括：

初始化用户状态；

根据所述服务价值获得所述强化学习模型的训练损失；

在一种实现方式中，所述服务模型构建装置还包括：

策略生成模块，用于获取目标用户的状态；将所述目标用户的状态输入到所述用户服务模型进行处理，获得与所述目标用户的状态相匹配的服务策略。

在一种实现方式中，所述服务模型构建装置还包括：

信息获取模块，用于获取多个待识别用户的历史购物信息；

用户筛选模块，用于根据所述历史购物信息从所述多个待识别用户中确定出稳定型用户以及动态型用户，其中，所述稳定型用户表征对服务策略反应迟钝的用户，所述动态型用户表征对服务策略反应敏感的用户；

从所述动态型用户中选取所述目标用户。

在一种实现方式中，所述用户筛选模块筛选所述稳定型用户以及动态型用户的方式，包括：

第三方面，本申请实施例提供一种服务设备，所述服务设备包括处理器以及存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序，以实现所述的服务模型构建方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，以实现所述的服务模型构建方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现所述的服务模型构建方法。

相对于现有技术而言，本申请具有以下有益效果：

本实施例提供的服务模型构建方法及相关装置中，服务设备获取一具有服务信息记忆能力的环境交互模型，将其作为该强化学习模型的交互环境，训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型。由于该环境交互模型具有服务信息记忆能力，因此，在对强化学习模型生成的服务策略进行评价时，能够综合用户的历史状态以及历史状态对应服务策略的服务价值进行评估，使得最终获得的用户服务模型在为用户制定服务策略时，能够适应用户状态的变化，更为灵活的为用户制定服务策略。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的场景示意图；

图2为本申请实施例提供的服务设备结构示意图；

图3为本申请实施例提供的服务模型构建方法示意图之一；

图4为本申请实施例提供的步骤S101的子步骤示意图；

图5为本申请实施例提供的LSTM模型的训练示意图；

图6为本申请实施例提供的步骤S102的子步骤示意图；

图7为本申请实施例提供的DQN模型的训练示意图；

图8为本申请实施例提供的服务模型构建方法示意图之二；

图9为本申请实施例提供的服务模型构建装置的示意图。

图标：100-服务设备；200-用户终端；120-存储器；130-处理器；140-通信装置；301-环境构建模块；302-模型构建模块；303-策略生成模块；304-信息获取模块；305-户筛选模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

本实施中，考虑到不同的用户之间，在服务平台的各种用户状态存在一定的差异，为了提供更好的服务质量，服务平台会为不同的用户提供差异化的服务策略。而应理解的是，本实施例所指的服务平台可以是不同类型的互联网平台。例如，该服务平台可以是电商购物平台、直播平台、多媒体平台等。

以电商购物平台为例，电商购物平台的用户可以包括稳定型用户以及动态型用户。其中，稳定型用户表征对电商购物平台的服务策略反应迟钝的用户，动态型用户表征对电商购物平台的服务策略反应敏感的用户。而针对动态型用户又可以包括价格敏感型、冲动消费型、时尚潮流型等。这一类型的用户则对电商平台的服务策略较为敏感。

相关技术中，根据用户在服务平台的历史状态求得一个固定策略为其提供服务策略。例如，价格敏感型的用户往往对电商平台的优惠活动较为关注，则电商购物平台可以为这一类用户提供推送优惠活动的服务策略；而时尚潮流型用户往往对新潮的服饰、智能产品比较感兴趣，则电商购物平台可以为这一类用户提供推送最新潮流商品的服务策略。

然而，用户会因为年龄、工作环境以及消费水平等因素的变化，影响到购物时的用户状态。例如，价格敏感型的用户可能会变化成时尚潮流型的用户。又或者，时尚潮流型的用户并非对所有商品的价格不敏感，而是偶尔会关注一些明显性价比欠佳的商品。发明人研究发现，用户消费习惯的动态变化会反应在电商购物平台的用户状态。例如，用户浏览商品的时长、浏览商品的频率、添加到购物车的频次等用户状态会发生变化。

而根据用户的历史状态求得一个固定策略的方式，并不能感知上述用户状态的变化，继而难以提高服务策略的服务质量。

需要说明的是，对于本申请中涉及的方案，其涉及与用户隐私相关的数据，在本申请实施例执行过程中收集、产生之前，均以明示形式告知，且通过用户的授权。同时，对于本申请实施例涉及的个人信息，其存储设备的设置位置符合与上述数据相关行为的发生地所在国家/地区的法律法规要求，相关行为包括但不限于：授权、产生、使用、存储等。

基于上述技术问题的发现，发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在发明创造过程中对本申请做出的贡献，而不应当理解为本领域技术人员所公知的技术内容。

鉴于此，为了至少部分解决上述问题，本实施例提供一种应用于服务设备的服务模型构建方法。该方法中，针对待训练的强化学习模型，服务设备获取一具有服务信息记忆能力的环境交互模型，将其作为该强化学习模型的交互环境，训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型。其中，该环境交互模型用于评估用户状态对应的服务策略产生的服务价值，由于该环境交互模型具有服务信息记忆能力，因此，在对强化学习模型生成的服务策略进行评价时，能综合用户的历史用户状态以及历史用户状态对应服务策略的服务价值进行评估，使得最终获得的用户服务模型在为该用户制定服务策略时，能够适应用户状态的变化，更为灵活的为用户生成服务策略。

其中，实施本方案所使用的用户状态、服务信息、历史用户状态以及历史用户状态对应服务策略的服务价值等信息，其存储设备的设置位置符合与上述数据相关行为的发生地所在国家/地区的法律法规要求，相关行为包括但不限于：授权、产生、使用、存储等。

为了便于本领域技术人员理解本实施例提供的技术方案，在服务模型构建方法进行介绍之前，先对服务模型构建方法的应用设备进行相关的介绍。

如图1所示，该服务设备100与用户终端200通过网络通信连接，并通过用户终端200采集用户的用户状态。本实施例所指的服务设备100可以是服务平台的服务器。该服务器的类型可以是，但不限于，Web(网站)服务器、FTP(File Transfer Protocol，文件传输协议)服务器、数据处理服务器、直播服务器、电商服务器等。此外，该服务器可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器可以是分布式系统)。在一些实施例中，服务器100相对于用户终端200，可以是本地的、也可以是远程的。在一些实施例中，服务器100可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(Community Cloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等，或者它们的任意组合。在一些实施例中，服务器100可以在具有一个或多个组件的电子设备上实现。

其中，该用户终端200可以是，但不限于，移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(Point of Sale，POS)设备等，或其任意组合。

本实施例还提供该服务设备100的一种结构示意图。如图2所示，该服务器包括存储器120、处理器130、通信装置140。

该存储器120、处理器130以及通信装置140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，该存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。

该通信装置140用于通过网络建立服务设备100与用户终端200之间的通信连接，并用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched TelephoneNetwork，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication，NFC)网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点，服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。

该处理器130可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，上述处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital SignalProcessor，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing，RISC)、或微处理器等，或其任意组合。

基于上述关于服务设备100的介绍，下面结合图3对本实施例提供的服务模型构建方法的各步骤进行详细阐述。如图3所示，该方法包括：

步骤S101，获取具有服务信息记忆能力的环境交互模型。

其中，服务信息包括样本用户的样本状态以及样本状态对应服务策略产生的服务价值。

其中，实施本方案所涉及样本用户的样本状态以及样本状态对应服务策略产生的服务价值等信息，其存储设备的设置位置符合与上述数据相关行为的发生地所在国家/地区的法律法规要求，相关行为包括但不限于：授权、产生、使用、存储等。

本实施例所指的服务策略产生的服务价值可以根据需要选取不同的衡量标准。以电商购物平台为例，该服务策略可以是发送优惠券、满减活动、打折优惠、捆绑优惠、限时抢购、包邮中的一种，或者其组合。相应的服务价值可以是样本用户从第一次浏览商品到最后购买商品所花费的时间、样本用户购买商品的数量、服务平台的商家所获得的收益以及样本客户的复购率中的一种，或者其组合。

步骤S102，通过环境交互模型训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型。

其中，环境交互模型用于评估用户状态对应的服务策略产生的服务价值，并根据用户状态以及用户状态对应的服务策略产生新的用户状态。

本实施例中，服务设备将环境交互模型作为强化学习模型的交互环境，对强化学习模型训练过程中生成的服务策略进行评价，以指导强化学习模型生成最优的服务策略。

需要说明的是，强化学习模型的训练过程看作“试探-评价”过程，当强化学习模型生成一个服务策略作用于环境(即环境交互模型)，环境接受该服务策略后状态发生变化，同时产生一个服务价值(又名强化信号或者奖励)反馈给强化学习模型，强化学习模型根据服务价值和环境当前状态再生成下一个服务策略，而生成策略的原则受到服务价值的影响，具体表现为，增加高服务价值对应服务策略的概率。

而应理解的是，针对当前用户状态的服务策略不仅影响当前的服务价值，而且会影响环境下一时刻的状态及最终的服务价值。最终的服务价值Rt可以表示为：

式中，γ∈[0,1]，表示不同状态下的服务策略对应服务价值的衰减系数，r_k表示第k次服务策略对应的服务价值。因此，当前服务策略对应服务价值的权重大于未来服务策略对应服务价值的权重。

因此，强化学习模型在生成服务策略时，不仅需要关注当前服务策略的服务价值，还需要关注当前服务策略对后续服务策略的影响，使得经过多轮服务策略的实施后，总的服务价值最大。因此，在强化学习模型中，使用Q^π(s,a)表示“状态-动作”对的价值，用于衡量在用户状态为s时，遵循策略π生成服务策略a以及执行服务策略a最终期望的服务价值，相应的表达式为：

Q^π(s,a)＝Ε[R_t|s_t＝s,a_t＝a,π]

假定期望的最大服务价值表示为：

Q^*(s,a)＝max_πQ^π(s,a)

因此，强化学习模型进行训练的目的，则是为了使得训练获得的用户服务模型在每个用户状态都能遵循最优策略生成服务策略，使得最终的服务价值最大。而由于强化学习模型的训练过程看作“试探-评价”过程，因此，整个训练过程遵循Q^*(s,a)的贝尔曼方程，其表达式为：

强化学习模型通过与环境交互模型进行多轮的交互，使得获得的用户服务模型能够识别用户状态的变化，能够根据用户当前状态生成最佳的服务策略。

而应理解的是，相关技术中，通常人为设计一奖励函数作为强化学习模型的交互环境。而人为设计的奖励函数并不具有记忆能力，因此，本实施例中，选择使用具有服务信息记忆能力的环境交互模型作为交互环境，使得训练获得的用户服务模型能够感知用户状态的变化。

因此，基于上述设计，服务设备获取一具有服务信息记忆能力的环境交互模型，将其作为该强化学习模型的交互环境，训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型。由于该环境交互模型具有服务信息记忆能力，因此，在对强化学习模型生成的服务策略进行评价时，能够综合用户的历史状态以及历史状态对应服务策略的服务价值进行评估，使得最终获得的用户服务模型在为用户制定服务策略时，能够适应用户状态的变化，更为灵活的为用户制定服务策略。

本实施例中，选取循环神经网络作为环境交互模型，而循环神经网络包括多种类型的模型结构，例如，LSTM模型、GRU模型等。本领域技术人员可以根据需要选择相适应的模型结构。下面结合图4，详细介绍循环神经网络的训练方式。如图4所示，上述步骤S101，包括：

步骤S101-1，获取第一序列以及第二序列。

其中，第一序列包括由样本状态以及样本状态对应服务策略构建的多个状态策略对；第二序列包括与多个状态策略对一一对应的服务价值。

步骤S101-2，将第一序列输入到循环神经网络。

步骤S101-3，依据预测序列与第二序列之间的差异，调整循环神经网络的网络参数，以获得环境交互模型。

其中，预测序列由循环神经网络根据第一序列进行预测获得，预测序列包括与多个状态策略对一一对应的多个预测价值。

以LSTM模型为例，假定样本用户的样本状态表示为S＝{s₁,s₂,......,s_n}，与样本状态相对应的服务策略表示为A＝{a₁,a₂,......,a_n}；第一序列表示为X＝{x₁,x₂,......,x_t}，而其中的x_t＝(s_t,a_t)，表示按照时间先后顺序将样本状态以及样本状态对应服务策略组合而成的状态策略对；第二序列表示为Y＝{y₁,y₂,......,y_t}，其中，y_t表示服务价值。

本实施例还提供该LSTM模型的一结构示意图。如图5所示，该模型包括输入层、隐藏层以及输出层。而为了便于理解，将隐藏层沿时间序列展开可以包括依次连接的多个LSTM单元。服务设备将第一序列X＝{x₁,x₂,......,x_t}从输入层输入到LSTM模型；然后通过LSTM模型的隐藏层对第一序列以顺推的方式进行计算，最后通过LSTM模型的输出层获得的预测序列。

继续参见图5，在顺推的过程中，LSTM单元的输入包括状态策略对x_t以及上一迭代过程中LSTM单元输出的

其输出则为

以及

本实施例将预测序列中的预测状态表示为

将预测序列中的预测价值表示为

并以MSE(MeanSquare Error，均方误差)的方式计算预测序列与第二序列之间的差异，表达式如下：

式中，N表示样本用户的数量。

该服务设备在每次迭代过程中，通过每次获得的loss以反向梯度传播算法调整LSTM模型的网络参数，直到LSTM模型达到预设的收敛条件后，将LSTM模型作为环境交互模型。

基于上述获得的环境交互模型，下面结合图6详细介绍强化学习模型的训练方式。如图6所示，步骤S102，包括：

步骤S102-1，初始化用户状态。

步骤S102-2，将用户状态输入到强化学习模型，获得用户状态对应的服务策略。

步骤S102-3，通过环境交互模型处理用户状态以及用户状态对应的服务策略，获得新的用户状态以及用户状态对应的服务策略的服务价值。

步骤S102-4，根据服务价值获得强化学习模型的训练损失。

步骤S102-5，判断练损失是否满足预设收敛条件。

步骤S102-6，若训练损失满足预设收敛条件，则获得用户服务模型。

若训练损失不满足预设收敛条件，则根据新的用户状态返回执行步骤S102-2，直到强化学习模型的训练损失满足预设收敛条件。

其中，强化学习模型同样包括多种模型结构，例如，Q-learning模型、DQN模型、DDPG模型等。针对上述训练过程，下面以DQN模型作为待训练的强化学习模型，以上述LSTM模型作为环境交互模型进行示例性说明。如图7所示，在一轮迭代过程中，服务设备通过电商购物平台的DQN模型基于用户状态，获得相应的服务策略，例如，打折促销、免费推广、无优惠、满减促销中的一种或者其组合。

服务设备将用户状态以及DQN模型生成的服务策略作为一个状态策略对，输入到LSTM模型进行处理，获得该服务策略的服务价值以及新的用户状态，例如，商品浏览数量、在线时间、是否碎片化浏览。

然后，服务设备根据服务策略的服务价值，以DQN模型的损失函数获得训练损失，并根据训练损失以反向梯度传播算法调整DQN模型的模型参数。

最后，服务设备将新的用户状态输入到DQN模型，以进入下一轮的迭代过程，直到DQN模型满足预设的收敛条件。

本实例基于上述方式获得用户服务模型后，如图8所示，该模型构建方法还包括：

步骤S103，获取目标用户的状态。

步骤S104，将目标用户的状态输入到用户服务模型进行处理，获得与目标用户的状态相匹配的服务策略。

即本实施例中，服务设备将用户服务模型进行部署之后，获取目标用户的状态，并通过用户服务模型为目标用户提供服务策略。

由于稳定型用户对服务策略反应较为迟钝，因此，该目标用户属于对服务策略反应敏感的动态型用户，继而在获取目标用户的状态之前，该服务设备需要从多个待识别用户中筛选出动态型用户。

本实施例中，针对电商购物平台，该服务设备获取多个待识别用户的历史购物信息；然后，根据历史购物信息从多个待识别用户中确定出稳定型用户以及动态型用户，最后，从动态型用户中选取目标用户。

其中，实施本方案所使用的历史购物信息，其存储设备的设置位置符合与上述数据相关行为的发生地所在国家/地区的法律法规要求，相关行为包括但不限于：授权、产生、使用、存储等。

而作为一种筛选动态型用户以及稳定型用户的实现方式，针对每个待识别用户，该服务设备根据待识别用户历史购物信息中的商品属性、商品价格以及购物进度各自的权重进行加权求和，获得待识别用户的类型得分。

然后，该服务设备根据多个待识别用户的类型得分，确定出稳定型用户以及动态型用户，其中，稳定型用户的类型得分小于或者等于分数阈值，动态型用户的类型得分大于分数阈值。

示例性，待识别用户的历史购物信息涉及到三个因素，分别为商品属性Set、商品价格Price以及购物进度Stage。

而其中，商品属性分为实用型和享乐型，本示例中，以人工标记的方式对不同商品的商品属性进行标记。具体以Set＝1代表实用型产品，Set＝2代表享乐型产品。

购物进度则分为前期和后期。其中，后期是指用户将商品加入购物车之后的阶段。需要注意的是，本示例中，若不存在加入购物车的行为，但又提交订单的状态，则提交订单之后的阶段称为后期。而除后期之外的其他阶段称为前期。具体以stage＝1代表后期，stage＝2代表前期。

由于在购物进度的后期，用户购买价格越低的实用型产品，则用户第商品的需求特征的稳定性越高；而在购买阶段前期，用于购买价格越高的享乐型产品，则用于对商品的需求特征越不稳定。

本示例中，为了提高用户类型对应分类结果的准确性，将上述三个因素值做归一化处理后，按照三个因素各自的权重，计算待识别用户的类型得分Grade。假定各自的权重均为1/3，则类型得分Grade的计算表达式为：

并以T作为分数阈值，因此，当Grade<T时，则将待识别用户确定为稳定型用户，当Grade≥T时，将待识别用户确定为动态型用户。对于稳定型用户，用户对服务策略反应迟钝，大部分的服务策略都不会引起用户的注意，因此无需采取服务策略。而对于动态型用户，用户对服务策略反应较为敏感，提供恰当的服务策略能够获得很好的服务质量，因此，服务设备从动态型用户中选取目标用户。

基于与服务模型相同的发明构思，本实施例还提供与之对应的相关装置，包括：

本实施例还提供一种服务模型构建装置，服务模型构建装置包括至少一个可以软件形式存储于存储器120中的功能模块。如图9所示，从功能上划分，服务模型构建装置可以包括：

环境构建模块301，用于获取具有服务信息记忆能力的环境交互模型，其中，服务信息包括样本用户的样本状态以及样本状态对应服务策略产生的服务价值。

本实施例中，该环境构建模块301用于实现图3中的步骤S101，关于该环境构建模块301的详细描述，可以参见步骤S101的详细描述。

模型构建模块302，用于通过环境交互模型训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型，其中，环境交互模型用于评估用户状态对应的服务策略产生的服务价值，并根据用户状态以及用户状态对应的服务策略产生新的用户状态。

本实施例中，该模型构建模块302用于实现图3中的步骤S102，关于该模型构建模块302的详细描述，可以参见步骤S102的详细描述。

在一种实现方式中，服务设备配置有待训练的循环神经网络，环境构建模块301获取环境交互模型的方式，包括：

获取第一序列以及第二序列，其中，第一序列包括由样本状态以及样本状态对应服务策略构建的多个状态策略对；第二序列包括与多个状态策略对一一对应的服务价值；

将第一序列输入到循环神经网络；

依据预测序列与第二序列之间的差异，调整循环神经网络的网络参数，以获得环境交互模型，其中，预测序列由循环神经网络根据第一序列进行预测获得，预测序列包括与多个状态策略对一一对应的多个预测价值。

在一种实现方式中，模型构建模块302构建用户服务模型的方式，包括：

初始化用户状态；

将用户状态输入到强化学习模型，获得用户状态对应的服务策略；

通过环境交互模型处理用户状态以及用户状态对应的服务策略，获得新的用户状态以及用户状态对应的服务策略的服务价值；

根据服务价值获得强化学习模型的训练损失；

若训练损失满足预设收敛条件，则获得用户服务模型；

若训练损失不满足预设收敛条件，则根据新的用户状态返回执行将用户状态输入到强化学习模型，获得用户状态对应的服务策略的步骤，直到强化学习模型的训练损失满足预设收敛条件。

继续参见图9，在一种实现方式中，服务模型构建装置还包括：

策略生成模块303，用于获取目标用户的状态；将目标用户的状态输入到用户服务模型进行处理，获得与目标用户的状态相匹配的服务策略。

在一种实现方式中，服务模型构建装置还包括：

信息获取模块304，用于获取多个待识别用户的历史购物信息；

用户筛选模块305，用于根据历史购物信息从多个待识别用户中确定出稳定型用户以及动态型用户，其中，稳定型用户表征对服务策略反应迟钝的用户，动态型用户表征对服务策略反应敏感的用户；

从动态型用户中选取目标用户。

在一种实现方式中，用户筛选模块305筛选稳定型用户以及动态型用户的方式，包括：

针对每个待识别用户，根据待识别用户的商品属性、商品价格以及购物进度各自的权重进行加权求和，获得待识别用户的类型得分；

根据多个待识别用户的类型得分，确定出稳定型用户以及动态型用户，其中，稳定型用户的类型得分小于或者等于分数阈值，动态型用户的类型得分大于分数阈值。

本申请实施例提供一种服务设备，服务设备包括处理器以及存储器，存储器存储有计算机程序，处理器用于执行计算机程序，以实现所述的服务模型构建方法。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，以实现所述的服务模型构建方法。

本申请实施例提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现所述的服务模型构建方法。

综上所述，本实施例提供的服务模型构建方法及相关装置中，服务设备获取一具有服务信息记忆能力的环境交互模型，将其作为该强化学习模型的交互环境，训练强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型。由于该环境交互模型具有服务信息记忆能力，因此，在对强化学习模型生成的服务策略进行评价时，能够综合用户的历史状态以及历史状态对应服务策略的服务价值进行评估，使得最终获得的用户服务模型在为用户制定服务策略时，能够适应用户状态的变化，更为灵活的为用户制定服务策略。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种服务模型构建方法，其特征在于，应用于服务设备，所述服务设备配置有待训练的强化学习模型，所述方法包括：

2.根据权利要求1所述的服务模型构建方法，其特征在于，所述服务设备配置有待训练的循环神经网络，所述获取具有服务信息记忆能力的环境交互模型，包括：

将所述第一序列输入到所述循环神经网络；

3.根据权利要求1所述的服务模型构建方法，其特征在于，所述通过所述环境交互模型训练所述强化学习模型基于用户状态生成对应的服务策略，以获得用户服务模型，包括：

初始化用户状态；

根据所述服务价值获得所述强化学习模型的训练损失；

4.根据权利要求1所述的服务模型构建方法，其特征在于，所述方法还包括：

获取目标用户的状态；

5.根据权利要求4所述的服务模型构建方法，其特征在于，所述获取目标用户的状态之前，所述方法还包括：

获取多个待识别用户的历史购物信息；

从所述动态型用户中选取所述目标用户。

6.根据权利要求5所述的服务模型构建方法，其特征在于，所述历史购物信息包括商品属性、商品价格以及购物进度，所述根据所述历史购物信息从所述多个待识别用户中确定出稳定型用户以及动态型用户，包括：

7.一种服务模型构建装置，其特征在于，应用于服务设备，所述服务设备配置有待训练的强化学习模型，所述服务模型构建装置，包括：

8.一种服务设备，其特征在于，所述服务设备包括处理器以及存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序，以实现权利要求1-6任意一项所述的服务模型构建方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，以实现权利要求1-6任意一项所述的服务模型构建方法。

10.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-6任意一项所述的服务模型构建方法。