CN114648343A

CN114648343A - 一种基于强化学习模型的用户信息收集方法及装置

Info

Publication number: CN114648343A
Application number: CN202210230172.2A
Authority: CN
Inventors: 刘丹丹; 舒慧珍; 张晓旭; 曹琳; 张天翼
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-21

Abstract

本说明书实施例提供一种基于强化学习模型的用户信息收集方法及装置，强化学习模型包括策略网络，方法包括：在与目标用户的通话过程中，获取当前环境状态，当前环境状态至少基于其对应的前N轮对话内容确定，各轮对话内容包括，历史信息收集问题和所述目标用户的历史用户反馈；将当前环境状态，输入策略网络，得到当前环境状态下，备选问题集中各备选信息收集问题对应的Q值，备选问题集基于历史用户反馈和预设知识库确定，预设知识库包括，历史用户反馈中指定类型内容与各信息收集问题的映射关系；从备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题；输出目标信息收集问题，供目标用户针对目标信息收集问题反馈。

Description

一种基于强化学习模型的用户信息收集方法及装置

技术领域

本说明书涉及人机交互技术领域，尤其涉及一种基于强化学习模型的用户信息收集方法及装置。

背景技术

用户服务平台为了对平台内用户提供更好更优质的服务，往往需要对平台内用户进行相应信息收集。例如，在安全交易领域中，为了更好的实现对平台内用户的身份、业务关系以及交易目的和意图等信息的了解，进而实现对平台内用户的交易的合法性和安全性的检测，需要对平台内用户进行相应信息收集(即尽职调查)，以通过收集的信息对用户的交易进行分析，实现对其交易的合法性和安全性的判断。目前，对用户进行信息收集的过程中，一般是采取一对一人工调查收集的方式。

然而，考虑到平台内用户的量级，采用一对一人工调查收集的方式，人工成本高，且效率低。

发明内容

本说明书一个或多个实施例提供了一种基于强化学习模型的用户信息收集方法及装置，以实现更有效的用户信息收集。

根据第一方面，提供一种基于强化学习模型的用户信息收集方法，所述强化学习模型包括策略网络，所述方法包括：

在与目标用户的通话过程中，获取当前环境状态，所述当前环境状态至少基于其对应的前N轮对话内容确定，各轮对话内容包括，历史信息收集问题和所述目标用户的历史用户反馈；

将所述当前环境状态输入所述策略网络，得到所述当前环境状态下，备选问题集中各备选信息收集问题对应的Q值，其中，所述备选问题集基于所述历史用户反馈和预设知识库确定，所述预设知识库包括，所述历史用户反馈中指定类型内容与各信息收集问题的映射关系；

从所述备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题；

输出所述目标信息收集问题，以供所述目标用户针对所述目标信息收集问题进行反馈。

在一种可选实施方式中，所述获取当前环境状态，包括：

获得所述目标用户的用户画像特征；

基于所述前N轮对话内容以及所述用户画像特征，确定所述当前环境状态。

在一种可选实施方式中，所述指定类型内容根据所述通话的信息收集目的而预先设置。

在一种可选实施方式中，所述通话的信息收集目的包括，用于识别不安全交易的尽职调查。

在一种可选实施方式中，所述指定类型内容包括如下之一：职业相关内容、交易相关内容。

在一种可选实施方式中，所述策略网络通过如下之一实现：深度神经网络，长短时记忆LSTM网络。

在一种可选实施方式中，还包括：

获得所述目标用户针对所述目标信息收集问题提供的目标用户反馈；

基于所述目标用户反馈，确定对应的当前环境奖励值。

在一种可选实施方式中，所述确定对应的当前环境奖励值，包括：

确定所述目标用户反馈对应的配合度等级；

基于所述配合度等级，确定所述当前环境奖励值，其中，所述当前环境奖励值与所述配合度等级正相关。

在一种可选实施方式中，还包括，至少基于所述当前环境奖励值，更新所述强化学习模型。

在一种可选实施方式中，还包括：

若确定所述当前环境奖励值低于预设奖励阈值，判断之前的预设数量个历史用户反馈对应的历史环境奖励值是否低于所述预设奖励阈值；

若判断结果为是，则输出表征所述通话结束的结束对话。

根据第二方面，提供一种基于强化学习模型的用户信息收集装置，所述强化学习模型包括策略网络，所述装置包括：

获取模块，配置为在与目标用户的通话过程中，获取当前环境状态，所述当前环境状态至少基于其对应的前N轮对话内容确定，各轮对话内容包括，历史信息收集问题和所述目标用户的历史用户反馈；

输入模块，配置为将所述当前环境状态输入所述策略网络，得到所述当前环境状态下，备选问题集中各备选信息收集问题对应的Q值，其中，所述备选问题集基于所述历史用户反馈和预设知识库确定，所述预设知识库包括，所述历史用户反馈中指定类型内容与各信息收集问题的映射关系；

选取模块，配置为从所述备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题；

第一输出模块，配置为输出所述目标信息收集问题，以供所述目标用户针对所述目标信息收集问题进行反馈。

在一种可选实施方式中，所述获取模块，具体配置为获得所述目标用户的用户画像特征；

在一种可选实施方式中，还包括：

获得模块，配置为获得所述目标用户针对所述目标信息收集问题提供的目标用户反馈；

确定模块，配置为基于所述目标用户反馈，确定对应的当前环境奖励值。

在一种可选实施方式中，所述确定模块，具体配置为确定所述目标用户反馈对应的配合度等级；

在一种可选实施方式中，还包括更新模块，配置为至少基于所述当前环境奖励值，更新所述强化学习模型。

在一种可选实施方式中，还包括：

判断模块，配置为若确定所述当前环境奖励值低于预设奖励阈值，判断之前的预设数量个历史用户反馈对应的历史环境奖励值是否低于所述预设奖励阈值；

第二输出模块，配置为若判断结果为是，则输出表征所述通话结束的结束对话。

根据第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。

根据第四方面，提供一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所述的方法。

根据本说明书实施例提供的方法及装置，在与目标用户的通话过程中，至少基于过去的N轮对话内容确定当前环境状态，进而将其输入强化学习模型的策略网络，以通过强化学习模型以及过去多轮对话内容、包括指定类型内容与各信息收集问题的映射关系的预设知识库，确定出更有助于引导用户进行有效反馈的目标信息收集问题，以有效提升用户信息收集的任务质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书披露的强化学习系统的一种框架示意图；

图2A和图2B分别为本说明书披露的一个实施例的实施框架示意图；

图3为实施例提供的基于强化学习模型的用户信息收集方法的一种流程示意图；

图4为实施例提供的基于强化学习模型的用户信息收集装置的一种示意性框图。

具体实施方式

下面将结合附图，详细描述本说明书实施例的技术方案。

本说明书实施例披露一种基于强化学习模型的用户信息收集方法及装置，下面首先对方法的应用场景和技术构思进行介绍，具体如下：

如前所述，目前各平台用户体量较大，考虑到平台内用户的量级，对平台内用户进行信息收集(即预设目的进行尽职调查)时，采用一对一人工调查收集的方式，人工成本高，且效率低。

为了解决上述问题，发明人提出通过对话机器人向用户发起通话，期望在与用户通话过程中能够收集到其所需要的信息，进而根据所收集的信息进行后续处理。可以理解的，该对话机器人与用户通话场景，是一个典型的面向任务的与用户进行多轮交互的场景，用户信息收集这一任务是有较为明确的目标的，相应的，整个通话过程可以归类为如何引导用户反馈有效信息的问题，即多步决策求取最大奖励(reward)的问题。鉴于此，发明人进一步提出一种基于强化学习模型的用户信息收集方法，以实现针对不同用户进行个性化、针对性的信息收集。根据本说明书实施例，采用强化学习的构思和方式，引导用户进行有效反馈，为用户制定合适的信息收集方案。

图1示出典型的强化学习系统的示意图。如图1所示，一般地，强化学习系统包括智能体和执行环境，智能体通过与执行环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得执行环境的状态(state)，根据一定策略，针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈给智能体，该反馈又称为奖励分数(reward)。智能体根据获得的奖励分数来判断，之前的行为是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈，使得智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获得的奖励分数累积最大化。智能体通过该更新所得的策略可以决策出合适的后续所需执行的动作，以期更好的达到目的。

图2A和2B示出本说明书披露的一个实施例的实施框架示意图。根据本说明书的一个或多个实施例，在强化学习的构思下，如图2A所示，对话机器人设置有预训练(通过与执行环境的交互和反馈，不断进行学习更新所得)的强化学习模型(即智能体)，该强化学习模型包括策略网络，对话机器人在与目标用户的通话过程中，通过状态跟踪器获取至少基于其对应的前N轮对话内容确定的当前环境状态(即当前执行环境的状态s)，各轮对话内容包括，历史信息收集问题和目标用户的历史用户反馈；将当前环境状态输入该策略网络，得到当前环境状态下，备选问题集中各备选信息收集问题对应的Q值，例如如图2B所示，包括：问题1对应的Q1，问题2对应的Q2，以及问题n对应的Qn。其中，由于平台内用户的类型多种多样，例如所处行业、交易方式以及交易类型等各方面存在差异，对于不同用户其适用的信息收集问题存在不同，相应的，备选问题集基于历史用户反馈和预设知识库确定，且该预设知识库包括，历史用户反馈中指定类型内容与各信息收集问题的映射关系。可以理解的，指定类型内容包括可以反映用户所处行业和/或交易方式、交易类型等信息的内容。

之后，对话机器人从备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题(即动作a)；并输出该目标信息收集问题(即执行动作a)，以供目标用户针对目标信息收集问题进行反馈(将动作a施加于执行环境)。如此，通过预训练的策略网络，以及目标用户的前N轮对话内容(多组相对应的历史信息收集问题和历史用户反馈)和预设知识库，确定出最为合适的(即更有助于引导用户进行有效反馈的)目标信息收集问题，以有效提升用户信息收集的任务质量。

下面描述以上构思的具体实现方法。

图3示出了本说明书一个实施例中基于强化学习模型的用户信息收集方法的流程图。该方法可以通过对话机器人实现，其中，该对话机器人可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。所述方法包括如下步骤S310-S340：

S310：在与目标用户的通话过程中，获取当前环境状态。可以理解的是，在用户信息收集的场景(也就是存在明确目的即任务的场景)中，与目标用户的通话过程中，不止前一轮对话内容(历史信息收集问题和相应的历史用户反馈)对当前轮次问题的输出存在影响，过去多轮(即前N轮)对话内容均会对当前轮次问题的输出产生影响。具体地，前N轮对话内容中的各轮对话内容包括历史信息收集问题和目标用户的相应的历史用户反馈，一方面可以反映出哪些问题已经提问，用户已经提供了哪些信息，其中的历史用户反馈还可以表征出目标用户对相应轮次的配合度即历史配合度，其中，历史用户反馈越贴合历史信息收集问题表征目标用户的配合度越高，反之，表征目标用户的配合度越低。通过前N轮对话内容以及表征出的历史配合度，可以影响策略网络决策后续问题的选择。

相应的，当前环境状态至少基于其对应的前N轮对话内容确定，各轮对话内容包括，历史信息收集问题和目标用户的历史用户反馈(即目标用户针对相应的历史信息收集问题的回答内容)。其中，该目标用户可以是平台内任一需要进行信息收集的用户，该平台可以是电子支付平台，金融管理平台、社交网络平台等。

具体的，一种实现中，对话机器人在与目标用户的通话过程中，可以至少基于其对应的前N轮对话内容，即基于通话过程的上下文信息，确定当前环境状态。一种实现中，对话机器人中还包括表征网络，用于将对话上下文编码为表征向量的形式。例如，对于每一轮对话内容，分别对历史信息收集问题和用户反馈回答进行编码表征。其中，针对历史信息收集问题，可以获取该问题在对话机器人的问题总集中的编号，基于该编号表征该问题，或者，也可以获取该问题的问题文本，采用文本表征网络对其进行表征。对于用户反馈回答，可以通过常规的语音转文本方式，得到其回答文本，然后利用文本表征网络对回答文本进行表征，得到回答表征。通过对历史信息收集问题的问题表征和用户反馈回答的回答表征进行组合或融合，可以得到一轮对话内容的对话表征，例如，为一个表征向量。然后，可以将前N轮对话内容各自的表征向量按时序进行组合或融合，得到前N轮对话内容的上下文表征，作为当前环境状态。其中，上述按时序进行组合或融合的操作可以包括，拼接，组合计算，或者通过神经网络进行融合。

在一个实施例中，用户画像特征在一定程度上也可以反映出用户的特点，其可以作为影响策略网络确定备选信息收集问题的一个因素。鉴于此，在步骤S310，对话机器人获得目标用户的用户画像特征；基于前N轮对话内容以及用户画像特征，确定当前环境状态。其中，用户画像特征可以包括用户的基本属性特征，例如注册时长、教育程度、职业等等。另外，用户画像特征还可以包括，可以直接反映用户特点的人群标签。通常，人群标签可以基于用户属性特征，以及用户的历史大数据而确定。已经存在多种将用户划分为人群的方案，这些方案通过聚类、分组等多种方式，为用户添加人群标签，例如“职场新人”，“金牌交易员”，“全职辣妈”等等。另一种情况，用户画像特征还可以包括表征用户是否接受过以信息收集为目的的调查的信息，以及表征其在该调查中的总体配合度的标签，例如：完整接受调查，不配合调查等，又例如，具体量化的调查配合度值，其中，调查配合度值越高，表征用户总体配合度越好，即用户提供的问题反馈越有效。

在通过以上方式获取当前环境状态的基础上，在步骤S320，将当前环境状态输入策略网络，得到当前环境状态下，备选问题集中各备选信息收集问题对应的Q值。其中，备选问题集基于历史用户反馈和预设知识库确定，预设知识库包括，历史用户反馈中指定类型内容与各信息收集问题的映射关系。

其中，Q值可以表示为Q_i(s，a_i)，表示从当前环境状态s出发，执行第i备选信息收集问题(即动作a_i)后再使用该策略网络对应的策略带来的t步累积奖励分数，如图2B所示，i可以取[1，n]中的整数。需理解，强化学习模型在优化策略时，不是仅考虑当前动作的奖励，即单步奖励，而是基于对长期累积奖励的估计进行优化。Q值即是反映长期t步累积奖励分数的度量。因此，所对应Q值越大，表征备选信息收集问题越合适，即越有助于引导目标用户进行有效反馈。

可以理解的，该预设知识库包括用户信息收集领域(即尽职调查领域)相关知识的沉淀，相当于领域内的专家经验。该预设知识库至少包括历史用户反馈中指定类型内容与各信息收集问题的映射关系。基于预设知识库(包括的历史用户反馈中指定类型内容与各信息收集问题的映射关系)，在一定程度上可以提高策略网络找到合适问题(动作)的速度以及准确度。

一个实施例中，指定类型内容根据通话的信息收集目的而预先设置。其中，一个实施例中，该通话的信息收集目的可以包括，用于识别不安全交易的尽职调查。另一个实施例中，该通话的信息收集目的还可以包括用户进行用户消费类型分类的尽职调查；或者，识别目标用户真实身份的尽职调查，目标用户的资产受益所有人身份的尽职调查、了解目标用户的业务关系的尽职调查等等。具体的，通话的信息收集目的可以根据实际需求进行调整。

并且，预设知识库中各信息收集问题也是根据通话的信息收集目的而预先设置。一种实现中，该通话的信息收集目的包括用于识别不安全交易的尽职调查时，信息手机问题可以包括但不限于“请问您与**交易对手交易较多，是什么原因呢？”、“请问您的职业是什么”等等。

在一个实施例中，该指定类型内容包括但不限于：职业相关内容、交易相关内容。其中，职业相关内容包括但不限于所处行业名称、所在职位名称等。交易相关信息包括但不限于交易方式、交易类型、交易目的等。

在一个实施例中，该预设知识库还可以包括关于用户自身的一些信息，例如上述的用户画像特征，又例如用户的职业经历等信息。

在一个实施例中，该策略网络可以是预先基于强化学习算法训练过的网络，其可以通过多种神经网络(Neural Network)实现，例如可以通过如下之一实现：深度神经网络，长短时记忆LSTM网络。该强化学习算法例如可以包括Q-learning算法。

对话机器人在步骤S320，确定出备选问题集中各备选信息收集问题对应的Q值之后，在步骤S330：对话机器人从备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题。可以理解的，备选信息收集问题对应的Q值越大，表征该备选信息收集问题针对信息收集目的而言越合适，即越有助于引导目标用户针对信息收集目的进行有效反馈，相应的，对话机器人从备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题，以期望可以更好的完成信息收集任务。

接着，在步骤S340：输出目标信息收集问题，以供目标用户针对目标信息收集问题进行反馈。本步骤中，对话机器人以语音(音频)形式，输出目标信息收集问题，以供目标用户针对目标信息收集问题进行反馈。

后续的，在本说明书的另一实施例中，在输出目标信息收集问题之后，所述方法还可以包括如下步骤01-02：在步骤01，获得目标用户针对目标信息收集问题提供的目标用户反馈，即针对目标信息收集问题提供的回答。在步骤02，基于目标用户反馈，确定对应的当前环境奖励值。其中，该当前环境奖励值(即强化学习系统中的执行环境的反馈)可以反映出目标用户的配合程度。当前环境奖励值越高，表征目标用户越配合(即配合程度越高)，即所获得的目标用户反馈，对于该通话的信息收集目的越有利。

在一个实施例中，步骤02可以具体设置为：确定目标用户反馈对应的配合度等级；基于配合度等级，确定当前环境奖励值，其中，当前环境奖励值与配合度等级正相关。

在一种实现中，目标用户反馈所属类型可以被归属于但不限于如下几种类型，挂断、质疑(即不对相应的信息收集问题进行回答，而提出疑问，例如质疑为什么要问xx问题，或者质疑为什么要回答xx问题)、继续接受调查(表征可以继续进行通话，例如在信息收集问题为可以基于xy目的跟您确认几个问题时，用户反馈可以)、完整接受调查(表征之前的各历史信息收集问题均提供了有效回答)、提供有效回答(针对所对应的信息收集问题进行了有效回答)、提供无效回答(针对所对应的信息收集问题进行了回答，但是与回答与问题无关)等。其中，不同类型的反馈对应的配合度等级存在不同，例如完整接受调查对应的配合度等级最高，相应的，其对应的环境奖励值最大；提供有效回答对应的配合度等级次高，其对应的环境奖励值次大；挂断对应的配合度等级最低，其对应的环境奖励值最小；质疑对应的配合度等级次低，其对应的环境奖励值次小等等。

相应的，在一个实施例中，可以利用当前环境奖励值评估用户对本次通话的态度，如果连续多次所确定的环境奖励值都偏低，则可以确定用户对本次通话出现抵触情绪，相应的，为了保证用户体验，对话机器人在确定出当前环境奖励值之后，还可以执行如下步骤：若确定当前环境奖励值低于预设奖励阈值，判断之前的预设数量个历史用户反馈对应的历史环境奖励值是否低于预设奖励阈值；若判断结果为是，则输出表征通话结束的结束对话，即结束通话。在通过连续多次所确定的环境奖励值都偏低，即用户对本次通话出现抵触情绪的情况下，结束本次通话，以在一定程度上避免增加用户的抵触情绪，在一定程度上保障用户的体验感受。

在一个实施例中，为了保证所确定的信息收集问题的准确性，保证信息收集任务的质量，还可以利用当前环境奖励值构建训练数据，进而通过训练数据更新强化学习模型(即策略网络)，相应的，对话机器人在确定出当前环境奖励值之后，还可以执行如下步骤，至少基于当前环境奖励值，更新强化学习模型。

本实施例中，实时或定时地更新强化学习模型即策略网络，可以保证策略网络的适配性，并且保证策略网络的预测结果的准确性，保证策略网络可以更好、更灵活且更具有针对性的对目标用户进行信息收集。

另外，在获得目标用户反馈之后，还基于目标用户反馈以及目标信息收集问题，更新当前环境状态，得到更新后的当前环境状态，以进行后一轮次的问题输出。

如此，本实施例中，对话机器人基于预设知识库，智能地通过预训练的策略网络，以及目标用户的多轮历史对话内容(多组相对应的历史信息收集问题和历史用户反馈)，确定出最为合适的(即更有助于引导用户进行有效反馈的)目标信息收集问题，以有效提升用户信息收集任务的质量。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

相应于上述方法实施例，本说明书实施例，提供了一种基于强化学习模型的用户信息收集装置400，所述强化学习模型包括策略网络，其示意性框图如图4所示，所述装置包括：

获取模块410，配置为在与目标用户的通话过程中，获取当前环境状态，所述当前环境状态至少基于其对应的前N轮对话内容确定，各轮对话内容包括，历史信息收集问题和所述目标用户的历史用户反馈；

输入模块420，配置为将所述当前环境状态输入所述策略网络，得到所述当前环境状态下，备选问题集中各备选信息收集问题对应的Q值，其中，所述备选问题集基于所述历史用户反馈和预设知识库确定，所述预设知识库包括，所述历史用户反馈中指定类型内容与各信息收集问题的映射关系；

选取模块430，配置为从所述备选问题集中，选取所对应Q值最大的备选信息收集问题，作为目标信息收集问题；

第一输出模块440，配置为输出所述目标信息收集问题，以供所述目标用户针对所述目标信息收集问题进行反馈。

在一种可选实施方式中，所述获取模块410，具体配置为获得所述目标用户的用户画像特征；

在一种可选实施方式中，还包括：

获得模块(图中未示出)，配置为获得所述目标用户针对所述目标信息收集问题提供的目标用户反馈；

确定模块(图中未示出)，配置为基于所述目标用户反馈，确定对应的当前环境奖励值。

在一种可选实施方式中，还包括更新模块(图中未示出)，配置为至少基于所述当前环境奖励值，更新所述强化学习模型。

在一种可选实施方式中，还包括：

判断模块(图中未示出)，配置为若确定所述当前环境奖励值低于预设奖励阈值，判断之前的预设数量个历史用户反馈对应的历史环境奖励值是否低于所述预设奖励阈值；

第二输出模块(图中未示出)，配置为若判断结果为是，则输出表征所述通话结束的结束对话。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书所提供的所述基于强化学习模型的用户信息收集方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本说明书所提供的所述基于强化学习模型的用户信息收集方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于强化学习模型的用户信息收集方法，所述强化学习模型包括策略网络，所述方法包括：

2.如权利要求1所述的方法，其中，所述获取当前环境状态，包括：

获得所述目标用户的用户画像特征；

3.如权利要求1所述的方法，其中，所述指定类型内容根据所述通话的信息收集目的而预先设置。

4.如权利要求3所述的方法，其中，所述通话的信息收集目的包括，用于识别不安全交易的尽职调查。

5.如权利要求3所述的方法，其中，所述指定类型内容包括如下之一：职业相关内容、交易相关内容。

6.如权利要求1所述的方法，其中，所述策略网络通过如下之一实现：深度神经网络，长短时记忆LSTM网络。

7.如权利要求1-6任一项所述的方法，还包括：

基于所述目标用户反馈，确定对应的当前环境奖励值。

8.如权利要求7所述的方法，其中，所述确定对应的当前环境奖励值，包括：

确定所述目标用户反馈对应的配合度等级；

9.如权利要求7所述的方法，还包括，至少基于所述当前环境奖励值，更新所述强化学习模型。

10.如权利要求7所述的方法，还包括：

若判断结果为是，则输出表征所述通话结束的结束对话。

11.一种基于强化学习模型的用户信息收集装置，所述强化学习模型包括策略网络，所述装置包括：

12.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。