CN114297511A

CN114297511A - 理财推荐方法、装置、系统和存储介质

Info

Publication number: CN114297511A
Application number: CN202210100955.9A
Authority: CN
Inventors: 张勇; 王宇飞; 吴亚伟
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-04-08

Abstract

本发明公开了一种理财推荐方法、装置、系统和存储介质。理财推荐方法应用于理财推荐系统，理财推荐方法包括：控制所述智能机器人获取用户信息；获取理财产品信息；基于所述用户信息和所述理财产品信息确定理财推荐信息；向用户推荐所述理财推荐信息；获取所述用户基于所述理财推荐信息输入的行为反馈信息；将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。通过采用上述方案，解决了现有的理财推荐方法难以处理理财推荐的动态变化以及推荐的理财产品不够准确的问题。

Description

理财推荐方法、装置、系统和存储介质

技术领域

本发明实施例涉及理财推荐技术领域，尤其涉及一种理财推荐方法、装置、系统和存储介质。

背景技术

随着云计算和大数据等网络技术的迅猛发展，网络信息爆炸式增长，大量的数据中虽然蕴含着丰富的资源和巨大的潜力，但相应带来的“信息过载”问题开始困扰着大家，因此，如何用最短的时间从海量数据中获取最有价值的信息成为学术界和工业界研究的热点和难点。对于银行业来说，更是有海量的用户，伴随着也会产生海量的数据，如何让个性化理财推荐系统通过对用户兴趣爱好的深度发掘，发现用户可能感兴趣的项目，并通过个性化列表的形式向其进行展示。

对个人用户而言，理财推荐系统减少了用户获取高价值信息的时间成本，而且能快速找到符合自己想法的理财产品；对银行而言，理财推荐系统根据用户喜好向用户进行推荐，在扩大销售额、提高用户忠诚度等方面都有较大贡献。而现有的理财推荐系统大多是基于固定的规则、或者基于商品维度的学习、或者基于用户与理财产品的相似性等这些静态指标来设计理财产品的推荐排序策略，但它没有考虑到用户购买理财产品是一个连续的过程，故现有的理财推荐方法难以处理理财推荐的动态变化。同时，目前当理财推荐人员了解用户信息以备后续对用户推荐理财产品时，用户往往较为警惕，故得到的用户数据通常不够精准，进而导致推荐的理财产品不够准确。

发明内容

本发明提供了一种理财推荐方法、装置、系统和存储介质，以解决现有的理财推荐方法难以处理理财推荐的动态变化以及推荐的理财产品不够准确的问题。

根据本发明的一方面，提供了一种理财推荐方法，应用于理财推荐系统，所述理财推荐系统包括智能机器人，理财推荐方法包括：

控制所述智能机器人获取用户信息；

获取理财产品信息；

基于所述用户信息和所述理财产品信息确定理财推荐信息；

向用户推荐所述理财推荐信息；

获取所述用户基于所述理财推荐信息输入的行为反馈信息；

将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。

在本发明的可选实施例中，所述向用户推荐所述理财推荐信息，包括：

控制所述智能机器人向用户推荐所述理财推荐信息；

相应的，所述获取所述用户基于所述理财推荐信息输入的行为反馈信息，包括：

控制所述智能机器人获取所述用户基于所述理财推荐信息输入的行为反馈信息。

在本发明的可选实施例中，所述控制所述智能机器人获取用户信息，包括：

控制所述智能机器人与用户通过游戏机制的交互以获取用户信息。

在本发明的可选实施例中，所述行为反馈信息包括客户满意度信息、理财产品选择信息、理财产品收藏信息、购买可能性信息、理财产品浏览时间信息中的至少一种。

在本发明的可选实施例中，所述方法还包括：

定义预设深度强化学习模型中的状态模块、动作模块和奖励模块。

在本发明的可选实施例中，所述定义预设深度强化学习模型中的状态模块、动作模块和奖励模块，包括：

定义预设深度强化学习模型中的状态模块；

构建排序向量，以所述排序向量定义预设深度强化学习模型中的动作模块；

为预设深度强化学习模型中的奖励函数引入先验知识，并基于引入先验知识的奖励函数定义预设深度强化学习模型中的奖励模块。

在本发明的可选实施例中，所述定义预设深度强化学习模型中的状态模块，包括：

基于历史行为反馈信息抽取状态特征；

将预设时间段内的所述历史行为反馈信息对应的理财产品信息作为当前预设深度强化学习模型所处的状态；

基于所述状态特征和当前预设深度强化学习模型所处的状态构建所述定义预设深度强化学习模型中的状态模块。

根据本发明的另一方面，提供了一种理财推荐装置，理财推荐装置包括：

控制模块，用于控制所述智能机器人获取用户信息；

理财获取模块，用于获取理财产品信息；

确定模块，用于基于所述用户信息和所述理财产品信息确定理财推荐信息；

推荐模块，用于向用户推荐所述理财推荐信息；

反馈获取模块，用于获取所述用户基于所述理财推荐信息输入的行为反馈信息；

输入模块，用于将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。

根据本发明的另一方面，提供了一种理财推荐系统，所述理财推荐系统包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

智能机器人，用于与用户进行交互；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的理财推荐方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的理财推荐方法。

本发明实施例的技术方案，通过控制所述智能机器人获取用户信息，然后获取理财产品信息，然后基于所述用户信息和所述理财产品信息确定理财推荐信息，然后向用户推荐所述理财推荐信息，进而获取所述用户基于所述理财推荐信息输入的行为反馈信息，最后将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。由于用户信息通过智能机器人获取，用户对于智能机器人的戒备心通常低于推荐理财产品的工作人员，所以采用智能机器人所得到的用户信息通常较为精准，提高了后续的推荐准确度。同时，通过将行为反馈信息输入预设深度强化学习模型中进行训练，能够进一步使更新的理财推荐信息更为符合用户需求，以使理财推荐的结果较为精准，用户的点击率与购买率得到较大幅度提高，同时，由于预设深度强化学习模型能够持续进行训练，所以能够处理理财推荐的动态变化。解决现有的理财推荐方法难以处理理财推荐的动态变化以及推荐的理财产品不够准确的问题。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供了一种理财推荐方法的流程图；

图2为本发明实施例二提供的一种理财推荐方法的流程图；

图3为本发明实施例二提供的一种构建预设深度强化学习模型的流程图；

图4是图3中步骤定义预设深度强化学习模型中的状态模块的流程图；

图5为本发明实施例三提供的一种理财推荐装置的结构示意图；

图6示出了可以用来实施本发明的实施例的理财推荐系统的结构示意图。

其中：61、控制模块；62、理财获取模块；63、确定模块；64、推荐模块；65、反馈获取模块；66、输入模块；20、智能机器人。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种理财推荐方法的流程图，理财推荐方法应用于理财推荐系统，所述理财推荐系统包括智能机器人，本实施例可适用于银行向用户推荐理财产品的情况，智能机器人即指现有银行中能够与用户进行语音交互的机器人。该方法可以由理财推荐装置来执行，该理财推荐装置可以采用硬件和/或软件的形式实现，该理财推荐装置可配置于银行的超级柜台中，超级柜台能够与智能机器人进行通信，超级柜台在本实施例中可与智能机器人组成理财推荐系统。如图1所示，该方法包括：

S110、控制所述智能机器人获取用户信息。

其中，用户信息指专属于用户自身的信息，例如性别、年龄段、资产范围、职业、收入、风险承受能力等信息。智能机器人可与用户进行语音交互以获取用户信息，例如通过语音询问或者通过语音让客户做调查问卷的方式获取用户信息。同时，用户若为银行客户，则银行系统中会有用户的身份证信息，此时智能机器人也可通过与银行的系统进行通信获取到用户的性别和年龄等信息，然后再与用户进行语音交互获取资产范围、职业、收入、风险承受能力等信息。采用智能机器人获取用户信息的方式有多种，在此不做具体限定，只是举例说明。

S120、获取理财产品信息。

其中，理财产品信息是指理财产品有关的信息，根据应用地区的不同，理财产品信息可对应包括当前地区所有理财产品的信息，例如理财产品总种类、各产品起点购买金额、年利率、最低持有年限、对购买者资产或年收入限制条件、理财产品风险等级、理财产品所属品牌、理财产品所属公司等。

S130、基于所述用户信息和所述理财产品信息确定理财推荐信息。

其中，理财推荐信息是指对用户所推荐的理财产品有关的信息。由于每个用户的个人情况不同，例如收入和风险承受能力不同，同时理财产品也有不同的种类，例如各产品起点购买金额、年利率、最低持有年限、对购买者资产或年收入限制条件、理财产品风险等级等不同，因此，不同用户会适合不同的理财产品，根据用户信息和理财产品信息便可确定应当向用户推荐的理财产品的信息，即理财推荐信息。例如，在一个具体的实施例中，银行内部通常有风险评估系统，通过此方式过滤理财风险产品比用户风险等级高的理财产品，然后再为用户推荐符合自身情况的理财产品。

S140、向用户推荐所述理财推荐信息。

其中，向用户推荐理财推荐信息的方式有多种，例如可通过短信、电话、信息推送等多种方式，即可向用户打电话语音播报理财推荐信息，也可显示在用户会观看的显示屏上，或者短信向客户文字告知等，在此不对向用户推荐理财推荐信息的具体方式做具体限定，只是举例说明。

S150、获取所述用户基于所述理财推荐信息输入的行为反馈信息。

其中，当用户知晓理财推荐信息时，通常会有一定的反馈行为，行为反馈信息即为用户在知晓理财推荐信息后所做的行为有关的信息。可选的，所述行为反馈信息包括客户满意度信息、理财产品选择信息、理财产品收藏信息、购买可能性信息、理财产品浏览时间信息中的至少一种。客户满意度信息可为用户对理财推荐信息的满意度情况，当客户十分满意时，说明推荐的内容较为精准；理财产品选择信息即为用户选择购买的理财产品种类和理财产品数量的信息，当推荐的理财产品中用户选择购买且购买量较多，说明推荐内容较为符合用户需求；理财产品收藏信息指用户将理财产品收藏在收藏夹中的信息，当用户对推荐的理财产品有一定的购买倾向时可能会选择收藏在收藏夹中，以待后续购买；购买可能性信息是指用户对于购买的意愿有关的信息，此信息可通过向客户询问得知；理财产品浏览信息是指用户对于不同理财产品的浏览时长有关的信息，当用户浏览时长较长，说明用户对该理财产品较为感兴趣。故通过用户基于所述理财推荐信息输入的行为反馈信息，能够得知用户对于理财推荐信息的满意程度、推荐内容是否符合用户需求等信息。

S160、将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。

其中，强化学习被广泛用于决策问题中，用以处理复杂问题。标准深度强化学习模型包括四个基本要素：环境，动作，奖励和状态。如图所示，若将时间看作一个离散序列，智能体依次在每一个时间节点上与环境进行交互。在每个时间节点t(1,2,3,4...)上，智能体所观察到的环境状态为st(S表示全部环境状况的集合，st表示智能体在t时刻所处的状态)，在此基础上，智能体选择动作at(A表示智能体全部可选动作的集合，at表示智能体在t时刻选择的行为)，在下一个时刻，智能体将会得到选择动作at所获得的奖励rt，然后进入t+1时刻的新状态s+1，循环往复，智能体在每一次的循环中不断完善从环境状态到行为的映射，这个映射被称为策略。

因此，通过将行为反馈信息输入预设深度强化学习模型中进行训练，能够使更新的理财推荐信息更为符合用户需求，以使理财推荐的结果较为精准，用户的点击率与购买率得到较大幅度提高。

上述方案，通过控制所述智能机器人获取用户信息，然后获取理财产品信息，然后基于所述用户信息和所述理财产品信息确定理财推荐信息，然后向用户推荐所述理财推荐信息，进而获取所述用户基于所述理财推荐信息输入的行为反馈信息，最后将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。由于用户信息通过智能机器人获取，用户对于智能机器人的戒备心通常低于推荐理财产品的工作人员，所以采用智能机器人所得到的用户信息通常较为精准，提高了后续的推荐准确度。同时，通过将行为反馈信息输入预设深度强化学习模型中进行训练，能够进一步使更新的理财推荐信息更为符合用户需求，以使理财推荐的结果较为精准，用户的点击率与购买率得到较大幅度提高，同时，由于预设深度强化学习模型能够持续进行训练，所以能够处理理财推荐的动态变化。解决现有的理财推荐方法难以处理理财推荐的动态变化以及推荐的理财产品不够准确的问题。

实施例二

图2为本发明实施例二提供的一种理财推荐方法的流程图，本实施例是对上述实施例进行改进。如图2所示，该方法包括：

S210、控制所述智能机器人与用户通过游戏机制的交互以获取用户信息。

其中，游戏机制的互动是玩家需要作出一种行为，并获得对应的反馈，例如在智能机器人通过趣味的方式向用户提问，用户回答后，智能机器人予以语音夸奖等。通过游戏机制的交互做前置风险处理，用户能够放下戒备心，从而使获得的用户信息较为精准。

S220、获取理财产品信息。

S230、基于所述用户信息和所述理财产品信息确定理财推荐信息。

S240、控制所述智能机器人向用户推荐所述理财推荐信息。

其中，智能机器人可通过语音或者显示的方式向用户推荐所述理财推荐信息，用户对于智能机器人的戒备心通常低于推荐理财产品的工作人员，所以采用智能机器人向用户推荐所述理财推荐信息，用户的戒备心较低，易于接受。在一个具体的实施例中，智能机器人可通过游戏机制的交互向用户推荐所述理财推荐信息。同时，智能机器人在与用户交互的过程中，也可语音告知理财推荐信息中所推荐的理财产品的购买风险和潜在收益率等。

S250、控制所述智能机器人获取所述用户基于所述理财推荐信息输入的行为反馈信息。

其中，智能机器人可通过语音趣味询问的方式询问用户对于理财推荐信息的行为反馈信息(例如客户的满意度以及购买可能性等)，用户对于智能机器人的戒备心通常低于推荐理财产品的工作人员，所以采用智能机器人获取所述用户基于所述理财推荐信息输入的行为反馈信息，用户的戒备心较低，易于接受。在一个具体的实施例中，智能机器人可通过游戏机制的交互获取所述用户基于所述理财推荐信息输入的行为反馈信息。

S260、将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。

上述方案，由于与用户的交互主要是通过智能机器人获取，所以用户的戒备心较低，所采集到的数据较为真实，即最后得到的行为反馈信息较为符合用户的真实想法，通过将该行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，能够使更新后的理财推荐信息较为符合用户的实际意愿，推荐的精准性较高，能够处理理财推荐的动态变化，长期为客户推荐精准度较高的理财产品。

在本发明的可选实施例中，由于上述使用到预设深度强化学习模型，该预设深度强化学习模型的构建方法如下：

其中，由上述可知，标准深度强化学习模型包括四个基本要素：环境，动作，奖励和状态，因此，通过定义预设深度强化学习模型中的状态模块、动作模块和奖励模块，再根据选定的算法便可构建预设深度强化学习模型。可选的，算法可使用DQN(Deep Q Network)算法。

在上述实施例的基础上，如图3所示，所述定义预设深度强化学习模型中的状态模块、动作模块和奖励模块，包括：

S301、定义预设深度强化学习模型中的状态模块。

示例性的，如图4所示，所述定义预设深度强化学习模型中的状态模块，包括：

S3011、基于历史行为反馈信息抽取状态特征。

其中，历史行为反馈信息是指过去的某个时间段内用户基于理财推荐信息输入的行为反馈信息，例如基于假设用户在理财产品序列中倾向于点击感兴趣的产品，并且较少点击他不感兴趣的产品，历史行为反馈信息包括历史点击行为，将用户的历史点击行为作为抽取状态特征的数据来源。

S3012、将预设时间段内的所述历史行为反馈信息对应的理财产品信息作为当前预设深度强化学习模型所处的状态。

其中，在将用户的历史点击行为作为抽取状态特征的数据来源的情况下，可在每一次推荐前，将用户在最近一段时间内点击的理财产品信息(包括利率、转化率、销量等)作为当前预设深度强化学习模型所处的状态。

S3013、基于所述状态特征和当前预设深度强化学习模型所处的状态构建所述定义预设深度强化学习模型中的状态模块。

其中，由于状态模块与状态特征和当前预设深度强化学习模型所处的状态有关，所以基于所述状态特征和当前预设深度强化学习模型所处的状态能够构建所述定义预设深度强化学习模型中的状态模块。

此外，在本实施例中，用户被视为响应预设深度强化学习模型动作的环境，预设深度强化学习模型需要感知环境的状态进行决策，假设用户在推荐的理财产品中倾向于收藏或购买他感兴趣的产品，而较少收藏或购买他不感兴趣的产品，则可以将用户的历史收藏或者购买行为作为抽取状态特征的数据来源，在每一次推荐前，将用户在最近一段时间内收藏或者购买的理财产品信息(包括利率、转化率、销量等)作为当前预设深度强化学习模型所处的状态。另外，为了区别不同群体的用户，可将用户的长期特征加入到状态中。

此外，根据使用需求的不同，当历史行为反馈信息包括历史的客户满意度信息、理财产品选择信息、理财产品收藏信息、购买可能性信息、理财产品浏览时间信息中的多种时，可将多种行为综合考虑作为抽取状态特征的数据来源，在现有的理财推荐方案中，通常只考虑用户的购买/未点击或者用户的评分作为反馈，然而，用户点击浏览并停留一段时间也能在一定程度上反映用户对推荐结果的满意度，通过将多种行为综合考虑作为抽取状态特征的数据来源，能够提高预设深度强化学习模型的精度。

S302、构建排序向量，以所述排序向量定义预设深度强化学习模型中的动作模块。

例如，排序向量μ＝(μ1,μ2,…,μm)，排序次序是由同风险等级产品的特征决定。

S303、为预设深度强化学习模型中的奖励函数引入先验知识，并基于引入先验知识的奖励函数定义预设深度强化学习模型中的奖励模块。

其中，在一个具体的实施例中，奖励规则定义如下：在推荐序列中如果发生产品的点击购买行为，则奖励值为用户点击产品的数量乘利率和购买年限；在推荐序列中如果发生理财产品的浏览行为，则奖励值为产品被购买的利率乘年限乘时间；其他情况，奖励值为0。

通过预设深度强化学习模型训练，然后定期更新训练集更新网络，能够得到一个能最大化收益的理财推荐系统。并且，通过长期对预设深度强化学习模型训练，随着数据的增多和训练的增加，能够使推荐内容更为精准，以便处理理财推荐的动态变化，长期为客户推荐精准度较高的理财产品。

实施例三

图5为本发明实施例三提供的一种理财推荐装置的结构示意图。如图5所示，该装置包括：

控制模块61，用于控制所述智能机器人获取用户信息。

理财获取模块62，用于获取理财产品信息。

确定模块63，用于基于所述用户信息和所述理财产品信息确定理财推荐信息。

推荐模块64，用于向用户推荐所述理财推荐信息。

反馈获取模块65，用于获取所述用户基于所述理财推荐信息输入的行为反馈信息。

输入模块66，用于将所述行为反馈信息输入预设深度强化学习模型中进行训练以更新所述理财推荐信息，并向用户推荐更新后的所述理财推荐信息以及获取所述用户基于更新后的所述理财推荐信息输入的行为反馈信息，以持续进行训练。

在本发明的可选实施例中，推荐模块64，还用于控制所述智能机器人向用户推荐所述理财推荐信息。

在本发明的可选实施例中，反馈获取模块65，还用于控制所述智能机器人获取所述用户基于所述理财推荐信息输入的行为反馈信息。

在本发明的可选实施例中，控制模块61，还用于控制所述智能机器人与用户通过游戏机制的交互以获取用户信息。

在本发明的可选实施例中，理财推荐装置还包括定义模块。

定义模块，用于定义预设深度强化学习模型中的状态模块、动作模块和奖励模块。

在本发明的可选实施例中，定义模块包括状态定义子模块、动作定义子模块和奖励定义子模块。

状态定义子模块，用于定义预设深度强化学习模型中的状态模块。

动作定义子模块，用于构建排序向量，以所述排序向量定义预设深度强化学习模型中的动作模块。

奖励定义子模块，用于为预设深度强化学习模型中的奖励函数引入先验知识，并基于引入先验知识的奖励函数定义预设深度强化学习模型中的奖励模块。

在本发明的可选实施例中，状态定义子模块包括状态抽取单元、作为单元和构建单元。

状态抽取单元，用于基于历史行为反馈信息抽取状态特征。

作为单元，用于将预设时间段内的所述历史行为反馈信息对应的理财产品信息作为当前预设深度强化学习模型所处的状态。

构建单元，用于基于所述状态特征和当前预设深度强化学习模型所处的状态构建所述定义预设深度强化学习模型中的状态模块。

本发明实施例所提供的理财推荐装置可执行本发明任意实施例所提供的理财推荐方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6示出了可以用来实施本发明的实施例的理财推荐系统的结构示意图。理财推荐系统10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。理财推荐系统10还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，理财推荐系统10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器和智能机器人20，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM13中，还可存储理财推荐系统10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

理财推荐系统10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许理财推荐系统10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。智能机器人20，指能够与用户进行交互的机器人。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如理财推荐方法。

在一些实施例中，理财推荐方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到理财推荐系统10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的理财推荐方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行理财推荐方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在理财推荐系统上实施此处描述的系统和技术，该理财推荐系统具有：用于与用户交互的智能机器人20，用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给理财推荐系统。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

值得注意的是，上述理财推荐装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种理财推荐方法，应用于理财推荐系统，所述理财推荐系统包括智能机器人，其特征在于，包括：

控制所述智能机器人获取用户信息；

获取理财产品信息；

基于所述用户信息和所述理财产品信息确定理财推荐信息；

向用户推荐所述理财推荐信息；

获取所述用户基于所述理财推荐信息输入的行为反馈信息；

2.根据权利要求1所述的理财推荐方法，其特征在于，所述向用户推荐所述理财推荐信息，包括：

控制所述智能机器人向用户推荐所述理财推荐信息；

3.根据权利要求1所述的理财推荐方法，其特征在于，所述控制所述智能机器人获取用户信息，包括：

4.根据权利要求1所述的理财推荐方法，其特征在于，所述行为反馈信息包括客户满意度信息、理财产品选择信息、理财产品收藏信息、购买可能性信息、理财产品浏览时间信息中的至少一种。

5.根据权利要求1所述的理财推荐方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的理财推荐方法，其特征在于，所述定义预设深度强化学习模型中的状态模块、动作模块和奖励模块，包括：

定义预设深度强化学习模型中的状态模块；

7.根据权利要求6所述的理财推荐方法，其特征在于，所述定义预设深度强化学习模型中的状态模块，包括：

基于历史行为反馈信息抽取状态特征；

8.一种理财推荐装置，其特征在于，包括：

控制模块，用于控制所述智能机器人获取用户信息；

理财获取模块，用于获取理财产品信息；

推荐模块，用于向用户推荐所述理财推荐信息；

9.一种理财推荐系统，其特征在于，所述理财推荐系统包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

智能机器人，用于与用户进行交互；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的理财推荐方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的理财推荐方法。