CN110796261B

CN110796261B - 基于强化学习的特征提取方法、装置和计算机设备

Info

Publication number: CN110796261B
Application number: CN201910899003.6A
Authority: CN
Inventors: 陈尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2023-09-08
Anticipated expiration: 2039-09-23
Also published as: CN110796261A

Abstract

本申请涉及一种基于强化学习的特征提取方法、装置和计算机设备，所述方法包括：获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定；根据所述特征提取代码，获取所述学习对象的状态特征；采用所述状态特征训练基于强化学习的深度网络结构；获取训练后的深度网络结构的最优网络结构和最优权重参数；根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。采用本方法，设置特征提取代码应用于模型训练，可提高特征提取效率，即以建模效果作为学习奖励激发计算机不断优化学习策略，以学习到新的特征提取方式。

Description

基于强化学习的特征提取方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于强化学习的特征提取方法、装置、计算机可读存储介质和计算机设备。

背景技术

强化学习又称为试错学习，是一种让智能体(agent)在学习对象的环境中不断交互，并根据环境的反馈激励(reward)进行学习的一种机器学习算法，该学习算法不基于任何先验知识，可以完全自主学习。根据学习对象的不同，可以有不同的智能体，例如学习对象为保险业务时，智能体可以是保险业务中的参保用户等。

传统的强化学习例如Deep Q Network(DQN)在训练自身的神经网络模型时，完全根据机器通过自主学习得到的数据作为训练数据，并未针对不同场景设置训练模型所用特征的最优提取路径，而是采用人工提取方式提取特征，不仅费时费力，还导致模型训练效果不佳。

发明内容

基于此，有必要针对现有技术中模型训练所用特征提取效率低的技术问题，提供一种基于强化学习的特征提取方法、装置、计算机可读存储介质和计算机设备。

一方面，本发明实施例提供一种基于强化学习的特征提取方法，包括：获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定；根据所述特征提取代码，获取所述学习对象的状态特征；采用所述状态特征训练基于强化学习的深度网络结构；获取训练后的深度网络结构的最优网络结构和最优权重参数；根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。

另一方面，本发明实施例提供一种基于强化学习的特征提取装置，包括：代码获取模块，用于获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定；特征获取模块，用于根据所述特征提取代码，获取所述学习对象的状态特征；结构训练模块，用于采用所述状态特征训练基于强化学习的深度网络结构；结果获取模块，用于获取训练后的深度网络结构的最优网络结构和最优权重参数；策略生成模块，用于根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。

又一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定；根据所述特征提取代码，获取所述学习对象的状态特征；采用所述状态特征训练基于强化学习的深度网络结构；获取训练后的深度网络结构的最优网络结构和最优权重参数；根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。

又一方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定；根据所述特征提取代码，获取所述学习对象的状态特征；采用所述状态特征训练基于强化学习的深度网络结构；获取训练后的深度网络结构的最优网络结构和最优权重参数；根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。

上述基于强化学习的特征提取方法、装置、计算机可读存储介质和计算机设备，服务器通过获取学习对象的特征提取代码来获取状态特征，利用该状态特征训练基于强化学习的深度网络结构，进而得到最优网络结构和最优权重参数，将最优网络结构和最优权重参数应用于保险业务平台，可提供保险业务推荐，计算是否为用户提供保险和保险价格。采用本方法，设置特征提取代码应用于模型训练，不仅能提高特征提取效率，即以建模效果作为学习奖励激发计算机不断优化学习策略，以学习到新的特征提取方式，还能通过对特征提取代码的优化提高状态特征质量，从而达到良性循环，提供以应用平台最佳的网络结构待使用。

附图说明

图1为一个实施例中基于强化学习的特征提取方法的应用环境图；

图2为一个实施例中计算机设备的结构框图；

图3为一个实施例中基于强化学习的特征提取方法的流程示意图；

图4为一个实施例中深度网络结构训练步骤的流程示意图；

图5为另一个实施例中深度网络结构训练步骤的流程示意图；

图6为又一个实施例中深度网络结构训练步骤的流程示意图；

图7为再一个实施例中深度网络结构训练步骤的流程示意图；

图8为一个实施例中最优网络结构和参数获取步骤的流程示意图；

图9为一个实施例中基于强化学习的特征提取装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中基于强化学习的特征提取方法的应用环境图。参照图1，该特征提取方法可应用于特征提取系统，由特征提取系统针对不同的学习对象进行特征提取，所提特征可作用于保险业务平台，以供保险业务平台计算是否对用户提供保险及保险价格。其中，特征提取系统包括终端110、服务器120和保险业务平台130；服务器120通过网络分别与终端110和保险业务平台130建立通信连接，网络包含但不限于：广域网、城域网或局域网。

进一步地，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种；终端110可用于通过其交互界面供人工撰写特征提取代码，以便服务器120运行该特征提取代码获取状态特征。服务器120可以用独立的服务器，或者是多个服务器组成的服务器集群来实现；服务器120中可装载强化学习参数学习系统和线上系统，强化学习参数学习系统主要负责从数据库中获取模型训练样本，并根据特征提取代码对模型训练样本作用而训练更新模型参数；线上系统可通过强化学习参数学习系统中所获取到的深度网络结构和参数，进一步获取用户数据，结合该深度网络结构和参数解析用户数据，从而提供保险业务平台计算保险收益，或针针对性地面向用户推荐保险业务。

图2示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图2所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于强化学习的特征提取方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于强化学习的特征提取方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种基于强化学习的特征提取方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图3，该基于强化学习的特征提取方法具体包括如下步骤：

S302，获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定。

其中，学习对象可以是一种应用于强化学习的对象，学习对象中可以具有给定的任务，需要通过实施一定规则下的动作完成任务、或者推动任务进度。例如，学习对象可以是保险推荐项目，具有给定是否为用户提供保险和保险价格的任务，则针对该学习对象的网络模型进行强化学习时，学习的是针对不同用户推荐保险及其价格的技能。

其中，特征提取代码可以是针对学习对象而设置的特征提取操作命令或命令集，例如，一段SQL代码。

具体地，服务器120可通过接收终端110发送的特征提取代码，来获取作用于学习对象的特征提取代码，该特征提取代码可作为一个特征选择策略集，针对学习对象中的目标特征进行不断的筛选，而特征提取代码的撰写格式可以是如Python、Java、C++等编程语言的撰写格式。

更具体地，特征提取代码中可以包括有学习对象的存储地址、特征选择条件以及条件之间的关系等信息。其中，学习对象的存储地址可用于指示服务器120查询特征提取地址、特征选择条件以及条件之间的关系可以指示服务器120具有针对性地进行特征选取。

例如，开发人员通过终端110所具有的交互界面，完成了一段特征提取代码的编写，进而通过终端110将该特征提取代码发送至服务器120，使服务器120可线上获取该人工撰写的特征提取代码，实现对学习对象的特征提取。

S304，根据所述特征提取代码，获取所述学习对象的状态特征。

具体地，可将保险业务收益问题建模为一个马尔可夫决策过程(Markov DecisionProcess，MDP)，并定义其中的状态、动作、状态转移函数以及奖赏函数，该状态即为学习对象的状态特征，服务器120可运行特征提取代码，针对特征提取代码中设置的学习对象、特征提取地址以及各个条件等信息提取状态特征，该状态特征可以学习对象中的一个节点，也可以是网络模型中的一个神经元，用于建模。

例如，在实际应用场景中，服务器120首先获取保险业务数据，进而通过特征提取代码对保险业务数据进行特征提取，获得输出状态表示值，状态特征可以是单个的输出状态表示值，也可以是多个输出状态表示值组成的集合，如各个用户的投保状态(拒保状态)。

S306，采用所述状态特征训练基于强化学习的深度网络结构。

其中，强化学习又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在于环境的交互过程中通过学习策略已达成最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程。深度学习模型可在强化学习中得到使用，形成深度强化学习。

具体地，服务器120可以采用Deep Neural Network(深度神经网络)的经典网络结构提取状态特征。更具体地，可以采用redNet18构建深度网络结构，将训练样本输入至深度网络结构以进行机器训练。

例如，训练样本包括业务需求、状态特征以及特征提取代码的业务效果，服务器120可基于该训练样本对深度网络结构进行机器训练。

需要说明的是，训练深度网络结构的训练样本可以不仅状态特征，还可以是提取状态特征的特征提取代码本身，使用特征提取代码训练深度网络结构时，可将特征提取代码视为样本集合，则该机器学习过程可作为一个特征开发过程，学习最优的特征提取方式。

S308，获取训练后的深度网络结构的最优网络结构和最优权重参数。

具体地，深度网络结构经过训练后，可以从深度网络结构中得到最优的网络结构，将该最优网络结构的全连接层数据保存，作为状态特征，状态特征可用于迭代循环训练深度网络结构，直至模型收益达到最大值时，表明服务器120已学习到合适的网络结构和参数，该参数收敛，可作为最优权重参数。

例如，将特征提取过程视为一个马尔可夫决策过程，选择一个函数R(s,α,W)进行描述，函数R本身是一个深度网络结构，也可看作为模型收益R，将状态特征s输入至深度网络结构，即函数R中，选择不同的权重/偏差W作用于状态特征s，同时观察模型收益R，当模型收益R在不同W的调优下达到最大值时，该最大值的模型收益R对应的深度网络结构即为最优网络结构，将模型收益R调至最大值的权重W即为最优权重参数。

S310，根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。

其中，最优特征提取策略可以是将模型收益最大化的特征调节动作，例如上述示例中所提到R函数的动作α。

具体地，服务器120中装载的强化学习参数学习系统完成了上述模型训练，得到最优网络结构和最优权重参数后，可将最优网络结构和最优权重参数保存在重放内存中，同时生成最优特征提取策略，该最优特征提取策略可由于供线上系统更新特征提取代码，即不断优化更新建模所用状态特征，以使模型收益最大化。

例如，服务器120根据特征学习效果(最优网络结构和最优权重参数)学习到新的特征提取方式(特征提取代码)，用建模收益作为学习奖励，不断优化学习策略，该最优特征提取策略的生成过程简要包括针对模型收益R的历史记录，调优权重W，以便获得能给出优化R最佳的α(action)。

需要说明的是，本申请所提出的特征提取系统可用于保险业务平台，以便分析用户在投保时对环境的反应行为，即在不同保险收益环境下的反应，使用机器学习方法中的强化学习方法，计算是否为用户提供或推荐保险/保险价格。

本实施例中，服务器通过获取学习对象的特征提取代码来获取状态特征，利用该状态特征训练基于强化学习的深度网络结构，进而得到最优网络结构和最优权重参数，将最优网络结构和最优权重参数应用于保险业务平台，可提供保险业务推荐，计算是否为用户提供保险和保险价格。采用本方法，设置特征提取代码应用于模型训练，不仅能提高特征提取效率，即以建模效果作为学习奖励激发计算机不断优化学习策略，以学习到新的特征提取方式，还能通过对特征提取代码的优化提高状态特征质量，从而达到良性循环，提供以应用平台最佳的网络结构待使用。

如图4所示，在一个实施例中，步骤S306中采用所述状态特征训练基于强化学习的深度网络结构，具体包括如下步骤：

S3062，通过强化学习收益评估函数，采用所述状态特征训练所述深度网络结构。

具体地，强化学习收益评估函数可表示为R(s，α，W)，其中的s表示用于描述特征提取系统状态的所有信息，包括但不限于所有开发所用特征的统计描述(数量统计、分布统计、embedding拟合)和现有特征的特征提取代码解析结果(一段特征提取代码)；α表示用于增加收益R的一个特征提取代码修改动作，可作为强化学习参数学习系统的一个行为(action)；R本身作为一个深度网络结构，同时也可体现深度网络结构的模型收益；W表示深度网络结构中的权重/偏差参数，作用于s。

例如，将强化学习收益评估函数R(s，α，W)看作为一个深度网络结构，s表示该网络结构中的节点，也可以是深度神经网络中的神经元，W作用于s，即对s进行加权计算，不断调整W致使收益R变化的动作，可由α记录，服务器120可通过对状态特征的更新调整，实现对特征提取代码的更新调整，直至学习到最优化的特征提取方式。

需要说明的是，在本实施例中，深度网络结构的训练样本可以仅是根据特征提取代码提取到的状态特征，也可以是提取状态特征的特征提取代码本身，两者具有直接的关联关系。

本实施例中，通过引入强化学习收益评估函数对模型进行训练，可有效提高特征提取效率。

如图5所示，在一个实施例中，步骤S3062中通过强化学习收益评估函数，采用所述状态特征训练所述深度网络结构，具体包括如下步骤：

S502，通过所述强化学习收益评估函数，确定所述状态特征对应的收益优化策略。

其中，收益优化策略可以是指将强化学习收益评估函数中收益R调至最大的动作α(action)，收益优化策略包括了参数W对样本s的加权调节。

具体地，服务器120采用状态特征训练深度网络结构的训练过程，可以是通过强化学习收益评估函数建立训练机制，通过上述示例中对强化学习收益评估函数的介绍可知，深度网络结构的训练可以归结为是参数W的不断调优过程，而参数W的调优规则，可由收益优化策略确定，即选择使收益函数R最大化的α修改策略。

例如，通过对收益R的历史记录，确定参数W的调优变化规则，作为收益优化策略。

S504，根据所述收益优化策略，更新所述特征提取代码。

具体地，收益优化策略在强化学习收益评估函数中，可以是指示参数W对样本s的作用调整，即包括对参数W的大小调整，使得样本s的加权系数变化，得到新的状态特征或新的特征提取代码。

例如，收益优化策略中包含对参数W的指示变化，参数W的变化可体现于特征提取代码中的条件设置，进而促使特征提取代码得以更新，在实际应用场景中，如保险业务场景中，收益优化策略可以是对保险的定价调整，使保险收益最大化。

S506，根据更新后的特征提取代码更新所述状态特征，得到更新后的状态特征。

具体地，特征提取代码的更新直接导致状态特征的更新，应用于强化学习收益评估函数中，即为样本s的更新，继而导致模型训练效果发生差异变化，该变化即为机器学习的调优过程。

S508，根据更新后的状态特征，训练所述深度网络结构。

具体地，服务器120可根据不断更新的状态特征训练深度网络结构，以便获取深度网络结构不断优化过程中的最优网络结构，则构成该最优网络结构的参数即为最优权重参数。

本实施例中，服务器执行对深度网络结构的训练，可以是首先通过强化学习收益评估函数来确定收益优化策略，该策略的确定过程可以简化为从当前的特征提取代码中抽样一个子循环，继而获取该子循环特征提取代码对应的状态(样本s)，选择使收益函数R最大化的修改动作α，更新特征提取代码并重新计算状态特征，该更新后的状态特征可用于重复更新并训练模型结构，利用模型效果作为激励，可有效提高特征提取效率。

如图6所示，在一个实施例中，步骤S508中根据更新后的状态特征，训练所述深度网络结构，具体包括如下步骤：

S602，根据更新后的状态特征，计算所述深度网络结构的真实收益，以及，获取历史预估收益；所述历史预估收益为所述深度网络结构在训练，前的预估收益。

其中，历史预估收益可以是在深度网络结构训练之前预估的模型收益，也可以是当前已更新深度网络结构的前序模型收益，历史预估收益与真实收益之间实际间隔一次或多次模型训练，即一次或多次模型收益的更新。

具体地，服务器120对深度网络结构的机器学习训练，可以是存在目标性的有限次循环训练，而该有限次循环训练的学习奖励可以设置为模型效果，即模型收益，则模型收益的变化需要被实时记录，分析多次变化的模型收益之间的差距，可有效调整训练规则，因此本申请提取通过对历史预估收益和真实收益的比较，计算两者误差实现对模型收益的调整，即实现对样本的优化提取。

S604，将所述历史预估收益与所述真实收益进行比较，确定权重参数调整策略。

具体地，服务器120可通过对历史预估收益与真实收益之间的比较计算，判定误差值，从而根据误差值确定权重参数W的调整策略。

例如，历史预估收益R与真实收益R’之间的差异存在一个误差值，服务器120可根据该误差值的正负、大小对权重参数W进行调整，以便当权重参数W作用于样本s时可是模型收益达到最大。

S606，根据所述权重参数调整策略，对所述深度网络结构的权重参数进行调整。

具体地，权重参数调整策略可以是调整权重参数W的动作α，即权重参数调整策略可供服务器120指示对权重参数W的调整控制。

S608，按照预设的权重调整次数重复执行上述步骤，直至训练所述深度网络结构得到所述最优网络结构及其对应的最优权重参数。

其中，预设的权重调整次数可以是模型训练次数。

具体地，本申请提出遍历时间T，即按照预设的权重调整次数对模型训练中的权重参数W进行调整，当模型总收益达到最大值时，表示服务器102已控制学习到合适的最优网络结构和最优权重参数。

本实施例中，在上述示例利用模型效果作为激励提高特征提取效率的基础上，服务器可通过计算历史预估收益与真实收益之间的误差，确定权重参数调整策略，该权重参数调整策略可按照预设的权重调整次数，指示服务器进行循环重复调整，直至参数收敛得到最大值的模型收益时，训练完成得到最优网络结构和最优权重参数，而该最优网络结构和最优权重参数可作用于线上系统的决策中，以便线上系统直接使用。

如图7所示，在一个实施例中，步骤S606中根据所述权重参数调整策略，对所述深度网络结构的权重参数进行调整，具体包括如下步骤：

S702，根据所述权重参数调整策略，更新所述真实收益，得到目标真实收益。

其中，目标真实收益可以是指当前已更新的真实收益，多个真实收益之间具有时序性，目标真实收益即为服务器120当前更新的真实收益。

具体地，由于服务器120将按照预设的权重参数调整策略训练模型，测模型收益同时会得到不断地更新处理，要确定模型训练地最佳效果，得到最优结构网络，需要对不断更新地模型收益进行比对，由此，本实施例中提出以当前更新的真实收益作为目标真实收益，通过目标真是收益与历史预估收益或前序更新获取到的真实收益进行比较，调优模型训练过程。

S704，计算所述目标真实收益与所述历史预估收益的误差，作为所述深度网络结构的损失参数。

具体地，服务器120可通过建立损失函数计算目标真实收益与历史预估收益的误差，损失函数在重复次的模型训练过程中同样需要更新；其中，/>为当期收益，即目标真实收益；/>为权重参数调整策略α(调整参数W的动作)，在实际应用中，权重参数调整策略α可以是保险定价调整策略。

需要说明的是，选择不同的损失函数会有不同的训练效果，典型的损失函数由平方误差损失函数和交叉熵损失函数，虽然本申请选择如上述示例中展示的平方误差损失函数，但在其他实施例中还可选择交叉熵损失函数。

S706，根据所述损失参数，对所述深度网络结构的权重参数进行梯度计算，得到偏导数。

具体地，服务器120可根据梯度下降更新参数W，即对损失参数求偏导来更新权重参数W。

S708，根据所述偏导数，对所述深度网络结构的权重参数进行调整。

具体地，服务器120可根据多重梯度计算多次更新权重参数，上次更新得到的W可用于下一轮循环更新，权重参数W的调整可以是具有多次关联性更新的调整。

本实施例中，在上述示例利用模型效果作为激励提高特征提取效率的基础上，可通过选择合适的损失函数和梯度下降算法，有效调整深度网络结构的权重参数，实现对模型收益的最大化。

如图8所示，在一个实施例中，步骤S308中获取训练后的深度网络结构的最优网络结构和最优权重参数，具体包括如下步骤：

S802，根据预设的深度网络结构重复训练次数，获取所述深度网络结构的多个真实收益。

具体地，深度网络结构重复训练次数可以等同于权重调整次数，作用均为多次训练模型，得到多个真实收益进行分析比较，从而确定最优调整训练方式。

S804，识别所述多个真实收益中的真实收益最大值。

具体地，在多次模型训练中将对应获得多个真实收益，确定最优网络结构来结束模型训练，即需识别出多次训练中的真实收益最大值，表示当前训练的深度网络结构效果最佳，因此，服务器120要结束模型训练以获取最优网络结构，识别出真实收益最大值即可。

S806，确定所述真实收益最大值对应的深度网络结构作为所述最优网络结构，并确定所述最优网络结构的权重参数作为最优权重参数。

具体地，计算得到真实收益最大值时的深度网络结构即为最优网络结构，该最优网络结构中的权重参数即为最优权重参数，最优网络结构可应用于保险业务平台，用于计算保险业务最大收益，最优权重参数则可作用于提取最优特征提取代码或状态特征，以调优模型效果。

本实施例中，通过设置深度网络结构重复训练次数，对深度网络结构及西宁多次训练，可选取出效果最佳的最优网络结构以及最优权重参数，不仅可应用于保险业务平台计算是否对用户提供保险及保险价格，还优化了特征提取方式，特征提取效率得以提高。

在一个实施例中，所述特征提取代码为结构化查询语言(SQL)代码。

本实施例中，将特征提取代码设置为结构化查询语言(SQL)代码，便于人工参与撰写，操作性强、特征提取效率得以提高。

应该理解的是，虽然图3-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图9所示，在一个实施例中，提供了一种基于强化学习的特征提取装置900，该装置900可设置于特征提取系统中，用于执行上述基于强化学习的特征提取方法，特征提取装置900具体包括：代码获取模块902、特征获取模块904、结构训练模块906、结果获取模块908以及策略生成模块910，其中：

代码获取模块902，用于获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定；

特征获取模块904，用于根据所述特征提取代码，获取所述学习对象的状态特征；

结构训练模块906，用于采用所述状态特征训练基于强化学习的深度网络结构；

结果获取模块908，用于获取训练后的深度网络结构的最优网络结构和最优权重参数；

策略生成模块910，用于根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求。

在一个实施例中，结构训练模块906还用于通过强化学习收益评估函数，采用所述状态特征训练所述深度网络结构。

在一个实施例中，结构训练模块906还用于通过所述强化学习收益评估函数，确定所述状态特征对应的收益优化策略；根据所述收益优化策略，更新所述特征提取代码；根据更新后的特征提取代码更新所述状态特征，得到更新后的状态特征；根据更新后的状态特征，训练所述深度网络结构。

在一个实施例中，结构训练模块906还用于根据更新后的状态特征，计算所述深度网络结构的真实收益，以及，获取历史预估收益；所述历史预估收益为所述深度网络结构在训练前的预估收益；将所述历史预估收益与所述真实收益进行比较，确定权重参数调整策略；根据所述权重参数调整策略，对所述深度网络结构的权重参数进行调整；按照预设的权重调整次数重复执行上述步骤，直至训练所述深度网络结构得到所述最优网络结构及其对应的最优权重参数。

在一个实施例中，结构训练模块906还用于根据所述权重参数调整策略，更新所述真实收益，得到目标真实收益；计算所述目标真实收益与所述历史预估收益的误差，作为所述深度网络结构的损失参数；根据所述损失参数，对所述深度网络结构的权重参数进行梯度计算，得到偏导数；根据所述偏导数，对所述深度网络结构的权重参数进行调整。

在一个实施例中，结果获取模块908还用于根据预设的深度网络结构重复训练次数，获取所述深度网络结构的多个真实收益；识别所述多个真实收益中的真实收益最大值；确定所述真实收益最大值对应的深度网络结构作为所述最优网络结构，并确定所述最优网络结构的权重参数作为最优权重参数。

本实施例中，服务器通过获取学习对象的特征提取代码来获取状态特征，利用该状态特征训练基于强化学习的深度网络结构，进而得到最优网络结构和最优权重参数，将最优网络结构和最优权重参数应用于保险业务平台，可提供保险业务推荐，计算是否为用户提供保险和保险价格。采用本方案，设置特征提取代码应用于模型训练，不仅能提高特征提取效率，即以建模效果作为学习奖励激发计算机不断优化学习策略，以学习到新的特征提取方式，还能通过对特征提取代码的优化提高状态特征质量，从而达到良性循环，提供以应用平台最佳的网络结构待使用。

在一个实施例中，本申请提供的基于强化学习的特征提取装置可以实现为一种计算机程序的形式，计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该特征提取装置的各个程序模块，比如，图9所示的代码获取模块902、特征获取模块904、结构训练模块906、结果获取模块908以及策略生成模块910。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于强化学习的特征提取方法中的步骤。

例如，图2所示的计算机设备可以通过如图9所示的特征提取装置中的代码获取模块902执行步骤S302，计算机设备可通过特征获取模块904执行步骤S304，计算机设备可通过结构训练模块906执行步骤S306，计算机设备可通过结果获取模块908执行步骤S308，计算机设备可通过策略生成模块910执行步骤S310。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于强化学习的特征提取方法的步骤。此处基于强化学习的特征提取方法的步骤可以是上述各个实施例的基于强化学习的特征提取方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于强化学习的特征提取方法的步骤。此处基于强化学习的特征提取方法的步骤可以是上述各个实施例的基于强化学习的特征提取方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的保险业务数据处理方法，其特征在于，包括如下步骤：

获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定，学习对象是保险推荐项目，具有给定是否为用户提供保险和保险价格的任务，针对所述学习对象的网络模型进行强化学习时，学习的是针对不同用户推荐保险及其价格的技能；

获取保险业务数据，根据所述特征提取代码对保险业务数据进行特征提取，获取所述学习对象的状态特征，将保险业务收益问题建模为马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及奖赏函数，所述状态为学习对象的状态特征，所述状态特征包括用户的投保状态；

通过强化学习收益评估函数，采用所述状态特征训练基于强化学习的深度网络结构，包括：通过所述强化学习收益评估函数，确定所述状态特征对应的收益优化策略；根据所述收益优化策略，更新所述特征提取代码；根据更新后的特征提取代码更新所述状态特征，得到更新后的状态特征；根据更新后的状态特征，训练所述深度网络结构，收益优化策略包括对保险的定价调整，使保险收益最大化；

获取训练后的深度网络结构的最优网络结构和最优权重参数；

根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求；

获取用户数据，结合最优网络结构和最优权重参数解析用户数据，向用户推荐保险业务，计算是否为用户提供保险和保险价格。

2.根据权利要求1所述的方法，其特征在于，所述强化学习收益评估函数表示为R(s，α，W)，其中的s表示用于描述特征提取系统状态的所有信息，α表示用于增加收益R的一个特征提取代码修改动作，R本身作为一个深度网络结构，W表示深度网络结构中的权重/偏差参数，作用于s。

3.根据权利要求2所述的方法，其特征在于，所述收益优化策略是指将强化学习收益评估函数中收益R调至最大的动作α，收益优化策略包括了参数W对样本s的加权调节。

4.根据权利要求3所述的方法，其特征在于，所述根据更新后的状态特征，训练所述深度网络结构，包括：

根据更新后的状态特征，计算所述深度网络结构的真实收益，以及，获取历史预估收益；所述历史预估收益为所述深度网络结构在训练前的预估收益；

将所述历史预估收益与所述真实收益进行比较，确定权重参数调整策略；

根据所述权重参数调整策略，对所述深度网络结构的权重参数进行调整；

按照预设的权重调整次数重复执行上述步骤，直至训练所述深度网络结构得到所述最优网络结构及其对应的最优权重参数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述权重参数调整策略，对所述深度网络结构的权重参数进行调整，包括：

根据所述权重参数调整策略，更新所述真实收益，得到目标真实收益；

计算所述目标真实收益与所述历史预估收益的误差，作为所述深度网络结构的损失参数；

根据所述损失参数，对所述深度网络结构的权重参数进行梯度计算，得到偏导数；

根据所述偏导数，对所述深度网络结构的权重参数进行调整。

6.根据权利要求1所述的方法，其特征在于，所述获取训练后的深度网络结构的最优网络结构和最优权重参数，包括：

根据预设的深度网络结构重复训练次数，获取所述深度网络结构的多个真实收益；

识别所述多个真实收益中的真实收益最大值；

确定所述真实收益最大值对应的深度网络结构作为所述最优网络结构，并确定所述最优网络结构的权重参数作为最优权重参数。

7.根据权利要求1所述的方法，其特征在于，所述特征提取代码为结构化查询语言(SQL)代码。

8.一种基于强化学习的保险业务数据处理装置，其特征在于，所述装置包括：

代码获取模块，用于获取学习对象的特征提取代码；所述特征提取代码根据人工编写确定，学习对象是保险推荐项目，具有给定是否为用户提供保险和保险价格的任务，针对所述学习对象的网络模型进行强化学习时，学习的是针对不同用户推荐保险及其价格的技能；

特征获取模块，用于获取保险业务数据，根据所述特征提取代码对保险业务数据进行特征提取，获取所述学习对象的状态特征，将保险业务收益问题建模为马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及奖赏函数，所述状态为学习对象的状态特征，所述状态特征包括用户的投保状态；

结构训练模块，用于通过强化学习收益评估函数，采用所述状态特征训练基于强化学习的深度网络结构，包括：通过所述强化学习收益评估函数，确定所述状态特征对应的收益优化策略；根据所述收益优化策略，更新所述特征提取代码；根据更新后的特征提取代码更新所述状态特征，得到更新后的状态特征；根据更新后的状态特征，训练所述深度网络结构，收益优化策略包括对保险的定价调整，使保险收益最大化；

结果获取模块，用于获取训练后的深度网络结构的最优网络结构和最优权重参数；

策略生成模块，用于根据所述最优网络结构和所述最优权重参数，生成最优特征提取策略；所述最优特征提取策略用于提取保险业务用户的画像特征，以便根据所述画像特征解析所述保险业务用户的投保需求，获取用户数据，结合最优网络结构和最优权重参数解析用户数据，向用户推荐保险业务，计算是否为用户提供保险和保险价格。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。