CN113724069B

CN113724069B - 基于深度学习的定价方法、装置、电子设备和存储介质

Info

Publication number: CN113724069B
Application number: CN202111019566.5A
Authority: CN
Inventors: 彭莉; 刘志强; 潘敏; 田鸥; 邱超乐
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-02-13
Anticipated expiration: 2041-08-31
Also published as: CN113724069A

Abstract

本申请涉及人工智能技术领域，具体公开了一种基于深度学习的定价方法、装置、电子设备和存储介质，其中，定价方法包括：对初始样本集进行预处理，得到训练样本集，其中，所述初始样本集为包含历史定价数据的数据集；将所述训练样本集输入深度学习模型进行训练，得到定价模型；获取定价请求，其中，所述定价请求包括业务名称和请求人信息；根据所述请求人信息，确定请求人的客户特征；根据所述业务名称，确定所述业务名称对应的业务领域的定价策略和市场经济信息；将所述客户特征、所述定价策略和所述市场经济信息，输入所述定价模型，得到参考价格。

Description

基于深度学习的定价方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于深度学习的定价方法、装置、电子设备和存储介质。

背景技术

随着央行以贷款市场报价利率(Loan Prime Rate，LPR)替代贷款基准利率相关政策的落地，利率两轨变一轨的趋势不可阻挡，利率市场化定价机制将进一步形成，这将导致银行利差进一步收窄。同时，由于普惠金融政策的实施，银行须要向之前不纳入优先服务范围的长尾客群拓展业务，而这些对银行的风控能力、定价能力提出了更高的要求。

通常而言，利率市场化有利于完善金融市场，但也使金融借贷面临更大的不确定性，利率定价过高或过低都会带来负面影响，从而给银行带来金融风险。目前，常用的定价体系是基于风险资本回报率(Risk-Adjusted Return On Capital，RAROC)模型，通过设定股东最低预期资本回报率来反推贷款最低价格作为指导价。但是，RAROC模型的定价体系存在以下不足：客户分类不够精细导致定价差异化不足；利率基于基础利率造成反应滞后；定价依赖于人工调查和谈判而智能化不足。特别是在营销阶段，当获取客户数据不够丰富时，RAROC模型测算的利率不够准确，对客户经理营销的指导也会有限。基于此，目前亟需一种适应多种复杂环境的精准定价方法。

发明内容

为了解决现有技术中存在的上述问题，本申请实施方式提供了一种基于深度学习的定价方法、装置、电子设备和存储介质，可以对客户进行精准分析和分类，并自动生成参考价格。

第一方面，本申请的实施方式提供了一种基于深度学习的定价方法，包括：

对初始样本集进行预处理，得到训练样本集，其中，初始样本集为包含历史定价数据的数据集；

将训练样本集输入深度学习模型进行训练，得到定价模型；

获取定价请求，其中，定价请求包括业务名称和请求人信息；

根据请求人信息，确定请求人的客户特征；

根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息；

将客户特征、定价策略和市场经济信息，输入定价模型，得到参考价格。

第二方面，本申请的实施方式提供了一种基于深度学习的定价装置，包括：

预处理模块，用于对初始样本集进行预处理，得到训练样本集，其中，初始样本集为包含历史定价数据的数据集；

训练模块，用于将训练样本集输入深度学习模型进行训练，得到定价模型；

接收模块，用于获取定价请求，其中，定价请求包括业务名称和请求人信息；

处理模块，用于根据请求人信息，确定请求人的客户特征，根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息；

定价模块，用于将客户特征、定价策略和市场经济信息，输入定价模型，得到参考价格。

第三方面，本申请实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

第四方面，本申请实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

第五方面，本申请实施方式提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

实施本申请实施方式，具有如下有益效果：

在本申请实施方式中，通过收集历史定价数据形成初始样本集，继而对初始样本集进行预处理，对初始样本集中的数据进行补全和清洗，得到训练样本集。然后，将训练样本集输入深度学习模型进行训练，得到定价模型。然后，根据接收到的定价请求，确定请求的业务名称和请求人信息，从而对请求人信息进行分析，确定请求人的客户类别，并基于客户类别完善该请求人的客户特征。同时，根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息。最后，将客户特征、定价策略和市场经济信息，输入定价模型，得到参考价格。由此，实现了对客户进行精准分析和分类，继而通过精准的分类对客户的特征进行补全，从而得到更加全面的客户特征。并根据客户的特征、业务的特性、以及当前市场的行情自动生成参考价格，解决了现有RAROC模型定价过程中定价不够精准的问题。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种基于深度学习的定价装置的硬件结构示意图；

图2为本申请实施方式提供的一种基于深度学习的定价方法的流程示意图；

图3为本申请实施方式提供的一种对初始样本集进行预处理，得到训练样本集的方法的流程示意图；

图4为本申请实施方式提供的一种根据预设的补全规则，在初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本的方法的流程示意图；

图5为本申请实施方式提供的一种根据预设的筛选规则，在至少一个第二候选样本中筛选至少一个第三候选样本的方法的流程示意图；

图6为本申请实施方式提供的一种深度学习模型的结构的示意图；

图7为本申请实施方式提供的一种LSTM的单一节点的结构的示意图；

图8为本申请实施方式提供的一种根据请求人信息，确定请求人的客户特征的方法的流程示意图；

图9为本申请实施方式提供的一种多层感知器的网络结构图；

图10为本申请实施方式提供的一种基于深度学习的定价装置的功能模块组成框图；

图11为本申请实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。

首先，参阅图1，图1为本申请实施方式提供的一种基于深度学习的定价装置的硬件结构示意图。该基于深度学习的定价装置100包括至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104。

在本实施方式中，处理器101，可以是一个通用中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路102，可以包括一通路，在上述组件之间传送信息。

通信接口104，可以是任何收发器一类的装置(如天线等)，用于与其他设备或通信网络通信，例如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器103，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本实施方式中，存储器103可以独立存在，通过通信线路102与处理器101相连接。存储器103也可以和处理器101集成在一起。本申请实施方式提供的存储器103通常可以具有非易失性。其中，存储器103用于存储执行本申请方案的计算机执行指令，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机执行指令，从而实现本申请下述实施方式中提供的方法。

在可选的实施方式中，计算机执行指令也可以称之为应用程序代码，本申请对此不作具体限定。

在可选的实施方式中，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在可选的实施方式中，该基于深度学习的自动定价装置100可以包括多个处理器，例如图1中的处理器101和处理器107。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在可选的实施方式中，若基于深度学习的自动定价装置100为服务器，例如，可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。则基于深度学习的自动定价装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101通信，可以以多种方式来显示信息。例如，输出设备105可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备106和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的基于深度学习的自动定价装置100可以是一个通用设备或者是一个专用设备。本申请实施方式不限定基于深度学习的自动定价装置100的类型。

其次，需要说明的是，本申请所公开的实施方式可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

此外，本申请所公开的实施方式也能够应用于医学应用场景。具体而言，在医学应用场景中，输入样本可以为医学影像，输入样本包含的对象所属类型为病灶，即机体上发生病变的部分。医学影像是指为了医疗或医学研究，以非侵入方式取得的内部组织，例如，胃部、腹部、心脏、膝盖、脑部的影像，比如，CT(Computed Tomography，电子计算机断层扫描)、MRI(Magnetic Resonance Imaging，磁共振成像)、US(ultrasonic，超声)、X光图像、脑电图以及光学摄影灯由医学仪器生成的图像。

在一种可能的实施方式中，输入数据可以是医疗数据，如个人健康档案、处方、检查报告等数据。在另一种可能的实施方式中，输入文本可以为医疗文本，该医疗文本可以是医疗电子记录(Electronic Healthcare Record)，电子化的个人健康记录，包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。

在本实施方式中，上述各个输入样本可以通过信息查询进行快速获取。例如，在医疗领域中，当需要病例数据作为输入数据时，可以基于人工智能模型从海量的电子病历中查询用户所需的病历信息。

以下，将对本申请所公开的基于深度学习的定价方法进行说明：

参阅图2，图2为本申请实施方式提供的一种基于深度学习的定价方法的流程示意图。该基于深度学习的定价方法包括以下步骤：

201：对初始样本集进行预处理，得到训练样本集。

在本实施方式中，初始样本集为包含历史定价数据的数据集。示例性的，历史定价数据可以包括价格数据、业务数据和客户数据。其中，价格数据用于声明对应的定价业务最终给出的定价，业务数据用于声明该定价业务所对应的业务类型，客户数据用于声明办理该定价业务的客户的个人数据。示例性的，该历史定价数据可以以数据对的形式进行表示，例如【20万，贷款，张三】，该数据对声明了张三办理了贷款类型的业务，最终给出的价格数据为：20万。

在本实施方式中，由于各个数据的来源不同，同时，用于采集数据的各类系统中也可能存在数据缺失等情况，造成数据格式不统一，以及部分数据缺少等情况。因此，在获取到初始样本集后，需要对初始样本集中的数据进行预处理，例如：数据清洗、数据补充、数据扩展等。

在本实施方式中，提供了一种对初始样本集进行预处理，得到训练样本集的方法，如图3所示，该方法包括：

301：根据预设的补全规则，在初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本。

在本实施方式中，该至少一个第二候选样本和至少一个第一候选样本一一对应。同时，如上述所述，用于采集数据的各类系统中也可能存在数据缺失等情况。基于此，采集到的初始样本中也可能存在部分具有缺失的样本。由于这类样本那缺失了部分数据，在造成数据结构差异的同时，也使得该样本的特征产生偏差，继而影响后续的模型训练。基于此，需要对这些样本进行数据补充。

示例性的，本申请提供了一种根据预设的补全规则，在初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本的方法，如图4所示，该方法包括：

401：根据初始样本集中的每个初始样本的样本类型确定每个初始样本的缺失率。

在本实施方式中，缺失率是指初始样本集中的某个样本的数据结构中的指标个数，相对于该样本对应的样本类型的标准样本的数据结构中的指标个数，该样本中缺失的指标的个数占标准样本的数据结构中的指标个数的比例。其中，缺失的指标指标准样本中有，而初始样本集中的某个样本中没有的指标。

具体而言，初始样本集中的某个样本的数据结构为【指标1；指标2；指标5；指标8】，其对应的标准样本的数据结构为【指标1；指标2；指标3；指标5；指标6；指标8】。则相对于标准样本，该初始样本集中的某个样本的缺失指标为【指标3】和【指标6】，个数为2，同时标准样本中的指标个数为6，则该初始样本集中的某个样本的缺失率为：2/6＝33％。

402：根据每个初始样本的缺失率，在初始样本中确定至少一个第一候选样本。

在本实施方式中，至少一个第一候选样本中的每个第一候选样本对应的缺失率小于第一阈值。简单而言，某个初始样本的缺失率超出第一阈值，则说明该样本的数据缺失严重，即便对其缺失值进行技术补全，也会由于基础数据的不足导致补全的数据的精准度不够，最终形成垃圾数据，影响模型的训练。因此，对于缺失率超出第一阈值的初始样本，可以直接进行丢弃，以提升处理效率。具体而言，第一阈值可以是25％。

403：根据每个第一候选样本的样本类型，获取与样本类型对应的补全方法，并通过补全方法对每个第一候选样本进行补全，得到至少一个第二候选样本。

在本实施方式中，由于初始样本中包含各类不同的数据，而这些类型各异的数据的数据特性也不尽相同，因此，对于不同数据类型的样本，将采用不同的补全方法。具体而言，补全方法可以包括邻值补充、中值补充和均值补充。

302：根据预设的筛选规则，在至少一个第二候选样本中筛选至少一个第三候选样本；

在本实施方式中，经过步骤301后，将缺失率过高的样本淘汰的同时，对样本的格式进行了统一。但是，剩余的样本中依然存在数据质量差的样本。这些样本在进行训练时，不但不会提升模型的精准度，反而会降低模型的精准度和训练效率。因此，需要通过筛选规则将这类样本筛除。

示例性的，本申请提供了一种根据预设的筛选规则，在至少一个第二候选样本中筛选至少一个第三候选样本的方法，如图5所示，该方法包括：

501：确定至少一个第二候选样本中的每个第二候选样本的乱码率。

在本实施方式中，可以根据每个第二候选样本的样本类型获取该样本类型的字符集，继而确定该样本中存在的不属于该字符集中的字符的个数，将该样本中存在的不属于该字符集中的字符的个数与该样本的总字符数的比值，作为该样本的乱码率。

502：对每个第二候选样本进行离散处理，确定每个第二候选样本在离散后得到的码值的数量。

503：根据每个第二候选样本的乱码率，以及每个第二候选样本在离散后得到的码值的数量，在至少一个第二候选样本中确定至少一个第四候选样本。

在本实施方式中，至少一个第四候选样本中的每个第四候选样本对应的乱码率大于第二阈值，或每个第四候选样本在离散后得到的码值的数量大于第三阈值。示例性的，简单而言，某个第二候选样本的乱码率超出第二阈值，则说明该样本的数据乱码严重，即便对其乱码进行恢复补全，也会由于基础数据的不足导致补全的数据的精准度不够，最终形成质量差的数据，影响模型的训练。同样的，某个第二候选样本在离散后得到的码值的数量大于第三阈值，说明该样本包括的标签点很多，数据离散严重，无法提取到高质量的数据特征，同样会影响模型的训练。因此，对于乱码率超出第二阈值，或离散后得到的码值的数量大于第三阈值的第二候选样本，可以直接进行丢弃，以提升处理效率。具体而言，第二阈值可以是25％，第三阈值可以是800。

504：对至少一个第四候选样本中的每个第四候选样本进行重要度计算，得到至少一个特征重要度。

在本实施方式中，至少一个特征重要度与至少一个第四候选样本一一对应。示例性的，可以对每个第四候选样本进行特征提取，得到和至少一个第四候选样本一一对应的至少一个样本特征。再将每个样本特征输入梯度提升决策树(Gradient BoostingDecision Tree，GBDT)，得到至少一个特征重要度。

505：根据至少一个特征重要度，在至少一个第四候选样本中确定至少一个第三候选样本。

在本实施方式中，至少一个第三候选样本中的每个第三候选样本对应的特征重要度大于第四阈值。示例性的，简单而言，某个第四候选样本的特征重要度小于第四阈值，则说明该样本的特征对模型训练的影响极小，可以忽略不计。因此，为了简化后续的模型训练过程，降低模型训练的复杂度，对于特征重要度小于第四阈值的样本，可以直接进行丢弃。具体而言，第四阈值可以是0.4。

在可选的实施方式中，还可以对至少一个第三候选样本进行进一步筛选。具体而言，经过上述筛选，筛除了缺失严重、质量差、重要性低的样本。但是，剩余的样本中依旧可能存在与业务领域相关性低的样本。这些样本由于与待定价的业务领域的相关性低，其呈现出的数据特征可能并不符合当前业务领域中的某些规律。即，这些样本同样会对模型的训练产生影响，以影响模型的精准性。

基于此，在本实施方式中，可以对每个第三候选样本进行关键词提取，继而对提取出的关键词进行语义提取，得到对应的语义向量。将该语义向量与业务领域的领域向量进行相关性的计算，当相关系数大于第五阈值时，即可确定该第三候选样本与待定价的业务领域之间的相关性强。具体而言，相关性系数可以为0.8。

在可选的实施方式中，预处理还可以包括：特征交叉、分箱、分桶、独热编码、文本数据的词袋模型、组合特征、特征变量筛选等。由此，在补全初始样本的全面性的同时，全面筛除相关性不高的样本，提升样本的利用率，从而降低后续训练的复杂度。

303：对至少一个第三候选样本中的每个第三候选样本进行关联信息抽取，得到至少一个客户信息和至少一个历史市场经济信息。

在本实施方式中，至少一个客户信息和至少一个第三候选样本一一对应，至少一个历史市场经济信息和至少一个第三候选样本一一对应，至少一个客户信息中的每个客户信息用于标识对应的每个第三候选样本的请求人的信息，至少一个历史市场经济信息中的每个历史市场经济信息用于标识对应的每个第三候选样本的业务领域的历史市场行情。

304：分别将每个第三候选样本、每个第三候选样本对应的每个客户信息和每个历史市场经济信息进行组合，得到至少一个训练数据组。

305：将至少一个训练数据组作为训练样本集。

202：将训练样本集输入深度学习模型进行训练，得到定价模型。

在本实施方式中，可以采用多层分类模型作为初始的深度学习模型。示例性的，如图6所示，本申请中的深度学习模型具有两层分类结构，其中，第一层分类结构由多个并行的基学习器组成，第二层分类结构由一个元学习器构成。且第一层分类机构中的多个并行的基学习器的输出，回作为第二层分类结构中的元学习器的输入。

示例性的，该深度学习模型的算法如下：

Algorithm 19.7Stackig

Output:An ensemble classifier H

1:Step 1:Learn first-level classifiers

2:for t←1to T do

3:Learn a base classifier ht based on D

4:end for

5:Step 2:Construct new data sets from D

6:for i←1to m do

7:Construct a new data set that contains{xi'，yi},where xi'＝{h1(xi),h2(xi),…,hr(xi)}

8:end for

9:Step 3:Learn a second-level classifier

10:Learn a new classifier h’based on the newly constructed data set

11:return H(x)＝h’(h1(xi),h2(xi),…,hr(xi))

具体而言，本实施方式中，首先将训练样本集随机分解成数个子集，分别输入到第一层分类结构的各个基学习器中，每个基学习器输出各自的分类结果，并作为第二层分类结构的元学习器的输入，以此来达到修正第一层分类预测模型误差的目的，从而提高模型分类预测的精度。同时，由于算法每次都进行采样来训练模型，泛化能力很强，对于降低模型的方差也很有作用。

此外，通常而言，常采用循环神经网络(Recurrent Neural Network，RNN)作为基学习器，但是RNN存在如下所示的限制：

1.间隔过长，长时间的信息无法被有效学到。

2.对于有用的信息的间隔有大有小，长短不一，RNN的性能会受到影响。

基于此，在本实施方式中，基学习器可以采用长短期记(long short-termmemory，LSTM)神经网络。具体而言，LSTM可以视为RNN的一种变体，其将RNN中隐含层的神经元替换成了记忆体(memory block)，每个记忆体中包含一到多个记忆细胞(memory cell)和三种非线性求和单元，非线性求和单元又被称作“门”(gate)，分为三种：“输入门(inputgate)”，“输出门(output gate)”和“遗忘门(forget gate)”，分别通过矩阵乘法控制记忆细胞的输入、输出以及内部“状态”传递。如图7所示，把RNN网络中看到的小圆圈换成LSTM的block，就是所谓的LSTM了。

根据LSTM网络的结构，每个LSTM单元的计算率可以通过公式①-⑥表示：

f_t＝σ(W_f×[h_t-1,x_t]+b_f).........①

其中，f_t表示遗忘门限，σ代表sigmod函数，W_f代表遗忘门限sigmoid函数的参数，b_f代表遗忘门限sigmoid函数的常数项，x_t代表输入的时点数据，h_t-1表示前一时刻单元的输出。

i_t＝σ(W_i×[h_t-1,x_t]+b_i).........②

其中，i_t表示输入门限，W_i代表遗忘门限sigmoid函数的参数，b_i代表遗忘门限sigmoid函数的常数项。

其中，表示前一时刻cell状态，W_c代表tanh函数的参数，b_c代表tanh函数的常数项。

其中，C_t表示当前时刻cell状态。

o_t＝σ(W_o×[h_t-1,x_t]+b_o).........⑤

其中，O_t表示输出门限，W_o代表遗忘门限sigmoid函数的参数，b_o代表遗忘门限sigmoid函数的常数项。

h_t＝o_t×tanh(C_t).........⑥

其中，ht表示当前单元的输出。

在本实施方式中，LSTM的训练算法的基本原理和反向传播(Backpropagation，BP)算法是一样的，同样是三步：

1.前向计算每个神经元的值；

2.反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；

3.计算每个权重的梯度。

最后利用随机梯度下降算法更新权重。

在本实施方式中，LSTM深度神经网络对于时间序列的预测是有效的，能有效的解决RNN梯度消失的问题。同时加入了衍生FM变量、节假日等有效信息，可以进一步的提高基学习器的预测能力。

此外，在本实施方式中，可以通过以下方法实现集成策略：

(1)简单平均法:

(2)加权平均法:

(3)绝对数投票法:某标记投票过半，则预测为该标记。

203：获取定价请求。

在本实施方式中，定价请求可以包括业务名称和请求人信息。

204：根据请求人信息，确定请求人的客户特征；

在本实施方式中，由于信息获取的局限性，往往无法获取全面的请求人信息，基于此，仅仅通过对请求人信息进行特征提取所得到的特征信息往往也存在一定的缺失。基于此，为了获取完整的客户特征，本申请提供了一种根据请求人信息，确定请求人的客户特征的方法，如图8所示，该方法包括：

801：根据请求人信息进行特征提取，得到至少一个请求人特征。

在本实施方式中，可以通过对请求人信息进行关键字提取的方式，实现对请求人信息的特征提取，以得到至少一个请求人特征。

802：根据至少一个请求人特征，确定请求人的客户类型；

在本实施方式中，可以通过多层感知器(Multilayer Perceptron，MLP)对客户进行分类，继而确定该客户的客户类型。通常而言，Softmax回归模型只采用了最简单的两层神经网络，即，只有输入层和输出层的两层结构，导致其拟合能力有限。因此，为了达到更好的识别效果，本申请在Softmax回归模型的基础上，在输入层和输出层之间添加了若干个隐藏层，构成了多层感知器。具体而言，如图9所示，图9为本申请所提出的一种多层感知器的网络结构图，其中，权重用实线表示、偏置用虚线表示、+1代表偏置参数的系数为1。

具体而言，经过第一个隐藏层，其输出可以通过公式⑦表示：

H₁＝φ(Z₁×Y+s₁).........⑦

其中，φ表示激活函数，常见的有sigmoid、tanh或ReLU等函数。

经过第二个隐藏层，其输出可以通过公式⑧表示：

H₂＝φ(Z₂×H₁+s₂).........⑧

最后，再经过输出层，其输出可以通过公式⑨表示：

J＝softmax(Z₃×H₂+s₃).........⑨

在本实施方式中，公式⑨的计算结果即为最后的分类结果向量。由此，实现了对请求人的精准分类。

803：根据客户类型，获取客户类型对应的通用客户特征；

804：根据通用客户特征对至少一个请求人特征进行补全，得到请求人的客户特征。

具体而言，可以将该通用客户特征与提取出的至少一个请求人特征进行比对，将至少一个请求人特征中缺失的特征进行补全，得到最终的客户特征。

205：根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息；

在本实施方式中，可以对业务名称进行词嵌入，得到第一词向量。从而将第一词向量在预设的业务领域库中进行匹配，例如，计算第一词向量与业务领域库中存储的业务领域向量之间的相似度，继而将相似度最大的业务领域向量所对应的业务领域确定为该业务名称对应的业务领域。然后，可以获取该业务领域对应的战略数据和市场行情数据，其中，战略数据可以为定价方，例如银行等机构在该业务领域中的战略布局信息和优惠政策等，市场行情数据用于声明在对应时间下，市场上的经济特性，例如：A领域发展良好，正处于经济上升时期，而B领域由于环境因素发展缓慢，处于经济平缓时期等。最后，可以对战略数据进行关键词提取，得到至少一个第一关键词，并对市场行情数据进行关键词提取，得到至少一个第二关键词。由此，可以根据第一关键词，生成定价策略，并根据第二关键词，生成市场经济信息。

206：将客户特征、定价策略和市场经济信息，输入定价模型，得到参考价格。

综上所述，本发明所提供的基于深度学习的自动定价方法中，通过收集历史定价数据形成初始样本集，继而对初始样本集进行预处理，对初始样本集中的数据进行补全和清洗，得到训练样本集。然后，将训练样本集输入深度学习模型进行训练，得到定价模型。然后，根据接收到的定价请求，确定请求的业务名称和请求人信息，从而对请求人信息进行分析，确定请求人的客户类别，并基于客户类别完善该请求人的客户特征。同时，根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息。最后，将客户特征、定价策略和市场经济信息，输入定价模型，得到参考价格。由此，实现了对客户进行精准分析和分类，继而通过精准的分类对客户的特征进行补全，从而得到更加全面的客户特征。并根据客户的特征、业务的特性、以及当前市场的行情自动生成参考价格，解决了现有RAROC模型定价过程中定价不够精准的问题。

参阅图10，图10为本申请实施方式提供的一种基于深度学习的定价装置的功能模块组成框图。如图10所示，该基于深度学习的定价装置1000包括：

预处理模块1001，用于对初始样本集进行预处理，得到训练样本集，其中，初始样本集为包含历史定价数据的数据集；

训练模块1002，用于将训练样本集输入深度学习模型进行训练，得到定价模型；

接收模块1003，用于获取定价请求，其中，定价请求包括业务名称和请求人信息；

处理模块1004，用于根据请求人信息，确定请求人的客户特征，根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息；

定价模块1005，用于将客户特征、定价策略和市场经济信息，输入定价模型，得到参考价格。

在本发明的实施方式中，在对初始样本集进行预处理，得到训练样本集方面，预处理模块1001，具体用于：

根据预设的补全规则，在初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本，其中，至少一个第二候选样本和至少一个第一候选样本一一对应；

根据预设的筛选规则，在至少一个第二候选样本中筛选至少一个第三候选样本；

对至少一个第三候选样本中的每个第三候选样本进行关联信息抽取，得到至少一个客户信息和至少一个历史市场经济信息，其中，至少一个客户信息和至少一个第三候选样本一一对应，至少一个历史市场经济信息和至少一个第三候选样本一一对应，至少一个客户信息中的每个客户信息用于标识对应的每个第三候选样本的请求人的信息，至少一个历史市场经济信息中的每个历史市场经济信息用于标识对应的每个第三候选样本的业务领域的历史市场行情；

分别将每个第三候选样本、每个第三候选样本对应的每个客户信息和每个历史市场经济信息进行组合，得到至少一个训练数据组；

将至少一个训练数据组作为训练样本集。

在本发明的实施方式中，在根据预设的补全规则，在初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本方面，预处理模块1001，具体用于：

根据初始样本集中的每个初始样本的样本类型确定每个初始样本的缺失率；

根据每个初始样本的缺失率，在初始样本中确定至少一个第一候选样本，其中，至少一个第一候选样本中的每个第一候选样本对应的缺失率小于第一阈值；

根据每个第一候选样本的样本类型，获取与样本类型对应的补全方法，并通过补全方法对每个第一候选样本进行补全，得到至少一个第二候选样本。

在本发明的实施方式中，在根据预设的筛选规则，在至少一个第二候选样本中筛选至少一个第三候选样本方面，预处理模块1001，具体用于：

确定至少一个第二候选样本中的每个第二候选样本的乱码率；

对每个第二候选样本进行离散处理，确定每个第二候选样本在离散后得到的码值的数量；

根据每个第二候选样本的乱码率，以及每个第二候选样本在离散后得到的码值的数量，在至少一个第二候选样本中确定至少一个第四候选样本，其中，至少一个第四候选样本中的每个第四候选样本对应的乱码率大于第二阈值，或每个第四候选样本在离散后得到的码值的数量大于第三阈值；

对至少一个第四候选样本中的每个第四候选样本进行重要度计算，得到至少一个特征重要度，其中，至少一个特征重要度与至少一个第四候选样本一一对应；

根据至少一个特征重要度，在至少一个第四候选样本中确定至少一个第三候选样本，其中，至少一个第三候选样本中的每个第三候选样本对应的特征重要度大于第四阈值。

在本发明的实施方式中，在对至少一个第四候选样本中的每个第四候选样本进行重要度计算，得到至少一个特征重要度方面，预处理模块1001，具体用于：

对每个第四候选样本进行特征提取，得到至少一个样本特征，其中，至少一个样本特征和至少一个第四候选样本一一对应；

将至少一个样本特征中的每个样本特征输入梯度提升决策树，得到至少一个特征重要度。

在本发明的实施方式中，在根据请求人信息，确定请求人的客户特征方面，处理模块1004，具体用于：

根据请求人信息进行特征提取，得到至少一个请求人特征；

根据至少一个请求人特征，确定请求人的客户类型；

根据客户类型，获取客户类型对应的通用客户特征；

根据通用客户特征对至少一个请求人特征进行补全，得到请求人的客户特征。

在本发明的实施方式中，在根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息方面，处理模块1004，具体用于：

对业务名称进行词嵌入，得到第一词向量；

将第一词向量在预设的业务领域库中进行匹配，确定业务名称对应的业务领域；

获取业务领域对应的战略数据和市场行情数据；

对战略数据进行关键词提取，得到至少一个第一关键词；

根据第一关键词，生成定价策略；

对市场行情数据进行关键词提取，得到至少一个第二关键词；

根据第二关键词，生成市场经济信息。

参阅图11，图11为本申请实施方式提供的一种电子设备的结构示意图。如图11所示，电子设备1100包括收发器1101、处理器1102和存储器1103。它们之间通过总线1104连接。存储器1103用于存储计算机程序和数据，并可以将存储器1103存储的数据传输给处理器1102。

处理器1102用于读取存储器1103中的计算机程序执行以下操作：

将训练样本集输入深度学习模型进行训练，得到定价模型；

根据请求人信息，确定请求人的客户特征；

在本发明的实施方式中，在对初始样本集进行预处理，得到训练样本集方面，处理器1102，具体用于执行以下操作：

将至少一个训练数据组作为训练样本集。

在本发明的实施方式中，在根据预设的补全规则，在初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本方面，处理器1102，具体用于执行以下操作：

在本发明的实施方式中，在根据预设的筛选规则，在至少一个第二候选样本中筛选至少一个第三候选样本方面，处理器1102，具体用于执行以下操作：

在本发明的实施方式中，在对至少一个第四候选样本中的每个第四候选样本进行重要度计算，得到至少一个特征重要度方面，处理器1102，具体用于执行以下操作：

在本发明的实施方式中，在根据请求人信息，确定请求人的客户特征方面，处理器1102，具体用于执行以下操作：

根据请求人信息进行特征提取，得到至少一个请求人特征；

根据至少一个请求人特征，确定请求人的客户类型；

根据客户类型，获取客户类型对应的通用客户特征；

在本发明的实施方式中，在根据业务名称，确定业务名称对应的业务领域的定价策略和市场经济信息方面，处理器1102，具体用于执行以下操作：

对业务名称进行词嵌入，得到第一词向量；

获取业务领域对应的战略数据和市场行情数据；

对战略数据进行关键词提取，得到至少一个第一关键词；

根据第一关键词，生成定价策略；

根据第二关键词，生成市场经济信息。

应理解，本申请中的基于深度学习的定价装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)、机器人或穿戴式设备等。上述基于深度学习的定价装置仅是举例，而非穷举，包含但不限于上述基于深度学习的定价装置。在实际应用中，上述基于深度学习的定价装置还可以包括：智能车载终端、计算机设备等等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

因此，本申请实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种基于深度学习的定价方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。

本申请实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种基于深度学习的定价方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选的实施方式，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施方式进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于深度学习的定价方法，其特征在于，所述方法包括：

对初始样本集进行预处理，得到训练样本集，其中，所述初始样本集为包含历史定价数据的数据集；

将所述训练样本集输入深度学习模型进行训练，得到定价模型；

获取定价请求，其中，所述定价请求包括业务名称和请求人信息；

根据所述请求人信息进行特征提取，得到至少一个请求人特征；

根据所述至少一个请求人特征，确定请求人的客户类型；

根据所述客户类型，获取所述客户类型对应的通用客户特征；

根据所述通用客户特征对所述至少一个请求人特征进行补全，得到所述请求人的客户特征；

对所述业务名称进行词嵌入，得到第一词向量；

将所述第一词向量在预设的业务领域库中进行匹配，确定所述业务名称对应的业务领域；

获取所述业务领域对应的战略数据和市场行情数据；

对所述战略数据进行关键词提取，得到至少一个第一关键词；

根据所述第一关键词，生成定价策略；

对所述市场行情数据进行关键词提取，得到至少一个第二关键词；

根据所述第二关键词，生成市场经济信息；

将所述客户特征、所述定价策略和所述市场经济信息，输入所述定价模型，得到参考价格；

其中，所述根据所述至少一个请求人特征，确定请求人的客户类型包括：

将所述至少一个请求人特征输入多层感知器，根据所述多层感知器的输出结果对所述请求人进行分类，确定所述请求人的客户类型；

所述多层感知器包括输入层、输出层和两个隐藏层；其中，

所述两个隐藏层位于所述输入层和所述输出层之间；

第一个隐藏层的输出满足以下公式：

其中，表示激活函数，包括sigmoid、tanh或ReLU函数，Z₁和s₁表示超参，Y表示输入数据；

第二个隐藏层的输出满足以下公式：

其中，Z₂和s₂表示超参；

所述输出层的输出满足以下公式：

其中，Z₃和s₃表示超参。

2.根据权利要求1所述的方法，其特征在于，所述对初始样本集进行预处理，得到训练样本集，包括：

根据预设的补全规则，在所述初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本，其中，所述至少一个第二候选样本和所述至少一个第一候选样本一一对应；

根据预设的筛选规则，在所述至少一个第二候选样本中筛选至少一个第三候选样本；

对所述至少一个第三候选样本中的每个第三候选样本进行关联信息抽取，得到至少一个客户信息和至少一个历史市场经济信息，其中，所述至少一个客户信息和所述至少一个第三候选样本一一对应，所述至少一个历史市场经济信息和所述至少一个第三候选样本一一对应，所述至少一个客户信息中的每个客户信息用于标识对应的所述每个第三候选样本的请求人的信息，所述至少一个历史市场经济信息中的每个历史市场经济信息用于标识对应的所述每个第三候选样本的业务领域的历史市场行情；

分别将所述每个第三候选样本、所述每个第三候选样本对应的所述每个客户信息和所述每个历史市场经济信息进行组合，得到至少一个训练数据组；

将所述至少一个训练数据组作为所述训练样本集。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的补全规则，在所述初始样本集中筛选出至少一个第一候选样本进行补全，得到至少一个第二候选样本，包括：

根据所述初始样本集中的每个初始样本的样本类型确定所述每个初始样本的缺失率；

根据所述每个初始样本的缺失率，在所述初始样本集中确定所述至少一个第一候选样本，其中，所述至少一个第一候选样本中的每个第一候选样本对应的缺失率小于第一阈值；

根据所述每个第一候选样本的样本类型，获取与所述样本类型对应的补全方法，并通过所述补全方法对所述每个第一候选样本进行补全，得到所述至少一个第二候选样本。

4.根据权利要求2所述的方法，其特征在于，所述根据预设的筛选规则，在所述至少一个第二候选样本中筛选至少一个第三候选样本，包括：

确定所述至少一个第二候选样本中的每个第二候选样本的乱码率；

对所述每个第二候选样本进行离散处理，确定所述每个第二候选样本在离散后得到的码值的数量；

根据所述每个第二候选样本的乱码率，以及所述每个第二候选样本在离散后得到的码值的数量，在所述至少一个第二候选样本中确定至少一个第四候选样本，其中，所述至少一个第四候选样本中的每个第四候选样本对应的乱码率大于第二阈值，或所述每个第四候选样本在离散后得到的码值的数量大于第三阈值；

对所述至少一个第四候选样本中的每个第四候选样本进行重要度计算，得到至少一个特征重要度，其中，所述至少一个特征重要度与所述至少一个第四候选样本一一对应；

根据所述至少一个特征重要度，在所述至少一个第四候选样本中确定所述至少一个第三候选样本，其中，所述至少一个第三候选样本中的每个第三候选样本对应的特征重要度大于第四阈值。

5.根据权利要求4所述的方法，其特征在于，所述对所述至少一个第四候选样本中的每个第四候选样本进行重要度计算，得到至少一个特征重要度，包括：

对所述每个第四候选样本进行特征提取，得到至少一个样本特征，其中，所述至少一个样本特征和所述至少一个第四候选样本一一对应；

将所述至少一个样本特征中的每个样本特征输入梯度提升决策树，得到所述至少一个特征重要度。

6.一种基于深度学习的定价装置，其特征在于，所述装置包括：

预处理模块，用于对初始样本集进行预处理，得到训练样本集，其中，所述初始样本集为包含历史定价数据的数据集；

训练模块，用于将所述训练样本集输入深度学习模型进行训练，得到定价模型；

接收模块，用于获取定价请求，其中，所述定价请求包括业务名称和请求人信息；

处理模块，用于根据所述请求人信息进行特征提取，得到至少一个请求人特征；根据所述至少一个请求人特征，确定请求人的客户类型；根据所述客户类型，获取所述客户类型对应的通用客户特征；根据所述通用客户特征对所述至少一个请求人特征进行补全，得到所述请求人的客户特征，对所述业务名称进行词嵌入，得到第一词向量；将所述第一词向量在预设的业务领域库中进行匹配，确定所述业务名称对应的业务领域；获取所述业务领域对应的战略数据和市场行情数据；对所述战略数据进行关键词提取，得到至少一个第一关键词；根据所述第一关键词，生成定价策略；对所述市场行情数据进行关键词提取，得到至少一个第二关键词；根据所述第二关键词，生成市场经济信息；

定价模块，用于将所述客户特征、所述定价策略和所述市场经济信息，输入所述定价模型，得到参考价格；

其中，在所述根据所述至少一个请求人特征，确定请求人的客户类型方面，处理模块用于：