CN110852808A

CN110852808A - 基于深度神经网络的电子产品异步自适应价值评估方法

Info

Publication number: CN110852808A
Application number: CN201911117324.2A
Authority: CN
Inventors: 杜永萍; 王陆霖; 韩红桂; 甄琪; 郐晓丹; 吴玉锋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-02-28

Abstract

本发明涉及一种基于深度神经网络的电子产品异步自适应价值评估方法，用于解决二手电子产品自动定价的问题。具体包括估计产品本身价值的估价模块和为应对市场变化进行定价调整的自适应调价模块，自适应调价模块使用双深度Q网络，其模型结构由两个结构相同、参数不同的深度Q学习网络构成，即行为网络和目标网络；估价模块根据影响电子产品价格的内部属性得到t时刻的产品基本估价

由估价模块输出的估计价格

经过自适应调价模块选择的调价动作a_t调整之后得到最终价格

本发明充分利用市场交易的信息，自适应调整定价以适应快速变化的市场，保证价格的合理性，提高交易成交率。

Description

基于深度神经网络的电子产品异步自适应价值评估方法

技术领域

本发明涉及再生资源回收利用领域，具体涉及一种基于深度神经网络的二手电子产品异步自适应价值评估方法。

背景技术

近年来，科技发展日新月异，电子产品品类层出不穷。同时伴随着互联网的发展，电子商务逐渐兴起，越来越多的用户选择网上购物。由于互联网信息获取的实时性和便利性，用户可通过互联网查看并对比各个平台的定价、优惠措施和销售情况之后，再决定是否购买。电子产品的价格会随着时间不断变化，对于电子产品销售商来说，需要在这种与竞争对手之间的博弈中获得一定的价格优势，因此迫切需要一种能高效的根据当前的产品价值、库存和销售能力等信息综合分析之后进行准确定价的方法，使得自己在激烈的竞争中占得先机，达到收益最大化。特别对于二手电子产品来说，影响产品价格的因素除了产品本身属性之外还有市场对于产品的需求量等，二手电子产品定价情况更复杂，参考因素更多，对具有高效智能学习调整能力的定价方法的需求更加迫切。

传统的二手电子产品定价方式主要依赖人工进行逐个型号的模型确定，比如二手手机需要参考手机初始购买的渠道、内存容量、手机使用老化程度等因素来计算手机价值，通过拥有行业经验的专业人员来制定模型，在得到手机各项属性之后通过模型计算手机的价值，最后参考市场因素的影响和销售端的销售能力来最终确定价格。在传统的二手手机定价过程中，复杂的模型制定和考虑市场因素最终定价的环节都依赖富有经验的专业人员。

常规的产品定价方法准确性和实时性都较差，需要人工干预定价过程。本发明为弥补以上不足，分别使用基于深度学习和强化学习的方法，包括依据产品本身属性进行产品价值预测的估价模块和依据市场信息进行价格调整的调价模块。利用深度学习技术自动学习产品属性特征组合得到价值预测模型，并采用定期进行参数更新的方法保证基础定价的时效性。利用强化学习可以在与环境交互的同时进行参数更新的特性进行调价动作选择的学习，最终形成异步更新的高效智能自适应的价值评估方法。

发明内容：

二手电子产品的定价浮动较大，且受到多种因素影响，传统电子产品定价的方式过程繁琐且对于价格调整通常滞后，容易由于定价跟不上市场变化而丧失订单，造成经济损失。为解决这个问题，通常采用的方式是人工定价，即销售商需要时刻关注行业内变化，需要安排专业人员每天甚至实时调整产品的定价。对于二手电子商务平台来说业务通常涉及多种类、多品牌、多型号的电子产品，进行定价管理就更加耗费人力物力。本发明将定价过程交由计算机自动完成，在高效定价的同时大幅度减少人工参与。

二手电子产品价格变化较快，本发明使用异步定价的机制，即将定价过程分为两个阶段，分为估计电子产品基础价值的估价模块和快速适应市场变化的自适应调价模块，其中电子产品估价模块利用深度学习模型对产品价值进行估计，自适应调价模块利用强化学习的方法对产品定价进行实时调整，所采用的方法能够适应快速变化的市场进行准确定价，采用基础价值估计加上自适应调整的方式保证定价的准确性。

特征工程是一项十分繁琐、耗费人力物力的工作，在机器学习方法中，特征需要通过行业专家确定，并进行特征编码。深度学习算法则会从数据中学习特征，大大减少了发现特征的成本。本发明专利使用深度学习方法对电子产品的各项属性进行建模，建立电子产品与其价值的映射，训练过程中融入历史订单信息，可以准确高效的实现价格预测。

由于二手电子产品的定价除了受到内部属性的影响，还常常受到外部环境变化的影响，如上游零件供应商和下游销售渠道的销售能力，这些变化对于产品定价的影响常常是难以量化的。为解决这个问题，本发明专利使用深度强化学习方法，模块可以综合考虑内外部因素对产品定价的影响，采用调整价格的方式得到准确、合理的定价。

考虑到实际应用场景下冷启动的问题，本发明专利利用历史交易数据模拟交易过程，对调价系统进行训练。在训练环境中对估价模型和调价模型进行训练和测试，直至模型可以满足进行实际应用的要求。

具体技术方案如下：

将产品定价过程分为估计产品本身价值的产品估价模块和为应对市场变化进行定价调整的自适应调价模块。

产品估价模块使用嵌入和多层感知机(Embedding&Multi-Layer Perception)模型进行价格预测，其模型结构具体由输入层、嵌入层、扁平化层、多层感知机和输出层组成，模型结构如图2所示。

输入数据为电子产品的内部属性，通常为离散的取值，如手机属性包括但不限于颜色、存储容量、内存大小。可以输入更多的电子产品内部属性，本模块可以进行学习并同时提升模块进行产品估价的效果。

使用独热编码器(One-Hot Encoder)将这些离散的取值映射到高维空间中，形成可用于计算的高维稀疏向量。

输入层(Input layer)将高维稀疏向量输入到模型中。

嵌入层(Embedding layer)将输入的高维稀疏向量转化为低维稠密向量。在这个过程中会将机器难以进行特征组合学习的高维稀疏向量表示作为输入，嵌入层会学习将输入转换为便于多层感知机模型进行特征组合学习的低维稠密特征向量组，即形成特征矩阵。

扁平化层将特征矩阵展开铺平为一维向量，处理为适合多层感知机处理的输入数据。

多层感知机由多个全连接层(Fully-connected layer)层层相连形成，用于学习输入的扁平化特征矩阵的特征组合。

输出层将多层感知机最后一层的输出作为产品估价模块的输出，输出层输出的价格作为产品估价模块的输出，即产品的基本估价。

产品定价除了参考产品价值之外，还需要跟随市场变化灵活变化，因此要在考虑市场变化对于产品定价的影响之后，进行调价过程的进一步处理。

调价模块使用双深度Q网络(Double Deep Q Network)进行调价动作的学习，其结构如图3所示。

将电子产品的内部属性与销量和上一阶段销售情况市场变化信息以及估价模块预测的基本估价作为输入。其中，取值为离散值的属性需要经过与估价模块输入相同的独热编码器的处理，将离散值映射为高维向量之后与其他数值型属性进行拼接，形成输入数据向量。

搭建多层全连接层相连的深度Q网络(Deep Q Network)作为双深度Q网络的共享结构，两个网络分别命名为行为网络(Behavior Network)和目标网络(Target Network)。两个深度Q网络共享同一个结构，但网络中的参数不同，两个网络在双深度Q网络中起到的作用也不同。其中深度Q学习网络由输入层、隐藏层和输出层构成。

输入层用于接收模块的输入数据。模块的输入数据由电子产品价格的内部属性、产品估价模块的预测价格、当前时间以及产品一周内的回收量和销量组成。模块的输入数据需要经过独热编码器编码成可用于计算的高维稀疏向量。

隐藏层为两层全连接层，用于学习输入数据与调价动作之间的对应关系。

输出层用于输出深度Q学习网络的结果。

调价模块中的调价动作分为上调3α％、上调2α％、上调α％、不调整、下调α％、下调2α％和下调3α％，共7个调价动作，其中α为控制调价幅度的常量。比如α设置为3时，调价动作为上调9％、上调6％、上调3％、不调整、下调3％、下调6％、下调9％。调价模块在接收到输入之后，经过行为网络的计算会对应每个调价动作计算出一个Q值。选择Q值最大的调价动作作为调价模块在当前输入情况下的决策。

通过估价模块估计的产品基本价格和调价模块做出的调价动作进一步计算出产品的最终定价。

在实际应用之前，估价模块和调价模块均需使用过去一定时间段内的历史数据进行训练。

产品估价模块的训练过程使用历史成交记录中的成交价格作为目标价值y_i，产品估价模块的输出作为预测结果

通过均方误差(MSE)计算预测结果与目标价值的误差，使用Adam优化器进行模型的参数更新。

自适应调价模块使用强化学习的思想进行训练。

模块会接收t时刻的输入s_t，根据输入的s_t以行为网络输出的Q值最优的动作作为实际行动a_t，即：

a_t＝argmax_aQ(s_t,a；θ_t)

其中，argmax_a为求最优Q值Q(s_t,a；θ_t)中a的操作。

计算产品估价模块的输出

经过调价后的结果

计算调价结果与成交值Y_t的误差Error_t。

执行调价动作之后会在t+1时刻得到反馈r_t+1。

其中EB_p和EB_n为可进行设置的常量，EB_p代表模块得到正反馈的误差边界，EB_n代表模块得到负反馈的误差边界，即经过调整的价格与成交价格的误差小于EB_p可得到正反馈，大于EB_n会得到负反馈，处于两者之间时得到反馈为0。在t+1时刻会得到新的输入s_t+1，将{s_t,a_t,r_t+1,s_t+1}存储在回放空间(Replay buffer)中。

从回放空间中采样一批样本(s_j,a_j,r_j+1,s_j+1),并通过以下公式计算损失函数L，使用Adam优化器优化行为网络的参数θ。

a_j，_t ^-＝argmax_aQ(s_j+1,a；θ_t)

y_j＝r_j+1+γQ(s_j+1,a_j，_t ^-；θ^-)

L＝(y_j-Q(s_j,a_j；θ_t))²，

其中，γ是用来调节网络学习程度的常量。

优化后的参数即为第t+1时刻行为网络的参数θ_t+1

实际应用场景中，估价模块定期更新参数以保证定价的时效性，调价模块随决策过程更新参数以保证快速适应市场变化。

有益效果

本发明主要通过基本价值预测和自适应价格调整两个阶段对电子产品进行定价，分别通过基于深度学习的电子产品估价模块和基于强化学习技术的自适应调价模块对电子产品进行定价，充分利用市场交易的信息，自适应调整定价以适应快速变化的市场，保证价格的合理性，提高交易成交率。

附图说明

图1本发明方法流程图

图2产品估价模块结构图

图3自适应调价模块结构图

具体实施方式：

本发明包含如下具体步骤：

先进行产品估价模块的模型搭建。

步骤(1)将二手电子产品的历史订单记录进行整合，得到用于训练模型的数据集。如二手手机回收平台的交易记录，记录中包含完整的手机各项属性记录，如购买渠道、颜色、存储容量和型号等手机自身属性以及成交的时间和成交的价格。本发明中估价模块的训练需要一定量的电子产品订单数据的支持，所以需要将电子产品内部属性特征与最终成交价格进行存储和整理之后获得估价模块的训练数据。在电子产品进行定价时，需要从订单数据中获取电子产品内在属性并将其输入到估价模块中得到其估计的价值，将估价模块得到的估计价值与订单数据中得到的产品信息、市场变化信息与销售信息输入到调价模块中，调价模块通过将产品的估计价值进行小幅度调整后得到其定价，产品进入到市场中销售会得到市场反馈，调价模块会接收市场反馈并不断完善优化调价效果。

步骤(2)将数据集内交易记录按照成交时间进行排序，之后按照9:1的比例进行训练集和测试集的划分。

步骤(3)使用独热编码器将数据集中的非数值型数据进行编码。

步骤(4)将所有非数值型数据和数值型数据直接拼接为高维度稀疏向量，该向量表示本条交易记录的手机各项属性。

步骤(5)将数据集中所有的记录进行统一的编码，得到高维度稀疏向量矩阵并以此作为价值预测模块的输入，使用数据集内成交的价格作为模型学习的目标输出。

步骤(6)搭建估价模块中的神经网络。

步骤(6.1)创建输入层(Input layer)作为模型的底层结构，向网络中输入数据。

步骤(6.2)在输入层之上创建嵌入层，用于学习稀疏特征的稠密表示，将高维度稀疏向量转换成便于多层感知机模型进行特征组合学习的低维稠密向量。

步骤(6.3)在嵌入层之后创建扁平化层(Flatten layer)，由于嵌入层的输出为二维矩阵，扁平化层用于将嵌入层输出的多维数据一维化。

步骤(6.4)创建三层全连接层形成多层感知机模型，多层感知机相对于原始的感知机，在逼近效果上改进的关键在于引入非线性函数作为激励函数，本发明使用ReLU作为激活函数。

ReLu(x)＝max(0,x)

步骤(6.5)最后，连接单节点的输出层用于输出预测的产品价值。

神经网络从计算的角度看，数据是从底层输入，经过每一层，根据与该层之间的权重计算中间结果，再经过一个非线性激活函数作用，得到该层的输出结果，进一步把该层的输出结果传递给下一层，继续进行下一层的中间结果计算与非线性函数激活，直到最后一层，得到最终的输出结果。

步骤(7)设置模型输出的预测结果与目标值的误差函数为均方误差(MSE)。

步骤(8)选择Adam优化器作为模型参数的优化器对模型进行训练。

接下来进行自适应调价模块的搭建，模块使用双深度Q网络进行价格调整动作的学习。

在产品估价模块中，电子产品内部属性数据通过输入层输入到模型中，依次经过嵌入层、扁平化层和使用ReLU激活函数的分别有128、64和32个节点的三个全连接层组成的多层感知机，最后通过输出层将预测的产品价值输出。

步骤(9)搭建双深度Q网络模型。

步骤(9.1)搭建两个相同结构的具有双层隐藏层的深度Q网络，将其分别命名为行为网络(Behavior Network)和目标网络(Target Network)。

步骤(9.2)设置输出的行动空间为7，即分为将价格上调3α％、上调2α％、上调α％、不调整、下调α％、下调2α％和下调3α％这7个调价动作。设置Replay buffer的大小为N。初始化行为网络的参数θ，初始化目标网络的参数θ^-。

步骤(9.3)接收t时刻的输入状态，即t时刻需调价的二手电子产品属性信息、估价模块对该产品的价值估计以及t时刻的销售量信息。将t时刻的输入经过向量化处理之后形成t时刻的输入s_t。

步骤(9.4)模型以行为网络输出的Q值最优的行动作为实际行动。

a_t＝argmax_aQ(s_t,a；θ_t)

其中，argmax_a为求最优Q值Q(s_t,a；θ)中参数a的操作,a_t为Q值最大的行动，s_t为t时刻的输入，a为调价动作的动作空间，θ为行为网络中的参数。

步骤(9.5)计算产品估价模块的输出

经过调价后的结果

步骤(9.6)计算调价结果

与成交值Y_t的误差Error_t。

步骤(9.7)执行动作a_t并在t+1时刻获得反馈r_t+1。

其中EB_p代表模块得到正反馈的误差边界，EB_n代表模块得到负反馈的误差边界，即经过调整的价格与成交价格的误差小于EB_p可得到正反馈，大于EB_n会得到负反馈，处于两者之间时得到反馈为0。

步骤(9.8)模块接收t+1时刻的反馈r_t+1，即市场环境在经过调价之后给调价模块的反馈。

步骤(9.9)接收t+1时刻的新输入s_t+1，即经过调价之后的新输入。

步骤(9.10)将{s_t,a_t,r_t+1,s_t+1}存储在Replay buffer中。

步骤(9.11)从Replay buffer中采样一批样本(s_j,a_j,r_j+1,s_j+1)，根据目标函数L使用Adam优化器优化行动网络的参数。

步骤(9.12)经过多轮更新后，将行为网络的参数θ赋给目标网络的参数。

调价模块搭建完成之后，使用历史交易订单数据对调价模块进行训练。

步骤(10)将历史交易订单记录进行处理后形成订单输入状态序列，输入到调价模块中。

步骤(11)基于估价模块得到的价格和调价模块做出的调价动作，计算得到定价结果。

使用强化学习思想将调价模块不断与训练环境进行交互，连续经过以上步骤的动作选择和参数更新，基于双深度Q网络的调价模块可以在做动作决策的同时，学习到能够获得更多正面反馈且避免负面反馈的调价模型。

实际使用过程中，估价模块采用定期更新模型参数的方式。可设置为每周更新模型参数，使用过去一个月的历史记录进行模型训练。调价模块由于使用强化学习思想，可以在进行调价行为选择的过程中进行自主的策略更新。

两个模块采用异步更新的方式可以充分发挥每个模块的作用，在保证模型能够学习历史数据并能够适应市场变化的同时保证了模型的稳定性，有效减少定价过程中的人工干预。

Claims

1.基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于：包括估计产品本身价值的估价模块和为应对市场变化进行定价调整的自适应调价模块，自适应调价模块使用双深度Q网络，其模型结构由两个结构相同、参数不同的深度Q学习网络构成，即行为网络和目标网络；估价模块根据影响电子产品价格的内部属性得到t时刻的产品基本估价由估价模块输出的估计价格

具体如下：

其中，调价动作a_t由行为网络得到，具体为：行为网络根据t时刻接收输入的数据s_t，得到每个调价动作的Q值，调价动作a_t即为最优的Q值对应的调价动作，即：

a_t＝argmax_aQ(s_t，a；θ_t)

其中，

数据s_t包括根据影响电子产品价格的内部属性、产品估价模块的预测价格、当前时间以及产品一周内回收量和销量，

θ_t为行为网络t时刻的参数，且在每次进行调价动作之后都会进行更新，双深度Q网络使用了经验回溯机制并使用目标网络参与行为网络参数的更新，所述的经验回溯机制指利用t时刻之前的信息调整第t+1时刻的行为网络参数θ_t+1，进而调整第t+1时刻的产品基本估价

Q(s_t，a；θ_t)为行为网络输入数据s_t通过参数θ_t计算出来的各个调价行为a的Q值，argmax_a为求最优Q值Q(s_t，a；θ_t)对应的调价行为a的操作。

2.根据权利要求1所述的基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于：

所述的行为网络中的参数θ_t的更新过程如下：

1)将t时刻的输入信息s_t，做出的调价动作a_t，执行动作后获得的反馈r_t+1和t+1时刻获得的输入信息s_t+1组合成一个样本S_t={s_t，a_t，r_t+1，s_t+1}存储在回放空间中，其中，

其中，EB_p代表正反馈的误差边界，EB_n代表负反馈的误差边界，

Y_t表示市场成交价；

所述的回放空间由各时刻样本S_t构成，表示为{S₁，...，S_t，...，S_N}；

2)从回放空间中随机选取j时刻的样本S_j＝(s_j，a_j，r_j+1，s_j+1)，将其中的s_j+1输入行为网络并计算出调价动作a_j，t ^-，具体表示如下：

a_j，t ^-＝argmax_aQ(s_j+1，a；θ_t)

3)同时将s_j+1输入目标网络并得到调价动作a_j，t ^-对应的Q值，具体表示为Q(s_j+1，a_j，t ^-；θ^-)，其中θ^-表示此时目标网络的参数；

4)计算y_j，具体如下：

y_j＝r_j+1+γQ(s_j+1，a_j，t ^-；θ^-)

其中，γ是用来调节网络学习程度的常量，

5)从回放空间中随机选取多个时刻的样本S_j，j≤t，将这些样本中的s_j输入行为网络，选择Adam优化器对行为网络进行优化，优化后的参数即为第t+1时刻行为网络的参数θ_t+1，其中损失函数L的计算公式如下：

L＝(y_j-Q(s_j，a_j；θ_t))²。

3.根据权利要求1所述的基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于：所述目标网络参数的更新周期为预设值，且每次更新都被赋值为行为网络的当前参数。

4.根据权利要求1所述的基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于：所述的产品估价模块使用嵌入和多层感知机(Embedding&Multi-LayerPerception)模型进行价格预测，其模型结构具体由输入层、嵌入层、扁平化层、多层感知机和输出层组成；

所述的输入层(Input layer)用于接收模块的输入数据；模块的输入数据为影响电子产品价格的内部属性，内部属性包括但不限于产品的型号、颜色、存储容量、内存大小以及使用年限，模块的输入数据需要经过独热编码器(One-hot Encoder)编码成可用于计算的高维稀疏向量；

所述的嵌入层(Embedding layer)将输入的高维稀疏向量转化为低维稠密向量组；

所述的扁平化层(Flatten layer)将低维稠密向量组展开铺平为一维向量，作为多层感知机的输入；

所述的多层感知机由多个全连接层(Fully-connected layer)层层相连组成，用于学习输入的特征向量的特征组合；

所述的输出层将多层感知机最后一层的输出作为产品估价模块的输出，其输出的结果作为产品的基本估价。

5.根据权利要求1所述的基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于：所述的产品估价模块的训练具体为：训练数据使用二手电子产品的历史成交记录，该记录中包含二手电子产品的内部属性以及成交价格；模型损失函数设置为均方误差MSE，使用训练数据中的成交价格作为目标价值y_i，产品估价模块的输出作为预测结果

选择Adam优化器对模型的参数进行优化，

6.根据权利要求1所述的基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于：所述的调价动作a_t的选择空间为7，分为将价格上调3α％、上调2α％、上调α％、不调整、下调α％、下调2α％和下调3α％这7个调价动作，其中α为控制调价幅度的常量。

7.根据权利要求1所述的基于深度神经网络的电子产品异步自适应价值评估方法，其特征在于二所述的行为网络由输入层、隐藏层和输出层构成，

所述的输入层用于接收模块的输入数据，模块的输入数据需要经过独热编码器编码成可用于计算的高维稀疏向量；

所述的隐藏层为两层全连接层，用于学习输入数据与调价动作之间的对应关系；所述的输出层用于输出网络的结果，即网络的输出为7个调价动作各自对应的Q值。