CN113408780B - 汽车未来保值率预测方法、系统、设备及可读存储介质 - Google Patents
汽车未来保值率预测方法、系统、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113408780B CN113408780B CN202110475727.5A CN202110475727A CN113408780B CN 113408780 B CN113408780 B CN 113408780B CN 202110475727 A CN202110475727 A CN 202110475727A CN 113408780 B CN113408780 B CN 113408780B
- Authority
- CN
- China
- Prior art keywords
- automobile
- encoder
- double
- decoder
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种汽车未来保值率预测方法、系统、设备及可读存储介质,对待预测汽车文本数据进行分词得到待预测汽车文本序列;对待预测汽车文本序列中的每个词进行词向量映射,并作为编码器‑解码器模型的输入,输出得到待预测汽车的未来保值率预测结果;其中,编码器‑解码器模型采用基于门循环单元变体的编码器‑解码器模型;本发明中待测汽车文本数据的收集和处理较结构化数据过程简单;并能够放大离散数据的作用,充分发挥了离散数据的作用,有效减少了人工收集和处理结构化的历史数据的成本;模型的输入长度可以根据文本的长度自适应变化,灵活性好;解码过程能够充分发挥循环神经网络对时序的理解,体现了新车未来保值率之间的时序性。
Description
技术领域
本发明属于汽车保值率预测技术领域,特别涉及一种汽车未来保值率预测方法、系统、设备及可读存储介质。
背景技术
目前,汽车市场主要包括新车市场和二手车市场,新车市场的汽车交易量是二手车市场的两倍;新车市场的兴起带动了二手车市场的发展,二手车市场因此拥有更多的车源;新车的性能、外观、装饰及保值率等因素都会影响顾客的决策,其中新车未来的保值率是顾客的首要考虑因素。
目前,计算新车未来的保值率通常都是统计分析历史数据,如果想要计算某品牌的新车未来5年的保值率,就将该品牌车龄在1-5年的二手车交易数据按车龄来分组并对其二手车成交价取平均,用每个车龄对应的二手车成交价的平均值作为该品牌的新车的未来1-5年的保值率。还有学者用先聚类再回归的算法来预测汽车保值率,先聚类找到和该车同类的其它车,再用其它车的数据训练回归模型来预测该车的保值率,当然这种做法值能预测某二手车当前的保值率。同时,大数据技术越来越火热,有很多公司开始利用大数据技术来分析国内汽车市场的现状,并且按系别、车型等格式给出新车未来几年的保值率。
经过调查与研究,发现新车未来保值率的预测方法存在以下三点不足:首先,新车未来保值率的预测需要收集、处理大量的历史交易数据,这样做不仅耗费人力,而且收集数据的周期太长;其次,基于结构化数据的保值率预测模型需要对离散数据做数值化处理,数值化处理的方式会影响离散数据本身的表达含义,而且有的离散数据特征值较多很难做数据值化处理,所以一般在结构化数据中连续数据占的比重高,离散数据占的比重少;最后,新车未来保值率本质是一个时间序列,未来第1年的保值率影响了未来第2年的保值率,以此类推;所以普通的回归预测模型并不适合用来预测新车未来的保值率。
发明内容
针对现有技术中存在的技术问题,本发明提供了一种汽车未来保值率预测方法、系统、设备及可读存储介质,以解决现有技术在预测新车未来的保值率时,历史数据不足,且只能根据结构化数据来预测,无法充分发挥离散数据的作用,同时预测结果不能体现未来保值率之间时序性的技术问题。
为达到上述目的,本发明采用的技术方案为:
本发明提供了一种汽车未来保值率预测方法,包括以下步骤:
获取待预测汽车文本数据,对待预测汽车文本数据进行分词,得到待预测汽车文本序列;
采用词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;
将文本序列的词向量矩阵作为编码器-解码器模型的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型。
进一步的,采用jieba工具对待预测汽车文本数据进行分词,得到待预测汽车文本序列。
进一步的,采用word2vec词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵。
进一步的,基于门循环单元变体的编码器-解码器模型包括双层编码器及双层解码器,并在双层编码器与双层解码器之间添加软注意力机制;
双层编码器及双层解码器均采用门循环单元变体;其中,门循环单元变体是在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流的方式构建得到;其中,双层编码器的初始隐藏状态为零向量,双层解码器的初始隐藏状态为双层编码器最后一个时刻的隐藏状态;双层解码器的初始输入为1.0。
进一步的,门循环单元变体的前向传播公式如下所示:
zt=σ(Wz×[ht-1,xt])
其中,zt为t时刻门循环单元变体的更新门输出,σ(*)为sigmoid函数,Wz和Wh分别为权重参数矩阵,xt为t时刻输入的词向量,ht-1为t-1时刻的隐藏状态,为t时刻的候补隐藏状态,ht为t时刻的隐藏状态,tanh(*)为双曲正切函数。
进一步的,软注意力机制的注意力计算公式如下所示:
其中,aij为第i时刻解码器对第j时刻编码器输出的注意力分配系数,similarity为相似度函数,hi-1为双层解码器第i-1时刻的隐藏状态,hj为双层编码器第j时刻的隐藏状态,yi是双层编码器第i时刻的输出,Ci为双层编码器第i时刻的注意力,lx为双层编码器输入文本序列的长度,hk为双层编码器第k时刻的隐藏状态。
进一步的,基于门循环单元变体的编码器-解码器模型的构建训练过程具体如下:
获取若干已知汽车文本数据,对已知汽车文本数据进行分析,得到已知汽车文本序列;采用词向量模型,对已知汽车文本序列中的每个词进行词向量映射,得到已知汽车文本序列的词向量矩阵;
将已知汽车文本序列的词向量矩阵对基于门循环单元变体的编码器-解码器模型进行训练;训练过程,采用反向传播;
根据已知汽车文本数据的样本预测输出值与已知汽车文本数据的样本真实输出值,构建损失函数,并计算损失函数值;
判断损失函数值是否收敛至预设值;
若损失函数值未收敛至预设值,则对基于门循环单元变体的编码器-解码器模型的模型参数进行更新,直至损失函数值收敛至预设值,保存对应的模型参数,得到所述的编码器-解码器模型;
其中,损失函数的表达式为:
本发明还提供了一种汽车未来保值率预测系统,包括文本序列模块、词向量矩阵及结果输出模块;
文本序列模块,用于获取待预测汽车文本数据,对待预测汽车文本数据进行分词,得到待预测汽车文本序列;
词向量模块,用于采用词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;
结果输出模块,用于将文本序列的词向量矩阵作为编码器-解码器模型的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型。
本发明还提供了一种汽车未来保值率预测设备,包括存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令;所述处理器执行所述可执行指令时实现所述的汽车未来保值率预测方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现所述的汽车未来保值率预测方法。
与现有技术相比,本发明的有益效果为:
本发明提供了一种汽车未来保值率预测方法及系统,利用待预测汽车文本数据进行新车未来保值率预测,待测汽车文本数据的收集和处理较结构化数据过程简单;同时,能够放大离散数据的作用,充分发挥了离散数据的作用,有效减少了人工收集和处理结构化的历史数据的成本;采用基于门循环单元变体的编码器-解码器模型,模型的输入长度可以根据文本的长度自适应变化,灵活性好;在解码过程中能够充分发挥循环神经网络对时序的理解,充分体现了新车未来保值率之间的时序性。
进一步的,双层编码器及双层解码器均采用门循环单元变体,门循环单元变体采用在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流;有效提升了门循环单元的精度和训练速度;其中每个样本的训练速度可以至少提升22.8%,预测精度较普通门循环单元高;将双层解码器的初始输入设置为1.0,其与新车初始时刻的保值率为100%相匹配,符合实际。
附图说明
图1为实施例所述的汽车未来保值率预测方法的流程图;
图2为实施例中的编码器-解码器模型的结构图。
具体实施方式
为了使本发明所解决的技术问题,技术方案及有益效果更加清楚明白,以下具体实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种汽车未来保值率预测方法,包括以下步骤:
步骤1、获取待预测汽车文本数据,采用jieba工具对待预测汽车文本数据进行分词,得到待预测汽车文本序列;其中,待预测汽车文本数据包括待预测汽车的品牌、车系及配置参数的文本数据;待预测汽车的品牌、车系及配置参数的文本数据采用在二手车网站上进行收集。
步骤2、采用word2vec词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;其中,词向量映射过程,将待预测汽车文本序列中的每个词进行此影响,得到对应的词向量;按照待预测汽车文本序列中的每个词的顺序,将对应的词向量按照从上到下排列,得到文本序列的词向量矩阵;本发明中,word2vec词向量模型采用基于negative sampling的cbow模型。
步骤3、将文本序列的词向量矩阵作为编码器-解码器的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型。
本发明中,基于门循环单元变体的编码器-解码器模型包括双层编码器及双层解码器,并在双层编码器与双层解码器之间添加软注意力机制;双层编码器及双层解码器均采用门循环单元变体;其中,门循环单元变体是在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流的方式构建得到;双侧编码器及双层解码器的基模型均采用门循环单元变体,模型的输入长度可以根据文本的长度自适应变化,灵活性好;在解码过程中,能够充分发挥循环神经网络对时序的理解,充分体现了新车未来保值率之间的时序性。
门循环单元变体的前向传播公式如下所示:
zt=σ(Wz·[ht-1,xt])
其中,zt为t时刻门循环单元的更新门输出,σ(*)为sigmoid函数,Wz和Wh分别为权重参数矩阵,xt为t时刻输入的词向量,ht-1为t-1时刻的隐藏状态,为t时刻的候补隐藏状态,ht为t时刻的隐藏状态,tanh(*)为双曲正切函数。
软注意力机制的注意力计算公式如下所示:
其中,aij为第i时刻解码器对第j时刻编码器输出的注意力分配系数,similarity为相似度函数,hi-1为双层解码器第i-1时刻的隐藏状态,hj为双层编码器第j时刻的隐藏状态,yi是双层编码器第i时刻的输出,Ci为双层编码器第i时刻的注意力,lx为双层编码器输入文本序列的长度,hk为双层编码器第k时刻的隐藏状态。
基于门循环单元变体的编码器-解码器模型的构建训练过程具体如下:
构建基于门循环单元变体的编码器-解码器模型,在编码器-解码器模型中添加注意力机制;其中,门循环单元变体为门循环单元的衍生结构,其为在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流。
获取若干已知汽车文本数据,对已知汽车文本数据进行分析,得到已知汽车文本序列;采用词向量模型,对已知汽车文本序列中的每个词进行词向量映射,得到已知汽车文本序列的词向量矩阵;
将已知汽车文本序列的词向量矩阵对基于门循环单元变体的编码器-解码器模型进行训练;训练过程,采用反向传播;其中,已知汽车文本数据采用在二手车网站上收集若干描述二手车品牌、车系及配置参数的文本数据;本发明中,通过对已知汽车文本数据进行数据预处理,先按车分组,再按车龄分组,得到每一辆车前若干年的保值率;其中,将每一辆车的文本数据进行分词及词向量映射后,作为编码器-解码器模型的输入序列;将每一辆车前若干年的保值率作为编码器-解码器模型的真实输出值;利用处理后的数据来训练模型;训练过程采用反向传播,反向传播不会得到预测输出值,其为一种计算梯度的方法;具体的,计算损失函数对最后一层网络权重的梯度,再跟进链式法则来计算倒数第二层网络权重的梯度,以此类推获取所有层网络权重的梯度。
根据已知汽车文本数据的样本预测输出值与已知汽车文本数据的样本真实输出值,构建损失函数,并计算损失函数值;
判断损失函数值是否收敛至预设值;
若损失函数值未收敛至预设值,则对基于门循环单元变体的编码器-解码器模型的模型参数进行更新,直至损失函数值收敛至预设值,保存对应的模型参数,得到所述的编码器-解码器模型;
其中,损失函数的表达式为:
工作原理
本发明所述的汽车未来保值率预测方法,编码器-解码器模型构建训练过程将每一辆已知汽车文本数据分词及词向量映射后,作为基于门循环单元变体的编码器-解码器模型的输入序列;将每一辆车的前若干年的保值率作为基于门循环单元变体的编码器-解码器模型的真实输出,训练过程采用反向传播,利用损失函数,对模型的参数进行调整,得到所述的编码器-解码器模型;预测过程,将待测汽车文本数据进行分词及词向量映射,作为编码器-解码器模型的输入序列;利用双层编码器将输入序列编码呈语义相邻,双层解码器在软注意力机制的作用下,利用语义向量中的信息预测输出值。
本发明所述的汽车未来保值率预测方法,利用待预测汽车文本数据进行新车未来保值率预测,待测汽车文本数据的收集和处理较结构化数据过程简单;同时,能够放大离散数据的作用,充分发挥了离散数据的作用,有效减少了人工收集和处理结构化的历史数据的成本;采用基于门循环单元变体的编码器-解码器模型,模型的输入长度可以根据文本的长度自适应变化,灵活性好;在解码过程中能够充分发挥循环神经网络对时序的理解,充分体现了新车未来保值率之间的时序性。
本发明还提供了一种汽车未来保值率预测系统,包括文本序列模块、词向量矩阵及结果输出模块;文本序列模块,用于获取待预测汽车文本数据,对待预测汽车文本数据进行分词,得到待预测汽车文本序列;词向量模块,用于采用词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;结果输出模块,用于将文本序列的词向量矩阵作为编码器-解码器模型的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型。
本发明还提供了一种汽车未来保值率预测设备,包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如汽车未来保值率预测程序;所述处理器执行所述计算机程序时实现上述汽车未来保值率预测方法中的步骤;或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述汽车未来保值率预测设备中的执行过程。例如,所述计算机程序可以被分割成文本序列模块、词向量矩阵及结果输出模块;各模块具体功能如下:文本序列模块,用于获取待预测汽车文本数据,对待预测汽车文本数据进行分词,得到待预测汽车文本序列;词向量模块,用于采用词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;结果输出模块,用于将文本序列的词向量矩阵作为编码器-解码器模型的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型。
所述汽车未来保值率预测设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述汽车未来保值率预测设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述为汽车未来保值率预测设备的示例,并不构成对汽车未来保值率预测设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述汽车未来保值率预测设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述汽车未来保值率预测设备的控制中心,利用各种接口和线路连接整个汽车未来保值率预测设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述汽车未来保值率预测设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述汽车未来保值率预测设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,本发明实现上述汽车未来保值率预测方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述汽车未来保值率预测方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
实施例
如附图1-2所示,以对某新车进行保值率估计,本实施例提供了一种汽车未来保值率预测方法,包括以下步骤:
步骤1、将待预测汽车的所有信息整理,得到待预测汽车文本数据;其中,待预测汽车文本数据采用在二手车网站上进行收集,包括汽车的品牌、车系及配置参数的文本描述数据。
步骤2、采用jieba工具对待预测汽车文本数据进行分词,得到待预测汽车文本序列;其中,待预测汽车文本序列;其中,对待预测汽车文本数据进行分词过程,采用将待预测汽车文本数据划分为多个词,其文本数据的字数不变;例如,将“今天天气真好”的文本数据进行分词后,得到“今天天气真好”。
步骤3、收集汽车市场上若干已知汽车文本数据作为语料集,对词向量模型进行训练,得到训练好的词向量模型;本实施例中,词向量模型采用谷歌的word2vec词向量模型;word2vec词向量模型采用基于negative sampling的cbow模型。
步骤4、采用训练好的词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,待预测汽车文本序列中的每个词经过词向量映射后,分别得到对应的词向量;按照待预测汽车文本序列中的每个词的顺序,将对应的词向量按照从上到下排列,得到文本序列的词向量矩阵。
步骤5、构建基于门循环单元变体的编码器-解码器模型,并在编码器-解码器模型之间加入软注意力机制;其中,编码器-解码器模型包括双层编码器及双层解码器,软注意力机制添加在双层编码器与双层解码器之间;双层编码器及双层解码器均采用门循环单元变体;其中,门循环单元变体是在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流的方式构建得到;其中,双层编码器的初始隐藏状态为零向量,双层解码器的初始隐藏状态为双层编码器最后一个时刻的隐藏状态
本实施例中,双层编码器及双层解码器的基模型均采用门循环单元变体CURG;其中,门循环单元变体CURG采用在门循环单元的基础上仅保留更新门,并修改了更新门对候补隐藏状态的过滤数据流。
本实施例中,门循环单元变体的前向传播公式如下所示:
zt=σ(Wz×[ht-1,xt])
其中,zt为t时刻门循环单元变体的更新门输出,σ(*)为sigmoid函数,Wz和Wh分别为权重参数矩阵,xt为t时刻输入的词向量,ht-1为t-1时刻的隐藏状态,为t时刻的候补隐藏状态,ht为t时刻的隐藏状态,tanh(*)为双曲正切函数。
软注意力机制的注意力计算公式如下所示:
其中,aij为第i时刻解码器对第j时刻编码器输出的注意力分配系数,similarity为相似度函数,hi-1为双层解码器第i-1时刻的隐藏状态,hj为双层编码器第j时刻的隐藏状态,yi是双层编码器第i时刻的输出,Ci为双层编码器第i时刻的注意力,lx为双层编码器输入文本序列的长度,hk为双层编码器第k时刻的隐藏状态。
本实施例中,编码器-解码器模型的构建训练过程,具体如下:
步骤51、构建基于门循环单元变体的编码器-解码器模型,在基于门循环单元变体的编码器-解码器模型中添加注意力机制;
步骤52、获取若干已知汽车文本数据,对已知汽车文本数据进行分析,得到已知汽车文本序列;采用词向量模型,对已知汽车文本序列中的每个词进行词向量映射,得到已知汽车文本序列的词向量矩阵;将已知汽车文本序列的词向量矩阵对基于门循环单元变体的编码器-解码器模型进行训练;训练过程,采用反向传播;其中,已知汽车文本数据采用在二手车网站上收集若干描述二手车品牌、车系及配置参数的文本数据;本发明中,通过对已知汽车文本数据进行数据预处理,先按车分组,再按车龄分组,得到每一辆车5年的保值率;其中,将每一辆车的文本数据进行分词及词向量映射后,作为编码器-解码器模型的输入序列;将每一辆车5年保值率作为编码器-解码器模型的真实输出值;利用处理后的数据来训练模型;训练过程采用反向传播,反向传播不会得到预测输出值,其为一种计算梯度的方法;具体的,计算损失函数对最后一层网络权重的梯度,再跟进链式法则来计算倒数第二层网络权重的梯度,以此类推获取所有层网络权重的梯度。
步骤53、根据预测输出值与真实输出值,构建损失函数,并计算损失函数值;其中,损失函数的表达式为:
步骤54、判断损失函数值是否收敛至预设值;
步骤55、若损失函数值未收敛至预设值,则对编码器-解码器模型的模型参数进行更新,直至损失函数值收敛至预设值,保存对应的模型参数,得到训练后的编码器-解码器模型。
与大多数深度学习算法类似,本实施例中的编码器-解码器模型需采用大量的已标记汽车文本数据进行训练;其中使用反向传播,在这反向传播中会根据损失来调整模型参数,故需要构建损失函数。
本实施例中,采用门循环单元变体CURG搭建的双层编码器,双层编码器的第一层将每个时刻输入的词向量编码为中间隐藏状态;该中间隐藏状态作为双层编码器的第二层的输入;双层编码器的第二层根据中间隐藏状态,得到双层编码器的最终隐藏状态;其中,双层编码器的第一层和第二层的初始隐藏状态均为零向量;通过在双层编码器与双层解码器之间添加软注意力机制,在软注意力机制的作用下,双层解码器根据上一时刻的隐藏状态和双层编码器的所有时刻的隐藏状态计算当前时刻的注意力;双层解码器利用当前时刻的注意力,计算得到最佳的当前时刻的隐藏状态;采用门循环单元变体CURG搭建的双层解码器,双层解码器在软注意力机制的作用下,根据上一时刻的隐藏状态和双层编码器所有时刻的隐藏状态,计算当前时刻注意力,双层解码器利用每个时刻的注意力和每个时刻的输入,计算每个时刻的输出;其中,双层解码器每个时刻的输出即为所述的汽车未来保值率预测结果。
本实施例中,双层解码器的第一层和第二层的初始隐藏状态分别设置为最后一个时刻编码器的第一层和第二层的隐藏状态;由于新车初始时刻的保值率为100%,因此,双层解码器的初始输入设置为1.0。
步骤6、将文本序列的词向量矩阵作为编码器-解码器模型的输入,并获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果。
本实施例中,将文本序列的词向量矩阵作为编码器-解码器模型的输入过程,采用将文本序列的词向量矩阵中的每一行词向量分别作为双侧编码器每个时刻的输入,双层解码器在软注意力机制的作用下,根据上一时刻的隐藏状态和双层编码器所有时刻的隐藏状态,计算当前时刻的注意力;双层解码器利用每个时刻的注意力和每个时刻的输入,计算每个时刻的输出,即得到所述的汽车未来保值率预测结果。
本发明所述的汽车未来保值率预测方法,采用基于门循环单元变体的编码器-解码器模型,并在编码器-解码器模型中添加软注意力机制,减少人们收集和处理结构化的历史数据的成本,利用文本数据来预测新车未来的保值率可以放大离散数据的作用,更符合人们对于品牌效应的认知;其中,门循环单元变体采用在门循环单元基础之上去掉了重置门以及更新门对候补隐藏状态的过滤数据流,提升了门循环单元的精度和训练速度,其中每个样本的训练速度可以提升22.8%,精度可以在门循环单元之上提升少许。
本发明中,基于门循环单元变体的编码器-解码器模型属于循环神经网络范畴,双层解码器以门循环单元变体为基模型,双层解码器在解码过程中能够充分发挥循环神经网络特有的对于时序的理解,体现了新车未来的保值率之间的时序性。
上述实施例仅仅是能够实现本发明技术方案的实施方式之一,本发明所要求保护的范围并不仅仅受本实施例的限制,还包括在本发明所公开的技术范围内,任何熟悉本技术领域的技术人员所容易想到的变化、替换及其他实施方式。
Claims (7)
1.一种汽车未来保值率预测方法,其特征在于,包括以下步骤:
获取待预测汽车文本数据,对待预测汽车文本数据进行分词,得到待预测汽车文本序列;
采用词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;
将文本序列的词向量矩阵作为编码器-解码器模型的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型;
基于门循环单元变体的编码器-解码器模型包括双层编码器及双层解码器,并在双层编码器与双层解码器之间添加软注意力机制;
双层编码器及双层解码器均采用门循环单元变体;其中,门循环单元变体是在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流的方式构建得到;其中,双层编码器的初始隐藏状态为零向量,双层解码器的初始隐藏状态为双层编码器最后一个时刻的隐藏状态;双层解码器的初始输入为1.0;
门循环单元变体的前向传播公式如下所示:
其中,zt为t时刻门循环单元变体的更新门输出,σ(*)为sigmoid函数,Wz和Wh分别为权重参数矩阵,xt为t时刻输入的词向量,ht-1为t-1时刻的隐藏状态,为t时刻的候补隐藏状态,ht为t时刻的隐藏状态,tanh(*)为双曲正切函数;
软注意力机制的注意力计算公式如下所示:
其中,aij为第i时刻解码器对第j时刻编码器输出的注意力分配系数,similarity为相似度函数,hi-1为双层解码器第i-1时刻的隐藏状态,hj为双层编码器第j时刻的隐藏状态,Ci为双层编码器第i时刻的注意力,lx为双层编码器输入文本序列的长度,hk为双层编码器第k时刻的隐藏状态。
2.根据权利要求1所述的一种汽车未来保值率预测方法,其特征在于,采用jieba工具对待预测汽车文本数据进行分词,得到待预测汽车文本序列。
3.根据权利要求1所述的一种汽车未来保值率预测方法,其特征在于,采用word2vec词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵。
4.根据权利要求1所述的一种汽车未来保值率预测方法,其特征在于,基于门循环单元变体的编码器-解码器模型的构建训练过程具体如下:
获取若干已知汽车文本数据,对已知汽车文本数据进行分析,得到已知汽车文本序列;采用词向量模型,对已知汽车文本序列中的每个词进行词向量映射,得到已知汽车文本序列的词向量矩阵;
将已知汽车文本序列的词向量矩阵对基于门循环单元变体的编码器-解码器模型进行训练;训练过程,采用反向传播;
根据已知汽车文本数据的样本预测输出值与已知汽车文本数据的样本真实输出值,构建损失函数,并计算损失函数值;
判断损失函数值是否收敛至预设值;
若损失函数值未收敛至预设值,则对基于门循环单元变体的编码器-解码器模型的模型参数进行更新,直至损失函数值收敛至预设值,保存对应的模型参数,得到所述的编码器-解码器模型;
其中,损失函数的表达式为:
5.一种汽车未来保值率预测系统,其特征在于,包括文本序列模块、词向量矩阵及结果输出模块;
文本序列模块,用于获取待预测汽车文本数据,对待预测汽车文本数据进行分词,得到待预测汽车文本序列;
词向量模块,用于采用词向量模型,对待预测汽车文本序列中的每个词进行词向量映射,得到文本序列的词向量矩阵;
结果输出模块,用于将文本序列的词向量矩阵作为编码器-解码器模型的输入,获取编码器-解码器模型的输出,即得到待预测汽车的未来保值率预测结果;其中,编码器-解码器模型采用基于门循环单元变体的编码器-解码器模型;
基于门循环单元变体的编码器-解码器模型包括双层编码器及双层解码器,并在双层编码器与双层解码器之间添加软注意力机制;
双层编码器及双层解码器均采用门循环单元变体;其中,门循环单元变体是在门循环单元的基础上,去除其中的重置门,保留更新门,并修改更新门对候补隐藏状态的过滤数据流的方式构建得到;其中,双层编码器的初始隐藏状态为零向量,双层解码器的初始隐藏状态为双层编码器最后一个时刻的隐藏状态;双层解码器的初始输入为1.0;
门循环单元变体的前向传播公式如下所示:
其中,zt为t时刻门循环单元变体的更新门输出,σ(*)为sigmoid函数,Wz和Wh分别为权重参数矩阵,xt为t时刻输入的词向量,ht-1为t-1时刻的隐藏状态,为t时刻的候补隐藏状态,ht为t时刻的隐藏状态,tanh(*)为双曲正切函数;
软注意力机制的注意力计算公式如下所示:
其中,aij为第i时刻解码器对第j时刻编码器输出的注意力分配系数,similarity为相似度函数,hi-1为双层解码器第i-1时刻的隐藏状态,hj为双层编码器第j时刻的隐藏状态,Ci为双层编码器第i时刻的注意力,lx为双层编码器输入文本序列的长度,hk为双层编码器第k时刻的隐藏状态。
6.一种汽车未来保值率预测设备,其特征在于,包括存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令;所述处理器执行所述可执行指令时实现如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475727.5A CN113408780B (zh) | 2021-04-29 | 2021-04-29 | 汽车未来保值率预测方法、系统、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475727.5A CN113408780B (zh) | 2021-04-29 | 2021-04-29 | 汽车未来保值率预测方法、系统、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113408780A CN113408780A (zh) | 2021-09-17 |
CN113408780B true CN113408780B (zh) | 2023-06-16 |
Family
ID=77677712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110475727.5A Active CN113408780B (zh) | 2021-04-29 | 2021-04-29 | 汽车未来保值率预测方法、系统、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113408780B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276439A (zh) * | 2019-05-08 | 2019-09-24 | 平安科技(深圳)有限公司 | 基于注意力机制的时间序列预测方法、装置及存储介质 |
CN110458336A (zh) * | 2019-07-23 | 2019-11-15 | 内蒙古工业大学 | 一种基于深度学习的网约车供需预测方法 |
KR20200063281A (ko) * | 2018-11-16 | 2020-06-05 | 한국전자통신연구원 | 신경망 자동 번역 장치 및 그 방법 |
CN111241816A (zh) * | 2020-01-22 | 2020-06-05 | 北京工业大学 | 一种新闻标题自动生成方法 |
CN111444311A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
CN111767694A (zh) * | 2019-03-26 | 2020-10-13 | 北京京东尚科信息技术有限公司 | 文本生成方法、装置和计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11176330B2 (en) * | 2019-07-22 | 2021-11-16 | Advanced New Technologies Co., Ltd. | Generating recommendation information |
-
2021
- 2021-04-29 CN CN202110475727.5A patent/CN113408780B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200063281A (ko) * | 2018-11-16 | 2020-06-05 | 한국전자통신연구원 | 신경망 자동 번역 장치 및 그 방법 |
CN111767694A (zh) * | 2019-03-26 | 2020-10-13 | 北京京东尚科信息技术有限公司 | 文本生成方法、装置和计算机可读存储介质 |
CN110276439A (zh) * | 2019-05-08 | 2019-09-24 | 平安科技(深圳)有限公司 | 基于注意力机制的时间序列预测方法、装置及存储介质 |
CN110458336A (zh) * | 2019-07-23 | 2019-11-15 | 内蒙古工业大学 | 一种基于深度学习的网约车供需预测方法 |
CN111241816A (zh) * | 2020-01-22 | 2020-06-05 | 北京工业大学 | 一种新闻标题自动生成方法 |
CN111444311A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
Vehicle Price Prediction System using Machine Learning Techniques;Kanwal Noor等;International Journal of Computer Applications;27-31 * |
基于BP神经网络的二手车价格评估影响因素研究;毛攀等;设计研究;59-67 * |
基于改进Seq2Seq的短时AIS轨迹序列预测模型;游兰;韩雪薇;何正伟;肖丝雨;何渡;潘筱萌;;计算机科学(09);175-180 * |
基于自编码网络的空气污染物浓度预测;秦东明;丁志军;金玉鹏;赵勤;;同济大学学报(自然科学版)(05);93-99 * |
Also Published As
Publication number | Publication date |
---|---|
CN113408780A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN109583501B (zh) | 图片分类、分类识别模型的生成方法、装置、设备及介质 | |
CN110399850B (zh) | 一种基于深度神经网络的连续手语识别方法 | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112257449B (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN114048331A (zh) | 一种基于改进型kgat模型的知识图谱推荐方法及系统 | |
CN112420024B (zh) | 一种全端到端的中英文混合空管语音识别方法及装置 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN108875836B (zh) | 一种基于深度多任务学习的简单-复杂活动协同识别方法 | |
CN113434683B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN112559797A (zh) | 一种基于深度学习的音频多标签分类方法 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN115457982A (zh) | 情感预测模型的预训练优化方法、装置、设备及介质 | |
CN112906398B (zh) | 句子语义匹配方法、系统、存储介质和电子设备 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
CN111753736A (zh) | 基于分组卷积的人体姿态识别方法、装置、设备和介质 | |
CN113408780B (zh) | 汽车未来保值率预测方法、系统、设备及可读存储介质 | |
Alam | Recurrent neural networks in electricity load forecasting | |
CN114822562A (zh) | 声纹识别模型的训练方法、声纹识别方法及相关设备 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN113377951A (zh) | 智能客服机器人的语料构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |