CN116416007A

CN116416007A - 一种基于线性回归模型实现用户评价数预测方法及系统

Info

Publication number: CN116416007A
Application number: CN202310421933.7A
Authority: CN
Inventors: 聂靖松; 高玉渤; 贾国琛; 姜玉斌; 金士隆; 王逸群; 李凌苍
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-11

Abstract

本发明涉及一种基于线性回归模型实现用户评价数预测方法及系统，采集用户历史评价量数据，对所述用户历史评价量数据进行整合，得到整合后的基础数据；对整合后的基础数据进行数据预处理，得到标准基础数据；建立某一指定年度的用户历史评价量与上一年度的用户历史评价量的预测模型；将标准基础数据代入预测模型，进行用户评价量的预测计算，得到用户评价量预测值；对用户评价量预测值进行精确度检验；当预测模型的的精确度达到预定标准时，预测模型拟合有效，得到有效预测模型；将待预测数据输入至有效预测模型，输出用户评价量预测值。本发明所述方法及系统具有稳定性，能够很好的适用于对未来用户评价数量及趋势的预测场景。

Description

一种基于线性回归模型实现用户评价数预测方法及系统

技术领域

本发明涉及对数据分析与挖掘技术领域，尤其涉及一种基于线性回归模型实现用户评价数预测方法及系统。

背景技术

真实的用户评价，有利于吸引流量，用户得以更加真切地感受产品/服务，提高认同度促进业务提升。无论在商业领域还是政务领域，用户评价都是至关重要的存在。但想要准确预测用户评价数量是比较困难的；缺少对用户评价的预测，一方面对用户变化无法提前感知制定针对性改善提升用户体验；另一方面则是无法依据用户评价趋势准确预估业务发展状态做出良性的决策，影响业务发展。当前存在的一些预测方法多数是基于已知的知识和经验进行主观判断，受人工影响较大，预测结果存在不稳定性和较大误差。已有的解决方案是采用专家预测法，通过业务专家所具备的用户评价趋势相关的知识和经验，经过研究和调查对未来趋势做出预测，受专家经验水平影响，预测结果的也参差不齐。

目前已有的解决方案所采用的方法由于受人工干预比较多，预测成本高、效率低；且比较依赖专家经验水平，致使预测结果对客观趋势反应不足，容易出现较大误差，造成预测效果不理想。

发明内容

为解决现有技术的不足，本发明提出一种基于线性回归模型实现用户评价数预测方法及系统，能够更好的适用于用户评价预测场景，具有极强针对性，且数据量越大预测结果越准确，能够更好的支撑用户体验提升和业务决策。

为实现以上目的，本发明所采用的技术方案包括：

一种基于线性回归模型实现用户评价数预测方法，其特征在于，包括：

采集用户历史评价量数据，对所述用户历史评价量数据进行整合，得到整合后的基础数据；所述整合后的基础数据包括：某一指定年度的用户历史评价量数据以及上一年度的用户历史评价量数据；

对整合后的基础数据进行数据预处理，得到标准基础数据；

建立某一指定年度的用户历史评价量与上一年度的用户历史评价量的预测模型；

计算标准基础数据的离差平方和；

通过计算Q对a和b的偏导数确定预测方程参数a和随机变量b，得到预测模型：

将标准基础数据代入预测模型，进行用户评价量的预测计算，得到用户评价量预测值；

对用户评价量预测值进行精确度检验；所述精确度检验包括：计算最优精度S、预测误差率MAPE以及拟合有效度M；当预测模型的的精确度达到预定标准时，预测模型拟合有效，得到有效预测模型；

将待预测数据输入至有效预测模型，输出用户评价量预测值。

所述建立某一指定年度的用户历史评价量与上一年度的用户历史评价量的预测模型为：

y_i＝ax_i+b 式1

式中y_i为某一指定年度的用户历史评价量，i＝1,2,3...12；x_i为上一年度的用户历史评价量，a为预测方程参数，b为随机变量；

所述计算标准基础数据的离差平方和的公式为：

式中，Q为离差平方和；

所述通过计算Q对a和b的偏导数确定预测方程参数a和随机变量b，得到预测模型的公式为：

进一步地，所述对所述用户历史评价量数据进行整合，包括：按照自然时间顺序以月为单位整合所述用户历史评价量数据，以年度为单位整合所述用户历史评价量数据。

进一步地，所述数据预处理包括：数据审查、校验和一致性检测。

进一步地，所述预定标准为：预测误差率MAPE小于第一阈值并且拟合有效度M大于第二阈值；所述第一阈值为0.05，所述第一阈值为0.7。

进一步地，所述最优精度S的计算方法，包括：

其中，S为最优精度，yi为实际值，

为预测值。

进一步地，所述预测误差率MAPE的计算方法，包括：

其中，n为分析区间时间序列中的两个时间点Tl、Τ2之间的数据个数。

进一步地，所述有效拟合度M的计算方法，包括：

其中，

为最优精度的标准差。

本发明还涉及一种基于线性回归模型实现用户评价数预测系统，其特征在于，包括：

数据采集整合模块，用于采集用户历史评价量数据，对所述用户历史评价量数据进行整合，得到整合后的基础数据；所述整合后的基础数据包括：某一指定年度的用户历史评价量数据以及上一年度的用户历史评价量数据；对整合后的基础数据进行数据预处理，得到标准基础数据；

模型建立模块，用于建立某一指定年度的用户历史评价量与上一年度的用户历史评价量的预测模型；

计算标准基础数据的离差平方和；

通过计算Q对a和b的偏导数确定预测方程参数a和随机变量b，得到预测模型；

模型精度检验模块，用于对用户评价量预测值进行精确度检验；所述精确度检验包括：计算最优精度S、预测误差率MAPE以及拟合有效度M；当预测模型的的精确度达到预定标准时，预测模型拟合有效，得到有效预测模型；

预测模块，用于将待预测数据输入至有效预测模型，输出用户评价量预测值。

本发明还涉及一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于线性回归模型实现用户评价数预测方法。

本发明还涉及一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储有效预测模型；

所述处理器，用于通过调用有效预测模型，执行上述的基于线性回归模型实现用户评价数预测方法。

本发明还涉及一种计算机程序产品，包括计算机程序和/或指令，其特征在于，该计算机程序和/或指令被处理器执行时实现上述基于线性回归模型实现用户评价数预测方法的步骤。

本发明的有益效果为：

采用本发明所述一种基于线性回归模型实现用户评价数预测方法及系统，基于用户历史评价数据，利用线性回归算法生成预测模型后进行训练和调优，最终实现对用户评价数的预测；是一种高精准、低误差的预测方法，且训练数据越大则预测结果越准确，具有稳定性；能够很好的适用于对未来用户评价数量及趋势的预测场景。本发明所述一种基于线性回归模型实现用户评价数预测方法及系统通过线性回归实现用户评价数量精准预测，基于用户评价趋势的线性特性，将线性回归模型与用户历史评价数据相结合，使其成为一种能够针对用户评势做出精准预测的方法，通过用户历史数据对线性回归算模型的训练，不断评估和调优后获取最优预测模型，可实现对用户评价趋势的有效预测。此方法能够更好的适用于用户评价预测场景，具有极强针对性，且数据量越大预测结果越准确，能够更好的支撑用户体验提升和业务决策。

本发明所述一种基于线性回归模型实现用户评价数预测方法及系统基于大数据和人工智能技术，对用户历史数据进行采集和清洗，经线性回归算法进行推导、评估和调优后获取最终的科学预测模型；由于大数据和人工智能技术的存在，几乎不需要进行人工干预，低成本高效率；是依据用户历史评价数据的线性趋势特性而设计，符合客观规律性，预测模型是经过反复多次的评估和调优后所得，并且随着数据训练量的增大，其预测结果越精准。

附图说明

图1为本发明一种基于线性回归模型实现用户评价数预测方法流程示意图。

图2为本发明一种基于线性回归模型实现用户评价数预测系统结构示意图。

具体实施方式

为了更清楚的理解本发明的内容，将结合附图和实施例详细说明。

本发明所述一种基于线性回归模型实现用户评价数预测方法及系统通过线性回归实现用户评价数量精准预测：基于用户评价趋势的线性特性，将线性回归模型与用户历史评价数据相结合，使其成为一种能够针对用户评势做出精准预测的方法，通过用户历史数据对线性回归算模型的训练，不断评估和调优后获取最优预测模型，可实现对用户评价趋势的有效预测。此方法能够更好的适用于用户评价预测场景，具有极强针对性，且数据量越大预测结果越准确，能够更好的支撑用户体验提升和业务决策。

线性回归：线性回归是根据一个或一组自变量的变动情况预测与其相关关系的某随机变量的未来值的一种方法。回归分析需要建立描述变量间相关关系的回归方程。根据自变量的个数，回归方程可以是一元回归，也可以是多元回归。如果回归函数是一个线性函数，则称变量间是线性相关。一元线性回归分析包括两个变量，一个是自变量，以x表示。另一个是因变量(预测变量)以y表示。线性回归的应用大致可理解为利用已知的数据通过线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析后，然后通过将特定数据代入到建立的模型中去预测从出某个值。

本发明第一方面涉及一种基于线性回归模型实现用户评价数预测方法步骤流程如图1所示的方法，包括：

对整合后的基础数据进行数据预处理，得到标准基础数据；

建立某一指定年度的用户历史评价量与上一年度的用户历史评价量的预测模型，包括：

y_i＝ax_i+b 式1

式中yi为某一指定年度的用户历史评价量，i＝1,2,3...12；xi为上一年度的用户历史评价量，a为预测方程参数，b为随机变量；

计算标准基础数据的离差平方和；

式中，Q为离差平方和；

通过计算Q对a和b的偏导数确定预测方程参数a和随机变量b；

将式5代入式1，得到预测模型：

进一步地，所述最优精度S的计算方法，包括：

其中，S为最优精度，yi为实际值，

为预测值。

进一步地，所述预测误差率MAPE的计算方法，包括：

进一步地，所述有效拟合度M的计算方法，包括：

其中，

为最优精度的标准差。

作为本发明的第一实施例，如下：

步骤1：采集用户历史评价量数据。指定某一年度，将该年度当年和上一年度的全部历史评价量数据，按照时间先后顺序整理排列；该指定年度包含12个月的数据。

步骤2：基于步骤1采集整理的数据，上年用户评价量Xi(i＝1，2,3···η)与当年用户评价量yi(i＝1，2,3…η)建立预测模型，公式如下：

Yi＝aXi+b；

步骤3:计算离差平方和Q，确定预测方程参数a和随机变量b，公式如下：

步骤4:表达式中a，b作为未知数，分别计算Q对a，b的偏导数公式如下：

步骤5:通过步骤4中偏导数方程表达式计算参数a和随机变量b的值，公式如下：

步骤6:将求出的参数a和随机变量b的值(a＝A,b＝B)代入预测模型Yi＝aXi+b，从而得到预测防惩y^＝AXi+B，使用预测模型进行预测。

步骤7：精确度检验，取[Tl,T2]为分析区间，yi为实际值，y^为预测值，Tl、T2为时间序列中的两个时间点，则检验方法如下：

步骤7.1：获得真实值yi以及预测值y^；

步骤7.2:根据预测值与真实值之间的误差，获得最优精度S，预测误差率MAPE，拟合有效度M，从中选取评价标准最优的预测结果所对应的平滑系数作为"最优平滑系数"；

预测精度S计算公式：

设[T1，T2]为分析区间，yi真实值，y^为预测值，则：

预测误差率MAPE计算公式：

η为分析区间时间序列中的两个时间点Tl、Τ2之间的数据个数；

有效拟合度M:

模型是否有效检验标准：当MAPE<0.05且M＞0.7时，模型拟合有效；

步骤8：将待预测数据输入至预测模型y^＝AXi+B，进行预测并输出结果。

本发明另一方面还涉及一种基于线性回归模型实现用户评价数预测系统，其结构如图2所示，包括：

模型建立模块，用于建立某一指定年度的用户历史评价量与上一年度的用户历史评价量的预测模型，包括：

y_i＝ax_i+b 式1

计算标准基础数据的离差平方和；

式中，Q为离差平方和；

通过计算Q对a和b的偏导数确定预测方程参数a和随机变量b；

将式5代入式1，得到预测模型：

通过使用该系统，能够执行上述的运算处理方法并实现对应的技术效果。

本发明所述一种基于线性回归模型实现用户评价数预测方法及系统，基于大数据和人工智能技术，对用户历史数据进行采集和清洗，经线性回归算法进行推导、评估和调优后获取最终的科学预测模型；由于大数据和人工智能技术的存在，几乎不需要进行人工干预，低成本高效率；是依据用户历史评价数据的线性趋势特性而设计，符合客观规律性，预测模型是经过反复多次的评估和调优后所得，并且随着数据训练量的增大，其预测结果越精准。

本发明的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。

本发明的实施例还提供一种用于执行上述方法的电子设备，作为该方法的实现装置，所述电子设备至少具备有处理器和存储器，特别是该存储器上存储有执行方法所需的数据和相关的计算机程序，例如有效预测模型等，并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤，并获得对应的技术效果。

优选的，该电子设备可以包含有总线架构，总线可以包括任意数量的互联的总线和桥，总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理，而存储器可以被用于存储处理器在执行操作时所使用的数据。

额外的，所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器接收输入并控制电子设备的各个部件的操作；存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种，可储存上述有关的数据信息，此外还可存储执行有关信息的程序，并且处理器可执行该存储器存储的该程序，以实现信息存储或处理等；输入单元用于向处理器提供输入，例如可以为按键或触摸输入装置；电源用于向电子设备提供电力；显示器用于进行图像和文字等显示对象的显示，例如可为LCD显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风，以经由扬声器提供音频输出，并接收来自麦克风的音频输入，从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器还耦合到中央处理器，从而使得可以通过麦克风能够在本机上录音，且使得可以通过扬声器来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。