CN109934512B - 一种预测模型的训练方法及系统 - Google Patents

一种预测模型的训练方法及系统 Download PDF

Info

Publication number
CN109934512B
CN109934512B CN201910241998.7A CN201910241998A CN109934512B CN 109934512 B CN109934512 B CN 109934512B CN 201910241998 A CN201910241998 A CN 201910241998A CN 109934512 B CN109934512 B CN 109934512B
Authority
CN
China
Prior art keywords
model
training
prediction
data
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910241998.7A
Other languages
English (en)
Other versions
CN109934512A (zh
Inventor
邹炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201910241998.7A priority Critical patent/CN109934512B/zh
Publication of CN109934512A publication Critical patent/CN109934512A/zh
Application granted granted Critical
Publication of CN109934512B publication Critical patent/CN109934512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种预测模型的训练方法,所述方法包括:确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数;根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练;对训练后的模型进行验证;根据模型验证结果,确定训练好的预测模型。本发明还同时公开了一种预测模型的训练系统。应用本发明实施例,旨在同时进行多个模型的训练,获得多个训练模型,提高模型的预测效率,而且不需要人工进行中间干预,降低人员参与的成本。

Description

一种预测模型的训练方法及系统
技术领域
本发明涉及模型训练技术领域,尤其涉及一种预测模型的训练方法及系统。
背景技术
随着信息化进程的推进,接触到互联网的人群规模不断增大;就当下实际情况来说,大部分人已习惯于在PC端或手机端上浏览实时资讯、网购、知识学习等。用于在网购或浏览时讯时,在浏览了某些主题或类型的信息后,会在APP或网页的某些板块看到一些相似的资源信息,其实是推荐系统在根据用户的使用记录或者偏好设置进行相关推荐。
在推荐技术中,重要的是推荐系统,推荐系统是由推荐模型构成的,通过推荐模型进行相关特征以及预测模型计算出来的最佳结果;不同的预测模型以及选取不同的特征数据会导致预测出不一样的结果数据,而最终展示在用户面前的信息资源也将不一致。
现有技术中,为达到推荐效果的更优化,不少企业的做法是通过试错的方式进行试验指标效果对比来完成;比如将A预测模型投放到生产环境中3天,然后把B预测模型投放到生产环境中3天,对比A与B模型在各自3天内的效果指标数据,以效果好的作为最终线上使用的预测模型;或同时将A、B、C预测模型投放到生产环境,然后把业务请求流量按照一定比例分发到A、B、C预测模型上,试验一段时间后对比3个模型在相同时间内的效果指标数据,以效果相对最好的作为最终线上投放使用的预测模型。
从现有技术的方式均可达到将预测模型投放到生产线上使用的目的,但实际操作相对复杂,全程需要人工干预,而且一次可试验的预测模型数量为一个,模型训练的效率较低。
发明内容
为解决现有技术存在的问题,本发明实施例期望提供一种预测模型的训练方法及系统,旨在同时进行多个模型的训练,获得多个训练模型,提高模型的预测效率,而且不需要人工进行中间干预,降低人员参与的成本。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种预测模型的训练方法,所述方法包括:
确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数;
根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练;
对训练后的模型进行验证;
根据模型验证结果,确定训练好的预测模型。
上述方案中,在所述对所述至少一个模型中的每一个模型设置配置参数的步骤之后,所述方法还包括:
监听配置参数是否发生变化;
如果是,采用变化后的配置参数对模型进行训练;
或,
监听模型是否发生变化;
获取变化后的模型,并基于变化后的模型进行训练。
上述方案中,所述方法还包括:
对预测模型配置流量策略;
根据所述流量策略分发业务请求至预测模型;
并根据业务数据,获取每一个预测模型的预测结果。
上述方案中,所述对所述至少一个模型中的每一个模型设置配置参数的步骤,包括:
对所述至少一个模型中的每一个模型设置特征参数、特征加权系数、预测算法、训练数据、测试通过阈值、迭代次数。
上述方案中,所述对预测模型配置流量策略;根据所述流量策略分发业务请求至预测模型的步骤,包括:
为每一个预测模型配置流量比例;
根据所述流量比例,将接收到的业务请求分发到对应的预测模型中;
获得预测模型的预测结果,并返回至对应的业务请求发送端。
上述方案中,所述方法还包括:
获取客户端的埋点数据;
根据所述埋点数据统计返回结果;
根据所述返回结果获得对应预测模型在预设时间段内的参考指标,其中,所述参考指标至少包括曝光率、点击率与下载率中的一种或者多种;
根据所述参考指标,确定预测模型的准确性。
上述方案中,所述方法还包括:
将分发数据与埋点数据进行归类统计;
将各个预测模型的归类统计结果进行展示,以根据所述投放效果进行预测模型的评价。
此外,为解决现有技术问题,本发明实施例还提供了一种预测模型的训练系统,所述系统包括:
配置管理后台,用于确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数;
数据库,用于获取配置参数,并根据配置参数进行训练数据加载;
训练服务器,用于获取配置参数及模型,并根据所加载的训练数据对每一个模型进行训练;
历史数据存储服务器,用于保存历史模型训练数据。
上述方案中,所述训练服务器还用于:
监听配置参数是否发生变化;
如果是,采用变化后的配置参数对模型进行训练;
或,
监听模型是否发生变化;
获取变化后的模型,并基于变化后的模型进行训练。
上述方案中,所述系统还包括:业务服务器和资源存储数据库;
所述配置管理后台用于:对预测模型配置流量策略;
所述业务服务器,用于接收业务请求,并根据所述流量策略分发业务请求至预测模型;获取每一个预测模型的预测结果;
所述资源存储数据库,用于存储业务数据,与所述业务服务器相连。
上述方案中,所述配置管理后台具体用于:对所述至少一个模型中的每一个模型设置特征参数、特征加权系数、预测算法、训练数据、测试通过阈值、迭代次数。
上述方案中,所述配置管理后台,用于为每一个预测模型配置流量比例;
所述业务服务器,用于根据所述流量比例,将接收到的业务请求分发到对应的预测模型中;获得预测模型的预测结果,并返回至对应的业务请求发送端。
上述方案中,所述业务服务器还用于:获取客户端的埋点数据;根据所述埋点数据统计返回结果;
所述配置管理后台,还用于根据所述返回结果获得对应预测模型在预设时间段内的参考指标,其中,所述参考指标至少包括曝光率、点击率与下载率中的一种或者多种;根据所述参考指标,确定预测模型的准确性。
上述方案中,所述业务服务器,具体用于:将分发数据与埋点数据进行归类统计;将各个预测模型的归类统计结果进行展示,以根据所述投放效果进行预测模型的评价。
本发明实施例提供的一种预测模型的训练方法及系统,通过确定待训练的至少一个模型,并一次性的对所述至少一个模型中的每一个模型设置配置参数;然后根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练;并对训练后的模型进行验证;以根据模型验证结果,确定训练好的预测模型。可见,通过同时对至少一个模型进行配置参数的设置并加载训练数据可以实现批量的对模型进行训练,并自动获得训练结果,模型训练的中间过程不需要人为的进行干预。因此,能够同时进行多个模型的训练,获得多个训练模型,提高模型的预测效率,而且不需要人工进行中间干预,降低人员参与的成本。
附图说明
图1为实现本发明各个实施例中一可选的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信系统示意图;
图3为本发明一可选实施例所提供的预测模型的训练系统的一种结构示意图;
图4为本发明一可选实施例所提供的预测模型的训练系统的另一种结构示意图;
图5为本发明一可选实施例所提供的预测模型的训练方法的一种流程示意图;
图6为本发明一可选实施例所提供的预测模型的训练方法的另一种流程示意图;
图7为本发明一可选实施例所提供的预测模型的训练方法的再一种流程示意图。
附图标记:
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的移动终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字电视机(TV)、台式计算机等固定移动终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的移动终端。
请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:射频(Radio Frequency,RF)单元101、WiFi模块102、音频输出单元103、音频/视频(A/V)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址2000(Code Division Multiple Access 2000,CDMA2000)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、时分同步码分多址(Time Division-Synchronous Code Division Multiple Access,TD-SCDMA)、频分双工长期演进(Frequency Division Duplexing-Long Term Evolution,FDD-LTE)和分时双工长期演进(Time Division Duplexing-Long Term Evolution,TDD-LTE)等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的、或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中得到的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。
用户输入单元107可用于接收输入的数字或字符信息,以及得到与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触控屏,可收集用户在其上或附近的触控操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触控检测装置和触控控制器两个部分。其中,触控检测装置检测用户的触控方位,并检测触控操作带来的信号,将信号传送给触控控制器;触控控制器从触控检测装置上接收触控信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触控操作后,传送给处理器110以确定触控事件的类型,随后处理器110根据触控事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
为了便于理解本发明实施例,下面对本发明的移动终端所基于的通信网络系统进行描述。
请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的用户设备(UserEquipment,UE)201,演进式UMTS陆地无线接入网(Evolved UMTS Terrestrial RadioAccess Network,E-UTRAN)202,演进式分组核心网(Evolved Packet Core,EPC)203和运营商的IP业务204。
具体地,UE201可以是上述移动终端100,此处不再赘述。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括移动性管理实体(Mobility Management Entity,MME)2031,归属用户服务器(Home Subscriber Server,HSS)2032,其它MME2033,服务网关(Serving GateWay,SGW)2034,分组数据网络网关(PDN Gate Way,PGW)2035和政策和资费功能实体(Policy and Charging Rules Function,PCRF)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IP多媒体子系统(IP MultimediaSubsystem,IMS)或其它IP业务等。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述移动终端硬件结构以及通信网络系统,提出本发明方法各个实施例。
为了解决现有技术问题,本发明实施例提出一种预测模型的训练系统,图3为本发明一可选实施例所提供的预测模型的训练系统的结构示意图,如图3所示,该系统包括以下:
本发明实施例还提供了一种预测模型的训练系统30,所述系统包括:
配置管理后台31,用于确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数;
数据库32,用于获取配置参数,并根据配置参数进行训练数据加载;
训练服务器33,用于获取配置参数及模型,并根据所加载的训练数据对每一个模型进行训练;
历史数据存储服务器34,用于保存历史模型训练数据,并从所述历史模型训练数据中选取训练数据至训练服务器33。
需要说明的是,配置管理后台可以是与用户进行交互的终端,例如通过人机交互界面,用户可以将需要进行训练的模型进行选择,作为确定待训练模型的步骤。具体实施中,待训练模型的数量可以为2个,待训练模型的数量可以为5个,待训练模型的数量可以为10个,待训练模型的数量可以为20个,待训练模型的数量可以为50个,待训练模型的数量可以为100个,甚至更多,本发明实施例在此不做具体限定。
本发明实施例,是为了批量的进行模型的训练,以便达到提高模型训练的效率。因此,在确定了待训练的至少一个模型以后,对待训练模型进行批量配置。
本发明实施例中,对模型的配置是为了便于模型进行后续的自动化训练过程所做的前期工作。实际应用中,管理人员根据实际业务场景需求,在管理后台的配置模块配置待训练模型的参数设置,然后保存提交到数据库32。
具体实现中配置参数包括但不限于特征参数、特征加权系数、预测算法、训练数据、测试通过阈值、迭代次数中的多种组合。在配置参数时,特征的选择是一个关键点;不同的业务场景下,特征的种类与个数均不一致;特征主要是从上报的历史数据中提取,可包含用户特征(例如用户的性别、年龄、兴趣爱好等)、地理信息、网络信息(例如3G、4G、Wifi)、商品属性(例如玩具、图书等)。在配置模型参数时,管理员可根据实际需要选取多个特征。
预测算法进行模型训练的核心,不同的预测算法所起到的作用和效果是未必相同的,也有很多算法功能类似则可以进行择一选择,预测算法都是通过实现进行处理好直接通过管理人员进行选择使用的。管理人员在选取特征之后,根据实际需求选取业务场景的算法。例如,机器学习算法、聚类算法等等。
本领域技术人员可以理解的是,训练数据(Train Data)是数据挖掘过程中用于数据挖掘模型构建的数据。需要说明的是,为了达到让模型进行识别的目的,需要通过预先设置的已知训练数据集进行训练,从而达到特征总结进行识别的效果。本发明实施例中,训练数据为该模型所需的训练与验证的数据集规模。
针对特征加权系数,可以是给某些已选特征在模型训练时进行系数加权;二测试通过阈值则是确定模型是否合格的标准线,在模型训练后的阈值不小于该阈值时,则表示模型通过训练,为合格模型,否则表示该模型无法通过此次训练。
可以理解的是,模型训练的过程是反复的,所以什么时候是模型训练的结束则需要一个结束的条件,具体可以为通过设置最大迭代次数作为终止条件,约定在预测模型训练过程中最大的迭代验证次数则终止训练,且可以理解的是,当模型的测试结果大于阈值,也可以设置无需达到最大迭代次数就可以结束训练。
还有其他如接收者操作特征(receiveroperating characteristic,简称ROC),roc曲线上每个点反映着对同一信号刺激的感受性,Precision-Recall曲线是以准确率Precision为纵轴、召回率Recall为横轴的曲线、ROC曲线下面积(Area under Curve,简称AUC),以及其他等配置参数不做赘述。
可以理解的是,数据库32的作用是接收配置管理后台31发送过来的模型配置参数、待训练的模型文件并进行存储,具体的,数据库32为Mysql数据库。
训练服务器33可以实时监听数据库32中模型参数配置表的数据,当该数据表有新数据增加,则训练模型服务器会将新的配置参数加载到服务内存中,并根据配置参数进行历史训练数据的加载、模型训练等准备工作。
在训练服务器33中通过读取数据库32的模型和配置参数直接对每一个模型进行训练,模型的具体训练过程是依据其对应的算法进行训练的,本发明实施例中不对每一个模型的具体训练过程进行赘述。
可以理解的是,训练数据是保证正样本和负样本的数据集。本发明实施例汇总,从历史模型训练数据中选取训练数据至训练服务器33,例如,用户的女性购买裙子是正样本,50岁以上男性购买裙子为负样本,这些训练数据可以在购物推荐系统中进行反复使用,所以通过历史数据存储服务器34进行以往训练样本的存储,便于进行多次反复使用。
在模型训练的过程中,配置管理后台31还可以随时查看模型训练进度;对于已生成的预测模型自动存储到训练服务器33中进行备用。
本发明实施例,通过可配置化与批量化的配置管理后台31进行据实际业务需要确定待测试模型,然后在后台管理系统一次性配置多个模型的素材,提交后台交付给训练服务器,训练服务器依据配置参数,可批量化进行多个模型的训练、自动化调试以及模型结果的生成与保存。
因此,应用本发明实施例提供的一种预测模型的训练方法,通过确定待训练的至少一个模型,并一次性的对所述至少一个模型中的每一个模型设置配置参数;然后根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练;并对训练后的模型进行验证;以根据模型验证结果,确定训练好的预测模型。可见,通过同时对至少一个模型进行配置参数的设置并加载训练数据可以实现批量的对模型进行训练,并自动获得训练结果,模型训练的中间过程不需要人为的进行干预。因此,能够同时进行多个模型的训练,获得多个训练模型,提高模型的预测效率,而且不需要人工进行中间干预,降低人员参与的成本。
本发明的一种具体实现方式中,所述训练服务器33还用于:监听配置参数是否发生变化;如果是,采用变化后的配置参数对模型进行训练;或,监听模型是否发生变化;获取变化后的模型,并基于变化后的模型进行训练。
可以理解的是,当用户有新的待训练模型加入的训练模型行列的时候,本发明中用户通过配置管理后台31进行待训练模型的添加,然后传送到数据库32中,并通过训练服务器33自动接收数据库32中的模型。
因此,本发明实施例通过实时监听数据库中模型参数配置表的数据变更,当该数据表有新数据增加,则训练模型服务器会将新的配置参数加载到服务内存中
图3的实施例中,在训练结束后生成有多个预测模型,本发明实施例还提供一种模型优劣的自动评估的方案。
本发明实施例提供的预测模型的训练系统30还包括:业务服务器35和资源存储数据库36;
所述配置管理后台31用于:对预测模型配置流量策略;
所述业务服务器35,用于接收业务请求,并根据所述流量策略分发业务请求至预测模型;获取每一个预测模型的预测结果;
所述资源存储数据库36,用于存储业务数据,与所述业务服务器相连。
可以理解的是,在配置管理后台31定制一定的流量分配策略,并保存到数据库中,业务服务器35会自动将流量策略与预测模型加载到内存。具体的,资源存储数据库36用来存储应用、商品、广告等业务数据,预测模型在对业务请求进行分析后从资源存储数据库36中挖掘出来对应的预测结果,所以,资源存储数据库36是用来提供预测模型计算推荐使用的数据库。
示例性的,移动终端发送业务请求并通过接受外部业务请求,通过业务服务器35将业务请求中所携带的数据解析成能够为预测模型所使用的特征数据。然后根据流量策略机制,将特征数据分配到相应的预测模型中。最后,由预测模型在业务服务器中执行计算,并将满足预测模型计算出的资源返回给外部请求方,即发送请求的移动终端。
需要说明的是,在此过程中,业务服务器35会将请求参数、预测模型等数据记录到历史数据存储服务器34中,作为后续预测模型训练的基础数据。
可以理解的是,在数据挖掘过程中,除了训练数据还有测试数据(Test Data),即用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率,测试数据不允许用于模型构建过程,否则会导致过渡拟合。而本发明实施例中,可以通过接收到的业务请求进行作为测试数据,能够增加测试数据的不同种类,进一步提高模型预测的准确性和多样性。
因此,本发明的实施例,不但可以可配置化与批量化的进行模型的训练,在模型训练结束后,管理人员根据实际业务需要,可在后台管理系统一次性配置多个预测模型,然后进行预测模型的自动化调试以及模型结果的生成与保存。
具体实现方式中,所述配置管理后台31,用于为每一个预测模型配置流量比例;
所述业务服务器35,用于根据所述流量比例,将接收到的业务请求分发到对应的预测模型中;获得预测模型的预测结果,并返回至对应的业务请求发送端。
可以理解的是,流量比例可以是为每一个预测模型进行分配业务请求的比例,通过合理的分配业务请求能够达到对预测模型的验证数量划分的目的。
具体的,业务服务器35在接受外部业务请求后,将请求中所携带的数据解析成特征数据的形式,并根据流量策略进行分配至各个预测模型,将特征数据传入相应的预测模型中得到各个模型的预测结果,然后将满足预测模型计算出最佳的资源返回给外部请求方,实现数据的反馈,而对于发送业务请求的一端则是接收到对应的反馈数据。并同时将业务请求数据与模型预测结果数据上报到历史数据存储数据库34。
另外,通过图4的实施例,能够查看投放到生产环境中的多个预测模型的预测效果,根据实际对比,管理人员可重新进行流量策略的调整(例如停用部分预测模型、变更流量分配比例、启用新的预测模型)。
上述方案中,所述业务服务器35还用于:获取客户端的埋点数据;根据所述埋点数据统计返回结果;
所述配置管理后台31,还用于根据所述返回结果获得对应预测模型在预设时间段内的参考指标,其中,所述参考指标至少包括曝光率、点击率与下载率中的一种或者多种;根据所述参考指标,确定预测模型的准确性。
需要说明的是,埋点分析,是网站分析的一种常用的数据采集方法,数据埋点是一种良好的私有化部署数据采集方式,通过埋点分析所得到的数据为埋点数据。
通过业务服务器与业务请求方的通信,能够获取业务请求方埋点上报的事件(例如,用户的点击、下载、购买等操作)数据。并且,历史数据存储服务器34通过存储业务服务器上报的请求参数、模型预测结果以及业务请求方埋点上报的埋点数据;作为后续预测模型训练的基础数据。
一种具体实施例中,所述业务服务器35,具体用于:将分发数据与埋点数据进行归类统计;将各个预测模型的归类统计结果进行展示,以根据所述投放效果进行预测模型的评价。
具体实现中,通过实时收集分发数据与埋点数据,后台自动进行将收集的数据进行归类统计,以图表的方式将各个预测模型的投放效果展示在后台,供管理人员进行模型优劣的评估;管理人员基于评估图表,可实时进行线上流量策略的变更以及预测模型停启用,无停服,高可用。
本发明的实施例,旨在以系统配置化为基础,构建出一套能够更为简单快捷进行预测模型训练,智能化进行批量预测模型的效果验证,以及尽可能找到相对最优预测模型和实现高可用、无停服式的生产环境中预测模型更换的推荐系统,来达到‘知用户所需’的资源推荐投放效果和投放效益最大化的目标。
实现更简单快捷的进行预测模型训练,智能化的进行批量预测模型的效果验证,以及达到尽可能找到相对最优预测模型和实现高可用、无停服式的生产环境中预测模型更换的目的。
如图5所示,本发明提供的预测模型的训练方法在一种具体应用中的应用,具体步骤包括:
步骤S510:管理人员在配置管理后台批量配置第一个预测模型参数,并保存至Mysql数据库;
步骤S520:训练服务器监听数Mysql据库中配置表的变化,将新增配置加载到内存中,然后参照配置进行训练数据加载、模型训练、验证,并最终将训练好的预测模型存储到Mysql数据库中;
步骤S530:通过配置管理后台查看模型训练进度,并对已生成预测模型进行流量策略配置并保存到Mysql数据库;
步骤S540:业务服务器将流量策略与模型文件加载到内存并生效,并更新流量分发策略,转发到对应预测模型,将预测模型给予更新后的流量分发数据所获取的预测结果返回给业务请求方,以及将业务请求数据与模型预测结果数据上报到历史数据存储数据库;
步骤S550:统计历史数据存储数据库中的历史上报数据,并生成相应的模型预测投放效果图表,并根据效果图标进行流量策略的调整。
如图6所示,本发明提供的预测模型的训练方法在另一种具体应用中的应用,具体步骤包括:
步骤S610:配置管理后台根据业务场景选择多组特征与算法,并保存至数据库中;
步骤S620:模型训练服务器加载多组模型及对应的多组特征与算法,并对每一个模型进行训练;
步骤S630:将训练好的模型保存到数据库中,并接收配置管理后台发送的流量策略;
步骤S640:业务服务器获取流量策略并根据流量策略定制的比例分发业务请求,并获取每一个预测模型的预测结果;
步骤S650:接收客户端通过预先设置的埋点机制所反馈的埋点数据,并保存到历史存储数据库中;
步骤S660:业务服务器统计埋点数据,并预设时间段内的基于埋点数据反馈至配置管理后台曝光率、点击率和下载,一次判断各个预测模型的准确率;
步骤S670:基于ABTest报表数据,调整流量策略。
因此,旨在以系统配置化为基础,ABTest验证模式为手段,构建出一套能够更为简单快捷进行预测模型训练,智能化进行批量预测模型的效果验证。
步骤S710:确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数。
步骤S720:根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练。
步骤S730:对训练后的模型进行验证。
步骤S740:根据模型验证结果,确定训练好的预测模型。
本发明的一种实现方式中,在所述对所述至少一个模型中的每一个模型设置配置参数的步骤之后,所述方法还包括:
监听配置参数是否发生变化;
如果是,采用变化后的配置参数对模型进行训练;
或,
监听模型是否发生变化;
获取变化后的模型,并基于变化后的模型进行训练。
本发明的一种实现方式中,所述方法还包括:
对预测模型配置流量策略;
根据所述流量策略分发业务请求至预测模型;
并根据业务数据,获取每一个预测模型的预测结果。
需要说明的是,在此过程中,可以将请求参数、预测模型等数据记录到历史数据存储服务器中,作为后续预测模型训练的基础数据。
可以理解的是,在数据挖掘过程中,除了训练数据还有测试数据(Test Data),即用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率,测试数据不允许用于模型构建过程,否则会导致过渡拟合。而本发明实施例中,可以通过接收到的业务请求进行作为测试数据,能够增加测试数据的不同种类,进一步提高模型预测的准确性和多样性。
因此,本发明的实施例,不但可以可配置化与批量化的进行模型的训练,在模型训练结束后,管理人员根据实际业务需要,可在后台管理系统一次性配置多个预测模型,然后进行预测模型的自动化调试以及模型结果的生成与保存。
本发明的一种实现方式中,所述对所述至少一个模型中的每一个模型设置配置参数的步骤,包括:
对所述至少一个模型中的每一个模型设置特征参数、特征加权系数、预测算法、训练数据、测试通过阈值、迭代次数。
本发明的一种实现方式中,所述对预测模型配置流量策略;根据所述流量策略分发业务请求至预测模型的步骤,包括:
为每一个预测模型配置流量比例;
根据所述流量比例,将接收到的业务请求分发到对应的预测模型中;
获得预测模型的预测结果,并返回至对应的业务请求发送端。
本发明的一种实现方式中,所述方法还包括:
获取客户端的埋点数据;
根据所述埋点数据统计返回结果;
根据所述返回结果获得对应预测模型在预设时间段内的参考指标,其中,所述参考指标至少包括曝光率、点击率与下载率中的一种或者多种;
根据所述参考指标,确定预测模型的准确性。
本发明的一种实现方式中,所述方法还包括:
将分发数据与埋点数据进行归类统计;
将各个预测模型的归类统计结果进行展示,以根据所述投放效果进行预测模型的评价。
因此,应用本发明实施例提供的一种预测模型的训练系统,通过确定待训练的至少一个模型,并一次性的对所述至少一个模型中的每一个模型设置配置参数;然后根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练;并对训练后的模型进行验证;以根据模型验证结果,确定训练好的预测模型。可见,通过同时对至少一个模型进行配置参数的设置并加载训练数据可以实现批量的对模型进行训练,并自动获得训练结果,模型训练的中间过程不需要人为的进行干预。因此,能够同时进行多个模型的训练,获得多个训练模型,提高模型的预测效率,而且不需要人工进行中间干预,降低人员参与的成本。
应当说明的是,上述装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台移动终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种预测模型的训练方法,其特征在于,所述方法包括:
确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数;
根据配置参数进行训练数据加载,并根据所加载的训练数据对每一个模型进行训练;
对训练后的模型进行验证;
根据模型验证结果,确定训练好的预测模型;
其中,对预测模型配置流量策略;根据所述流量策略分发业务请求至预测模型的步骤,包括:
为每一个预测模型配置流量比例;
根据所述流量比例,将接收到的业务请求分发到对应的预测模型中;
获得预测模型的预测结果,并返回至对应的业务请求发送端;
其中,所述方法还包括:
获取客户端的埋点数据;
根据所述埋点数据统计返回结果;
根据所述返回结果获得对应预测模型在预设时间段内的参考指标,其中,所述参考指标至少包括曝光率、点击率与下载率中的一种或者多种;
根据所述参考指标,确定预测模型的准确性。
2.根据权利要求1所述的预测模型的训练方法,其特征在于,在所述对所述至少一个模型中的每一个模型设置配置参数的步骤之后,所述方法还包括:
监听配置参数是否发生变化;
如果是,采用变化后的配置参数对模型进行训练;
监听模型是否发生变化;
获取变化后的模型,并基于变化后的模型进行训练。
3.根据权利要求1或2所述的预测模型的训练方法,其特征在于,所述方法还包括:
对预测模型配置流量策略;
根据所述流量策略分发业务请求至预测模型;
并根据业务数据,获取每一个预测模型的预测结果。
4.根据权利要求1或2所述的预测模型的训练方法,其特征在于,所述对所述至少一个模型中的每一个模型设置配置参数的步骤,包括:
对所述至少一个模型中的每一个模型设置特征参数、特征加权系数、预测算法、训练数据、测试通过阈值、迭代次数。
5.根据权利要求1所述的预测模型的训练方法,其特征在于,所述方法还包括:
将分发数据与埋点数据进行归类统计;
将各个预测模型的归类统计结果进行展示,以根据投放效果进行预测模型的评价。
6.一种预测模型的训练系统,其特征在于,所述系统包括:
配置管理后台,用于确定待训练的至少一个模型,并对所述至少一个模型中的每一个模型设置配置参数;
数据库,用于获取配置参数,并根据配置参数进行训练数据加载;
训练服务器,用于获取配置参数及模型,并根据所加载的训练数据对每一个模型进行训练;
历史数据存储服务器,用于保存历史模型训练数据;
其中,所述系统还包括:业务服务器;
所述配置管理后台,还用于对预测模型配置流量策略;
所述业务服务器,用于接收业务请求,并根据所述流量策略分发业务请求至预测模型;获取每一个预测模型的预测结果,包括:
为每一个预测模型配置流量比例;
根据所述流量比例,将接收到的业务请求分发到对应的预测模型中;
获得预测模型的预测结果并上报所述历史数据存储服务器;
所述业务服务器,还用于获取客户端的埋点数据;根据所述埋点数据统计返回结果;
所述配置管理后台,还用于根据所述返回结果获得对应预测模型在预设时间段内的参考指标,其中,所述参考指标至少包括曝光率、点击率与下载率中的一种或者多种;根据所述参考指标,确定预测模型的准确性。
7.根据权利要求6所述的预测模型的训练系统,其特征在于,所述训练服务器还用于:
监听配置参数是否发生变化;
如果是,采用变化后的配置参数对模型进行训练;
或,
监听模型是否发生变化;
获取变化后的模型,并基于变化后的模型进行训练。
8.根据权利要求6或7所述的预测模型的训练系统,其特征在于,还包括:资源存储数据库;
所述资源存储数据库,用于存储业务数据,与所述业务服务器相连。
CN201910241998.7A 2019-03-28 2019-03-28 一种预测模型的训练方法及系统 Active CN109934512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910241998.7A CN109934512B (zh) 2019-03-28 2019-03-28 一种预测模型的训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910241998.7A CN109934512B (zh) 2019-03-28 2019-03-28 一种预测模型的训练方法及系统

Publications (2)

Publication Number Publication Date
CN109934512A CN109934512A (zh) 2019-06-25
CN109934512B true CN109934512B (zh) 2024-02-09

Family

ID=66988504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910241998.7A Active CN109934512B (zh) 2019-03-28 2019-03-28 一种预测模型的训练方法及系统

Country Status (1)

Country Link
CN (1) CN109934512B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263921B (zh) * 2019-06-28 2021-06-04 深圳前海微众银行股份有限公司 一种联邦学习模型的训练方法及装置
CN110717535B (zh) * 2019-09-30 2020-09-11 北京九章云极科技有限公司 一种基于数据分析处理系统的自动建模方法及系统
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN111080413A (zh) * 2019-12-20 2020-04-28 深圳市华宇讯科技有限公司 电商平台商品的推荐方法、装置、服务器和存储介质
CN111708561B (zh) * 2020-06-17 2024-01-05 杭州海康消防科技有限公司 算法模型更新系统、方法、装置及电子设备
CN112288006A (zh) * 2020-10-29 2021-01-29 深圳开立生物医疗科技股份有限公司 一种图像处理模型构建方法、装置、设备及可读存储介质
CN112799949A (zh) * 2021-02-04 2021-05-14 上海销氪信息科技有限公司 一种模型优化方法、装置、系统及设备
CN115146691A (zh) * 2021-03-30 2022-10-04 华为技术有限公司 管控模型训练的方法及装置、系统
CN113052328B (zh) * 2021-04-02 2023-05-12 上海商汤科技开发有限公司 深度学习模型生产系统、电子设备和存储介质
CN117714309A (zh) * 2022-09-13 2024-03-15 华为技术有限公司 数据的传输方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600369A (zh) * 2016-12-09 2017-04-26 广东奡风科技股份有限公司 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法
CN107240005A (zh) * 2017-06-13 2017-10-10 携程旅游网络技术(上海)有限公司 机票附加产品的推荐系统及方法
CN109165983A (zh) * 2018-09-04 2019-01-08 中国平安人寿保险股份有限公司 保险产品推荐方法、装置、计算机设备和存储介质
CN109272408A (zh) * 2018-10-31 2019-01-25 平安科技(深圳)有限公司 车贷款金融产品智能推荐方法、装置、设备及介质
CN109376844A (zh) * 2018-10-30 2019-02-22 银河水滴科技(北京)有限公司 基于云平台和模型推荐的神经网络自动训练方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600369A (zh) * 2016-12-09 2017-04-26 广东奡风科技股份有限公司 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法
CN107240005A (zh) * 2017-06-13 2017-10-10 携程旅游网络技术(上海)有限公司 机票附加产品的推荐系统及方法
CN109165983A (zh) * 2018-09-04 2019-01-08 中国平安人寿保险股份有限公司 保险产品推荐方法、装置、计算机设备和存储介质
CN109376844A (zh) * 2018-10-30 2019-02-22 银河水滴科技(北京)有限公司 基于云平台和模型推荐的神经网络自动训练方法和装置
CN109272408A (zh) * 2018-10-31 2019-01-25 平安科技(深圳)有限公司 车贷款金融产品智能推荐方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109934512A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109934512B (zh) 一种预测模型的训练方法及系统
US11216523B2 (en) Method, system, server and intelligent terminal for aggregating and displaying comments
CN107273011A (zh) 应用程序快速切换方法及移动终端
CN108334539B (zh) 对象推荐方法、移动终端及计算机可读存储介质
WO2020192219A1 (zh) 定位测量信息上报方法、终端和网络设备
CN108322780B (zh) 平台用户行为的预测方法、存储介质和终端
WO2015081801A1 (en) Method, server, and system for information push
WO2016015471A1 (zh) 一种预测用户离网的方法及装置
CN111444425B (zh) 一种信息推送方法、电子设备及介质
CN108600516B (zh) 数据采集方法、移动终端及计算机可读存储介质
CN107613489A (zh) 一种无线充电方法、无线热点设备、终端及存储介质
WO2020015657A1 (zh) 移动终端和推送视频的方法、装置
CN113609392B (zh) 一种内容推荐方法、待推荐内容确定方法和相关装置
CN107948250A (zh) 一种用户访问量的调整方法和设备
CN108270696A (zh) 网络带宽分配方法、移动终端及计算机存储介质
CN108897846B (zh) 信息搜索方法、设备及计算机可读存储介质
CN107577726B (zh) 一种搜索方法、服务器及计算机可读存储介质
WO2018157519A1 (zh) 消息通知方法及终端
CN108230104A (zh) 应用类特征生成方法、移动终端以及可读存储介质
CN107833077B (zh) 广告插入方法及移动终端
CN114786230A (zh) 网络链路切换方法、智能终端及存储介质
CN106294087B (zh) 一种对业务执行操作的操作频率的统计方法及装置
CN113485899A (zh) 信息处理方法、终端设备及存储介质
CN110069320B (zh) 一种应用程序的分类校正方法、终端、系统及存储介质
CN109041251A (zh) 随机接入方法、装置、基站、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant