CN112990455A - 网络模型的发布方法及装置、存储介质、电子设备 - Google Patents
网络模型的发布方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN112990455A CN112990455A CN202110203815.XA CN202110203815A CN112990455A CN 112990455 A CN112990455 A CN 112990455A CN 202110203815 A CN202110203815 A CN 202110203815A CN 112990455 A CN112990455 A CN 112990455A
- Authority
- CN
- China
- Prior art keywords
- data
- offline
- sample
- network model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 104
- 238000012795 verification Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000003203 everyday effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络模型的发布方法及装置、存储介质、电子设备,属于人工智能领域。其中,该方法包括:根据目标设备的文件目录获取当前周期的离线样本数据;按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;将所述训练样本宽表拆分为训练集和验证集;在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。通过本发明,解决了相关技术发布网络模型的周期长的技术问题,减少了对业务环节的依赖,提高了系统的灵活性。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种网络模型的发布方法及装置、存储介质、电子设备。
背景技术
相关技术中,为了实现在线预测,需要提前使用大量的样本数据训练好网络模型。
相关技术中,各种场景中的模型自动化训练和部署,往往是通过特定的调度系统去调度特征工程、样本生成、模型训练等脚本,整个过程中涉及到多个设备、多种编程语言、多个系统和多种数据存储方式的转换,使用繁琐复杂,而且金融等用户信息敏感的领域内的数据安全和风险控制格外严格,数据往往不可能迁移到其它设备中进行个性化计算和推荐,因此基原生系统的模型自动化训练和部署就显得格外困难,网络模型的产出方只能使用第三方提供的数据作为样本,进而进行一系列的数据预处理和过滤,导致网络模型的发布周期长。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种网络模型的发布方法及装置、存储介质、电子设备。
根据本申请实施例的一个方面,提供了一种网络模型的发布方法,包括:根据目标设备的文件目录获取当前周期的离线样本数据;按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;将所述训练样本宽表拆分为训练集和验证集;在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
进一步,根据目标设备的文件目录获取当前周期的离线样本数据包括:确定当前周期的前一周期的最后结算日期;在所述目标设备的预设数据库中查找所述最后结算日期存储的文件目录;根据所述文件目录生成当前周期的离线样本数据。
进一步,在所述目标设备的预设数据库中查找所述最后结算日期存储的文件目录包括:在所述目标设备中采用子进程调用hadoop命令;执行所述hadoop命令,并判断所述预设数据库中是否存在所述最后结算日期的Hadoop分布式文件系统HDLS路径;若所述预设数据库中存在所述最后结算日期的HDLS路径,将对应路径下的数据确定为所述最后结算日期存储的文件目录。
进一步,根据所述文件目录生成当前周期的离线样本数据包括:提取所述文件目录中的特征项,其中,每个所述特征项对应目标样本的一个特征维度;通过样本ID将所述特征项关联至特征表的特征列,拼接生成当前周期的离线特征宽表。
进一步,按照所述离线样本数据的产出时长生成训练样本宽表包括:根据所述离线样本数据的产出时长确定当前周期的结束日期和开始日期;从所述离线样本数据中读取所述开始日期前一天的离线数据,并处理生成离线特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的全量数据,并处理生成样本特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的在线数据,并处理生成在线特征数据;按照日期和样本ID关联所述离线特征数据、所述样本特征数据,以及所述在线特征数据,生成所述训练样本宽表。
进一步,发布训练完成的目标网络模型包括:采用开放神经网络交换ONNX格式将训练完成的目标网络模型的模型文件转换为ONNX模型;发布所述ONNX模型。
进一步,在发布训练完成的目标网络模型之后,所述方法还包括:在线响应所述目标网络模型的预测请求,获取所述预测请求中携带的在线特征数据;采用所述在线特征数据基于所述离线样本数据拼接生成输入特征数据;将所述输入特征数据输入至所述目标网络模型,在线输出预测结果。
根据本申请实施例的另一个方面,还提供了一种网络模型的发布装置,包括:获取模块,用于根据目标设备的文件目录获取当前周期的离线样本数据;第一生成模块,用于按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;拆分模块,用于将所述训练样本宽表拆分为训练集和验证集;发布模块,用于在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
进一步,所述获取模块包括:确定单元,用于确定当前周期的前一周期的最后结算日期;查找单元,用于在所述目标设备的预设数据库中查找所述最后结算日期存储的文件目录;生成单元,用于根据所述文件目录生成当前周期的离线样本数据。
进一步,所述查找单元包括:调用子单元,用于在所述目标设备中采用子进程调用hadoop命令;判断子单元,用于执行所述hadoop命令,并判断所述预设数据库中是否存在所述最后结算日期的Hadoop分布式文件系统HDLS路径;确定子单元,用于若所述预设数据库中存在所述最后结算日期的HDLS路径,将对应路径下的数据确定为所述最后结算日期存储的文件目录。
进一步,所述生成单元包括:提取子单元,用于提取所述文件目录中的特征项,其中,每个所述特征项对应目标样本的一个特征维度;拼接子单元,用于通过样本ID将所述特征项关联至特征表的特征列,拼接生成当前周期的离线特征宽表。
进一步,所述第一生成模块包括:确定单元,用于根据所述离线样本数据的产出时长确定当前周期的结束日期和开始日期;处理单元,用于从所述离线样本数据中读取所述开始日期前一天的离线数据,并处理生成离线特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的全量数据,并处理生成样本特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的在线数据,并处理生成在线特征数据;生成单元,用于按照日期和样本ID关联所述离线特征数据、所述样本特征数据,以及所述在线特征数据,生成所述训练样本宽表。
进一步,所述发布模块包括:转换单元,用于采用开放神经网络交换ONNX格式将训练完成的目标网络模型的模型文件转换为ONNX模型;发布单元,用于发布所述ONNX模型。
进一步,所述装置还包括:响应模块,用于在所述发布模块发布训练完成的目标网络模型之后,在线响应所述目标网络模型的预测请求,获取所述预测请求中携带的在线特征数据;第二生成模块,用于采用所述在线特征数据基于所述离线样本数据拼接生成输入特征数据;预测模块,用于将所述输入特征数据输入至所述目标网络模型,在线输出预测结果。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,根据目标设备的文件目录获取当前周期的离线样本数据,按照离线样本数据的产出时长生成训练样本宽表,训练样本宽表用于按照时间切片存储样本数据,将训练样本宽表拆分为训练集和验证集,在目标设备上采用训练集和验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型,通过采用目标设备的文件目录获取并生成训练样本宽表,进而在目标设备内训练和发布更新后的网络模型,实现了一种在业务原生系统的设备自动化训练和部署网络模型的方案,避免了业务数据在多个设备和系统间的迁移和转换,降低了敏感数据的安全风险,解决了相关技术发布网络模型的周期长的技术问题,减少了对业务环节的依赖,提高了系统的灵活性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种服务器的硬件结构框图;
图2是根据本发明实施例的一种网络模型的发布方法的流程图;
图3是本发明实施例中特征自动加工的流程图;
图4是本发明实施例生成训练样本宽表的流程图;
图5是本发明实施例自动训练模型的流程图;
图6是本发明实施例自动化发布模型的流程图;
图7是本发明实施例模型离线训练和在线发布的流程图;
图8是根据本发明实施例的一种网络模型的发布装置的结构框图;
图9是实施本发明实施例的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种网络模型的发布方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种网络模型的发布方法,图2是根据本发明实施例的一种网络模型的发布方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,根据目标设备的文件目录获取当前周期的离线样本数据;
在本实施例中,目标设备用于加载网络模型,向前端提供调用API和展示页面,同时存储网络模型产生的数据,因此可以直接在目标设备内进行样本数据的处理和模型的迭代训练。网络模型可以应用在各种场景中,如线上物料推荐,股票预测等。
步骤S204,按照离线样本数据的产出时长生成训练样本宽表,其中,训练样本宽表用于按照时间切片存储样本数据;
在本实施例中,离线样本数据的产出时长与网络模型在上一周期输出的预测结果的验证时长对应。宽表将业务主题相关的指标、维度、属性关联在一张数据库表中,把不同的内容放在同一张表中存储,宽表的每个表项对应样本的一个特征项,并通过时间切分进行存储。
步骤S206,将训练样本宽表拆分为训练集和验证集;
步骤S208,在目标设备上采用训练集和验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
可选的,在目标网络模型发布完成后,目标设备可以继续调用更新后的目标网络模型进行预测,并产出下一周期的样本数据。
通过上述步骤,根据目标设备的文件目录获取当前周期的离线样本数据,按照离线样本数据的产出时长生成训练样本宽表,训练样本宽表用于按照时间切片存储样本数据,将训练样本宽表拆分为训练集和验证集,在目标设备上采用训练集和验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型,通过采用目标设备的文件目录获取并生成训练样本宽表,进而在目标设备内训练和发布更新后的网络模型,实现了一种在业务原生系统的设备自动化训练和部署网络模型的方案,避免了业务数据在多个设备和系统间的迁移和转换,降低了敏感数据的安全风险,解决了相关技术发布网络模型的周期长的技术问题,减少了对业务环节的依赖,提高了系统的灵活性。
本实施例的一个实施方式中,根据目标设备的文件目录获取当前周期的离线样本数据包括:
S11,确定当前周期的前一周期的最后结算日期;
S12,在目标设备的预设数据库中查找最后结算日期存储的文件目录;
本实施例的一个实施方式中,在目标设备的预设数据库中查找最后结算日期存储的文件目录包括:在目标设备中采用子进程调用hadoop命令;执行hadoop命令,并判断预设数据库中是否存在最后结算日期的Hadoop分布式文件系统(Hadoop Distributed FileSystem,HDLS)路径;若预设数据库中存在最后结算日期的HDLS路径,将对应路径下的数据确定为最后结算日期存储的文件目录。
S13,根据文件目录生成当前周期的离线样本数据。
本实施例的一个实施方式中,根据文件目录生成当前周期的离线样本数据包括:提取文件目录中的特征项,其中,每个特征项对应目标样本的一个特征维度;通过样本ID将特征项关联至特征表的特征列,拼接生成当前周期的离线特征宽表。
图3是本发明实施例中特征自动加工的流程图,相关变量含义为,todayDate:程序运行日期,lstDate(lastDate):程序运行日期的上一天日期,lstDatelstMonth(last Datelast Month):程序运行日期的上月最后一天日期,流程包括两个分支,分别对应月度特征自动化加工和日度特征自动化加工,以结算周期为日结为例,包括:定时任务启动;获取当天日期;获取前一天日期;判断名为lastDate的目录是否存在;如果存在,进行日度特征处理,以目录lastDate追加存储该特征宽表到对应的目录下(ID+特征列),否则,等待下一周期再执行定时任务。
由于在金融等特定领域中,关于用户、卡片的相关数据存储往往会以月底切片的方式保留,因此月度特征可以从这些月度切片中提取有用特征,并以同样的月底切片方式存储。
本实施例的一个实施方式中,按照离线样本数据的产出时长生成训练样本宽表包括:根据离线样本数据的产出时长确定当前周期的结束日期和开始日期;从离线样本数据中读取开始日期前一天的离线数据,并处理生成离线特征数据;从离线样本数据中循环读取开始日期到结束日期中每一天的全量数据,并处理生成样本特征数据;从离线样本数据中循环读取开始日期到结束日期中每一天的在线数据,并处理生成在线特征数据;按照日期和样本ID关联离线特征数据、样本特征数据,以及在线特征数据,生成训练样本宽表。
在金融等特定领域中,用户对于推荐结果的反馈往往是通过回复短信或点击微信推送的方式,即第N天的在线推送结果,往往要第N+M天才会收集完全(M天内回复均为有效,M即产出时长)。而为了保证线上线下模型的一致性,样本需要按推送时间切分。因此对于某天的推送样本,需要预留一个M天的时间缓冲。其中,stdate为开始日期,eddate为结束日期,middate为训练集和验证集的分割日期,valdays为验证天数,trndays为训练天数。训练集日期[stdate,middate),验证集日期[middate,eddate)。其中,
eddate=todayDate–days(M);
middate=eddate-days(valdays);
stdate=eddate-days(trndays);
模型将使用[stdate,middate)内的数据进行训练,[middate,eddate)的数据做验证。
图4是本发明实施例生成训练样本宽表的流程图,包括:在当前周期的定时任务开始后,获取stdate,eddate,在一个分支,读取日期为stdate的lstDate离线数据,处理生成离线特征数据;在另外两个分支,分别从day=stdate开始,循环对day i的数据进行加工,成为样本数据和在线特征数据,直到eddate。最后按date和ID关联样本和特征表,生成训练样本宽表。
在模型自动化训练时,需要将训练样本宽表拆分为训练集和验证集,模型根据上述stdate、eddate、middate自动拆分训练集和验证集,便于做模型试验。图5是本发明实施例自动训练模型的流程图,包括:在当前周期的定时任务开启后,获取stdate、eddate、middate,按照middate拆分训练集和验证集,采用训练集执行模型训练,采用验证集执行模型验证,最后保存模型。
本实施例的一个实施方式中,发布训练完成的目标网络模型包括:采用开放神经网络交换(Open Neural Network Exchange,ONNX)格式将训练完成的目标网络模型的模型文件转换为ONNX模型;发布ONNX模型。
图6是本发明实施例自动化发布模型的流程图,包括:在当前周期的定时任务开启后,用ONNX转化模型文件,并保存schema,发布ONNX模型,等待线上调用。利用ONNX转化模型文件和schema文件,并自动化发布,供线上调用。
可选的,在发布训练完成的目标网络模型之后,还包括:在线响应目标网络模型的预测请求,获取预测请求中携带的在线特征数据;采用在线特征数据基于离线样本数据拼接生成输入特征数据;将输入特征数据输入至目标网络模型,在线输出预测结果。
图7是本发明实施例模型离线训练和在线发布的流程图,在整个训练和发布的流程中需要实现自动化的部分包括:特征自动化加工(获取离线样本数据)、样本自动化加工(生成训练样本宽表)、模型自动化训练和模型自动化发布。模型训练和发布流程可以分为在线(online)和离线(offline)两部分。
在一个应用场景中,在线流程包括:
在线特征处理,在线请求中实时交易相关的数据经过处理成为在线特征。如,当笔交易时间、当笔交易类型等;
离线特征查询,通过在线请求中的ID获取离线特征宽表中的离线特征;
特征拼接,在线特征与离线特征进行拼接;
模型预测打分结果,拼接完成的特征输送到上一周期部署好的在线模型中,模型输出打分结果。
对应的,离线流程包括:
在线前端展示后的数据,得到用户反馈,数据回流并保存到离线数据库中;
标签提取,从保存后的离线数据中提取训练标签;
样本采样,当推荐系统中正负样本差距过大,需要对样本进行采样后用于模型训练;
离线特征提取,包括:从离线数据中构建多维特征,如用户画像、物料特征表等,分别存储为离线特征宽表,离线数据中包含在线特征相关数据,在线和离线的交易相关数据需要处理一致。
生成训练样本宽表,样本和特征表通过ID关联,拼接后存储为训练样本宽表。
模型训练和部署,模型验证,离线模型进行多组对比试验验证后,选取效果良好的模型发布,模型训练,离线模型中确定要发布的模型,将进行自动化训练,定时发布。
本实施例可以应用在基于Jupyternotebook的模型自动化训练和发布场景中,Jupyternotebook是一种Web应用,能让用户将说明文本、数学方程、代码和可视化内容整合到一个易于共享的文档中。基于Jupyternotebook的模型自动化训练和发布方案,可以将调度文档、模型方程、代码和模型试验对比可视化等功能一体化展示。
本实施例可以应用在金融等数据敏感且不能迁移的场景下的模型自动化训练和部署,特征自动化加工、样本自动化加工、模型自动化训练和模型自动化发布。采用python判断HDFS路径是否存在:用python的subprocess(子进程)调用hadoop命令,判断某个路径是否存在。各种数据在HDFS指定目录下按日期追加,采用pyspark(一种Python环境中的API)按指定目录拼接根目录,然后存储,节约大量空间和时间。
本实施例的方案对开发环境依赖少,传统的自动化调度系统,往往需要多种编程语言、多平台的交互,而本方案对环境要求简单,只需要支持pyspark,pyspark能读写HDFS目录。本实施例的方案灵活性高,在整体框架确定的情况下,各部分的自动化可以根据金融领域业务方需求灵活展示相关信息,如模型训练日志、历史模型验证记录等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种网络模型的发布装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本发明实施例的一种网络模型的发布装置的结构框图,如图8所示,该装置包括:获取模块80,第一生成模块82,拆分模块84,发布模块86,其中,
获取模块80,用于根据目标设备的文件目录获取当前周期的离线样本数据;
第一生成模块82,用于按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;
拆分模块84,用于将所述训练样本宽表拆分为训练集和验证集;
发布模块86,用于在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
可选的,所述获取模块包括:确定单元,用于确定当前周期的前一周期的最后结算日期;查找单元,用于在所述目标设备的预设数据库中查找所述最后结算日期存储的文件目录;生成单元,用于根据所述文件目录生成当前周期的离线样本数据。
可选的,所述查找单元包括:调用子单元,用于在所述目标设备中采用子进程调用hadoop命令;判断子单元,用于执行所述hadoop命令,并判断所述预设数据库中是否存在所述最后结算日期的Hadoop分布式文件系统HDLS路径;确定子单元,用于若所述预设数据库中存在所述最后结算日期的HDLS路径,将对应路径下的数据确定为所述最后结算日期存储的文件目录。
可选的,所述生成单元包括:提取子单元,用于提取所述文件目录中的特征项,其中,每个所述特征项对应目标样本的一个特征维度;拼接子单元,用于通过样本ID将所述特征项关联至特征表的特征列,拼接生成当前周期的离线特征宽表。
可选的,所述第一生成模块包括:确定单元,用于根据所述离线样本数据的产出时长确定当前周期的结束日期和开始日期;处理单元,用于从所述离线样本数据中读取所述开始日期前一天的离线数据,并处理生成离线特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的全量数据,并处理生成样本特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的在线数据,并处理生成在线特征数据;生成单元,用于按照日期和样本ID关联所述离线特征数据、所述样本特征数据,以及所述在线特征数据,生成所述训练样本宽表。
可选的,所述发布模块包括:转换单元,用于采用开放神经网络交换ONNX格式将训练完成的目标网络模型的模型文件转换为ONNX模型;发布单元,用于发布所述ONNX模型。
可选的,所述装置还包括:响应模块,用于在所述发布模块发布训练完成的目标网络模型之后,在线响应所述目标网络模型的预测请求,获取所述预测请求中携带的在线特征数据;第二生成模块,用于采用所述在线特征数据基于所述离线样本数据拼接生成输入特征数据;预测模块,用于将所述输入特征数据输入至所述目标网络模型,在线输出预测结果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,根据目标设备的文件目录获取当前周期的离线样本数据;
S2,按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;
S3,将所述训练样本宽表拆分为训练集和验证集;
S4,在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,根据目标设备的文件目录获取当前周期的离线样本数据;
S2,按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;
S3,将所述训练样本宽表拆分为训练集和验证集;
S4,在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
图9是本发明实施例的一种电子设备的结构图,如图9所示,包括处理器91、通信接口92、存储器93和通信总线94,其中,处理器91,通信接口92,存储器93通过通信总线94完成相互间的通信,存储器93,用于存放计算机程序;处理器91,用于执行存储器93上所存放的程序。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种网络模型的发布方法,其特征在于,包括:
根据目标设备的文件目录获取当前周期的离线样本数据;
按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;
将所述训练样本宽表拆分为训练集和验证集;
在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
2.根据权利要求1所述的方法,其特征在于,根据目标设备的文件目录获取当前周期的离线样本数据包括:
确定当前周期的前一周期的最后结算日期;
在所述目标设备的预设数据库中查找所述最后结算日期存储的文件目录;
根据所述文件目录生成当前周期的离线样本数据。
3.根据权利要求2所述的方法,其特征在于,在所述目标设备的预设数据库中查找所述最后结算日期存储的文件目录包括:
在所述目标设备中采用子进程调用hadoop命令;
执行所述hadoop命令,并判断所述预设数据库中是否存在所述最后结算日期的Hadoop分布式文件系统HDLS路径;
若所述预设数据库中存在所述最后结算日期的HDLS路径,将对应路径下的数据确定为所述最后结算日期存储的文件目录。
4.根据权利要求2所述的方法,其特征在于,根据所述文件目录生成当前周期的离线样本数据包括:
提取所述文件目录中的特征项,其中,每个所述特征项对应目标样本的一个特征维度;
通过样本ID将所述特征项关联至特征表的特征列,拼接生成当前周期的离线特征宽表。
5.根据权利要求1所述的方法,其特征在于,按照所述离线样本数据的产出时长生成训练样本宽表包括:
根据所述离线样本数据的产出时长确定当前周期的结束日期和开始日期;
从所述离线样本数据中读取所述开始日期前一天的离线数据,并处理生成离线特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的全量数据,并处理生成样本特征数据;从所述离线样本数据中循环读取所述开始日期到所述结束日期中每一天的在线数据,并处理生成在线特征数据;
按照日期和样本ID关联所述离线特征数据、所述样本特征数据,以及所述在线特征数据,生成所述训练样本宽表。
6.根据权利要求1所述的方法,其特征在于,发布训练完成的目标网络模型包括:
采用开放神经网络交换ONNX格式将训练完成的目标网络模型的模型文件转换为ONNX模型;
发布所述ONNX模型。
7.根据权利要求1所述的方法,其特征在于,在发布训练完成的目标网络模型之后,所述方法还包括:
在线响应所述目标网络模型的预测请求,获取所述预测请求中携带的在线特征数据;
采用所述在线特征数据基于所述离线样本数据拼接生成输入特征数据;
将所述输入特征数据输入至所述目标网络模型,在线输出预测结果。
8.一种网络模型的发布装置,其特征在于,包括:
获取模块,用于根据目标设备的文件目录获取当前周期的离线样本数据;
第一生成模块,用于按照所述离线样本数据的产出时长生成训练样本宽表,其中,所述训练样本宽表用于按照时间切片存储样本数据;
拆分模块,用于将所述训练样本宽表拆分为训练集和验证集;
发布模块,用于在所述目标设备上采用所述训练集和所述验证集迭代更新上一周期的历史网络模型,并发布训练完成的目标网络模型。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203815.XA CN112990455A (zh) | 2021-02-23 | 2021-02-23 | 网络模型的发布方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203815.XA CN112990455A (zh) | 2021-02-23 | 2021-02-23 | 网络模型的发布方法及装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112990455A true CN112990455A (zh) | 2021-06-18 |
Family
ID=76350422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110203815.XA Pending CN112990455A (zh) | 2021-02-23 | 2021-02-23 | 网络模型的发布方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990455A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535817A (zh) * | 2021-07-13 | 2021-10-22 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN113692177A (zh) * | 2021-07-09 | 2021-11-23 | 厦门科灿信息技术有限公司 | 数据中心制冷系统功耗的控制方法、装置及终端 |
CN117555883A (zh) * | 2024-01-11 | 2024-02-13 | 梅州客商银行股份有限公司 | 一种银行系统数据分库的方法、装置、存储器和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108821A (zh) * | 2017-12-29 | 2018-06-01 | 广东欧珀移动通信有限公司 | 模型训练方法及装置 |
CN108805258A (zh) * | 2018-05-23 | 2018-11-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及其装置、计算机服务器 |
CN109840588A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
US10902329B1 (en) * | 2019-08-30 | 2021-01-26 | Sas Institute Inc. | Text random rule builder |
-
2021
- 2021-02-23 CN CN202110203815.XA patent/CN112990455A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108821A (zh) * | 2017-12-29 | 2018-06-01 | 广东欧珀移动通信有限公司 | 模型训练方法及装置 |
CN108805258A (zh) * | 2018-05-23 | 2018-11-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及其装置、计算机服务器 |
CN109840588A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
US10902329B1 (en) * | 2019-08-30 | 2021-01-26 | Sas Institute Inc. | Text random rule builder |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113692177A (zh) * | 2021-07-09 | 2021-11-23 | 厦门科灿信息技术有限公司 | 数据中心制冷系统功耗的控制方法、装置及终端 |
CN113692177B (zh) * | 2021-07-09 | 2023-08-18 | 厦门科灿信息技术有限公司 | 数据中心制冷系统功耗的控制方法、装置及终端 |
CN113535817A (zh) * | 2021-07-13 | 2021-10-22 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN113535817B (zh) * | 2021-07-13 | 2024-05-14 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN117555883A (zh) * | 2024-01-11 | 2024-02-13 | 梅州客商银行股份有限公司 | 一种银行系统数据分库的方法、装置、存储器和电子设备 |
CN117555883B (zh) * | 2024-01-11 | 2024-04-05 | 梅州客商银行股份有限公司 | 一种银行系统数据分库的方法、装置、存储器和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990455A (zh) | 网络模型的发布方法及装置、存储介质、电子设备 | |
CN107958028A (zh) | 数据采集的方法、装置、存储介质及终端 | |
CN111639480A (zh) | 基于人工智能的文本标签化方法、电子装置及存储介质 | |
US11443144B2 (en) | Storage and automated metadata extraction using machine teaching | |
CN107193615A (zh) | 项目代码信息的更新部署方法及装置 | |
CN111327514B (zh) | 微信图文消息群发方法、系统、服务器及存储介质 | |
CN109254988A (zh) | 报表自动测试方法、装置、计算机存储介质及设备 | |
CN110647322B (zh) | 列表渲染方法、装置、电子设备和计算机可读介质 | |
CN111198973A (zh) | 基于领域模型的业务可视化处理方法及装置 | |
CN110795697A (zh) | 逻辑表达式的获取方法、装置、存储介质以及电子装置 | |
Britvin et al. | Client-server system for parsing data from web pages | |
CN109190119B (zh) | 时间提取方法和装置、存储介质及电子装置 | |
US11250080B2 (en) | Method, apparatus, storage medium and electronic device for establishing question and answer system | |
CN115526160A (zh) | 富文本处理方法、装置、设备及存储介质 | |
CN113312083A (zh) | 应用生成方法、装置及设备 | |
CN116484836B (zh) | 基于nlp模型的问卷生成系统、方法、电子设备及介质 | |
CN112597123A (zh) | 数据多版本动态切换方法及装置 | |
CN108549722B (zh) | 多平台数据发布方法、系统及介质 | |
CN111260489A (zh) | 产品信息的展示方法和装置、存储介质、电子装置 | |
CN115860877A (zh) | 一种产品营销方法、装置、设备及介质 | |
CN108205564B (zh) | 知识体系构建方法及系统 | |
Buddenbohm et al. | Quality assessment for the sustainable provision of software components and digital research infrastructures for the arts and humanities | |
CN115185625A (zh) | 基于可配置卡片的自推荐式界面更新方法及其相关设备 | |
CN112860456A (zh) | 日志处理方法和装置 | |
CN112612841A (zh) | 一种知识抽取构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |