CN116303262A - 推荐信息日志落盘方法、装置、设备及存储介质 - Google Patents
推荐信息日志落盘方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116303262A CN116303262A CN202111567687.3A CN202111567687A CN116303262A CN 116303262 A CN116303262 A CN 116303262A CN 202111567687 A CN202111567687 A CN 202111567687A CN 116303262 A CN116303262 A CN 116303262A
- Authority
- CN
- China
- Prior art keywords
- log
- log data
- stream
- landing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000001914 filtration Methods 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 34
- 230000005540 biological transmission Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 abstract description 41
- 230000000694 effects Effects 0.000 abstract description 16
- 230000006870 function Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 description 38
- 238000005192 partition Methods 0.000 description 19
- 239000000463 material Substances 0.000 description 18
- 238000012163 sequencing technique Methods 0.000 description 14
- 230000006399 behavior Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013075 data extraction Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 230000002547 anomalous effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005111 flow chemistry technique Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种推荐信息日志落盘方法、装置、设备及存储介质,属于互联网技术领域,所述方法包括:获取与推荐信息相关的初始日志数据;根据所述初始日志数据生成日志数据流;对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;基于所述目标日志数据进行日志落盘。相较于现有的线上抽取方式和离线抽取方式,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种推荐信息日志落盘方法、装置、设备及存储介质。
背景技术
推荐信息系统发展至今,随着业务量的扩大、数据的指数级增长和用户的快速增长,推荐系统的迭代频率和系统稳定性越来越重要。在推荐系统中,信息召回和信息排序是比较重要的部分,召回指从百万数量级的物料中取出用户可能感兴趣的候选集,排序指的是针对用户个性化和上下文做一次精准排序使得筛选出的物料以相关指标顺序呈现给用户。
但是,现有的信息排序方法中,在进行日志落盘时需要前端模块配合,为了保证特征稳定性,线上抽取特征的流程需要在离线环境中得到复现。目前的做法是,线上会从redis、上游请求、线上机器/云服务器内存中获取所需要的特征,离线从日志、hive表等数据中以相同的逻辑再抽取一遍这些特征。尽管离线抽取特征的逻辑可以和线上保证一致,但是实际抽取到的数据很难保证100%的一致率,因为离线的抽取需要在离线日志和表中拿到特征,这些数据有可能在离线存储流程中出现丢失和异常,尤其是用户行为相关的数据很容易在离线抽取逻辑中出现时间上的不一致。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提出一种推荐信息日志落盘方法、装置、设备及存储介质,旨在解决如何在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的技术问题。
为实现上述目的,本发明提供一种推荐信息日志落盘方法,所述推荐信息日志落盘方法包括:
获取与推荐信息相关的初始日志数据;
根据所述初始日志数据生成日志数据流;
对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
基于所述目标日志数据进行日志落盘。
可选地,所述对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据,包括:
对所述日志数据流进行流式输送;
在流式输送过程中,对所述日志数据流进行流式过滤;
根据流式过滤结果从所述日志数据流中选取目标日志数据。
可选地,所述在流式输送过程中,对所述日志数据流进行流式过滤,包括:
在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;
对所述日志信息表进行展示;
在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
可选地,所述根据所述选择指令对所述日志数据流进行流式过滤,包括:
根据所述选择指令确定日志选择信息;
根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
可选地,所述根据流式过滤结果从所述日志数据流中选取目标日志数据,包括:
根据流式过滤结果确定从日志数据流中选取的多个日志数据;
根据多个日志数据确定目标日志数据。
可选地,所述基于所述目标日志数据进行日志落盘,包括:
根据所述目标日志数据生成训练样本;
基于所述训练样本进行日志落盘。
可选地,所述基于所述训练样本进行日志落盘,包括:
对所述训练样本进行完整度校验;
在完整度校验通过时,将所述训练样本保存在预设存储空间中,以实现日志落盘。
可选地,所述将所述训练样本保存在预设存储空间中,以实现日志落盘之后,还包括:
在需要进行模型训练时,从所述预设存储空间中保存的训练样本中选取目标训练样本;
根据所述目标训练样本进行模型训练,得到信息推荐模型。
可选地,所述获取与推荐信息相关的初始日志数据,包括:
通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
可选地,所述通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,包括:
获取消息队列系统对应的第一环境配置策略;
根据所述第一环境配置策略配置日志收集环境;
在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
可选地,所述在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,包括:
在所述日志收集环境配置完成时,根据多个线上服务器配置对应的多个生产者;
通过所述消息队列系统接收多个生产者发送的日志消息;
根据所述日志消息获取与推荐信息相关的初始日志数据。
可选地,所述根据所述日志消息获取与推荐信息相关的初始日志数据,包括:
根据所述日志消息确定对应的主题信息;
查找所述主题信息对应的目标分区;
将所述日志消息存储在所述目标分区中;
通过所述目标分区对应的缓存代理节点从所述目标分区中获取与推荐信息相关的初始日志数据。
可选地,所述根据所述初始日志数据生成日志数据流,包括:
获取流处理引擎对应的第二环境配置策略;
根据所述第二环境配置策略配置流处理消费环境;
在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流。
可选地,所述在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流,包括:
在所述流处理消费环境配置完成时,根据所述流处理引擎对所述初始日志数据进行数据流排序;
根据排序结果确定排序后的初始日志数据;
根据排序后的初始日志数据生成日志数据流。
此外,为实现上述目的,本发明还提出一种推荐信息日志落盘装置,所述推荐信息日志落盘装置包括:
数据获取模块,用于获取与推荐信息相关的初始日志数据;
数据流模块,用于根据所述初始日志数据生成日志数据流;
数据选取模块,用于对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
日志落盘模块,用于基于所述目标日志数据进行日志落盘。
可选地,所述数据选取模块,还用于对所述日志数据流进行流式输送;在流式输送过程中,对所述日志数据流进行流式过滤;根据流式过滤结果从所述日志数据流中选取目标日志数据。
可选地,所述数据选取模块,还用于在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;对所述日志信息表进行展示;在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
可选地,所述数据选取模块,还用于根据所述选择指令确定日志选择信息;根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
此外,为实现上述目的,本发明还提出一种推荐信息日志落盘设备,所述推荐信息日志落盘设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如上所述的推荐信息日志落盘方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如上所述的推荐信息日志落盘方法。
本发明提出的推荐信息日志落盘方法中,获取与推荐信息相关的初始日志数据;根据所述初始日志数据生成日志数据流;对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;基于所述目标日志数据进行日志落盘。相较于现有的线上抽取方式和离线抽取方式,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的推荐信息日志落盘设备结构示意图;
图2为本发明推荐信息日志落盘方法第一实施例的流程示意图;
图3为本发明推荐信息日志落盘方法一实施例的推荐广告系统的模块示意图;
图4为本发明推荐信息日志落盘方法第二实施例的流程示意图;
图5为本发明推荐信息日志落盘方法一实施例的日志落盘的逻辑示意图;
图6为本发明推荐信息日志落盘方法第三实施例的流程示意图;
图7为本发明推荐信息日志落盘装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的推荐信息日志落盘设备结构示意图。
如图1所示,该推荐信息日志落盘设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对推荐信息日志落盘设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及推荐信息日志落盘程序。
在图1所示的推荐信息日志落盘设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与所述用户设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的推荐信息日志落盘程序,并执行本发明实施例提供的推荐信息日志落盘方法。
基于上述硬件结构,提出本发明推荐信息日志落盘方法实施例。
参照图2,图2为本发明推荐信息日志落盘方法第一实施例的流程示意图。
在第一实施例中,所述推荐信息日志落盘方法包括:
步骤S10,获取与推荐信息相关的初始日志数据。
需要说明的是,本实施例的执行主体可为推荐信息日志落盘设备,该推荐信息日志落盘设备可为具有数据处理功能的计算机设备,本实施例对此不作限制,在本实施例中,以计算机设备为例进行说明。
需要说明的是,本实施例中的推荐信息可以包括但不限于推荐广告,还可包括推荐视频、推荐图片以及推荐音频等其他推荐多媒体信息,本实施例对此不作限制,在本实施例中,以推荐信息为推荐广告为例进行说明。其中,上述广告可以包括但不限于图片广告、文字广告、关键词广告、排名广告以及视频广告等多种类型的广告,本实施例对此不作限制。
应当理解的是,本方案可以应用于推荐广告系统,可参照图3,图3为推荐广告系统的模块示意图。推荐广告系统通常包括了物料,推荐算法和线上反馈数据共三大模块。其中,物料是指最终呈现给用户的内容,如感兴趣的新闻、商品、广告等。推荐算法是从海量物料库快速筛选出用户可能感兴趣的物料集的核心模块,主要包括召回和排序部分,其中召回指从百万数量级的物料中取出用户感兴趣的数百/千条用户可能感兴趣的候选集,然后经过排序部分针对用户个性化和上下文做一次精准排序使得筛选出的物料以相关性、感兴趣程度和整体收入等指标按顺序呈现给用户。线上反馈数据主要是由用户真实反馈的行为决定的,用户在线上的真实环境中浏览了系统推荐的结果并发生了浏览、点击、购买支付、分享等行为且通过落日志的形式存储落盘用于推荐算法模型的训练和报表制作、数据分析等离线需求。
应当理解的是,推荐广告系统发展至今,随着业务量的扩大、数据的指数级增长和用户的快速增长,推荐系统的迭代频率和系统稳定性越来越重要。这里迭代主要指的是推荐模型和训练数据特征的更新迭代,例如从浅层模型到深度模型的切换,训练数据的特征增减(比如当物料样式更新,特征也应当更新)。系统稳定性主要包括特征稳定性、模型稳定性和系统环境稳定性。特征稳定性需要保证特征在一段时间内(通常指一个迭代周期内)是不变的,这可以给予模型较为充分的学习时间;同时,一个迭代周期内特征的抽取流程对于线上和离线环境应当保持一致。特征在线上的抽取通常是通过实时存储(redis等)、线上机器/云服务器内存、上游请求信息中获取用户、物料的相关属性,在离线环境中通常是从hive表等日志数据中抽取同样的特征用于模型训练,因此为了保证线上模型的推荐结果符合预期,线上和线下特征的抽取流程需要保持一致;模型稳定性指离线训练出来的模型推送到线上应当是正确且有效的,同时模型随着时间的推移应当保证鲁棒性;系统环境稳定性指整个推荐系统需要适应各种情况下的请求,如流量突增、新用户请求、请求失败等情况。本方案主要侧重于保证特征的稳定性使得在广告推荐过程中用到的特征在线上环境和离线训练环境中保持严格一致,从而使得模型的迭代更新免去特征一致性校验过程,缩短迭代周期的同时也能保证线上效果符合预期,此外也有助于搜索广告推荐系统的时效性改善。
为了保证特征稳定性,线上抽取特征的流程需要在离线环境中得到复现。目前的做法是,线上会从redis、上游请求、线上机器/云服务器内存中获取所需要的特征,离线从日志、hive表等数据中以相同的逻辑再抽取一遍这些特征。尽管离线抽取特征的逻辑可以和线上保证一致,但是实际抽取到的数据很难保证100%的一致率,因为离线的抽取需要在离线日志和表中拿到特征,这些数据有可能在离线存储流程中出现丢失和异常,尤其是用户行为相关的数据很容易在离线抽取逻辑中出现时间上的不一致。
如何解决特征不一致是业界非常关心的一个问题,通常的做法是线上抽取到的特征数据落盘,直接存储用于离线模型训练。这样做虽然能够解决特征不一致的问题,但是通常需要推荐系统多模块的协同优化和开发,例如前端的打点日志落盘会修改较多,不利于快速上线评估。考虑到目前已有推荐框架和模块间的协同工作,用最小的成本解决特征不一致的问题十分重要。
需要说明的是,针对上述现有技术中存在的缺陷,相较于通过前端落盘日志的传统方法,本方案在排序模块便可以实现日志落盘,与前端不涉及到额外的交互协同,只需要在排序端把日志流式地输送,通过展示和点击相关信息的方式做流式过滤,便可以在不影响其他模块工作的前提下,完成日志落盘的工作。
应当理解的是,可以通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,除此之外,也可通过其他方式从多个线上服务器获取与推荐信息相关的初始日志数据,本实施例对此不作限制。
在具体实现中,在推荐信息为推荐广告的场景下,与推荐信息相关的初始日志数据具体可为与推荐广告相关的初始日志数据。例如,在将广告推荐给用户之后,服务器可以对这些推荐广告的相关数据进行记录,生成推荐广告日志,初始日志数据指的便可以是服务器记录的推荐广告日志中与推荐广告相关的数据。
步骤S20,根据所述初始日志数据生成日志数据流。
需要说明的是,日志数据流指的是由日志数据组成的可以连续传输的数据流,其中,数据流是一组有序、有起点和终点的字节的数据序列,包括输入流和输出流。在某些特定情况下,由于数据量较大或者数据实时进行更新的情况,可暂不设置终点,而是将后续的日志数据衔接到日志数据流的后面,持续进行日志数据流的更新,直到所有日志数据都处理完成,或者收到停止指令,本实施例对此不作限制。
步骤S30,对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据。
应当理解的是,在生成日志数据流之后,可以对日志数据流进行流式输送,以将日志数据流输送给前端,在流式输送过程中,可对日志数据流进行流式过滤,根据流式过滤结果从日志数据流中选取需要的日志数据作为目标日志数据。本方案通过流式过滤的方式,可以在不中断流式传输的情况下获取需要的目标日志数据,从而可以在不影响前端模块的情况下进行目标日志数据的获取。
在具体实现中,为了达到更好的流式过滤效果,符合实际使用需求,可在流式传输的过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表,对日志信息表进行展示,由工作人员基于日志信息表选择需要的日志数据。在接收到基于展示的日志信息表输入的选择指令时,可以根据选择指令对日志数据流中的日志数据进行筛选,以对日志数据流进行流式过滤。
步骤S40,基于所述目标日志数据进行日志落盘。
可以理解的是,在通过上述方式确定目标日志数据之后,可将目标日志数据保存在数据库中进行日志存储,以实现线上数据抽取和日志落盘。相较于现有的方案,本方案由于是在将日志数据流进行流式输送给前端的过程中进行流式过滤,以进行目标日志数据的获取,所以不会对在进行流式输送的日志数据流造成影响,既不会中断流式输送,也不会造成流式输送中的日主数据流中的日志数据缺失,在这种情况下,前端仍能够获取到完整的日志数据,所以,不会影响到前端模块的正常运行和使用。因此,本方案中的日志落盘不需要前端模块配合开发,能够快速上线。
并且,由于本方案是在线上抽取数据,而不是离线抽取数据,所以可以保证实际抽取到的数据与线上数据一致,可以避免在离线抽取时需要在离线日志中拿到数据。由于数据在离线存储流程中可能会出现丢失和异常的情况,尤其是用户行为相关的数据很容易在离线抽取逻辑中出现时间上的不一致。因此,本方案在避免离线抽取的同时,也避免了离线抽取可能会出现的数据特征不一致的情况,既通过本方案可以保证日志数据的一致性。
综上所述,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。
在本实施例中,获取与推荐信息相关的初始日志数据;根据所述初始日志数据生成日志数据流;对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;基于所述目标日志数据进行日志落盘。相较于现有的线上抽取方式和离线抽取方式,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。
在一实施例中,如图4所示,基于第一实施例提出本发明推荐信息日志落盘方法第二实施例,所述步骤S10,包括:
步骤S101,通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
需要说明的是,本实施例中的消息队列系统可为kafka系统,也可为其他可实现相同或相似功能的系统,本实施例对此不作限制,在本实施例中,以消息队列系统为kafka系统为例进行说明。
应当理解的是,可参照图5,图5为日志落盘的逻辑示意图。可通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,然后由流处理引擎根据初始日志数据生成日志数据流,并通过对日志数据流进行流式过滤,得到目标日志数据,并基于目标日志数据进行日志落盘。
进一步地,为了避免在数据获取过程中出现错误,可提前对运行环境进行配置,所述步骤S101,包括:
获取消息队列系统对应的第一环境配置策略;根据所述第一环境配置策略配置日志收集环境;在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
需要说明的是,本实施例中的日志收集环境可为flume环境,也可为其他可实现相同或相似功能的环境,本实施例对此不作限制,在本实施例中,以日志收集环境为flume环境为例进行说明。其中,第一环境配置策略可为根据flume环境的配置方式生成的对应的环境配置策略。
可以理解的是,在获取到消息队列系统对应的第一环境配置策略之后,可根据第一环境配置策略来配置日志收集环境,并在日志收集环境配置完成之后,再通过消息队列系统来获取初始日志数据。
应当理解的是,为了达到更好的数据获取效果,可在日志收集环境配置完成之后,根据多个线上服务器配置对应的多个生成者,使线上服务器与生成者对应,以将线上服务器作为消息队列系统中的生产者。可通过消息队列系统中kafka服务器的接收多个生产者发送的日志消息,然后根据日志消息来获取与推荐信息相关的初始日志数据。
应当理解的是,为了提高数据获取的效率,并避免出现数据混淆的情况,可预先为不同的主体信息设置对应的分区。在接收到日志消息时,根据日志消息确定对应的主题信息,然后查找主体信息对应的目标分区,将日志消息存储在对应的目标分区中。
可以理解的是,除了设置分区之外,还可为各分区分别设置对应的缓存代理节点,通过与目标分区对应的缓存代理节点从目标分区中获取与推荐信息相关的初始日志数据。
进一步地,可根据初始日志数据通过流处理引擎来生成日志数据流。
需要说明的是,本实施例中的流处理引擎可为flink,也可为其他可实现相同或相似功能的引擎,本实施例对此不作限制,在本实施例中,以流处理引擎为flink为例进行说明。
进一步地,为了避免在生成数据流过程中出现错误,可提前对运行环境进行配置,所述步骤S20,包括:
获取流处理引擎对应的第二环境配置策略;根据所述第二环境配置策略配置流处理消费环境;在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流。
需要说明的是,本实施例中的流处理消费环境可为flink消费环境,也可为其他可实现相同或相似功能的环境,本实施例对此不作限制,在本实施例中,以流处理消费环境为flink消费环境为例进行说明。其中,第二环境配置策略可为根据flink消费环境的配置方式生成的对应的环境配置策略。
可以理解的是,在获取到流处理引擎对应的第二环境配置策略之后,可根据第二环境配置策略来配置流处理消费环境,并在流处理消费环境配置完成之后,再通过流处理引擎来生成日志数据流。
应当理解的是,为了达到更好的数据流生成效果,可在流处理消费环境配置完成之后,根据流处理引擎对初始日志数据进行数据流排序,根据排序结果来确定排序后的初始日志数据,并根据排序后的初始日志数据生成日志数据流。
在本方案中,线上每台服务器会提供日志数据,然后通过kafka收集日志并被flink消费数据。在消费数据的同时,根据展示点击表对线上真实对曝光点击数据做筛选过滤得到训练样本。对于有些推荐系统,可能会包含重排模块从而引入新特征,对于这种情况需要根据展示/点击id对排序模块范畴之外的这些特征数据做拼接。整个方案的好处就是便于实现,新引入的模块只有kafka日志收集模块和flink的实时消费过滤模块,可以适配推荐系统原有的架构。具体方案实施如下:
第一步:搭建日志收集代理flume环境。
第二步:配置producer(生产者,生产者源源不断的向kafka服务器发送消息)和kafka broker(缓存代理节点,kafka集群中的一台或多台服务器统称为broker)。
第三步:配置flink消费环境,将数据sink到存储中。
第四步:校验样本完整度。
通过以上步骤,一个用于解决特征数据一致性的方案变完成部署了。需要注意的是,服务器的日志量会比较大,因此需要及时消费否则会造成数据积压。该方案的实时性取决于服务器落日志的频率和展示点击表的更新频率,通常服务器落日志会每个请求及时落盘,因此展示点击表的更新频率决定了该方案日志落盘和模型更新的时效性。
在本方案中,通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,并根据所述初始日志数据通过所述流处理引擎生成日志数据流,可以达到较好的数据获取效果和日志流生成效果,进而提高日志落盘的效果。
在一实施例中,如图6所示,基于第一实施例或第二实施例提出本发明推荐信息日志落盘方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S30,包括:
步骤S301,对所述日志数据流进行流式输送。
应当理解的是,在生成日志数据流之后,可以对日志数据流进行流式输送,以将日志数据流输送给前端,在流式输送过程中,可对日志数据流进行流式过滤。
步骤S302,在流式输送过程中,对所述日志数据流进行流式过滤。
应当理解的是,在将日志数据流通过流式输送的方式输送到前端的过程中,可通过对日志数据流进行流式过滤的方式来从日志数据流中获取需要的日志数据。
进一步地,为了达到更好的过滤效果,提升数据获取的精度,所述步骤S302,包括:
在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;对所述日志信息表进行展示;在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
需要说明的是,本实施例中的日志信息表可为展示点击表,也可为其他可实现相同或相似功能的表,本实施例对此不作限制。本实施例中的日志信息可为日志中的广告ID,也可为其他可实现相同或相似功能的信息,本实施例对此不作限制。
应当理解的是,在流式传输过程中,可以在不影响将日志数据流传输到前端的情况下,根据日志数据流中的日志数据对应的日志信息生成日志信息表,并对日志信息表进行展示,由工作人员根据展示的日志信息表来选择需要的日志数据。
可以理解的是,在接收到基于展示的日志信息表输入的选择指令时,可根据选择指令确定日志选择信息,进而根据日志选择信息从日志数据流中选取日志数据,以对日志数据流进行流式过滤。
步骤S303,根据流式过滤结果从所述日志数据流中选取目标日志数据。
应当理解的是,本实施例中的流式过滤指的是过滤掉不需要的数据,提取出需要的数据。可根据流式过滤结果确定从日志数据流中选取的多个日志数据,根据这些日志数据确定目标日志数据。
进一步地,由于在广告排序阶段进行日志落盘的比较重要的一个作用是用于信息推荐模型的训练,因此,可以直接基于目标日志数据进行日志落盘,也可为根据目标日志数据生成训练样本,基于训练样本进行日志落盘,本实施例对此不作限制,所述步骤S40,包括:
根据所述目标日志数据生成训练样本;基于所述训练样本进行日志落盘。
应当理解的是,可根据目标日志数据生成可以用于信息推荐模型训练的训练样本,为了保证数据的完整性,以达到更好的模型训练效果,还可在生成训练样本之后,对训练样本进行完整度校验,在完整度校验通过之后,再将训练样本保存在预设存储空间中,以实现日志落盘。如果完整度检验不通过,则可重新根据目标日志数据生成训练样本,直至完整度校验通过。其中,预设存储空间可为用于存储日志数据和训练样本的存储空间,可以包括但不限于数据库、数据盘等类型的存储空间,本实施例对此不作限制。
可以理解的是,在需要进行模型训练时,可直接从预设存储空间中保存的训练样本中根据实际需求选取目标训练样本,进而根据目标训练样本进行模型训练,得到信息推荐模型。
需要说明的是,本方案与现有技术的区别点主要在于:
1、日志落盘不需要前端模块配合开发,能够快速上线。
2、排序模块落盘的日志可以直接被消费从而节省服务器本地空间,降低开销。
3、通过展示点击表来过滤服务器的全量日志,保证性能。
以上几点也是本方案不同于现有的推荐系统落盘线上日志方案的特别之处,技术上采用的工具也都比较容易部署和实现。核心技术点主要是kafka的日志收集和flink用于有效训练数据过滤。
应当理解的是,本方案着重于解决线上线下特征的不一致问题,同时在不改动已有推荐系统框架下能够完成模型的训练和更新,这对于一个成熟且重量级的推荐系统非常友好。线上线下两套代码实现的特征抽取逻辑,即使再严谨也会有可能出现不一致的情况。通过本方案中这种日志落盘的方式,这一问题可以完全得到解决,同时也释放了算法工作人员在尝试新模型或者增加新特征时候的特征一致性校验和排查错误过程,使得模型和特征的迭代频率加快。此外,算法工作人员在做模型和特征实验时经常会遇到模型离线训练指标有提升,但是线上效果负向,这种情况通常也有可能是特征的不一致造成的。因此,采纳该方案能够保证推荐系统的严谨和稳定,特征数据能够可靠地落盘,降低了系统维护的成本并解放了算法工作人员一部分排查bug的工作从而提升效率。同时,模型的迭代速度也会加快,也为后续推荐系统升级成为在线学习的流式推荐系统,批流一体化的推荐系统奠定了数据基础。
在本实施例中,对所述日志数据流进行流式输送;在流式输送过程中,对所述日志数据流进行流式过滤;根据流式过滤结果从所述日志数据流中选取目标日志数据。从而既可以在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性,又可以保证推荐系统的严谨和稳定,使特征数据能够可靠地落盘,提高了日志落盘的稳定性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如上文所述的推荐信息日志落盘方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,参照图7,本发明实施例还提出一种推荐信息日志落盘装置,所述推荐信息日志落盘装置包括:
数据获取模块10,用于获取与推荐信息相关的初始日志数据。
需要说明的是,本实施例中的推荐信息可以包括但不限于推荐广告,还可包括推荐视频、推荐图片以及推荐音频等其他推荐多媒体信息,本实施例对此不作限制,在本实施例中,以推荐信息为推荐广告为例进行说明。其中,上述广告可以包括但不限于图片广告、文字广告、关键词广告、排名广告以及视频广告等多种类型的广告,本实施例对此不作限制。
应当理解的是,本方案可以应用于推荐广告系统,可参照图3,图3为推荐广告系统的模块示意图。推荐广告系统通常包括了物料,推荐算法和线上反馈数据共三大模块。其中,物料是指最终呈现给用户的内容,如感兴趣的新闻、商品、广告等。推荐算法是从海量物料库快速筛选出用户可能感兴趣的物料集的核心模块,主要包括召回和排序部分,其中召回指从百万数量级的物料中取出用户感兴趣的数百/千条用户可能感兴趣的候选集,然后经过排序部分针对用户个性化和上下文做一次精准排序使得筛选出的物料以相关性、感兴趣程度和整体收入等指标按顺序呈现给用户。线上反馈数据主要是由用户真实反馈的行为决定的,用户在线上的真实环境中浏览了系统推荐的结果并发生了浏览、点击、购买支付、分享等行为且通过落日志的形式存储落盘用于推荐算法模型的训练和报表制作、数据分析等离线需求。
应当理解的是,推荐广告系统发展至今,随着业务量的扩大、数据的指数级增长和用户的快速增长,推荐系统的迭代频率和系统稳定性越来越重要。这里迭代主要指的是推荐模型和训练数据特征的更新迭代,例如从浅层模型到深度模型的切换,训练数据的特征增减(比如当物料样式更新,特征也应当更新)。系统稳定性主要包括特征稳定性、模型稳定性和系统环境稳定性。特征稳定性需要保证特征在一段时间内(通常指一个迭代周期内)是不变的,这可以给予模型较为充分的学习时间;同时,一个迭代周期内特征的抽取流程对于线上和离线环境应当保持一致。特征在线上的抽取通常是通过实时存储(redis等)、线上机器/云服务器内存、上游请求信息中获取用户、物料的相关属性,在离线环境中通常是从hive表等日志数据中抽取同样的特征用于模型训练,因此为了保证线上模型的推荐结果符合预期,线上和线下特征的抽取流程需要保持一致;模型稳定性指离线训练出来的模型推送到线上应当是正确且有效的,同时模型随着时间的推移应当保证鲁棒性;系统环境稳定性指整个推荐系统需要适应各种情况下的请求,如流量突增、新用户请求、请求失败等情况。本方案主要侧重于保证特征的稳定性使得在广告推荐过程中用到的特征在线上环境和离线训练环境中保持严格一致,从而使得模型的迭代更新免去特征一致性校验过程,缩短迭代周期的同时也能保证线上效果符合预期,此外也有助于搜索广告推荐系统的时效性改善。
为了保证特征稳定性,线上抽取特征的流程需要在离线环境中得到复现。目前的做法是,线上会从redis、上游请求、线上机器/云服务器内存中获取所需要的特征,离线从日志、hive表等数据中以相同的逻辑再抽取一遍这些特征。尽管离线抽取特征的逻辑可以和线上保证一致,但是实际抽取到的数据很难保证100%的一致率,因为离线的抽取需要在离线日志和表中拿到特征,这些数据有可能在离线存储流程中出现丢失和异常,尤其是用户行为相关的数据很容易在离线抽取逻辑中出现时间上的不一致。
如何解决特征不一致是业界非常关心的一个问题,通常的做法是线上抽取到的特征数据落盘,直接存储用于离线模型训练。这样做虽然能够解决特征不一致的问题,但是通常需要推荐系统多模块的协同优化和开发,例如前端的打点日志落盘会修改较多,不利于快速上线评估。考虑到目前已有推荐框架和模块间的协同工作,用最小的成本解决特征不一致的问题十分重要。
需要说明的是,针对上述现有技术中存在的缺陷,相较于通过前端落盘日志的传统方法,本方案在排序模块便可以实现日志落盘,与前端不涉及到额外的交互协同,只需要在排序端把日志流式地输送,通过展示和点击相关信息的方式做流式过滤,便可以在不影响其他模块工作的前提下,完成日志落盘的工作。
应当理解的是,可以通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,除此之外,也可通过其他方式从多个线上服务器获取与推荐信息相关的初始日志数据,本实施例对此不作限制。
在具体实现中,在推荐信息为推荐广告的场景下,与推荐信息相关的初始日志数据具体可为与推荐广告相关的初始日志数据。例如,在将广告推荐给用户之后,服务器可以对这些推荐广告的相关数据进行记录,生成推荐广告日志,初始日志数据指的便可以是服务器记录的推荐广告日志中与推荐广告相关的数据。
数据流模块20,用于根据所述初始日志数据生成日志数据流。
需要说明的是,日志数据流指的是由日志数据组成的可以连续传输的数据流,其中,数据流是一组有序、有起点和终点的字节的数据序列,包括输入流和输出流。在某些特定情况下,由于数据量较大或者数据实时进行更新的情况,可暂不设置终点,而是将后续的日志数据衔接到日志数据流的后面,持续进行日志数据流的更新,直到所有日志数据都处理完成,或者收到停止指令,本实施例对此不作限制。
数据选取模块30,用于对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据。
应当理解的是,在生成日志数据流之后,可以对日志数据流进行流式输送,以将日志数据流输送给前端,在流式输送过程中,可对日志数据流进行流式过滤,根据流式过滤结果从日志数据流中选取需要的日志数据作为目标日志数据。本方案通过流式过滤的方式,可以在不中断流式传输的情况下获取需要的目标日志数据,从而可以在不影响前端模块的情况下进行目标日志数据的获取。
在具体实现中,为了达到更好的流式过滤效果,符合实际使用需求,可在流式传输的过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表,对日志信息表进行展示,由工作人员基于日志信息表选择需要的日志数据。在接收到基于展示的日志信息表输入的选择指令时,可以根据选择指令对日志数据流中的日志数据进行筛选,以对日志数据流进行流式过滤。
日志落盘模块40,用于基于所述目标日志数据进行日志落盘。
可以理解的是,在通过上述方式确定目标日志数据之后,可将目标日志数据保存在数据库中进行日志存储,以实现线上数据抽取和日志落盘。相较于现有的方案,本方案由于是在将日志数据流进行流式输送给前端的过程中进行流式过滤,以进行目标日志数据的获取,所以不会对在进行流式输送的日志数据流造成影响,既不会中断流式输送,也不会造成流式输送中的日主数据流中的日志数据缺失,在这种情况下,前端仍能够获取到完整的日志数据,所以,不会影响到前端模块的正常运行和使用。因此,本方案中的日志落盘不需要前端模块配合开发,能够快速上线。
并且,由于本方案是在线上抽取数据,而不是离线抽取数据,所以可以保证实际抽取到的数据与线上数据一致,可以避免在离线抽取时需要在离线日志中拿到数据。由于数据在离线存储流程中可能会出现丢失和异常的情况,尤其是用户行为相关的数据很容易在离线抽取逻辑中出现时间上的不一致。因此,本方案在避免离线抽取的同时,也避免了离线抽取可能会出现的数据特征不一致的情况,既通过本方案可以保证日志数据的一致性。
综上所述,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。
在本实施例中,获取与推荐信息相关的初始日志数据;根据所述初始日志数据生成日志数据流;对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;基于所述目标日志数据进行日志落盘。相较于现有的线上抽取方式和离线抽取方式,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。
在一实施例中,所述数据选取模块30,还用于对所述日志数据流进行流式输送;在流式输送过程中,对所述日志数据流进行流式过滤;根据流式过滤结果从所述日志数据流中选取目标日志数据。
在一实施例中,所述数据选取模块30,还用于在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;对所述日志信息表进行展示;在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
在一实施例中,所述数据选取模块30,还用于根据所述选择指令确定日志选择信息;根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
在一实施例中,所述数据选取模块30,还用于根据流式过滤结果确定从日志数据流中选取的多个日志数据;根据多个日志数据确定目标日志数据。
在一实施例中,所述日志落盘模块40,还用于根据所述目标日志数据生成训练样本;基于所述训练样本进行日志落盘。
在一实施例中,所述日志落盘模块40,还用于对所述训练样本进行完整度校验;在完整度校验通过时,将所述训练样本保存在预设存储空间中,以实现日志落盘。
在一实施例中,所述日志落盘模块40,还用于在需要进行模型训练时,从所述预设存储空间中保存的训练样本中选取目标训练样本;根据所述目标训练样本进行模型训练,得到信息推荐模型。
在一实施例中,所述数据获取模块10,还用于通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
在一实施例中,所述数据获取模块10,还用于获取消息队列系统对应的第一环境配置策略;根据所述第一环境配置策略配置日志收集环境;在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
在一实施例中,所述数据获取模块10,还用于在所述日志收集环境配置完成时,根据多个线上服务器配置对应的多个生产者;通过所述消息队列系统接收多个生产者发送的日志消息;根据所述日志消息获取与推荐信息相关的初始日志数据。
在一实施例中,所述数据获取模块10,还用于根据所述日志消息确定对应的主题信息;查找所述主题信息对应的目标分区;将所述日志消息存储在所述目标分区中;通过所述目标分区对应的缓存代理节点从所述目标分区中获取与推荐信息相关的初始日志数据。
在一实施例中,所述数据流模块20,还用于获取流处理引擎对应的第二环境配置策略;根据所述第二环境配置策略配置流处理消费环境;在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流。
在一实施例中,所述数据流模块20,还用于在所述流处理消费环境配置完成时,根据所述流处理引擎对所述初始日志数据进行数据流排序;根据排序结果确定排序后的初始日志数据;根据排序后的初始日志数据生成日志数据流。
在本发明所述推荐信息日志落盘装置的其他实施例或具体实现方法可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该估算机软件产品存储在如上所述的一个估算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能设备(可以是手机,估算机,推荐信息日志落盘设备,或者网络推荐信息日志落盘设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
本发明公开了A1、一种推荐信息日志落盘方法,所述推荐信息日志落盘方法包括:
获取与推荐信息相关的初始日志数据;
根据所述初始日志数据生成日志数据流;
对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
基于所述目标日志数据进行日志落盘。
A2、如A1所述的推荐信息日志落盘方法,所述对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据,包括:
对所述日志数据流进行流式输送;
在流式输送过程中,对所述日志数据流进行流式过滤;
根据流式过滤结果从所述日志数据流中选取目标日志数据。
A3、如A2所述的推荐信息日志落盘方法,所述在流式输送过程中,对所述日志数据流进行流式过滤,包括:
在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;
对所述日志信息表进行展示;
在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
A4、如A3所述的推荐信息日志落盘方法,所述根据所述选择指令对所述日志数据流进行流式过滤,包括:
根据所述选择指令确定日志选择信息;
根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
A5、如A2所述的推荐信息日志落盘方法,所述根据流式过滤结果从所述日志数据流中选取目标日志数据,包括:
根据流式过滤结果确定从日志数据流中选取的多个日志数据;
根据多个日志数据确定目标日志数据。
A6、如A1至A5中任一项所述的推荐信息日志落盘方法,所述基于所述目标日志数据进行日志落盘,包括:
根据所述目标日志数据生成训练样本;
基于所述训练样本进行日志落盘。
A7、如A6所述的推荐信息日志落盘方法,所述基于所述训练样本进行日志落盘,包括:
对所述训练样本进行完整度校验;
在完整度校验通过时,将所述训练样本保存在预设存储空间中,以实现日志落盘。
A8、如A7所述的推荐信息日志落盘方法,所述将所述训练样本保存在预设存储空间中,以实现日志落盘之后,还包括:
在需要进行模型训练时,从所述预设存储空间中保存的训练样本中选取目标训练样本;
根据所述目标训练样本进行模型训练,得到信息推荐模型。
A9、如A1至A5中任一项所述的推荐信息日志落盘方法,所述获取与推荐信息相关的初始日志数据,包括:
通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
A10、如A9所述的推荐信息日志落盘方法,所述通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,包括:
获取消息队列系统对应的第一环境配置策略;
根据所述第一环境配置策略配置日志收集环境;
在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
A11、如A10所述的推荐信息日志落盘方法,所述在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,包括:
在所述日志收集环境配置完成时,根据多个线上服务器配置对应的多个生产者;
通过所述消息队列系统接收多个生产者发送的日志消息;
根据所述日志消息获取与推荐信息相关的初始日志数据。
A12、如A11所述的推荐信息日志落盘方法,所述根据所述日志消息获取与推荐信息相关的初始日志数据,包括:
根据所述日志消息确定对应的主题信息;
查找所述主题信息对应的目标分区;
将所述日志消息存储在所述目标分区中;
通过所述目标分区对应的缓存代理节点从所述目标分区中获取与推荐信息相关的初始日志数据。
A13、如A1至A5中任一项所述的推荐信息日志落盘方法,所述根据所述初始日志数据生成日志数据流,包括:
获取流处理引擎对应的第二环境配置策略;
根据所述第二环境配置策略配置流处理消费环境;
在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流。
A14、如A13所述的推荐信息日志落盘方法,所述在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流,包括:
在所述流处理消费环境配置完成时,根据所述流处理引擎对所述初始日志数据进行数据流排序;
根据排序结果确定排序后的初始日志数据;
根据排序后的初始日志数据生成日志数据流。
本发明还公开了B15、一种推荐信息日志落盘装置,所述推荐信息日志落盘装置包括:
数据获取模块,用于获取与推荐信息相关的初始日志数据;
数据流模块,用于根据所述初始日志数据生成日志数据流;
数据选取模块,用于对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
日志落盘模块,用于基于所述目标日志数据进行日志落盘。
B16、如B15所述的推荐信息日志落盘装置,所述数据选取模块,还用于对所述日志数据流进行流式输送;在流式输送过程中,对所述日志数据流进行流式过滤;根据流式过滤结果从所述日志数据流中选取目标日志数据。
B17、如B16所述的推荐信息日志落盘装置,所述数据选取模块,还用于在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;对所述日志信息表进行展示;在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
B18、如B17所述的推荐信息日志落盘装置,所述数据选取模块,还用于根据所述选择指令确定日志选择信息;根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
本发明还公开了C19、一种推荐信息日志落盘设备,所述推荐信息日志落盘设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如上所述的推荐信息日志落盘方法。
本发明还公开了D20、一种存储介质,所述存储介质上存储有推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如上所述的推荐信息日志落盘方法。
Claims (10)
1.一种推荐信息日志落盘方法,其特征在于,所述推荐信息日志落盘方法包括:
获取与推荐信息相关的初始日志数据;
根据所述初始日志数据生成日志数据流;
对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
基于所述目标日志数据进行日志落盘。
2.如权利要求1所述的推荐信息日志落盘方法,其特征在于,所述对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据,包括:
对所述日志数据流进行流式输送;
在流式输送过程中,对所述日志数据流进行流式过滤;
根据流式过滤结果从所述日志数据流中选取目标日志数据。
3.如权利要求2所述的推荐信息日志落盘方法,其特征在于,所述在流式输送过程中,对所述日志数据流进行流式过滤,包括:
在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;
对所述日志信息表进行展示;
在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
4.如权利要求3所述的推荐信息日志落盘方法,其特征在于,所述根据所述选择指令对所述日志数据流进行流式过滤,包括:
根据所述选择指令确定日志选择信息;
根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
5.如权利要求2所述的推荐信息日志落盘方法,其特征在于,所述根据流式过滤结果从所述日志数据流中选取目标日志数据,包括:
根据流式过滤结果确定从日志数据流中选取的多个日志数据;
根据多个日志数据确定目标日志数据。
6.如权利要求1至5中任一项所述的推荐信息日志落盘方法,其特征在于,所述基于所述目标日志数据进行日志落盘,包括:
根据所述目标日志数据生成训练样本;
基于所述训练样本进行日志落盘。
7.如权利要求6所述的推荐信息日志落盘方法,其特征在于,所述基于所述训练样本进行日志落盘,包括:
对所述训练样本进行完整度校验;
在完整度校验通过时,将所述训练样本保存在预设存储空间中,以实现日志落盘。
8.一种推荐信息日志落盘装置,其特征在于,所述推荐信息日志落盘装置包括:
数据获取模块,用于获取与推荐信息相关的初始日志数据;
数据流模块,用于根据所述初始日志数据生成日志数据流;
数据选取模块,用于对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
日志落盘模块,用于基于所述目标日志数据进行日志落盘。
9.一种推荐信息日志落盘设备,其特征在于,所述推荐信息日志落盘设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如权利要求1至7中任一项所述的推荐信息日志落盘方法。
10.一种存储介质,其特征在于,所述存储介质上存储有推荐信息日志落盘程序,所述推荐信息日志落盘程序被处理器执行时实现如权利要求1至7中任一项所述的推荐信息日志落盘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567687.3A CN116303262A (zh) | 2021-12-20 | 2021-12-20 | 推荐信息日志落盘方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567687.3A CN116303262A (zh) | 2021-12-20 | 2021-12-20 | 推荐信息日志落盘方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303262A true CN116303262A (zh) | 2023-06-23 |
Family
ID=86831008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111567687.3A Pending CN116303262A (zh) | 2021-12-20 | 2021-12-20 | 推荐信息日志落盘方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303262A (zh) |
-
2021
- 2021-12-20 CN CN202111567687.3A patent/CN116303262A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11947556B1 (en) | Computerized monitoring of a metric through execution of a search query, determining a root cause of the behavior, and providing a notification thereof | |
US11620300B2 (en) | Real-time measurement and system monitoring based on generated dependency graph models of system components | |
US11829330B2 (en) | Log data extraction from data chunks of an isolated execution environment | |
US10713594B2 (en) | Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism | |
US11226964B1 (en) | Automated generation of metrics from log data | |
US9135559B1 (en) | Methods and systems for predictive engine evaluation, tuning, and replay of engine performance | |
US10776194B2 (en) | Self-monitor for computing devices of a distributed computing system | |
US20190095478A1 (en) | Information technology networked entity monitoring with automatic reliability scoring | |
US11768908B2 (en) | System and method for collection of a website in a past state and retroactive analysis thereof | |
US11816172B2 (en) | Data processing method, server, and computer storage medium | |
CN102819591B (zh) | 一种基于内容的网页分类方法及系统 | |
US9037552B2 (en) | Methods for analyzing a database and devices thereof | |
US20180375999A1 (en) | Framework for supporting a call center | |
US20230066853A1 (en) | Method and apparatus for training information prediction models, method and apparatus for predicting information, and storage medium and device thereof | |
CN109831357B (zh) | 一种服务验证方法、装置、存储介质及服务器 | |
CN109840298B (zh) | 大规模网络数据的多信息来源采集方法和系统 | |
US11676345B1 (en) | Automated adaptive workflows in an extended reality environment | |
CN110837356B (zh) | 一种数据处理方法和装置 | |
CN103313289A (zh) | Wap系统自动化测试系统和方法 | |
WO2021072742A1 (en) | Assessing an impact of an upgrade to computer software | |
US11698938B2 (en) | System and method for data event management system | |
CN111352903A (zh) | 日志管理平台、日志管理方法、介质以及电子设备 | |
CN106603690A (zh) | 数据分析装置、数据分析处理系统和数据分析方法 | |
CN112115113A (zh) | 数据存储系统、方法、装置、设备以及存储介质 | |
CN114820080A (zh) | 基于人群流转的用户分群方法、系统、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |