CN111741360A - 基于开源列式数据库的画像应用方法、装置及存储介质 - Google Patents

基于开源列式数据库的画像应用方法、装置及存储介质 Download PDF

Info

Publication number
CN111741360A
CN111741360A CN202010571636.7A CN202010571636A CN111741360A CN 111741360 A CN111741360 A CN 111741360A CN 202010571636 A CN202010571636 A CN 202010571636A CN 111741360 A CN111741360 A CN 111741360A
Authority
CN
China
Prior art keywords
log data
open
database
source
message queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010571636.7A
Other languages
English (en)
Inventor
马全辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN202010571636.7A priority Critical patent/CN111741360A/zh
Publication of CN111741360A publication Critical patent/CN111741360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于开源列式数据库的画像应用方法,包括:采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;接收前端页面发送的数据库语句并执行;根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。本发明还公开了一种电视及存储介质。本发明通过构建基于开源列式数据库的数据处理框架,直接执行SQL语句以在clickhouse中用sql秒级响应出用户画像结果,提高了画像系统的响应速度以及效率。

Description

基于开源列式数据库的画像应用方法、装置及存储介质
技术领域
本发明涉及离线画像系统显示效率的技术领域,尤其涉及一种基于开源列式数据库的画像应用方法、装置及存储介质。
背景技术
随着时代的发展进步,越来越多的行业对数据的响应反馈要求很快,公司内部开发的离线用户画像系统(供运营部门分析数据,决策)也已提出了更高的要求,传统的用户画像系统一般都是离线系统,这类用户画像是把当天业务方需要的用户画像提前算好,而后在有显示需求的时候再提取算好的用户画像显示查看,其画像显示的响应速度慢,时效性差。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于开源列式数据库的画像应用方法、装置及存储介质,旨在解决现有用户画像离线系统在应用时需要将当天业务方用户画像提前算好后进行调用,在应用效率上来说响应速度慢,并且时效性差的技术问题。
为实现上述目的,本发明提供一种基于开源列式数据库的画像应用方法,包括以下内容:
采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;
接收前端页面发送的数据库语句并执行;
根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。
可选地,所述采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储的步骤,包括:
将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列筛选日志数据;
将筛选后的日志数据存储至预设的开源列式数据库存储。
可选地,所述将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列以筛选日志数据的步骤,包括:
获取所述flink消费业务逻辑;
通过所述flink调用获取到的消费业务逻辑消费所述kafka消息队列以筛选日志数据。
可选地,所述将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列以筛选日志数据的步骤,包括:
确认消费所述kafka消息队列的访问量;
若所述访问量超出预设访问量阈值时,以预设流量限制消费的访问量。
可选地,所述将筛选后的日志数据存储至预设的开源列式数据库存储的步骤,包括:
整合筛选后的日志数据;
将整合后的日志数据存储至预设的开源列式数据库存储。
可选地,所述根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示的步骤,包括:
确认所述数据库语句的业务模型;
根据所述业务模型显示查询到的所述日志数据。
可选地,所述采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储的步骤之前,还包括:
获取当前电视终端的数据采集需求;
根据所述数据采集需求埋点日志格式以采集所述电视终端的日志数据。
可选地,所述基于开源列式数据库的画像应用方法,还包括:
新建kafka消息队列,并根据已新建的所述kafka消息队列连接flink;
通过所述kafka消息队列以及连接的flink创建基于开源列式数据库的日志数据应用框架。
此外,为实现上述目的,本发明还提供一种基于开源列式数据库的画像应用装置,所述基于开源列式数据库的画像应用装置包括:存储器、处理器以及存储在所述存储器上并可以在所述处理器上运行的基于开源列式数据库的画像应用程序,所述基于开源列式数据库的画像应用程序被处理器执行时实现如上所述的基于开源列式数据库的画像应用方法的步骤。
本发明还提供一种存储介质,其特征在于,所述计算机可读存储有基于开源列式数据库的画像应用程序,所述基于开源列式数据库的画像应用程序被处理器执行时实现如上所述的基于开源列式数据库的画像应用方法的步骤。
本发明提出的一种基于开源列式数据库的画像应用方法,采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;接收前端页面发送的数据库语句并执行;根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。本发明通过构建基于开源列式数据库的数据处理框架,直接执行SQL语句以在clickhouse中用sql秒级响应出用户画像结果,提高了画像系统的响应速度以及效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
图2为本发明基于开源列式数据库的画像应用方法第一实施例的流程示意图;
图3为本发明基于开源列式数据库的画像应用方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;接收前端页面发送的数据库语句并执行;根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。
由于现有用户画像离线系统在应用时需要将当天业务方用户画像提前算好后进行调用,在应用效率上来说响应速度慢,并且时效性差。
本发明提供一种解决方案,通过kafka+flink+clickhouse3种实时高并发的处理框架构建基于开源列式数据库的数据处理框架,实现了准实时的响应,在应用时直接执行SQL语句以在clickhouse中用sql秒级响应出用户画像结果,提高了画像系统的响应速度以及效率。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器,便携计算机等可移动式或不可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于开源列式数据库的画像应用程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于开源列式数据库的画像应用程序,并执行以下操作:
采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;
接收前端页面发送的数据库语句并执行;
根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列筛选日志数据;
将筛选后的日志数据存储至预设的开源列式数据库存储。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
获取所述flink消费业务逻辑;
通过所述flink调用获取到的消费业务逻辑消费所述kafka消息队列以筛选日志数据。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
确认消费所述kafka消息队列的访问量;
若所述访问量超出预设访问量阈值时,以预设流量限制消费的访问量。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
整合筛选后的日志数据;
将整合后的日志数据存储至预设的开源列式数据库存储。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
确认所述数据库语句的业务模型;
根据所述业务模型显示查询到的所述日志数据。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
获取当前电视终端的数据采集需求;
根据所述数据采集需求埋点日志格式以采集所述电视终端的日志数据。
进一步地,处理器1001可以调用存储器1005中存储的基于开源列式数据库的画像应用程序,还执行以下操作:
新建kafka消息队列,并根据已新建的所述kafka消息队列连接flink;
通过所述kafka消息队列以及连接的flink创建基于开源列式数据库的日志数据应用框架。
参照图2,图2为本发明基于开源列式数据库的画像应用方法第一实施例的流程示意图,所述基于开源列式数据库的画像应用方法包括:
步骤S10,采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;
根据当前的画像系统的应用,在检测到当前电视终端开启时采集所述电视终端的日志数据,所述电视终端为基于当前画像系统的应用终端,在实际应用中,所述画像系统包括电视终端在内的多个终端,以实现画像系统的应用。根据采集到的电视终端的日志数据,将采集到的所述日志数据写入预设的开源列式数据库存储。其中,所述预设的开源列式数据库定义为clickhouse,布置于当前画像系统的终端中,并且与所述电视终端存在数据连接,以便自所述电视终端中采集日志数据。进一步的,自所述电视终端采集日志数据时,需基于当前的数据需求进行日志数据的采集工作,所述数据需求定义为业务需求,即所述采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储的步骤之前,还包括:
获取当前电视终端的数据采集需求;
根据所述数据采集需求埋点日志格式以采集所述电视终端的日志数据。
根据当前画像系统的应用,获取所述画像系统中电视终端的数据采集需求,所述数据采集需求亦定义为业务需求,根据业务需求埋点采集所述电视终端的日志数据,所述业务需求与当前画像系统所需应用到的技术内容相关,例如统计使用创维电视的用户每天开启电视的次数,根据此项业务需求,埋点打开的日志格式,以所述日志格式采集所述电视终端基于终端开启的日志数据,并基于采集到的日志数据进行分析处理的数据操作。例如,在当前电视终端的产品包页面曝光pv/uv,产品包的扫码pv/uv、下单pv/uv、支付成功pv/uv;试看产品包页面曝光pv/uv,产品包的下单pv/uv、支付pv/uv时;需要T+0上报的日志点有:
web_page_show_new
web_page_show_new
page_view_event
mobile_choose_product_page_show
mobile_pay_button_clicked
page_view_event
埋点日志格式的步骤如下所述:
(1)客户端上报日志;
(2)大数据T+0计算日志;
(3)T+0,把数据存入中间表;
(4)运营后台从中间表中获取数据,展示在产品包后台上。
如上所述,在将采集到的所述日志数据存储至预设的开源列式数据库时,需基于采集到的日志数据进行筛选以提取有效的日志数据,即所述采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储的步骤,包括:
将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列筛选日志数据;
将筛选后的日志数据存储至预设的开源列式数据库存储。
在当前采集到电视终端日志数据时,将采集到的所述日志数据写入到kafka消息队列,所述kafka消息队列,为Apache软件基金会开发开源流处理平台,是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。在本实施例中,所述画像系统的终端中预先布置有kafka消息队列,在采集到电视终端的日志数据时,将采集到的所述日志数据写入到kafka消息队列作为临时数据流安置区域。继而,在kafka消息队列中已写入的日志数据,以预设的flink消费所述kafka消息队列中暂存的日志数据,所述flink可定义为Apache Flink,是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序。因此,以预设的flink消费所述kafka消息队列写入的日志数据进行数据筛选工作。进一步的,在以预设的flink消费所述kafka消息队列写入的日志数据时,具备对应的筛选逻辑,因此,所述将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列以筛选日志数据的步骤,包括:
获取所述flink消费业务逻辑;
通过所述flink调用获取到的消费业务逻辑消费所述kafka消息队列以筛选日志数据。
基于当前kafka消息队列中写入的日志数据,获取flink的消费业务逻辑,所述flink的消费业务逻辑为基于当前画像系统实现画像显示的另一应用系统/终端的日志数据筛选基准,即不同的应用系统/终端具备不同的消费业务逻辑,且所述消费业务逻辑体现在当前的flink,以实现消费kafka消息队列中日志数据的目的,所述消费业务逻辑在实现时可如下所述,
消费业务逻辑指标包括:电视端的产品包页面曝光pv/uv,产品包的扫码pv/uv、下单pv/uv、支付成功pv/uv;试看产品包页面曝光pv/uv,产品包的下单pv/uv、支付pv/uv;
指标计算规则:
1.电视端-产品包页面曝光:
日志项=web_page_show_new,page_name=web_member,productID=CC_Video_6.0,日志库=default.base_clog—topic=clog_six;
主页data:
policyIds=匹配的人群策略的ID、come_from=zy_tjw等
结果:pv,uv(按mac去重)。
2.电视端-产品包扫码:
日志项=web_page_show_new,page_name=cashier_scan_success,productID=CC_Video_6.0,日志库=default.base_clog—topic=clog_six;
主页data:
policyIds=匹配的人群策略的ID;
suit_name=一个月、三个月、12个月、连续包月;
come_from=zy_tjw等。
结果:pv,uv(按mac去重),扫码转化率=电视端-产品包扫码/电视端-产品包页面曝光。
3.电视端-支付成功:
日志项=page_view_event,page_name=phone_pay_success_business,scenario=VIP页扫码购买,productID=CC_product_Server,日志库=default.server_log--—topic=slog_six;
主页data:
policyIds=匹配的人群策略的ID;
product_name=一个月、三个月、12个月、连续包月;
come_from=zy_tjw等;
结果:pv,uv(按mac去重),支付转化率=电视端-支付成功/电视端-产品包扫码。
4.试看-产品包页面曝光:
日志项=
mobile_choose_product_page_show,productID=CC_product_Server,日志库=default.web_log—topic=web-log-six;
主页data:
policyIds=匹配的人群策略的ID;
scene(二期)=跳广告等。
结果:pv,uv(按mac去重)。
5.试看-订单:
日志项=mobile_pay_button_clicked,button_name=确认支付、productID=CC_product_Server,日志库=default.web_log—topic=web-log-six;
主页data:
policyIds=匹配的人群策略的ID;
vip_duration=1个月/3个月/12个月/连续包月;
scene(二期)=跳广告等;
结果:pv,uv(按mac去重),试看下单转化率:试看-下单/试看-产品包页面曝光。
6.移动端-支付成功:
日志项=page_view_event,page_name=phone_pay_success_business,scenario=手机端选产品包,productID=CC_product_Server,日志库=default.server_log--—topic=slog_six;
主页data:
policyIds=匹配的人群策略的ID;
product_name=一个月、三个月、12个月、连续包月;
scene(二期)=跳广告等;
结果:pv,uv(按mac去重),试看支付转化率:试看-支付成功/试看-订单。
另需提供四个转化率的计算表,数据来自上述6个日志:
7.电视扫码转化率=电视端-产品包扫码/电视端-产品包页面曝光(%);
8.电视支付转化率=电视端-支付成功/电视端-产品包扫码(%);同样提供suit_name/product_name=全部/1个月/3个月/12个月/连续包月的筛选字段;
9.试看下单转化率=试看-下单/试看-产品包页面曝光(%);
10.试看支付转化率=试看-支付成功/试看-订单(%);同样提供vip_duration/product_name=全部/1个月/3个月/12个月/连续包月的筛选字段。
另外,考虑到消费访问量的问题,为避免访问量过大造成访问延时或者失败等问题,在kafka消息队列的日志数据被消费时,限定削峰操作,所述将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列以筛选日志数据的步骤,包括:
确认消费所述kafka消息队列的访问量;
若所述访问量超出预设访问量阈值时,以预设流量限制消费的访问量。
根据当前flink消费kafka消息队列中日志数据的操作,由于当前flink可能包括一个或多个,考虑到访问效率的问题,确定当前kafka消息队列的预设访问量阈值,以根据所述预设访问量阈值限制当前消费的访问量。如此,统计当前消费kafka消息队列的访问量,在确定当前访问量超出预先设置的预设访问量阈值时,以预设流量限制消费的访问量,所述预设流量为当前kafka消息队列固定最大每秒消费kafka消息队列中日志数据的数据量,比如每秒最大处理100万条的消费访问量。
另外,在当前flink消费kafka消息队列的日志数据时,所述消费实质是一种数据处理操作,包括但不限于清洗碎片数据、过滤无效数据以及关联业务相关的日志数据等,在实际应用中,kafka消息队列可存储百亿的数据,而通过flink消费处理后是可能剩余1亿的数据,将消费后的数据存储至预设的开元列式数据库存储,即所述将筛选后的日志数据存储至预设的开源列式数据库存储的步骤,包括:
整合筛选后的日志数据;
将整合后的日志数据存储至预设的开源列式数据库存储。
整合当前flink消费kafka消息队列的日志数据,将整合后的日志数据存储至预设的开源列式数据。在实际应用中,所述开源列式数据为列式数据库,通过字符串统一存储日志数据,所述开源列式数据的数据表可如下所述:
CREATE TABLE default.clog_20200430_CC_Video_60(`dt`String,`productID`String,`mac`String,`did`String,`rtime`String,`sdt`Date,`name`String,`time`String,`policyIds`String,`suit_name`String,`come_from`String,`page_name`String,`logid`String)ENGINE=MergeTree(sdt,(name,page_name),8192)。
步骤S20,接收前端页面发送的数据库语句并执行;
根据当前存储在预设的开源列式数据库中的日志数据,接收前端页面发送的数据库语句,所述前段页面定义为数据库编辑页面,基于当前的画像系统应用,相关技术人员编辑对应的数据库语句自所述预设的开源列式数据库中调取对应的数据显示。
步骤S30,根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。
在执行当前接收到的数据库语句后,自所述预设的开源列式数据库中查询对应的日志数据显示,在实际应用中,所述数据库语句具备一定的应用格式,例如:曝光分析弹窗在指定投放时间范围内的曝光PV、曝光UV。需采集的数据项为:alertId、时间粒度为按小时/按天结果:曝光pv、uv(按mac去重)select”as dayhour,alertId,count(*)as pv,count(distinct mac)as uv from default.clog_20200225_App_Browser where name='web_page_show_new'and mac is not null and mac<>”group by alertId;--470│158。如此,在执行前段页面发送的数据库语句时,需确认当前的数据库的业务模型,即所述根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示的步骤,包括:
确认所述数据库语句的业务模型;
根据所述业务模型显示查询到的所述日志数据。
根据当前接收到的数据库语句,确认所述数据库语句的业务模型,所述业务模型即为当前查询到日志数据的表现形式,包括图像、数据图表、数据等相关的业务形式,其具体的与编辑所述数据库语句的数据需求相关。根据当前已确认的数据库语句的业务模型,显示基于所述数据库语句的业务模型查询到的日志数据。并且,在显示查询到的日志数据时,其显示终端包括但不限于当前画像系统中可应用的终端设备。
本实施例中,通过kafka+flink+clickhouse3种实时高并发的处理框架构建基于开源列式数据库的数据处理框架,实现了准实时的响应,在应用时直接执行SQL语句以在clickhouse中用sql秒级响应出用户画像结果,提高了画像系统的响应速度以及效率。
进一步的,还可查看图3,图3为本发明基于开源列式数据库的画像应用方法第二实施例的流程示意图,基于上述图2所示的第一实施例,所述基于开源式数据库的画像应用方法,还包括:
步骤S40,新建kafka消息队列,并根据已新建的所述kafka消息队列连接flink;
步骤S50,通过所述kafka消息队列以及连接的flink创建基于开源列式数据库的日志数据应用框架。
本实施例中,基于当前画像系统应用,创建日志数据应用框架。所述日志数据应用框架包括新建kafka消息队列、flink,其中,所述kafka消息队列与日志数据采集终端连接,以便在采集终端启用时根据预先埋点的日志格式采集所述采集终端的日志数据,并且,所述采集终端包括但不限于电视终端等可实现埋点日志格式的数据采集的终端设备。进一步的,根据当前已新建的kafka消息队列,接入对应的flink,所述flink可定义为接入当前画像系统并存在消费业务逻辑的其他系统/终端所具备的;或者基于当前已生成的kafka消息队列新建具备消费业务逻辑的flink,如此,根据当前新建的kafka消息队列以及接入/新建的flink,配置预设的开源列式数据库后,创建基于所述开源列式数据的日志数据应用框架。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于开源列式数据库的画像应用程序,所述基于开源列式数据库的画像应用程序被处理器执行时实现如下操作:
采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;
接收前端页面发送的数据库语句并执行;
根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列筛选日志数据;
将筛选后的日志数据存储至预设的开源列式数据库存储。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
获取所述flink消费业务逻辑;
通过所述flink调用获取到的消费业务逻辑消费所述kafka消息队列以筛选日志数据。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
确认消费所述kafka消息队列的访问量;
若所述访问量超出预设访问量阈值时,以预设流量限制消费的访问量。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
整合筛选后的日志数据;
将整合后的日志数据存储至预设的开源列式数据库存储。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
确认所述数据库语句的业务模型;
根据所述业务模型显示查询到的所述日志数据。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
获取当前电视终端的数据采集需求;
根据所述数据采集需求埋点日志格式以采集所述电视终端的日志数据。
进一步地,所述基于开源列式数据库的画像应用程序被处理器执行时还实现如下操作:
新建kafka消息队列,并根据已新建的所述kafka消息队列连接flink;
通过所述kafka消息队列以及连接的flink创建基于开源列式数据库的日志数据应用框架。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、药品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、药品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、药品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于开源列式数据库的画像应用方法,其特征在于,所述基于开源列式数据库的画像应用方法包括以下步骤:
采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储;
接收前端页面发送的数据库语句并执行;
根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示。
2.如权利要求1所述的基于开源列式数据库的画像应用方法,其特征在于,所述采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储的步骤,包括:
将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列筛选日志数据;
将筛选后的日志数据存储至预设的开源列式数据库存储。
3.如权利要求2所述的基于开源列式数据库的画像应用方法,其特征在于,所述将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列以筛选日志数据的步骤,包括:
获取所述flink消费业务逻辑;
通过所述flink调用获取到的消费业务逻辑消费所述kafka消息队列以筛选日志数据。
4.如权利要求2所述的基于开源列式数据库的画像应用方法,其特征在于,所述将采集到的所述日志数据写入kafka消息队列,并以flink消费所述kafka消息队列以筛选日志数据的步骤,包括:
确认消费所述kafka消息队列的访问量;
若所述访问量超出预设访问量阈值时,以预设流量限制消费的访问量。
5.如权利要求2所述的基于开源列式数据库的画像应用方法,其特征在于,所述将筛选后的日志数据存储至预设的开源列式数据库存储的步骤,包括:
整合筛选后的日志数据;
将整合后的日志数据存储至预设的开源列式数据库存储。
6.如权利要求1所述的基于开源列式数据库的画像应用方法,其特征在于,所述根据当前执行的数据库语句自所述预设的开源列式数据库查询对应的日志数据显示的步骤,包括:
确认所述数据库语句的业务模型;
根据所述业务模型显示查询到的所述日志数据。
7.如权利要求1所述的基于开源列式数据库的画像应用方法,其特征在于,所述采集当前电视终端的日志数据,并将采集到的所述日志数据写入预设的开源列式数据库存储的步骤之前,还包括:
获取当前电视终端的数据采集需求;
根据所述数据采集需求埋点日志格式以采集所述电视终端的日志数据。
8.如权利要求1至7任一项所述的基于开源列式数据库的画像应用方法,其特征在于,所述基于开源列式数据库的画像应用方法,还包括:
新建kafka消息队列,并根据已新建的所述kafka消息队列连接flink;
通过所述kafka消息队列以及连接的flink创建基于开源列式数据库的日志数据应用框架。
9.一种基于开源列式数据库的画像应用装置,其特征在于,所述装置包括:存储器、处理器以及存储在所述存储器上并可以在所述处理器上运行的基于开源列式数据库的画像应用程序,所述基于开源列式数据库的画像应用程序被处理器执行时实现如权利要求1至8任一项所述的基于开源列式数据库的画像应用方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有基于开源列式数据库的画像应用程序,所述基于开源列式数据库的画像应用程序被处理器执行时实现如权利要求1至8任一项所述的基于开源列式数据库的画像应用方法的步骤。
CN202010571636.7A 2020-06-19 2020-06-19 基于开源列式数据库的画像应用方法、装置及存储介质 Pending CN111741360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010571636.7A CN111741360A (zh) 2020-06-19 2020-06-19 基于开源列式数据库的画像应用方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010571636.7A CN111741360A (zh) 2020-06-19 2020-06-19 基于开源列式数据库的画像应用方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111741360A true CN111741360A (zh) 2020-10-02

Family

ID=72652021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010571636.7A Pending CN111741360A (zh) 2020-06-19 2020-06-19 基于开源列式数据库的画像应用方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111741360A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942916A (zh) * 2022-03-30 2022-08-26 上海东普信息科技有限公司 基于Doris的实时数仓设计方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054680A1 (en) * 2011-08-23 2013-02-28 Fujitsu Limited Apparatus and method for collecting log information from a plurality of servers
CN109213741A (zh) * 2018-11-22 2019-01-15 浙江中农在线电子商务有限公司 高性能日志存储方法及装置
CN109344034A (zh) * 2018-09-29 2019-02-15 郑州云海信息技术有限公司 一种用于管理日志的方法和装置
CN110908883A (zh) * 2019-11-15 2020-03-24 江苏满运软件科技有限公司 用户画像数据监控方法、系统、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054680A1 (en) * 2011-08-23 2013-02-28 Fujitsu Limited Apparatus and method for collecting log information from a plurality of servers
CN109344034A (zh) * 2018-09-29 2019-02-15 郑州云海信息技术有限公司 一种用于管理日志的方法和装置
CN109213741A (zh) * 2018-11-22 2019-01-15 浙江中农在线电子商务有限公司 高性能日志存储方法及装置
CN110908883A (zh) * 2019-11-15 2020-03-24 江苏满运软件科技有限公司 用户画像数据监控方法、系统、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942916A (zh) * 2022-03-30 2022-08-26 上海东普信息科技有限公司 基于Doris的实时数仓设计方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110909063A (zh) 一种用户行为的分析方法、装置、应用服务器及存储介质
CN109816321A (zh) 一种服务管理方法、装置、设备和计算机可读存储介质
CN104199879A (zh) 一种数据处理方法和数据处理装置
US20130347127A1 (en) Database management by analyzing usage of database fields
CN107153716B (zh) 网页内容提取方法和装置
CN101383713B (zh) 一种互联网广告信息处理方法
CN110798445A (zh) 公共网关接口测试方法、装置、计算机设备及存储介质
CN114648393A (zh) 一种应用于招投标的数据挖掘方法、系统及设备
CN104881774A (zh) 一种自动建立日程的方法和装置
CN108710670A (zh) 一种日志分析方法、装置、电子设备及可读存储介质
CN101354706A (zh) 一种收集网页信息的方法及装置
CN105608065A (zh) 一种图表生成方法和装置
CN112035205A (zh) 数据处理方法、装置、设备和存储介质
CN110688354B (zh) 数据库中慢日志文件的分析方法、终端以及存储介质
CN106682206A (zh) 一种大数据处理方法及系统
CN107506407B (zh) 一种文件分类、调用的方法及装置
CN110737645B (zh) 一种不同系统间数据迁移方法、数据迁移系统及相关设备
CN109949090B (zh) 客户推荐方法、装置、电子设备及介质
CN111741360A (zh) 基于开源列式数据库的画像应用方法、装置及存储介质
CN112560406B (zh) 生成预报会商演示文稿的方法及装置
CN113312504A (zh) 一种内容审核项目的管理方法、装置、设备及介质
CN105893584A (zh) 一种显示收藏夹网址标签的方法、客户端和系统
CN113986954B (zh) 用户事件获取方法、装置、智能终端及可读存储介质
CN114168624B (zh) 数据分析方法、计算设备及存储介质
CN113672497B (zh) 无埋点事件的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 2306, east block, Skyworth semiconductor design building, 18 Gaoxin South 4th Road, Gaoxin community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518108

Applicant after: Shenzhen Kukai Network Technology Co.,Ltd.

Address before: 518108 Room 601, block C, Skyworth building, 008 Gaoxin South 1st Road, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Coocaa Network Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20201002

RJ01 Rejection of invention patent application after publication