CN114153695A - 一种基于Android的松耦合、高扩展性无埋点数据采集方法 - Google Patents

一种基于Android的松耦合、高扩展性无埋点数据采集方法 Download PDF

Info

Publication number
CN114153695A
CN114153695A CN202111446075.9A CN202111446075A CN114153695A CN 114153695 A CN114153695 A CN 114153695A CN 202111446075 A CN202111446075 A CN 202111446075A CN 114153695 A CN114153695 A CN 114153695A
Authority
CN
China
Prior art keywords
data
android
structured data
json structured
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111446075.9A
Other languages
English (en)
Inventor
陈家豪
黄洋
陈付祥
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Artaplay Intelligent Technology Co Ltd
Original Assignee
Shandong Inspur Artaplay Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Artaplay Intelligent Technology Co Ltd filed Critical Shandong Inspur Artaplay Intelligent Technology Co Ltd
Priority to CN202111446075.9A priority Critical patent/CN114153695A/zh
Publication of CN114153695A publication Critical patent/CN114153695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3086Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves the use of self describing data formats, i.e. metadata, markup languages, human readable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Abstract

一种基于Android的松耦合、高扩展性无埋点数据采集方法,无埋点数据采集相较于传统埋点数据采集,有着采集数据更全面、无需埋点方便快捷、降低人员开发工作量、等优点,本发明在传统无埋点的数据采集上进行优化,支持数据采集的动态配置功能,能够自动配置对应的数据采集项,支持全量数据采集,采集结果结构化、自定义。与普通无埋点数据采集方式相比,通过封装改进的liblogcat,既可以实现全量数据采集,也可自定义数据采集项,降低服务器负载。

Description

一种基于Android的松耦合、高扩展性无埋点数据采集方法
技术领域
本发明涉及数据采集技术领域,具体涉及一种基于Android的松耦合、高扩展性无埋点数据采集方法。
背景技术
伴随IP技术发展、终端智能化、业务APK化,各类智能终端机顶盒(安卓智能操作系统,以下简称“智能机顶盒”)支持的新业务越来越多,越来越复杂。智能机顶盒运行智能操作系统,具备强大的CPU运算能力、大容量的内存和Flash存储空间。基于IPTV等业务特性(包括各地播控方、第三方应用APK等),智能机顶盒运行大量的APK软件程序,各功能运行复杂,第三方APK内部数据无法实时获取,提升产品运营价值、发挥数据更大价值的手段有所缺失。
因此针对智能机顶盒的运营管理工作,需要充分利用远程化、系统化、数据化、智能化等“主动”运营理念的技术手段,在智能机顶盒运行状态掌握、全量数据获取等多方面增强终端的管控能力:包含全量数据采集、清洗和可视化,支持数据采集和可视化的动态配置,应对APK或数据采集需求频繁变动的需求。
基于IPTV和OTT新业务遇到的具体问题:如何能更全量获取终端数据,并发挥数据更大价值;如何能更高效管控盒子,远程解决各省反馈的问题;如何提升现有通道获取的数据因多含加密数据影响的投入产出效率问题。通过智能机顶盒数据补全后,为后续优化IPTV增值业务,用户画像分析、第三方应用引入等提供决策依据,提升整体业务运营价值。
“大数据运营”是运营商的主要发展方向之一,数据也是业务的基础,传统方式是终端侧的探针系统和网络关键节点侧的DPI(数据分组深度检测)系统,都是管道侧的网络分析,随着应用网络数据加密的普及,分析结果包含信息越来越少,例如只能分析到使用过微信,看过腾讯视频。而应用自身采集的数据,往往都不会提供给运营商。
有鉴于此,如今迫切需要设计一种新的数据采集方式,以便克服存在的上述缺陷。
发明内容
本发明为了克服以上技术的不足,提供了一种既可以实现全量数据采集,也可自定义数据采集项,降低服务器负载的基于Android的松耦合、高扩展性无埋点数据采集方法。
本发明克服其技术问题所采用的技术方案是:
一种基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于,包括如下步骤:
a)设置日志采集模块,所述日志采集模块由若干智能终端构成,每个智能终端由logcat及日志处理引擎构成,logcat为Android原始日志,日志处理引擎读取Android原始日志,根据服务器下发的正则表达式,对Android原始日志进行过滤,生成对应的JSON结构化数据;
b)设置数据存储模块,所述数据存储模块分为mysql数据库和kafka缓存,将mysal型的JSON结构化数据存储到mysql数据库中,将kafka型的JSON结构化数据存储到kafka缓存中;
c)设置数据聚合索引模块,所述数据聚合索引模块对数据存储模块中的JSON结构化数据按照每个字段进行索引;
d)设置数据可视化模块,所述数据可视化模块将索引后的数据进行展示。
进一步的,步骤a)中通过配置对应的level和TAG对Android原始日志进行过滤,将过滤后的Android原始日志存储到内存中。
进一步的,步骤a)中JSON结构化数据包含终端ID、业务名称、事件名称、发生时间和自定义信息。
进一步的,步骤a)中将JSON结构化数据通过APK上传到头端服务器。
进一步的,步骤c)中数据聚合索引模块由logstash及Elasticsearch构成,logstash接收Kafka型的JSON结构化数据以及mysql型的JSON结构化数据后转给Elasticsearch,Elasticsearch对Kafka型的JSON结构化数据和mysql型的JSON结构化数据进行索引、聚合,使对应的数据按照每个字段进行索引。
进一步的,步骤d)中数据聚合索引模块由klbana构成。
本发明的有益效果是:无埋点数据采集相较于传统埋点数据采集,有着采集数据更全面、无需埋点方便快捷、降低人员开发工作量、等优点,本发明在传统无埋点的数据采集上进行优化,支持数据采集的动态配置功能,能够自动配置对应的数据采集项,支持全量数据采集,采集结果结构化、自定义。与普通无埋点数据采集方式相比,通过封装改进的liblogcat,既可以实现全量数据采集,也可自定义数据采集项,降低服务器负载。
附图说明
图1为本发明的无埋点数据采集流程图;
图2为本发明的无埋点数据采集原理图。
具体实施方式
下面结合附图1、附图2对本发明做进一步说明。
一种基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于,包括如下步骤:
a)设置日志采集模块,日志采集模块由若干智能终端构成,每个智能终端由logcat及日志处理引擎构成,logcat为Android原始日志,日志处理引擎读取Android原始日志,根据服务器下发的正则表达式,对Android原始日志进行过滤,生成对应的JSON结构化数据。
b)设置数据存储模块,所述数据存储模块分为mysql数据库和kafka缓存,将mysal型的JSON结构化数据存储到mysql数据库中,将kafka型的JSON结构化数据存储到kafka缓存中。Mysal支持数据的增量存储、支持自我修复式集群,由于数据量越高查询速度越慢,所以需要根据数据上报量指定数据清理日期。
c)设置数据聚合索引模块,数据聚合索引模块对数据存储模块中的JSON结构化数据按照每个字段进行索引;
d)设置数据可视化模块,数据可视化模块将索引后的数据进行展示。
无埋点数据采集相较于传统埋点数据采集,有着采集数据更全面、无需埋点方便快捷、降低人员开发工作量、等优点,本发明在传统无埋点的数据采集上进行优化,支持数据采集的动态配置功能,能够自动配置对应的数据采集项,支持全量数据采集,采集结果结构化、自定义。与普通无埋点数据采集方式相比,通过封装改进的liblogcat,既可以实现全量数据采集,也可自定义数据采集项,降低服务器负载。
实施例1:
步骤a)中通过配置对应的level和TAG对Android原始日志进行过滤,将过滤后的Android原始日志存储到内存中。步骤a)中JSON结构化数据包含终端ID、业务名称、事件名称、发生时间和自定义信息。步骤a)中将JSON结构化数据通过APK上传到头端服务器。通过APK向Kafka的topic中吐数据,Kafka的优点是高吞吐量、低延迟,Kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,还具有可扩展性,Kafka集群支持热扩展,具有持久性、可靠性,消息被持久化到本地磁盘,并且支持数据备份,防止数据丢失。允许集群找那个节点失败(若副本数量为n,则允许n-1个节点失败),支持数千个客户端同时读写。
实施例2:
步骤c)中数据聚合索引模块由logstash及Elasticsearch构成,logstash接收Kafka型的JSON结构化数据以及mysql型的JSON结构化数据后转给Elasticsearch,Elasticsearch对Kafka型的JSON结构化数据和mysql型的JSON结构化数据进行索引、聚合,使对应的数据按照每个字段进行索引。
实施例3:
步骤d)中数据聚合索引模块由klbana构成。通过Elasticsearch的索引,可以对数据进行简单的规则计算,生产对应的数据表格、饼图,支持配置的导入和导出功能。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于,包括如下步骤:
a)设置日志采集模块,所述日志采集模块由若干智能终端构成,每个智能终端由logcat及日志处理引擎构成,logcat为Android原始日志,日志处理引擎读取Android原始日志,根据服务器下发的正则表达式,对Android原始日志进行过滤,生成对应的JSON结构化数据;
b)设置数据存储模块,所述数据存储模块分为mysql数据库和kafka缓存,将mysal型的JSON结构化数据存储到mysql数据库中,将kafka型的JSON结构化数据存储到kafka缓存中;
c)设置数据聚合索引模块,所述数据聚合索引模块对数据存储模块中的JSON结构化数据按照每个字段进行索引;
d)设置数据可视化模块,所述数据可视化模块将索引后的数据进行展示。
2.根据权利要求1所述的基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于:步骤a)中通过配置对应的level和TAG对Android原始日志进行过滤,将过滤后的Android原始日志存储到内存中。
3.根据权利要求1所述的基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于:步骤a)中JSON结构化数据包含终端ID、业务名称、事件名称、发生时间和自定义信息。
4.根据权利要求1所述的基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于:步骤a)中将JSON结构化数据通过APK上传到头端服务器。
5.根据权利要求1所述的基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于:步骤c)中数据聚合索引模块由logstash及Elasticsearch构成,logstash接收Kafka型的JSON结构化数据以及mysql型的JSON结构化数据后转给Elasticsearch,Elasticsearch对Kafka型的JSON结构化数据和mysql型的JSON结构化数据进行索引、聚合,使对应的数据按照每个字段进行索引。
6.根据权利要求1所述的基于Android的松耦合、高扩展性无埋点数据采集方法,其特征在于:步骤d)中数据聚合索引模块由klbana构成。
CN202111446075.9A 2021-11-30 2021-11-30 一种基于Android的松耦合、高扩展性无埋点数据采集方法 Pending CN114153695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111446075.9A CN114153695A (zh) 2021-11-30 2021-11-30 一种基于Android的松耦合、高扩展性无埋点数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111446075.9A CN114153695A (zh) 2021-11-30 2021-11-30 一种基于Android的松耦合、高扩展性无埋点数据采集方法

Publications (1)

Publication Number Publication Date
CN114153695A true CN114153695A (zh) 2022-03-08

Family

ID=80455190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111446075.9A Pending CN114153695A (zh) 2021-11-30 2021-11-30 一种基于Android的松耦合、高扩展性无埋点数据采集方法

Country Status (1)

Country Link
CN (1) CN114153695A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115834940A (zh) * 2022-11-14 2023-03-21 浪潮通信信息系统有限公司 Iptv/ott端到端数据逆向采集分析方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115834940A (zh) * 2022-11-14 2023-03-21 浪潮通信信息系统有限公司 Iptv/ott端到端数据逆向采集分析方法及系统

Similar Documents

Publication Publication Date Title
CN106611046B (zh) 一种基于大数据技术的空间数据存储处理中间件系统
CN106708993B (zh) 基于大数据技术的空间数据存储处理中间件框架实现方法
US11347740B2 (en) Managed query execution platform, and methods thereof
CN107070890A (zh) 一种通信网优系统中的流数据处理装置及通信网优系统
CN111124679A (zh) 一种面向多源异构海量数据限时自动处理方法
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN113360554B (zh) 一种数据抽取、转换和加载etl的方法和设备
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN107463706B (zh) 一种基于Hadoop的海量录波数据存储和解析方法及系统
CN112231402A (zh) 一种异构数据实时同步方法、装置、设备和存储介质
CN107895046A (zh) 一种异构数据集成平台
CN104820700B (zh) 变电站非结构化数据的处理方法
CN112559634A (zh) 一种基于计算机云计算大数据用数据管理系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN116166191A (zh) 湖仓一体系统
CN114153695A (zh) 一种基于Android的松耦合、高扩展性无埋点数据采集方法
CN113612306A (zh) 一种分布式配电柜及其控制系统
CN114218179A (zh) 一种基于p2p技术的海量日志数据溯源与存储装置
CN117591532A (zh) 一种分布式能源系统的海量数据管理系统及其应用方法
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
CN107341198A (zh) 一种基于主题实例的电力海量数据存储和查询方法
CN116016117A (zh) 网络设备运维数据采集方法、系统、电子设备及存储介质
CN115033646A (zh) 一种基于Flink&Doris构建实时数仓系统的方法
Viharos et al. ” Big Data” Initiative as an IT Solution for Improved Operation and Maintenance of Wind Turbines
CN110866165A (zh) 一种网络视频采集方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination