CN117370655A - 用户活跃度的分析方法及装置、电子设备和存储介质 - Google Patents
用户活跃度的分析方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117370655A CN117370655A CN202311315427.6A CN202311315427A CN117370655A CN 117370655 A CN117370655 A CN 117370655A CN 202311315427 A CN202311315427 A CN 202311315427A CN 117370655 A CN117370655 A CN 117370655A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- cloud
- liveness
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 62
- 230000000694 effects Effects 0.000 claims description 45
- 230000010354 integration Effects 0.000 claims description 26
- 238000004140 cleaning Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 8
- 238000003672 processing method Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 4
- 239000000047 product Substances 0.000 description 96
- 230000006399 behavior Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种用户活跃度的分析方法及装置、电子设备和存储介质,抽取云上产品的订单数据及用户使用数据;将所述订单数据及所述用户使用数据进行预处理,得到融合数据;对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。与相关技术相比,通过将云上产品的订单数据及用户使用数据进行预处理,可以将这些数据整合在一起,形成一个更全面的得到融合数据,方便后续进行活跃度的分析评估。通过对融合数据进行活跃度分析,可以得到每个用户对应的活跃度信息。根据得到的活跃度信息可以帮助改善产品功能,同时也可以发现用户的行为模式和偏好,帮助更好地了解用户需求。
Description
技术领域
本公开涉及云计算技术领域,尤其涉及一种用户活跃度的分析方法及装置、电子设备和存储介质。
背景技术
云计算作为一种新兴产业,近些年来得到了迅猛的发展。云计算公司提供的服务可以分为三种层次:基础设施即服务(Infrastructure-as-a-Service,IaaS)、平台即服务(Platform-as-a-Service,PaaS)、软件即服务(Software-as-a-Service,SaaS)。这三种不同层次的服务,所能够提供的云上产品也存在较大的差异。目前,不同的云计算公司都在积极推广各种类型的云上产品。
随着云上产品数量越来越多,对各云上产品的使用行为分析、活跃客户分析也变得越来越重要。目前,业界关于云资源使用行为的分析相对较少,对客户活跃分析也相对更少。目前,在其他技术领域有关于客户活跃度分析的方法;但是由于不同行业之间的差异导致这些方法并不能够适应本领域的客户活跃度的分析。因此,如何实现对云上产品的客户活跃度的分析成为亟待解决的问题。
发明内容
本公开提供了一种用户活跃度的分析方法及装置、电子设备和存储介质。其主要目的在于实现对云上产品的用户活跃度的分析。
根据本公开的第一方面,提供了一种用户活跃度的分析方法,其中,包括:
抽取云上产品的订单数据及用户使用数据;
将所述订单数据及所述用户使用数据进行预处理,得到融合数据;
对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。
可选的,在获取云上产品的订单数据及用户使用数据之前,所述方法还包括:
构建数据仓库,其中,所述数据仓库包括基础数据层、数据整合层、业务汇总层、数据视图层、应用层;所述数据仓库的数据类型分为预设数量的主题域。
可选的,所述抽取云上产品的订单数据及用户使用数据,包括:
将所述云上产品的原始订单数据及原始用户使用数据输入所述基础数据层进行数据抽取处理,得到所述订单数据及所述用户使用数据。
可选的,所述将所述订单数据及所述用户使用数据进行预处理,得到融合数据,包括:
将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗;
将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据。
可选的,所述将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗,包括:
在所述数据整合层,将所述订单数据及所述用户使用数据分别进行无关数据处理、重复数据处理、缺失值处理、异常值处理、数据标准化处理;
根据处理后的所述订单数据及所述用户使用数据,生成数据库表,其中,所述数据库表根据所述主题域进行分类命名。
可选的,所述将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据,包括:
根据资源实例标识,对所述订单数据及所述用户使用数据进行集成处理得到所述融合数据,其中,所述资源实例标识为不同用户使用不同云上产品所生成的标识。
可选的,所述方法还包括:
对所述融合数据进行质量检测,确定所述融合数据是否检测合格;
在所述融合数据检测不合格的情况下,生成质量告警信息。
可选的,所述对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息,包括:
根据所述融合数据及所述云上产品对应的日活跃判断规则,确定所述云上产品对应的日活天数,不同的所述云上产品对应不同的日活跃判断规则;
基于所述日活天数,计算所述云上产品的月活跃度并生成每个用户对应的活跃度信息。
根据本公开的第二方面,提供了一种用户活跃度的分析装置,包括:
抽取单元,用于抽取云上产品的订单数据及用户使用数据;
预处理单元,用于将所述订单数据及所述用户使用数据进行预处理,得到融合数据;
分析单元,用于对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。
可选的,所述装置还包括:
构建单元,用于在抽取单元抽取云上产品的订单数据及用户使用数据之前,构建数据仓库,其中,所述数据仓库包括基础数据层、数据整合层、业务汇总层、数据视图层、应用层;所述数据仓库的数据类型分为预设数量的主题域。
可选的,所述抽取单元还用于:
将所述云上产品的原始订单数据及原始用户使用数据输入所述基础数据层进行数据抽取处理,得到所述订单数据及所述用户使用数据。
可选的,所述预处理单元包括:
清洗模块,用于将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗;
集成模块,用于将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据。
可选的,所述清洗模块还用于:
在所述数据整合层,将所述订单数据及所述用户使用数据分别进行无关数据处理、重复数据处理、缺失值处理、异常值处理、数据标准化处理;
根据处理后的所述订单数据及所述用户使用数据,生成数据库表,其中,所述数据库表根据所述主题域进行分类命名。
可选的,所述集成模块还用于:
根据资源实例标识,对所述订单数据及所述用户使用数据进行集成处理得到所述融合数据,其中,所述资源实例标识为不同用户使用不同云上产品所生成的标识。
可选的,所述装置还包括:
检测单元,用于对所述融合数据进行质量检测,确定所述融合数据是否检测合格;
生成单元,用于在所述融合数据检测不合格的情况下,生成质量告警信息。
可选的,所述分析单元包括:
确定模块,用于根据所述融合数据及所述云上产品对应的日活跃判断规则,确定所述云上产品对应的日活天数,不同的所述云上产品对应不同的日活跃判断规则;
生成模块,用于基于所述日活天数,计算所述云上产品的月活跃度并生成每个用户对应的活跃度信息。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。
本公开提供了一种用户活跃度的分析方法及装置、电子设备和存储介质,抽取云上产品的订单数据及用户使用数据;将所述订单数据及所述用户使用数据进行预处理,得到融合数据;对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。与相关技术相比,通过将云上产品的订单数据及用户使用数据进行预处理,可以将这些数据整合在一起,形成一个更全面的得到融合数据,方便后续进行活跃度的分析评估。通过对融合数据进行活跃度分析,可以得到每个用户对应的活跃度信息。根据得到的活跃度信息可以帮助改善产品功能,同时也可以发现用户的行为模式和偏好,帮助更好地了解用户需求。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种用户活跃度的分析方法的流程示意图;
图2为本公开实施例提供的另一种用户活跃度的分析方法的流程示意图;
图3为一种数据仓库的结构示意图;
图4为一种客户活跃度的数据分析图;
图5为本公开实施例提供的一种用户活跃度的分析装置的结构示意图;
图6为本公开实施例提供的另一种用户活跃度的分析装置的结构示意图;
图7为本公开实施例提供的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的用户活跃度的分析方法及装置、电子设备和存储介质。
图1为本公开实施例所提供的一种用户活跃度的分析方法的流程示意图。
如图1所示,该方法包含以下步骤:
步骤101,抽取云上产品的订单数据及用户使用数据。
在本公开的实施例中,云上产品为云计算提供商提供的虚拟服务,例如可以是IaaS层次中的计算、存储、网络等服务,也可以是PaaS层次中操作系统、数据库、软件开发环境等服务,还可以是SaaS层次中的具体的应用程序等服务。本公开并不限定具体对何种类型的云上产品进行活跃度分析。
云上产品的订单数据可以反应不同用户的使用需求、以及用户的类型等信息;云上产品的用户使用数据能够反应客户的活跃度、用户行为偏好等信息。通过抽取云上产品的订单数据及用户使用数据能够更好的对用户的使用行为建立数据模型,进而能够得到更为精确的用户活跃度信息。
步骤102,将所述订单数据及所述用户使用数据进行预处理,得到融合数据。
在本公开的实施例中,获得的订单数据与用户使用数据中可能存在与活跃度分析的无关数据,以及重复数据等,通过对订单数据与用户使用数据进行预处理,达到数据格式标准化、重复数据的清除,异常数据清除、错误纠正的目的。
通过将订单数据和用户使用数据融合在一起,可以获得更全面的用户洞察。订单数据可以提供用户的购买行为和偏好,而用户使用数据可以提供用户的活跃度和行为模式。
步骤103,对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。
在本公开的实施例中,活跃度信息可以是用户的单个云上产品的日活跃度,也可以是单个云上产品的月活跃度;还可以是多个云上产品的日活跃度或月活跃度;本公开实施例对此不予限定。通过分析融合数据,可以获得每个用户的活跃度信息。
本公开提供了一种用户活跃度的分析方法,抽取云上产品的订单数据及用户使用数据;将所述订单数据及所述用户使用数据进行预处理,得到融合数据;对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。与相关技术相比,通过将云上产品的订单数据及用户使用数据进行预处理,可以将这些数据整合在一起,形成一个更全面的得到融合数据,方便后续进行活跃度的分析评估。通过对融合数据进行活跃度分析,可以得到每个用户对应的活跃度信息。根据得到的活跃度信息可以帮助改善产品功能,同时也可以发现用户的行为模式和偏好,帮助更好地了解用户需求。
为了清楚的说明本公开实施例,本公开实施例提供了图2所示的另一种用户活跃度的分析方法的流程示意图。
如图2所示,该方法包含以下步骤:
步骤201,构建数据仓库,其中,所述数据仓库包括基础数据层、数据整合层、业务汇总层、数据视图层、应用层;所述数据仓库的数据类型分为预设数量的主题域。
具体在本公开实施例中,如图3所示,数据的采集处理选用HADOOP集群,数据库选用的HIVE数据库。数据仓库共有5层架构设计,分8大主题域。
数据仓库的5层架构分别是:
基础数据层(ODS):源数据的汇聚层,数据结构跟源系统完全一致,通过程序实现统一采集、统一加载和统一调度,汇聚全量历史数据,保留历史版本。
数据整合层(DWD):数据资产的汇聚层。基础数据层的数据经过标准化处理后按照数据仓库的主题域组织存放,保留细节、历史数据。
业务汇总层(DWI):各业务单元建设各类应用过程中,积累的公共数据模型。这层数据模型通常沉淀了一定的业务知识。由于平台技术架构的缘故,整合层难以完成数据汇总工作,因此,业务汇总层首先针对该业务单元使用的关键数据进行汇聚。
数据视图层(DWA):建立跨域的业务主题模型,比如中高端客户,拍照客户等,DWA层不能进行同层引用
应用层(ST):为了直接满足各业务单元应用展现的需要而设计的数据模型。该层数据模型直接为应用服务。
数据仓库的8大主题域分别是:
参与人主题域:描述云服务提供商的业务活动中各类参与人(客户、集团、团体等)的各类信息,包括客户、渠道、竞争对手和合作伙伴等。
服务主题域:描述云服务提供商向客户提供的主要产品和服务,以及客户对产品的订购从而形成的业务使用关系。
资源主题域:资源是云服务提供商拥有的为客户提供服务的所有载体,包括硬件资源、网络资源等。
事件主题域:描述参与人在参与和使用云服务提供商提供的各项业务时所产生的事件记录,包括各类清单、日志、订单和客户接触记录等。
帐务主题域:描述用户用于支付业务使用费用的帐目关系。
营销主题域:针对特定市场环境及客户群体所进行的市场宣传、促销等计划与活动。
管理主题域:云服务提供商为了支撑业务活动的正常运行,而在管理层面建立的各种财务、运营管理、安全管理等企业支撑系统。
对外合作域:描述云服务商在非生产运营过程中与合作伙伴的交互信息。
步骤202,将所述云上产品的原始订单数据及原始用户使用数据输入所述基础数据层进行数据抽取处理,得到所述订单数据及所述用户使用数据。
具体在本公开实施例中,在数据仓库的基础数据层,数据采集、数据引入模块分两部分,一部分是全量的移动云订单数据的引入,另一部分是需要对接各个产品部门,采集各产品云资源的使用行为数据。数据抽取方式主要有:数据库对接直采、kafka流处理采集、sftp文件采集。
步骤203,将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗。
作为本公开实施例的一种细化,所述将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗,包括:在所述数据整合层,将所述订单数据及所述用户使用数据分别进行无关数据处理、重复数据处理、缺失值处理、异常值处理、数据标准化处理;根据处理后的所述订单数据及所述用户使用数据,生成数据库表,其中,所述数据库表根据所述主题域进行分类命名。
具体在本公开实施例中,针对输入数据库的数据,首先进行数据预处理,常见预处理方法有:数据清洗、数据集成、数据变换。数据清洗主要在DWD层处理,针对采集入库的数据清洗主要进行的步骤有:无关数据处理、重复数据处理,缺失值处理,异常值处理,数据标准化处理。主要达成的目标是:数据格式标准化、重复数据的清除,异常数据清除、错误纠正。源系统采集过来的数据入库在ODS层的,DWD层会做标准化处理。数据库表按照统一规范要求进行命名,命名规范是:【主题域缩写】_【实体名缩写】_【数据特征】_【数据生成频率】。
无关数据处理:筛选掉与用户活跃度分析无关的数据,比如客户评分数据、客户的性能等无关数据。
重复数据处理:记录数重复的问题按照各表主键直接去重处理。属性字段重复的问题,同一属性命名不一致问题,采用的是同类属性合并后删除。
缺失值处理:常见的方法有均值填充法、最近临填充法、中位数填充、众说填充法,还有直接删除法。在本公开实施例中,对部分性能指标缺失采用的是均值填充法来补齐数据。需要说明的是,本公开并不限定具体采用何种缺失值处理方式。
异常值处理:常见的异常值处理办法有:删除含有异常值的记录、视为缺失值按缺失值的办法处理、平均值修正、不处理。在本公开实施例中,采用删除异常值的办法操作。需要说明的是,本公开并不限定具体采用何种异常值处理方式。
数据标准化处理:主要是将样本的属性缩放到某个特定的范围,来消除不同属性具有不同量级时的影响。常见的处理方法有:min-max标准化(归一化)和z-score标准化(规范化)。在本公开实施例中,采用的是min-max标准化。公式为:新数据=(原数据-最小值)/(最大值-最小值)。将属性值映射在[0,1]区间内。需要说明的是,本公开并不限定具体采用何种数据标准化处理方式。
步骤204,将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据。
作为本公开实施例的一种细化,所述将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据,包括:根据资源实例标识,对所述订单数据及所述用户使用数据进行集成处理得到所述融合数据,其中,所述资源实例标识为不同用户使用不同云上产品所生成的标识。
具体在本公开实施例中,数据集成处理是数据预处理的一部分,也是数据仓库构建的关键步骤。数据集成按不同的主题域主要集中在DWI层处理。数据集成就是将多个数据源中的数据结合起来并统一存储。数据集成阶段,主要是通过资源实例id来匹配订单数据与各云上产品的性能数据(用户使用数据),清洗汇总之后每款产品对应一个DWI层的汇总表,包含客户信息、订购信息、性能数据信息。的云资源服务中,云主机、弹性公网IP、对象存储等这些都是典型的云上产品。
示例性的,以云主机为例进行说明,根据数仓的模型分层构建理论先创建DWI层汇总表,模型设计结构如下:
通过创建SQL脚本来关联订单数据与云主机的性能数据,主键是通过资源实例id,输出结果就是云主机的订单及性能数据汇总表。对云主机来讲,目前采集到的云资源使用相关的性能指标(TARGET_NAME)共12项,分别是:内存使用率、CPU使用率、总磁盘使用率、总磁盘读速率、总磁盘写速率、总磁盘读iops、总磁盘写iops、总网卡的流入速率、总网卡的流出速率、总网卡的流入iops、总网卡的流流出iops、vm宕机总次数。
步骤205,对所述融合数据进行质量检测,确定所述融合数据是否检测合格。
步骤206,在所述融合数据检测不合格的情况下,生成质量告警信息。
具体在本公开实施例中,对融合数据进行质量检查,主要是通过配置质量规则。不同的云上产品的质量检查的质量规则存在差异。通过质量规则,可以实现对融合数据的完整性、准确性、有效性、重复性、及时性、一致性等进行检测。比如记录数大于一定的阈值、记录数波动来校验数据的完整性。当数据记录数缺失达不到阈值或记录数波动较大时,流程的调度就会失败,平台自动发出告警短信,方便运维及研发人员及时查看、定位问题。通常情况下是上游数据未及时到达导致,这时候需及时联系上游数据提供方来解决。
步骤207,根据所述融合数据及所述云上产品对应的日活跃判断规则,确定所述云上产品对应的日活天数,不同的所述云上产品对应不同的日活跃判断规则。
步骤208,基于所述日活天数,计算所述云上产品的月活跃度并生成每个用户对应的活跃度信息。
具体在本公开实施例中,不同的云上产品的日活跃判断规则计算逻辑不同,需区分产品分别计算活跃度标签。最终输出所有客户的分产品的活跃度的信息,分日活跃标签、月活跃标签。以云主机为例,通过与产品部沟通确认,云主机的日活跃客户判断逻辑是:1、日均CPU使用率>=10%2、5%=<日均CPU使用率<10%并且日均内存使用率>10%。以上两个条件满足其一即可。月活跃标签计算逻辑是:过去30天内有一天满足活跃条件即为活跃。月活跃度标签分四类,分别是:无活跃、低活跃、中活跃、高活跃。概括如下表:
按照上述逻辑分产品计算出客户的活跃度标签之后,最终客户是否活跃的判断逻辑是:所有客户中,以上30款产品,只要任意一款产品客户满足活跃度标准,则该客户即为活跃客户。最终输出的月活跃度标签表结构设计如下:
/>
基于输出的客户活跃度标签数据进行分析,用途有两方面。一方面是分析产品,找出那些产品的活跃度较高、哪些产品的活跃度比较低,进而可以有针对性的对活跃度比较低的产品进行客户调研问卷,产品提升意见收集等,促进产品的优化提升,帮助产品侧改善产品功能,提升产品的可用性。
另一方面应用场景是产品的组合推荐。对活跃客户进行分析,找出目标客户:该部分客户是A产品的活跃客户,非B产品的活跃客户,而A、B两款产品是强相关产品。将活跃度数据与产品的订购数据进行组合分析,结合客户的使用行为数据和产品本身的特性,融合多维度客户标签特征,进而找出A产品活跃但未订购B产品的客户。其中,客户使用行为指的是活跃度标签数据,产品特性指的是各产品之间的相关性,客户标签特征包括客户类型、客户等级、客户在网时长、客户价值、客户出账收入、客户结算金额等维度。
按照上述方法,汇总统计分析结果如图4所示,进一步可输出具体的客户信息提供给各个省份对应的客户经理,从而有针对性的对这部分目标客户进行产品的组合推荐。
需要说明的是,本公开的实施例中可以包括多个步骤,为了便于描述,这些步骤被进行了编号,但是这些标号并非是对步骤之间执行时隙、执行顺序的限定;这些步骤可以以任意的顺序被实施,本公开实施例并不对此作出限定。
与上述的用户活跃度的分析方法相对应,本发明还提出一种用户活跃度的分析装置。由于本发明的装置实施例与上述的方法实施例相对应,对于装置实施例中未披露的细节可参照上述的方法实施例,本发明中不再进行赘述。
图5为本公开实施例提供的一种用户活跃度的分析装置的结构示意图,如图5所示,
抽取单元31,用于抽取云上产品的订单数据及用户使用数据;
预处理单元32,用于将所述订单数据及所述用户使用数据进行预处理,得到融合数据;
分析单元33,用于对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。
本公开提供了一种用户活跃度的分析装置,抽取云上产品的订单数据及用户使用数据;将所述订单数据及所述用户使用数据进行预处理,得到融合数据;对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。与相关技术相比,通过将云上产品的订单数据及用户使用数据进行预处理,可以将这些数据整合在一起,形成一个更全面的得到融合数据,方便后续进行活跃度的分析评估。通过对融合数据进行活跃度分析,可以得到每个用户对应的活跃度信息。根据得到的活跃度信息可以帮助改善产品功能,同时也可以发现用户的行为模式和偏好,帮助更好地了解用户需求。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述装置还包括:
构建单元34,用于在抽取单元31抽取云上产品的订单数据及用户使用数据之前,构建数据仓库,其中,所述数据仓库包括基础数据层、数据整合层、业务汇总层、数据视图层、应用层;所述数据仓库的数据类型分为预设数量的主题域。
进一步地,在本实施例一种可能的实现方式中,所述抽取单元31还用于:
将所述云上产品的原始订单数据及原始用户使用数据输入所述基础数据层进行数据抽取处理,得到所述订单数据及所述用户使用数据。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述预处理单元32包括:
清洗模块321,用于将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗;
集成模块322,用于将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据。
进一步地,在本实施例一种可能的实现方式中,所述清洗模块321还用于:
在所述数据整合层,将所述订单数据及所述用户使用数据分别进行无关数据处理、重复数据处理、缺失值处理、异常值处理、数据标准化处理;
根据处理后的所述订单数据及所述用户使用数据,生成数据库表,其中,所述数据库表根据所述主题域进行分类命名。
进一步地,在本实施例一种可能的实现方式中,所述集成模块322还用于:
根据资源实例标识,对所述订单数据及所述用户使用数据进行集成处理得到所述融合数据,其中,所述资源实例标识为不同用户使用不同云上产品所生成的标识。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述装置还包括:
检测单元35,用于对所述融合数据进行质量检测,确定所述融合数据是否检测合格;
生成单元36,用于在所述融合数据检测不合格的情况下,生成质量告警信息。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述分析单元33包括:
确定模块331,用于根据所述融合数据及所述云上产品对应的日活跃判断规则,确定所述云上产品对应的日活天数,不同的所述云上产品对应不同的日活跃判断规则;
生成模块332,用于基于所述日活天数,计算所述云上产品的月活跃度并生成每个用户对应的活跃度信息。
需要说明的是,前述对方法实施例的解释说明,也适用于本实施例的装置,原理相同,本实施例中不再限定。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备400包括计算单元401,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)402中的计算机程序或者从存储单元408加载到RAM(Random AccessMemory,随机访问/存取存储器)403中的计算机程序,来执行各种适当的动作和处理。在RAM403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。I/O(Input/Output,输入/输出)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(DigitalSignal Processor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如用户活跃度的分析方法。例如,在一些实施例中,用户活跃度的分析方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述用户活跃度的分析方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Appl ication SpecificStandard Product,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(Complex Programmable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Di sc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
本公开中涉及的第一、第二等各种数字编号仅为描述方便进行的区分,并不用来限制本公开实施例的范围,也表示先后顺序。
本公开中的至少一个还可以描述为一个或多个,多个可以是两个、三个、四个或者更多个,本公开不做限制。在本公开实施例中,对于一种技术特征,通过“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”等区分该种技术特征中的技术特征,该“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”描述的技术特征间无先后顺序或者大小顺序。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种用户活跃度的分析方法,其特征在于,包括:
抽取云上产品的订单数据及用户使用数据;
将所述订单数据及所述用户使用数据进行预处理,得到融合数据;
对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。
2.根据权利要求1所述的方法,其特征在于,在抽取云上产品的订单数据及用户使用数据之前,所述方法还包括:
构建数据仓库,其中,所述数据仓库包括基础数据层、数据整合层、业务汇总层、数据视图层、应用层;所述数据仓库的数据类型分为预设数量的主题域。
3.根据权利要求2所述的方法,其特征在于,所述抽取云上产品的订单数据及用户使用数据,包括:
将所述云上产品的原始订单数据及原始用户使用数据输入所述基础数据层进行数据抽取处理,得到所述订单数据及所述用户使用数据。
4.根据权利要求2所述的方法,其特征在于,所述将所述订单数据及所述用户使用数据进行预处理,得到融合数据,包括:
将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗;
将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述订单数据及所述用户使用数据输入所述数据整合层进行数据清洗,包括:
在所述数据整合层,将所述订单数据及所述用户使用数据分别进行无关数据处理、重复数据处理、缺失值处理、异常值处理、数据标准化处理;
根据处理后的所述订单数据及所述用户使用数据,生成数据库表,其中,所述数据库表根据所述主题域进行分类命名。
6.根据权利要求4所述的方法,其特征在于,所述将清洗处理后的所述订单数据及所述用户使用数据输入所述业务汇总层进行集成处理,得到所述融合数据,包括:
根据资源实例标识,对所述订单数据及所述用户使用数据进行集成处理得到所述融合数据,其中,所述资源实例标识为不同用户使用不同云上产品所生成的标识。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述融合数据进行质量检测,确定所述融合数据是否检测合格;
在所述融合数据检测不合格的情况下,生成质量告警信息。
8.根据权利要求1所述的方法,其特征在于,所述对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息,包括:
根据所述融合数据及所述云上产品对应的日活跃判断规则,确定所述云上产品对应的日活天数,不同的所述云上产品对应不同的日活跃判断规则;
基于所述日活天数,计算所述云上产品的月活跃度并生成每个用户对应的活跃度信息。
9.一种用户活跃度的分析装置,其特征在于,包括:
抽取单元,用于抽取云上产品的订单数据及用户使用数据;
预处理单元,用于将所述订单数据及所述用户使用数据进行预处理,得到融合数据;
分析单元,用于对所述融合数据进行活跃度分析,得到每个用户对应的活跃度信息。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311315427.6A CN117370655A (zh) | 2023-10-11 | 2023-10-11 | 用户活跃度的分析方法及装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311315427.6A CN117370655A (zh) | 2023-10-11 | 2023-10-11 | 用户活跃度的分析方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370655A true CN117370655A (zh) | 2024-01-09 |
Family
ID=89394039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311315427.6A Pending CN117370655A (zh) | 2023-10-11 | 2023-10-11 | 用户活跃度的分析方法及装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370655A (zh) |
-
2023
- 2023-10-11 CN CN202311315427.6A patent/CN117370655A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614077B2 (en) | Computer system for automated assessment at scale of topic-specific social media impact | |
US8341101B1 (en) | Determining relationships between data items and individuals, and dynamically calculating a metric score based on groups of characteristics | |
US10915850B2 (en) | Objective evidence-based worker skill profiling and training activation | |
US11093535B2 (en) | Data preprocessing using risk identifier tags | |
CN111080178A (zh) | 一种风险监控方法和装置 | |
CN112417060A (zh) | 识别企业关系的方法、装置、设备和计算机可读介质 | |
CN109918678A (zh) | 一种字段含义识别方法和装置 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN115545516A (zh) | 一种基于流程引擎的绩效数据处理方法、装置及系统 | |
CN115202847A (zh) | 任务的调度方法和装置 | |
US11282092B2 (en) | System and method for universal data modeling | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN113505990A (zh) | 企业风险评估的方法、装置、电子设备和存储介质 | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
CN115293291B (zh) | 排序模型的训练方法、排序方法、装置、电子设备及介质 | |
CN111177653A (zh) | 一种信用评估方法和装置 | |
CN115840738A (zh) | 一种数据迁移方法、装置、电子设备及存储介质 | |
US11593740B1 (en) | Computing system for automated evaluation of process workflows | |
CN115330540A (zh) | 一种处理交易数据的方法和装置 | |
CN117370655A (zh) | 用户活跃度的分析方法及装置、电子设备和存储介质 | |
CN114493851A (zh) | 一种风险处理方法及装置 | |
CN111429257B (zh) | 一种交易监控方法和装置 | |
CN114757546A (zh) | 风险预警方法、装置、设备及介质 | |
CN114723548A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
CN113450208A (zh) | 贷款风险变动预警、模型训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |