CN114841165A - 用户数据分析及展示方法、装置、电子设备及存储介质 - Google Patents

用户数据分析及展示方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114841165A
CN114841165A CN202210512477.2A CN202210512477A CN114841165A CN 114841165 A CN114841165 A CN 114841165A CN 202210512477 A CN202210512477 A CN 202210512477A CN 114841165 A CN114841165 A CN 114841165A
Authority
CN
China
Prior art keywords
user
feature set
feature
page
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210512477.2A
Other languages
English (en)
Other versions
CN114841165B (zh
Inventor
刘锋俊
周子才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210512477.2A priority Critical patent/CN114841165B/zh
Publication of CN114841165A publication Critical patent/CN114841165A/zh
Application granted granted Critical
Publication of CN114841165B publication Critical patent/CN114841165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种用户数据分析及展示方法,包括:获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合,对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像,对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱,对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。此外,本发明还涉及区块链技术,所述行为数据集合可存储在区块链的节点中。本发明还提出一种用户数据分析及展示装置、电子设备以及可读存储介质。本发明可以解决用户数据分析效率较低的问题。

Description

用户数据分析及展示方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种用户数据分析及展示方法、装置、电子设备及可读存储介质。
背景技术
随着科技的发展,数据分析变的越来越重要。例如,保险领域中,传统的代理人运营数据分析需要先通过需要通过用户调研、用户访谈等数据收集方式采集代理人数据,需要通过调研计划制定、用户分群、用户筛选、调研准备、实施调研、调研结果整理、调研数据分析等步骤。然而这种方法存在着数据获取链路过长,用户样本数据不充分、调研人力物力浪费、调研结果有偏差等问题,分析得出来的结果往往参考价值不大,使得数据分析效率较低并且分析结果不直观。
发明内容
本发明提供一种用户数据分析及展示方法、装置、电子设备及可读存储介质,其主要目的在于解决用户数据分析效率较低的问题。
为实现上述目的,本发明提供的一种用户数据分析及展示方法,包括:
获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
可选地,所述获取用户的行为数据集合之前,所述方法还包括:
在前端页面中构建登录埋点事件及页面埋点事件;
从所述前端页面中获取用户ID作为用户唯一标识,利用所述登录埋点事件收集所述前端页面中的登录行为数据,以及利用所述页面埋点事件收集所述前端页面中的页面行为数据;
基于构建键值对的方法汇总所述用户唯一标识、所述登录行为数据及所述页面行为数据得到所述行为数据集合。
可选地,所述基于所述行为数据集合进行属性特征计算,得到初始特征集合,包括:
根据所述行为数据集合中的时间信息计算时间属性特征;
汇总所述时间属性特征,得到所述初始特征集合。
可选地,所述对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像,包括:
获取所述用户对应的标签集合;
将所述标签集合中的每一个标签作为特征维度,并将所述初始特征集合中的特征与所述特征维度关联,汇总各特征维度下关联的特征,得到所述第一特征集合;
基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像。
可选地,所述基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像,包括:
对所述第一特征集合进行随机分组,得到得到多个特征子集;
依次从所述多个特征子集中选取标签作为根节点,利用未被选中的标签对应特征对所述根节点进行划分,得到所述根节点的多个分支节点,根据所述根节点以及所述根节点的多个分支节点构成决策树;
基于所述输出每个节点中标签的权重得分,根据所述权重得分按照从大到小的顺序选取预设个数的标签汇总得到所述用户画像。
可选地,所述对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱,包括:
分别对所述登录埋点事件及页面埋点事件构建唯一特征码;
将所述唯一特征码对应埋点事件收集到的特征和所述唯一特征码进行关联,汇总关联后的唯一特征码及特征,得到所述第二特征集合;
将所述用户唯一标识、所述标签集合中的标签、第二特征集合中的特征及唯一特征码作为实体,并构建实体间的关系,得到所述用户知识图谱。
可选地,所述对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面,包括:
利用预设的可视化工具生成所述用户画像及所述用户知识图谱的展示框;
利用所述可视化工具生成所述用户画像及所述用户知识图谱中属性的筛选框;
汇总所述展示框及所述筛选框,得到所述用户数据展示页面。
为了解决上述问题,本发明还提供一种用户数据分析及展示装置,所述装置包括:
数据收集模块,用于获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
第一特征计算模块,用于对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
第二特征计算模块,用于对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
可视化模块,用于对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的用户数据分析及展示方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的用户数据分析及展示方法。
本发明通过从前端页面直接获取用户的行为数据集合,可以通过行为数据计算得到用户的属性特征,提高了数据获取的及时性。同时,通过构建用户画像及用户知识图谱,便于进行数据分析,提高了数据分析的效率,并且通过可视化处理可以进行直观展示,也进一步提高了数据分析效率。因此本发明提出的用户数据分析及展示方法、装置、电子设备及计算机可读存储介质,可以解决用户数据分析效率较低的问题。
附图说明
图1为本发明一实施例提供的用户数据分析及展示方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为图3中其中一个步骤的详细实施流程示意图;
图5为图1中另一个步骤的详细实施流程示意图;
图6为图1中另一个步骤的详细实施流程示意图;
图7为本发明一实施例提供的用户数据分析及展示装置的功能模块图;
图8为本发明一实施例提供的实现所述用户数据分析及展示方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种用户数据分析及展示方法。所述用户数据分析及展示方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之,所述用户数据分析及展示方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的用户数据分析及展示方法的流程示意图。在本实施例中,所述用户数据分析及展示方法包括以下步骤S1-S5:
S1、获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合。
本发明实施例中,所述行为数据集合是对前端页面中用户的行为数据进行埋点收集得到的。所述前端页面是指通过HTML,CSS及JavaScript以及衍生出来的各种技术、框架、解决方案,来实现互联网产品的用户交互界面。例如,保险领域中,所述前端页面可以为用来将保险培训课程产品与保险代理人进行交互的界面。
详细地,参照图2所示,所述获取用户的行为数据集合之前,所述方法还包括以下步骤S10-S12:
S10、在前端页面中构建登录埋点事件及页面埋点事件;
S11、从所述前端页面中获取用户ID作为用户唯一标识,利用所述登录埋点事件收集所述前端页面中的登录行为数据,以及利用所述页面埋点事件收集所述前端页面中的页面行为数据;
S12、基于构建键值对的方法汇总所述用户唯一标识、所述登录行为数据及所述页面行为数据得到所述行为数据集合。
本发明实施例中,所述登录埋点事件用来对用户的登录行为进行数据收集,例如,1、用户登录时填写信息的顺序;2、填写某个信息栏的时间信息(停顿时间、填写时间等);3、填写过程是否有跳转行为等。所述页面埋点事件包括按钮点击事件、页面访问事件等,用来收集页面访问时长、按钮点击频次等数据。并通过构建键值对(key-value)的方法进行汇总,例如,用户唯一标识为key值,登录行为数据及页面行为数据分别为value值。
详细地,所述基于所述行为数据集合进行属性特征计算,得到初始特征集合,包括:
根据所述行为数据集合中的时间信息计算时间属性特征;
汇总所述时间属性特征,得到所述初始特征集合。
本发明实施例中,所述属性特征是指用户在页面登录、页面访问时的使用时长、频次等时间属性特征。例如,页面访问的时长特征为:时长=用户访问页面事件结束时间-页面访问开始时间,按钮使用的频次特征为:频次=Σ(某个按钮/页面事件数量)。
本发明一可选实施例中,例如在保险领域,保险代理人在培训课程产品页面登录,并收集保险代理人在页面中对于不同课程产品的行为数据,计算出时长、频次等属性特征,提高了行为数据收集的准确率及效率。
S2、对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像。
本发明实施例中,所述维度转换是指将用户的标签集合中的标签作为维度,将初始特征集合中的特征分配至不同标签下,即第一特征集合是基于预构建的标签集合汇总的数据特征集合。例如,保险领域,所述标签集合包括:代理人职级、所在组织维度、用户人群、性别、年龄、学历等。
具体地,参照图3所示,所述对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像,包括以下步骤S20-S22:
S20、获取所述用户对应的标签集合;
S21、将所述标签集合中的每一个标签作为特征维度,并将所述初始特征集合中的特征与所述特征维度关联,汇总各特征维度下关联的特征,得到所述第一特征集合;
S22、基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像。
本发明实施例中,所述随机森林算法(Random Forest,简称RF)是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,每棵决策树都是一个分类器。以分类问题为例,那么对于一个待分类样本,N棵树会有N个分类结果,而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,从而获得最优的类别。
进一步地,参照图4所示,所述基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像,包括以下步骤S220-S222:
S220、对所述第一特征集合进行随机分组,得到得到多个特征子集;
S221、依次从所述多个特征子集中选取标签作为根节点,利用未被选中的标签对应特征对所述根节点进行划分,得到所述根节点的多个分支节点,根据所述根节点以及所述根节点的多个分支节点构成决策树;
S222、基于所述输出每个节点中标签的权重得分,根据所述权重得分按照从大到小的顺序选取预设个数的标签汇总得到所述用户画像。
本发明一可选实施例中,所述权重得分通过下式计算:
Figure BDA0003639948310000071
其中,D为任一特征子集,a为特征子集中任一特征,Ent(D)为特征子集的信息熵,V为分支节点的个数,Dv为第v个分支节点包含了a用户标签的样本总数。
S3、对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱。
本发明实施例中,知识图谱的基本单位是“实体(Entity)-关系(Relationship)-实体(Entity)”,如果两个节点之间存在关系,会被一条无向边连在一起,其中这个节点称为实体(Entity),这条边称为关系(Relationship)。
详细地,参照图5所示,所述对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱,包括以下步骤S30-S32:
S30、分别对所述登录埋点事件及页面埋点事件构建唯一特征码;
S31、将所述唯一特征码对应埋点事件收集到的特征和所述唯一特征码进行关联,汇总关联后的唯一特征码及特征,得到所述第二特征集合;
S32、将所述用户唯一标识、所述标签集合中的标签、第二特征集合中的特征及唯一特征码作为实体,并构建实体间的关系,得到所述用户知识图谱。
本发明实施例中,所述属性赋值是指对同一类特征进行特征码赋值并关联,例如页面埋点事件1的唯一特征码为YM01,则将页面埋点事件1收集的特征与唯一特征码关联,方便可视化处理及特征的查询。即,第二特征集合是以唯一特征码为维度收集的数据集合。
本发明一可选实施例中,例如,某一用户知识图谱为“用户A-年龄25-登录时长-5分钟”。
S4、对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
本发明实施例中,通过前端代码把用户画像及用户知识图谱进行前端可视化,得到用户数据展示页面,并通过用户数据展示页面进行手动选择来控制展示数据。
进一步地,参照图6所示,所述对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面,包括以下步骤S40-S42:
S40、利用预设的可视化工具生成所述用户画像及所述用户知识图谱的展示框;
S41、利用所述可视化工具生成所述用户画像及所述用户知识图谱中属性的筛选框;
S42、汇总所述展示框及所述筛选框,得到所述用户数据展示页面。
本发明一可选实施例中,所述预设的可视化工具可以为ECharts、D3.js、Chart.js及Ember Charts等。所述展示框用来所述用户画像及所述用户知识图谱,所述筛选框用来对属性标签进行筛选,例如,接收用户对筛选框的操作(如导出数据、重新根据代理人属性标签进行筛选等)。
本发明通过从前端页面直接获取用户的行为数据集合,可以通过行为数据计算得到用户的属性特征,提高了数据获取的及时性。同时,通过构建用户画像及用户知识图谱,便于进行数据分析,提高了数据分析的效率,并且通过可视化处理可以进行直观展示,也进一步提高了数据分析效率。因此本发明提出的用户数据分析及展示方法,可以解决用户数据分析效率较低的问题。
如图7所示,是本发明一实施例提供的用户数据分析及展示装置的功能模块图。
本发明所述用户数据分析及展示装置100可以安装于电子设备中。根据实现的功能,所述用户数据分析及展示装置100可以包括数据收集模块101、第一特征计算模块102、第二特征计算模块103及可视化模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据收集模块101,用于从前端页面获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
所述第一特征计算模块102,用于对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
所述第二特征计算模块103,用于对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
所述可视化模块104,用于对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
详细地,所述用户数据分析及展示装置100各模块的具体实施方式如下:
步骤一、获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合。
本发明实施例中,所述行为数据集合是对前端页面中用户的行为数据进行埋点收集得到的。所述前端页面是指通过HTML,CSS及JavaScript以及衍生出来的各种技术、框架、解决方案,来实现互联网产品的用户交互界面。例如,保险领域中,所述前端页面可以为用来将保险培训课程产品与保险代理人进行交互的界面。
详细地,所述获取用户的行为数据集合之前,所述方法还包括:
在前端页面中构建登录埋点事件及页面埋点事件;
从所述前端页面中获取用户ID作为用户唯一标识,利用所述登录埋点事件收集所述前端页面中的登录行为数据,以及利用所述页面埋点事件收集所述前端页面中的页面行为数据;
基于构建键值对的方法汇总所述用户唯一标识、所述登录行为数据及所述页面行为数据得到所述行为数据集合。
本发明实施例中,所述登录埋点事件用来对用户的登录行为进行数据收集,例如,1、用户登录时填写信息的顺序;2、填写某个信息栏的时间信息(停顿时间、填写时间等);3、填写过程是否有跳转行为等。所述页面埋点事件包括按钮点击事件、页面访问事件等,用来收集页面访问时长、按钮点击频次等数据。并通过构建键值对(key-value)的方法进行汇总,例如,用户唯一标识为key值,登录行为数据及页面行为数据分别为value值。
详细地,所述基于所述行为数据集合进行属性特征计算,得到初始特征集合,包括:
根据所述行为数据集合中的时间信息计算得到时间属性特征;
汇总所述时间属性特征,得到所述初始特征集合。
本发明实施例中,所述属性特征是指用户在页面登录、页面访问时的使用时长、频次等时间属性特征。例如,页面访问的时长特征为:时长=用户访问页面事件结束时间-页面访问开始时间,按钮使用的频次特征为:频次=Σ(某个按钮/页面事件数量)。
本发明一可选实施例中,例如在保险领域,保险代理人在培训课程产品页面登录,并收集保险代理人在页面中对于不同课程产品的行为数据,计算出时长、频次等属性特征,提高了行为数据收集的准确率及效率。
步骤二、对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像。
本发明实施例中,所述维度转换是指将用户的标签集合中的标签作为维度,将初始特征集合中的特征分配至不同标签下,即第一特征集合是基于预构建的标签集合汇总的数据特征集合。例如,保险领域,所述标签集合包括:代理人职级、所在组织维度、用户人群、性别、年龄、学历等。
具体地,所述对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像,包括:
获取所述用户对应的标签集合;
将所述标签集合中的每一个标签作为特征维度,并将所述初始特征集合中的特征与所述特征维度关联,汇总各特征维度下关联的特征,得到所述第一特征集合;
基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像。
本发明实施例中,所述随机森林算法(Random Forest,简称RF)是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,每棵决策树都是一个分类器。以分类问题为例,那么对于一个待分类样本,N棵树会有N个分类结果,而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,从而获得最优的类别。
进一步地,所述基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像,包括:
对所述第一特征集合进行随机分组,得到得到多个特征子集;
依次从所述多个特征子集中选取标签作为根节点,利用未被选中的标签对应特征对所述根节点进行划分,得到所述根节点的多个分支节点,根据所述根节点以及所述根节点的多个分支节点构成决策树;
基于所述输出每个节点中标签的权重得分,根据所述权重得分按照从大到小的顺序选取预设个数的标签汇总得到所述用户画像。
本发明一可选实施例中,所述权重得分通过下式计算:
Figure BDA0003639948310000111
其中,D为任一特征子集,a为特征子集中任一特征,Ent(D)为特征子集的信息熵,V为分支节点的个数,Dv为第v个分支节点包含了a用户标签的样本总数。
步骤三、对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱。
本发明实施例中,知识图谱的基本单位是“实体(Entity)-关系(Relationship)-实体(Entity)”,如果两个节点之间存在关系,会被一条无向边连在一起,其中这个节点称为实体(Entity),这条边称为关系(Relationship)。
详细地,所述对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱,包括:
分别对所述登录埋点事件及页面埋点事件构建唯一特征码;
将所述唯一特征码对应埋点事件收集到的特征和所述唯一特征码进行关联,汇总关联后的唯一特征码及特征,得到所述第二特征集合;
将所述用户唯一标识、所述标签集合中的标签、第二特征集合中的特征及唯一特征码作为实体,并构建实体间的关系,得到所述用户知识图谱。
本发明实施例中,所述属性赋值是指对同一类特征进行特征码赋值并关联,例如页面埋点事件1的唯一特征码为YM01,则将页面埋点事件1收集的特征与唯一特征码关联,方便可视化处理及特征的查询。即,第二特征集合是以唯一特征码为维度收集的数据集合。
本发明一可选实施例中,例如,某一用户知识图谱为“用户A-年龄25-登录时长-5分钟”。
步骤四、对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
本发明实施例中,通过前端代码把用户画像及用户知识图谱进行前端可视化,得到用户数据展示页面,并通过用户数据展示页面进行手动选择来控制展示数据。
进一步地,所述对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面,包括以下步骤S40-S42:
利用预设的可视化工具生成所述用户画像及所述用户知识图谱的展示框;
利用所述可视化工具生成所述用户画像及所述用户知识图谱中属性的筛选框;
汇总所述展示框及所述筛选框,得到所述用户数据展示页面。
本发明一可选实施例中,所述预设的可视化工具可以为ECharts、D3.js、Chart.js及Ember Charts等。所述展示框用来所述用户画像及所述用户知识图谱,所述筛选框用来对属性标签进行筛选,例如,接收用户对筛选框的操作(如导出数据、重新根据代理人属性标签进行筛选等)。
本发明通过从前端页面直接获取用户的行为数据集合,可以通过行为数据计算得到用户的属性特征,提高了数据获取的及时性。同时,通过构建用户画像及用户知识图谱,便于进行数据分析,提高了数据分析的效率,并且通过可视化处理可以进行直观展示,也进一步提高了数据分析效率。因此本发明提出的用户数据分析及展示装置,可以解决用户数据分析效率较低的问题。
如图8所示,是本发明一实施例提供的实现用户数据分析及展示方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信接口12和总线13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如用户数据分析及展示程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如用户数据分析及展示程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如用户数据分析及展示程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信接口12用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
所述总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线13可以分为地址总线、数据总线、控制总线等。所述总线13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图8仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图8示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的用户数据分析及展示程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种用户数据分析及展示方法,其特征在于,所述方法包括:
获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
2.如权利要求1所述的用户数据分析及展示方法,其特征在于,所述获取用户的行为数据集合之前,所述方法还包括:
在前端页面中构建登录埋点事件及页面埋点事件;
从所述前端页面中获取用户ID作为用户唯一标识,利用所述登录埋点事件收集所述前端页面中的登录行为数据,以及利用所述页面埋点事件收集所述前端页面中的页面行为数据;
基于构建键值对的方法汇总所述用户唯一标识、所述登录行为数据及所述页面行为数据得到所述行为数据集合。
3.如权利要求1中所述的用户数据分析及展示方法,其特征在于,所述基于所述行为数据集合进行属性特征计算,得到初始特征集合,包括:
根据所述行为数据集合中的时间信息计算时间属性特征;
汇总所述时间属性特征,得到所述初始特征集合。
4.如权利要求2所述的用户数据分析及展示方法,其特征在于,所述对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像,包括:
获取所述用户对应的标签集合;
将所述标签集合中的每一个标签作为特征维度,并将所述初始特征集合中的特征与所述特征维度关联,汇总各特征维度下关联的特征,得到所述第一特征集合;
基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像。
5.如权利要求4所述的用户数据分析及展示方法,其特征在于,所述基于随机森林算法从所述第一特征集合中选取关键特征构建用户画像,包括:
对所述第一特征集合进行随机分组,得到得到多个特征子集;
依次从所述多个特征子集中选取标签作为根节点,利用未被选中的标签对应特征对所述根节点进行划分,得到所述根节点的多个分支节点,根据所述根节点以及所述根节点的多个分支节点构成决策树;
基于所述输出每个节点中标签的权重得分,根据所述权重得分按照从大到小的顺序选取预设个数的标签汇总得到所述用户画像。
6.如权利要求4所述的用户数据分析及展示方法,其特征在于,所述对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱,包括:
分别对所述登录埋点事件及页面埋点事件构建唯一特征码;
将所述唯一特征码对应埋点事件收集到的特征和所述唯一特征码进行关联,汇总关联后的唯一特征码及特征,得到所述第二特征集合;
将所述用户唯一标识、所述标签集合中的标签、第二特征集合中的特征及唯一特征码作为实体,并构建实体间的关系,得到所述用户知识图谱。
7.如权利要求1所述的用户数据分析及展示方法,其特征在于,所述对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面,包括:
利用预设的可视化工具生成所述用户画像及所述用户知识图谱的展示框;
利用所述可视化工具生成所述用户画像及所述用户知识图谱中属性的筛选框;
汇总所述展示框及所述筛选框,得到所述用户数据展示页面。
8.一种用户数据分析及展示装置,其特征在于,所述装置包括:
数据收集模块,用于获取用户的行为数据集合,基于所述行为数据集合进行属性特征计算,得到初始特征集合;
第一特征计算模块,用于对所述初始特征集合进行维度转换,得到第一特征集合,并根据所述第一特征集合构建用户画像;
第二特征计算模块,用于对所述初始特征集合进行属性赋值,得到第二特征集合,并基于所述第二特征集合构建用户知识图谱;
可视化模块,用于对所述用户画像及所述用户知识图谱进行可视化处理,得到用户数据展示页面。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的用户数据分析及展示方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的用户数据分析及展示方法。
CN202210512477.2A 2022-05-12 2022-05-12 用户数据分析及展示方法、装置、电子设备及存储介质 Active CN114841165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210512477.2A CN114841165B (zh) 2022-05-12 2022-05-12 用户数据分析及展示方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210512477.2A CN114841165B (zh) 2022-05-12 2022-05-12 用户数据分析及展示方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114841165A true CN114841165A (zh) 2022-08-02
CN114841165B CN114841165B (zh) 2023-06-23

Family

ID=82570540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210512477.2A Active CN114841165B (zh) 2022-05-12 2022-05-12 用户数据分析及展示方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114841165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821287A (zh) * 2023-08-28 2023-09-29 湖南创星科技股份有限公司 基于知识图谱和大语言模型的用户心理画像系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021180062A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 意图识别方法及电子设备
CN113505936A (zh) * 2021-07-26 2021-10-15 平安信托有限责任公司 项目审批结果的预测方法、装置、设备及存储介质
CN114357184A (zh) * 2021-12-21 2022-04-15 讯飞智元信息科技有限公司 事项推荐方法及相关装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021180062A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 意图识别方法及电子设备
CN113505936A (zh) * 2021-07-26 2021-10-15 平安信托有限责任公司 项目审批结果的预测方法、装置、设备及存储介质
CN114357184A (zh) * 2021-12-21 2022-04-15 讯飞智元信息科技有限公司 事项推荐方法及相关装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821287A (zh) * 2023-08-28 2023-09-29 湖南创星科技股份有限公司 基于知识图谱和大语言模型的用户心理画像系统及方法
CN116821287B (zh) * 2023-08-28 2023-11-17 湖南创星科技股份有限公司 基于知识图谱和大语言模型的用户心理画像系统及方法

Also Published As

Publication number Publication date
CN114841165B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN115146865A (zh) 基于人工智能的任务优化方法及相关设备
CN113806434A (zh) 大数据处理方法、装置、设备及介质
CN111831708A (zh) 基于缺失数据的样本分析方法、装置、电子设备及介质
CN115081538A (zh) 基于机器学习的客户关系识别方法、装置、设备及介质
CN113886204A (zh) 用户行为数据收集方法、装置、电子设备及可读存储介质
CN114398557A (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN115238670A (zh) 信息文本抽取方法、装置、设备及存储介质
CN116362684A (zh) 一种基于图书馆集群的图书管理方法、装置、设备及存储介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN114841165B (zh) 用户数据分析及展示方法、装置、电子设备及存储介质
CN113706172A (zh) 基于客户行为的投诉解决方法、装置、设备及存储介质
CN116521867A (zh) 文本聚类方法、装置、电子设备及存储介质
CN115641186A (zh) 直播产品偏好的智能分析方法、装置、设备及存储介质
CN115966274A (zh) 问卷题目筛选的方法、装置、电子设备及存储介质
CN115862791A (zh) 基于健康测评的问卷标签生成方法、装置、设备及介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN114490666A (zh) 基于数据需求的图表生成方法、装置、设备及存储介质
CN114518993A (zh) 基于业务特征的系统性能监控方法、装置、设备及介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN112528112B (zh) 数据收集及分析方法、装置、电子设备及存储介质
CN115204158B (zh) 数据隔离应用方法、装置、电子设备及存储介质
CN113191455B (zh) 边缘计算盒子选举方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant