CN114372183A - 一种基于高维数据投影的用户画像分析方法 - Google Patents

一种基于高维数据投影的用户画像分析方法 Download PDF

Info

Publication number
CN114372183A
CN114372183A CN202111576646.0A CN202111576646A CN114372183A CN 114372183 A CN114372183 A CN 114372183A CN 202111576646 A CN202111576646 A CN 202111576646A CN 114372183 A CN114372183 A CN 114372183A
Authority
CN
China
Prior art keywords
data
cleaning
crawling
target
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111576646.0A
Other languages
English (en)
Inventor
成生辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Big Data SRIBD
Original Assignee
Shenzhen Research Institute of Big Data SRIBD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Big Data SRIBD filed Critical Shenzhen Research Institute of Big Data SRIBD
Priority to CN202111576646.0A priority Critical patent/CN114372183A/zh
Publication of CN114372183A publication Critical patent/CN114372183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例属于计算机技术领域,涉及一种基于高维数据投影的用户画像分析方法。此外,本申请还涉及区块链技术,用户的目标爬取数据可存储于区块链中。本申请使用一个平台能够完成以往需要多个平台或工具才能完成的事情,极大的提高了效率;平台采用网页的形式,用户只需要使用电脑的浏览器,不再需要额外下载别的软件,大大减少了用户的接受成本;平台集成的多种数据清洗、数据分析、可视化结果可供用户自行选择,大大降低了可视化的门槛。

Description

一种基于高维数据投影的用户画像分析方法
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于高维数据投影的用户画像分析方法。
背景技术
将数据可视化正变得越来越重要。各种组织通常具有由其支配的大量数据集,但是它们缺乏对数据进行可视化的有意义的方式。对于小数据集而言创建简单的条形图可能是相对容易的,但是随着数据集大小增加以及数据集内数据的特征变化,创建允许某人快速且有效地将数据可视化的框架的任务变得令人生畏。
现有的数据可视化方法普遍依靠技术人员编写爬虫程序为主,也有部分采用了可视化的方法,不过都只支持采集规则的可视化生成,没有流程化、步骤化的体现,在开发阶段的沟通成本也相对较高。
发明内容
本申请实施例的目的在于提出一种基于高维数据投影的用户画像分析方法,以解决传统的数据可视化方法无法满足普通用户学习的需要,成本较高的问题。
为了解决上述技术问题,本申请实施例提供一种基于高维数据投影的用户画像分析方法,采用了如下所述的技术方案:
接收用户终端发送的携带有目标网址信息的数据可视化请求;
响应所述数据可视化请求,并基于数据爬虫工具获取与所述目标网址信息相对应的初始爬取结果;
对所述初始爬取结果进行结果筛选操作,得到目标爬取结果;
下载与所述目标爬取结果相对应的初始爬取数据;
基于数据清洗方法对所述初始爬取数据进行数据清洗操作,得到目标爬取数据;
获取与所述目标爬取数据相对应的可视化结果;
基于所述可视化结果向所述用户终端输出所述目标爬取数据。
为了解决上述技术问题,本申请实施例还提供一种可视化网络爬虫装置,采用了如下所述的技术方案:
请求接收模块,用于接收用户终端发送的携带有目标网址信息的数据可视化请求;
请求响应模块,用于响应所述数据可视化请求,并基于数据爬虫工具获取与所述目标网址信息相对应的初始爬取结果;
结果筛选模块,用于对所述初始爬取结果进行结果筛选操作,得到目标爬取结果;
数据下载模块,用于下载与所述目标爬取结果相对应的初始爬取数据;
数据清洗模块,用于基于数据清洗方法对所述初始爬取数据进行数据清洗操作,得到目标爬取数据;
模版获取模块,用于获取与所述目标爬取数据相对应的可视化结果;
数据输出模块,用于基于所述可视化结果向所述用户终端输出所述目标爬取数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于高维数据投影的用户画像分析方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于高维数据投影的用户画像分析方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供了一种基于高维数据投影的用户画像分析方法,包括:接收用户终端发送的携带有目标网址信息的数据可视化请求;响应所述数据可视化请求,并基于数据爬虫工具获取与所述目标网址信息相对应的初始爬取结果;对所述初始爬取结果进行结果筛选操作,得到目标爬取结果;下载与所述目标爬取结果相对应的初始爬取数据;基于数据清洗方法对所述初始爬取数据进行数据清洗操作,得到目标爬取数据;获取与所述目标爬取数据相对应的可视化结果;基于所述可视化结果向所述用户终端输出所述目标爬取数据。使用一个平台能够完成以往需要多个平台或工具才能完成的事情,极大的提高了效率;平台采用网页的形式,用户只需要使用电脑的浏览器,不再需要额外下载别的软件,大大减少了用户的接受成本;平台集成的多种数据清洗、数据分析、可视化结果可供用户自行选择,大大降低了可视化的门槛。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的基于高维数据投影的用户画像分析方法的实现流程图;
图2是图1中步骤S105的实现流程图;
图3是图2中步骤S202的实现流程图;
图4是图2中步骤S203的实现流程图;
图5是本申请实施例二提供的可视化网络爬虫装置的结构示意图;
图6根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,示出了本申请实施例一提供的基于高维数据投影的用户画像分析方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的基于高维数据投影的用户画像分析方法,包括以下步骤:
步骤S101:接收用户终端发送的携带有目标网址信息的数据可视化请求。
在本发明实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本发明。
在本申请实施例中,用户可以通过上述用户终端打开本申请提供的平台所对应的网址,通过点击页面上的数据爬虫模块即可发送上述携带有目标网址信息的数据可视化请求。
在本申请实施例中,目标网址信息指的是用户想要爬取数据的网站地址。
步骤S102:响应数据可视化请求,并基于数据爬虫工具获取与目标网址信息相对应的初始爬取结果。
在本申请实施例中,数据爬虫工具指的是代码编写的爬虫或现有的爬虫软件。
在本申请实施例中,初始爬取结果也可以通过直接购买数据源获取。
步骤S103:对初始爬取结果进行结果筛选操作,得到目标爬取结果。
在本申请实施例中,数据爬虫工具会“抓取”多个疑似目标结果的数据,即上述初始爬取结果,由于初始爬取结果的数据存在较多的干扰数据,因此需要对初始抓取结果进行筛选,以排除该干扰数据。
在本申请实施例中,结果筛选操作可以是通过用户手动筛选最终需要的结果;结果筛选操作还可以是基于深度学习的智能筛选方式实现。
步骤S104:下载与目标爬取结果相对应的初始爬取数据。
步骤S105:基于数据清洗方法对初始爬取数据进行数据清洗操作,得到目标爬取数据。
在本申请实施例中,数据清洗操作指的是使用Excel等工具进行简单的处理或使用代码完成复杂的处理。
步骤S106:获取与目标爬取数据相对应的可视化结果。
在本申请实施例中,可视化结果可以是通过桌面软件或者编写的代码进行实现。
步骤S107:基于可视化结果向用户终端输出目标爬取数据。
在本申请实施例中,当用户获取目标爬取数据后,可以对该可视化结果进行进一步修改与优化。
在本申请实施例中,用户可以将该可视化结果存储至本地,或者将可视化结果分享至任意第三方平台进行共享。
本申请提供了一种基于高维数据投影的用户画像分析方法,包括:接收用户终端发送的携带有目标网址信息的数据可视化请求;响应数据可视化请求,并基于数据爬虫工具获取与目标网址信息相对应的初始爬取结果;对初始爬取结果进行结果筛选操作,得到目标爬取结果;下载与目标爬取结果相对应的初始爬取数据;基于数据清洗方法对初始爬取数据进行数据清洗操作,得到目标爬取数据;获取与目标爬取数据相对应的可视化结果;基于可视化结果向用户终端输出目标爬取数据。使用一个平台能够完成以往需要多个平台或工具才能完成的事情,极大的提高了效率;平台采用网页的形式,用户只需要使用电脑的浏览器,不再需要额外下载别的软件,大大减少了用户的接受成本;平台集成的多种数据清洗、数据分析、可视化结果可供用户自行选择,大大降低了可视化的门槛。
在本实施例的一些可选的实现方式中,数据爬虫工具包括基于scrapy框架的爬虫、基于selenium框架的爬虫以及基于伪造headers的爬虫。
继续参阅图2,示出了图1中步骤S105的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S105具体包括:步骤S201、步骤S202、步骤S203、步骤S204和步骤S205。
在步骤S201中,读取本地数据库,在本地数据库中获取配置好的数据清洗规则文件。
在本申请实施例中,数据清洗规则文件包括:
rule_id:规则流水号;
table_name:数据表名,即该规则所属的数据表名;
bit_offset:规则序号,为二进位偏移量,bit_offset的作用,用于给数据打标签;
rule_code:数据清洗规则伪代码;
description:数据清洗规则的中文描述;
op_level:对脏数据的处理级别;
is_active:规则是否生效。
在本申请实施例中,每一条数据清洗规则,都设置了table_name字段,例如table_name为r_gmv_alipay时,表示该数据清洗规则应用于表名为r_gmv_alipay的数据表;同时每一条数据清洗规则还设置了规则序号bit_offset字段,对于每一个table_name,例如r_gmv_alipay,其对应的数据清洗规则的规则序号按顺序排列,相互之间不重复。但是不同的数据表名的数据清洗规则,其规则序号则不做要求。数据清洗规则文件只需要填写一次,之后可以方便的进行更新。
在步骤S202中,基于数据清洗规则文件生成数据清洗代码。
在本申请实施例中,针对每一份数据表,根据其数据表名,都可以在数据清洗规则文件中找到数据表名相同的数据清洗规则,具体地,每条数据清洗规则都包含该规则所属的数据表名table_name的字段,针对每一份数据表,根据本数据表的表名table_name到数据清洗规则文件中查找包含该table_name的数据清洗规则,找到数据清洗规则文件中所有适用本数据表的数据清洗规则。然后根据这些数据清洗规则,以及本数据表的字段信息生成分离脏数据的数据清洗代码。本申请数据清洗代码的生成是采用由shell编程语言开发的清洗代码自动生成工具来自动生成的,对数据清洗规则文件中的内容进行一系列的转换、组合,生成符合分布式计算平台语法的代码。
在步骤S203中,执行数据清洗代码,对初始爬取数据打上标签。
在本申请实施例中,将生成的数据清洗代码,提交到分布式计算平台运行,得到清洗后的数据,其中每条数据都被打上了标签。
在本申请实施例中,待清洗数据的初始标签的默认值是0,逐条匹配本数据表适用的数据清洗规则时,每触发一条数据清洗规则,则其标签值增加2bit_offset,否则其标签值不变,即如果未触发任何一条数据清洗规则,其标签值始终为0。
在步骤S204中,解析标签,得到干扰数据。
在本申请实施例中,用两种进制分别表示为:
十进制表示法:21+23+24=26
二进制表示法:
21=00000010
23=00001000
24=00010000
26=00011010
从算式中,我们可以看出26是21、23、24这三个数的和,同时当26与21进行运算的时候,结果为21;当26与23进行与运算的时候,结果为23;当26与24进行与运算的时候,结果为24。不难发现这样的规律:26与这三个数中的任何一个进行与运算的结果均为该数字本身,而与其它任何数进行与运算,结果肯定不为其本身。
而数据的标签值=2bit_offset_1+2bit_offset_2+...+2bit_offset_n,其中n为bit_offset的序号。本申请解标签的办法包括步骤:
将标签值和2bit_offset_1,2bit_offset_2,...,2bit_offset_n分别做与运算,如果得到的结果为其本身,则说明该标签值对应的数据触发了该条数据清洗规则,该数据是脏数据。通过标签解析,能够分析出每一条数据触发了哪些数据清洗规则,将触发了数据清洗规则的数据统统归类为脏数据,并对脏数据进行清洗。
在步骤S205中,删除干扰数据,得到目标爬取数据。
在本申请实施例中,对脏数据进行清洗,是将脏数据从原数据表中剪切出来转移存储到专门的脏数据表中,该专门的脏数据表每条脏数据都标明其触发的数据清洗规则的规则序号。由于已经知道每一条脏数据所触发的数据清洗规则序号,因此,可以使用SQL语言,按数据清洗规则汇总,得出每条规则清洗的脏数据的数量。
继续参阅图3,示出了图2中步骤S202的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S202具体包括:步骤S301、步骤S302以及步骤S303。
步骤S301:从数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则,生成临时文件。
在本申请实施例中,首先将数据清洗规则文件读入内存,使用grep(linux操作系统自带的)工具从打开的数据清洗规则文件中,查找与本次清洗数据表的表名匹配,且当前有效(判断规则是否有效,是通过表1中的最后一列,is_valid=’Y’表示有效,is_valid=’N’表示无效)的数据清洗规则,将找到的数据清洗规则保存到一个临时文件,供后续使用
步骤S302:读取临时文件的第一条数据清洗规则,将该数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分,生成针对该数据清洗规则的清洗代码。
在本申请实施例中,将临时文件读入内存,从打开的临时文件中读出第一条数据清洗规则,赋值给一个变量,将该变量放入一个条件判断语句中,该条件判断语句的条件部分是数据清洗规则伪代码rule_code,判断后执行部分是为待清洗数据打上标签。
步骤S303:遍历临时文件中所有的数据清洗规则,为每一条数据清洗规则生成对应的清洗代码,组合成完整的待清洗数据表的清洗代码。
在本申请实施例中,遍历剩余的规则,对每一条规则执行步骤S302的操作,将所有的代码合并,组合成完整的清洗代码。
在本申请实施例中,本申请使用的是分布式计算平台,针对分布式计算平台的特性,为了让每一步计算都能充分的并行执行,通常在代码生成过程中会尽量避免全局排序的操作、避免数据倾斜、避免多对多的关联,同时使用分区剪枝的特性等方法来降低参与计算的数据量,提高代码运行的效率。关于清洗代码的生成,无论是采用生成工具还是编程,都需要重点考虑如何针对分布式计算平台的特性,做到降低参与计算的数据量,提高代码运行的效率,这里不再赘述。
继续参阅图4,示出了图2中步骤S203的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S203具体包括:步骤S401、步骤S402、步骤S403
步骤S401:读取待清洗数据表中的一条数据,为数据设置初始标签值。
步骤S402:数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号。
步骤S403:遍历待清洗数据表的表名对应的每一个数据清洗规则。
步骤S404:读取待清洗数据表中下一条数据,直至遍历待清洗数据表中的每一条数据,为每一条待清洗数据打上标签。
需要强调的是,为进一步保证上述目标爬取数据的私密和安全性,上述目标爬取数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图5,作为对上述图1所示方法的实现,本申请提供了一种可视化网络爬虫装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的可视化网络爬虫装置100包括:请求接收模块110、请求响应模块120、结果筛选模块130、数据下载模块140、数据清洗模块150、模版获取模块160以及数据输出模块170。其中:
请求接收模块110,用于接收用户终端发送的携带有目标网址信息的数据可视化请求;
请求响应模块120,用于响应数据可视化请求,并基于数据爬虫工具获取与目标网址信息相对应的初始爬取结果;
结果筛选模块130,用于对初始爬取结果进行结果筛选操作,得到目标爬取结果;
数据下载模块140,用于下载与目标爬取结果相对应的初始爬取数据;
数据清洗模块150,用于基于数据清洗方法对初始爬取数据进行数据清洗操作,得到目标爬取数据;
模版获取模块160,用于获取与目标爬取数据相对应的可视化结果;
数据输出模块170,用于基于可视化结果向用户终端输出目标爬取数据。
在本发明实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本发明。
在本申请实施例中,用户可以通过上述用户终端打开本申请提供的平台所对应的网址,通过点击页面上的数据爬虫模块即可发送上述携带有目标网址信息的数据可视化请求。
在本申请实施例中,目标网址信息指的是用户想要爬取数据的网站地址。
在本申请实施例中,数据爬虫工具指的是代码编写的爬虫或现有的爬虫软件。
在本申请实施例中,初始爬取结果也可以通过直接购买数据源获取。
在本申请实施例中,数据爬虫工具会“抓取”多个疑似目标结果的数据,即上述初始爬取结果,由于初始爬取结果的数据存在较多的干扰数据,因此需要对初始抓取结果进行筛选,以排除该干扰数据。
在本申请实施例中,结果筛选操作可以是通过用户手动筛选最终需要的结果;结果筛选操作还可以是基于深度学习的智能筛选方式实现。
在本申请实施例中,数据清洗操作指的是使用Excel等工具进行简单的处理或使用代码完成复杂的处理。
在本申请实施例中,可视化结果可以是通过桌面软件或者编写的代码进行实现。
在本申请实施例中,当用户获取目标爬取数据后,可以对该可视化结果进行进一步修改与优化。
在本申请实施例中,用户可以将该可视化结果存储至本地,或者将可视化结果分享至任意第三方平台进行共享。
本申请提供了一种可视化网络爬虫装置,使用一个平台能够完成以往需要多个平台或工具才能完成的事情,极大的提高了效率;平台采用网页的形式,用户只需要使用电脑的浏览器,不再需要额外下载别的软件,大大减少了用户的接受成本;平台集成的多种数据清洗、数据分析、可视化结果可供用户自行选择,大大降低了可视化的门槛。
在本实施例的一些可选的实现方式中,数据爬虫工具包括基于scrapy框架的爬虫、基于selenium框架的爬虫以及基于伪造headers的爬虫。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于高维数据投影的用户画像分析方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述基于高维数据投影的用户画像分析方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请提供的计算机设备,使用一个平台能够完成以往需要多个平台或工具才能完成的事情,极大的提高了效率;平台采用网页的形式,用户只需要使用电脑的浏览器,不再需要额外下载别的软件,大大减少了用户的接受成本;平台集成的多种数据清洗、数据分析、可视化结果可供用户自行选择,大大降低了可视化的门槛。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于高维数据投影的用户画像分析方法的步骤。
本申请提供的计算机可读存储介质,使用一个平台能够完成以往需要多个平台或工具才能完成的事情,极大的提高了效率;平台采用网页的形式,用户只需要使用电脑的浏览器,不再需要额外下载别的软件,大大减少了用户的接受成本;平台集成的多种数据清洗、数据分析、可视化结果可供用户自行选择,大大降低了可视化的门槛。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (6)

1.一种基于高维数据投影的用户画像分析方法,其特征在于,包括下述步骤:
接收用户终端发送的携带有目标网址信息的数据可视化请求;
响应所述数据可视化请求,并基于数据爬虫工具获取与所述目标网址信息相对应的初始爬取结果;
对所述初始爬取结果进行结果筛选操作,得到目标爬取结果;
下载与所述目标爬取结果相对应的初始爬取数据;
基于数据清洗方法对所述初始爬取数据进行数据清洗操作,得到目标爬取数据;
获取与所述目标爬取数据相对应的可视化结果;
基于所述可视化结果向所述用户终端输出所述目标爬取数据。
2.根据权利要求1所述的基于高维数据投影的用户画像分析方法,其特征在于,所述数据爬虫工具包括基于scrapy框架的爬虫、基于selenium框架的爬虫以及基于伪造headers的爬虫。
3.根据权利要求1所述的基于高维数据投影的用户画像分析方法,其特征在于,所述基于数据清洗方法对所述初始爬取数据进行数据清洗操作,得到目标爬取数据的步骤,具体包括下述步骤:
读取本地数据库,在所述本地数据库中获取配置好的数据清洗规则文件;
基于所述数据清洗规则文件生成数据清洗代码;
执行所述数据清洗代码,对所述初始爬取数据打上标签;
解析所述标签,得到干扰数据;
删除所述干扰数据,得到所述目标爬取数据。
4.根据权利要求3所述的基于高维数据投影的用户画像分析方法,其特征在于,所述基于所述数据清洗规则文件生成数据清洗代码的步骤,具体包括下述步骤:
从所述数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则,生成临时文件;
读取所述临时文件的第一条数据清洗规则,将该数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分,生成针对该数据清洗规则的清洗代码;
遍历所述临时文件中所有的数据清洗规则,为每一条数据清洗规则生成对应的清洗代码,组合成完整的待清洗数据表的清洗代码。
5.根据权利要求3所述的基于高维数据投影的用户画像分析方法,其特征在于,所述执行所述数据清洗代码,对所述初始爬取数据打上标签的步骤,具体包括下述步骤:
读取待清洗数据表中的一条数据,为所述数据设置初始标签值;
所述数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号;
遍历待清洗数据表的表名对应的每一个数据清洗规则;
读取待清洗数据表中下一条数据,直至遍历待清洗数据表中的每一条数据,为每一条待清洗数据打上标签。
6.根据权利要求5所述的基于高维数据投影的用户画像分析方法,其特征在于,在所述基于数据清洗方法对所述初始爬取数据进行数据清洗操作,得到目标爬取数据的步骤之后还包括:
将所述目标爬取数据存储至区块链中。
CN202111576646.0A 2021-12-22 2021-12-22 一种基于高维数据投影的用户画像分析方法 Pending CN114372183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111576646.0A CN114372183A (zh) 2021-12-22 2021-12-22 一种基于高维数据投影的用户画像分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111576646.0A CN114372183A (zh) 2021-12-22 2021-12-22 一种基于高维数据投影的用户画像分析方法

Publications (1)

Publication Number Publication Date
CN114372183A true CN114372183A (zh) 2022-04-19

Family

ID=81140280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111576646.0A Pending CN114372183A (zh) 2021-12-22 2021-12-22 一种基于高维数据投影的用户画像分析方法

Country Status (1)

Country Link
CN (1) CN114372183A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633324A (zh) * 2023-11-03 2024-03-01 北京东方通网信科技有限公司 一种自定义的可视化爬虫配置方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633324A (zh) * 2023-11-03 2024-03-01 北京东方通网信科技有限公司 一种自定义的可视化爬虫配置方法

Similar Documents

Publication Publication Date Title
US7363578B2 (en) Method and apparatus for mapping a data model to a user interface model
CN105224606A (zh) 一种用户标识的处理方法及装置
CN107066246B (zh) 一种软件开发方法及装置
CN111258563A (zh) 一种接口文档的生成方法、装置、存储介质及电子设备
CN110968305A (zh) 小程序可视化生成方法、装置、设备及存储介质
EP3522004A2 (en) Code execution and data processing pipeline
WO2009065209A1 (en) Systems and methods for transforming a business process into reusable services
CN113254445A (zh) 实时数据存储方法、装置、计算机设备及存储介质
CN111159183B (zh) 报表生成方法、电子装置及计算机可读存储介质
CN114372183A (zh) 一种基于高维数据投影的用户画像分析方法
CN111078228A (zh) 网页到小程序的转换方法、装置、服务器及存储介质
CN111813517A (zh) 任务队列的分配方法、装置、计算机设备及介质
CN110647577A (zh) 数据立方体的分区方法、装置、计算机设备及存储介质
CN114281707A (zh) 造数方法、业务应用测试方法及其相关设备
US8429182B2 (en) Populating a task directed community in a complex heterogeneous environment based on non-linear attributes of a paradigmatic cohort member
CN111752958A (zh) 智能关联标签方法、装置、计算机设备及存储介质
CN114372184A (zh) 一种帕累托优化的可视化分析方法
CN113569121A (zh) 一种可视化网络爬虫方法、装置、计算机设备及存储介质
CN114625372A (zh) 组件自动编译方法、装置、计算机设备及存储介质
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN114528443A (zh) 基于知识图谱的信息挖掘方法及其相关设备
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN109542986B (zh) 网络数据的要素归一化方法、装置、设备及存储介质
WO2019118606A1 (en) Map visualization for well data
US20150355903A1 (en) Visualization of code units across disparate systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination