CN116467393A - 数据处理方法、装置、计算机设备及存储介质 - Google Patents
数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116467393A CN116467393A CN202310389032.4A CN202310389032A CN116467393A CN 116467393 A CN116467393 A CN 116467393A CN 202310389032 A CN202310389032 A CN 202310389032A CN 116467393 A CN116467393 A CN 116467393A
- Authority
- CN
- China
- Prior art keywords
- data
- label
- data items
- items
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 230000000007 visual effect Effects 0.000 claims abstract description 14
- 238000013479 data entry Methods 0.000 claims description 43
- 238000012800 visualization Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 abstract description 10
- 230000004888 barrier function Effects 0.000 abstract description 4
- 230000009193 crawling Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000007789 sealing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 229910052711 selenium Inorganic materials 0.000 description 2
- 239000011669 selenium Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据处理方法、装置、计算机设备及存储介质,该方法包括:采集数据条目,将数据条目缓存至数据仓库,调取数据仓库中的数据条目进行清洗,得到目标数据集,基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系,对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理,获取查询请求,确定与查询请求对应的标签,并基于标签推送可视化处理结果。本发明提供的方法,可以广泛爬取全网电商数据信息,打通不同平台的商品信息壁垒;对数据进行汇集、归类和分析,支持行业专家深度解读市场变化,满足个性化查询功能需求。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
随着电商行业的蓬勃发展,众多的电商销售琳琅满目的商品。由于商品数据源过多、数据描述口径不统一、数据更新频率不同等问题,使得专业人士收集商品信息的采集效率低下。
另外,由于不同平台之间的商品信息互不相通,专业人士在需要对电商商品进行综合分析、市场解读时,无法有效汇集、归类各渠道商品信息进行汇总分析。
发明内容
为解决上述问题,本申请实施例提供了一种数据处理方法、装置、设备及存储介质,通过实时抓取全网电商数据,对数据进行汇集、归类后实现个性化推荐,从而提高数据处理效果。
本申请实施例采用下述技术方案:
第一方面,提供了一种数据处理方法,该方法包括:
采集数据条目,将数据条目缓存至数据仓库;
调取数据仓库中的数据条目进行清洗,得到目标数据集;
基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系;
对所述目标数据集进行监控,当监控到所述目标数据集中的所述数据条目发生变更时,基于更新后的所述数据条目与所述标签的对应关系进行可视化处理;获取查询请求,确定与查询请求对应的标签,并基于所述标签推送可视化处理结果。
第二方面,提供了一种数据处理装置,该装置包括:
数据条目采集单元,用于采集数据条目,将数据条目缓存至数据仓库;
清洗单元,用于调取数据仓库中的数据条目进行清洗,得到目标数据集;
打标单元,用于基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系;
处理单元,用于对所述目标数据集进行监控,当监控到所述目标数据集中的所述数据条目发生变更时,基于更新后的所述数据条目与所述标签的对应关系进行可视化处理;
推送单元,用于获取查询请求,确定与查询请求对应的标签,并基于所述标签推送可视化处理结果。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述数据处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器指令时实现上述数据处理方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请提供的数据处理方法,采集数据条目,将数据条目缓存至数据仓库,调取数据仓库中的数据条目进行清洗,得到目标数据集,基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系,对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理,获取查询请求,确定与查询请求对应的标签,并基于所述标签推送可视化处理结果。本申请提供的数据处理方法,可以广泛爬取全网电商数据信息,打通不同平台的商品信息壁垒;对数据进行汇集、归类和分析,支持行业专家深度解读市场变化,满足个性化查询功能需求。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式并配合附图详细说明如后。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的一个实施例的数据处理方法的应用环境示意图;
图2示出了根据本申请的一个实施例的数据处理方法的流程示意图;
图3示出了根据本申请的另一个实施例的数据处理方法的流程示意图;
图4示出了根据本申请的一个实施例的数据处理装置的结构示意图;
图5示出了根据本申请的一个实施例的计算机设备的结构示意图;
图6示出了根据本申请的另一个实施例的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请的构思在于:通过实时监控全网电商数据,对数据进行汇集、归类后打通不同平台的商品信息。利用数据仓库对数据进行清洗、分析后,支持专业人士深度解读市场变化,满足个性化查询功能需求。
本申请实施例提供的数据处理方法,可应用在如图1的应用环境中,其中,客户端通过网络于服务端进行通信。服务端可以通过采集数据条目,将数据条目缓存至数据仓库,调取数据仓库中的数据条目进行清洗,得到目标数据集,基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系,对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理。服务端可以从客户端获取查询请求,确定与查询请求对应的标签,并基于标签推送可视化处理结果。客户端可以向服务端发送查询请求以获取相应的数据条目。客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本申请进行详细的描述。
图2示出了本申请一个实施例提出的数据处理方法。根据图2所示,该方法包括步骤S210~步骤S250:
步骤S210,采集数据条目,将数据条目缓存至数据仓库。
众多的电商平台销售琳琅满目的商品,因此需要实时监控采集全网电商数据条目。可以但不限于通过python语言爬取全网电商数据条目。Python语言具有极其丰富且涵盖各种功能的类库,通过python语言的数据采集策略和防屏蔽规则,可以较好地实现JS逆向解密,解决封账号、封IP地址、滑块验证或验证码等难点,从而从全网网络抓取数据条目。
从全网抓取的数据条目被中转落存至数据仓库中。可以但不限于通过IBMWebSphere MQ将采集的数据条目缓存至数据仓库中。
步骤S220,调取数据仓库中的数据条目进行清洗,得到目标数据集。
爬取到的全网数据条目数量庞大,需要对数据条目进行清洗,以筛选出有效数据条目作为目标数据集。对数据条目的清洗可以但不限于:对数据条目进行查重,去除重复采集的相同数据条目;对数据条目进行过滤,去除无效的垃圾数据条目;对数据条目进行分类,去除与处理行业不相关的无关数据条目等。清洗后得到的目标数据集作为后续进行处理分析的基础数据集。
步骤S230,基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系。
预设的标签用于指示为了进行不同维度场景分析而预先设定的标签。预设的标签可以但不限于包括时间维度标签、品牌维度标签、价格维度标签、活动维度标签和情感维度标签等。举例来说,时间维度标签可以但不限于包括:“具体的时间日期”、“时间段”等;品牌维度标签可以但不限于包括:“品牌名称”、“型号系列名称”等;价格维度标签可以但不限于包括:“价格区间”等;活动维度标签可以但不限于包括:“促销活动”等;情感维度标签可以但不限于包括:“节日”、“祝福语”等。上述列举仅为示意性举例,本申请实施例并不局限于此。
基于预设的标签,对目标数据集中的各个数据条目进行打标,从而为各数据条目匹配到对应的标签,形成数据条目与标签的对应关系。该对应关系可以为多对多关系。即一例数据条目可以被匹配多个标签,从而形成一例数据条目与多个标签的对应关系;一个标签也可以被标注给多例数据条目,从而形成多例数据条目与一个标签的对应关系。基于各数据条目与标签的对应关系,总能确定一例数据条目与一个标签是否能够对应。
步骤S240,对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理。
服务端实时监控目标数据集中数据条目的变化状态。也就是说,本申请的技术方案以目标数据集中的数据条目有更新作为触发可视化处理的驱动条件。一旦服务端监控到目标数据集中的某条数据条目发生了变化(该变化可以但不限于包括该数据条目的价格、销量、评论等发生了改变),则意味着对于该条数据条目来说,之前已经匹配好的该条数据条目与标签的对应关系可能发生改变。那么服务端基于更新后的该条数据条目重新与标签进行对应,并利用更新后的数据条目与标签的对应关系进行可视化处理。对于更新后的数据条目与标签进行对应的方式,仍然可以延续前述的打标过程,此处不再赘述。
通过数据条目更新作为触发可视化处理的驱动条件,能够使服务端处理得到的可视化结果总保持最新更新状态,进而实现了数据处理结果的实时更新。
可视化处理可以但不限于基于更新后的数据条目与标签的对应关系,将更新后的数据条目处理为包括图表、报告等预设好的多种形式的直观展示效果。可视化处理还可以基于服务端向客户端提前推送个性化开发需求页面,获取客户端用户的功能开发要求后,基于个性化定制进行的可视化处理。
步骤S250,获取查询请求,确定与查询请求对应的标签,并基于标签推送可视化处理结果。
当专业人士需要进行市场解读或行业分析等行为时,可以通过客户端向服务端发送查询请求。服务端基于该查询请求确定对应的标签。举例来说,客户端向服务端发送了某一时间段某一产品的价格浮动查询请求,那么基于该查询请求,服务端可以调取时间维度标签、品牌维度标签和价格维度标签,筛选确定满足该查询请求的具体标签。
在筛选确定满足该查询请求的具体标签后,由于服务端基于更新后的数据条目和标签的对应关系已经进行了可视化处理,因此,服务端将满足具体标签的可视化处理结果直接推送于客户端,以供用户在客户端进行查看。
由图2所示的方法可以看出,本申请提供的数据处理方法,采集数据条目,将数据条目缓存至数据仓库,调取数据仓库中的数据条目进行清洗,得到目标数据集,基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系,对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理,获取查询请求,确定与查询请求对应的标签,并基于所述标签推送可视化处理结果。本申请提供的数据处理方法,可以广泛爬取全网电商数据信息,打通不同平台的商品信息壁垒;对数据进行汇集、归类和分析,支持行业专家深度解读市场变化,满足个性化查询功能需求。
在一些可选的实施方式中,在上述方法中,步骤S210采集数据条目,将数据条目缓存至数据仓库,包括:利用Python库抓取动态加载的商品信息;和/或,以预设频率,通过随机切换代理地址抓取商品信息;和/或,利用图像识别技术破解验证码后抓取商品信息;确定商品信息对应的数据条目;利用pulsar队列将数据条目缓存至hive数据仓库。
服务端为了抓取全网商品信息,需要打通不同电商平台之间的壁垒。针对不同的电商平台可能具有的JS加密、封账号、封IP地址、滑块验证或验证码等屏蔽爬虫方式,本实施方式可以利用Python语言开发数据采集模块,结合预设的策略和规则,根据实际需求采用以下抓取商品信息的方式。
有些电商平台使用JavaScript生成动态数据。为了解决JS逆向解密,可以采用Python第三方库(比如PyExecJS、Selenium等)来解析和执行JavaScript代码,获取动态加载的商品信息。或者利用Python的requests_html库来解析网页中的JavaScript,从而抓取商品信息。
为了避免被有些电商平台识别为爬虫而导致封账号或封IP地址,可以采用代理IP池。通过搭建或者购买代理IP池,每次请求抓取商品信息时、或者以预设频率抓取商品信息时,都随机切换代理IP地址,从而降低被封禁的风险。或者,通过设置虚拟请求头(比如修改User-Agent、Referer等请求头信息),伪装成正常浏览器访问电商平台,模拟正常用户行为抓取商品信息。
对于滑块验证,可以结合Selenium模拟正常用户行为,通过分析滑块和背景图像的差异、计算滑动距离、模拟拖动滑块动作来完成滑块验证。而对于简单的文字验证码,可以利用Python的OCR库(如Tesseract)识别文字内容,模拟正常用户提交验证。对于图形验证码,可以利用图像处理库(比如OpenCV)进行预处理后,基于深度学习模型(比如CMN)识别并破解图形。
抓取全网商品信息后,需要基于商品信息提炼出该商品对应的有价值数据条目。商品信息可以但不限于包括商品名称、商品型号、商品库存、促销活动、在售时间、参数指标、使用方法、评价汇总、展示附件等繁多的内容,而为后续处理所能够提供支持的有价值的数据条目可能并不需要如此多的内容,因此,在抓取全网商品信息后,提炼出该商品信息对应的数据条目。举例来说,抓取的某一商品信息提炼出的对应的数据条目为[商品名称、商品型号、促销活动、在售时间、评价汇总]。将该数据条目中转落存至数据仓库中。
Pulsar是一种云原生分布式的消息发布/订阅传递平台,其具有配置简单、高容错率、可用性高的优势。hive数据仓库虽不适合实时数据查询,但可以完成海量数据的存储和数据分析。当从全网抓取电商商品信息并确定数据条目后,利用pulsar队列中转存储至hive数据仓库中,供后续对数据条目进行处理分析。
在一些可选的实施方式中,在上述方法中,步骤S220调取数据仓库中的数据条目进行清洗,得到目标数据集,包括:调取数据仓库中的数据条目,基于第一预设规则过滤数据条目中的垃圾数据条目,得到第一数据集;判断第一数据集中是否存在重复数据条目,若存在,则去除重复数据条目,得到第二数据集;基于第二预设规则过滤第二数据集中的无关数据条目,得到目标数据集。
预设规则用于指示为了对数据条目进行过滤而预先设定的排除规则,其主要目的是用于识别和过滤垃圾及无关数据,为后续分析提供干净、高质量的数据条目。
第一预设规则用于指示判定数据条目为垃圾数据条目的规则。在本实施例中,可以但不限于利用springboot框架开发的程序脚本,检查数据条目中的关键字段是否完整。如果关键字段缺失或值异常(比如商品名称字段异常),则该条数据条目可以被确定为垃圾数据,对该条垃圾数据条目进行过滤。清理完垃圾数据条目后,得到第一数据集。
针对数据条目中可能存在的重复数据,利用springboot框架开发的程序脚本,采用正则规则对第一数据集中的数据条目进行查重(比如通过商品型号或其他关键字段进行查重),确定重复数据条目后进行去除,从而得到清洗之后的第二数据集。
第二预设规则用于指示判定数据条目为无关数据条目的规则。根据目标行业或者业务需求等,利用kylin数据引擎将与处理行业不相关的无关数据条目进行过滤(比如通过评价汇总进行过滤),过滤后得到目标数据集。
在一些可选的实施方式中,在上述方法中,步骤S230,基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系,包括:利用人工智能模型确定各数据条目包括的关键词;将关键词与预设的标签进行匹配,确定各数据条目对应的标签,从而建立各数据条目与标签的对应关系。
可以通过人工智能模型分析出各数据条目包括的关键词。本实施例可以但不限于通过以下人工智能模型进行关键词分析。比如需要从评价汇总中提取关键词:
可以基于TF-IDF(Term Frequency-Inverse Document Frequency)算法进行关键词提取。TF-IDF算法是一种关键词权重计算方法,其结合词频和逆文档频率来估计一个词在文本中的重要程度。本实施例可以利用Python的第三方库(比如jieba、gensim等),实现基于TF-IDF算法的关键词提取。
或者,可以基于TextRank算法进行关键词提取。TextRank算法是一种基于图排序算法的关键词提取方法,其将文本中的词语看做图中的节点,根据词语之间的相似性建立边,并通过迭代计算节点的权重,最终得到关键词。在本实施例中,可以使用Python的第三方库(比如jieba、summa等),实现基于TextRank算法的关键词提取。
又或者,可以基于深度学习进行关键词提取。针对复杂的关键词提取任务,可以采用深度学习模型(比如BERT、XLNet等)进行关键词提取。这些预训练模型可以捕捉文本中的语义信息。本实施例可以使用Python的第三方库(比如Hugging Face Transformers等),结合预训练模型实现基于深度学习的关键词提取。
在实际情况下,可以通过人工智能模型,从商品名称和商品型号信息中确定出品牌维度关键词、从促销活动信息中确定出活动维度关键词、从在售时间中确定出时间维度关键词、从评价汇总中确定出情感维度关键词。将各数据条目包括的关键词与预设的标签进行匹配,从而建立各数据条目与标签的对应关系。例如一例数据条目包括关键词“品牌一”,该关键词与预设标签中的“品牌一”标签相匹配,则形成该例数据条目与该标签的对应关系。
在一些可选的实施方式中,在上述方法中,步骤S240对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理,包括:实时监控目标数据集中的数据条目是否存在变更;当存在时,将更新后的数据条目按照预设方式进行统计处理;基于统计处理的结果和更新后的数据条目对应的标签进行可视化处理,得到可视化处理结果。
服务端实时监控目标数据集中数据条目的变更状态。数据条目变更可以但不限于商品名称、商品型号、促销活动、在售时间、评价汇总中的任意一项发生变化。一旦服务端监控到数据条目发生变更,则触发将更新后的数据条目按照预设方式进行统计处理。
为了满足专业人士查询分析数据条目处理结果的个性化需求,可以将待推送数据条目按照时间维度等信息进行排序处理,得到表格化的处理结果;或者,可以将待推送数据按照情感维度等信息进行绘图处理,得到图例式的处理结果,图例式的处理结果可以通过柱状图、环状图、曲线图等直观展示个性化处理结果。
在一些可选的实施方式中,在上述方法中,将更新后的数据条目按照预设方式进行统计处理,包括:根据标签建立数据立方体结构;基于数据立方体结构,对更新后的数据条目进行预聚合计算;构建数据立方体的索引,将预聚合计算结果与索引对应存储。
在本实施例中,基于“数据条目变更”这一事件触发服务端进行可视化分析处理。在服务端进行可视化分析处理的过程中,将更新后的数据条目按照预设方式进行统计处理,可以通过kylin这种使用了OLAP引擎技术的中间件,从多个维度分析数据条目。即通过Apache Kylin进行数据预聚合和多维度索引构建,从而对数据条目进行处理。
Apache Kylin是一个开源的分布式分析引擎,通过预先计算和存储数据立方体(Data Cube)来提高对大规模数据的处理性能。首先根据标签(或者分析需求),定义多维度数据立方体的结构。数据立方体是一种数据存储技术,用于存储多维度数据。在Kylin中,数据立方体由多个层次的预聚合结果组成。然后,基于数据立方体的定义,对更新后的数据条目进行预聚合计算。预聚合用于指示将数据条目按照不同维度进行汇总计算,预聚合的结果存储在数据立方体的各个层次中。接着,为数据立方体构建索引。在Kylin中,索引可以包括位图索引、哈希索引等。通过上述步骤,Apache Kylin可以实现对多维度数据条目分析的快速响应,从而实现对更新后的数据条目的快速分析处理。
在一些可选的实施方式中,在上述方法中,步骤S250获取查询请求,确定与查询请求对应的标签,并基于标签推送可视化处理结果,包括:获取查询请求,判断查询请求是否满足查询权限要求;若满足,则确定与查询请求对应的标签;基于标签推送可视化处理结果。
专业人士需要对分析结果进行查询时,需要通过客户端发送查询请求。在一些实际情况下,服务端可以向客户端提供查询页面,查询页面可以但不限于包括身份登录控件以及查询条件控件等。专业人士利用身份登录控件录入身份信息并通过查询条件控件录入数据条目请求。
服务端可以预先设置身份信息与查询权限的对应要求。举例来说,普通身份仅可以查询月度时间内的数据条目;或者VIP身份可以查询年度时间内的数据条目等。获取查询请求后,可以通过身份信息与查询权限的对应要求,结合数据条目请求,判断该查询请求是否满足查询权限要求。如果满足查询权限要求,则确定与查询请求对应的标签。
可以基于人工智能模型分析查询请求包括的特征词段信息,将特征词段信息与预设的标签进行匹配,从而确定查询请求对应的标签。
确定查询请求对应的标签后,基于前述已经进行的可视化处理,服务端将可视化处理结果推送至客户端,以方便客户端用户直接获得直观化显示形式。
图3示出了本申请另一个实施例提出的数据处理方法。结合图3所示,本实施例的数据处理方法包括以下步骤S301~步骤S310:
步骤S301,利用Python库抓取动态加载的商品信息;和/或,以预设频率,通过随机切换代理地址抓取商品信息;和/或,利用图像识别技术破解验证码后抓取商品信息。
步骤S302,确定商品信息对应的数据条目。
步骤S303,利用pulsar队列将数据条目缓存至hive数据仓库。
步骤S304,调取数据仓库中的数据条目,基于第一预设规则过滤数据条目中的垃圾数据条目,得到第一数据集。
步骤S305,判断第一数据集中是否存在重复数据条目,若存在,则去除重复数据条目,得到第二数据集。
步骤S306,基于第二预设规则过滤第二数据集中的无关数据条目,得到目标数据集。
步骤S307,利用人工智能模型确定各数据条目包括的关键词。
步骤S308,将关键词与预设的标签进行匹配,确定各数据条目对应的标签,从而建立各数据条目与标签的对应关系。
步骤S309,实时监控目标数据集中的数据条目是否存在变更。
步骤S310,当存在时,根据标签建立数据立方体结构,基于数据立方体结构,对更新后的数据条目进行预聚合计算,构建数据立方体的索引,将预聚合计算结果与索引对应存储,从而得到统计处理的结果。
步骤S311,基于统计处理的结果和更新后的数据条目对应的标签进行可视化处理,得到可视化处理结果。
步骤S312,获取查询请求,判断查询请求是否满足查询权限要求.
步骤S313,若满足,则确定与查询请求对应的标签。
步骤S314,基于标签推送可视化处理结果
图4示出了本申请一个实施例提出的数据处理装置。那句图4所示,该装置400包括:
数据条目采集单元410,用于采集数据条目,将数据条目缓存至数据仓库;
清洗单元420,用于调取数据仓库中的数据条目进行清洗,得到目标数据集;
打标单元430,用于基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系;
处理单元440,用于对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理;
推送单元450,用于获取查询请求,确定与查询请求对应的标签并基于标签推送可视化处理结果。
在一些可选的实施方式中,在上述装置400中,数据条目采集单元410具体用于:利用Python库抓取动态加载的商品信息;和/或,以预设频率,通过随机切换代理地址抓取商品信息;和/或,利用图像识别技术破解验证码后抓取商品信息;确定商品信息对应的数据条目;利用pulsar队列将数据条目缓存至hive数据仓库。
在一些可选的实施方式中,在上述装置400中,清洗单元420具体用于:调取数据仓库中的数据条目,基于第一预设规则过滤数据条目中的垃圾数据条目,得到第一数据集;判断第一数据集中是否存在重复数据条目,若存在,则去除重复数据条目,得到第二数据集;基于第二预设规则过滤第二数据集中的无关数据条目,得到目标数据集。
在一些可选的实施方式中,在上述装置400中,打标单元430具体用于:利用人工智能模型确定各数据条目包括的关键词;将关键词与预设的标签进行匹配,确定各数据条目对应的标签,从而建立各数据条目与标签的对应关系。
在一些可选的实施方式中,在上述装置400中,处理单元440具体用于:实时监控目标数据集中的数据条目是否存在变更;当存在时,将更新后的数据条目按照预设方式进行统计处理;基于统计处理的结果和更新后的数据条目对应的标签进行可视化处理,得到可视化处理结果。
在一些可选的实施方式中,在上述装置400中,处理单元440还具体用于:根据标签建立数据立方体结构;基于数据立方体结构,对更新后的数据条目进行预聚合计算;构建数据立方体的索引,将预聚合计算结果与索引对应存储。
在一些可选的实施方式中,在上述装置400中,推送单元450具体用于:获取查询请求,判断查询请求是否满足查询权限要求;若满足,则确定与查询请求对应的标签;基于标签推送可视化处理结果。
需要说明的是,上述数据处理装置400可一一实现前述的数据处理方法,对此不再赘述。
图5示出了本申请一个实施例的计算机设备的结构示意图,该计算机设备可以是服务端,根据图5所示,该计算机设备的内部结构可以包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现数据处理方法服务端侧的功能或步骤。
在一个实施例中,本申请提供的计算机设备,包括存储器和处理器,存储器存储有数据库和可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
采集数据条目,将数据条目缓存至数据仓库;
调取数据仓库中的数据条目进行清洗,得到目标数据集;
基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系;
对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理;
获取查询请求,确定与查询请求对应的标签,并基于标签推送可视化处理结果。
在一个实施例中,还提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现数据处理方法客户端侧的功能或步骤。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集数据条目,将数据条目缓存至数据仓库;
调取数据仓库中的数据条目进行清洗,得到目标数据集;
基于预设的标签对目标数据集中的各数据条目进行打标,建立各数据条目与标签的对应关系;
对目标数据集进行监控,当监控到目标数据集中的数据条目发生变更时,基于更新后的数据条目与标签的对应关系进行可视化处理;
获取查询请求,确定与查询请求对应的标签,并基于标签推送可视化处理结果。
需要说明的是,上述关于计算机设备或计算机可读存储介质所能实现的功能或步骤,可对应参阅前述方法实施例中,客户端侧、服务端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
采集数据条目,将所述数据条目缓存至数据仓库;
调取数据仓库中的所述数据条目进行清洗,得到目标数据集;
基于预设的标签对所述目标数据集中的各数据条目进行打标,建立各所述数据条目与所述标签的对应关系;
对所述目标数据集进行监控,当监控到所述目标数据集中的所述数据条目发生变更时,基于更新后的所述数据条目与所述标签的对应关系进行可视化处理;
获取查询请求,确定与所述查询请求对应的所述标签,并基于所述标签推送可视化处理结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述采集数据条目,将所述数据条目缓存至数据仓库,包括:
利用Python库抓取动态加载的商品信息;和/或,以预设频率,通过随机切换代理地址抓取商品信息;和/或,利用图像识别技术破解验证码后抓取商品信息;
确定所述商品信息对应的数据条目;
利用pulsar队列将所述数据条目缓存至hive数据仓库。
3.根据权利要求1所述的数据处理方法,其特征在于,所述调取数据仓库中的所述数据条目进行清洗,得到目标数据集,包括:
调取数据仓库中的数据条目,基于第一预设规则过滤所述数据条目中的垃圾数据条目,得到第一数据集;
判断所述第一数据集中是否存在重复数据条目,若存在,则去除所述重复数据条目,得到第二数据集;
基于第二预设规则过滤所述第二数据集中的无关数据条目,得到目标数据集。
4.根据权利要求1所述的数据处理方法,其特征在于,所述基于预设的标签对所述目标数据集中的各数据条目进行打标,建立各所述数据条目与所述标签的对应关系,包括:
利用人工智能模型确定各所述数据条目包括的关键词;
将所述关键词与预设的标签进行匹配,确定各所述数据条目对应的标签,从而建立各所述数据条目与所述标签的对应关系。
5.根据权利要求1所述的数据处理方法,其特征在于,所述对所述目标数据集进行监控,当监控到所述目标数据集中的所述数据条目发生变更时,基于更新后的所述数据条目与所述标签的对应关系进行可视化处理,包括:
实时监控所述目标数据集中的所述数据条目是否存在变更;
当存在时,将更新后的所述数据条目按照预设方式进行统计处理;
基于统计处理的结果和更新后的所述数据条目对应的标签进行可视化处理,得到可视化处理结果。
6.根据权利要求1所述的数据处理方法,其特征在于,所述将更新后的所述数据条目按照预设方式进行统计处理,包括:
根据所述标签建立数据立方体结构;
基于所述数据立方体结构,对更新后的所述数据条目进行预聚合计算;
构建所述数据立方体的索引,将所述预聚合计算结果与所述索引对应存储。
7.根据权利要求1所述的数据处理方法,其特征在于,所述获取查询请求,确定与所述查询请求对应的所述标签,并基于所述标签推送可视化处理结果,包括:
获取查询请求,判断所述查询请求是否满足查询权限要求;
若满足,则确定与所述查询请求对应的所述标签;
基于所述标签推送所述可视化处理结果。
8.一种数据处理装置,其特征在于,所述装置包括:
数据条目采集单元,用于采集数据条目,将所述数据条目缓存至数据仓库;
清洗单元,用于调取数据仓库中的所述数据条目进行清洗,得到目标数据集;
打标单元,用于基于预设的标签对所述目标数据集中的各数据条目进行打标,建立各所述数据条目与所述标签的对应关系;
处理单元,用于对所述目标数据集进行监控,当监控到所述目标数据集中的所述数据条目发生变更时,基于更新后的所述数据条目与所述标签的对应关系进行可视化处理;
推送单元,用于获取查询请求,确定与所述查询请求对应的所述标签,并基于所述标签推送可视化处理结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器指令时实现如权利要求1至7任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389032.4A CN116467393A (zh) | 2023-04-12 | 2023-04-12 | 数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389032.4A CN116467393A (zh) | 2023-04-12 | 2023-04-12 | 数据处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467393A true CN116467393A (zh) | 2023-07-21 |
Family
ID=87172914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310389032.4A Pending CN116467393A (zh) | 2023-04-12 | 2023-04-12 | 数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467393A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333250A (zh) * | 2023-08-22 | 2024-01-02 | 广州市玄武无线科技股份有限公司 | 一种商城标签动态化配置方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150178746A1 (en) * | 2013-12-20 | 2015-06-25 | Zumur, LLC | System and method for near real-time, unsolicited, unbiased demand collection for distributing consumer items |
US20150278902A1 (en) * | 2014-03-27 | 2015-10-01 | GroupBy Inc. | Methods of augmenting search engines for ecommerce information retrieval |
CN108733748A (zh) * | 2018-04-04 | 2018-11-02 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN110096531A (zh) * | 2019-04-24 | 2019-08-06 | 上海易点时空网络有限公司 | 用于网店运营的数据分析方法及装置 |
CN110457331A (zh) * | 2019-07-19 | 2019-11-15 | 北京邮电大学 | 通用的实时更新多维数据可视化系统及方法 |
CN112418932A (zh) * | 2020-11-24 | 2021-02-26 | 广州易尊网络科技股份有限公司 | 一种基于用户标签的营销信息推送方法及装置 |
CN113793169A (zh) * | 2021-08-12 | 2021-12-14 | 惠州Tcl云创科技有限公司 | 基于用户评论数据处理方法、装置、设备及存储介质 |
CN115510289A (zh) * | 2022-09-22 | 2022-12-23 | 中电金信软件有限公司 | 一种数据立方体配置方法、装置、电子设备及存储介质 |
-
2023
- 2023-04-12 CN CN202310389032.4A patent/CN116467393A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150178746A1 (en) * | 2013-12-20 | 2015-06-25 | Zumur, LLC | System and method for near real-time, unsolicited, unbiased demand collection for distributing consumer items |
US20150278902A1 (en) * | 2014-03-27 | 2015-10-01 | GroupBy Inc. | Methods of augmenting search engines for ecommerce information retrieval |
CN108733748A (zh) * | 2018-04-04 | 2018-11-02 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN110096531A (zh) * | 2019-04-24 | 2019-08-06 | 上海易点时空网络有限公司 | 用于网店运营的数据分析方法及装置 |
CN110457331A (zh) * | 2019-07-19 | 2019-11-15 | 北京邮电大学 | 通用的实时更新多维数据可视化系统及方法 |
CN112418932A (zh) * | 2020-11-24 | 2021-02-26 | 广州易尊网络科技股份有限公司 | 一种基于用户标签的营销信息推送方法及装置 |
CN113793169A (zh) * | 2021-08-12 | 2021-12-14 | 惠州Tcl云创科技有限公司 | 基于用户评论数据处理方法、装置、设备及存储介质 |
CN115510289A (zh) * | 2022-09-22 | 2022-12-23 | 中电金信软件有限公司 | 一种数据立方体配置方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333250A (zh) * | 2023-08-22 | 2024-01-02 | 广州市玄武无线科技股份有限公司 | 一种商城标签动态化配置方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416620B (zh) | 一种基于大数据的画像数据的智能社交广告投放平台 | |
Cao et al. | Titant: Online real-time transaction fraud detection in ant financial | |
JP5810452B2 (ja) | インパクト分析や影響追跡を含むマルチメディアのためのデータ収集、追跡及び分析手法 | |
US20130218824A1 (en) | Action Prediction and Identification of User Behavior | |
Pathak et al. | Construing the big data based on taxonomy, analytics and approaches | |
CN111538931A (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
US20220188574A1 (en) | Computer-based systems including machine learning models trained on distinct dataset types and methods of use thereof | |
US20170270572A1 (en) | System and method for autonomous internet searching and display of product data and sending alerts | |
US20200005170A1 (en) | Digital mdr (managed detection and response) analysis | |
CN116467393A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN113051324A (zh) | 基于大数据的用户画像构建方法、装置及存储介质 | |
US11561962B2 (en) | System and method for detecting changes in webpages and generating metric correlations therefrom | |
US20180150467A1 (en) | System and method for determining a contextual insight and generating an interface with recommendations based thereon | |
Ramzan et al. | Evolution of data mining: An overview | |
Laha | Statistical challenges with big data in management science | |
Tendick et al. | Statistical methods for complex event processing and real time decision making | |
US11824952B2 (en) | Method of filtering data traffic sent to a user device | |
Geyer-Schulz et al. | Others also use: A robust recommender system for scientific libraries | |
WO2018002664A1 (en) | Data aggregation and performance assessment | |
CN113961810A (zh) | 新闻推送方法、装置、计算机设备和存储介质 | |
Jung | Discovering social bursts by using link analytics on large-scale social networks | |
Srivastava et al. | Social media analytics: current trends and future prospects | |
Diapouli et al. | Behavioural Analytics using Process Mining in On-line Advertising. | |
Wawrzyniak et al. | The data-based methodology for crime forecasting | |
US20140143019A1 (en) | Managing modeled audience extension information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |