CN108897835A - 一种基于离线计算的标签体系管理方法 - Google Patents

一种基于离线计算的标签体系管理方法 Download PDF

Info

Publication number
CN108897835A
CN108897835A CN201810659886.9A CN201810659886A CN108897835A CN 108897835 A CN108897835 A CN 108897835A CN 201810659886 A CN201810659886 A CN 201810659886A CN 108897835 A CN108897835 A CN 108897835A
Authority
CN
China
Prior art keywords
label
line calculation
management method
system management
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810659886.9A
Other languages
English (en)
Inventor
张华�
孙守伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201810659886.9A priority Critical patent/CN108897835A/zh
Publication of CN108897835A publication Critical patent/CN108897835A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于离线计算的标签体系管理方法,属于计算机技术领域。本发明的基于离线计算的标签体系管理方法,将获取的数据抽取到大数据仓库,通过离线计算生成标签,将标签导入关系型数据库中,供业务系统使用。该发明的基于离线计算的标签体系管理方法具有高可靠性、能够高效性的提高标签计算效率,具有很好的推广应用价值。

Description

一种基于离线计算的标签体系管理方法
技术领域
本发明涉及计算机技术领域,具体提供一种基于离线计算的标签体系管理方法。
背景技术
随着社会的不断进步,社会经济飞速发展,计算机的应用越来越广泛。计算机具有存储信息量大,使用者获取信息方便快捷等优点,在多个领域受到广泛的应用。为了对某一类客户进行商品推荐、政策扶植等特定操作,能够快速准确的筛选出这些客户非常必要,客户标签对快速筛选出客户具有重要的作用。客户标签作为一种元数据(描述数据的数据),它将客户信息通过简短的短语表述出来,并通过体量较小的方式存储,灵活且精炼,非常适合大数据环境下的应用模式。现有技术中,客户标签体系普遍采用的分层的方式,利用数据库存储过程或在软件中配置定时器进行标签的计算。但是当数据量特别大时,传统的标签计算方式的效率较低。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种具有高可靠性,能高效性的提高标签计算效率的基于离线计算的标签体系管理方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于离线计算的标签体系管理方法,所述方法将获取的数据抽取到大数据仓库,通过离线计算生成标签,将标签导入关系型数据库中,供业务系统使用。
作为优选,该方法将标签体系设计为数据层、管理层和服务层。
作为优选,所述数据层包括大数据仓库和关系型数据库,大数据仓库用于对原始数据进行存储,关系型数据库用于对计算后的标签信息进行存储。
作为优选,大数据仓库包括Hive、HBase、Redis、HDFS,关系型数据库为MySQL。
作为优选,所述管理层包括对数据的ETL过程、离线计算过程和标签导入过程。
ETL即 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
作为优选,管理层将获取的数据汇总到大数据仓库上,通过离线计算生成标签,将标签导入到关系型数据库MySQL上,供业务系统使用。
管理层将企业内业务数据、互联网爬取数据、宏观经济数据等各种渠道获取的数据汇总到大数据仓库上,通过离线计算生成标签,然后将标签导入到关系型数据库MySQL上供业务系统使用。同时设置定时任务,对所有任务进行统筹管理,针对数据变化,进行不断的抽取计算。
作为优选,所述服务层对标签进行整体的管理操作,包括标签分类、标签模型和标签应用。
服务层还包括标签关联、客户关联、客户画像、客户模型计算、标签统计分析以及对外接口提供等。
作为优选,所述标签分类包括事实标签、模型标签和预测标签。
与现有技术相比,本发明的基于离线计算的标签体系管理方法具有以下突出的有益效果:该基于离线计算的标签体系管理方法可操作性强,需要处理的数据在处理前不会发生变化,并且具有高可靠性、高效性等特点,特别适合在大量数据上进行复杂的批量运算,数据处理效率高,具有良好的推广应用价值。
附图说明
图1是本发明所述基于离线计算的标签体系管理方法的标签管理体系示意图;
图2是标签计算过程示意图;
图3是本发明具体实施例的示意图。
具体实施方式
下面将结合附图和实施例,对本发明的基于离线计算的标签体系管理方法作进一步详细说明。
实施例
本发明的基于离线计算的标签体系管理方法,将获取的数据抽取到大数据仓库,通过离线计算生成标签,将标签导入到关系型数据库中,供业务系统使用。
如图1所示,该基于离线计算的标签体系管理方法将标签体系设计为数据层、管理层和服务层。
数据层包括大数据仓库和关系型数据库。大数据仓库包括Hive、HBase、Redis、HDFS,用于对原始数据进行存储。关系型数据库为MySQL,用于对计算后的标签信息进行存储。
管理层包括对数据的ETL过程、离线计算过程和标签导入过程。如图2所示,将企业内业务系统数据、互联网爬取数据、宏观经济数据等各种渠道获取的数据汇总到大数据仓库上,通过标签离线计算生成标签,然后将变迁导入到关系型数据库MySQL上以供业务系统使用。同时设置定时任务,对所有任务进行统筹管理,针对数据变化,进行不断的抽取计算。
服务层对标签进行整体的管理操作,包括标签分类、标签模型、标签应用,还包括标签关联、客户关联、客户画像、客户模型计算、标签统计分析以及对外接口提供等。标签分类包括事实标签、模型标签和预测标签。
如图3所示,为本发明的基于离线计算的标签体系管理方法的具体应用,以周边一公里内人口数为3400人为例。根据事实标签将周边一公里内人口数为3400人定义为实体的事实属性值,按照模型规则对事实属性值定义分类标准,将人口数量不少于3500时,定义为人口稠密,将人口数量为2000到3500人,定义为人口中等,将人口数量小于2000人,定义为人口稀少。按照模型标签,根据规则对事实属性值进行分类为人口中等。依据预测标签,根据实体的相关数据,对未来的属性值进行预测,并判定模型标签,通过预测,未来三年周边一公里内人口会达到3550人,根据模型规则,预测标签为人口稠密。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于离线计算的标签体系管理方法,其特征在于:所述方法将获取的数据抽取到大数据仓库,通过离线计算生成标签,将标签导入关系型数据库中,供业务系统使用。
2.根据权利要求1所述的基于离线计算的标签体系管理方法,其特征在于: 该方法将标签体系设计为数据层、管理层和服务层。
3.根据权利要求2所述的基于离线计算的标签体系管理方法,其特征在于:所述数据层包括大数据仓库和关系型数据库,大数据仓库用于对原始数据进行存储,关系型数据库用于对计算后的标签信息进行存储。
4.根据权利要求3所述的基于离线计算的标签体系管理方法,其特征在于:大数据仓库包括Hive、HBase、Redis、HDFS,关系型数据库为MySQL。
5.根据权利要求4所述的基于离线计算的标签体系管理方法,其特征在于:所述管理层包括对数据的ETL过程、离线计算过程和标签导入过程。
6.根据权利要求5所述的基于离线计算的标签体系管理方法,其特征在于: 管理层将获取的数据汇总到大数据仓库上,通过离线计算生成标签,将标签导入到关系型数据库MySQL上,供业务系统使用。
7.根据权利要求6述的基于离线计算的标签体系管理方法,其特征在于:所述服务层对标签进行整体的管理操作,包括标签分类、标签模型和标签应用。
8.根据权利要求7述的基于离线计算的标签体系管理方法,其特征在于:所述标签分类包括事实标签、模型标签和预测标签。
CN201810659886.9A 2018-06-25 2018-06-25 一种基于离线计算的标签体系管理方法 Pending CN108897835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810659886.9A CN108897835A (zh) 2018-06-25 2018-06-25 一种基于离线计算的标签体系管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810659886.9A CN108897835A (zh) 2018-06-25 2018-06-25 一种基于离线计算的标签体系管理方法

Publications (1)

Publication Number Publication Date
CN108897835A true CN108897835A (zh) 2018-11-27

Family

ID=64346019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810659886.9A Pending CN108897835A (zh) 2018-06-25 2018-06-25 一种基于离线计算的标签体系管理方法

Country Status (1)

Country Link
CN (1) CN108897835A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120303620A1 (en) * 2011-05-25 2012-11-29 Hon Hai Precision Industry Co., Ltd. Method of calculating connectivity of n-dimensional space
CN104361110A (zh) * 2014-12-01 2015-02-18 广东电网有限责任公司清远供电局 海量用电数据分析系统及其实时计算、数据挖掘方法
CN104866530A (zh) * 2015-04-27 2015-08-26 宁波网传媒有限公司 一种基于滑标评分的推荐系统及方法
CN105069025A (zh) * 2015-07-17 2015-11-18 浪潮通信信息系统有限公司 一种大数据的智能聚合可视化与管控系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120303620A1 (en) * 2011-05-25 2012-11-29 Hon Hai Precision Industry Co., Ltd. Method of calculating connectivity of n-dimensional space
CN104361110A (zh) * 2014-12-01 2015-02-18 广东电网有限责任公司清远供电局 海量用电数据分析系统及其实时计算、数据挖掘方法
CN104866530A (zh) * 2015-04-27 2015-08-26 宁波网传媒有限公司 一种基于滑标评分的推荐系统及方法
CN105069025A (zh) * 2015-07-17 2015-11-18 浪潮通信信息系统有限公司 一种大数据的智能聚合可视化与管控系统

Similar Documents

Publication Publication Date Title
US20210374610A1 (en) Efficient duplicate detection for machine learning data sets
US11341263B2 (en) Efficient data query and utilization through a semantic storage model
CN106844507B (zh) 一种数据批处理的方法及设备
CN104298713B (zh) 一种基于模糊聚类的图片检索方法
CN109766950B (zh) 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法
CN113610239B (zh) 针对机器学习的特征处理方法及特征处理系统
EP4328816A1 (en) Machine learning service
CN109165202A (zh) 一种多源异构大数据的预处理方法
CN104933112A (zh) 分布式互联网交易信息存储处理方法
CN106447066A (zh) 一种大数据的特征提取方法和装置
van Altena et al. Understanding big data themes from scientific biomedical literature through topic modeling
CN109522312A (zh) 一种数据处理方法、装置、服务器和存储介质
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN107577724A (zh) 一种大数据处理方法
JP2019520627A (ja) データベース中にグラフ情報を記憶するためのb木使用
CN105824892A (zh) 一种数据池对数据同步和处理的方法
CN113901037A (zh) 数据管理方法、装置及存储介质
CN109446167A (zh) 一种日志数据存储、提取方法及装置
CN108897835A (zh) 一种基于离线计算的标签体系管理方法
Wang et al. MapReduce-based frequent pattern mining framework with multiple item support
CN106971011A (zh) 一种基于云平台的大数据分析方法
Ethirajan et al. Adoption of E-governance applications towards big data approach
CN113378223B (zh) 基于双重编码和聚类映射的k-匿名数据处理方法及系统
US11868329B2 (en) Multidimensional cube multivariate regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181127

RJ01 Rejection of invention patent application after publication