CN112214556B - 标签生成方法、装置、电子设备及计算机可读存储介质 - Google Patents

标签生成方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112214556B
CN112214556B CN202011058978.5A CN202011058978A CN112214556B CN 112214556 B CN112214556 B CN 112214556B CN 202011058978 A CN202011058978 A CN 202011058978A CN 112214556 B CN112214556 B CN 112214556B
Authority
CN
China
Prior art keywords
label
tag
data set
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011058978.5A
Other languages
English (en)
Other versions
CN112214556A (zh
Inventor
罗洋
晏存
贾诺
陈海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Finance Technology Co Ltd
Original Assignee
China Merchants Finance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Finance Technology Co Ltd filed Critical China Merchants Finance Technology Co Ltd
Priority to CN202011058978.5A priority Critical patent/CN112214556B/zh
Publication of CN112214556A publication Critical patent/CN112214556A/zh
Application granted granted Critical
Publication of CN112214556B publication Critical patent/CN112214556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术,揭露了一种标签生成方法,包括:获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;根据所述共用指标集和所述特殊指标集生成用户初始标签表;利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。本发明还提出了标签生成装置、设备及计算机可读存储介质。本发明可以提高标签生成的效率。

Description

标签生成方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种标签生成方法、装置、电子设备及计算机可读存储介质。
背景技术
个性化服务是指针对不同用户提供不同的服务。通常,根据用户画像可以制定出适合用户的服务,而标签是用户画像的基础,通过一个个的标签可以得到用户画像,从而得到用户的个性特征,为用户提供个性化服务。
目前的标签开发方式是直接通过脚本生成标签,并将标签保存在HIVE表中。但这种方式在进行标签更新或维护时,必须通过修改脚本后重新发版来实现,效率较低;同时这种方式对于标签生成的数据取数口径不统一,使得代码冗长繁杂,不利于重复利用,浪费计算机资源。
发明内容
本发明提供一种标签生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高标签生成的效率。
为实现上述目的,本发明提供的一种标签生成方法,包括:
获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;
根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;
根据所述共用指标集和所述特殊指标集生成用户初始标签表;
利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
可选地,所述对所述原始用户数据集进行数据清洗,得到标准数据集,包括:
对所述原始用户数据集进行过滤,删除所述原始用户数据集中的无效数据和异常数据,得到有效用户数据集;
对所述有效用户数据集进行查重,并删除重复数据,得到标准数据集。
可选地,所述根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集,包括:
根据预设的配置文件将所述标准数据集中的字段与所述基础标签库中各标签领域进行匹配;
若所述字段与两个及两个以上的标签领域匹配成功,则将所述字段划分到共用指标集;
若所述字段只与一个标签领域匹配成功,则将所述字段划分到该标签领域下的特殊指标集。
可选地,所述根据所述共用指标集和所述特殊指标集生成用户初始标签表,包括:
通过遍历操作依次从所述特殊指标集中选择其中一个特殊指标;
确定所述特殊指标的标签领域;
从所述配置文件中获取与所述标签领域对应的标签生成规则;
以所述共用指标集和选择的所述特殊指标为参数执行所述标签生成规则,得到对应的基础标签;
保存得到的基础标签,生成用户初始标签表。
可选地,所述将所述用户初始标签表进行标签合并,得到用户的结果标签之前,该方法还包括:
将所述用户初始标签表中的基础标签作为节点,构建有向有权图;
根据权重计算公式计算所述有向有权图中每一个节点的权重;
将所述有向有权图中权重小于预设阈值的节点对应的基础标签在所述用户初始标签表中进行删除,得到更新后的用户初始标签表。
可选地,所述根据权重计算公式计算所述有向有权图中每一个节点的权重,包括:
利用下述公式计算所述有向有权图中每一个节点的权重:
其中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,d为阻尼系数,In(Vi)为指向节点Vi的节点集合,Out(Vj)为节点Vi指向的节点集合,Wji为两点Vi、Vj之间的连接权重1,Wjk为两点Vk、Vj之间的连接权重。
可选地,在对所述原始用户数据集进行数据清洗前,该方法还包括:
将所述原始用户数据集进行中心化处理,得到样本数据集;
计算所述样本数据集的协方差矩阵;
计算所述协方差矩阵的特征值以及对应的特征向量,并将所述特征向量按对应特征值大小进行排序;
选择最大的K个特征值所对应的所述特征向量,根据所述特征向量输出对应K维数据,其中,K是将降维后的维度,为预设数值。
为了解决上述问题,本发明还提供一种标签生成装置,所述装置包括:
数据获取模块,用于获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;
数据划分模块,用于根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;
初始标签生成模块,用于根据所述共用指标集和所述特殊指标集生成用户初始标签表;
结果标签生成模块,用于利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述中任意一项所述的标签生成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现上述中任意一项所述的标签生成方法。
本发明实施例对原始用户数据集进行数据清洗,得到标准数据集,通过数据清洗减少计算机的无效处理,避免计算机资源浪费;根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集,通过将所述标准数据集分为共用指标集将用于标签的数据即指标原子化,提高代码的重复利用率;根据所述共用指标集和所述特殊指标集生成用户初始标签表,通过生成用户初始标签表对标签的指标口径进行统一化,有利于后续的结果标签生成,提高效率;利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签,使用标签合成规则进行生成或修改结果标签,便于后续的维护,提高标签生成的整体效率。因此本发明提出的标签生成方法、装置及计算机可读存储介质,可以提高标签生成的效率。
附图说明
图1为本发明一实施例提供的标签生成方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为本发明一实施例提供的标签生成装置的模块示意图;
图4为本发明一实施例提供的实现标签生成方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种标签生成方法。所述标签生成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述标签生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的标签生成方法的流程示意图。在本实施例中,所述标签生成方法包括:
S1、获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集。
优选地,所述原始用户数据集是多个字段的数据集合,包含一个用户多方面的数据,如基础信息数据、历史行为数据等。其中,所述用户可以是自然人也可以是一个企业;如,若用户为一个电商公司,则所述原始用户数据集包括公司名称、公司成立时间、公司简介、公司内多个产品线以及每个产品线的业务数据等;若用户为自然人,则所述原始数据集包括姓名、年龄、收入、住址、线上购物记录、出行记录、爱好等。
较佳地,为了便于后续的标签生成,需要尽可能汇总最大范围内的数据,因此,本发明实施例所述获取原始用户数据集包括:使用爬虫从网页中获取数据;从系统平台的服务端获取数据;从业务数据库中获取数据;汇集从各种方式获取得到数据,得到原始用户数据集。
详细地,所述对所述原始用户数据集进行数据清洗,得到标准数据集,包括:
对所述原始用户数据集进行过滤,删除所述原始用户数据集中的无效数据和异常数据,得到有效用户数据集;
对所述有效用户数据集进行查重,并删除重复数据,得到标准数据集。
本发明实施例通过对原始用户数据集进行数据清洗,减少了计算机的无效处理,节省了计算机资源,提高了效率。
此外,随着科技的发展,数据量也与日俱增,很多类型的数据中会包括多种属性和多重维度,如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据等,这些数据被称为高维数据。因此,本发明一可选实施例中,所述对所述原始用户数据集进行数据清洗之前还可以包括:对所述原始用户数据集进行降维处理。详细地,所述降维处理具体包括:
将所述原始用户数据集进行中心化处理,得到样本数据集;
计算所述样本数据集的协方差矩阵;
计算所述协方差矩阵的特征值以及对应的特征向量,并将所述特征向量按对应特征值大小进行排序;
依照从大到小的顺序选择K个特征值所对应的所述特征向量,根据所述特征向量输出对应K维数据,得到更新后的原始用户数据集,其中,K是降维后的维度,为预设数值。
本发明实施例通过将数据从高维空间映射到低维空间中,实现了维度减少,并极大程度保留了原有的数据特征,从而实现对高维数据的处理。
S2、根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集。
本发明实施例中,所述预设的基础标签库是包含多种基础标签的集合。所述基础标签是对用户特征的抽象描述。进一步地,所述基础标签按照标签领域分类,如婴幼儿、青少年、中年、老年为年龄领域的基础标签,并存储在所述基础标签库中。
详细地,所述根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集,包括:
根据预设的配置文件将所述标准数据集中的字段与所述基础标签库中各标签领域进行匹配;
若所述字段与两个及两个以上的标签领域匹配成功,则将所述字段划分到共用指标集;
若所述字段只与一个标签领域匹配成功,则将所述字段划分到该标签领域下的特殊指标集。
其中,所述预设的配置文件是对所述基础标签库的配置,所述配置文件中包括各所述标签领域的特征和各标签的生成规则,如年龄领域的特征为年龄,所述标准数据集中的字段为年龄时,则年龄字段可以与年龄领域匹配成功,再根据标签生成规则,判断该字段可以生成的基础标签,如若青少年的标签生成规则为年龄在4岁至16岁之间,年龄为14,则可以生成青少年的基础标签。所述共用指标集是基础数据集,能够同时满足多个标签领域;所述特殊指标集是仅符合单个标签领域的数据集合。
例如,可以通过年龄、年收入生成“年轻多金”标签,也可以通过年龄生成“青年”标签,两个标签的数据特征都用到了年龄,所以将年龄划分为共用指标集,而年收入不能用于其他标签了,则将年收入划分为“年轻多金”对应标签领域的特殊指标集。
本发明实施例通过将所述标准数据集分为共用指标集将用于标签的数据即指标原子化,提高代码的重复利用率。
S3、根据所述共用指标集和所述特殊指标集生成用户初始标签表。
详细地,参阅图2所示,所述根据所述共用指标集和所述特殊指标集生成用户初始标签表,包括:
S30、通过遍历操作从所述特殊指标集中选择其中一个特殊指标;
S31、确定所述特殊指标集的标签领域;
S32、从所述配置文件中获取与所述标签领域对应的标签生成规则;
S33、以所述共用指标集和选择的所述特殊指标为参数执行所述标签生成规则,得到对应的基础标签;
S34、判断所述特殊指标集中是否所有特殊指标都已经选择完毕?
若所述特殊指标集中有特殊指标没有选择,则返回步骤S30;
若所述特殊指标集中所有特殊指标都已经选择完毕,则执行S35、保存得到的基础标签,生成用户初始标签表。
其中,所述标签生成规则是一个标签的具体满足条件,如年龄在1-3岁之间的为婴儿,年龄在4-16岁之间的为青少年。所述用户初始标签表为所述原始用户数据集对应的用户的基础标签,是对用户多维度、多方面的基础特征的描述。
进一步地,本发明实施例中所述保存基础标签,生成用户初始标签表,包括:
将所述基础标签保存为脚本文件;
利用SQL语言执行所述脚本文件,生成用户初始标签表。
本发明实施例通过生成用户初始标签表实现了对标签的指标口径统一化,有利于后续的结果标签生成,提高效率。
S4、利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
优选地,所述标签合成规则是由开发人员预先定义,并通过shell语言和sql语言编译写的方法代码。所述结果标签是所述原始用户数据集对应用户的特征标签,通过浏览结果标签可以快速了解该用户,便于后续对该用户提供个性化服务。
详细地,本发明实施例通过将所述用户初始标签表为参数,执行所述标签合成规则,将所述用户初始标签表中基础标签进行合并,生成结果标签。
本发明实施例只需简单配置标签合成规则即可实现生产修改,方便快捷,便于后续的维护。
本发明一可选实施例中,所述将所述用户初始标签表进行标签合并前,还可以包括:基于图排序算法对所述用户初始标签表进行过滤。
详细地,所述基于图排序算法对所述用户初始标签表进行过滤包括:
步骤A、将所述用户初始标签表中的基础标签作为节点,构建有向有权图;
步骤B、根据权重计算公式计算所述有向有权图中每一个节点的权重,其中,所述权重计算公式如下:
其中,WS(Vi)表示节点Vi的权重,WSVj)表示节点Vj的权重,d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85,In(Vi)为指向节点Vi的节点集合,Out(Vj)为节点Vi指向的节点集合,Wji为任两点Vi、Vj之间的连接权重,通常为1,Wjk为两点Vk、Vj之间的连接权重。
步骤C、将所述有向有权图中权重小于预设阈值的节点对应的基础标签在所述用户初始标签表中删除,得到更新后的用户初始标签表。
其中,删除权重较低的基础标签可以使结果标签更加符合事实,提高结果的精确度。
本发明实施例对原始用户数据集进行数据清洗,得到标准数据集,通过数据清洗减少计算机的无效处理,避免计算机资源浪费;根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集,通过将所述标准数据集分为共用指标集将用于标签的数据即指标原子化,提高代码的重复利用率;根据所述共用指标集和所述特殊指标集生成用户初始标签表,通过生成用户初始标签表对标签的指标口径进行统一化,有利于后续的结果标签生成,提高效率;利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签,使用标签合成规则进行生成或修改结果标签,便于后续的维护,提高标签生成的整体效率。因此本发明提出的标签生成方法、装置及计算机可读存储介质,可以提高标签生成的效率。
如图3所示,是本发明标签生成装置的模块示意图。
本发明所述标签生成装置100可以安装于电子设备中。根据实现的功能,所述标签生成装置可以包括数据获取模块101、数据划分模块102、初始标签生成模块103和结果标签生成模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据获取模块101,用于获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集。
优选地,所述原始用户数据集是多个字段的数据集合,包含一个用户多方面的数据,如基础信息数据、历史行为数据等。其中,所述用户可以是自然人也可以是一个企业;如,若用户为一个电商公司,则所述原始用户数据集包括公司名称、公司成立时间、公司简介、公司内多个产品线以及每个产品线的业务数据等;若用户为自然人,则所述原始数据集包括姓名、年龄、收入、住址、线上购物记录、出行记录、爱好等。
较佳地,为了便于后续的标签生成,需要尽可能汇总最大范围内的数据,因此,本发明实施例所述获取原始用户数据集包括:使用爬虫从网页中获取数据;从系统平台的服务端获取数据;从业务数据库中获取数据;汇集从各种方式获取得到数据,得到原始用户数据集。
详细地,所述对所述原始用户数据集进行数据清洗,得到标准数据集,包括:
对所述原始用户数据集进行过滤,删除所述原始用户数据集中的无效数据和异常数据,得到有效用户数据集;
对所述有效用户数据集进行查重,并删除重复数据,得到标准数据集。
本发明实施例通过对原始用户数据集进行数据清洗,减少了计算机的无效处理,节省了计算机资源,提高了效率。
此外,随着科技的发展,数据量也与日俱增,很多类型的数据中会包括多种属性和多重维度,如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据等,这些数据被称为高维数据。因此,本发明一可选实施例中,所述对所述原始用户数据集进行数据清洗前还可以包括:对所述原始用户数据集进行降维处理。详细地,所述降维处理具体包括:
将所述原始用户数据集进行中心化处理,得到样本数据集;
计算所述样本数据集的协方差矩阵;
计算所述协方差矩阵的特征值以及对应的特征向量,并将所述特征向量按对应特征值大小进行排序;
依照从大到小的顺序选择K个特征值所对应的所述特征向量,根据所述特征向量输出对应K维数据,得到更新后的原始用户数据集,其中,K是降维后的维度,为预设数值。
本发明实施例通过将数据从高维空间映射到低维空间中,实现了维度减少,并极大程度保留了原有的数据特征,从而实现对高维数据的处理。
所述数据划分模块102,用于根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集。
本发明实施例中,所述预设的基础标签库是包含多种基础标签的集合。所述基础标签是对用户特征的抽象描述。进一步地,所述基础标签按照标签领域分类,如婴幼儿、青少年、中年、老年为年龄领域的基础标签,并存储在所述基础标签库中。
详细地,所述数据划分模块102具体用于:
根据预设的配置文件将所述标准数据集中的字段与所述基础标签库中各标签领域进行匹配;
若所述字段与两个及两个以上的标签领域匹配成功,则将所述字段划分到共用指标集;
若所述字段只与一个标签领域匹配成功,则将所述字段划分到该标签领域下的特殊指标集。
其中,所述预设的配置文件是对所述基础标签库的配置,所述配置文件中包括各所述标签领域的特征和各标签的生成规则,如年龄领域的特征为年龄,所述标准数据集中的字段为年龄时,则年龄字段可以与年龄领域匹配成功,再根据标签生成规则,判断该字段可以生成的基础标签,如若青少年的标签生成规则为年龄在4岁至16岁之间,年龄为14,则可以生成青少年的基础标签。所述共用指标集是基础数据集,能够同时满足多个标签领域;所述特殊指标集是仅符合单个标签领域的数据集合。
例如,可以通过年龄、年收入生成“年轻多金”标签,也可以通过年龄生成“青年”标签,两个标签的数据特征都用到了年龄,所以将年龄划分为共用指标集,而年收入不能用于其他标签了,则将年收入划分为“年轻多金”对应标签领域的特殊指标集。
本发明实施例通过将所述标准数据集分为共用指标集将用于标签的数据即指标原子化,提高代码的重复利用率。
所述初始标签生成模块103,用于根据所述共用指标集和所述特殊指标集生成用户初始标签表。
详细地,所述根据所述共用指标集和所述特殊指标集生成用户初始标签表,包括:
通过遍历操作从所述特殊指标集中选择其中一个特殊指标;
确定所述特殊指标集的标签领域;
从所述配置文件中获取与所述标签领域对应的标签生成规则;
以所述共用指标集和选择的所述特殊指标为参数执行所述标签生成规则,得到对应的基础标签;
判断所述特殊指标集中是否所有特殊指标都已经选择完毕?
若所述特殊指标集中有特殊指标没有选择,则返回从所述特殊指标集中选择其中一个所述特殊指标步骤;
若所述特殊指标集中所有特殊指标都已经选择完毕,则保存得到的基础标签,生成用户初始标签表。
其中,所述标签生成规则是一个标签的具体满足条件,如年龄在1-3岁之间的为婴儿,年龄在4-16岁之间的为青少年。所述用户初始标签表为所述原始用户数据集对应的用户的基础标签,是对用户多维度、多方面的基础特征的描述。
进一步地,本发明实施例中所述保存基础标签,生成用户初始标签表,包括:
将所述基础标签保存为脚本文件;
利用SQL语言执行所述脚本文件,生成用户初始标签表。
本发明实施例通过生成用户初始标签表实现了对标签的指标口径统一化,有利于后续的结果标签生成,提高效率。
所述结果标签生成模块104,用于利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
优选地,所述标签合成规则是由开发人员预先定义,并通过shell语言和sql语言编译写的方法代码。所述结果标签是所述原始用户数据集对应用户的特征标签,通过浏览结果标签可以快速了解该用户,便于后续对该用户提供个性化服务。
详细地,本发明实施例通过将所述用户初始标签表为参数,执行所述标签合成规则,将所述用户初始标签表中基础标签进行合并,生成结果标签。
本发明实施例只需简单配置标签合成规则即可实现生产修改,方便快捷,便于后续的维护。
本发明一可选实施例中,所述将所述用户初始标签表进行标签合并前,还可以包括:基于图排序算法对所述用户初始标签表进行过滤。详细地,所述基于图排序算法对所述用户初始标签表进行过滤包括:
将所述用户初始标签表中的基础标签作为节点,构建有向有权图;
根据权重计算公式计算所述有向有权图中每一个节点的权重;
将所述有向有权图中权重小于预设阈值的节点对应的基础标签在所述用户初始标签表中删除,得到更新后的用户初始标签表。
本发明实施例中所述权重计算公式如下:
其中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85,In(Vi)为指向节点Vi的节点集合,Out(Vj)为节点Vi指向的节点集合,Wji为任两点Vi、Vj之间的连接权重,通常为1,Wjk为两点Vk、Vj之间的连接权重。
其中,删除权重较低的基础标签可以使结果标签更加符合事实,提高结果的精确度。
如图4所示,是本发明实现标签生成方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如标签生成程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如标签生成程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行标签生成程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的标签生成程序12是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;
根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;
根据所述共用指标集和所述特殊指标集生成用户初始标签表;
利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种标签生成方法,其特征在于,所述方法包括:
获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;
根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;
根据所述共用指标集和所述特殊指标集生成用户初始标签表;
利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签;
其中,所述对所述原始用户数据集进行数据清洗,得到标准数据集,包括:对所述原始用户数据集进行过滤,删除所述原始用户数据集中的无效数据和异常数据,得到有效用户数据集;对所述有效用户数据集进行查重,并删除重复数据,得到标准数据集;
所述根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集,包括:根据预设的配置文件将所述标准数据集中的字段与所述基础标签库中各标签领域进行匹配;若所述字段与两个及两个以上的标签领域匹配成功,则将所述字段划分到共用指标集;若所述字段只与一个标签领域匹配成功,则将所述字段划分到该标签领域下的特殊指标集;
所述根据所述共用指标集和所述特殊指标集生成用户初始标签表,包括:通过遍历操作依次从所述特殊指标集中选择其中一个特殊指标;确定所述特殊指标的标签领域;从所述配置文件中获取与所述标签领域对应的标签生成规则;以所述共用指标集和选择的所述特殊指标为参数执行所述标签生成规则,得到对应的基础标签;保存得到的基础标签,生成用户初始标签表。
2.如权利要求1所述的标签生成方法,其特征在于,所述将所述用户初始标签表进行标签合并,得到用户的结果标签之前,该方法还包括:
将所述用户初始标签表中的基础标签作为节点,构建有向有权图;
根据权重计算公式计算所述有向有权图中每一个节点的权重;
将所述有向有权图中权重小于预设阈值的节点对应的基础标签在所述用户初始标签表中进行删除,得到更新后的用户初始标签表。
3.如权利要求2所述的标签生成方法,其特征在于,所述根据权重计算公式计算所述有向有权图中每一个节点的权重,包括:
利用下述公式计算所述有向有权图中每一个节点的权重:
其中,表示节点/>的权重,/>表示节点/>的权重,d为阻尼系数,/>为指向节点/>的节点集合,/>为节点/>指向的节点集合,/>为两点/>、/>之间的连接权重1,/>为两点/>、/>之间的连接权重。
4.如权利要求1至3中任一项所述的标签生成方法,其特征在于,所述对所述原始用户数据集进行数据清洗之前,该方法还包括:
将所述原始用户数据集进行中心化处理,得到样本数据集;
计算所述样本数据集的协方差矩阵;
计算所述协方差矩阵的特征值以及对应的特征向量,并将所述特征向量按对应特征值大小进行排序;
选择最大的K个特征值所对应的特征向量,根据所述特征向量输出对应K维数据,得到更新后的原始用户数据集。
5.一种标签生成装置,用于实现如权利要求1至4中任一项所述的标签生成方法,其特征在于,所述装置包括:
数据获取模块,用于获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;
数据划分模块,用于根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;
初始标签生成模块,用于根据所述共用指标集和所述特殊指标集生成用户初始标签表;
结果标签生成模块,用于利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的标签生成方法。
7.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的标签生成方法。
CN202011058978.5A 2020-09-30 2020-09-30 标签生成方法、装置、电子设备及计算机可读存储介质 Active CN112214556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011058978.5A CN112214556B (zh) 2020-09-30 2020-09-30 标签生成方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011058978.5A CN112214556B (zh) 2020-09-30 2020-09-30 标签生成方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112214556A CN112214556A (zh) 2021-01-12
CN112214556B true CN112214556B (zh) 2024-02-23

Family

ID=74052439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011058978.5A Active CN112214556B (zh) 2020-09-30 2020-09-30 标签生成方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112214556B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326317A (zh) * 2015-07-09 2017-01-11 中国移动通信集团山西有限公司 数据处理方法及装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
CN109815386A (zh) * 2018-12-21 2019-05-28 厦门市美亚柏科信息股份有限公司 一种基于用户画像的构建方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842160B2 (en) * 2015-01-30 2017-12-12 Splunk, Inc. Defining fields from particular occurences of field labels in events
WO2019147369A2 (en) * 2018-01-27 2019-08-01 Walmart Apollo, Llc Digital product label generation using modular scale devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326317A (zh) * 2015-07-09 2017-01-11 中国移动通信集团山西有限公司 数据处理方法及装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
CN109815386A (zh) * 2018-12-21 2019-05-28 厦门市美亚柏科信息股份有限公司 一种基于用户画像的构建方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种用户画像系统的设计与实现;王洋;丁志刚;郑树泉;齐文秀;;计算机应用与软件;20180315(第03期);全文 *

Also Published As

Publication number Publication date
CN112214556A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN114398557B (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
CN112507230B (zh) 基于浏览器的网页推荐方法、装置、电子设备及存储介质
CN113868528A (zh) 资讯推荐方法、装置、电子设备及可读存储介质
CN113656690B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113157739B (zh) 跨模态检索方法、装置、电子设备及存储介质
WO2022088632A1 (zh) 用户数据监控分析方法、装置、设备及介质
CN115204971B (zh) 产品推荐方法、装置、电子设备及计算机可读存储介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN112214556B (zh) 标签生成方法、装置、电子设备及计算机可读存储介质
CN115982454A (zh) 基于用户画像的问卷推送方法、装置、设备及存储介质
CN113343306B (zh) 基于差分隐私的数据查询方法、装置、设备及存储介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN111652741B (zh) 用户偏好分析方法、装置及可读存储介质
CN113723114A (zh) 基于多意图识别的语义分析方法、装置、设备及存储介质
CN114219544A (zh) 消费倾向分析方法、装置、设备及存储介质
CN113486238A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN113822215A (zh) 设备操作指引文件生成方法、装置、电子设备及存储介质
CN114185617B (zh) 业务调用接口配置方法、装置、设备及存储介质
CN116188049B (zh) 基于链式分析的潜在用户挖掘方法及装置
CN113704411B (zh) 基于词向量的相似客群挖掘方法、装置、设备及存储介质
CN112328960B (zh) 数据运算的优化方法、装置、电子设备及存储介质
CN112306835B (zh) 用户数据监控分析方法、装置、设备及介质
CN112084391B (zh) 依赖包信息的获取方法、装置、设备及计算机介质
CN116303645A (zh) 人际关系路径快速定位方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant