CN116127162A - 大数据实时用户标签方法及系统、计算机设备及存储介质 - Google Patents

大数据实时用户标签方法及系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN116127162A
CN116127162A CN202310391614.6A CN202310391614A CN116127162A CN 116127162 A CN116127162 A CN 116127162A CN 202310391614 A CN202310391614 A CN 202310391614A CN 116127162 A CN116127162 A CN 116127162A
Authority
CN
China
Prior art keywords
data
label
real
tag
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310391614.6A
Other languages
English (en)
Inventor
李康琪
舒鑫
王伟
寻桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Digital Intelligence Media Technology Co ltd
Original Assignee
Changsha Digital Intelligence Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Digital Intelligence Media Technology Co ltd filed Critical Changsha Digital Intelligence Media Technology Co ltd
Priority to CN202310391614.6A priority Critical patent/CN116127162A/zh
Publication of CN116127162A publication Critical patent/CN116127162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种大数据实时用户标签方法及系统、计算机设备及存储介质,其包括如下步骤:获取实时及离线的采集数据;获取用户ID‑标签ID的映射数据;将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;采用key‑value的存储格式将进行实时标签合并操作后的标签数据进行存储;实时监控key‑value存储系统中的标签数据变化,根据标签数据变化实时更新索引。本发明通过对离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;配合将标签数据进行存储,根据标签数据变化实时更新索引,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,实现了标签系统的高效易用性。

Description

大数据实时用户标签方法及系统、计算机设备及存储介质
技术领域
本发明涉及大数据科学技术领域,尤其是涉及一种大数据实时用户标签方法及系统、计算机设备及存储介质。
背景技术
会用户标签又称用户画像,是一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户数据标签化是数据分析的一种方式,如何简洁、快速的对大数据情况下的用户数据进行标签化,如何集中管理用户标签数据、统一应用标签数据,一直是数据科学领域研究的一个问题。
故而亟需提出一种大数据实时用户标签方法来解决所提出的问题。
发明内容
基于此,有必要针对现有技术的不足,提供一种大数据实时用户标签方法及系统、计算机设备及存储介质,将实时和离线标签技术统一,做到了实时/离线标签计算一体化,采用程序读写和应用查询检索分离和倒排索引的方案,实现了标签系统的高效易用性。
为解决上述技术问题,本发明采用以下技术方案:
本发明提供了一种大数据实时用户标签方法,其包括如下步骤:
步骤S110、获取实时及离线的采集数据;
步骤S120、当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;
步骤S130、将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;
步骤S140、采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;
步骤S150、实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
第二方面,本发明提供了一种大数据实时用户标签系统,其包括:
数据采集模块,用于获取实时及离线的采集数据;
标签计算模块,用于当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;
标签合并模块,用于将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;
存储模块,用于采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;
索引模块,用于实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
第三方面,本发明提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的大数据实时用户标签方法。
第四方面,本发明提供了一种存储介质,其存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现上述的大数据实时用户标签方法。
综上所述,本发明提供的一种大数据实时用户标签方法及系统、计算机设备及存储介质通过将离线数据及实时数据进行打标签操作后发送到数据流管道后,对离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;配合采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储,根据标签数据变化实时更新索引,以方便标签查询及快速检索,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,提高效率,实现了标签系统的高效易用性。
附图说明
图1为本发明实施例提供的第一种大数据实时用户标签方法的流程示意图;
图2为本发明实施例提供的第二种大数据实时用户标签方法的流程示意图;
图3为本发明实施例提供的用户ID查标签及标签ID组合查用户的结果示意图;
图4为本发明实施例提供的数据分析平台进行打标签操作的SQL脚本示意图;
图5为本发明实施例提供的数据管道中的数据格式采用json类型的结果示意图;
图6为本发明实施例提供的采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储的逻辑示意图;
图7为本发明实施例提供的key-value存储系统及索引系统内部的数据流转关系示意图;
图8为本发明实施例提供的通过标签的组合查找符合的人群的检索示意图;
图9为本发明实施例提供的第一种大数据实时用户标签系统的结构框图;
图10为本发明实施例提供的第二种大数据实时用户标签系统的结构框图;
图11为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能,下面结合附图与具体实施方式对本发明作进一步详细描述。
图1是本发明实施例提供的第一种大数据实时用户标签方法的流程示意图,如图1所示,该大数据实时用户标签方法,包括步骤S110-步骤S150,具体如下:
步骤S110、获取实时及离线的采集数据;APP业务数据、埋点数据、日志数据及其他数据等根据数据的标签应用需求时效性特点,数据分析平台分别获取APP业务数据、埋点数据、日志数据及其他数据的实时及离线的采集数据;其中,数据分析平台对采集到的埋点数据进行清洗处理后,其关键字段如下表1所示:
表1
步骤S120、当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;其中,用户ID为采集数据的其中一个关键字段对应的预设值,标签ID为预先构建的标签所对应的标签值,所述标签值为预设数值,根据不同的用户ID对应的预设值预设有不同的数值,如当用户ID为100时,对应的标签值可为1001、1002……10099……,当用户ID为200时,对应的标签值可为2001、2002、2003……20099……。
在一个实施例中,所述数据流管道采用kafka框架实现,打好的标签数据源源不断的传输到数据流管道中,数据流管道中的数据按照传入的数据依次排列等待下游程序消费,数据流管道除了可以保证数据的顺序之外,还能在数据量特别大,下游程序处理不过来时,提供数据缓冲的功能,提高系统的稳定性和吞吐量,数据流管道中的数据格式采用json类型,可参考图5所示,即上一步的打好的标签数据会转换成一条一条的json数据发送到数据管道。
在一个实施例中,所述步骤S120中数据标签为用户ID-标签ID的映射数据,具体地,数据流管道中的标签数据是一条一条的用户ID-标签ID映射数据。
在一个实施例中,所述步骤S120中定时进行打标签操作的具体操作为在数据分析平台上定时调度数据清洗预设打标程序,通过调用定时调度数据清洗预设打标程序实现对离线数据的打标签操作,并将打好的离线数据对应的标签数据发送到数据流管道;所述步骤S120中实时进行打标签操作的具体操作为在数据分析平台上实时进行标签计算,通过实时标签计算实现对实时数据的打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道。
在一个实施例中,所述预先构建的标签包括匹配类型标签、统计类型标签及预测类型标签,其中,匹配类型标签为需要对单条数据进行处理、映射到用户ID的标签,如给用户打上“设备品牌”的标签,只需要取一条用户浏览数据即可实现;统计类型标签为需要对多条数据进行聚合计算,然后再映射到用户ID的标签,如给用户打上“近30天访问时间段偏好”,需要对每个用户近30天的数据进行统计,计算每天各个时间段(早、中、晚等)的浏览情况,然后打上标签;预测类型标签为需要使用机器学习算法,依靠大量历史数据进行预测的标签,如给用户打上“偏好内容类型”的标签,需要对用户近90天的资讯浏览数据进行计算,可使用各种已知算法来综合预测该用户偏好那些类型内容。
在其中一个实施例中,所述步骤S120的方法,具体包括如下步骤:
步骤S121、构建标签管理规则;将标签分为一级标签、二级标签及三级标签,其中,一级标签对应数据的标签属性,二级标签对应数据的标签名,三级标签对应数据的标签值,一级标签包括人口属性、行为属性及社会属性,人口属性表示用户作为一个人本省存在的属性标签,如性别、年龄、星座、籍贯等二级标签;行为属性表示根据用户在平台上浏览的数据分析得出的标签,如近30天访问时间段偏好、偏好内容类型等二级标签;社会属性表示根据用户在平台的办事等数据定义的用户社会方面的标签,如常驻区县、教育程度等二级标签,三级标签为二级标签下属的具体内容数据所对应标签值,二级标签下属的具体内容包括性别内容如男、女等三级标签,偏好内容类型如时政、体育、财经等三级标签,常驻区县如雨花区、天心区等三级标签,及其他内容等等,标签管理规则的数据样例可参考下表2所示:
表2
步骤S122、构建标签更新规则;标签的更新是以二级标签(标签名)为单位的,更新的是三级标签(标签值),在定义标签的同时,需要定义标签的重新计算时间(实时、1小时、1天、1月、1年等),然后根据标签及重新计算时间,以用户为单位,将更新的标签和用户历史标签进行合并,然后实现对历史标签的更新操作。
步骤S123、对采集数据进行梳理,根据标签管理规则及标签更新规则对离线数据及实时数据进行打标签操作,定义二级标签对应的标签名字、三级标签对应的标签值、二级标签的数据标签化规则等,获取用户ID-标签ID的映射数据;其中,二级标签的数据标签化规则为预设的标签规则,如通过埋点数据IP地址进行解析,取近180天内次数最多的区县等,对采集数据梳理的结果可参考下表3所示:
表3
在一个实施例中,所述步骤S123的方法,具体操作为:
根据梳理出来的数据标签化规则,在数据分析平台上使用SQL进行开发,其中,离线标签使用hive框架定义的hiveSQL语言进行开发,实时标签使用flink框架定义的flinkSQL语言进行开发,实现三级标签对应的标签ID到用户ID的映射,获取用户ID-标签ID的映射数据;其中,SQL处理好的数据如下表4所示:
表4
具体的打标签操作是把每一个三级标签ID映射到用户ID上,上述三级标签分别列为单个标签ID,本次打标签操作,该用户有多少个三级标签就有多少列,如用户ID为200的用户,本次打标签能打上2个标签,那么本次数据条数就有2条,一个用户ID和对应的一个三级标签ID组成一行记录。
步骤S130、将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;具体地,离线数据对应的标签数据及实时数据对应的标签数据在进入数据流管道下游部时在预设标签合并程序下进行实时标签合并操作,使得用户相关的数据从产生到标签化,平均2秒左右,可以在用户的一次访问中,及时应用标签数据。
在一个实施例中,所述步骤S130中的实时标签合并操作包括标签更新、标签合并及标签删除等操作,预设标签合并程序部署在数据流管道的下游部,预设标签合并程序在数据流管道下游部对应形成实时标签合并引擎,离线和实时分析好的标签数据一条一条的进入数据流管道,通过在数据流管道下游部署实时标签合并程序下,使得用户相关的数据从产生到标签化,平均2秒左右,可以在用户的一次访问中,及时应用标签数据。
在采集数据吞吐量大时,本实施例中数据流管道可以部署多条,在用户访问量特别大,产生的数据特别多的情况下,多条数据流管道也是离线或实时数据流的缓冲地带,数据流管道下游部的实时标签合并引擎采用flink系统框架进行计算,可以分布式并行消费管道中的数据。该flink系统的吞吐量达到1核CPU 1秒能处理管道中1w条数据;在实际应用中,可以根据数据量提高并行度,如采用5个并行度进行计算,吞吐量约为5w/秒,本实施例中应用的标签合并引擎在30天内的处理数据量可参考下表5所示。
表5 标签合并引擎30天处理数据量表
在一个实施例中,所述步骤S130的方法,具体操作包括:
步骤S131、提交对一级标签名字、二级标签名字、三级标签名字的修改申请请求,请求通过一级标签名字、二级标签名字、三级标签名字对应的标签中文名则根据修改请求进行变更,实现对一级标签名字、二级标签名字、三级标签名字的修改、更新操作,对整个用户标签的存储没有影响,因为底层的用户标签存储使用的是用户ID和标签ID的方式进行存储。
步骤S132、增加二级标签,实现对二级标签的更新操作;每个新增的二级标签都是一个新的标签单元,可根据步骤S123实现对二级标签的新增操作。
步骤S133、增加三级标签,实现对三级标签的更新操作;根据步骤S121中的标签管理规则,选择对应的二级标签,然后添加新的标签值,实现对三级标签的更新操作。当用户标签进行更新时,需要对该二级标签的实现SQL进行修改,进而添加新增的标签值的实现逻辑,然后重新提交该二级标签的打标签程序;其中,每个二级标签对应一个打标签程序。
步骤S134、判断同一用户打上的三级标签中,是否有多个三级标签属于同一个二级标签,如果有,则将该二级标签下属的最新更新的三级标签对应的标签ID映射到该用户对应的用户ID下,将其他同属于该二级标签下属的三级标签对应的标签ID删除,实现对三级标签的合并、删除操作。
本实施例中,以年龄标签为例,用户去年打的年龄标签为25岁,今年重新打标签,年龄标签是26岁,他们是属于同一个父标签(年龄标签),那么就会删除25岁的标签,更新成26岁的标签;数据分析平台进行打标签操作可参考图4所示,编写好一个打标签SQL脚本后,即可对采集数据执行打标签操作。
步骤S140、采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储,具体可参考图6所示;其中,采用key-value的存储格式将标签数据进行存储的key-value存储系统采用hbase框架,用户ID为key,该用户的所有标签ID为value,多个标签ID组成的标签ID组合采用逗号进行分隔,用户ID与标签ID组合关系可参考下表6所示:
表6
同时对每个用户的标签采用逗号分词索引,达到通过用户ID查标签,通过标签ID组合查符合的用户人群的快速响应效果。通过用户ID查标签,平均响应7毫秒;通过标签组合ID查用户,平均响应600毫秒左右,可参考图3所示,其中黑框内分别为响应时间、用户ID以及标签ID。
步骤S150、实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引,以方便标签查询及快速检索,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,提高效率,实现了标签系统的高效易用性;其中,根据标签数据变化实时更新索引的索引系统采用solr框架,通过APP业务中的标签数据查询只查询索引系统,通过打标签程序的增删改查则只操作key-value存储系统,key-value存储系统及索引系统内部的数据流转关系可参考图7所示,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,提高效率,实现了标签系统的高效易用性。
在一个实施例中,索引系统中索引的建立采用倒排方向索引的方式,对vulue(逗号分隔的标签ID组合)根据逗号进行分词,形成一个标签ID与索引的词典表,如下方的标签ID与索引的词典表所示,对每一个出现的标签ID都会加到词典表中进行管理。具体如表7所示。
表7
比如现在要查找符合1001这个标签ID的用户,首先会在词典中找到1001这个ID对应的index 0,然后在图7所示将检索系统倒排表中会有一个链表与index 0关联着,这个链表就是符合1001这个标签ID的所有用户ID集,同时词典表和倒排表的排序会根据被查询的内容进行排序,即最新查询到的内容会在表的最前面,那么一段时间内重复查找该内容响应速度将更加快速。
如图2所示,在一个实施例中,所述步骤S150之后,还包括
步骤S160、基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容,进而实现最终的标签查询应用。
当通过用户ID查询标签时,所述步骤S160的方法,具体操作为:
通过用户ID查询标签,获取一条对应的返回数据,APP运营商可以预先制定规则给符合不同标签组合的用户分别展示内容,当用户打开APP时,先通过用户ID获取该标签,将该用户标签与预先制定的规则进行匹配,然后展示定制化的内容,实现用户画像的千人千面应用;其中,返回数据的情况可参考图3。
当通过标签ID组合查找符合的人群时,所述步骤S160的方法,具体操作为:
通过标签ID组合查找符合的人群,利用索引系统可以通过标签的任意搭配,查询到符合该标签ID组合规则的用户ID群集合,进而对该用户群实施对应的运营策略,然后展示定制化的内容;其中,标签ID的组合可参考图8所示。
本发明一种大数据实时标签方法通过将离线数据及实时数据进行打标签操作后发送到数据流管道后,对离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;配合采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储,根据标签数据变化实时更新索引,以方便标签查询及快速检索,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,提高效率,实现了标签系统的高效易用性。
图9是本发明实施例提供的一种大数据实时用户标签系统的结构框图,如图9所示,对应于上述大数据实时用户标签方法,本发明还提供一种大数据实时用户标签系统,该大数据实时用户标签系统包括用于执行上述大数据实时用户标签方法的模块,该系统可以被配置于计算机设备等设备终端,本发明提供大数据实时用户标签系统,通过将离线数据及实时数据进行打标签操作后发送到数据流管道后,对离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;配合采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储,根据标签数据变化实时更新索引,以方便标签查询及快速检索,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,提高效率,实现了标签系统的高效易用性。
具体地,请参考图9,该大数据实时用户标签系统包括数据采集模块10、标签计算模块20、标签合并模块30、存储模块40及索引模块50。
数据采集模块10,用于获取实时及离线的采集数据;
标签计算模块20,用于当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;
标签合并模块30,用于将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;
存储模块40,用于采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;
索引模块50,用于实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
图10是本发明实施例提供的第二种大数据实时用户标签系统的结构框图。如图10所示,本实施例提供的大数据实时用户标签系统是在上述大数据实时用户标签系统的基础上增加了标签应用模块60,所述标签应用模块60用于基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容。
当通过用户ID查询标签时,标签应用模块60基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容,具体用于执行如下步骤:
通过用户ID查询标签,获取一条对应的返回数据,APP运营商可以预先制定规则给符合不同标签组合的用户分别展示内容,当用户打开APP时,先通过用户ID获取该标签,将该用户标签与预先制定的规则进行匹配,然后展示定制化的内容,实现用户画像的千人千面应用。
当通过标签ID组合查找符合的人群时,标签应用模块60基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容,具体用于执行如下步骤:
通过标签ID组合查找符合的人群,利用索引模块50可以通过标签的任意搭配,查询到符合该标签ID组合规则的用户ID群集合,进而对该用户群实施对应的运营策略,然后展示定制化的内容。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述大数据实时用户标签系统和各模块的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
图11是本发明实施例提供的一种计算机设备的内部结构框图,如图11所示,本发明提供的计算机设备包括通过系统总线连接的通过系统总线连接的存储器、处理器及网络接口;所述存储器上存储有计算机程序,所述处理器用于提供计算和控制能力,以支撑整个计算机设备的运行,所述处理器执行所述计算机程序时实现上述的一种大数据实时用户标签方法。
存储器可以包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现大数据实时用户标签方法。
该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行大数据实时用户标签方法。该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其他的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的大数据实时用户标签方法可实现为一种计算机程序的方式,计算机程序可以在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该大数据实时用户标签系统的各个程序模块,比如,图9所示的数据采集模块10、标签计算模块20、标签合并模块30、存储模块40及索引模块50。各个程序模块构成的计算机程序使得处理器执行本说明中描述的本申请各个实施例的大数据实时用户标签系统的步骤。例如,图11所示的计算机设备可以通过如图9所示的大数据实时用户标签系统中的数据采集模块10获取实时及离线的采集数据;标签计算模块20当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;标签合并模块30将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;存储模块40采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;索引模块50实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:步骤S110、获取实时及离线的采集数据;步骤S120、当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;步骤S130、将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;步骤S140、采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;步骤S150、实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
在一个实施例中,所述处理器在执行所述步骤S150之后,还用于执行以下步骤:步骤S160、基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容。
在一个实施例中,当通过用户ID查询标签时,所述处理器在实现所述步骤S160、基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容的步骤时,具体实现如下步骤:通过用户ID查询标签,获取一条对应的返回数据,APP运营商可以预先制定规则给符合不同标签组合的用户分别展示内容,当用户打开APP时,先通过用户ID获取该标签,将该用户标签与预先制定的规则进行匹配,然后展示定制化的内容。
在一个实施例中,当通过标签ID组合查找符合的人群时,所述处理器在实现所述步骤S160、基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容的步骤时,具体实现如下步骤:通过标签ID组合查找符合的人群,利用索引模块50可以通过标签的任意搭配,查询到符合该标签ID组合规则的用户ID群集合,进而对该用户群实施对应的运营策略,然后展示定制化的内容。
应当理解,在本申请实施例中,处理器可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:步骤S110、获取实时及离线的采集数据;步骤S120、当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;步骤S130、将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;步骤S140、采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;步骤S150、实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
综上所述,本发明一种大数据实时用户标签方法及系统、计算机设备及存储介质通过将离线数据及实时数据进行打标签操作后发送到数据流管道后,对离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;配合采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储,根据标签数据变化实时更新索引,以方便标签查询及快速检索,使得业务使用的标签数据查询和打标签程序进行的标签增删改查分离,提高效率,实现了标签系统的高效易用性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种大数据实时用户标签方法,其特征在于,包括如下步骤:
步骤S110、获取实时及离线的采集数据;
步骤S120、当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;
步骤S130、将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;
步骤S140、采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;
步骤S150、实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
2.根据权利要求1所述的大数据实时用户标签方法,其特征在于:所述步骤S120中定时进行打标签操作的具体操作为在数据分析平台上定时调度数据清洗预设打标程序,通过调用定时调度数据清洗预设打标程序实现对离线数据的打标签操作,并将打好的离线数据对应的标签数据发送到数据流管道;所述步骤S120中实时进行打标签操作的具体操作为在数据分析平台上实时进行标签计算,通过实时标签计算实现对实时数据的打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道。
3.根据权利要求1所述的大数据实时用户标签方法,其特征在于,所述步骤S120的方法,具体包括如下步骤:
步骤S121、构建标签管理规则;将标签分为一级标签、二级标签及三级标签,其中,一级标签对应数据的标签属性,二级标签对应数据的标签名,三级标签对应数据的标签值;
步骤S122、构建标签更新规则;标签的更新是以二级标签为单位的,更新的是三级标签,在定义标签的同时,需要定义标签的重新计算时间,然后根据标签及重新计算时间,以用户为单位,将更新的标签和用户历史标签进行合并,实现对历史标签的更新操作;
步骤S123、对采集数据进行梳理,根据标签管理规则及标签更新规则对离线数据及实时数据进行打标签操作,定义二级标签对应的标签名字、三级标签对应的标签值、二级标签的数据标签化规则等,获取用户ID-标签ID的映射数据。
4.根据权利要求3所述的大数据实时用户标签方法,其特征在于,所述步骤S123的方法,具体操作为:
根据梳理出来的数据标签化规则,在数据分析平台上使用SQL进行开发,其中,离线标签使用hive框架定义的hiveSQL语言进行开发,实时标签使用flink框架定义的flinkSQL语言进行开发,实现三级标签对应的标签ID到用户ID的映射,获取用户ID-标签ID的映射数据。
5.根据权利要求3所述的大数据实时用户标签方法,其特征在于,所述步骤步骤S130的方法,具体操作包括:
步骤S131、提交对一级标签名字、二级标签名字、三级标签名字的修改申请请求,请求通过一级标签名字、二级标签名字、三级标签名字对应的标签中文名则根据修改请求进行变更,实现对一级标签名字、二级标签名字、三级标签名字的修改、更新操作;
步骤S132、增加二级标签,实现对二级标签的更新操作;
步骤S133、增加三级标签,实现对三级标签的更新操作;
步骤S134、判断同一用户打上的三级标签中,是否有多个三级标签属于同一个二级标签,如果有,则将该二级标签下属的最新更新的三级标签对应的标签ID映射到该用户对应的用户ID下,将其他同属于该二级标签下属的三级标签对应的标签ID删除,实现对三级标签的合并、删除操作。
6.根据权利要求1所述的大数据实时用户标签方法,其特征在于:所述步骤S150之后,还包括
步骤S160、基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容。
7.一种大数据实时用户标签系统,其特征在于,包括:
数据采集模块,用于获取实时及离线的采集数据;
标签计算模块,用于当采集数据为离线数据时,定时进行打标签操作,将打好离线数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;当采集数据为实时数据时,实时进行打标签操作,并将打好的实时数据对应的标签数据发送到数据流管道,获取用户ID-标签ID的映射数据;
标签合并模块,用于将离线数据对应的标签数据及实时数据对应的标签数据进行实时标签合并操作;
存储模块,用于采用key-value的存储格式将进行实时标签合并操作后的标签数据进行存储;
索引模块,用于实时监控key-value存储系统中的标签数据变化,根据标签数据变化实时更新索引。
8.根据权利要求7所述的大数据实时用户标签系统,其特征在于,还包括标签应用模块,用于基于用户ID或标签ID组合给符合规则的用户或人群展示定制化内容。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的大数据实时用户标签方法。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如权利要求1-6中任一项所述的大数据实时用户标签方法。
CN202310391614.6A 2023-04-13 2023-04-13 大数据实时用户标签方法及系统、计算机设备及存储介质 Pending CN116127162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310391614.6A CN116127162A (zh) 2023-04-13 2023-04-13 大数据实时用户标签方法及系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310391614.6A CN116127162A (zh) 2023-04-13 2023-04-13 大数据实时用户标签方法及系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116127162A true CN116127162A (zh) 2023-05-16

Family

ID=86304866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310391614.6A Pending CN116127162A (zh) 2023-04-13 2023-04-13 大数据实时用户标签方法及系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116127162A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
CN111475509A (zh) * 2020-04-03 2020-07-31 李俊宏 一种基于大数据的用户画像和多维分析系统
CN111754268A (zh) * 2020-06-29 2020-10-09 深圳市酷开软件技术有限公司 基于ott大数据的用户标签生成方法、管理系统及存储介质
CN112733017A (zh) * 2020-12-30 2021-04-30 青岛海尔科技有限公司 一种标签管理方法、装置、存储介质及电子装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
CN111475509A (zh) * 2020-04-03 2020-07-31 李俊宏 一种基于大数据的用户画像和多维分析系统
CN111754268A (zh) * 2020-06-29 2020-10-09 深圳市酷开软件技术有限公司 基于ott大数据的用户标签生成方法、管理系统及存储介质
CN112733017A (zh) * 2020-12-30 2021-04-30 青岛海尔科技有限公司 一种标签管理方法、装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周晓芳等: "《智慧社区大数据》", 上海科学技术出版社, pages: 60 *

Similar Documents

Publication Publication Date Title
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN108416620B (zh) 一种基于大数据的画像数据的智能社交广告投放平台
US9495460B2 (en) Merging search results
US7912816B2 (en) Adaptive archive data management
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US20100318492A1 (en) Data analysis system and method
CN111159341B (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN104685495A (zh) 一种从多个微博中自动生成信息丰富的内容的系统和方法,每个微博仅包含稀疏信息
US10606910B2 (en) Ranking search results using machine learning based models
CN101796795A (zh) 分布式系统
CN110019703B (zh) 数据标记方法及装置、智能问答方法及系统
CN111597449B (zh) 用于搜索的候选词构建方法、装置、电子设备及可读介质
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
CN112269816A (zh) 一种政务预约事项相关性检索方法
CN112860929A (zh) 一种图片搜索方法、装置、电子设备及存储介质
WO2017032374A1 (en) A method for automatically presenting to a user online content based on the user's preferences as derived from the user's online activity and related system and computer readable medium
EP4002152A1 (en) Data tagging and synchronisation system
CN116127162A (zh) 大数据实时用户标签方法及系统、计算机设备及存储介质
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
US20100250367A1 (en) Relevancy of virtual markers
JP2016095669A (ja) 画像分析方法及び画像分析装置
CN114969486B (zh) 语料推荐方法、装置、设备及存储介质
CN116384473B (zh) 一种计算图改进、信息推送方法及装置
CN116821495A (zh) 一种贴吧管理方法、装置、设备及存储介质
CN112632405A (zh) 一种推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230516