CN111274249A - 用户画像数据存储优化方法、设备及可读存储介质 - Google Patents
用户画像数据存储优化方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111274249A CN111274249A CN202010068684.4A CN202010068684A CN111274249A CN 111274249 A CN111274249 A CN 111274249A CN 202010068684 A CN202010068684 A CN 202010068684A CN 111274249 A CN111274249 A CN 111274249A
- Authority
- CN
- China
- Prior art keywords
- user
- stored
- storage
- data
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 62
- 238000005457 optimization Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 90
- 238000013507 mapping Methods 0.000 claims abstract description 68
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本申请公开了一种用户画像数据存储优化方法、设备和可读存储介质,所述用户画像数据存储优化方法包括:接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据,对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系,基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。本申请解决了用户画像数据占用存储资源高的技术问题。
Description
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种用户画像数据存储优化方法、设备和可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着互联网和人工智能的不断发展,为了实现精准营销,互联网公司都构建了用户画像系统,通过给用户打标签的方式为每个用户生成用户画像,并将用户画像数据存储于本地数据库中,目前,用户画像数据通常以key-value(键值对)的形式进行存储,其中,key(钥匙)为用户标识,value(值)为用户标签构成的用户画像数据,且每个标签使用2字节整型存储,但是,大部分互联网公司的用户量级都达到了亿级别、甚至十亿级别,而每个用户的画像数据所包含的标签通常也能达到上万个,进而导致用户画像存储占用大量资源,给用户画像数据存储带来了极高的存储成本,所以,现有技术中存在用户画像数据占用存储资源高的技术问题。
发明内容
本申请的主要目的在于提供一种用户画像数据存储优化方法、设备和可读存储介质,旨在解决现有技术中用户画像数据占用存储资源高的技术问题。
为实现上述目的,本申请提供一种用户画像数据存储优化方法,所述用户画像数据存储优化方法应用于用户画像数据存储优化设备,所述用户画像数据存储优化方法包括:
接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据;
对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系;
基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap(位图)存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。
可选地,所述动态分段结果包括第一编码段和第二编码段,
所述基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储的步骤包括:
基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段;
通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap;
基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段;
通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表;
将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库。
可选地,所述基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段的步骤包括:
获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第一编码段,对所述待存储用户标签进行编码,获得各所述第一待存储编码段。
可选地,所述基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段的步骤包括:
获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
若所述标签覆盖度小于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第二编码段,对所述待存储用户标签进行编码,获得各所述第二待存储编码段。
可选地,所述将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库的步骤包括:
获取各所述待存储用户数据对应的用户标识;
基于各所述用户标识、各所述存储Bitmap和各所述存储整数列表,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库。
可选地,所述动态分段结果包括第一编码段和第二编码段,
所述对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果的步骤包括:
获取各所述待存储用户数据对应的最优分段节点;
基于各所述最优分段节点,分别对所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段。
可选地,所述编码段包括多个待选择分段节点,
所述获取各所述待存储用户数据对应的最优分段节点的步骤包括:
将各所述待存储用户数据分别输入预设最优分段节点预测模型,以分别计算各所述待选择分段节点对应的存储资源消耗量,获得各所述待存储用户数据对应的存储资源消耗量集合;
在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点。
可选地,所述接收用户画像数据,并生成所述用户画像数据对应的编码段的步骤包括:
接收所述用户画像数据,并计算所述用户画像数据对应的各用户标签的标签覆盖度;
基于各所述标签覆盖度,对各所述用户标签进行排序,获得用户标签队列;
对所述用户标签队列进行编码,获得所述编码段。
本申请还提供一种用户画像数据存储优化装置,所述用户画像数据存储优化装置应用于用户画像数据存储优化设备,且所述用户画像数据存储优化装置为虚拟装置,所述用户画像数据存储优化装置包括:
生成模块,用于所述接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据;
动态分段模块,用于所述对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系;
存储模块,用于所述基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。
可选地,所述存储模块包括:
第一确定单元,用于所述基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段;
第一存储单元,用于所述通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap;
第二确定单元,用于所述基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段;
第二存储单元,用于所述通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表;
第三存储单元,用于所述将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库。
可选地,所述第一确定单元包括:
第一获取子单元,用于所述获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
第一比对子单元,用于所述将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
第一编码子单元,用于所述若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第一编码段,对所述待存储用户标签进行编码,获得各所述第一待存储编码段。
可选地,所述第二确定单元包括:
第二获取子单元,用于所述获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
第二比对单元,用于所述将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
第二编码单元,用于所述若所述标签覆盖度小于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第二编码段,对所述待存储用户标签进行编码,获得各所述第二待存储编码段。
可选地,所述第三存储单元包括:
第三获取子单元,用于所述获取各所述待存储用户数据对应的用户标识;
存储子单元,用于所述基于各所述用户标识、各所述存储Bitmap和各所述存储整数列表,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库。
可选地,所述动态分段模块包括:
获取单元,用于所述获取各所述待存储用户数据对应的最优分段节点;
分段单元,用于所述基于各所述最优分段节点,分别对所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段。
可选地,所述获取单元包括:
输入子单元,用于所述在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点;
选取子单元,用于所述在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点。
可选地,所述生成模块包括:
计算单元,用于所述接收所述用户画像数据,并计算所述用户画像数据对应的各用户标签的标签覆盖度;
排序单元,用于所述基于各所述标签覆盖度,对各所述用户标签进行排序,获得用户标签队列;
第三编码单元,用于所述对所述用户标签队列进行编码,获得所述编码段。
本申请还提供一种用户画像数据存储优化设备,所述用户画像数据存储优化设备为实体装备,所述用户画像数据存储优化设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述用户画像数据存储优化方法的程序,所述用户画像数据存储优化方法的程序被处理器执行时可实现如上述的用户画像数据存储优化方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现用户画像数据存储优化方法的程序,所述用户画像数据存储优化方法的程序被处理器执行时实现如上述的用户画像数据存储优化方法的步骤。
本申请通过接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据,进而对所述编码段进行动态分段,获得动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系,进而基于所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。也即,本申请首先生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据,进而通过进行对所述编码段的动态分段,获得各所述待存储用户数据对应的动态分段结果,并进行本申请还可通过基于预设标签编码映射关系,对各所述编码段进行动态分段,获得动态分段结果,并进行所述用户画像数据中的各用户标签和所述编码段之间的映射关系的构建,进而基于各所述动态分段结果和各所述映射关系,通过结合预设Bitmap存储方式和预设整数列表存储方式分别对各所述待存储用户数据进行存储,以使用最少的存储资源各所述待存储数据进行存储。也即,本申请提供了一种结合Bitmap和整数列表对应用户画像数据进行存储的方法,通过对所述用户画像数据对应的编码段进行动态分段,实现分别对各所述待存储用户数据的数据存储结构进行动态优化的目的,进而实现了优化用户画像数据的存储结构的目的,进而基于所述动态分段结果,对各所述待存储数据进行存储,避免了由于用户量级过大,导致用户画像数据占用存储资源过多,进而导致用户画像数据存储成本过高的情况发生,进而达到了减少所述用户画像数据占用的存储资源的目的,所以,解决了用户画像数据占用存储资源高的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请用户画像数据存储优化方法第一实施例的流程示意图;
图2为本申请用户画像数据存储优化方法第一实施例中使用预设Bitmap存储方式对所述第一待存储编码段进行存储的Bitmap示意图;
图3为本申请用户画像数据存储优化方法第二实施例的流程示意图;
图4为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种用户画像数据存储优化方法,所述用户画像数据存储优化方法应用于用户画像数据存储优化设备,在本申请用户画像数据存储优化方法的第一实施例中,参照图1,所述用户画像数据存储优化方法包括:
步骤S10,接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据;
在本实施例中,需要说明的是,所述用户画像数据包括一个或者多个待存储用户数据,每一所述用户数据均包括一个或者多个用户标签,所述用户标签包括用户性别、用户年龄和用户爱好等,所述编码段为一连串的有序编码,所述编码段包括一个或者多个编码,其中,所述编码包括字符串、数字等,每一所述编码对应一所述用户标签,也即,所述编码与所述用户标签之间存在映射关系,例如,假设所述用户标签为用户性别为男和用户年龄为32岁,则可生成编码0代表用户性别为男,生成编码666代表用户年龄为32岁。
接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据,具体地,接收用户画像数据,并计算所述用户画像数据中各用户标签的标签覆盖度,其中,每一所述标签覆盖度等于含该标签的用户数除以所述用户画像数据对应的用户总数,且每一用户均在所述用户画像数据中对应存在一所述待存储用户数据,进而基于各所述标签覆盖度,对用户画像数据中的各用户标签进行排序,获得对应的用户标签队列,对所述用户标签队列进行编码,生成所述编码段。
所述接收待存储数据,并生成所述待存储数据对应的编码段的步骤包括:
步骤S11,接收所述用户画像数据,并计算所述用户画像数据对应的各用户标签的标签覆盖度;
在本实施例中,需要说明的是,所述用户数据包括一个或者多个用户标签,所述标签覆盖度等于含该标签的用户数量与所述用户画像数据对应的用户总数之比,且各所述用户数据之间可存在相同的数据标签,例如,假设所述用户画像数据包括2个待存储用户数据,一个待存储用户数据包括的各用户标签为“男、本科、篮球”,另一个待存储用户数据包括的各用户标签为“女、本科、钢琴”,则所述用户画像数据包括“男、本科、篮球、女、钢琴”等5个标签,则“本科”用户标签对应的标签覆盖度为100%,其余的用户标签对应的标签覆盖度均为50%。
步骤S12,基于各所述标签覆盖度,对各所述用户数据进行排序,获得用户标签队列;
在本实施例中,基于各所述标签覆盖度,对各所述用户数据进行排序,获得用户标签队列,具体地,基于各所述标签覆盖度,以预设排列规则对各所述用户数据中的各所述用户标签进行排序,其中,所述预设排列规则包括按标签覆盖度从小到大排列和按标签覆盖度从大到小排列,进而获得所述用户画像数据对应的用户标签队列。
步骤S13,对各所述用户标签队列进行编码,获得各所述编码段。
在本实施例中,需要说明的是,一所述用户标签均对应一编码,所述编码段与所述用户标签队列排列顺序一致,例如,假设所述用户标签队列包括“男,32岁,喜爱游泳”三个用户标签,其中,“男”对应的编码为1,“32岁”对应的编码为2,“喜爱游泳”对应的编码为3,则所述编码段为“1,2,3”。
步骤S20,对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系;
在本实施例中,所述动态分段结果包括第一编码段和第二编码段
对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系,具体地,确定各所述待存储用户数据对应的最优分段节点,进而分别基于所述最优分段节点,对所述编码段进行分段,获得各所述待存储用户数据对应的动态分段结果,其中,若基于所述最优分段节点对应的动态分段结果,对所述待存储用户数据进行存储所消耗的存储资源应当最低。
其中,所述动态分段结果包括第一编码段和第二编码段,
所述对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果的步骤包括:
步骤S21,获取各所述待存储用户数据对应的最优分段节点;
在本实施例中,需要说明的是,所述编码段包括一个或者多个编码,其中,每一编码均可作为待选择分段节点。
获取各所述待存储用户数据对应的最优分段节点,具体地,建立所述待存储用户数据对应的存储资源消耗量方程组,以在各所述待选择分段节点中选择各所述待存储用户数据对应的最优分段节点,以保证存储各所述待存储用户数据所占用的存储资源最少,例如,假设所述编码段的各编码为0至65535,且编码为0时对应的标签覆盖度最大,编码为65336时对应的标签覆盖度最小,也即所述存储资源消耗量方程组如下所示,
其中,y为所述待存储用户数据对应的存储资源消耗量,m/8为通过预设Bitmap存储方式对所述待存储用户数据对应的第一待存储编码段所需的存储资源,其中,m为分段节点对应的编码,若以m为分段节点,则编码为0至m为第一编码段,编码m+1值65536为第二编码段,也即,通过预设Bitmap存储方式对所述待存储用户数据对应的第一待存储编码段进行存储所需的存储资源,其中,在预设Bitmap存储方式中,每一字节对应一个用户标签,且每一字节存储0或者1,若为0则代表该所述待存储用户数据不包括该字节对应的用户标签,若为1则代表该所述待存储用户数据包括该字节对应的用户标签,如图2所示为使用预设Bitmap存储方式对所述第一待存储编码段进行存储的Bitmap示意图,其中,m为所述最优分段节点,用户画像数据中每包括8个标签,则需要使用存储资源1比特,另外地,h为编码处于m+1至65536对应的用户标签的数量,其中,使用预设整数列表存储方式对所述待存储用户数据对应的第二待存储编码段进行存储,每存储一个编码,需要使用存储资源2比特,其中,所述第二待存储编码段和所述第一待存储编码段中的编码数量等于对应的所述待存储数据中的用户标签的数量,其中,需要说明的是,若所述用户画像数据中一共存在65536个用户标签,则各所述待存储用户数据中的用户标签数量用小于或者等于65536,且各所述待存储用户数据之间可存在相同的用户标签,n为所述待存储用户数据的用户标签数量,进一步地,可根据穷举法或者基于已经训练好的机器学习模型等方式寻找最小的y值,也即,寻找各所述待存储用户数据对应的最小存储资源,各最小的y值对应的各最小m值对应的编码即为各所述最优分段节点。
其中,所述编码段包括多个待选择分段节点,
所述获取各所述待存储用户数据对应的最优分段节点的步骤包括:
步骤S211,将各所述待存储用户数据分别输入预设最优分段节点预测模型,以分别计算各所述待选择分段节点对应的存储资源消耗量,获得各所述待存储用户数据对应的存储资源消耗量集合;
在本实施例中,需要说明的是,所述编码段中的每一编码均可作为所述待选择分段节点,例如,假设所述编码段为0至2,也即所述编码段为“0,1,2”,则所述待选择分段节点包括0、1和2,所述预设最优分段节点预测模型为预先训练好的机器学习模型。
将各所述待存储用户数据分别输入预设最优分段节点预测模型,以分别计算各所述待选择分段节点对应的存储资源消耗量,获得各所述待存储用户数据对应的存储资源消耗量集合,具体地,将所述待存储用户数据分别输入预设最优分段节点预测模型,以基于所述待存储用户数据对应的各所述待选择分段节点对所述编码段进行分段,获得分段结果,基于所述分段结果,计算结合预设Bitmap存储方式和预设整数列表存储方式对所述待存储用户数据进行存储所需的存储资源消耗量,获得所述待存储用户数据对应的存储资源消耗量集合,其中,所述存储资源消耗量集合包括各所述待选择分段节点对应的存储资源消耗量,进一步地,将各所述待存储用户数据均输入所述预设最优分段节点预测模型,获得各所述待存储用户数据对应的存储资源消耗量集合。
步骤S212,在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点。
在本实施例中,在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点,具体地,在各所述存储资源消耗量集合选取各自的最小存储资源消耗量,并分别查询各最小存储资源消耗量对应的待选择分段节点,并将各最小存储资源消耗量对应的待选择分段节点作为各所述待存储用户数据对应的各最优分段节点。
步骤S22,基于各所述最优分段节点,分别对所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段。
在本实施例中,基于各所述最优分段节点,分别对所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段,具体地,基于各所述待存储用户数据对应的各所述最优分段节点,分别对应所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段,例如,假设所述用户画像数据包括10001个用户标签,且包括第一待存储用户数据和第二待存储用户数据,则所述用户画像数据对应的编码段的编码为0至10000,若所述第一待存储用户数据包括7000个用户标签,所述第一待存储用户数据对应的最优分段节点为5000,则所述第一待存储用户数据对应的第一编码段为0至5000,所述第二编码段为5001至10000,所述第二待存储用户数据包括6000个用户标签,所述第二待存储用户数据对应的最优分段节点为4000,则所述第二待存储用户数据对应的第一编码段为0至4000,所述第二编码段为4001至10000。
步骤S30,基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。
在本实施例中,需要说明的是,所述动态分段结果包括第一编码段和第二编码段,其中,所述第一编码段对应的各用户标签的标签覆盖度均大于或者等于所述标签覆盖度阀值,所述第二编码段对应的各用户标签的标签覆盖度均小于所述标签覆盖度阀值,其中,所述标签覆盖度阀值为所述最优分段节点对应的标签覆盖度。
基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储,具体地,基于所述映射关系,通过预设Bitmap存储方式对各所述待存储用户数据对应的第一待存储编码段进行存储,获得各存储Bitmap,并通过预设整数列表存储方式对各所述待存储用户数据对应的第二待存储编码段进行存储,获得存储整数列表,进而获取各所述用户数据对应的用户标识,进一步地,分别将各所述用户数据对应的用户标识、第一编码段和第二编码段存储至预设数据库,其中,所述用户标识包括用户手机号码,用户身份证号码等。
本实施例通过接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据,进而对所述编码段进行动态分段,获得动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系,进而基于所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。也即,本实施例首先生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据,进而通过进行对所述编码段的动态分段,获得各所述待存储用户数据对应的动态分段结果,并进行本申请还可通过基于预设标签编码映射关系,对各所述编码段进行动态分段,获得动态分段结果,并进行所述用户画像数据中的各用户标签和所述编码段之间的映射关系的构建,进而基于各所述动态分段结果和各所述映射关系,通过结合预设Bitmap存储方式和预设整数列表存储方式分别对各所述待存储用户数据进行存储,以使用最少的存储资源各所述待存储数据进行存储。也即,本实施例提供了一种结合Bitmap和整数列表对应用户画像数据进行存储的方法,通过对所述用户画像数据对应的编码段进行动态分段,实现分别对各所述待存储用户数据的数据存储结构进行动态优化的目的,进而实现了优化用户画像数据的存储结构的目的,进而基于所述动态分段结果,对各所述待存储数据进行存储,避免了由于用户量级过大,导致用户画像数据占用存储资源过多,进而导致用户画像数据存储成本过高的情况发生,进而达到了减少所述用户画像数据占用的存储资源的目的,所以,解决了用户画像数据占用存储资源高的技术问题。
进一步地,参照图3,基于本申请中第一实施例,在用户画像数据存储优化方法的另一实施例中,所述动态分段结果包括第一编码段和第二编码段,
所述基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储的步骤包括:
步骤S31,基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段;
在本实施例中,基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段,具体地,计算每一所述待存储用户数据中各用户标签的待选择标签覆盖度,并获取标签覆盖度阀值,其中,所述标签覆盖度阀值为所述最优分段节点对应的标签覆盖度,进而在各所述待选择标签覆盖度中选取大于或者等于所述标签覆盖度阀值的第一标签覆盖度,获得各所述待存储用户数据对应的第一标签覆盖度集合,其中,所述第一标签覆盖度集合包括一个或者多个第一标签覆盖度,进而基于所述映射关系和各所述第一编码段中的编码,以所述第一编码段中的编码排序方式,对所述第一标签覆盖度集合对应的各用户标签进行有序编码,获得各所述待存储用户数据对应的第一待存储编码段,例如,假设一所述待存储用户数据包括的各用户标签为“男,22岁,喜好篮球”,所述第一编码段为“1,2,3,4”,则基于所述映射关系,可知所述第一编码段对应的各用户标签为“男,女,22岁,喜好篮球”,进而以所述第一编码段中的编码排序方式,对所述第一标签覆盖度集合对应的各用户标签进行有序编码,可获得第一待存储编码段为“1,3,4”。
其中,所述基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段的步骤包括:
步骤S311,获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
在本实施例中,需要说明的是,所述标签覆盖度等于含该标签的用户数量与所述用户画像数据对应的用户总数之比,每一所述待存储用户数据均包括一个或者多个待存储用户标签。
步骤S312,将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
在本实施例中,将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对,具体地,将每一所述待存储用户数据对应的各所述标签覆盖度与预设标签覆盖度阀值进行逐一比对。
步骤S313,若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第一编码段,对所述待存储用户标签进行编码,获得各所述第一待存储编码段。
在本实施例中,若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第一编码段,对所述待存储用户标签进行编码,获得各所述第一待存储编码段,具体地,若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,将所述标签覆盖度计入第一标签覆盖度集合,进而基于所述映射关系和各所述第一编码段,以所述第一编码段的编码排序方式对各所述第一标签覆盖度集合对应的各用户标签进行有序编码,获得各所述待存储用户数据对应的第一待存储编码段。
步骤S32,通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap;
在本实施例中,需要说明的是,所述Bitmap为位图,所述位图一种数据结构,且使用位图对数据进行存储可有效减少数据存储所使用的存储资源,例如,假设用户画像数据中包括65536个用户标签,若单独使用预设Bitmap存储方式对所述用户画像数据中某一含10000个用户标签的待存储用户数据对应的编码段进行存储,其中,在使用预设Bitmap存储方式进行存储时,每一编码需要使用1字节存储资源进行存储,所述用户画像中的每一用户标签均需要在位图中使用0或者1进行表示,且每一编码对应一用户标签,进而所要消耗的存储资源M=65536/8/1024=8kb,若单独使用预设整数列表存储方式对某一含10000个用户标签的用户数据对应的编码段进行存储,则所要消耗的存储资源M=10000*2/1024=19kb,其中所述整数列表为一种数据结构,若假设所述第一编码段包括32768个编码,所述第二编码段包括32768个编码,在所述待存储用户数据包括的10000个用户标签中,有9000个用户标签对应的编码在第一编码段,有1000个用户标签对应的编码段在第二编码段,则结合所述预设Bitmap存储方式和所述预设整数列表存储方式对所述待存储用户数据进行存储所消耗的存储资源M=32768/8/1024+1000*2/1024=6kb,所以,通过对所述编码段进行动态分段,以基于所述动态分段结果对所述待存储用户数据进行存储,可减少所述待存储用户数据的存储资源消耗量。
通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap,具体地,构建所述第一编码段对应的Bitmap模板,进而分别将各所述第一待存储编码段存储于所述Bitmap模板中,获得各所述第一待存储编码段对应的存储Bitmap,例如,假设,所述第一编码段为“0,1,2,3,4,5,6,7”,则所述第一编码段对应的Bitmap模板为00000000,若所述第一待存储编码段为“0,4,7”,则所述存储Bitmap为10001001。
步骤S33,基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段;
在本实施例中,基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段,具体地,计算每一所述待存储用户数据中各用户标签的待选择标签覆盖度,并获取标签覆盖度阀值,其中,所述标签覆盖度阀值为所述最优分段节点对应的标签覆盖度,进而在各所述待选择标签覆盖度中选取小于所述标签覆盖度阀值的第二标签覆盖度,获得各所述待存储用户数据对应的第二标签覆盖度集合,其中,所述第二标签覆盖度集合包括一个或者多个第二标签覆盖度,进而基于所述映射关系和各所述第二编码段中的编码,以所述第二编码段中的编码排序方式,对所述第二标签覆盖度集合对应的各用户标签进行有序编码,获得各所述待存储用户数据对应的第二待存储编码段。
其中,所述基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段的步骤包括:
步骤S331,获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
步骤S332,将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
在本实施例中,需要说明的是,所述标签覆盖度等于含该标签的用户数量与所述用户画像数据对应的用户总数之比,每一所述待存储用户数据均包括一个或者多个待存储用户标签。
将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对,具体地,将每一所述待存储用户数据对应的各所述标签覆盖度与预设标签覆盖度阀值进行逐一比对。
步骤S333,若所述标签覆盖度小于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第二编码段,对所述待存储用户标签进行编码,获得各所述第二待存储编码段。
在本实施例中,若所述标签覆盖度小于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第二编码段,对所述待存储用户标签进行编码,获得各所述第二待存储编码段,具体地,若所述标签覆盖度小于所述预设标签覆盖度阀值,将所述标签覆盖度计入第二标签覆盖度集合,进而基于所述映射关系和各所述第二编码段,以所述第二编码段的编码排序方式对各所述第二标签覆盖度集合对应的各用户标签进行有序编码,获得各所述待存储用户数据对应的第二待存储编码段。
步骤S34,通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表;
在本实施例中,通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表,具体地,构建所述第一编码段对应的整数列表模板,进而分别将各所述第二待存储编码段存储于所述整数列表模板中,获得各所述第一待存储编码段对应的存储整数列表,其中,所述整数列表模板为空置的整数列表,且在所述存储整数列表中,每一所述用户标签所占的存储资源为2比特。
步骤S35,将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库。
在本实施例中,将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库,具体地,获取各所述待存储用户数据对应的用户标识,并将各所述用户标识、各所述存储Bitmap和各所述存储整数列表以预设键值对形式存储至预设存储数据库。
其中,所述将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库的步骤包括:
步骤S351,获取各所述待存储用户数据对应的用户标识;
在本实施例中,需要说明的是,所述用户标识包括数据号码、身份证号码等,所述用户标识可标识用户的身份,每一用户在用户画像数据中对应存在一待存储用户数据,且每一用户对应存在一用户标识与所述待存储用户数据相对应。
步骤S352,基于各所述用户标识、各所述存储Bitmap和各所述存储整数列表,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库。
在本实施例中,基于各所述用户标识、各所述存储Bitmap和各所述存储整数列表,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库,具体地,以每一待存储用户数据对应的所述用户标识作为键,并以每一待存储用户数据对应的所述存储Bitmap和所述存储整数列表作为值,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库,其中,键值对存储是数据库的组织形式,键是存的值的编号,值是要存放的数据。
本实施例通过基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段,进而通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap,进而基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段,进而通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表,进而将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库。也即,本实施在获取所述动态分段结果之后,提供了一种基于所述动态分段结果和所述映射关系对待存储用户数据进行存储的方法,也即,基于所述映射关系和动态分段结果,分别以预设Bitmap存储方式对所述第一待存储编码段进行存储和以预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储Bitmap和存储整数列表,并将存储Bitmap和存储整数列表存储至预设数据库,进而实现了优化所述待存储用户数据的存储结构的目的,并基于对所述待存储用户数据的存储结构的优化,可极大程度上减少待存储用户数据所需的存储资源,进而实现了减少用户画像数据所占存储资源的目的,所以,为解决用户画像数据占用存储资源高的技术问题奠定了基础。
参照图4,图4是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图4所示,该用户画像数据存储优化设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该用户画像数据存储优化设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图4中示出的用户画像数据存储优化设备结构并不构成对用户画像数据存储优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及用户画像数据存储优化程序。操作系统是管理和控制用户画像数据存储优化设备硬件和软件资源的程序,支持用户画像数据存储优化程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与用户画像数据存储优化系统中其它硬件和软件之间通信。
在图4所示的用户画像数据存储优化设备中,处理器1001用于执行存储器1005中存储的用户画像数据存储优化程序,实现上述任一项所述的用户画像数据存储优化方法的步骤。
本申请用户画像数据存储优化设备具体实施方式与上述用户画像数据存储优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种用户画像数据存储优化装置,所述用户画像数据存储优化装置包括:
生成模块,用于所述接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据;
动态分段模块,用于所述对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系;
存储模块,用于所述基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。
可选地,所述存储模块包括:
第一确定单元,用于所述基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段;
第一存储单元,用于所述通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap;
第二确定单元,用于所述基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段;
第二存储单元,用于所述通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表;
第三存储单元,用于所述将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库。
可选地,所述第一确定单元包括:
第一获取子单元,用于所述获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
第一比对子单元,用于所述将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
第一编码子单元,用于所述若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第一编码段,对所述待存储用户标签进行编码,获得各所述第一待存储编码段。
可选地,所述第二确定单元包括:
第二获取子单元,用于所述获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
第二比对单元,用于所述将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
第二编码单元,用于所述若所述标签覆盖度小于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第二编码段,对所述待存储用户标签进行编码,获得各所述第二待存储编码段。
可选地,所述第三存储单元包括:
第三获取子单元,用于所述获取各所述待存储用户数据对应的用户标识;
存储子单元,用于所述基于各所述用户标识、各所述存储Bitmap和各所述存储整数列表,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库。
可选地,所述动态分段模块包括:
获取单元,用于所述获取各所述待存储用户数据对应的最优分段节点;
分段单元,用于所述基于各所述最优分段节点,分别对所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段。
可选地,所述获取单元包括:
输入子单元,用于所述在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点;
选取子单元,用于所述在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点。
可选地,所述生成模块包括:
计算单元,用于所述接收所述用户画像数据,并计算所述用户画像数据对应的各用户标签的标签覆盖度;
排序单元,用于所述基于各所述标签覆盖度,对各所述用户标签进行排序,获得用户标签队列;
第三编码单元,用于所述对所述用户标签队列进行编码,获得所述编码段。
本申请用户画像数据存储优化装置的具体实施方式与上述用户画像数据存储优化方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的用户画像数据存储优化方法的步骤。
本申请可读存储介质具体实施方式与上述用户画像数据存储优化方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。
Claims (10)
1.一种用户画像数据存储优化方法,其特征在于,所述用户画像数据存储优化方法包括:
接收用户画像数据,并生成所述用户画像数据对应的编码段,其中,所述用户画像数据包括一个或者多个待存储用户数据;
对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果,并构建所述用户画像数据中的各用户标签和所述编码段之间的映射关系;
基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储。
2.如权利要求1所述用户画像数据存储优化方法,其特征在于,所述动态分段结果包括第一编码段和第二编码段,
所述基于各所述动态分段结果和所述映射关系,分别通过预设Bitmap存储方式和预设整数列表存储方式对各所述待存储用户数据进行存储的步骤包括:
基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段;
通过所述预设Bitmap存储方式对各所述第一待存储编码段进行存储,获得存储Bitmap;
基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段;
通过所述预设整数列表存储方式对各所述第二待存储编码段进行存储,获得存储整数列表;
将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库。
3.如权利要求2所述用户画像数据存储优化方法,其特征在于,所述基于所述映射关系和各所述第一编码段,确定各所述待存储用户数据对应的第一待存储编码段的步骤包括:
获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
若所述标签覆盖度大于或者等于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第一编码段,对所述待存储用户标签进行编码,获得各所述第一待存储编码段。
4.如权利要求2所述用户画像数据存储优化方法,其特征在于,所述基于所述映射关系和各所述第二编码段,确定各所述待存储用户数据对应的第二待存储编码段的步骤包括:
获取各所述待存储用户数据中各待存储用户标签对应的待选择标签覆盖度,其中,一所述待存储用户标签对应一所述待选择标签覆盖度;
将各所述待存储用户数据对应的各所述待选择标签覆盖度与预设标签覆盖度阀值进行比对;
若所述标签覆盖度小于所述预设标签覆盖度阀值,则基于所述映射关系和各所述第二编码段,对所述待存储用户标签进行编码,获得各所述第二待存储编码段。
5.如权利要求2所述用户画像数据存储优化方法,其特征在于,所述将各所述存储Bitmap和各所述存储整数列表存储至预设存储数据库的步骤包括:
获取各所述待存储用户数据对应的用户标识;
基于各所述用户标识、各所述存储Bitmap和各所述存储整数列表,构建各所述待存储用户数据对应的键值对,并将各所述键值对存储至所述预设存储数据库。
6.如权利要求1所述用户画像数据存储优化方法,其特征在于,所述动态分段结果包括第一编码段和第二编码段,
所述对所述编码段进行动态分段,获得各所述待存储用户数据对应的动态分段结果的步骤包括:
获取各所述待存储用户数据对应的最优分段节点;
基于各所述最优分段节点,分别对所述编码段进行分段,获得各所述待存储用户数据对应的所述第一编码段和所述第二编码段。
7.如权利要求6所述用户画像数据存储优化方法,其特征在于,所述编码段包括多个待选择分段节点,
所述获取各所述待存储用户数据对应的最优分段节点的步骤包括:
将各所述待存储用户数据分别输入预设最优分段节点预测模型,以分别计算各所述待选择分段节点对应的存储资源消耗量,获得各所述待存储用户数据对应的存储资源消耗量集合;
在各所述存储资源消耗量集合选取最小存储资源消耗量,并分别将各所述最小存储资源消耗量对应的各所述待选择分段节点作为各所述最优分段节点。
8.如权利要求1所述用户画像数据存储优化方法,其特征在于,所述接收用户画像数据,并生成所述用户画像数据对应的编码段的步骤包括:
接收所述用户画像数据,并计算所述用户画像数据对应的各用户标签的标签覆盖度;
基于各所述标签覆盖度,对各所述用户标签进行排序,获得用户标签队列;
对所述用户标签队列进行编码,获得所述编码段。
9.一种用户画像数据存储优化设备,其特征在于,所述用户画像数据存储优化设备包括:存储器、处理器以及存储在存储器上的用于实现所述用户画像数据存储优化方法的程序,
所述存储器用于存储实现用户画像数据存储优化方法的程序;
所述处理器用于执行实现所述用户画像数据存储优化方法的程序,以实现如权利要求1至8中任一项所述用户画像数据存储优化方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现用户画像数据存储优化方法的程序,所述实现用户画像数据存储优化方法的程序被处理器执行以实现如权利要求1至8中任一项所述用户画像数据存储优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068684.4A CN111274249B (zh) | 2020-01-19 | 2020-01-19 | 用户画像数据存储优化方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068684.4A CN111274249B (zh) | 2020-01-19 | 2020-01-19 | 用户画像数据存储优化方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274249A true CN111274249A (zh) | 2020-06-12 |
CN111274249B CN111274249B (zh) | 2024-09-27 |
Family
ID=71003344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068684.4A Active CN111274249B (zh) | 2020-01-19 | 2020-01-19 | 用户画像数据存储优化方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274249B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214497A (zh) * | 2020-10-28 | 2021-01-12 | 上海豹云网络信息服务有限公司 | 一种标签的处理方法、装置及计算机系统 |
CN112800062A (zh) * | 2021-01-29 | 2021-05-14 | 北京读我网络技术有限公司 | 一种标签数据存储方法及系统 |
WO2024000987A1 (zh) * | 2022-06-28 | 2024-01-04 | 深圳前海微众银行股份有限公司 | 数据存储方法、服务器和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080095071A1 (en) * | 2006-08-31 | 2008-04-24 | Futurewei Technologies, Inc. | Method and system for sharing resources in a wireless communication network |
US20150178336A1 (en) * | 2013-07-18 | 2015-06-25 | Tencent Technology (Shenzhen) Company Limited | Method, device and storage medium for providing data statistics |
US20170286464A1 (en) * | 2016-03-31 | 2017-10-05 | King.Com Limited | Storing segmented data |
CN108053241A (zh) * | 2017-12-12 | 2018-05-18 | 北京小米移动软件有限公司 | 数据分析方法、装置及计算机可读存储介质 |
CN108388598A (zh) * | 2018-02-01 | 2018-08-10 | 平安科技(深圳)有限公司 | 电子装置、数据存储方法及存储介质 |
CN108509592A (zh) * | 2018-03-30 | 2018-09-07 | 贵阳朗玛信息技术股份有限公司 | 基于Redis的数据存储方法、读取方法及装置 |
CN109597834A (zh) * | 2018-10-22 | 2019-04-09 | 平安科技(深圳)有限公司 | 基于redis的海量数据存储方法、装置、介质和设备 |
CN109726314A (zh) * | 2019-01-03 | 2019-05-07 | 中国人民解放军国防科技大学 | 基于位图的稀疏矩阵压缩存储方法 |
CN110297836A (zh) * | 2019-07-11 | 2019-10-01 | 杭州云梯科技有限公司 | 基于压缩位图方式的用户标签存储方法和检索方法 |
-
2020
- 2020-01-19 CN CN202010068684.4A patent/CN111274249B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080095071A1 (en) * | 2006-08-31 | 2008-04-24 | Futurewei Technologies, Inc. | Method and system for sharing resources in a wireless communication network |
US20150178336A1 (en) * | 2013-07-18 | 2015-06-25 | Tencent Technology (Shenzhen) Company Limited | Method, device and storage medium for providing data statistics |
US20170286464A1 (en) * | 2016-03-31 | 2017-10-05 | King.Com Limited | Storing segmented data |
CN108053241A (zh) * | 2017-12-12 | 2018-05-18 | 北京小米移动软件有限公司 | 数据分析方法、装置及计算机可读存储介质 |
CN108388598A (zh) * | 2018-02-01 | 2018-08-10 | 平安科技(深圳)有限公司 | 电子装置、数据存储方法及存储介质 |
WO2019148720A1 (zh) * | 2018-02-01 | 2019-08-08 | 平安科技(深圳)有限公司 | 电子装置、数据存储方法及存储介质 |
CN108509592A (zh) * | 2018-03-30 | 2018-09-07 | 贵阳朗玛信息技术股份有限公司 | 基于Redis的数据存储方法、读取方法及装置 |
CN109597834A (zh) * | 2018-10-22 | 2019-04-09 | 平安科技(深圳)有限公司 | 基于redis的海量数据存储方法、装置、介质和设备 |
CN109726314A (zh) * | 2019-01-03 | 2019-05-07 | 中国人民解放军国防科技大学 | 基于位图的稀疏矩阵压缩存储方法 |
CN110297836A (zh) * | 2019-07-11 | 2019-10-01 | 杭州云梯科技有限公司 | 基于压缩位图方式的用户标签存储方法和检索方法 |
Non-Patent Citations (1)
Title |
---|
尹文科;吴姗姗;丁峰;荀智德;: "基于Skyline的搜索结果排序方法", 计算机应用, no. 04, 10 April 2015 (2015-04-10) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214497A (zh) * | 2020-10-28 | 2021-01-12 | 上海豹云网络信息服务有限公司 | 一种标签的处理方法、装置及计算机系统 |
CN112800062A (zh) * | 2021-01-29 | 2021-05-14 | 北京读我网络技术有限公司 | 一种标签数据存储方法及系统 |
WO2024000987A1 (zh) * | 2022-06-28 | 2024-01-04 | 深圳前海微众银行股份有限公司 | 数据存储方法、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111274249B (zh) | 2024-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274249B (zh) | 用户画像数据存储优化方法、设备及可读存储介质 | |
CN110119474B (zh) | 推荐模型训练方法、基于推荐模型的预测方法及装置 | |
CN112700010B (zh) | 基于联邦学习的特征补全方法、装置、设备及存储介质 | |
CN108985066B (zh) | 一种智能合约安全漏洞检测方法、装置、终端及存储介质 | |
CN112328909B (zh) | 信息推荐方法、装置、计算机设备及介质 | |
CN105205014A (zh) | 一种数据存储方法和装置 | |
CN108288208B (zh) | 基于图像内容的展示对象确定方法、装置、介质及设备 | |
CN103248705A (zh) | 服务器、客户端及视频处理方法 | |
CN113868528A (zh) | 资讯推荐方法、装置、电子设备及可读存储介质 | |
CN111784401A (zh) | 下单率预测方法、装置、设备及可读存储介质 | |
CN105260459A (zh) | 搜索方法和装置 | |
CN111241746A (zh) | 向前模型选择方法、设备和可读存储介质 | |
CN111475661A (zh) | 一种基于有限标签构造场景图的方法、装置及计算机设备 | |
CN111667018B (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
CN102622576A (zh) | 背景建模的方法和装置及检测视频中背景的方法和装置 | |
CN113051379B (zh) | 一种知识点推荐方法、装置、电子设备及存储介质 | |
CN111639260B (zh) | 内容推荐方法及其装置、存储介质 | |
CN114493683A (zh) | 广告素材推荐方法、模型训练方法、装置及电子设备 | |
CN113591979A (zh) | 行业类目识别方法、设备、介质及计算机程序产品 | |
CN109918058B (zh) | 信息处理装置和方法以及在编程环境中推荐代码的方法 | |
CN112579280A (zh) | 云资源的调度方法、装置及计算机存储介质 | |
CN112947928A (zh) | 代码评价的方法、装置、电子设备和存储介质 | |
CN112328779A (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN111898033A (zh) | 内容推送方法、装置以及电子设备 | |
CN111784377A (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |