CN113590890B - 信息存储方法、装置、电子设备、存储介质及程序产品 - Google Patents

信息存储方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN113590890B
CN113590890B CN202110891520.6A CN202110891520A CN113590890B CN 113590890 B CN113590890 B CN 113590890B CN 202110891520 A CN202110891520 A CN 202110891520A CN 113590890 B CN113590890 B CN 113590890B
Authority
CN
China
Prior art keywords
bit
target data
bit array
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110891520.6A
Other languages
English (en)
Other versions
CN113590890A (zh
Inventor
李斌
雷嘉健
周贤舜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lakala Payment Co ltd
Original Assignee
Lakala Payment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lakala Payment Co ltd filed Critical Lakala Payment Co ltd
Priority to CN202110891520.6A priority Critical patent/CN113590890B/zh
Publication of CN113590890A publication Critical patent/CN113590890A/zh
Application granted granted Critical
Publication of CN113590890B publication Critical patent/CN113590890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Abstract

本公开实施例公开了一种信息存储方法、装置、电子设备、存储介质及程序产品,所述方法包括:获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;确定所述目标数据在所述序列数据中的区间范围;基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据;将所述比特数组存储至存储空间中。

Description

信息存储方法、装置、电子设备、存储介质及程序产品
技术领域
本公开实施例涉及大数据技术领域,具体涉及一种信息存储方法、装置、电子设备、存储介质及程序产品。
背景技术
在业务系统中,为了便于信息存储以及信息查询,通常会给不同对象例如用户、商品、订单等赋予不同的编号。编号通常是字符串,并且是连续的。编号的组成部分可以按业务规则进行设计和编排,但大多数编号包含一段以数字组合而成的序列,而且往往是按照十进制数字顺序递增。
例如,某个业务系统中给客户编号如下:2021000000、20210000001、20210000002、20210000003...20219999998、20219999999。所有以字符串“2021”作为起始字符串的客户编号共有1000万,但是这种编号体系下,面临如下问题:基于业务分析等需求,需要从中随机挑选1000万个客户编号中50%的目标数据,并且要将筛选出的目标数据保存下来,便于业务分析。但是,如果直接将上述1000万个客户编号中的50%数据存储起来,不但占用存储空间,而且查询效率也会非常低下。
因此,如何在存储随机挑选出的目标数据时,能够满足存储空间和查询效率双重指标是当前需要解决的技术问题之一。
发明内容
本公开实施例提供一种信息存储方法、装置、电子设备、存储介质及程序产品。
第一方面,本公开实施例中提供了一种信息存储方法,包括:
获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
确定所述目标数据在所述序列数据中的区间范围;
基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;
基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据;
将所述比特数组存储至存储空间中。
进一步地,所述方法还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据。
进一步地,所述方法还包括:
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度;
在所述集中度小于或等于预设阈值时,直接将所述目标数据记录在存储空间中。
进一步地,基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
进一步地,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据,包括:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
进一步地,将所述比特数组存储至存储空间中,包括:
将所述区间范围以及所述比特数组关联存储在存储空间中。
进一步地,所述比特数组中的每一位被赋值为第一预设值或者第二预设值,基于所述比特数组中每一位的值确定所述目标数据,包括:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
第二方面,本公开实施例中提供了一种信息存储方法,包括:
获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
确定所述目标数据在所述连续多个序列数据中的集中度;
在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间;
在所述集中度小于或等于预设阈值时,直接将所述目标数据存储至所述存储空间。
进一步地,确定所述目标数据在所述连续多个序列数据中的集中度,包括:
确定所述目标数据在所述序列数据中的区间范围;
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度。
进一步地,在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间,包括:
在所述集中度大于预设阈值时,基于所述区间范围确定比特数组的长度,以及生成所述比特数组;
基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位表示所述目标数据中的其中一个;
将所述比特数组存储至存储空间中。
进一步地,所述方法还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据。
进一步地,基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
进一步地,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位代表所述目标数据中的其中一个,包括:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
进一步地,将所述比特数组存储至存储空间中,包括:
将所述区间范围以及所述比特数组关联存储在存储空间中。
进一步地,所述比特数组中的每一位被赋值为第一预设值或者第二预设值,基于所述比特数组中每一位的值确定所述目标数据,包括:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
第三方面,本公开实施例中提供了一种信息存储装置,包括:
获取模块,被配置为获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
第一确定模块,被配置为确定所述目标数据在所述序列数据中的区间范围;
第二确定模块,被配置为基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;
赋值模块,被配置为基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据;
第一存储模块,被配置为将所述比特数组存储至存储空间中。
第四方面,本公开实施例中提供了一种信息存储装置,包括:
第二获取模块,被配置为获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
第三确定模块,被配置为确定所述目标数据在所述连续多个序列数据中的集中度;
记录模块,被配置为在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间;
第二存储模块,被配置为在所述集中度小于或等于预设阈值时,直接将所述目标数据存储至所述存储空间。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,上述装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口,用于上述装置与其他设备或通信网络通信。
第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持上述任一装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述任一装置还可以包括通信接口,用于与其他设备或通信网络通信。
第六方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,其包含用于执行上述任一方法所涉及的计算机指令。
第七方面,本公开实施例提供了一种计算机程序产品,其包含计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
本公开实施例提供的技术方案可包括以下有益效果:
本公开实施例针对连续多个序列数据中的部分目标数据进行存储时,通过确定目标数据在连续多个序列数据中的区间范围,进而再基于该区间范围确定比特数组的长度,并生成相应长度的比特属性,并基于目标数据对比特数组的每一位赋值,使得比特数组中的每一位能够表示出其对应于所述目标数据还是非目标数据。通过这种方式,对于连续多个序列数据中随机挑选的部分目标数据进行存储时,可以不直接将目标数据存储至存储空间中,而是利用一占空间较小的比特数组来存储,能够节省存储空间的同时,提高对目标数据的业务统计分析等处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的信息存储方法的流程图;
图2示出根据本公开另一实施方式的信息存储方法的流程图;
图3示出根据本公开一实施方式的信息存储方法的应用场景示意图;
图4示出根据本公开一实施方式的信息存储装置的结构框图;
图5示出根据本公开另一实施方式的信息存储装置的结构框图;
图6是适于用来实现根据本公开一实施方式的信息存储方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。
上文提及,在业务系统中,为了便于信息存储以及信息查询,通常会给不同对象例如用户、商品、订单等赋予不同的编号。编号通常是字符串,并且是连续的。编号的组成部分可以按业务规则进行设计和编排,但大多数编号包含一段以数字组合而成的序列,而且往往是按照十进制数字顺序递增。
例如,某个业务系统中给客户编号如下:2021000000、20210000001、20210000002、20210000003...20219999998、20219999999。所有以字符串“2021”作为起始字符串的客户编号共有1000万,但是这种编号体系下,面临如下问题:基于业务分析等需求,需要从中随机挑选1000万个客户编号中50%的目标数据,并且要将筛选出的目标数据保存下来,便于业务分析。但是,如果直接将上述1000万个客户编号中的50%数据存储起来,不但占用存储空间,而且查询效率也会非常低下。
而计算保存数据的内存占用空间在使用不同的开发语言时或许有一定的差异,但是基本上不会有较大出入。
下面以Java平台为例测算上述1000万个客户编号中的50%数据的实际内存使用情况。
为了计算对象内存的使用情况,需要引入以下依赖包:
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
<version>4.0.0</version>
</dependency>
用Java的HashSet随机保存50%的客户编号,代码如下:
@Test
public void test1(){
Set<String>cifNoSet=new HashSet<>();
Random r=new Random();
for(int i=0;i<10000000;i++){
if(r.nextBoolean()){
cifNoSet.add("2021"+format(i));
}
}
System.out..println(RamUsageEstimator.humanSizeOf(cifNoSet));
}
private String format(int i){
String tmp="0000000";
String si=String.valueOf(i);
return tmp.substring(0,si.length())+si;
}
打印结果:
489.8M
也就是说,使用的HashSet随机保存50%的客户编号,实际所需要的内存高达489.8M,这对于一般JVM设置在2G左右的应用系统而言,是难以接受的。
因此,本公开实施例提出了一种信息存储方法。该信息存储方法包括:获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;确定所述目标数据在所述序列数据中的区间范围;基于所述区间范围确定比特数组的长度,以及生成所述比特数组;基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位表示所述目标数据中的其中一个;将所述比特数组存储至存储空间中。该方法中,以比特数组的形式保存连续序列数据中的一部分数据,并且这部分数据可以是连续序列数据中随机挑选的数据。通过这种方式,可以节省随机挑选的一部分序列数据的存储空间,在应用系统中,能够通过将随机挑选的序列数据保持在内存中,并高效地对这些保存在内存中的序列数据进行分析等处理。
图1示出根据本公开一实施方式的信息存储方法的流程图,如图1所示,所述信息存储方法包括以下步骤:
在步骤S101中,获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
在步骤S102中,确定所述目标数据在所述序列数据中的区间范围;
在步骤S103中,基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;
在步骤S104中,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据;
在步骤S105中,将所述比特数组存储至存储空间中。
上文提及,在业务系统中,为了便于信息存储以及信息查询,通常会给不同对象例如用户、商品、订单等赋予不同的编号。编号通常是字符串,并且是连续的。编号的组成部分可以按业务规则进行设计和编排,但大多数编号包含一段以数字组合而成的序列,而且往往是按照十进制数字顺序递增。
例如,某个业务系统中给客户编号如下:2021000000、20210000001、20210000002、20210000003...20219999998、20219999999。所有以字符串“2021”作为起始字符串的客户编号共有1000万,但是这种编号体系下,面临如下问题:基于业务分析等需求,需要从中随机挑选1000万个客户编号中50%的目标数据,并且要将筛选出的目标数据保存下来,便于业务分析。但是,如果直接将上述1000万个客户编号中的50%数据存储起来,不但占用存储空间,而且查询效率也会非常低下。
在本公开一实施方式中,该信息存储方法可适用于业务系统上执行。
在本公开一实施方式中,目标数据可以是从连续多个序列数据中随机筛选出的一部分数据,该序列数据中的每一个可以由一串数字构成,并且多个序列数据在数值上可以是连续的。也即,连续多个序列数据可以是在数值上连续的数字串数据。
在一些实施例中,多个序列数据可以是用于为业务对象比如用户、商户、商品等进行编号的数据,目标数据可以是其中一部分对象的编号数据。为了统计分析或者其他目的,需要对一部分对象进行处理时,业务系统可以从所有对象中随机或者其他筛选方式挑选出一部分目标对象,并将该部分目标对象的编号数据也即目标数据存储在存储空间比如内存中,以便做进一步处理。
为了将目标数据存储在存储空间中,可以先获取筛选出的多个目标数据,并确定目标数据在序列数据中的区间范围,该区间范围的两个端值可以是目标数据中的最大序列值和最小序列值。由于多个目标数据为连续多个序列数据中的一部分数据,且多个序列数据为在数值上连续的数据,因此多个目标数据在数值上具有一定的序列关系。目标数据的序列最大值可以是多个目标数据中数值最大的数据,或者从排序上看位于最后的数据,而目标数据的序列最小值可以是多个数据中数值最小的数据,或者从排序上看位于最前面的数据。基于序列最大值以及序列最小值可以确定多个目标数据在连续多个序列数据中的区间范围,进而可以根据该区间范围确定需要多少个比特位来存储多个目标数据。
为了确定比特数组的长度,可以先确定序列最大值以及序列最小值之间的第一数量,需要说明的是,该第一数量可以为包括序列最大值和序列最小值在内的数量。例如,多个序列数据包括10个,分别为20210000000-20210000009中的各个序列数据;基于某项业务需求,从中随机抽取了5个目标数据,分别为20210000000、20210000001、20210000004、20210000005、20210000007,该5个目标数据中序列最大值为20210000007,序列最小值为20210000000,可以确定20210000000与20210000007之间的包括8个数据,该5个目标数据在序列数据中的区间范围为0-8,共包括8个数据。
考虑到需要由比特数组来表示所挑选出的5个目标数据,因此可以将比特数组的长度设置为8。当然,可以理解的是也可以将比特数组的长度设置为其他值,只要该比特数组能够表示出目标数据为序列数据中的哪些数据即可。
在一些实施例中,可以将比特数组的长度设置成与目标数据在序列数据中所占的区间范围一致,通过这种方式可以由比特数组中的每一位表示所述区间范围内的每一个序列数据。因此,可以通过对比特数组中的每一位赋予相应的值来表示序列数据中的目标数据或者非目标数据。
将比特数组存储至存储空间中,由于比特数组中的每一位代表序列数据中的一个数据,并且通过比特数组中每一位的值可以确定哪个是比特数据,故而通过将该比特数组存储在存储空间的方式,能够实现对目标数据的存储。
本公开实施例针对连续多个序列数据中的部分目标数据进行存储时,通过确定目标数据在连续多个序列数据中的区间范围,进而再基于该区间范围确定比特数组的长度,并生成相应长度的比特属性,并基于目标数据对比特数组的每一位赋值,使得比特数组中的每一位能够表示出其对应于所述目标数据还是非目标数据。通过这种方式,对于连续多个序列数据中随机挑选的部分目标数据进行存储时,可以不直接将目标数据存储至存储空间中,而是利用一占空间较小的比特数组来存储,能够节省存储空间的同时,提高对目标数据的业务统计分析等处理效率。
在本公开一实施方式中,所述方法还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据。
该可选的实施方式中,利用比特数组存储目标数据后,在对目标数据进行分析处理时,可以从存储空间读取出该比特数组,并基于比特数组中每一位的赋值确定目标数据为序列数据中的哪些数据,进而再对目标数据进行处理。
在本公开一实施方式中,所述方法还包括:
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度;
在所述集中度小于或等于预设阈值时,直接将所述目标数据记录在存储空间中。
该可选的实现方式中,统计目标数据的总数量,之后再根据该目标数据的总数量与区间范围之间的关系确定目标数据在连续多个序列数据中的集中度。可以理解的是,目标数据的总数量较大,在区间范围内占据密度较高,则可以认为该目标数据的集中度高,而目标数据的总数量较小,在区间范围内占据的密度较低,则可以认为该目标数据的集中度低。
在一种实施方式中,可以如下计算目标数据的集中度:
目标数据的集中度=目标数据的总数量/区间范围内的数据量。
预设阈值可以根据实际需要选择设置,在此不做具体限制。
在本公开一实施方式中,步骤103,即基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
该可选的实施方式中,所述区间范围的长度可以是从序列最大值到序列最小值之间序列数据的个数,包括序列最大值和序列最小值在内。为了能够使得比特数据中的比特位表示区间范围内的每一个序列数据,可以将比特数组的长度设置成与区间范围一致,或者大于区间范围的长度。再将比特数组的长度设置大于区间范围的长度时,比特数组中多余的比特位可以用于存储其他数据。
在本公开一实施方式中,步骤S103,即基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据的步骤,进一步可以包括以下步骤:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
该可选的实施方式中,比特数组的长度可以设置为与区间范围的长度一致或者大于区间范围的长度。在对比特数组进行赋值时,可以从比特数组的第0位开始,对区间范围内的多个比特位进行赋值,并且可以将该多个比特位与区间范围内的序列数据进行一一关联,将对应于区间范围内的序列数据中目标数据的比特位设置为第一预设值,如二进制“1”,而将对应于区间范围内序列数据中非目标数据的比特位设置为第二预设值,如二进制“0”。
上文例子中提到的5个目标数据,分别为20210000000、20210000001、20210000004、20210000005、20210000007的区间范围为8,因此可以设置一比特数组,假如将该比特数组的长度也设置为8,则该比特数组中的每一个比特位对应于上述区间范围20210000000-20210000007中的每一个序列数据,目标数据与比特数组中每一位的对应关系如下:
第0位:20210000000
第1位:20210000001
第2位:
第3位:
第4位:20210000004
第5位:20210000005
第6位:
第7位:20210000007
假如将对应于目标数据的比特位设置为1,而将对应于非目标数据的比特位设置为0,则该比特数组最终被赋值成“11001101”。在内存中可以通过存储比特数组“11001101”的方式来替代上述5个目标数据,可见能够节省存储空间。并且数据量较大时,还能够提高查询效率。
在本公开一实施方式中,步骤S104,即将所述比特数组存储至存储空间中的步骤,进一步可以包括以下步骤:
将所述区间范围以及所述比特数组关联存储在存储空间中。
该可选的实现方式中,在读取到比特数组后,为了能够确定比特数组中的每一位表示哪个序列数据,可以将区间范围也关联存储在内存中。例如,可以存储区间范围的两个端值或者该区间范围在整个序列数据中的相对位置。
在本公开一实施方式中,所述比特数组中的每一位被赋值为第一预设值或者第二预设值;所述基于所述比特数组中每一位的值确定所述目标数据的步骤,进一步可以包括以下步骤:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
该可选的实现方式中,通过对比特数组进行遍历,确定每一个第一预设值在比特数组中的相对位置,以及基于区间范围的两个端值之一确定目标数据。
上文中提到的例子中,针对随机挑选出的5个目标数据,生成了8个比特位的比特数组,并且该比特数组被赋值为“11001101”,在存储的时候将“11001101”以及区间范围的两个端值之一“20210000007”或“20210000000”来确定目标数据,假如预先设定将区间范围的最小端值与比特数组关联存储,并且比特数组的第1位对应于最小端值,则可以确定目标数据包括比特数组中的第1位、第2位、第5位、第6位以及第7位对应的序列数据,而由于知道第1位对应的目标数据是“20210000000”,且预先知道该序列数据是按顺序递增的数据,因此可以确定第2位对应的目标数据为“20210000000”加1,则为“20210000001”,依次可以得到后面三位目标数据。
图2示出根据本公开另一实施方式的信息存储方法的流程图,如图2所示,所述信息存储方法包括以下步骤S201-S205:
在步骤S201中,获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
在步骤S202中,确定所述目标数据在所述连续多个序列数据中的集中度;
在步骤S203中,在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间;
在步骤S204中,在所述集中度小于或等于预设阈值时,直接将所述目标数据存储至所述存储空间。
上文提及,在业务系统中,为了便于信息存储以及信息查询,通常会给不同对象例如用户、商品、订单等赋予不同的编号。编号通常是字符串,并且是连续的。编号的组成部分可以按业务规则进行设计和编排,但大多数编号包含一段以数字组合而成的序列,而且往往是按照十进制数字顺序递增。
例如,某个业务系统中给客户编号如下:2021000000、20210000001、20210000002、20210000003...20219999998、20219999999。所有以字符串“2021”作为起始字符串的客户编号共有1000万,但是这种编号体系下,面临如下问题:基于业务分析等需求,需要从中随机挑选1000万个客户编号中50%的目标数据,并且要将筛选出的目标数据保存下来,便于业务分析。但是,如果直接将上述1000万个客户编号中的50%数据存储起来,不但占用存储空间,而且查询效率也会非常低下。
在本公开一实施方式中,该信息存储方法可适用于业务系统上执行。
在本公开一实施方式中,目标数据可以是从连续多个序列数据中随机筛选出的一部分数据,该序列数据中的每一个可以由一串数字构成,并且多个序列数据在数值上可以是连续的。也即,连续多个序列数据可以是在数值上连续的数字串数据。
在一些实施例中,多个序列数据可以是用于为业务对象比如用户、商户、商品等进行编号的数据,目标数据可以是其中一部分对象的编号数据。为了统计分析或者其他目的,需要对一部分对象进行处理时,业务系统可以从所有对象中随机或者其他筛选方式挑选出一部分目标对象,并将该部分目标对象的编号数据也即目标数据存储在存储空间比如内存中,以便做进一步处理。
本公开实施例对于目标数据的存储采用了两种方式:一种是利用比特数组表示目标数据,并将比特数组存储至存储空间;另外一种是直接将目标数据存储至存储空间。本公开实施例中,所要存储的目标数据在序列数据中的集中度较高的情况下,采用第一种方式,也即利用比特数据表示目标数据,将比特数组存储至存储空间中;而所要存储的目标数据在序列数据中的集中度较低时,采用第二种方式,也即直接将目标数据存储至存储空间中。
因此,本公开实施例首先确定目标数据在多个序列数据中的集中度,并在集中度大于预设阈值时利用比特数组记录目标数据,进而将比特数组存储至存储空间,而在集中度小于或等于预设阈值时,直接将目标数据存储至存储空间中。预设阈值可以根据实际情况或者经验等进行设置,在此不做具体限制。
本公开实施例在存储序列数据中随机挑选出的部分目标数据时,基于目标数据的集中度选用两种方式中的一种进行存储,能够最大程度地节省目标数据的存储空间,以及能够提高目标数据的存储效率和查询效率。
在本公开一实施方式中,所述步骤S202,即确定所述目标数据在所述连续多个序列数据中的集中度的步骤,进一步包括以下步骤:
确定所述目标数据在所述序列数据中的区间范围;
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度。
该可选的实现方式中,为了将目标数据存储在存储空间中,可以先获取筛选出的多个目标数据,并确定目标数据在序列数据中的区间范围,该区间范围的两个端值可以是目标数据中的最大序列值和最小序列值。由于多个目标数据为连续多个序列数据中的一部分数据,且多个序列数据为在数值上连续的数据,因此多个目标数据在数值上具有一定的序列关系。目标数据的序列最大值可以是多个目标数据中数值最大的数据,或者从排序上看位于最后的数据,而目标数据的序列最小值可以是多个数据中数值最小的数据,或者从排序上看位于最前面的数据。基于序列最大值以及序列最小值可以确定多个目标数据在连续多个序列数据中的区间范围,进而可以根据该区间范围确定需要多少个比特位来存储多个目标数据。
为了确定比特数组的长度,可以先确定序列最大值以及序列最小值之间的第一数量,需要说明的是,该第一数量可以为包括序列最大值和序列最小值在内的数量。例如,多个序列数据包括10个,分别为20210000000-20210000009中的各个序列数据;基于某项业务需求,从中随机抽取了5个目标数据,分别为20210000000、20210000001、20210000004、20210000005、20210000007,该5个目标数据中序列最大值为20210000007,序列最小值为20210000000,可以确定20210000000与20210000007之间的包括8个数据,该5个目标数据在序列数据中的区间范围为0-8,共包括8个数据。
目标数据的集中度主要取决于目标数据之间的密集程度。在一些实施例中,可以统计目标数据的总数量,之后再根据该目标数据的总数量与区间范围之间的关系确定目标数据在连续多个序列数据中的集中度。可以理解的是,目标数据的总数量较大,在区间范围内占据密度较高,则可以认为该目标数据的集中度高,而目标数据的总数量较小,在区间范围内占据的密度较低,则可以认为该目标数据的集中度低。
在一种实施方式中,可以如下计算目标数据的集中度:
目标数据的集中度=目标数据的总数量/区间范围内的数据量。
预设阈值可以根据实际需要选择设置,在此不做具体限制。
在本公开一实施方式中,所述步骤S203,即在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间的步骤,进一步包括以下步骤:
在所述集中度大于预设阈值时,基于所述区间范围确定比特数组的长度,以及生成所述比特数组;
基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位表示所述目标数据中的其中一个;
将所述比特数组存储至存储空间中。
该可选的实施方式中,
在一些实施例中,可以将比特数组的长度设置成与目标数据在序列数据中所占的区间范围一致,通过这种方式可以由比特数组中的每一位表示所述区间范围内的每一个序列数据。因此,可以通过对比特数组中的每一位赋予相应的值来表示序列数据中的目标数据或者非目标数据。以上文中的例子说明,考虑到需要由比特数组来表示所挑选出的5个目标数据,因此可以将比特数组的长度设置为8。当然,可以理解的是也可以将比特数组的长度设置为其他值,只要该比特数组能够表示出目标数据为序列数据中的哪些数据即可。
将比特数组存储至存储空间中,由于比特数组中的每一位代表序列数据中的一个数据,并且通过比特数组中每一位的值可以确定哪个是比特数据,故而通过将该比特数组存储在存储空间的方式,能够实现对目标数据的存储。
本公开实施例针对连续多个序列数据中的部分目标数据进行存储时,通过确定目标数据在连续多个序列数据中的区间范围,进而再基于该区间范围确定比特数组的长度,并生成相应长度的比特属性,并基于目标数据对比特数组的每一位赋值,使得比特数组中的每一位能够表示出其对应于所述目标数据还是非目标数据。通过这种方式,对于连续多个序列数据中随机挑选的部分目标数据进行存储时,可以不直接将目标数据存储至存储空间中,而是利用一占空间较小的比特数组来存储,能够节省存储空间的同时,提高对目标数据的业务统计分析等处理效率。
在本公开一实施方式中,所述方法还进一步包括以下步骤:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据。
该可选的实施方式中,利用比特数组存储目标数据后,在对目标数据进行分析处理时,可以从存储空间读取出该比特数组,并基于比特数组中每一位的赋值确定目标数据为序列数据中的哪些数据,进而再对目标数据进行处理。
在本公开一实施方式中,所述基于所述区间范围确定比特数组的长度,以及生成所述比特数组的步骤,进一步包括以下步骤:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
该可选的实施方式中,所述区间范围的长度可以是从序列最大值到序列最小值之间序列数据的个数,包括序列最大值和序列最小值在内。为了能够使得比特数据中的比特位表示区间范围内的每一个序列数据,可以将比特数组的长度设置成与区间范围一致,或者大于区间范围的长度。再将比特数组的长度设置大于区间范围的长度时,比特数组中多余的比特位可以用于存储其他数据。
在本公开一实施方式中,所述基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据的步骤,进一步可以包括以下步骤:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
该可选的实施方式中,比特数组的长度可以设置为与区间范围的长度一致或者大于区间范围的长度。在对比特数组进行赋值时,可以从比特数组的第0位开始,对区间范围内的多个比特位进行赋值,并且可以将该多个比特位与区间范围内的序列数据进行一一关联,将对应于区间范围内的序列数据中目标数据的比特位设置为第一预设值,如二进制“1”,而将对应于区间范围内序列数据中非目标数据的比特位设置为第二预设值,如二进制“0”。
上文例子中提到的5个目标数据,分别为20210000000、20210000001、20210000004、20210000005、20210000007的区间范围为8,因此可以设置一比特数组,假如将该比特数组的长度也设置为8,则该比特数组中的每一个比特位对应于上述区间范围20210000000-20210000007中的每一个序列数据,目标数据与比特数组中每一位的对应关系如下:
第0位:20210000000
第1位:20210000001
第2位:
第3位:
第4位:20210000004
第5位:20210000005
第6位:
第7位:20210000007
假如将对应于目标数据的比特位设置为1,而将对应于非目标数据的比特位设置为0,则该比特数组最终被赋值成“11001101”。在内存中可以通过存储比特数组“11001101”的方式来替代上述5个目标数据,可见能够节省存储空间。并且数据量较大时,还能够提高查询效率。
在本公开一实施方式中,步骤S104,即将所述比特数组存储至存储空间中的步骤,进一步可以包括以下步骤:
将所述区间范围以及所述比特数组关联存储在存储空间中。
该可选的实现方式中,在读取到比特数组后,为了能够确定比特数组中的每一位表示哪个序列数据,可以将区间范围也关联存储在内存中。例如,可以存储区间范围的两个端值或者该区间范围在整个序列数据中的相对位置。
在本公开一实施方式中,所述比特数组中的每一位被赋值为第一预设值或者第二预设值;所述基于所述比特数组中每一位的值确定所述目标数据的步骤,进一步可以包括以下步骤:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
该可选的实现方式中,通过对比特数组进行遍历,确定每一个第一预设值在比特数组中的相对位置,以及基于区间范围的两个端值之一确定目标数据。
上文中提到的例子中,针对随机挑选出的5个目标数据,生成了8个比特位的比特数组,并且该比特数组被赋值为“11001101”,在存储的时候将“11001101”以及区间范围的两个端值之一“20210000007”或“20210000000”来确定目标数据,假如预先设定将区间范围的最小端值与比特数组关联存储,并且比特数组的第1位对应于最小端值,则可以确定目标数据包括比特数组中的第1位、第2位、第5位、第6位以及第7位对应的序列数据,而由于知道第1位对应的目标数据是“20210000000”,且预先知道该序列数据是按顺序递增的数据,因此可以确定第2位对应的目标数据为“20210000000”加1,则为“20210000001”,依次可以得到后面三位目标数据。
图2所示及相关实施方式中涉及的技术术语和技术特征与图1所示及相关实施方式中提及的技术术语和技术特征相同或相似,对于图2所示及相关实施方式中涉及的技术术语和技术特征的解释和说明可参考上述对于图1所示及相关实施方式的解释的说明,此处不再赘述。
图3示出根据本公开一实施方式的信息存储方法的应用场景示意图。如图3所示,交易系统301中每天均发生大量的交易,该交易涉及用户和商户,也即用户消费过程中向商户付款所产生的交易,这些交易相关数据均存储在数据库302中;交易系统为每个商户赋予ID,且这些ID均是连续递增的序列数据。统计服务器303为了分析每天产生交易的商户的分布情况,可以从数据库302中随机选取一部分商户进行统计分析。统计服务器303可以从商户ID中随机选取一些ID进行统计分析,假如商户ID为以“2021”作为起始字符串的编号,且这些编号在数值上递增,商户ID共有1000万个。可以从中选取50%也即500万个商户进行分析,为了能够实现对选中上述的分析,首先需要将选中的上述ID存储至内存304中,以便后续提取商户数据时通过遍历存储内存中的ID提取相应数据。统计服务器利用本公开实施例提出的方法将随机提取的500万个商户ID以比特数组的形式进行存储,利用本公开实施例中的方法,一个字节的比特数组能够存储8个商户ID,那么1兆的比特数组则可以存储大概100万个商户ID,那么500万个商户ID则只需要5兆的比特数据即可存储起来。
下面以Java平台为例,测算利用本公开实施例提出的上述方法存储上述1000万个客户编号中的50%数据的实际内存使用情况,代码实现如下:
@Test
public void test1(){
Set<String>cifNoSet=new HashSet<>();
List<String>others=new ArrayList<>();
CifNoRepo cifNoRepo=new CifNoRepo("2021",0,9999999);
Random r=new Random();
for(int i=0;i<10000000;i++){
String cifNo="2021"+format(i);
if(r.nextBoolean()){
cifNoSet.add(cifNo);
cifNoRepo.add(cifNo);
}else{
others.add(cifNo);
}
}
System.out.println(RamUsageEstimator.humanSizeOf(cifNoSet));
System.out.println(RamUsageEstimator.humanSizeOf(cifNoRepo));
}
private String format(int i){
String tmp="0000000";
String si=String.valueOf(i);
return tmp.substring(si.length())+si;
}
其中,cifNoSet.add(cifNo)为现有技术所采用的存储方式,也即直接存储商户ID至内存的方式,而cifNoRepo.add(cifNo)为本公开实施例利用比特数组存储上述ID的方式。
上述代码的执行结果如下:
打印结果:
489.8M
4.8M
可见,直接存储商户ID需占用489.8M的内存空间,而本公开实施例中的方案保存近500万的商户ID所使用的内存为4.8M,比现有的处理方式节省了近99%的内存。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图4示出根据本公开一实施方式的信息存储装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示,所述信息存储装置包括:
获取模块401,被配置为获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
第一确定模块402,被配置为确定所述目标数据在所述序列数据中的区间范围;
第二确定模块403,被配置为基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;
赋值模块404,被配置为基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据;
第一存储模块405,被配置为将所述比特数组存储至存储空间中。
在本公开一实施方式中,所述装置还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据。
在本公开一实施方式中,所述装置还包括:
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度;
在所述集中度小于或等于预设阈值时,直接将所述目标数据记录在存储空间中。
在本公开一实施方式中,基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
在本公开一实施方式中,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据,包括:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
在本公开一实施方式中,将所述比特数组存储至存储空间中,包括:
将所述区间范围以及所述比特数组关联存储在存储空间中。
在本公开一实施方式中,所述比特数组中的每一位被赋值为第一预设值或者第二预设值,基于所述比特数组中每一位的值确定所述目标数据,包括:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
图5示出根据本公开另一实施方式的信息存储装置的流程图,如图5所示,所述信息存储装置包括以下步骤:
第二获取模块501,被配置为获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;
第三确定模块502,被配置为确定所述目标数据在所述连续多个序列数据中的集中度;
记录模块503,被配置为在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间;
第二存储模块504,被配置为在所述集中度小于或等于预设阈值时,直接将所述目标数据存储至所述存储空间。
在本公开一实施方式中,确定所述目标数据在所述连续多个序列数据中的集中度,包括:
确定所述目标数据在所述序列数据中的区间范围;
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度。
在本公开一实施方式中,在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间,包括:
在所述集中度大于预设阈值时,基于所述区间范围确定比特数组的长度,以及生成所述比特数组;
基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位表示所述目标数据中的其中一个;
将所述比特数组存储至存储空间中。
在本公开一实施方式中,所述装置还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据。
在本公开一实施方式中,基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
在本公开一实施方式中,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位代表所述目标数据中的其中一个,包括:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
在本公开一实施方式中,将所述比特数组存储至存储空间中,包括:
将所述区间范围以及所述比特数组关联存储在存储空间中。
在本公开一实施方式中,所述比特数组中的每一位被赋值为第一预设值或者第二预设值,基于所述比特数组中每一位的值确定所述目标数据,包括:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
上述装置实施例所涉及的技术特征及其对应的解释和说明与上文所描述的方法实施例所涉及的技术特征及其对应的解释和说明相同、相应或相似,对于上述装置实施例所涉及的技术特征及其对应的解释和说明可参考上述方法实施例所涉及的技术特征及其对应的解释和说明,本公开在此不再赘述。
本公开实施例还公开了一种电子设备,所述电子设备包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现上述任一方法步骤。
图6是适于用来实现根据本公开一实施方式的信息存储方法的计算机系统的结构示意图。
如图6所示,计算机系统600包括处理单元601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行上述实施方式中的各种处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。处理单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。其中,所述处理单元601可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行所述数据传输方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
本公开实施例还公开了一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述任一方法步骤。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (15)

1.一种信息存储方法,包括:
获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;所述连续多个序列数据为以起始字符串开始,按顺序递增的编号数据,且每个序列数据由一串数字构成,并且在数值上是连续的;
确定所述目标数据在所述序列数据中的区间范围;所述区间范围的两个端值为所述目标数据中的最大序列数据和最小序列数据;
基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;
基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值用于指示所述连续多个序列数据中的每一个是所述目标数据还是非目标数据;
将所述比特数组存储至存储空间中;
所述方法还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据;
所述比特数组中的每一位被赋值为第一预设值或者第二预设值,基于所述比特数组中每一位的值确定所述目标数据,包括:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
2.根据权利要求1所述的方法,其中,所述方法还包括:
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度;
在所述集中度小于或等于预设阈值时,直接将所述目标数据记录在存储空间中。
3.根据权利要求1或2所述的方法,其中,基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
4.根据权利要求1或2所述的方法,其中,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值能够表示出对应于所述目标数据还是非目标数据,包括:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
5.根据权利要求1或2所述的方法,其中,将所述比特数组存储至存储空间中,包括:
将所述区间范围以及所述比特数组关联存储在存储空间中。
6.一种信息存储方法,包括:
获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;所述连续多个序列数据为以起始字符串开始,按顺序递增的编号数据,且每个序列数据由一串数字构成,并且在数值上是连续的;
确定所述目标数据在所述连续多个序列数据中的集中度;
在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间;所述比特数组中每一位的值用于指示所述连续多个序列数据中的每一个是所述目标数据还是非目标数据;
在所述集中度小于或等于预设阈值时,直接将所述目标数据存储至所述存储空间;
其中,确定所述目标数据在所述连续多个序列数据中的集中度,包括:
确定所述目标数据在所述序列数据中的区间范围;所述区间范围的两个端值为所述目标数据中的最大序列数据和最小序列数据;
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度;
所述方法还包括:
从所述存储空间中读取所述比特数组;
基于所述比特数组中每一位的值确定所述目标数据;
所述比特数组中的每一位被赋值为第一预设值或者第二预设值,基于所述比特数组中每一位的值确定所述目标数据,包括:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
7.根据权利要求6所述的方法,其中,在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间,包括:
在所述集中度大于预设阈值时,基于所述区间范围确定比特数组的长度,以及生成所述比特数组;
基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位表示所述目标数据中的其中一个;
将所述比特数组存储至存储空间中。
8.根据权利要求7所述的方法,其中,基于所述区间范围确定比特数组的长度,以及生成所述比特数组,包括:
将所述比特数组的长度设置为大于或等于所述区间范围的长度。
9.根据权利要求7或8所述的方法,其中,基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中的至少一位代表所述目标数据中的其中一个,包括:
确定所述目标数据中的每一个在所述区间范围内的位置,将所述比特数组中相对应位置处的比特位赋值为第一预设值;
将所述比特数组中对应于所述区间范围内的其他位置处的比特位赋值为第二预设值。
10.根据权利要求7或8所述的方法,其中,将所述比特数组存储至存储空间中,包括:
将所述区间范围以及所述比特数组关联存储在存储空间中。
11.一种信息存储装置,包括:
获取模块,被配置为获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;所述连续多个序列数据为以起始字符串开始,按顺序递增的编号数据,且每个序列数据由一串数字构成,并且在数值上是连续的;
第一确定模块,被配置为确定所述目标数据在所述序列数据中的区间范围;所述区间范围的两个端值为所述目标数据中的最大序列数据和最小序列数据;
第二确定模块,被配置为基于所述区间范围确定比特数组的长度,以及生成所述比特数组;所述比特数组中的一位表示所述序列数据中位于所述区间范围内的其中一个数据;
赋值模块,被配置为基于所述目标数据为所述比特数组的每一位赋值,以使所述比特数组中每一位的值用于指示所述连续多个序列数据中的每一个是所述目标数据还是非目标数据;
第一存储模块,被配置为将所述比特数组存储至存储空间中;
所述装置还包括:
第一数组读取模块,被配置为从所述存储空间中读取所述比特数组;
第一数据确定模块,被配置为基于所述比特数组中每一位的值确定所述目标数据;
所述比特数组中的每一位被赋值为第一预设值或者第二预设值,所述第一数据确定模块被实施为:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
12.一种信息存储装置,包括:
第二获取模块,被配置为获取待保存的多个目标数据;所述目标数据为连续多个序列数据中的其中一部分;所述连续多个序列数据为以起始字符串开始,按顺序递增的编号数据,且每个序列数据由一串数字构成,并且在数值上是连续的;
第三确定模块,被配置为确定所述目标数据在所述连续多个序列数据中的集中度;
记录模块,被配置为在所述集中度大于预设阈值时,利用比特数组记录所述目标数据,以及将所述比特数组存储至存储空间;所述比特数组中每一位的值用于指示所述连续多个序列数据中的每一个是所述目标数据还是非目标数据;
第二存储模块,被配置为在所述集中度小于或等于预设阈值时,直接将所述目标数据存储至所述存储空间;
其中,所述第三确定模块,被实施为:
确定所述目标数据在所述序列数据中的区间范围;所述区间范围的两个端值为所述目标数据中的最大序列数据和最小序列数据;
统计所述目标数据的总数量;
基于所述总数量以及所述区间范围确定所述目标数据在所述序列数据中的集中度;
所述装置还包括:
第二数组读取模块,被配置为从所述存储空间中读取所述比特数组;
第二数据确定模块,被配置为基于所述比特数组中每一位的值确定所述目标数据;
所述比特数组中的每一位被赋值为第一预设值或者第二预设值,所述第二数据确定模块被实施为:
遍历所述比特数组中的每一位;
确定所述比特数组中值为第一预设值的比特位在所述比特数组中的相对位置;
基于所述相对位置以及所述区间范围的两个端值之一确定所述目标数据。
13.一种电子设备,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-10任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机指令,其中,该计算机指令被处理器执行时实现权利要求1-10任一项所述方法的步骤。
15.一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1-10任一项所述方法的步骤。
CN202110891520.6A 2021-08-04 2021-08-04 信息存储方法、装置、电子设备、存储介质及程序产品 Active CN113590890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110891520.6A CN113590890B (zh) 2021-08-04 2021-08-04 信息存储方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110891520.6A CN113590890B (zh) 2021-08-04 2021-08-04 信息存储方法、装置、电子设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN113590890A CN113590890A (zh) 2021-11-02
CN113590890B true CN113590890B (zh) 2024-03-26

Family

ID=78254978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110891520.6A Active CN113590890B (zh) 2021-08-04 2021-08-04 信息存储方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN113590890B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330749A (zh) * 2021-12-30 2022-04-12 中国石油大学(华东) 数字信号处理方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN108681587A (zh) * 2018-05-14 2018-10-19 五八有限公司 bitmap生成方法、装置、设备及存储介质
CN109542912A (zh) * 2018-12-04 2019-03-29 北京锐安科技有限公司 区间数据存储方法、装置、服务器及存储介质
CN109597571A (zh) * 2018-11-15 2019-04-09 金蝶软件(中国)有限公司 数据存储方法、数据读取方法、装置和计算机设备
CN109766479A (zh) * 2019-01-24 2019-05-17 北京三快在线科技有限公司 数据处理方法、装置、电子设备及存储介质
CN110163602A (zh) * 2019-04-04 2019-08-23 阿里巴巴集团控股有限公司 一种账本的验证方法、装置及设备
CN110209348A (zh) * 2019-04-17 2019-09-06 腾讯科技(深圳)有限公司 数据存储方法、装置、电子设备及存储介质
CN110489405A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 数据处理的方法、装置和服务器
CN111259013A (zh) * 2020-02-03 2020-06-09 京东数字科技控股有限公司 一种存储数据的方法和装置
CN111880729A (zh) * 2020-07-15 2020-11-03 北京浪潮数据技术有限公司 一种基于位数组的脏数据下刷方法、装置及设备
CN112602066A (zh) * 2018-08-30 2021-04-02 美光科技公司 正向高速缓存存储器系统和方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2071461B1 (en) * 2007-12-04 2017-02-22 CoreMedia AG Method and system for estimating a number of users of a website based on lossy compressed data
US10311053B2 (en) * 2016-08-29 2019-06-04 International Business Machines Corporation Efficient processing of data extents
US10637675B2 (en) * 2016-11-09 2020-04-28 Cisco Technology, Inc. Area-specific broadcasting using bit indexed explicit replication
US11429606B2 (en) * 2019-12-24 2022-08-30 Oracle International Corporation Densification of expression value domain for efficient bitmap-based count(distinct) in SQL

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN108681587A (zh) * 2018-05-14 2018-10-19 五八有限公司 bitmap生成方法、装置、设备及存储介质
CN112602066A (zh) * 2018-08-30 2021-04-02 美光科技公司 正向高速缓存存储器系统和方法
CN109597571A (zh) * 2018-11-15 2019-04-09 金蝶软件(中国)有限公司 数据存储方法、数据读取方法、装置和计算机设备
CN109542912A (zh) * 2018-12-04 2019-03-29 北京锐安科技有限公司 区间数据存储方法、装置、服务器及存储介质
CN109766479A (zh) * 2019-01-24 2019-05-17 北京三快在线科技有限公司 数据处理方法、装置、电子设备及存储介质
CN110163602A (zh) * 2019-04-04 2019-08-23 阿里巴巴集团控股有限公司 一种账本的验证方法、装置及设备
CN110209348A (zh) * 2019-04-17 2019-09-06 腾讯科技(深圳)有限公司 数据存储方法、装置、电子设备及存储介质
CN110489405A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 数据处理的方法、装置和服务器
CN111259013A (zh) * 2020-02-03 2020-06-09 京东数字科技控股有限公司 一种存储数据的方法和装置
CN111880729A (zh) * 2020-07-15 2020-11-03 北京浪潮数据技术有限公司 一种基于位数组的脏数据下刷方法、装置及设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Electronic Storage of Echocardiographic Images: From Clips to Bits;Ronald A. Kahn MD;Elsevier Science;20101031;第24卷(第5期);第859-866页 *
一种基于比特数组的整型ID生成器算法;刘炳元;福建电脑;20181025(第10期);第112-113页 *
多比特树在网络入侵检测系统中的应用;郑伟发等;网络安全技术与应用;20090415(第4期);第31-33页 *
王学艳等.《C语言程序设计》.武汉大学出版社,2008,第109页. *
王景英.《教育统计学》.高等教育出版社,2001,第12-15页. *
王灏等.《数字电视制作》.中国国际广播出版社,2017,第63页. *
陶亚慧等.《大数据时代背景下应用统计学的运用与创新》.吉林人民出版社,2020,第29-33页. *

Also Published As

Publication number Publication date
CN113590890A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN103748579B (zh) 在映射化简框架中处理数据
CN107807982B (zh) 一种异构数据库的一致性校验方法及装置
US20070239742A1 (en) Determining data elements in heterogeneous schema definitions for possible mapping
US10579589B2 (en) Data filtering
CN112445875B (zh) 数据关联及检验方法、装置、电子设备及存储介质
CN113327136B (zh) 归因分析方法、装置、电子设备及存储介质
CN111666279B (zh) 查询数据处理方法、装置、电子设备及计算机存储介质
CN113590890B (zh) 信息存储方法、装置、电子设备、存储介质及程序产品
CN111737646B (zh) 广告推广的效果评估数据处理方法、系统和存储介质
CN111666304A (zh) 数据处理装置、数据处理方法、存储介质与电子设备
KR100992345B1 (ko) 서비스 평가 방법, 시스템 및 컴퓨터 판독가능한 기록매체
CN114840531A (zh) 基于血缘关系的数据模型重构方法、装置、设备及介质
CN112395499B (zh) 信息推荐方法及装置、电子设备、存储介质
CN112346951A (zh) 业务的测试方法及装置
CN113609020A (zh) 一种测试用例推荐方法及装置
US7272588B2 (en) Systems, methods, and computer-readable media for generating service order count metrics
CN111724185A (zh) 用户维护方法和装置
CN111311276B (zh) 一种异常用户团体的识别方法、识别装置及可读存储介质
US6745215B2 (en) Computer apparatus, program and method for determining the equivalence of two algebraic functions
CN109189810B (zh) 查询方法、装置、电子设备及计算机可读存储介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN110688295A (zh) 数据测试方法和装置
CN111127077A (zh) 一种基于流计算的推荐方法和装置
CN113705211B (zh) 营业执照字号自动生成方法、装置和可读存储介质
CN113810414B (zh) 移动客户端域名过滤方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant