CN107315535A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN107315535A
CN107315535A CN201610274281.9A CN201610274281A CN107315535A CN 107315535 A CN107315535 A CN 107315535A CN 201610274281 A CN201610274281 A CN 201610274281A CN 107315535 A CN107315535 A CN 107315535A
Authority
CN
China
Prior art keywords
label
sequence
binary number
frequency
object information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610274281.9A
Other languages
English (en)
Other versions
CN107315535B (zh
Inventor
徐峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610274281.9A priority Critical patent/CN107315535B/zh
Priority to PCT/CN2017/081200 priority patent/WO2017186049A1/zh
Publication of CN107315535A publication Critical patent/CN107315535A/zh
Application granted granted Critical
Publication of CN107315535B publication Critical patent/CN107315535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/065Replication mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了信息处理方法和装置。所述方法的一具体实施方式包括:获取待处理的对象信息集合;对于所述对象信息集合中的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与所述标签序列长度相等的二进制数;对所述二进制数执行压缩步骤以形成已压缩数据,所述压缩步骤包括:按预设长度将所述二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;存储所述已压缩数据。该实施方式实现了优化存储。

Description

信息处理方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息处理方法和装置。
背景技术
大数据时代,需要将海量的对象存储在存储介质中,例如可高速访问的缓存。对所包含的信息均为标签的对象而言,为了提高存储空间的利用率,需要使用最小的内存空间对描述对象的信息进行存储。现有技术中在对信息均为标签的对象进行描述时,所生成的信息占用的存储空间依然较大,需要进一步压缩。
发明内容
本申请的目的在于提出一种改进的信息处理方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种信息处理方法,所述方法包括:获取待处理的对象信息集合,所述对象信息集合中的各个对象信息分别用于描述预设的对象集合中各个对象所包含的标签,所述对象集合中各个对象包含的各个标签均属于预设的标签集合;对于所述对象信息集合中的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与所述标签序列长度相等的二进制数,其中,当标签被对象包含时生成数字1,当标签不被对象包含时生成数字0,所述标签序列是对所述标签集合中的标签按照设定的顺序进行排列而形成的;对所述二进制数执行压缩步骤以形成已压缩数据,所述压缩步骤包括:按预设长度将所述二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;存储所述已压缩数据。
在一些实施例中,所述压缩步骤还包括:在所述按预设长度将所述二进制数分成至少一个分段之前,将所二进制数末尾连续的0去掉;或者在所述在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉之后,去掉二进制数末尾连续的分隔符号。
在一些实施例中,所述预设长度为64。
在一些实施例中,所述对象信息集合中的对象信息是可变的,以及所述方法还包括:达到预设时间点后,获取当前时间所述标签集合中的各个标签在所述对象集合中的出现频次;按照所获取的各个标签的出现频次对所述标签序列中标签的位置进行更新;按照所述标签序列中标签的位置更新对已压缩数据进行更新。
在一些实施例中,所述获取此时所述标签集合中的各个标签在所述对象集合中的出现频次,包括:获取至少一个历史时间点时所存储的对象集合中各个标签的出现频次;对所获取的各个标签的出现频次进行数据拟合,以预测出此时所述标签集合中的各个标签在所述对象集合中的出现频次。
在一些实施例中,所述按照所获取的各个标签的出现频次对所述标签序列中标签的位置进行更新,包括:对所述标签集合中的标签按照出现频次生成理想标签序列,其中理想标签序列是已压缩数据存储空间最小时对应的标签序列;确定从所述标签序列变化为所述理想标签序列以减少已压缩数据所占用的存储空间时、各个标签的位置变化有利于优化存储的权重;选取权重最大的至少一个标签作为待变换位置的标签,并将所选择的标签变换到所述理想标签序列指示的位置。
在一些实施例中,所述按照所述标签序列中标签的位置更新对已压缩数据进行更新,包括:对于所述标签序列中位置相互替换变化的两个标签,将两个标签中的第一标签的数位复制到新位置,复制过程中同时在所述新位置和所述第一标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述第一标签的原位置的数位并将对该第一标签的数位的读写操作切换至新位置;将两个标签中的第二标签的数位复制到第一标签的原位置处,复制过程中同时在所述第二标签的原位置和所述第一标签的原位置对该第二标签的数位进行写操作,复制完成后清除所述第二标签的原位置的数位并将对该第二标签的数位的读写操作切换至第一标签的旧位置;将所述新位置存储的所述第一标签的数位复制到所述第二标签的原位置,复制过程中同时在所述新位置和所述第二标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述新位置的数位并将对所述第一标签的数位的读写操作切换至第二标签的原位置。
第二方面,本申请提供了一种信息处理装置,所述装置包括:获取单元,用于获取待处理的对象信息集合,所述对象信息集合中的各个对象信息分别用于描述预设的对象集合中各个对象所包含的标签,所述对象集合中各个对象包含的各个标签均属于预设的标签集合;生成单元,用于对于对象信息集合中的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与所述标签序列长度相等的二进制数,其中,当标签被对象包含时生成数字1,当标签不被对象包含时生成数字0,所述标签序列是对所述标签集合中的标签设定的顺序进行排列而形成的;压缩单元,用于对所述二进制数执行压缩步骤以形成已压缩数据,所述压缩步骤包括:按预设长度将所述二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;存储单元,用于存储所述已压缩数据。
在一些实施例中,压缩单元执行的压缩步骤具体包括:在所述按预设长度将所述二进制数分成至少一个分段之前,将所二进制数末尾连续的0去掉;或者在所述在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉之后,去掉二进制数末尾连续的分隔符号。
在一些实施例中,上述预设长度为64。
在一些实施例中,对象信息集合中的对象信息是可变的,以及上述装置还包括:频次获取单元,用于达到预设时间点后,获取当前时间所述标签集合中的各个标签在所述对象集合中的出现频次;序列更新单元,用于按照所获取的各个标签的出现频次对所述标签序列中标签的位置进行更新;数据更新单元,用于按照所述标签序列中标签的位置更新对已压缩数据进行更新。
在一些实施例中,频次获取单元包括:历史频次获取子单元,用于获取至少一个历史时间点时所存储的对象集合中各个标签的出现频次;预测子单元,用于对所获取的各个标签的出现频次进行数据拟合,以预测出此时所述标签集合中的各个标签在所述对象集合中的出现频次。
在一些实施例中,所述序列更新单元进一步用于:对所述标签集合中的标签按照出现频次生成理想标签序列,其中理想标签序列是已压缩数据存储空间最小时对应的标签序列;确定从所述标签序列变化为所述理想标签序列以减少已压缩数据所占用的存储空间时、各个标签的位置变化有利于优化存储的权重;选取权重最大的至少一个标签作为待变换位置的标签,并将所选择的标签变换到所述理想标签序列指示的位置。
在一些实施例中,所述数据更新单元进一步用于:对于所述标签序列中位置相互替换变化的两个标签,将两个标签中的第一标签的数位复制到新位置,复制过程中同时在所述新位置和所述第一标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述第一标签的原位置的数位并将对该第一标签的数位的读写操作切换至新位置;将两个标签中的第二标签的数位复制到第一标签的原位置处,复制过程中同时在所述第二标签的原位置和所述第一标签的原位置对该第二标签的数位进行写操作,复制完成后清除所述第二标签的原位置的数位并将对该第二标签的数位的读写操作切换至第一标签的旧位置;将所述新位置存储的所述第一标签的数位复制到所述第二标签的原位置,复制过程中同时在所述新位置和所述第二标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述新位置的数位并将对所述第一标签的数位的读写操作切换至第二标签的原位置
本申请提供的信息处理方法和装置,可以按照设定的标签排列顺序生成对应的二进制数,并对二进制数的数位进行分段以及去掉各个分段末尾的0,有效降低了最终存储的数位长度,可以用较小的内存使用量来存储大量数据。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息处理方法的一个实施例的流程图;
图3是根据本申请的信息处理方法的又一个实施例的流程图;
图4是根据本申请的信息处理装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息处理方法或信息处理装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。
终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供数据支持的高速缓存服务器。高速缓存服务器可以对接收到的数据请求进行读写操作等处理,并将处理结果(例如所读到的数据)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息处理方法一般由服务器105执行,相应地,信息处理装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息处理方法的一个实施例的流程200。所述的信息处理方法,包括以下步骤:
步骤201,获取待处理的对象信息集合。
在本实施例中,信息处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从其他设备(例如数据库服务器)获取需要进行处理的对象信息集合中的各个对象信息。其中,对象信息集合中的各个对象信息分别是用于对象集合中各个对象所包含的标签的。对象中的内容均为标签且所包含的标签均属于预设的标签集合。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,对于对象信息集合的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与标签序列长度相等的二进制数。
在本实施例中,基于步骤201中得到的对象信息集合,上述电子设备对于各个对象信息分别进行以下处理。对于对象信息,电子设备依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1。其中,标签序列是对上述标签集合中的标签按照各个标签预先设定的顺序进行排列而形成的。可选的,该顺序可以是按照在对象集合中的出现频次从大到小进行排序而生成的,通常排在前位的标签的出现频次高于后位的标签。可选的,该顺序可以是严格按频次从大到小进行排序的。例如在标签序列中共有N个标签,第一个标签到最后一个标签分别为Label1、Label2、Label3、……、LabelN,则Label1在对象集合中出现的次数大于或等于Label2,Label2在对象集合中出现的次数大于或等于Label3,依次类推。电子设备可以依次从Label1到LabelN,依次判断每个标签是否被当前的对象所包含,根据判断结果生成0或1。其中,包含时值为1,不包含时值为0。例如,当标签序列中有label001至label500共500个标签时,若对象有label01、label130共两个标签,则所生成的二进制数可以是:100000……(129个0)10000……(370个0)。
步骤203,对二进制数执行压缩步骤以形成已压缩数据。
在本实施例中,基于步骤202生成的二进制数,电子设备对该二进制数执行压缩步骤。该压缩步骤包括:按预设长度将二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉。在执行压缩步骤时,电子设备可以对二进制数进行切分,所切分的每个分段可以是预设长度,该预设长度例如可以是16位、32位。之后,电子设备可以将每个分段中末尾的0去掉。
在本实施例的一些可选实现方式中,上述预设长度可以64位。以上述二进制数100000……(129个0)10000……(370个0)为例,将二进制数按64位分段,段中间加分隔符,再去掉每段末尾的0,进行压缩步骤所生成的已压缩数据即为1,,01,,,,,。
在本实施例的一些可选实现方式中,在按预设长度将二进制数分成至少一个分段之前,将所二进制数末尾连续的0去掉;或者,在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉之后,去掉二进制数末尾连续的分隔符号。如此,上述二进制数100000……(129个0)10000……(370个0)经数据压缩处理后,形成的已压缩数据即为1,,01。通过这种方式,所形成的已压缩数据可以进一步减少所占用的存储空间。
步骤204,存储上述已压缩数据。
在本实施例中,上述电子设备可以将通过步骤203所形成的已压缩数据进行存储。
本申请的上述实施例可以按照设定的标签排列顺序生成对应的二进制数,并对二进制数的数位进行分段以及去掉各个分段末尾的0,有效降低了最终存储的数位长度,可以用较小的内存使用量来存储大量数据。
进一步参考图3,其示出了信息处理方法的又一个实施例的流程300。其中,对象信息集合中的对象信息是可变的。该信息处理方法的流程300,包括以下步骤:
步骤301,获取待处理的对象信息集合。
在本实施例中,其中,对象信息集合中的对象信息是可变的。步骤301的具体处理可以参考图2对应实施例中的步骤201。
步骤302,对于对象信息集合的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与标签序列长度相等的二进制数。
在本实施例中,步骤302的具体处理可以参考图2对应实施例中的步骤202。
步骤303,对二进制数执行压缩步骤以形成已压缩数据。
在本实施例中,步骤303的具体处理可以参考图2对应实施例中的步骤203。
步骤304,存储已压缩数据。
在本实施例中,步骤304的具体处理可以参考图2对应实施例中的步骤204。
步骤305,达到预设时间点后,获取当前时间标签集合中的各个标签在对象集合中的出现频次。
在本实施例中,电子设备可以判断当前时间是否达到预设时间点,当达到该时间周期时,电子设备可以执行步骤304以及后续的步骤。例如,可以预先设置起始时间和时间周期,从而可以根据起始时间和时间周期确定上述预设时间点。
当达到上述预设时间点后,电子设备可以通过各种方法获取当前时间标签集合中的各个标签在对象集合中的出现频次。例如,Label1出现频次为X次,Label2出现频次为Y次。
在本实施例的一些可选实现方式中,步骤304中标签集合中的各个标签在对象集合中的出现频次可以是通过以下步骤获取的:首先,获取至少一个历史时间点时所存储的对象集合中各个标签的出现频次。之后,对所获取的各个标签的出现频次进行数据拟合,以预测出此时标签集合中的各个标签在对象集合中的出现频次。该实现方式通过数据拟合方式,借助历史时间点对象集合中各个标签的出现频次预测出当前标签的频次,可以通过快速获取频次,从而减少整体的操作时间。
步骤306,按照所获取的各个标签的出现频次对标签序列中标签的位置进行更新。
在本实施例中,由于标签序列中的各个标签是预先按照标签出现频次从大到小进行排列的,且从大到小进行排列有利于通过删除段末的0来压缩空间。由于对象信息集合中的对象信息是可变的,即各个对象中所包含的标签是可变的,则在经过一定时间后,标签序列中的各个标签可能已不满足从高频次到低频次的排布。因此,需要根据当前时间点各个标签的出现频次对标签序列中的标签位置进行更新。需要说明的是,可以根据频次对一部分标签的位置进行变化,也可以对所有标签的位置参照最新的频次从大到小进行重新排列。
在本实施例的一些可选实现方式中,步骤306可以具体包括以下步骤:
首先,对标签集合中的标签按照出现频次从大到小排列生成理想标签序列,其中理想标签序列是已压缩数据存储空间最小时对应的标签序列。通常该理想标签序列是对标签按出现频次从大到小进行排列而生成的。
其次,确定从标签序列变化为理想标签序列以减少已压缩数据所占用的存储空间时、各个标签的位置变化有利于优化存储的权重。可选的,各个标签的位置变化有利于优化存储的权重可以通过标签在理想标签序列中的位置进行确定。该位置可以是标签在理想标签序列中的序号,也可以是对理想标签序列按照上述预设长度进分成至少一个分段后、各个标签所属的分段在所有分段中的位置以及该标签在所处分段中的位置。通常,位置越靠前则意味着权重越高。
之后,选取权重最大的至少一个标签作为待变换位置的标签,并将所选择的标签变换到理想标签序列指示的位置并将所选择的标签变换到理想标签序列中相应的位置。
在该实现方式中,可以按照各个标签对优化存储的权重对标签序列中权重较大的标签进行位置变化,从而使得在进行存储优化的同时,尽可能避免较多的标签移动造成操作时间过长,实现空间优化和时间优化的平衡。
步骤307,按照标签序列中标签的位置更新对已压缩数据进行更新。
在本实施例中,电子设备可以对已压缩数据按照标签序列中标签的位置变化进行更新。由于所生成的二进制数的各个二进制位依次与标签序列中标签一一对应。因此,当标签序列中的标签位置变化时,需要根据标签位置的变化进行二进制位数值的调整,以保证数据可靠性。
在本实施例的一些可选实现方式中,步骤307具体包括:对于所述标签序列中位置相互替换变化的两个标签,将两个标签中的第一标签的数位复制到新位置,复制过程中同时在所述新位置和所述第一标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述第一标签的原位置的数位并将对该第一标签的数位的读写操作切换至新位置;将两个标签中的第二标签的数位复制到第一标签的原位置处,复制过程中同时在所述第二标签的原位置和所述第一标签的原位置对该第二标签的数位进行写操作,复制完成后清除所述第二标签的原位置的数位并将对该第二标签的数位的读写操作切换至第一标签的旧位置;将所述新位置存储的所述第一标签的数位复制到所述第二标签的原位置,复制过程中同时在所述新位置和所述第二标签的原位置对所述第一标签的数位进行写操作,复制完成后清除新位置的数位并将对第一标签的数位的读写操作切换至第二标签的原位置。该实现方式中,在数据更新时可以保证正常的数据读写,不影响外部对数据的使用。
从图3中可以看出,与图2对应的实施例相比,本实施例中的信息处理方法的流程300可以根据数据的不断变化,不断优化存储。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种信息处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如4所示,本实施例的信息处理装置400包括:获取单元401、生成单元402、压缩单元403和存储单元404。其中,获取单元401用于获取待处理的对象信息集合,对象信息集合中的各个对象信息分别用于描述预设的对象集合中各个对象所包含的标签,对象集合中各个对象包含的各个标签均属于预设的标签集合;生成单元402用于对于对象信息集合中的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与标签序列长度相等的二进制数,其中,当标签被对象包含时生成数字1,当标签不被对象包含时生成数字0,标签序列是对标签集合中的标签按照设定的顺序进行排列而形成的;压缩单元403用于对二进制数执行压缩步骤以形成已压缩数据,压缩步骤包括:按预设长度将二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;而存储单元404用于存储已压缩数据。
在本实施例中,信息处理装置400的获取单元401、生成单元402、压缩单元403和存储单元404的具体处理可以参考图2对应实施例的步骤201、步骤202、步骤203和步骤204,这里不再赘述。
在本实施例的一些可选实现方式中,压缩单元403执行的压缩步骤具体包括:在按预设长度将二进制数分成至少一个分段之前,将所二进制数末尾连续的0去掉;或者在在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉之后,去掉二进制数末尾连续的分隔符号。该实现方式的具体处理可以参考图2对应实施例中相应实现方式的描述,这里不再赘述。
在本实施例的一些可选实现方式中,上述预设长度为64。
在本实施例的一些可选实现方式,上述对象信息集合中的对象信息是可变的,以及信息处理装置还包括:频次获取单元(未示出),用于达到预设时间点后,获取当前时间标签集合中的各个标签在对象集合中的出现频次;序列更新单元(未示出),用于按照所获取的各个标签的出现频次对标签序列中标签的位置进行更新;数据更新单元(未示出),用于按照标签序列中标签的位置更新对已压缩数据进行更新。该实现方式的具体处理可以参考图3对应实施例中的描述。
在本实施例的一些可选实现方式,频次获取单元包括:历史频次获取子单元(未示出),用于获取至少一个历史时间点时所存储的对象集合中各个标签的出现频次;预测子单元(未示出),用于对所获取的各个标签的出现频次进行数据拟合,以预测出此时标签集合中的各个标签在对象集合中的出现频次。该实现方式的具体处理可以参考图3对应实施例中相应实现方式的描述。
在本实施例的一些可选实现方式,序列更新单元进一步用于:对标签集合中的标签按照出现频次生成理想标签序列,其中理想标签序列是已压缩数据存储空间最小时对应的标签序列;确定从标签序列变化为理想标签序列以减少已压缩数据所占用的存储空间时、各个标签的位置变化有利于优化存储的权重;选取权重最大的至少一个标签作为待变换位置的标签,并将所选择的标签变换到理想标签序列指示的位置。该实现方式的具体处理可以参考图3对应实施例中相应实现方式的描述,这里不再赘述。
在本实施例的一些可选实现方式,上述数据更新单元进一步用于:对于所述标签序列中位置相互替换变化的两个标签,将两个标签中的第一标签的数位复制到新位置,复制过程中同时在所述新位置和所述第一标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述第一标签的原位置的数位并将对该第一标签的数位的读写操作切换至新位置;将两个标签中的第二标签的数位复制到第一标签的原位置处,复制过程中同时在所述第二标签的原位置和所述第一标签的原位置对该第二标签的数位进行写操作,复制完成后清除所述第二标签的原位置的数位并将对该第二标签的数位的读写操作切换至第一标签的旧位置;将所述新位置存储的所述第一标签的数位复制到所述第二标签的原位置,复制过程中同时在所述新位置和所述第二标签的原位置对第一标签的数位进行写操作,复制完成后清除新位置的数位并将对第一标签的数位的读写操作切换至第二标签的原位置。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、生成单元、压缩单元和存储单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,存储单元还可以被描述为“存储已压缩数据的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取待处理的对象信息集合中的各个对象信息,所述对象信息集合中的各个对象信息分别用于描述预设的对象集合中各个对象所包含的标签,所述对象集合中各个对象包含的各个标签均属于预设的标签集合;对于各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与所述标签序列长度相等的二进制数,其中,当标签被对象包含时生成数字1,当标签不被对象包含时生成数字0,所述标签序列是对所述标签集合中的标签按照设定的顺序进行排列而形成的;对所述二进制数执行压缩步骤以形成已压缩数据,所述压缩步骤包括:按预设长度将所述二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;存储所述已压缩数据。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种信息处理方法,其特征在于,所述方法包括:
获取待处理的对象信息集合,所述对象信息集合中的各个对象信息分别用于描述预设的对象集合中各个对象所包含的标签,所述对象集合中各个对象包含的各个标签均属于预设的标签集合;
对于所述对象信息集合中的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与所述标签序列长度相等的二进制数,其中,当标签被对象包含时生成数字1,当标签不被对象包含时生成数字0,所述标签序列是对所述标签集合中的标签按照设定的顺序进行排列而形成的;
对所述二进制数执行压缩步骤以形成已压缩数据,所述压缩步骤包括:按预设长度将所述二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;
存储所述已压缩数据。
2.根据权利要求1所述的方法,其特征在于,所述压缩步骤还包括:
在所述按预设长度将所述二进制数分成至少一个分段之前,将所二进制数末尾连续的0去掉;或者
在所述在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉之后,去掉二进制数末尾连续的分隔符号。
3.根据权利要求1或2所述的方法,其特征在于,所述预设长度为64。
4.根据权利要求1所述的方法,其特征在于,所述对象信息集合中的对象信息是可变的,以及
所述方法还包括:
达到预设时间点后,获取当前时间所述标签集合中的各个标签在所述对象集合中的出现频次;
按照所获取的各个标签的出现频次对所述标签序列中标签的位置进行更新;
按照所述标签序列中标签的位置更新对已压缩数据进行更新。
5.根据权利要求4所述的方法,其特征在于,所述获取此时所述标签集合中的各个标签在所述对象集合中的出现频次,包括:
获取至少一个历史时间点时所存储的对象集合中各个标签的出现频次;
对所获取的各个标签的出现频次进行数据拟合,以预测出此时所述标签集合中的各个标签在所述对象集合中的出现频次。
6.根据权利要求4所述的方法,其特征在于,所述按照所获取的各个标签的出现频次对所述标签序列中标签的位置进行更新,包括:
对所述标签集合中的标签按照出现频次从大到小排列生成理想标签序列,其中理想标签序列是已压缩数据存储空间最小时对应的标签序列;
确定从所述标签序列变化为所述理想标签序列以减少已压缩数据所占用的存储空间时、各个标签的位置变化有利于优化存储的权重;
选取权重最大的至少一个标签作为待变换位置的标签,并将所选择的标签变换到所述理想标签序列指示的位置。
7.根据权利要求4所述的方法,其特征在于,所述按照所述标签序列中标签的位置更新对已压缩数据进行更新,包括:
对于所述标签序列中位置相互替换变化的两个标签,将两个标签中的第一标签的数位复制到新位置,复制过程中同时在所述新位置和所述第一标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述第一标签的原位置的数位并将对该第一标签的数位的读写操作切换至新位置;
将两个标签中的第二标签的数位复制到第一标签的原位置处,复制过程中同时在所述第二标签的原位置和所述第一标签的原位置对该第二标签的数位进行写操作,复制完成后清除所述第二标签的原位置的数位并将对该第二标签的数位的读写操作切换至第一标签的旧位置;
将所述新位置存储的所述第一标签的数位复制到所述第二标签的原位置,复制过程中同时在所述新位置和所述第二标签的原位置对所述第一标签的数位进行写操作,复制完成后清除所述新位置的数位并将对所述第一标签的数位的读写操作切换至第二标签的原位置。
8.一种信息处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理的对象信息集合,所述对象信息集合中的各个对象信息分别用于描述预设的对象集合中各个对象所包含的标签,所述对象集合中各个对象包含的各个标签均属于预设的标签集合;
生成单元,用于对于所述对象信息集合中的各个对象信息,依次根据预设的标签序列中的各个标签是否被对象信息所描述的对象包含而生成0或1,以形成与所述标签序列长度相等的二进制数,其中,当标签被对象包含时生成数字1,当标签不被对象包含时生成数字0,所述标签序列是对所述标签集合中的标签按照设定的顺序进行排列而形成的而生成的;
压缩单元,用于对所述二进制数执行压缩步骤以形成已压缩数据,所述压缩步骤包括:按预设长度将所述二进制数分成至少一个分段;在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉;
存储单元,用于存储所述已压缩数据。
9.根据权利要求8所述的装置,其特征在于,所述压缩步骤还包括:在所述按预设长度将所述二进制数分成至少一个分段之前,将所二进制数末尾连续的0去掉;或者在所述在二进制数的相邻分段之间增加分隔符号并将每个分段中末尾连续的0去掉之后,去掉二进制数末尾连续的分隔符号。
10.根据权利要求8所述的装置,其特征在于,所述对象信息集合中的对象信息是可变的,以及
所述装置还包括:
频次获取单元,用于达到预设时间点后,获取当前时间所述标签集合中的各个标签在所述对象集合中的出现频次;
序列更新单元,用于按照所获取的各个标签的出现频次对所述标签序列中标签的位置进行更新;
数据更新单元,用于按照所述标签序列中标签的位置更新对已压缩数据进行更新。
11.根据权利要求10所述的装置,其特征在于,所述频次获取单元,包括:
历史频次获取子单元,用于获取至少一个历史时间点时所存储的对象集合中各个标签的出现频次;
预测子单元,用于对所获取的各个标签的出现频次进行数据拟合,以预测出此时所述标签集合中的各个标签在所述对象集合中的出现频次。
12.根据权利要求11所述的装置,其特征在于,所述序列更新单元进一步用于:
对所述标签集合中的标签按照出现频次生成理想标签序列,其中理想标签序列是已压缩数据存储空间最小时对应的标签序列;
确定从所述标签序列变化为所述理想标签序列以减少已压缩数据所占用的存储空间时、各个标签的位置变化有利于优化存储的权重;
选取权重最大的至少一个标签作为待变换位置的标签,并将所选择的标签变换到所述理想标签序列指示的位置。
CN201610274281.9A 2016-04-27 2016-04-27 信息处理方法和装置 Active CN107315535B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610274281.9A CN107315535B (zh) 2016-04-27 2016-04-27 信息处理方法和装置
PCT/CN2017/081200 WO2017186049A1 (zh) 2016-04-27 2017-04-20 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610274281.9A CN107315535B (zh) 2016-04-27 2016-04-27 信息处理方法和装置

Publications (2)

Publication Number Publication Date
CN107315535A true CN107315535A (zh) 2017-11-03
CN107315535B CN107315535B (zh) 2019-09-20

Family

ID=60160750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610274281.9A Active CN107315535B (zh) 2016-04-27 2016-04-27 信息处理方法和装置

Country Status (2)

Country Link
CN (1) CN107315535B (zh)
WO (1) WO2017186049A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102265937B1 (ko) * 2020-12-21 2021-06-17 주식회사 모비젠 시퀀스데이터의 분석 방법 및 그 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918225A (en) * 1993-04-16 1999-06-29 Sybase, Inc. SQL-based database system with improved indexing methodology
CN101036141A (zh) * 2004-03-26 2007-09-12 甲骨文国际有限公司 具有持久性、用户可访问的位图值的数据库管理系统
US20120170648A1 (en) * 2011-01-05 2012-07-05 Qualcomm Incorporated Frame splitting in video coding
CN102790656A (zh) * 2012-05-30 2012-11-21 新邮通信设备有限公司 一种iq数据压缩方法和系统
CN103840839A (zh) * 2014-03-21 2014-06-04 中国科学院声学研究所 一种井下声波成像测井数据的实时压缩方法
CN103995887A (zh) * 2014-05-30 2014-08-20 上海达梦数据库有限公司 位图索引压缩方法和位图索引解压方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918225A (en) * 1993-04-16 1999-06-29 Sybase, Inc. SQL-based database system with improved indexing methodology
CN101036141A (zh) * 2004-03-26 2007-09-12 甲骨文国际有限公司 具有持久性、用户可访问的位图值的数据库管理系统
US20120170648A1 (en) * 2011-01-05 2012-07-05 Qualcomm Incorporated Frame splitting in video coding
CN102790656A (zh) * 2012-05-30 2012-11-21 新邮通信设备有限公司 一种iq数据压缩方法和系统
CN103840839A (zh) * 2014-03-21 2014-06-04 中国科学院声学研究所 一种井下声波成像测井数据的实时压缩方法
CN103995887A (zh) * 2014-05-30 2014-08-20 上海达梦数据库有限公司 位图索引压缩方法和位图索引解压方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
桂勋: "面向IEEE COMTRADE格式的海量录波数据并行压缩/解压算法", 《电力自动化设备》 *
欧阳一鸣,等: "改进型FDR码对SoC测试数据的压缩及解压缩", 《计算机应用研究》 *
黄传波,等: "一种基于Winnowing分块的重复数据删除备份与恢复系统设计与实现", 《四川大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102265937B1 (ko) * 2020-12-21 2021-06-17 주식회사 모비젠 시퀀스데이터의 분석 방법 및 그 장치

Also Published As

Publication number Publication date
WO2017186049A1 (zh) 2017-11-02
CN107315535B (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN105320766A (zh) 信息推送方法和装置
CN103034467B (zh) 图像显示方法、装置及移动终端
CN109408468A (zh) 文件处理方法和装置、计算设备及存储介质
CN107656748A (zh) 应用发布的方法和装置
CN107832041A (zh) 专题页面制作方法、装置、设备及可读存储介质
CN115048254B (zh) 数据分配策略的仿真测试方法、系统、设备和可读介质
CN112132232A (zh) 医学图像的分类标注方法和系统、服务器
CN111444158A (zh) 长短期用户画像生成方法、装置、设备及可读存储介质
CN107391507A (zh) 移动端页面的更新方法和装置
CN115222845A (zh) 样式字体图片生成方法、装置、电子设备和介质
CN107315535A (zh) 信息处理方法和装置
CN110119386A (zh) 数据处理方法、数据处理装置、介质和计算设备
CN101526925A (zh) 一种缓存数据的处理方法及数据存储系统
CN111724455A (zh) 图像处理方法及电子设备
CN114995770B (zh) 一种数据处理方法、装置、设备、系统及可读存储介质
CN108205559A (zh) 一种数据管理方法及其设备
CN112434746A (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN115878935A (zh) 一种图表的局部刷新方法、系统、装置、设备及介质
CN113254000B (zh) 基于json数据生成2d场景的方法、装置、存储介质和设备
CN115238659A (zh) 一种报表数据处理方法和装置
CN110633388B (zh) 基于通信xdr的实时指标生成方法、系统和存储介质
CN112463389A (zh) 分布式机器学习任务的资源管理方法及装置
CN109918233A (zh) 一种数据处理方法、装置、计算设备及存储介质
CN109886301A (zh) 一种图像特征排布判断方法及其系统、终端设备
Sodjo et al. A generalized Swendsen-Wang algorithm for Bayesian nonparametric joint segmentation of multiple images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant