CN111913957A - 数据序列化后特征提取方法、系统及计算机可读存储介质 - Google Patents

数据序列化后特征提取方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN111913957A
CN111913957A CN202010646781.7A CN202010646781A CN111913957A CN 111913957 A CN111913957 A CN 111913957A CN 202010646781 A CN202010646781 A CN 202010646781A CN 111913957 A CN111913957 A CN 111913957A
Authority
CN
China
Prior art keywords
data
character
characters
weight
binary tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010646781.7A
Other languages
English (en)
Inventor
翟红鹰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puhua Yunchuang Technology Beijing Co ltd
Original Assignee
Puhua Yunchuang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puhua Yunchuang Technology Beijing Co ltd filed Critical Puhua Yunchuang Technology Beijing Co ltd
Priority to CN202010646781.7A priority Critical patent/CN111913957A/zh
Publication of CN111913957A publication Critical patent/CN111913957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据序列化后特征提取方法、系统及存储介质。所述数据序列化后特征提取方法包括如下步骤:获取原始数据,并将所述原始数据序列化为字符类数据;统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。本发明的技术方案能够解决相关技术中,数据本体过大,导致计算机设备的内存占比过大、运算速度降低以及网络传输过慢的技术问题。

Description

数据序列化后特征提取方法、系统及计算机可读存储介质
技术领域
本发明涉及区块链技术领域,尤其涉及一种数据序列化后特征提取方法、系统以及计算机可读存储介质。
背景技术
在相关技术中,存在如下技术:
1.数据序列化技术
在计算机设备存储和运算数据过程中,数据序列化技术是一项必不可少的技术。数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中。反序列化则是相反的操作,将对象从序列化数据中还原出来。
而数据序列化后的数据格式可以是二进制,可以是XML,也可以是JSON等任何格式。数据序列化的重点在于数据的交换和传输。
当需要数据持久化或网络时,需要将数据进行序列化。例如:
(1)数据持久化:比如一个电商平台,有数万个用户并发访问的时候会产生数万个session对象,这个时候内存的压力是很大的。可以把session对象序列化(存储)到硬盘中,需要时在反序列化,减少内存压力,这时序列化完的结果并不是二进制数据。
(2)网络传输:将系统拆分成多个服务之后,服务之间传输对象,不管是何种类型的数据,都必须要转成二进制流来传输,接受方收到后再转为数据对象。
序列化的关注点/衡量标准
(1)序列化后的数据大小
因为序列化后的数据通常是通过网络进行传输的,或者存储于内存中。因此,序列化后的内容越少,传输耗时也就越短,占用的内存也越少。java原生的序列化机制,不能做到对象结构的复用,导致序列化之后的数据很大。
(2)序列化和反序列化的耗时及占用的cpu。
(3)是否支持跨语言,跨平台。
相关技术中,数据序列化后,数据本体过大,导致计算机设备的内存占比过大、运算速度降低以及网络传输过慢。
因此,有必要提供一种新的数据序列化后特征提取方法、系统以及计算机可读存储介质,以解决上述技术问题。
发明内容
本发明的主要目的在于提供一种数据序列化后特征方法,旨在解决相关技术中,数据本体过大,导致计算机设备的内存占比过大、运算速度降低以及网络传输过慢的技术问题。
为实现上述目的,本发明提供一种数据序列化后特征提取方法包括如下步骤:
获取原始数据,并将所述原始数据序列化为字符类数据;
统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;
获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。
优选地,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤之后,还包括如下步骤:
将所述数据组类数据序列化为二进制数据,以便于对外传输。
优选地,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤之后,还包括如下步骤:
根据所述字符的内存地址在所述数组类数据中检索获取该字符。
优选地,所述统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据的步骤,具体包括如下步骤:
统计分析各字符的权值,并依照所述权值的高低对所述字符进行排序;
将排序靠后的两个字符合并为新的字符,并将两个字符的权值相加作为所述新的字符的权值;
再次统计分析各字符的权值,并依照所述权值的高低对所述字符进行再次排序;
判断所述字符的个数是否唯一;
当所述字符的个数唯一时,对进行唯一的所述字符进行数据分层操作,并设置各所述字符的所述层数信息,以形成所述最优二叉树数据;
当所述字符的个数不唯一时,再次进入所述将所述权值靠后的两个字符合并为新的字符,并将两个原始字符的权值相加作为所述新的字符的权值的步骤。
优选地,所述对进行唯一的所述字符进行数据分层操作,并设置各所述字符的所述层数信息的步骤,具体包括如下步骤:
在所有所述在所述将排序靠后的两个字符合并为新的字符,并将两个字符的权值相加作为所述新的字符的权值的步骤中,获取所有所述字符之间的合并顺序与合并形式;
按照拆分顺序和拆分形式,以所述唯一的所述字符为起点进行依序拆分,并将拆分后的字符的层数信息置为N,其中,N为当前所述字符的拆分总数,所述拆分顺序与所述合并顺序相反,所述拆分形式与所述合并形式相对应。
优选地,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤,具体包括如下步骤:
在所述统计分析各字符的权值,并依照所述权值的高低对所述字符进行排序的步骤中;获取所有所述字符,以及该字符对应的所述层数信息;
依据所述层数信息的高低排序各所述字符进行排序,并给各个所述字符分配相应的内存地址,以形成所述数组类数据。
优选地,所述数组类数据为有序的链表数据结构。
为解决上述技术问题,本发明还提供一种数据序列化后特征提取系统,包括:存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现所述的数据序列化后特征提取方法的步骤。
为解决上述技术问题,本发明还提供计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据序列化后特征提取的步骤。
本发明提供的数据序列化后特征提取方法;获取原始数据,并将所述原始数据序列化为字符类数据;统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。
其中,统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据可以理解为数据的简化压缩;
获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据可以理解为对数据关键特征的提取,以便于计算机查询和运算。
本发明通过把数据序列化的方式,并原始数据构造成霍夫曼二叉树,同时把二叉树的叶子节点进行顺序连接,形成字符码映射表(数组类数据)的技术手段,达到了数据序列化过程中关键特征提取和数据压缩的目的,从而解决了计算机设备中数据本体过大,所造成的网络中传输速度过慢、占用容量大、运算和查询慢的技术问题。
附图说明
图1为本发明提供的数据序列化后特征提取方法的第一实施例的工作流程图;
图2为图1所示的步骤S20的工作流程图;
图3为图2所示的步骤S205的工作流程图;
图4为图1所示的步骤S30的工作流程图;
图5为本发明提供的端对端网络的数据传输方法的第二实施例的工作流程图;
图6为本发明提供的数据序列化后特征提取方法的第三实施例的工作流程图;
图7为本发明提供的数据序列化后特征提取系统的架构图;
图8为图2所示步骤S201中一种字符排序变化图;
图9为图3所示步骤S205中字符的一种分层操作的演化图;
图10为数组类数据的一种架构图;
图11为图4所示的步骤S30中字符、字符层数和内存地址的一种对应图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,为实现上述目的,本发明的第一实施例中,数据序列化后特征提取方法包括如下步骤:
S10,获取原始数据,并将所述原始数据序列化为字符类数据;
本实施例中,所述原始数据可以是图片数据、音频数据、视频数据等,所述原始数据也可以是二进制化的字节流数据。用户可以根据实际需求情况,将计算机设备中的原始数据序列化为字符类数据。所述字符类数据可以是多个字符组成的数据,例如,abcdef等字母组成的数据。
S20,统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;
本实施例中,所述二叉树数据是指数据分布结构成树杈形的数据,各字符数据的排序分布类似于树杈的形状,不妨定义,位于树杈顶端的为根节点,位于分叉端的为叶节点。
所述最优二叉树数据是指,该数据的分布中,将各个叶节点与根节点的路径长度,与叶节点对应的字符的权值,相乘,所的乘积的和值最小。
S30,获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。
数组类数据的数据结构中是一种经典的链表结构。它的构成方式就像一列火车,火车的每节车厢储存数据内容,车厢的底端标设有内存地址(指针地址),这样通过一节一节的数据,并有指针地址连接,就把所有数据都串联起来。
与最优二叉树数据相比,数组类数据相应的数据检索和获取,更快速和便捷,仅需通过内部地址,可以快速获取相应的数据。
本发明提供的数据序列化后特征提取方法;获取原始数据,并将所述原始数据序列化为字符类数据;统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。
其中,统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据可以理解为数据的简化压缩;
获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据可以理解为对数据关键特征的提取,以便于计算机查询和运算。
本发明通过把数据序列化的方式,并原始数据构造成霍夫曼二叉树,同时把二叉树的叶子节点进行顺序连接,形成字符码映射表(数组类数据)的技术手段,达到了数据序列化过程中关键特征提取和数据压缩的目的,从而解决了计算机设备中数据本体过大,所造成的网络中传输速度过慢、占用容量大、运算和查询慢的技术问题。
请参阅图2,所述步骤S20具体包括如下步骤:
S201,统计分析各字符的权值,并依照所述权值的高低对所述字符进行排序;
本实施例中,依照权值从高到低,对所述字符进行排序。
例如,请参阅图8,按照权值从高到低的顺序进行排序,顺序为a、d、b、c、e和f。
S202,将排序靠后的两个字符合并为新的字符,并将两个字符的权值相加作为所述新的字符的权值;
例如,请结合参阅图8-9,adbcef中,字符f和字符e的权值最靠后,将字符f和字符e合并为新的字符fe;
S203,再次统计分析各字符的权值,并依照所述权值的高低对所述字符进行再次排序;
例如,请结合参阅图8-9,按照权值从高到低的顺序进行排序,顺序为a、d、ef、b和c。
S204,判断所述字符的个数是否唯一;
S205,当所述字符的个数唯一时,对进行唯一的所述字符进行数据分层操作,并设置各所述字符的所述层数信息,以形成所述最优二叉树数据;
例如,如图9所示最右下角,形成的最优二叉树数据为,根节点为acbfed,下分的两个叶节点为a和cbfed,依次类推。
当所述字符的个数不唯一时,再次进入所述步骤S202。
本实施例中,不妨定义,最优二叉树数据是指,在所有可能形成的二叉树式的数据结构中,该二叉树数据是一种带权路径长度最短的二叉树。
不妨定义字符abcfde节点为根节点,其他的字符为叶节点;根节点的层数信息置为0,叶节点的层数信息与所述根节点层数信息之差为路径长度。
带权路径长度记为WPL;WPL=(W1*L1+W2*L2+W3*L3+...+Wn*Ln),其中,Wi(i=1,2,...n)为权值,Li(i=1,2,...n)为路径长度。
N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树,相应的叶结点的路径长度为Li(i=1,2,...n)。通过该公式运算比较,可以证明最优二叉树数据的WPL是最小的。
所述步骤S205具体包括如下步骤:
S2051,在所有所述步骤S202中,获取所有所述字符之间的合并顺序与合并形式;
S2052,按照拆分顺序和拆分形式,以所述唯一的所述字符为起点进行依序拆分,并将拆分后的字符的层数信息置为N,其中,N为当前所述字符的拆分总数,所述拆分顺序与所述合并顺序相反,所述拆分形式与所述合并形式相对应。
例如,通过图9可以获知,字符acbfed的层数信息为0;字符a、字符cbfed的层数信息为1;字符cb和字符fed的层数信息为3;字符c、字符b、字符d、字符fe的层数信息为3;字符f与字符e的层数信息为4。
所述步骤S30具体包括如下步骤:
S301,在所述步骤S201中获取所有所述字符,以及该字符对应的所述层数信息;
S302,依据所述层数信息的高低排序各所述字符进行排序,并给各个所述字符分配相应的内存地址,以形成所述数组类数据。
例如,请参阅图11,字符a的层数信息为1,对应的内存地址为0x15(c);字符c、字符b、字符d的层数信息为3,对应的内存地址分别为0x8h(b)、0x9e(d)0x34(f);字符f与字符e的层数信息为4;对应的内存地址分别为0x66(e)0x67(e)。
所述数组类数据为有序的链表数据结构。类似于图10所示。
在霍夫曼二叉树的基础上,把所有叶子节点按照分层顺序连接起来,就单独形成了一个顺序链表,并标记叶子节点所处的层数信息:
0x开头表示是内存地址。链表数据结构(映射表)的好处是:
加快了节点遍历的速度。例如要在二叉树中寻找d节点,在原赫夫曼二叉树中需要对比三次,在顺序字码映射表中只需一次即可。
二叉树用来存储数据的结构信息,通过不断的数据对比、添加来完成二叉树的构建,但是随着树的高度越来越高,使得节点的查找也变得越来越慢,在计算资源有限的情况下时间复杂度会越来越高。
数组的访问方式是根据数组下标(内存地址)直接访问,也就是无论数据是在数组的第一位还是最后一位,查找的时间相同,对CPU来说,只需计算一次即可找到数据,时间复杂度是O(1);
二叉树数据的查找方式是需要进行对树的遍历,目前分为前序、中序、后序三种遍历方式,无论哪种方式,在查找某个节点的时候都需要进行N次比较,N的数值取决于被比较的次数(左小右大),所以时间复杂度是O(N);
本发明提供的这种算法是巧妙的结合了两种数据结构的有点,利用二叉树类进行字符串出现频度的存储和表示。用数据来对叶子节点进行快速查找。
第二实施例
基于本发明的第一实施提供的数据序列化后特征提取方法100,本发明的第二实施例提供另一种数据序列化后的特征提取方法200,该方法的所述步骤S10~S30与第一实施例相同,在此不再一一赘述,其不同之处在于,还包括如下步骤:
S40,将所述数据组类数据序列化为二进制数据,以便于对外传输。
序列化为二进制数据的作用在于,在传递和保存对象的时候,保证对象的完整性和可传递性。
序列化可以额把对象转换成有序字节流,以便在网络上传输或者保存在本地文件中。
序列化后的字节流保存了java对象的状态以及相关的描述信息。序列化机制的核心作用就是对象状态的保存和重建。
当两个进程进行远程通信时,可以相互发送各种类型的数据,包括文本、图片、音频、视频等,而这些数据都会以二进制序列的形式在网络上传送。
本发明中序列化算法会按以下几个步骤进行:
将对象实例相关的类元数据输出。
递归地输出类的超类描述直到不再有超类。
类元数据完了以后,开始从最顶层的超类开始输出对象实例的实际数据值。从上至下递归输出实例的数据。
第三实施例
基于本发明的第一实施提供的数据序列化后特征提取方法100,本发明的第二实施例提供另一种数据序列化后的特征提取方法300,该方法的所述步骤S10~S30与第一实施例相同,在此不再一一赘述,其不同之处在于,还包括如下步骤:
S41,根据所述字符的内存地址在所述数组类数据中检索获取该字符。
本发明还提供一种数据序列化后特征提取系统。
数据序列化后特征提取系统,包括:存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现所述的数据序列化后特征提取方法的步骤。
该数据序列化后特征提取方法的具体步骤参照上述实施例,由于数据序列化后特征提取系统采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
本发明还提供一种计算机可读存储介质。
计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据序列化后特征提取的步骤。
该数据序列化后特征提取方法的具体步骤参照上述实施例,由于本计算机可读存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种数据序列化后特征提取方法,其特征在于,包括如下步骤:
获取原始数据,并将所述原始数据序列化为字符类数据;
统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;
获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。
2.如权利要求1所述的数据序列化后特征提取方法,其特征在于,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤之后,还包括如下步骤:
将所述数据组类数据序列化为二进制数据,以便于对外传输。
3.如权利要求1所述的数据序列化特征提取方法,其特征在于,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤之后,还包括如下步骤:
根据所述字符的内存地址在所述数组类数据中检索获取该字符。
4.如权利要求1所述的数据序列化特征提取方法,其特征在于,所述统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据的步骤,具体包括如下步骤:
统计分析各字符的权值,并依照所述权值的高低对所述字符进行排序;
将排序靠后的两个字符合并为新的字符,并将两个字符的权值相加作为所述新的字符的权值;
再次统计分析各字符的权值,并依照所述权值的高低对所述字符进行再次排序;
判断所述字符的个数是否唯一;
当所述字符的个数唯一时,对进行唯一的所述字符进行数据分层操作,并设置各所述字符的所述层数信息,以形成所述最优二叉树数据;
当所述字符的个数不唯一时,再次进入所述将所述权值靠后的两个字符合并为新的字符,并将两个原始字符的权值相加作为所述新的字符的权值的步骤。
5.如权利要求4所述的数据序列化后特征提取方法,其特征在于,所述对进行唯一的所述字符进行数据分层操作,并设置各所述字符的所述层数信息的步骤,具体包括如下步骤:
在所有所述在所述将排序靠后的两个字符合并为新的字符,并将两个字符的权值相加作为所述新的字符的权值的步骤中,获取所有所述字符之间的合并顺序与合并形式;
按照拆分顺序和拆分形式,以所述唯一的所述字符为起点进行依序拆分,并将拆分后的字符的层数信息置为N,其中,N为当前所述字符的拆分总数,所述拆分顺序与所述合并顺序相反,所述拆分形式与所述合并形式相对应。
6.如权利要求4或5所述的数据序列化后特征提取方法,其特征在于,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤,具体包括如下步骤:
在所述统计分析各字符的权值,并依照所述权值的高低对所述字符进行排序的步骤中;获取所有所述字符,以及该字符对应的所述层数信息;
依据所述层数信息的高低排序各所述字符进行排序,并给各个所述字符分配相应的内存地址,以形成所述数组类数据。
7.如权利要求6所述的数据序列化后特征提取方法,其特征在于,所述数组类数据为有序的链表数据结构。
8.一种数据序列化后特征提取系统,其特征在于,包括:存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据序列化后特征提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据序列化后特征提取的步骤。
CN202010646781.7A 2020-07-07 2020-07-07 数据序列化后特征提取方法、系统及计算机可读存储介质 Pending CN111913957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010646781.7A CN111913957A (zh) 2020-07-07 2020-07-07 数据序列化后特征提取方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010646781.7A CN111913957A (zh) 2020-07-07 2020-07-07 数据序列化后特征提取方法、系统及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111913957A true CN111913957A (zh) 2020-11-10

Family

ID=73227614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010646781.7A Pending CN111913957A (zh) 2020-07-07 2020-07-07 数据序列化后特征提取方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111913957A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047902A1 (en) * 2004-08-24 2006-03-02 Ron Passerini Processing storage-related I/O requests using binary tree data structures
CN107423397A (zh) * 2017-07-26 2017-12-01 北京时代民芯科技有限公司 一种面向多任务微系统的自适应压缩存储及解压提取方法
CN108628898A (zh) * 2017-03-21 2018-10-09 中国移动通信集团河北有限公司 数据入库的方法、装置和设备
CN109889205A (zh) * 2019-04-03 2019-06-14 杭州嘉楠耘智信息科技有限公司 编码方法及系统、解码方法及系统、编解码方法及系统
CN111124851A (zh) * 2019-11-15 2020-05-08 苏州浪潮智能科技有限公司 存储设备历史性能数据处理方法、系统、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047902A1 (en) * 2004-08-24 2006-03-02 Ron Passerini Processing storage-related I/O requests using binary tree data structures
CN108628898A (zh) * 2017-03-21 2018-10-09 中国移动通信集团河北有限公司 数据入库的方法、装置和设备
CN107423397A (zh) * 2017-07-26 2017-12-01 北京时代民芯科技有限公司 一种面向多任务微系统的自适应压缩存储及解压提取方法
CN109889205A (zh) * 2019-04-03 2019-06-14 杭州嘉楠耘智信息科技有限公司 编码方法及系统、解码方法及系统、编解码方法及系统
CN111124851A (zh) * 2019-11-15 2020-05-08 苏州浪潮智能科技有限公司 存储设备历史性能数据处理方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
US8156156B2 (en) Method of structuring and compressing labeled trees of arbitrary degree and shape
US7043686B1 (en) Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus
JP4653381B2 (ja) 構造化文書の圧縮/解凍方法
US8862759B2 (en) Multiplexing binary encoding to facilitate compression
US8120515B2 (en) Knowledge based encoding of data with multiplexing to facilitate compression
US8145667B2 (en) Schemaless XML payload generation
US7404186B2 (en) Signature serialization
CN114490853A (zh) 数据处理方法、装置、设备、存储介质及程序产品
EP1755050A1 (en) A data processing system and method of storing a dataset having a hierarchical data structure in a database
JP2003534752A (ja) マルチメディア環境における視聴覚データ内容を記述するための方法
Pibiri et al. Dynamic elias-fano representation
US20050138003A1 (en) System and method for database having relational node structure
JP2005094652A (ja) データ圧縮装置、データ復元装置およびデータ管理装置
CN102473175B (zh) Xml数据的压缩
US20100049727A1 (en) Compressing xml documents using statistical trees generated from those documents
KR100500245B1 (ko) 객체 지향 프로그램이 기록된 저장 매체
CN111913957A (zh) 数据序列化后特征提取方法、系统及计算机可读存储介质
US7953761B2 (en) System, method, and apparatus for retrieving structured document and apparatus for managing structured document
JPH10261969A (ja) データ圧縮方法および装置
CN114218515A (zh) 一种基于内容分割的Web数字对象提取方法及系统
US20080208876A1 (en) Method of and System for Providing Random Access to a Document
Jung et al. A dynamic construction algorithm for the Compact Patricia trie using the hierarchical structure
CN117235291B (zh) 基于静态索引表的全文检索方法及装置
CN113282776B (zh) 用于图形引擎资源文件压缩的数据处理系统
US20240088913A1 (en) Graph data compression method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination