CN115310409A - 一种数据编码的方法、系统、电子装置和存储介质 - Google Patents

一种数据编码的方法、系统、电子装置和存储介质 Download PDF

Info

Publication number
CN115310409A
CN115310409A CN202210784845.9A CN202210784845A CN115310409A CN 115310409 A CN115310409 A CN 115310409A CN 202210784845 A CN202210784845 A CN 202210784845A CN 115310409 A CN115310409 A CN 115310409A
Authority
CN
China
Prior art keywords
symbols
data
symbol
frequency
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210784845.9A
Other languages
English (en)
Inventor
冯驿
张朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Likelihood Data Co ltd
Original Assignee
Hangzhou Likelihood Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Likelihood Data Co ltd filed Critical Hangzhou Likelihood Data Co ltd
Priority to CN202210784845.9A priority Critical patent/CN115310409A/zh
Publication of CN115310409A publication Critical patent/CN115310409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请涉及一种数据编码的方法、系统、电子装置和存储介质,其中,该方法包括:获取待处理文本数据,对待处理文本数据中的符号根据出现频率的大小进行由高到低排序;根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在分割点前的符号为高频符号,其余为低频符号;根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。通过本申请,解决了对符号进行概率分布预测估计时,计算量大,内存消耗严重的问题,加快计算速度、降低内存消耗。

Description

一种数据编码的方法、系统、电子装置和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据编码的方法、系统、电子装置和存储介质。
背景技术
数据压缩时会使用编码器将位字符串分配给原始符号,使得原始符号串转换为位字符串。根据信息熵的定义,一个出现概率为p的符号的最佳编码长度为-log2p位。因此,需要使用模型或者预测器对原始符号概率分布进行预测估计,得到的预测结果将输入编码器进行数据编码转换。
通常情况下,给定前文,预测模型会根据给定的前文预测接下去一个或者几个符号的概率分布。
然而,在相关技术中利用预测模型算法计算概率分布时,若基于频率进行预测,对于利用长度为k的前文进行预测,假设其中包含的符号有d种,那么总共就需要统计dk+1种符号串。例如ASCII码,d=256,此时即使k值很小,都会有非常庞大的计算量和内存消耗。
目前针对相关技术中对符号进行概率分布预测估计时,计算量大,内存消耗严重的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据编码的方法、系统、电子装置和存储介质,以至少解决相关技术中对符号数据概率分布进行预测估计,计算量大,内存消耗严重的问题。
第一方面,本申请实施例提供了一种数据编码的方法,所述方法包括:
获取待处理文本数据,对所述待处理文本数据中的符号根据出现频率的大小进行由高到低排序;
根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在所述分割点前的符号为高频符号,其余为低频符号;
根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;
将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
在其中一些实施例中,根据自定义算法,对排序后的符号进行分割计算,得到分割点包括:
预设频率界限值,根据所述自定义算法计算得到分割点l,计算公式如下所示:
Figure BDA0003720290510000021
其中,所述分割点l满足排序后的前l种符号的累计出现频率不高于所述频率界限值的最大整数,n表示符号总频数,ni表示第i种符号的频数,cutoff为频率界限值。
在其中一些实施例中,根据分割得到符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值包括:
将当前符号的前ohigh个符号中出现的低频符号都统一替换为mix,并将替换后的文本数据作为第一预测器的输入,预测得到所有高频符号出现在下一个符号的第一概率分布值和下一个符号为mix的第二概率分布值;
将当前符号前olow个符号的文本数据作为第二预测器的输入,预测得到当前符号的概率分布值,并对所述概率分布值中的所有低频符号的概率分布值进行归一处理,得到所有低频符号出现在下一个符号的第三概率分布值,并根据第二概率分布值和第三概率分布值计算得到所有低频符号出现在下一个符号的最终预测概率分布值,其中,所述ohigh指用当前符号前ohigh个符号来预测当前符号,所述olow指用当前符号前olow个符号来预测当前符号。
在其中一些实施例中,所述第一预测器或所述第二预测器采用的预测模型包括:固定阶模型,可变阶模型,和上下文混合算法模型中的任意一种。
在其中一些实施例中,获取待处理文本数据包括:
获取名义分类数据、有序分类数据或连续数据,根据数据类型的不同分别采用不同的方法进行数据预测处理。
在其中一些实施例中,在获取名义分类数据的情况下,直接对名义分类数据进行排序分割,将数据划为高频和低频两类,进而进行预测处理;
在获取有序分类数据的情况下,按照名义分类数据的方式进行数据预测处理,或者在对数据进行排序分割得到高频和低频符号后,通过分组融合、逐步融合的方式进一步划分符号,根据划分后的符号类别进行预测处理;
在获取连续数据的情况下,若数据无损,则按照名义分类数据的方式进行数据预测处理,若数据允许有损,则将数据离散化为有序分类数据,再按照有序分类数据的方式进行数据预测处理。
在其中一些实施例中,所述通过分组融合、逐步融合的方式划分符号,根据划分后的符号类别进行预测处理包括:
将低频符号分为两两不相交的多组,每组分别用一个符号代替,实现分组融合,通过自定义算法计算得到下一个符号的概率分布值;
将低频符号不断细分为具有包含关系的组,即对所有符号进行多处分割点计算,逐步替换融合不同组中的符号,通过自定义算法计算得到下一个符号的概率分布值。
第二方面,本申请实施例提供了一种数据编码的系统,所述系统包括:
排序模块,用于获取待处理文本数据,对所述待处理文本数据中的符号根据出现频率的大小进行由高到低排序;
分割模块,用于根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在所述分割点前的符号为高频符号,其余为低频符号;
预测模块,用于根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;
编码模块,用于将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据编码的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据编码的方法。
相比于相关技术,本申请实施例提供的数据编码的方法,获取待处理文本数据,对待处理文本数据中的符号根据出现频率的大小进行由高到低排序;根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在分割点前的符号为高频符号,其余为低频符号;根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
本申请采用数据融合的方法,即将文本数据中的所有符号如字母、数字、标点等进行融合归类处理,有效减少了符号种类,降低了计算量,解决了相关技术中对符号进行概率分布预测估计时,计算量大,内存消耗严重的问题,加快计算速度、降低内存消耗。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据编码的方法的应用环境示意图;
图2是根据本申请实施例的数据编码的方法的流程图;
图3是根据本申请实施例的数据编码的系统的结构框图;
图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的数据编码的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的数据编码的方法的应用环境示意图,如图1所示。其中,终端11与服务器10通过网络进行通信。服务器10获取待处理文本数据,对待处理文本数据中的符号根据出现频率的大小进行由高到低排序;根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在分割点前的符号为高频符号,其余为低频符号;根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。其中,终端11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
需要说明的是,本申请实施例可但不限于应用于压缩文件的场景下。
本实施例提供了一种数据编码的方法,图2是根据本申请实施例的数据编码的方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取待处理文本数据,对待处理文本数据中的符号根据出现频率的大小进行由高到低排序。
本实施例中,获取待处理的文本数据,根据出现频率的大小对待处理的文本数据中出现的所有符号进行由高到低排序。
步骤S202,根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在分割点前的符号为高频符号,其余为低频符号。
优选的,本实施例中预设频率界限值,根据自定义算法对排序后的符号进行分割计算,得到分割点l,计算公式如下式(1)所示:
Figure BDA0003720290510000051
其中,分割点l满足排序后的前l种符号的累计出现频率不高于所述频率界限值的最大整数,n表示符号总频数,ni表示第i种符号的频数,cutoff为频率界限值。
需要说明的是,对排序后的符号,在分割点l前的符号为高频符号,其余符号则为低频符号。
步骤S203,根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值。
优先的,本实施例中,根据步骤S202分割得到的符号类别进行符号概率分布预测。具体地:
对于高频符号,将当前符号的前ohigh个符号中出现的低频符号都统一替换为mix,并将替换后的前文文本数据作为第一预测器P1的输入,预测得到所有高频符号出现在下一个符号的第一概率分布值phigh,j,1≤j≤l,其中j表示第j种高频符号,与此同时,也预测下一个符号为mix的第二概率分布值pesc
接着,将当前符号前olow个符号的文本数据作为第二预测器P2的输入,预测得到当前符号的概率分布值,并对该概率分布值中的所有低频符号的概率分布值进行归一处理,得到所有低频符号出现在下一个符号的第三概率分布值plow_short,i,1≤i≤m-l,其中i表示第i种低频符号,m表示符号种类总和,此时当前符号的前文中的低阶符号为原始符号,无需替换为mix;
最后根据第二概率分布值pesc和第三概率分布值plow_short,i计算得到所有低频符号出现在下一个符号的最终预测概率分布值plow,i,计算公式如下式(2)所示:
plow,i=pesc,i*plow_short,i,1≤i≤m-l (2)
其中,ohigh阶和olow阶可自定义设置,olow<ohigh,ohigh指用当前符号前ohigh个符号来预测当前符号,olow指用当前符号前olow个符号来预测当前符号。
需要说明的是,本实施例中使用的第一预测器P1或第二预测器P2采用的预测模型包括:固定阶模型,可变阶模型,或上下文混合算法模型中的任意一种,可以根据实际情况选取具体的预测模型,P1和P2可选取同一种预测器,也可以选取为不同的预测器。
步骤S204,将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
优选的,本实施例中将步骤S203中预测得到的所有符号的概率分布值phigh,j、plow,i输入到编码器中,对文本数据进行编码,最终输出得到对应的一串0-1字符串。需要说明的是,本实施例中并不需要对mix符号进行编码。
通过上述步骤S201至步骤S204,本实施例对文本数据进行频率排序分割,通过数据融合的思想将分割得到的低频符号统一用符号“mix”代替。对于高频符号,以一个高阶的mix替换后的前文数据作为条件进行预测,得到概率分布值;对于低频符号,则分两步,首先以一个高阶的mix替换后的前文作为条件对“mix”进行预测,接着以一个低阶的未mix替换的前文作为条件对原符号进行预测,得到的两个预测结果的乘积则为最终的概率分布值。通过上述方式进行概率预测计算可有效减少符号种类,降低计算量,解决相关技术中对符号进行概率分布预测估计时,计算量大,内存消耗严重的问题。
下面通过实施例一具体说明步骤S201至步骤S204的数据编码过程:
首先预设cutoff=0.9,ohigh=2,olow=1;
假设获取的文本包含A、B、C、D、E五种符号,其频率分别为32%、25%、30%、8%、5%,则该五种符号排序后的顺序应为A、C、B、D、E。
接着根据分割点l的计算公式可得l=3,由此可知,A、B、C是高频符号,D、E是低频符号;
然后,用“mix”统一替换D和E。以x表示原始文本,假设当前符号为xi,其前文中的2个符号分别为xi-1,xi-2,则替换后的文本数据可用下式(3)表示:
Figure BDA0003720290510000071
其中,y为替换后的文本数据。
根据上述分割后的符号类别,按照步骤S203的过程对当前符号xi进行预测处理,预测器为P1、P2,则预测得到当前符号xi为高频符号A、B、C,以及为低频符号D、E的概率分别为下式(4)-(8)所示:
Figure BDA0003720290510000072
Figure BDA0003720290510000073
Figure BDA0003720290510000074
Figure BDA0003720290510000075
Figure BDA0003720290510000076
对上述结果进行归类总结可知,一般情形下,当前符号为高频符号ihigh的概率为下式(9)所示:
Figure BDA0003720290510000077
当前符号为低频符号ilow的概率为下式(10)所示:
Figure BDA0003720290510000078
Figure BDA0003720290510000081
其中,converted ohighorder contexts表示替换后的文本,unconvertedoloworder context为未替换的文本。
最后,将上述得到的五个概率分布值输入到编码器中,对文本数据进行编码。其中,编码器可选取算术编码器、Huffman编码器、非对称二进制编码器等,本实施例不做具体限定。
本实施例中若选取频率对概率进行预测,原本需要统计的带有5种符号的三元对文本数据共计5^3=125种,而本申请实施例将低频符号进行融合归类处理后,符号种类从5种降到了4种,此时需要统计的三元对文本数据共计4^3=64种,二元对则只需要5*2=10种,两者合计74种。由此可知,数据融合后可减少组合数,故而能加快计算速度、降低内存消耗。
在其中一些实施例中,获取待处理文本数据包括:
获取名义分类数据、有序分类数据或连续数据,根据数据类型的不同分别会采用不同的方法进行数据预测处理。需要说明的是,名义分类数据是指符号间不存在顺序关系的数据,其符号类别总数有限;有序分类数据是指符号间存在顺序关系的数据,其符号类别总数有限;连续数据是指一定区间内可任意取值的数据,数值连续。
优选的,在获取的是名义分类数据的情况下,可直接按照上述步骤S201至步骤S203对名义分类数据进行预测处理;
在获取的是有序分类数据的情况下,可按照名义分类数据的方式进行数据预测处理,或者也可以在对有序分类数据进行排序分割得到高频和低频符号后,通过分组融合或逐步融合的方式进一步划分符号,并根据划分后的符号类别进行预测处理。例如,图像数据,假设一幅灰度图的像素值存在一个峰,经分析,像素值51-120为高频,那么可将像素值0-50和像素值121-255划分为两组低频,这种分组方式即为分组融合;
在获取的是连续数据的情况下,若需要数据无损,则按照名义分类数据的方式进行数据预测处理,若数据允许有损,则可将数据离散化为有序分类数据后,再按照有序分类数据的方式进行数据预测处理。
优选的,通过分组融合、逐步融合的方式划分符号,根据划分后的符号类别进行预测处理具体包括:
分组融合:将低频符号分为两两不相交的多组,每组分别用一个符号代替,实现分组融合,然后通过自定义算法计算得到下一个符号的概率分布值。例如,假设原始文本包含A、B、C、D、E、F六种符号,经分析后可知C、D、E、F是低频符号。现将低频符号中的C、D分为一组,E、F分为另一组,两组不相交,用mix1代替C、D,mix2代替E、F。选取ohigh=2,olow=1,预测器P1、P2,x表示原始文本,当前符号为xi,其前2个符号分别为xi-1,xi-2,则替换后的文本数据可用下式(11)-(13)表示:
Figure BDA0003720290510000091
Figure BDA0003720290510000092
Figure BDA0003720290510000093
其中,y为mix1和mix2均替换后的文本数据,z1为mix1未替换、mix2替换后的文本数据,z2为mix1替换、mix2未替换后的文本数据。
根据上述分割后的符号类别,按照步骤S203的过程对当前符号xi进行预测处理,则预测得到当前符号xi为高频符号A、B,以及为低频符号C、D、E、F的概率分别为下式(14)-(19)所示:
Figure BDA0003720290510000094
Figure BDA0003720290510000095
Figure BDA0003720290510000096
Figure BDA0003720290510000097
Figure BDA0003720290510000098
Figure BDA0003720290510000099
对上述结果进行归类总结可知,一般情形下,当前符号为高频符号ihigh的概率为下式(20)所示:
Figure BDA00037202905100000910
当前符号为低频符号ilow的概率为下式(21)所示:
Figure BDA0003720290510000101
其中,mixj表示替代低频符号ilow的符号,
Figure BDA0003720290510000102
表示olow阶的前文中除mixj所包含的低频符号外,其余低频符号均进行替换的文本数据,convertedohighorder contexts表示所有低频符号均替换后的文本。
逐步融合:将低频符号不断细分为具有包含关系的组,即对所有符号进行多处分割点计算,即选取cutoff1,寻找分割点l1,用mix1表示第l1种符号之后的符号;再选取cutoff2,cutoff2>cutoff1,寻找分割点l2,用mix2表示第l2种符号之后的符号,此时有
Figure BDA0003720290510000103
依次递推。逐步替换融合不同组中的符号,即会出现多种替换后的文本,但每种替换后的文本中只会出现一种替换符号,最后通过自定义算法计算得到下一个符号的概率分布值。例如,假设原始文本包含A、B、C、D、E、F六种符号,经分析后可知C、D、E、F是低频符号。用mix1代替C、D、E、F,mix2代替E、F。选取ohigh=3,omed=2,olow=1,其中,omed为介于ohigh与olow之间的中间阶数,预测器P1、P2、P3,x表示原始文本,当前符号为xi,其前3个符号分别为xi-1,xi-2,xi-3,则替换后的文本数据可用下式(22)-(23)表示:
Figure BDA0003720290510000104
Figure BDA0003720290510000105
其中,y为mix1替换、mix2未替换后的文本数据,z为mix1未替换、mix2替换后的文本数据。
根据上述分割后的符号类别,按照步骤S203的过程对当前符号xi进行预测处理,则预测得到当前符号xi为高频符号A、B,以及为低频符号C、D、E、F的概率分别为下式(24)-(31)所示:
Figure BDA0003720290510000106
Figure BDA0003720290510000107
Figure BDA0003720290510000111
Figure BDA0003720290510000112
Figure BDA0003720290510000113
Figure BDA0003720290510000114
对上述结果进行归类总结可知,一般情形下,当前符号为高频符号ihigh的概率为下式(30)所示:
Figure BDA0003720290510000115
当前符号为低频符号ilow的概率为下式(31)所示:
Figure BDA0003720290510000116
其中,
Figure BDA0003720290510000117
o1>o2>…>os,其中,o表示阶数,s表示mixs-1可表示低频符号ilow而mixs不可,mixj_converted表示用mixj替换其所包含的低频符号而其余符号不变,mixs_converted表示用mixs替换其所包含的低频符号而其余符号不变,若mixs不存在,则mixs_converted即为unconverted未替换。
以下通过三组文本数据对上述一种数据编码的方法进行实验分析,其中,模型选取了PPM(Prediction by Partial Match)模型。
三组文本数据如下:
数据一:
[1]"\n""\n""\n""\n""""""""""""""""""""""""""""""""""A""L""I""C""E"
[26]"'""S""""A""D""V""E""N""T""U""R""E""S""""I""N""""W""O""N""D""E""R""L""A"
[51]"N""D""\n""\n"""""""""""""""""""""""""""""""""""""""""""
[76]"""""""""""L""e""w""i""s""""C""a""r""r""o""l""l""\n""\n"""""""""""
[101]"""""""""""""""""""""T""H""E""""M""I""L""L""E""N""N""I""U""M"""
[126]"F""U""L""C""R""U""M""""E""D""I""T""I""O""N""""2"".""9""\n""\n""\n""\n""\n"""
[151]""""""""""""""""""""""""""""""""""""""""""""""""""
[176]"""""C""H""A""P""T""E""R""""I""\n""\n"""""""""""""""""""""""""
[omitted 148279entries]
数据二:
[1]"\t""A""S""""Y""O""U""""L""I""K""E""""I""T""\n""\n""\n""\t""D""R""A""M""A""T"
[26]"I""S""""P""E""R""S""O""N""A""E""\n""\n""\n""D""U""K""E""""S""E""N""I""O""R"
[51]"\t""l""i""v""i""n""g""""i""n""""b""a""n""i""s""h""m""e""n""t"".""\n""\n""D"
[76]"U""K""E""""F""R""E""D""E""R""I""C""K""\t""h""i""s""""b""r""o""t""h""e""r"
[101]",""""a""n""""u""s""u""r""p""e""r""""o""f""""h""i""s""""d""o""m""i""n"
[126]"i""o""n""s"".""\n""\n""\n""A""M""I""E""N""S""\t""|""\n""\t""|""""""l""o""r""d"
[151]"s""""a""t""t""e""n""d""i""n""g""""o""n""""t""h""e""""b""a""n""i""s""h"
[176]"e""d""""d""u""k""e"".""\n""J""A""Q""U""E""S""\t""|""\n""\n""\n""L""E""""B""E"
[omitted 124978entries]
数据三:
[1]12 13 13 12 14 13 13 13 15 13 13 12 13 12 12 11 12 12 12 8 7 7 7 22 2 2 2 2 2 2 2 2 2 2 2 4 8 8 8 8 9
[43]9 11 12 14 13 14 14 13 13 14 14 14 14 14 13 14 12 13 13 10 13 1212 12 13 12 9 9 12 12 11 11 12 13 11 12 13 14 12 14 12 13
[85]13 13 12 17 21 19 21 19 18 20 20 16 18 15 17 16 17 17 17 18 17 2016 18 18 16 16 16 16 17 16 17 18 19 18 19 12 12 12 13 11 13
[127]17 18 17 12 12 12 14 17 18 18 19 19 18 18 20 17 20 17 18 19 1516 19 16 19 17 19 20 19 17 18 19 18 18 18 16 12 12 11 10 10 11
[169]10 10 12 11 17 10 16 14 19 17 17 17 17 17 20 17 19 19 19 18 2019 19 17 20 19 20 20 20 19 19 18 20 19 18 3 18 19 17 17 17 20
[omitted 875entries]
通过本申请实施例提供的数据编码的方法对上述三组文本数据进行数据处理和概率预测,表1展示了数据融合前后概率预测分别所需的时间,其中,同一行的三组数据代表三次重复实验的结果。由表1实验结果可知,数据融合后概率预测所需时间相较于未融合时有明显加快。
表1:数据融合前后概率预测花费时间(cutoff=0.9)
Figure BDA0003720290510000131
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种数据编码的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的数据编码的系统的结构框图,如图4所示,该系统包括排序模块31、分割模块32、预测模块33和编码模块34:
排序模块31,用于获取待处理文本数据,对待处理文本数据中的符号根据出现频率的大小进行由高到低排序;分割模块32,用于根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在分割点前的符号为高频符号,其余为低频符号;预测模块33,用于根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;编码模块34,用于将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
通过上述系统,本实施例对文本数据进行频率排序分割,通过数据融合的思想将分割得到的低频符号统一用符号“mix”代替。对于高频符号,以一个高阶的mix替换后的前文数据作为条件进行预测,得到概率分布值;对于低频符号,则分两步,首先以一个高阶的mix替换后的前文作为条件对“mix”进行预测,接着以一个低阶的未mix替换的前文作为条件对原符号进行预测,得到的两个预测结果的乘积则为最终的概率分布值。通过上述方式进行概率预测计算可有效减少符号种类,降低计算量,解决相关技术中对符号进行概率分布预测估计时,计算量大,内存消耗严重的问题。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的数据编码的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种数据编码的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据编码的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种数据编码的方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据编码的方法,其特征在于,所述方法包括:
获取待处理文本数据,对所述待处理文本数据中的符号根据出现频率的大小进行由高到低排序;
根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在所述分割点前的符号为高频符号,其余为低频符号;
根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;
将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
2.根据权利要求1所述的方法,其特征在于,根据自定义算法,对排序后的符号进行分割计算,得到分割点包括:
预设频率界限值,根据所述自定义算法计算得到分割点l,计算公式如下所示:
Figure FDA0003720290500000011
其中,所述分割点l满足排序后的前l种符号的累计出现频率不高于所述频率界限值的最大整数,n表示符号总频数,ni表示第i种符号的频数,cutoff为频率界限值。
3.根据权利要求1所述的方法,其特征在于,根据分割得到的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值包括:
将当前符号的前ohigh个符号中出现的低频符号都统一替换为mix,并将替换后的文本数据作为第一预测器的输入,预测得到所有高频符号出现在下一个符号的第一概率分布值和下一个符号为mix的第二概率分布值;
将当前符号前olow个符号的文本数据作为第二预测器的输入,预测得到当前符号的概率分布值,并对所述概率分布值中的所有低频符号的概率分布值进行归一处理,得到所有低频符号出现在下一个符号的第三概率分布值,并根据第二概率分布值和第三概率分布值计算得到所有低频符号出现在下一个符号的最终预测概率分布值,其中,所述ohigh指用当前符号前ohigh个符号来预测当前符号,所述olow指用当前符号前olow个符号来预测当前符号。
4.根据权利要求3所述的方法,其特征在于,
所述第一预测器或所述第二预测器采用的预测模型包括:固定阶模型,可变阶模型,和上下文混合算法模型中的任意一种。
5.根据权利要求1-4任一项所述的方法,其特征在于,获取待处理文本数据包括:
获取名义分类数据、有序分类数据或连续数据,根据数据类型的不同分别采用不同的方法进行数据预测处理。
6.根据权利要求5所述的方法,其特征在于,
在获取名义分类数据的情况下,直接对名义分类数据进行排序分割,将数据划为高频和低频两类,进而进行预测处理;
在获取有序分类数据的情况下,按照名义分类数据的方式进行数据预测处理,或者在对数据进行排序分割得到高频和低频符号后,通过分组融合、逐步融合的方式进一步划分符号,根据划分后的符号类别进行预测处理;
在获取连续数据的情况下,若数据无损,则按照名义分类数据的方式进行数据预测处理,若是数据允许有损,则将数据离散化为有序分类数据,再按照有序分类数据的方式进行数据预测处理。
7.根据权利要求6所述的方法,其特征在于,所述通过分组融合、逐步融合的方式划分符号,根据划分后的符号类别进行预测处理包括:
将低频符号分为两两不相交的多组,每组分别用一个符号代替,实现分组融合,通过自定义算法计算得到下一个符号的概率分布值;
将低频符号不断细分为具有包含关系的组,即对所有符号进行多处分割点计算,逐步替换融合不同组中的符号,通过自定义算法计算得到下一个符号的概率分布值。
8.一种数据编码的系统,其特征在于,所述系统包括:
排序模块,用于获取待处理文本数据,对所述待处理文本数据中的符号根据出现频率的大小进行由高到低排序;
分割模块,用于根据自定义算法,对排序后的符号进行分割计算,得到分割点,其中,在所述分割点前的符号为高频符号,其余为低频符号;
预测模块,用于根据分割后的符号类别,通过预测器进行预测,预测得到下一个符号的概率分布值;
编码模块,用于将得到的下一个符号的概率分布值输入到编码器中,对文本数据进行编码,输出得到对应的字符串。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的数据编码的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的数据编码的方法。
CN202210784845.9A 2022-06-29 2022-06-29 一种数据编码的方法、系统、电子装置和存储介质 Pending CN115310409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210784845.9A CN115310409A (zh) 2022-06-29 2022-06-29 一种数据编码的方法、系统、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210784845.9A CN115310409A (zh) 2022-06-29 2022-06-29 一种数据编码的方法、系统、电子装置和存储介质

Publications (1)

Publication Number Publication Date
CN115310409A true CN115310409A (zh) 2022-11-08

Family

ID=83855855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210784845.9A Pending CN115310409A (zh) 2022-06-29 2022-06-29 一种数据编码的方法、系统、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN115310409A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040233992A1 (en) * 2001-09-14 2004-11-25 Gero Base Method for producing video coding and programme-product
CN101095284A (zh) * 2004-12-28 2007-12-26 卡西欧电子工业株式会社 用于有选择地压缩和解压缩的设备与数据方法以及压缩数据的数据格式
US20090256729A1 (en) * 2008-04-10 2009-10-15 Red Hat, Inc. Difference coding adaptive context model using counting
CN106157960A (zh) * 2015-04-14 2016-11-23 杜比实验室特许公司 音频内容的自适应算术编解码
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN111783695A (zh) * 2020-07-06 2020-10-16 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN112417859A (zh) * 2020-11-24 2021-02-26 北京明略昭辉科技有限公司 意图识别方法、系统、计算机设备及计算机可读存储介质
CN112818110A (zh) * 2020-12-31 2021-05-18 鹏城实验室 文本过滤方法、设备及计算机存储介质
CN113743415A (zh) * 2021-08-05 2021-12-03 杭州远传新业科技有限公司 一种图像文本识别纠错的方法、系统、电子装置和介质
CN113810693A (zh) * 2021-09-01 2021-12-17 上海交通大学 一种jpeg图像无损压缩和解压缩方法、系统与装置
CN114048711A (zh) * 2021-11-16 2022-02-15 深圳市领存技术有限公司 文本压缩、解压方法、装置、计算机设备和存储介质
CN114048710A (zh) * 2021-11-16 2022-02-15 深圳市领存技术有限公司 文本压缩、解压方法、装置、计算机设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040233992A1 (en) * 2001-09-14 2004-11-25 Gero Base Method for producing video coding and programme-product
CN101095284A (zh) * 2004-12-28 2007-12-26 卡西欧电子工业株式会社 用于有选择地压缩和解压缩的设备与数据方法以及压缩数据的数据格式
US20090256729A1 (en) * 2008-04-10 2009-10-15 Red Hat, Inc. Difference coding adaptive context model using counting
CN106157960A (zh) * 2015-04-14 2016-11-23 杜比实验室特许公司 音频内容的自适应算术编解码
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN111783695A (zh) * 2020-07-06 2020-10-16 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN112417859A (zh) * 2020-11-24 2021-02-26 北京明略昭辉科技有限公司 意图识别方法、系统、计算机设备及计算机可读存储介质
CN112818110A (zh) * 2020-12-31 2021-05-18 鹏城实验室 文本过滤方法、设备及计算机存储介质
CN113743415A (zh) * 2021-08-05 2021-12-03 杭州远传新业科技有限公司 一种图像文本识别纠错的方法、系统、电子装置和介质
CN113810693A (zh) * 2021-09-01 2021-12-17 上海交通大学 一种jpeg图像无损压缩和解压缩方法、系统与装置
CN114048711A (zh) * 2021-11-16 2022-02-15 深圳市领存技术有限公司 文本压缩、解压方法、装置、计算机设备和存储介质
CN114048710A (zh) * 2021-11-16 2022-02-15 深圳市领存技术有限公司 文本压缩、解压方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
US20070233477A1 (en) Lossless Data Compression Using Adaptive Context Modeling
US9064067B2 (en) Quantum gate optimizations
CN106549673B (zh) 一种数据压缩方法及装置
US11722148B2 (en) Systems and methods of data compression
CN112506879A (zh) 数据处理方法及相关设备
CN112506880B (zh) 数据处理方法及相关设备
JP2022532432A (ja) データ圧縮方法およびコンピューティングデバイス
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN110059129A (zh) 数据存储方法、装置及电子设备
CN116018647A (zh) 通过基于可配置机器学习的算术编码进行的基因组信息压缩
Coutinho et al. Text classification using compression-based dissimilarity measures
CN111737406A (zh) 文本检索方法、装置及设备、文本检索模型的训练方法
CN113630125A (zh) 数据压缩、编码解压缩方法、装置、电子设备及存储介质
Tabus et al. Classification and feature gene selection using the normalized maximum likelihood model for discrete regression
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN115310409A (zh) 一种数据编码的方法、系统、电子装置和存储介质
CN107220702B (zh) 一种低计算能力处理设备的计算机视觉处理方法及装置
Ascia et al. Improving inference latency and energy of network-on-chip based convolutional neural networks through weights compression
Kim et al. Low-overhead compressibility prediction for high-performance lossless data compression
CN114398484A (zh) 一种舆情分析方法、装置、设备及存储介质
CN110062237B (zh) 视频编码的帧内编码模式选择方法和装置
CN111914987A (zh) 基于神经网络的数据处理方法及装置、设备和可读介质
Saada et al. DNA sequences compression algorithm based on extended-ASCII representation
CN114640357B (zh) 数据编码方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination