CN109412604A - 一种基于语言模型的数据压缩方法 - Google Patents
一种基于语言模型的数据压缩方法 Download PDFInfo
- Publication number
- CN109412604A CN109412604A CN201811479097.3A CN201811479097A CN109412604A CN 109412604 A CN109412604 A CN 109412604A CN 201811479097 A CN201811479097 A CN 201811479097A CN 109412604 A CN109412604 A CN 109412604A
- Authority
- CN
- China
- Prior art keywords
- word
- distribution probability
- compression
- language model
- compress
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开的基于语言模型的数据压缩方法,涉及数据压缩技术领域,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。
Description
技术领域
本发明属于数据压缩技术领域,具体涉及一种基于语言模型的数据压缩方法。
背景技术
随着信息技术的飞速发展,为了方便数据的传输及使用,需要用到对一些占用存储空间较大的数据进行压缩。
现有的数据压缩方法一般采用仅基于数据的比特位对数据进行压缩,压缩后的数据与原始数据相比,所减少的存储空间并不多,压缩效果并不理想。
发明内容
为解决现有技术的不足,本发明实施例提供了一种基于语言模型的数据压缩方法,该方法包括:
Step1、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率;
Step2、重复上述步骤Step1,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表;
Step3、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号;
Step4、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码;
Step5、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩;
Step6、重复上述步骤Step3-Step5,直至所有需要压缩的词压缩完毕。
进一步地,判断当前需要压缩的词是否在预设的词表中包括:
若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;
利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。
本发明实施例提供的基于语言模型的数据压缩方法具有以下有益效果:
利用语言模型、哈夫曼编码树及基于文档频率特征的压缩算法,能够有效地减少数据所占用的存储空间,提高了数据压缩的效果。
附图说明
图1是本发明实施例公开的一种基于语言模型的数据压缩方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的基于语言模型的数据压缩方法,包括以下步骤:
S101、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率。
S102、重复上述步骤S101,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表。
S103、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号。
S104、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码。
S105、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩。
S106、重复上述步骤S103-S105,直至所有需要压缩的词压缩完毕。
可选地,判断当前需要压缩的词是否在预设的词表中包括:
若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;
利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。
本发明实施例提供的基于语言模型的数据压缩方法,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (2)
1.一种基于语言模型的数据压缩方法,其特征在于,包括:
Step1、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率;
Step2、重复上述步骤Step1,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表;
Step3、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号;
Step4、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码;
Step5、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩;
Step6、重复上述步骤Step3-Step5,直至所有需要压缩的词压缩完毕。
2.根据权利要求1所述的基于语言模型的数据压缩方法,其特征在于,判断当前需要压缩的词是否在预设的词表中包括:
若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;
利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811479097.3A CN109412604A (zh) | 2018-12-05 | 2018-12-05 | 一种基于语言模型的数据压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811479097.3A CN109412604A (zh) | 2018-12-05 | 2018-12-05 | 一种基于语言模型的数据压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109412604A true CN109412604A (zh) | 2019-03-01 |
Family
ID=65457299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811479097.3A Pending CN109412604A (zh) | 2018-12-05 | 2018-12-05 | 一种基于语言模型的数据压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109412604A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112437060A (zh) * | 2020-11-11 | 2021-03-02 | 平安普惠企业管理有限公司 | 一种数据传输方法、装置、计算机设备及存储介质 |
CN112667633A (zh) * | 2020-12-28 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种基于统计概率的数据压缩方法及系统 |
CN113676187A (zh) * | 2021-08-11 | 2021-11-19 | 山东云海国创云计算装备产业创新中心有限公司 | 一种哈夫曼修正编码方法、系统及相关组件 |
CN113746487A (zh) * | 2021-08-25 | 2021-12-03 | 山东云海国创云计算装备产业创新中心有限公司 | 一种数据压缩方法、装置及电子设备和存储介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1279537A (zh) * | 1999-07-02 | 2001-01-10 | 英业达集团(西安)电子技术有限公司 | 一种适用于宽字符集文档的压缩方法 |
TW527784B (en) * | 2000-12-18 | 2003-04-11 | Inventec Besta Co Ltd | Method for compressing statistical data characteristics |
CN1737791A (zh) * | 2005-09-08 | 2006-02-22 | 无敌科技(西安)有限公司 | 一种对数据进行有限穷举优化的压缩方法 |
CN1786939A (zh) * | 2005-11-10 | 2006-06-14 | 浙江中控技术有限公司 | 实时数据压缩方法 |
CN101282121A (zh) * | 2007-04-05 | 2008-10-08 | 安凯(广州)软件技术有限公司 | 一种基于条件概率的哈夫曼解码的方法 |
CN101350624A (zh) * | 2008-09-11 | 2009-01-21 | 中国科学院计算技术研究所 | 一种支持ansi编码的中文文本的压缩方法 |
CN101520771A (zh) * | 2009-03-27 | 2009-09-02 | 广东国笔科技股份有限公司 | 一种对词库压缩编码及解码的方法和系统 |
CN101534124A (zh) * | 2008-12-16 | 2009-09-16 | 北京航空航天大学 | 一种用于短小自然语言的压缩算法 |
CN102122960A (zh) * | 2011-01-18 | 2011-07-13 | 西安理工大学 | 一种针对二进制数据的多字符组合无损数据压缩方法 |
CN102164019A (zh) * | 2010-12-31 | 2011-08-24 | 华为技术有限公司 | 信道状态信息压缩的方法及装置 |
US20120203540A1 (en) * | 2011-02-08 | 2012-08-09 | Microsoft Corporation | Language segmentation of multilingual texts |
CN103178968A (zh) * | 2013-04-09 | 2013-06-26 | 北京工业大学 | 基于哈夫曼压缩的数据传输门限方案的加密方法 |
CN103326732A (zh) * | 2013-05-10 | 2013-09-25 | 华为技术有限公司 | 压缩数据的方法、解压数据的方法、编码器和解码器 |
CN103701470A (zh) * | 2013-12-27 | 2014-04-02 | 上海新浩艺软件有限公司 | 一种流智能预测差异压缩算法及相应的控制装置 |
CN104054316A (zh) * | 2011-11-15 | 2014-09-17 | 思杰系统有限公司 | 用于通过网络中的字典压缩短文本的系统和方法 |
CN105052041A (zh) * | 2013-03-22 | 2015-11-11 | 富士通株式会社 | 压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信息处理系统 |
CN106067824A (zh) * | 2016-06-02 | 2016-11-02 | 洛阳晶云信息科技有限公司 | 一种基于二联密码子的测序数据压缩方法 |
CN107332567A (zh) * | 2017-06-09 | 2017-11-07 | 西安万像电子科技有限公司 | 编码方法和装置 |
CN108829930A (zh) * | 2018-05-10 | 2018-11-16 | 广东省智能制造研究所 | 三维数字化工艺设计mbd模型的轻量化方法 |
-
2018
- 2018-12-05 CN CN201811479097.3A patent/CN109412604A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1279537A (zh) * | 1999-07-02 | 2001-01-10 | 英业达集团(西安)电子技术有限公司 | 一种适用于宽字符集文档的压缩方法 |
TW527784B (en) * | 2000-12-18 | 2003-04-11 | Inventec Besta Co Ltd | Method for compressing statistical data characteristics |
CN1737791A (zh) * | 2005-09-08 | 2006-02-22 | 无敌科技(西安)有限公司 | 一种对数据进行有限穷举优化的压缩方法 |
CN1786939A (zh) * | 2005-11-10 | 2006-06-14 | 浙江中控技术有限公司 | 实时数据压缩方法 |
CN101282121A (zh) * | 2007-04-05 | 2008-10-08 | 安凯(广州)软件技术有限公司 | 一种基于条件概率的哈夫曼解码的方法 |
CN101350624A (zh) * | 2008-09-11 | 2009-01-21 | 中国科学院计算技术研究所 | 一种支持ansi编码的中文文本的压缩方法 |
CN101534124A (zh) * | 2008-12-16 | 2009-09-16 | 北京航空航天大学 | 一种用于短小自然语言的压缩算法 |
CN101520771A (zh) * | 2009-03-27 | 2009-09-02 | 广东国笔科技股份有限公司 | 一种对词库压缩编码及解码的方法和系统 |
CN102164019A (zh) * | 2010-12-31 | 2011-08-24 | 华为技术有限公司 | 信道状态信息压缩的方法及装置 |
CN102122960A (zh) * | 2011-01-18 | 2011-07-13 | 西安理工大学 | 一种针对二进制数据的多字符组合无损数据压缩方法 |
US20120203540A1 (en) * | 2011-02-08 | 2012-08-09 | Microsoft Corporation | Language segmentation of multilingual texts |
CN104054316A (zh) * | 2011-11-15 | 2014-09-17 | 思杰系统有限公司 | 用于通过网络中的字典压缩短文本的系统和方法 |
CN105052041A (zh) * | 2013-03-22 | 2015-11-11 | 富士通株式会社 | 压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信息处理系统 |
CN103178968A (zh) * | 2013-04-09 | 2013-06-26 | 北京工业大学 | 基于哈夫曼压缩的数据传输门限方案的加密方法 |
CN103326732A (zh) * | 2013-05-10 | 2013-09-25 | 华为技术有限公司 | 压缩数据的方法、解压数据的方法、编码器和解码器 |
CN103701470A (zh) * | 2013-12-27 | 2014-04-02 | 上海新浩艺软件有限公司 | 一种流智能预测差异压缩算法及相应的控制装置 |
CN106067824A (zh) * | 2016-06-02 | 2016-11-02 | 洛阳晶云信息科技有限公司 | 一种基于二联密码子的测序数据压缩方法 |
CN107332567A (zh) * | 2017-06-09 | 2017-11-07 | 西安万像电子科技有限公司 | 编码方法和装置 |
CN108829930A (zh) * | 2018-05-10 | 2018-11-16 | 广东省智能制造研究所 | 三维数字化工艺设计mbd模型的轻量化方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112437060A (zh) * | 2020-11-11 | 2021-03-02 | 平安普惠企业管理有限公司 | 一种数据传输方法、装置、计算机设备及存储介质 |
CN112437060B (zh) * | 2020-11-11 | 2022-11-18 | 平安普惠企业管理有限公司 | 一种数据传输方法、装置、计算机设备及存储介质 |
CN112667633A (zh) * | 2020-12-28 | 2021-04-16 | 山东鲁能软件技术有限公司 | 一种基于统计概率的数据压缩方法及系统 |
CN113676187A (zh) * | 2021-08-11 | 2021-11-19 | 山东云海国创云计算装备产业创新中心有限公司 | 一种哈夫曼修正编码方法、系统及相关组件 |
CN113746487A (zh) * | 2021-08-25 | 2021-12-03 | 山东云海国创云计算装备产业创新中心有限公司 | 一种数据压缩方法、装置及电子设备和存储介质 |
CN113746487B (zh) * | 2021-08-25 | 2023-11-03 | 山东云海国创云计算装备产业创新中心有限公司 | 一种数据压缩方法、装置及电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109412604A (zh) | 一种基于语言模型的数据压缩方法 | |
KR102376117B1 (ko) | 병렬 결정 트리 프로세서 아키텍처 | |
Schöbel | Generalized light robustness and the trade-off between robustness and nominal quality | |
CN104008064B (zh) | 用于多级存储器压缩的方法和系统 | |
CN109658238A (zh) | 数据处理方法及装置 | |
US20120203985A1 (en) | Data Structure For Tiling And Packetizing A Sparse Matrix | |
CN107679700A (zh) | 业务流程处理方法、装置及服务器 | |
CN111198868A (zh) | 一种智能分库实时数据迁移方法和装置 | |
CN110333951A (zh) | 一种商品抢购请求分配方法 | |
CN107578338A (zh) | 一种业务发布方法、装置及设备 | |
CN109194483A (zh) | 基于区块链的数据校验方法 | |
CN105528183A (zh) | 一种存储数据的方法及存储设备 | |
US10756758B1 (en) | Length-limited huffman encoding | |
CN109597678A (zh) | 任务处理方法及装置 | |
CN114332353A (zh) | 一种三维模型匹配方法、装置及电子设备和存储介质 | |
US11893691B2 (en) | Point cloud geometry upsampling | |
CN109808593A (zh) | 一种汽车发动机声浪模拟方法及系统 | |
CN113327119A (zh) | 虚拟物料编码方法、系统、电子设备及存储介质 | |
JP7047110B2 (ja) | コンテンツ非依存のファイルインデックス化の方法及びシステム | |
CN110120819A (zh) | 一种布尔电路编码方法、装置及系统 | |
CN109086362A (zh) | 多模块项目的管理方法 | |
Zitzler et al. | Multidimensional exploration of software implementations for DSP algorithms | |
Palkovic et al. | Systematic preprocessing of data dependent constructs for embedded systems | |
CN109325127A (zh) | 一种风险识别方法和装置 | |
CN110245090A (zh) | 一种接口测试方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |