CN118349528A - 一种基于文件属性自适应压缩方法、系统和存储介质 - Google Patents

一种基于文件属性自适应压缩方法、系统和存储介质 Download PDF

Info

Publication number
CN118349528A
CN118349528A CN202410775156.0A CN202410775156A CN118349528A CN 118349528 A CN118349528 A CN 118349528A CN 202410775156 A CN202410775156 A CN 202410775156A CN 118349528 A CN118349528 A CN 118349528A
Authority
CN
China
Prior art keywords
file
model
text
neural network
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410775156.0A
Other languages
English (en)
Other versions
CN118349528B (zh
Inventor
郑思佳
何佳
吴浩
金奕
王庆
陈柳
刘美意
裘宏庆
陈晗
王伟
吕含誉
傅天奕
吕晓俊
陈冰
陈强
曹文彦
杨新益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Zhedian Tendering Consulting Co ltd
Materials Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Zhedian Tendering Consulting Co ltd
Materials Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Zhedian Tendering Consulting Co ltd, Materials Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Zhedian Tendering Consulting Co ltd
Publication of CN118349528A publication Critical patent/CN118349528A/zh
Application granted granted Critical
Publication of CN118349528B publication Critical patent/CN118349528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本说明书一个或多个实施例涉及压缩算法技术领域,具体涉及一种基于文件属性自适应压缩方法、系统和存储介质,方法包括步骤:加载预先配置的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征;基于预先建立的与所述文件类型对应的算法选择模型对所述文件特征的响应,选择对应的压缩算法压缩所述待压缩文件,并关联压缩算法标识。本说明书一个或多个实施例的有益技术效果包括:通过特征提取模型和算法选择模型,提取待压缩文件的内容特征,实现对压缩算法的选择,有助于提高不同文件类型的压缩率。

Description

一种基于文件属性自适应压缩方法、系统和存储介质
技术领域
本说明书一个或多个实施例涉及压缩算法技术领域,具体涉及一种基于文件属性自适应压缩方法、系统和存储介质。
背景技术
压缩算法(compaction algorithm)是指数据压缩的算法,在电子与通信领域也常被称为信号编码,包括压缩和还原(或解码和编码)两个步骤。由于多媒体信号的数据量巨大,所以需要压缩;同时,由于在多媒体数据中,存在着各种冗余,所以可以压缩。压缩算法包括无损压缩和有损压缩。其中,无损压缩能够无失真地从压缩后的数据重构,准确地还原原始数据。可用于对数据的准确性要求严格的场合,如可执行文件和普通文件的压缩、磁盘的压缩,也可用于多媒体数据的压缩。该方法的压缩比较小。如差分编码、RLE、Huffman编码、LZW编码、算术编码。有损压缩具有失真,不能完全准确地恢复原始数据,重构的数据只是原始数据的一个近似。可用于对数据的准确性要求不高的场合,如多媒体数据的压缩。该方法的压缩比较大。例如预测编码、音感编码、分形压缩、小波压缩、JPEG/MPEG。压缩算法有多种算法途径,对于不同的文档类型,不同的压缩算法有不同的压缩效果和压缩效率。而且,对于一个文档类型,不同的具体文档,所适合的压缩算法也是不同的。但目前缺乏能够基于具体的文档类型及文档特点,选择合适压缩算法的方案。
发明内容
本说明书一个或多个实施例描述了一种基于文件属性自适应压缩方法、系统和存储介质,提升了不同类型文件的压缩率,有助于降低文件存储占用空间。
第一方面,本说明书实施例提供了一种基于文件属性自适应压缩方法,包括步骤:
加载预先配置的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;
将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征;
基于预先建立的与所述文件类型对应的算法选择模型对所述文件特征的响应,选择对应的压缩算法压缩所述待压缩文件,并关联压缩算法标识。
第二方面,本说明书实施例提供了一种基于文件属性自适应压缩系统,包括:
记录组件,用于加载预先配置的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;
特征组件,用于将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征;
压缩组件,用于基于预先建立的与所述文件类型对应的算法选择模型对所述文件特征的响应,选择对应的压缩算法压缩所述待压缩文件,并关联压缩算法标识。第三方面,本说明书实施例提供了一种电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如前述的基于文件属性自适应压缩方法。
第四方面,本说明书实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于文件属性自适应压缩方法。
本说明书一个或多个实施例的有益技术效果包括:通过特征提取模型和算法选择模型,实现对压缩算法的选择,有助于提高不同文件类型的压缩率;借助特征提取模型提取待压缩文件的内容特征,借助算法选择模型基于内容特征的选择,有助于选择更加合适的压缩算法,进一步提升文件的压缩率;借助文本文件向量化,实现文本文件标签生成的自动化,同时能够提取出文本文件的内容特征,提高了特征提取模型的训练效率。
本说明书一个或多个实施例的其他特点和优点将会在下面的具体实施方式、附图中详细的揭露。
附图说明
下面结合附图对本说明书做进一步的说明:
图1为本说明书实施例自适应压缩方法应用场景全景图。
图2为本说明书实施例自适应压缩方法流程示意图。
图3为本说明书实施例算法选择示意图。
图4为本说明书实施例为文本文件训练特征提取模型方法流程图。
图5为本说明书实施例为文本文件训练特征提取模型示意图。
图6为本说明书实施例为音频文件训练特征提取模型方法流程图。
图7为本说明书实施例为音频文件训练特征提取模型示意图。
图8为本说明书实施例样本音频文件识别文本示意图。
图9为本说明书实施例为视频文件训练特征提取模型方法流程图。
图10为本说明书实施例为视频文件训练特征提取模型示意图。
图11为本说明书实施例训练算法选择模型方法流程图。
图12为本说明书实施例自适应压缩系统结构示意图。
图13为本说明书实施例特征组件结构示意图。
图14为本说明书实施例电子设备结构示意图。
其中:11、待压缩文件,12、压缩文件,13、文本向量,14、识别文本,121、压缩算法标识,21、记录组件,31、特征组件,32、特征提取模型,33、算法选择模型,41、压缩组件,311、文本模型子组件,312、音频模型子组件,313、算法选择子组件,314、视频模型子组件,321、第一神经网络模型,322、第二神经网络模型,323、第三神经网络模型,50、电子设备,51、处理器,52、通信总线,53、用户接口,54、网络接口,55、存储器,111、文本文件,1111、文本特征,112、音频文件,1121、音频特征,113、图像轨,1131、图像流特征,114、音轨,1141、音轨特征,1151、视频特征。
具体实施方式
下面结合本说明书实施例的附图对本说明书实施例的技术方案进行解释和说明,但下述实施例仅为本说明书的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本说明书的保护范围。
在下文描述中,出现诸如术语“内”、“外”、“上”、“下”、“左”、“右”等指示方位或者位置关系仅是为了方便描述实施例和简化描述,而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本说明书的限制。
名词解释:
压缩算法
本说明书所指压缩算法是一种用于重新编码文件或数据的算法。执行压缩算法后的压缩文件12与原文件的大小关系,不影响本说明书中压缩算法概念的认定,也不影响本说明书取得预期的有益技术效果。即执行压缩算法后,压缩文件12小于或等于原文件的大小,属于本说明书所指压缩算法。示例性的,压缩算法有Huffman编码,通过对出现频率较高的字符或符号进行较短的编码,来减小数据的存储空间。Lempel-Ziv-Welch算法,一种无损压缩算法,通过建立字典来替代重复出现的序列,从而减小数据的大小。Deflate压缩算法,结合了LZ77和 Huffman编码的算法,常用于ZIP文件压缩。Run-LengthEncoding算法,一种简单的无损压缩算法,通过计数连续重复出现的数据来减小数据大小。Burrows-WheelerTransform算法,通过重新排列字符序列,使得重复出现的字符相邻,然后使用其他压缩算法进一步压缩数据。LZ77算法通过引用之前出现过的相同字符串来减小数据的大小。
文件类型
本说明书涉及的文件类型包括二进制文件、文本文件111、图片文件、音频文件112和视频文件。示例性的,二进制文件包括数据文件、可执行程序文件、脚本文件、加密后的密文文件等。
介绍本说明书实施例技术方案前,对本说明书实施例应用场景做介绍。
本说明书披露基于文件属性自适应压缩方法,用于文件传输或者文件存储中。用于文件传输时,实现减小需要传输的信息大小,节省传输时间。用于文件存储时,减少占用的存储空间。实施主体可以为信息传递的双方中发送文件的一方,或者单一的执行文件存储的一方。
衡量压缩算法优劣的指标有压缩率和压缩效率。相对于压缩效率,本说明书更偏重于从压缩率考量压缩算法选择的优劣。压缩算法的压缩率不仅有压缩算法本身有关系,也与具体的待压缩文件11的具体内容有关。例如,如果数据中存在大量的重复或冗余信息,那么压缩算法通常可以更好地利用这些特点,从而获得更高的压缩率。即一些算法可能在某些数据类型上表现更好,而在其他数据类型上效果较差。因此,选择合适的压缩算法对于获得更高的压缩率至关重要。某些压缩算法允许设置压缩级别,例如Deflate压缩算法中的压缩级别。较高的压缩级别可能会导致更高的压缩率,但同时也会增加压缩的时间和计算资源的消耗。在应用压缩算法之前,对数据进行预处理可能会影响压缩率。例如,去除不必要的空格、重复行或其他冗余信息可能有助于提高压缩率。相同压缩算法的不同压缩级别,是在压缩率和压缩效率二者之间进行的平衡。本说明书披露技术方案,针对不同的类型及内容的文件,在不同的压缩算法之间的选择。即,不同压缩级别的选择,不属于本说明书所讨论的范围,因此本说明书未考虑压缩算法的压缩级别。但,作为变通的,不同压缩级别的相同压缩算法,可以视为本说明书所披露技术方案中的两个独立的压缩算法,参与压缩算法的选择。示例性的,请参阅附图1,对于不同类型的文件采用的压缩算法不同。文本文件111采用huffman编码压缩算法和gzip压缩算法,对于音频文件112采用acc压缩算法和opus压缩算法,对于视频文件采用avc压缩算法和hevc压缩算法等。而对于相同的文件类型,如同样的文本文件111,不同的文本文件111分别采用huffman编码压缩算法和gzip压缩算法。具体采用何种压缩算法,由本说明书披露的自适应压缩方法确定。
示例性的,在招投标的商业活动中,投标方需要将投标文件发送给招标方。投标文件包括了文本文件111、图片文件、音频文件112、视频文件、二进制文件等,且通常占用的存储空间也较大。为了提高投标文件的传输效率,投标方需要将投标文件进行压缩。在投标方将投标文件进行压缩时,选择何种压缩算法,对最终的压缩效果具有重要的影响。投标方若将全部文件采用一种压缩算法进行压缩,会导致不同文件类型的压缩率不尽相同,最终影响压缩率。而对于不同文件类型的文件采用不同的压缩算法,则未考虑到相同文件类型的文件,由于其具体内容的差异,也会使压缩算法的压缩率产生区别。为此,投标方使用本说明书披露的基于文件属性自适应压缩方法,为不同文件类型、不同内容的文件,选择最佳的压缩算法,获得更佳的压缩效果。
首先,本说明书提供了一种基于文件属性自适应压缩方法,请参阅附图2,包括步骤:
步骤S102)加载预先配置的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;
步骤S104)将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型32获得文件特征;
步骤S106)基于预先建立的与所述文件类型对应的算法选择模型33对所述文件特征的响应,选择对应的压缩算法压缩所述待压缩文件,并关联压缩算法标识。
本实施方式中,使用特征提取模型32提取文件内容的特征,实现对文件内容的表征。而后使用文件内容的特征,以及算法选择模型33,在考虑文件内容的特征的情况下,选择最佳的压缩算法。请参阅附图3,本实施方式中,对于不同文件类型,训练不同的特征提取模型32和算法选择模型33。对于文本文件111,压缩算法主要考虑文本文件111中,大量的文本是重复的,借助哈夫曼编码等技术,实现文本文件111的压缩。对于图片、音频和视频,使用有损压缩能够获得更好的压缩效果,使用无损压缩能够保留全面的信息。本说明书中不考虑压缩后,图片、音频和视频是否丢失信息的问题。因目前的有损压缩算法,仍然能够保障图片、音频和视频的可用性,本说明书不做限制。
另一方面,在另外的实施方式中,所述分类表记录的文件类型包括文本文件111。请参阅附图4,为文本文件111预先建立特征提取模型32时,执行以下步骤:
步骤S202)建立第一神经网络模型321,所述第一神经网络模型321对所述文本文件111的响应作为文本特征1111;
步骤S204)接收样本文本文件,将所述样本文本文件向量化,获得文本向量13;
步骤S206)将所述样本文本文件的文本特征1111表示为向量形式,基于所述文本特征1111与所述文本向量13的向量距离,确定损失函数的值;
步骤S208)调整所述第一神经网络模型321的参数,直至达到训练停止条件;
步骤S210)基于所述第一神经网络模型321获得文本文件111的特征提取模型32。
其中,在将样本文本文件向量化过程中,本实施方式提供了计算词权重的方案,包括步骤:
计算词库中的词在待向量化的样本文本文件中出现的次数,记为词数;
计算词数与样本文本文件包含的词的数量的商,记为词频;
接收多个样本文本文件作为参照文档,统计存在该词的参照文档的数量,计算参照文档的数量与存在该词的参照文档的数量的商,计算商的自然对数作为逆文档词频;
词频与逆文档词频的乘积作为词的权重。
类似“的、是、可、一、当、时”等间隔词,不具有任何指向特性,应当被排除在词库之外。当一个词不仅在本样本文本文件中出现次数较高,在其他样本文本文件中出现此时也较高时,表示该词没有指向性,应当降低权重,通过逆文档词频能够实现。词频和逆文档词频的乘积作为词的权重具有较高的特征表示效果。本实施方式中,样本文本文件向量化后的向量维度与词库中词的数量相符。向量中的元素表示词库中对应次序的词,在样本文本文件中的权重。如样本文本文件向量化后的向量为[0.716,0.107,0.307,0.199,0.530,…],表示词库中第一个次序的词,在样本文本文件中的权重为0.716,表示词库中第二个次序的词,在样本文本文件中的权重为0.107,如此类推。
另一方面,在另一种实施方式中,采用预训练语言处理模型完成对样本文本文件的向量化。该种预训练语言处理模型能够完成文本向量13化的任务,即把文本(包括词、句子、段落)表征为向量矩阵。该种预训练语言处理模型在公开技术中也被称为文本向量13表示模型,比如Word2Vec、SBERT(Sentence-BERT)、CoSENT(Cosine Sentence)、 BGE(BAAIgeneral embedding),均为可以采用的能够完成本说明书披露方案所需的样本文本文件向量化的任务。
请参阅附图5,本实施例方式中,将样本文本文件的文本特征1111表示为向量形式,文本特征1111由第一神经网络模型对样本文本文件的响应获得。计算文本特征1111与文本向量13的向量距离,示例性的,可以采用向量间的欧式距离、马氏距离、余弦距离等。使用向量的距离直接作为损失函数的值,或者经过增函数的运算后,作为损失函数的值。使用该损失函数指导第一神经网络模型321的训练。文本向量13化,能够实现将文本映射到高维空间,实现对文本内容特征的表达。同时文本向量13化后,恰好能够体现出,会影响文本压缩算法选择的相同文本重复的情况。本实施方式借助文本向量13化这一结果,用作样本文本文件的标签,避免了人工标注标签的繁琐。同时又实现了文本特征1111的良好表征。
本实施方式未直接使用文本文件111的向量化结果作为文本文件111的文本特征1111,而是建立第一神经网络模型321,生成文本特征1111。是考虑到向量化需要较为全面的词库,会导致最终的文本特征1111维度过高。且使用神经网络模型会具有更好的泛化性能。而使用第一神经网络模型321,其输出长度固定。假定第一神经网络模型321是在A集上训练获得,则第一神经网络对A集上的文本文件111具有较佳的表征能力。对于B集上的文本文件111,使用第一神经网络模型321提取后,相对A集上的文本文件111,文本特征1111的提取结果表征准确度稍差。但仍然足够用于后续的算法选择模型33进行压缩算法的选择所需。其本质是B集上的文件text1输入第一神经网络模型321后,第一神经网络模型321的响应将会与A集中,与文件text1最为相似的文件text2,最为接近。足够表征文件text1中相同文本重复的情况。
另一方面,在另外的实施方式中,待压缩文件的文件类型为文本文件时,将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征前,执行步骤:
加载预先建立的文件分段模型,基于所述文件分段模型对待压缩文件的响应,将待压缩文件拆分为一个或多个子文件;
将每个子文件视为待压缩文件执行后续的步骤。
本实施方式中,预先建立文件分段模型的方法包括步骤:
加载多个样本文本文件,分别将每个样本文本文件向量化,获得样本向量;
将多个样本向量聚类,获得若干个向量类;
分别将每个样本文本文件截断为若干个预设长度的分段,作为样本文本文件的子文件,将子文件向量化,获得子向量;
计算每个子向量与向量类中其他子向量的向量距离,基于全部所述向量距离筛选所述子向量,获得若干个标的子向量;
建立将待压缩文件截断为若干个预设长度的分段,并分别计算与每个标的子向量的向量距离的比对模块;
建立基于比对模块的响应,生成待压缩文件分段结果的分段模块;
基于所述比对模块及所述分段模块建立文件分段模型。
向量聚类采用本领域已公开技术实现即可,例如使用已公开的能够同时完成聚类的文本向量模型或者采用k近邻算法实现。通过聚类后,将内容具有相似特征的文本文件分为一类。计算每个子向量与向量类中其他子向量的向量距离,筛选出其中与其他子向量的距离足够小的子向量。
具体包括:
计算每个子向量与向量类中其他子向量的向量距离,获得距离的最小值,当该最小值小于预设的阈值时,该子向量将被作为标的子向量。
或者,计算每个子向量与向量类中其他子向量的向量距离的平均值,当该平均值小于预设的阈值时,该子向量将被作为标的子向量。
或者,计算每个子向量与向量类中其他子向量的向量距离的平均值,按照平均值升序排列全部子向量,排序在前的预定数量个或者排序在前百分比的子向量将被作为标的子向量。
将样本文本文件截断为预设长度的分段时,该预设长度通过测试获得。具体过程如下:
在设定的长度区间内,按照预定的步长,设定出若干个分段长度;
依次使用每个分段长度作为预设长度对样本文本文件进行截断;
将最终获得的标的子向量的数量作为标签与对应的分段长度进行关联;
最终获得的标的子向量的数量最多的分段长度,作为最终的预设长度。
比对模块将待压缩文件截断为若干个预设长度的分段,并分别计算与每个标的子向量的向量距离,分段模块基于比对模块的响应,生成待压缩文件分段结果的分段模块。具体的,分段模块获得比对模块获得待压缩文件的分段与每个标的子向量的向量距离,进而获得待压缩文件的分段与每个标的子向量的向量距离的最小值。若该最小值小于预设阈值,则判定该分段标记为推荐作为子文件的分段。
遍历待压缩文件的全部分段,分段模块将获得全部被标记为推荐作为子文件的分段。若全部被标记为推荐作为子文件的分段,占全部的分段的预设百分比以上(例如40%以上、50%以上、60%以上),则文件分段模型的响应为指示将待压缩文件分段的指令,分段长度为前述的预设长度。
另一方面,在另外的实施方式中,所述分类表记录的文件类型包括音频文件112。请参阅附图6,为音频文件112预先建立特征提取模型32时,执行以下步骤:
步骤S302)建立第二神经网络模型322,所述第二神经网络模型322对所述音频文件112的响应作为音频特征1121;
步骤S304)接收样本音频文件112,基于音频识别模型获得所述样本音频文件112的识别文本14;
步骤S306)将所述识别文本14输入所述第一神经网络模型321,基于所述音频特征1121与所述第一神经网络模型321的响应,确定损失函数的值;
步骤S308)调整所述第二神经网络模型322的参数,直至达到训练停止条件;
步骤S310)基于所述第二神经网络模型322获得音频文件112的特征提取模型32。
本实施方式中,使用音频识别模型识别出音频中的文字,即识别文本14。识别文本14输入第一神经网络模型321,获得识别文本14的文本特征1111。请参阅附图7,建立第二神经网络模型322,第二神经网络模型322的输出作为音频特征1121。使用文本特征1111来监督第二神经网络模型322的训练。使得音频样本的标注能够借助第一神经网络模型321直接实现。避免了人工标注,音频样本的标注效率高且准确度高。音频识别模型采用基于深度学习的端到端模型。这种模型使用卷积神经网络 (Convolutional Neural Networks, CNN)或循环神经网络 (Recurrent Neural Networks, RNN) 来直接从原始音频信号中提取特征,并通过连接全连接层进行最终的文本生成。例如,基于CTC (Connectionist TemporalClassification) 的模型、Listen, Attend and Spell (LAS) 模型等。也可以采用Transformer 模型。Transformer 模型是一种基于自注意力机制的模型,最初用于自然语言处理任务,如机器翻译和语音识别。Transformer 模型在音频识别中也被广泛应用,通过将音频信号切分为时间步骤,并使用自注意力机制对每个时间步骤进行建模,从而实现音频到文本的转换。请参阅附图8,为进行音频识别模型识别后的音频中的文字。本实施方式中,音频文字既包括识别出的语音对应的文字,也包括识别出的声音特征的标注文字。如附图8中的电话响三个字,也属于识别文本14的范围。
另一方面,在另外的实施方式中,所述分类表记录的文件类型包括视频文件。请参阅附图9,为视频文件预先建立特征提取模型32时,执行以下步骤:
步骤S402)将视频文件拆分为音轨114和图像轨113,将所述第二神经网络模型322对所述音轨114的响应作为音轨特征1141;
步骤S404)建立第三神经网络模型323,所述第三神经网络模型323对所述图像轨113的响应作为图像流特征1131;
步骤S406)接收样本图像轨113文件,基于视频识别模型获得所述样本图像轨113文件的识别文本14;
步骤S408)将所述识别文本14输入所述第一神经网络模型321,基于所述图像流特征1131与所述第一神经网络模型321的响应,确定损失函数的值;
步骤S410)调整所述第三神经网络模型323的参数,直至达到训练停止条件;
步骤S412)基于所述第三神经网络模型323获得视频文件的图像流特征1131,基于所述第二神经网络模型322及所述第三神经网络模型323获得视频文件的特征提取模型32。
视频文件涉及音轨114和图像轨113,使用第二神经网络模型322对音轨114的响应作为音轨特征1141。而后建立第三神经网络模型323,第三神经网络模型323对图像轨113的响应作为图像流特征1131。基于视频识别模型获得样本图像轨113文件的识别文本14,进而获得第一神经网络模型321对识别文本14的响应,而后确定损失函数的值。请参阅附图10,完成第三神经网络模型323的训练后,基于第三神经网络模型323获得视频文件中图像轨113的图像流特征1131。结合图像流特征1131和音频特征1121,获得视频特征1151,即获得了视频文件的特征提取模型32。
对于图像文件的特征提取,使用本领域已公开的图像特征提取模型32即可。示例性的如:卷积神经网络(Convolutional Neural Networks, CNN),通过一系列的卷积、池化和全连接层来学习图像中的局部和全局特征。常见的CNN模型包括LeNet、AlexNet、VGGNet、GoogLeNet、ResNet等。特征金字塔网络(Feature Pyramid Networks,FPN),是一种用于多尺度图像特征提取的模型。它通过自上而下和自下而上的多个分支网络结合来提取不同尺度的特征。FPN可以帮助模型更好地理解图像中的不同层次的特征。区域卷积神经网络(Region-based Convolutional Neural Networks, R-CNN),是一种用于目标检测和图像分割的模型。它通过首先生成候选区域,然后对每个候选区域提取特征并进行分类或分割。常见的R-CNN模型包括R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN等。自编码器(Autoencoder),是一种无监督学习的模型,用于学习数据的低维表示。它通过将输入数据压缩到低维空间,然后再解码恢复到原始输入。自编码器可以用于图像特征提取,其中编码器部分学习图像的有意义的特征表示。预训练的模型,是使用大规模图像数据集进行预训练的模型,通常用于迁移学习。这些模型可以将图像数据转换为高级别的语义特征表示,例如使用ImageNet数据集进行预训练的模型,如VGGNet、ResNet、Inception等。
另一方面,在另外的实施方式中,请参阅附图11,每个文件类型训练算法选择模型33的方法包括步骤:
步骤S502)接收每个文件类型的样本文件,分别使用分类表记录的对应文件类型的每种压缩算法压缩所述样本文件;
步骤S504)选择压缩率最高的压缩算法作为对应样本文件的标签;
步骤S506)使用带标签的所述样本文件训练所述算法选择模型33直至达到训练停止条件。
通过自动对比压缩算法的压缩率,获得训练的监督信号,能够完成每个文件类型的算法选择模型33。本实施方式中的算法选择模型33的输入是,特征提取模型32的输出。本说明书披露技术方案的其中一个技术贡献在于,能够全程自动的完成文本文件111、图像文件、音频文件112、视频文件的特征提取过程,即自动的完成每个文件类型的特征提取模型32的建立和训练。将特征提取模型32和算法选择模型33结合,获得的压缩算法不仅能够适应不同类型的文件,也会根据具体的文件内容,考虑压缩算法的选择。
第二方面,本说明书实施例提供了一种基于文件属性自适应压缩系统,请参阅附图12,包括:
记录组件21,用于建立文件类型的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;
特征组件31,用于为每个文件类型预先建立特征提取模型32以及算法选择模型33;
压缩组件41,用于将所述特征提取模型32对待压缩文件11的响应,输入所述算法选择模型33,基于所述算法选择模型33的响应,选择对应的压缩算法压缩所述待压缩文件11并关联压缩算法标识121。
另一方面,在另外的实施方式中,请参阅附图13,所述特征组件31包括文本模型子组件311、音频模型子组件312和视频模型子组件314,所述文本模型子组件311用于为文本文件111类型预先建立特征提取模型32,所述音频模型子组件312用于为音频文件112类型预先建立特征提取模型32,所述视频模型子组件314用于为视频文件类型预先建立特征提取模型32。所述特征组件31还包括算法选择子组件313,所述算法选择子组件313用于为每个文件类型建立训练算法选择模型33,并接收每个文件类型的样本文件,分别使用分类表记录的对应文件类型的每种压缩算法压缩所述样本文件,选择压缩率最高的压缩算法作为对应样本文件的标签,使用带标签的所述样本文件训练所述算法选择模型33直至达到训练停止条件。
请参阅图14示出的本说明书实施例提供的一种电子设备50的结构示意图。
如图14所示,该电子设备50可以包括:至少一个处理器51、至少一个网络接口54、用户接口53、存储器55以及至少一个通信总线52。其中,通信总线52可用于实现上述各个组件的连接通信。其中,用户接口53可以包括按键,可选用户接口53还可以包括标准的有线接口、无线接口。其中,网络接口54可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。其中,处理器51可以包括一个或者多个处理核心。处理器51利用各种接口和线路连接整个处理器51内的各个部分,通过运行或执行存储在存储器55内的指令、程序、代码集或指令集,以及调用存储在存储器55内的数据,执行电子设备50的各种功能和处理数据。可选的,处理器51可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器51可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。
可以理解的是,上述调制解调器也可以不集成到处理器51中,单独通过一块芯片进行实现。
其中,存储器55可以包括RAM,也可以包括ROM。可选的,该存储器55包括非瞬时性计算机可读介质。存储器55可用于存储指令、程序、代码、代码集或指令集。存储器55可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器55可选的还可以是至少一个位于远离前述处理器51的存储装置。作为一种计算机存储介质的存储器55中可以包括操作系统、网络通信模块、用户接口53模块以及应用程序。处理器51可以用于调用存储器55中存储的应用程序,并执行上述一个或多个实施例中的方法。
本说明书实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器51上运行时,使得计算机或处理器51执行上述实施例中的一个或多个步骤。上述电子设备50的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本说明书实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。
在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
以上所述的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入本说明书的权利要求书确定的保护范围内。

Claims (10)

1.基于文件属性自适应压缩方法,其特征在于,
包括步骤:
加载预先配置的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;
将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征;
基于预先建立的与所述文件类型对应的算法选择模型对所述文件特征的响应,选择对应的压缩算法压缩所述待压缩文件,并关联压缩算法标识。
2.根据权利要求1所述的基于文件属性自适应压缩方法,其特征在于,
所述分类表记录的文件类型包括文本文件,为文本文件预先建立特征提取模型时,执行以下步骤:
建立第一神经网络模型,所述第一神经网络模型对所述文本文件的响应作为文本特征;
接收样本文本文件,将所述样本文本文件向量化,获得文本向量;
将所述样本文本文件的文本特征表示为向量形式,基于所述文本特征与所述文本向量的向量距离,确定损失函数的值;
调整所述第一神经网络模型的参数,直至达到训练停止条件;
基于所述第一神经网络模型获得文本文件的特征提取模型。
3.根据权利要求2所述的基于文件属性自适应压缩方法,其特征在于,
所述分类表记录的文件类型包括音频文件,为音频文件预先建立特征提取模型时,执行以下步骤:
建立第二神经网络模型,所述第二神经网络模型对所述音频文件的响应作为音频特征;
接收样本音频文件,基于音频识别模型获得所述样本音频文件的识别文本;
将所述识别文本输入所述第一神经网络模型,基于所述音频特征与所述第一神经网络模型的响应,确定损失函数的值;
调整所述第二神经网络模型的参数,直至达到训练停止条件;
基于所述第二神经网络模型获得音频文件的特征提取模型。
4.根据权利要求3所述的基于文件属性自适应压缩方法,其特征在于,
所述分类表记录的文件类型包括视频文件,为视频文件预先建立特征提取模型时,执行以下步骤:
将视频文件拆分为音轨和图像轨,将所述第二神经网络模型对所述音轨的响应作为音轨特征;
建立第三神经网络模型,所述第三神经网络模型对所述图像轨的响应作为图像流特征;
接收样本图像轨文件,基于视频识别模型获得所述样本图像轨文件的识别文本;
将所述识别文本输入所述第一神经网络模型,基于所述图像流特征与所述第一神经网络模型的响应,确定损失函数的值;
调整所述第三神经网络模型的参数,直至达到训练停止条件;
基于所述第三神经网络模型获得视频文件的图像流特征,基于所述第二神经网络模型及所述第三神经网络模型获得视频文件的特征提取模型。
5.根据权利要求2至4任一项所述的基于文件属性自适应压缩方法,其特征在于,
待压缩文件的文件类型为文本文件时,将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征前,执行步骤:
加载预先建立的文件分段模型,基于所述文件分段模型对待压缩文件的响应,将待压缩文件拆分为一个或多个子文件;
将每个子文件视为待压缩文件执行后续的步骤。
6.根据权利要求5所述的基于文件属性自适应压缩方法,其特征在于,
预先建立文件分段模型的方法包括步骤:
加载多个样本文本文件,分别将每个样本文本文件向量化,获得样本向量;
将多个样本向量聚类,获得若干个向量类;
分别将每个样本文本文件截断为若干个预设长度的分段,作为样本文本文件的子文件,将子文件向量化,获得子向量;
计算每个子向量与向量类中其他子向量的向量距离,基于全部所述向量距离筛选所述子向量,获得若干个标的子向量;
建立将待压缩文件截断为若干个预设长度的分段,并分别计算与每个标的子向量的向量距离的比对模块;
建立基于比对模块的响应,生成待压缩文件分段结果的分段模块;
基于所述比对模块及所述分段模块建立文件分段模型。
7.基于文件属性自适应压缩系统,其特征在于,
包括:
记录组件,用于加载预先配置的分类表,所述分类表记录若干个文件类型及相应的至少一种压缩算法;
特征组件,用于将待压缩文件输入预先建立的与所述文件类型对应的特征提取模型获得文件特征;
压缩组件,用于基于预先建立的与所述文件类型对应的算法选择模型对所述文件特征的响应,选择对应的压缩算法压缩所述待压缩文件,并关联压缩算法标识。
8.根据权利要求7所述的基于文件属性自适应压缩系统,其特征在于,
所述特征组件包括文本模型子组件、音频模型子组件和视频模型子组件,所述文本模型子组件用于为文本文件类型预先建立特征提取模型,所述音频模型子组件用于为音频文件类型预先建立特征提取模型,所述视频模型子组件用于为视频文件类型预先建立特征提取模型;
所述模型组件还包括算法选择子组件,所述算法选择子组件用于为每个文件类型预先建立算法选择模型,并接收每个文件类型的样本文件,分别使用分类表记录的对应文件类型的每种压缩算法压缩所述样本文件,选择压缩率最高的压缩算法作为对应样本文件的标签,使用带标签的所述样本文件训练所述算法选择模型直至达到训练停止条件。
9.电子设备,其特征在于,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1至6任一项所述的基于文件属性自适应压缩方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于文件属性自适应压缩方法。
CN202410775156.0A 2023-12-07 2024-06-17 一种基于文件属性自适应压缩方法、系统和存储介质 Active CN118349528B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202311677617.2A CN117667867A (zh) 2023-12-07 2023-12-07 一种基于文件属性自适应压缩方法、系统和存储介质
CN2023116776172 2023-12-07

Publications (2)

Publication Number Publication Date
CN118349528A true CN118349528A (zh) 2024-07-16
CN118349528B CN118349528B (zh) 2024-09-13

Family

ID=90073017

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311677617.2A Pending CN117667867A (zh) 2023-12-07 2023-12-07 一种基于文件属性自适应压缩方法、系统和存储介质
CN202410775156.0A Active CN118349528B (zh) 2023-12-07 2024-06-17 一种基于文件属性自适应压缩方法、系统和存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311677617.2A Pending CN117667867A (zh) 2023-12-07 2023-12-07 一种基于文件属性自适应压缩方法、系统和存储介质

Country Status (1)

Country Link
CN (2) CN117667867A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118568569A (zh) * 2024-07-25 2024-08-30 杭州华策影视科技有限公司 基于分类模型的长文本处理方法、装置、设备及介质
CN118626025A (zh) * 2024-08-15 2024-09-10 南京高商机电科技有限公司 一种基于多模数据的高动态仿真系统数据压缩方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN112417097A (zh) * 2020-11-19 2021-02-26 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法
CN115098456A (zh) * 2022-08-25 2022-09-23 北京探境科技有限公司 文件处理方法、装置、存储介质及电子设备
CN115952140A (zh) * 2023-01-09 2023-04-11 弘泰信息技术(天津)有限公司 一种基于大数据的计算机资源管理系统及方法
CN116318172A (zh) * 2023-05-25 2023-06-23 山东华云三维科技有限公司 一种设计仿真软件数据自适应压缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN112417097A (zh) * 2020-11-19 2021-02-26 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法
CN115098456A (zh) * 2022-08-25 2022-09-23 北京探境科技有限公司 文件处理方法、装置、存储介质及电子设备
CN115952140A (zh) * 2023-01-09 2023-04-11 弘泰信息技术(天津)有限公司 一种基于大数据的计算机资源管理系统及方法
CN116318172A (zh) * 2023-05-25 2023-06-23 山东华云三维科技有限公司 一种设计仿真软件数据自适应压缩方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118568569A (zh) * 2024-07-25 2024-08-30 杭州华策影视科技有限公司 基于分类模型的长文本处理方法、装置、设备及介质
CN118626025A (zh) * 2024-08-15 2024-09-10 南京高商机电科技有限公司 一种基于多模数据的高动态仿真系统数据压缩方法

Also Published As

Publication number Publication date
CN117667867A (zh) 2024-03-08
CN118349528B (zh) 2024-09-13

Similar Documents

Publication Publication Date Title
CN118349528B (zh) 一种基于文件属性自适应压缩方法、系统和存储介质
CN113853613B (zh) 神经网络解码方法、装置和介质
CN114448563B (zh) 语义编码传输方法及电子设备
CN111488489A (zh) 视频文件的分类方法、装置、介质及电子设备
CN101783788A (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
US9591334B2 (en) Common copy compression
CN104125475B (zh) 一种多维量子数据压缩、解压缩方法及装置
US20180310029A1 (en) Residual entropy compression for cloud-based video applications
WO2021028236A1 (en) Systems and methods for sound conversion
CN111723194A (zh) 摘要生成方法、装置和设备
KR20220079026A (ko) 일반 문서 기반의 멀티미디어 영상 콘텐츠 제작 서비스 제공 장치
Chandrasekhar et al. Compressing feature sets with digital search trees
CN111048065A (zh) 文本纠错数据生成方法及相关装置
CN112559750B (zh) 文本数据的分类方法、装置、非易失性存储介质、处理器
CN115499635A (zh) 数据压缩处理方法及装置
CN118202339A (zh) 一种数据库数据的压缩方法及存储设备
KR101400928B1 (ko) 히스토그램을 이용한 고속 유사도 측정 방법 및 장치
CN113780467A (zh) 模型训练方法、装置、计算机设备及存储介质
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법
KR20220079042A (ko) 서비스 제공 프로그램 기록매체
KR20220079073A (ko) 멀티미디어 변환 콘텐츠 제작 서비스 제공장치의 제작 인터페이스 장치
JP2017102600A (ja) ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
Mohamed Wireless Communication Systems: Compression and Decompression Algorithms
US20240291503A1 (en) System and method for multi-type data compression or decompression with a virtual management layer
Zhou et al. Bayesian denoising of structured sources and its implications on learning-based denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant