CN116778270A - 模型训练、图像压缩方法、设备及计算机可读介质 - Google Patents

模型训练、图像压缩方法、设备及计算机可读介质 Download PDF

Info

Publication number
CN116778270A
CN116778270A CN202310645563.5A CN202310645563A CN116778270A CN 116778270 A CN116778270 A CN 116778270A CN 202310645563 A CN202310645563 A CN 202310645563A CN 116778270 A CN116778270 A CN 116778270A
Authority
CN
China
Prior art keywords
image
output image
training
output
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310645563.5A
Other languages
English (en)
Inventor
成超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202310645563.5A priority Critical patent/CN116778270A/zh
Publication of CN116778270A publication Critical patent/CN116778270A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种用于流量筛选的模型训练方法、流量筛选方法、设备及计算机可读介质,该方案可以选取符合一定要求的游戏以及对应的用户,并获取游戏测信息和用户侧信息提取特征向量后作为用于模型训练的正样本,同时可以通过负采样的方式获取用于模型训练的负样本,通过样本训练模型使得所述正样本的第一特征向量与第二特征向量之间的相似度高于第一预设值,且所述负样本的第一特征向量与第二特征向量之间的相似度低于第二预设值。由此,可以使得处理模型能够更加准确地反映出特定用户与其所偏好的游戏之间内在关联性,可以在筛选流量时更加精准地筛选出可能对某一待投放游戏感兴趣的目标用户,从而更加有效的投放推广流量。

Description

模型训练、图像压缩方法、设备及计算机可读介质
技术领域
本申请涉及信息技术领域,尤其涉及一种图像预处理模型的训练、图像压缩方法、设备及计算机可读介质。
背景技术
图像压缩、编码是日常应用中一项非常重要的技术,其中以JPEG(JointPhotographic Experts Group,联合图像专家组)压缩方法,也就是JPEG/JPG格式的图像文件所对应的压缩编码方法最为常见。以一幅分辨率为1920×1080的彩色照片为例,如果不经过图像压缩,那么这张照片将要消耗约6MB的存储空间,1GB的存储最多只能存放不到200张照片。而存储为JPEG格式后,一般只需要以一定程度的图像质量损失为代价,就可以大大压缩图片的文件体积,例如1920x1080的图像在普通压缩率的处理下一般只需要100多KB的存储空间即可存储这张图像。
JPEG本身是一种信息有损的图像压缩技术,采用1~99来表示压缩质量因子,在压缩之前指定。压缩质量因子越高则压缩结果相较于原图的PSNR(Peak Signal-to-NoiseRatio,峰值信噪比)越高,同时产生的文件大小也相对大一些;压缩质量因子越低则压缩结果相较于原图的PNSR越低,往往图像质量也越差,同时生成的压缩图像文件也越小。
JPEG标准已经有二三十年的历史了,是目前世界上应用最广泛的图像压缩标准。目前学术界及工业界也相继推出了一些新的图片压缩方案,例如HEIF(High EfficiencyImage File Format,高效率图像文件格式)、或是被视为JPEG继承者的JPEG-XL等等。虽然新压缩方案能够取得更高的压缩效率,不同的压缩方案之间基本都存在兼容性问题,因此会由于兼容性问题在实际应用和推广的过程中遇到各种各样的障碍。例如JPEG-XL相较JPEG能够取得更高的压缩效率,并且能够兼容JPEG编码,也就是说将JPEG转换成JPEG-XL不会损失图像精度,但其最大问题在于要支持JPEG-XL的解码则必须使用新的图像解码器,这使得一些老旧的设备或者系统需要进行相应的升级才能使用这一新标准。
因此,另一种提升压缩效率的思路是在JPEG压缩链路中进行一些改造来提升方法本身的压缩效率。例如一些方案中,采用先平滑后锐化的方式,将图像中不起眼的细小纹理进行抑制或抹除,并增强其他相对显著的纹理。但是采用这种方案一来很难平衡对图像中信息和噪声的控制,一旦控制不当则非常容易产生出另人眼感到不适的效果(例如过度锐化或者过度平滑),二来这种方案相较于直接对原始图像进行压缩而言,往往难以取得较高的PSNR,因此实际效果不佳。
发明内容
本申请的多个方面提供一种模型训练、图像压缩方法、设备及计算机可读介质,用以解决目前的方案无法兼顾方案兼容性和压缩效率的问题。
本申请的一方面,提供了一种图像预处理模型的训练方法,其中,所述方法包括:
将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差;
将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵;
基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数;
采用训练集中的样本图像训练所述预处理模型,训练目标为优化所述损失函数至目标值。
本申请的另一方面,还提供了一种图像压缩方法,其中,所述方法使用前述图像预处理模型的的方法所训练完成的预处理模型,包括:
将原始图像输入所述预处理模型,获取经过预处理的输出图像;
将输出图像采用预设的压缩算法进行压缩,获取压缩图像。
此外,本申请实施例还提供了一种图像预处理模型的训练设备,其中,所述设备包括:
处理模块,用于将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差;将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵;基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数;
训练模块,用于采用训练集中的样本图像训练所述预处理模型,训练目标为优化所述损失函数至目标值。
本申请实施例还提供了一种图像压缩设备,其中,所述设备使用前述图像预处理模型的训练方法所训练完成的预处理模型,包括:
预处理模块,用于将原始图像输入所述预处理模型,获取经过预处理的输出图像;
图像压缩模块,用于将输出图像采用预设的压缩算法进行压缩,获取压缩图像。
本申请实施例还提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的模型训练方法或流量筛选方法。
本申请实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现前述的模型训练方法或流量筛选方法。
本申请实施例所提供的方案中,在训练时将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差,然后将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵,基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,来设定损失函数,由此训练使用训练集中的样本图像训练所述预处理模型。其中。训练目标可以设置为优化所述损失函数至目标值,由于损失函数中包括了输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,其中,所述均方差与处理前后图像的PSNR相关,而频谱信息的熵则与输出图像在频谱上的复杂性相关,当优化损失函数后,即可使得预处理模型能够在PSNR基本不变的情况下,降低图像的频谱复杂性。
在此基础上,使用训练完成的预处理模型对原始图像进行预处理后,再对使用预设的压缩算法其进行压缩处理,可以使得最终获取到的压缩图像,与直接使用原始图像进行压缩处理所获得的压缩图像相比,压缩率更高,且具有相近的图像质量。同时,由于本方案并不对压缩算法本身进行改动,而是对待压缩的原始图像进行预处理,因此兼容性好,不影响原本使用的压缩算法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种图像预处理模型的训练方法的处理流程图;
图2为本申请实施例提供的一种图像压缩方法的处理流程图;
图3为本申请实施例提供的一种图像预处理模型的训练设备的结构示意图;
图4为本申请实施例提供的一种图像压缩设备的结构示意图;
图5为适用于实现本申请实施例中的方案的一种设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机程序指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例提供了一种模型训练方法,该方法基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,来设定损失函数,由此训练使用训练集中的样本图像训练所述预处理模型。其中。训练目标可以设置为优化所述损失函数至目标值,由于损失函数中包括了输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,其中,所述均方差与处理前后图像的PSNR相关,而频谱信息的熵则与输出图像在频谱上的复杂性相关,当优化损失函数后,即可使得预处理模型能够在PSNR基本不变的情况下,降低图像的频谱复杂性。
在此基础上,本申请实施例提供的一种图像压缩方法中,使用训练完成的预处理模型对原始图像进行预处理后,再对使用预设的压缩算法其进行压缩处理,可以使得最终获取到的压缩图像,与直接使用原始图像进行压缩处理所获得的压缩图像相比,压缩率更高,且具有相近的图像质量。同时,由于本方案并不对压缩算法本身进行改动,而是对待压缩的原始图像进行预处理,因此兼容性好,不影响原本使用的压缩算法。
在实际场景中,上述方法的执行主体可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序,所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种图像预处理模型的训练方法,该方法包括以下的处理步骤:
步骤S101,将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差。
其中,所述训练集中包括了用于训练预处理模型所需要用到的多个样本图像。在实际场景中,可以选取大量分辨率高于预设值的高质量图像作为训练集,使得模型的训练过程中可以取得更好的训练效果。例如,本实施例中可以准备大量分辨率为1920×1080且未经过压缩的图像作为训练集D。设图像S为训练集D中的一张样本图像,经过预处理模型NN处理后得到输出图像S’,可以使用类似计算L2 loss(L2损失函数)的方式来计算输出图像S’与样本图像S之间的差异,该差异的具体数值即为所述输出图像S’与样本图像S之间的均方差(MSE,mean square error),本实施例中记为L2(S’,S)。
本实施例中,预处理模型可以采用CNN(Convolutional Neural Network,卷积神经网络)。CNN是一种前馈神经网络,它由一个或多个卷积层和顶端的全连通层组成,与其他深度学习模型相比,卷积神经网络在图像识别方面能够给出更好的结果。
步骤S102,将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵。
对于一个图像而言,可以将其视为一个沿着空间分布的信号,即随着空间轴x/y变化的信号,其中,空间轴x/y可以分别用x/y轴对应的像素点表示。例如,以1920×1080的图像为例,可以认为其x轴上具有1920个像素点,y轴上具有1080个像素点,基于x/y轴上的对应像素点值,即可确定该图像中的任意一个像素。像素是图像的基本组成单元,其本质为数值,图像像素的数值范围为0到255。像素值越大、越接近255,则该像素的亮度越高、越白;像素值越小,越接近0,则该像素越暗、越黑。由此,将像素的数值作为信号的强度,即可将图像视为一个沿着空间分布的信号。
本实施例中,可以通过预设的方法将输出图像从空间域转换为频域,例如采用DCT(Discrete Cosine Transform,离散余弦变换)等,由此可以获取到关于频域的图像信号Dct(S’)。该图像信号Dct(S’)是一个离散的信号,包括了多个不同频谱分量,每个频谱分量即对应一个不同频率的正弦波信号。然后,再计算该图像信号Dct(S’)的熵,记为LowRank(S’)。其中,熵可以用于表示该图像信号所包含的信息量,对应于该图像信号中频谱的复杂性,当频谱分量越多且每个频谱分量的幅值差异越大时,则频谱的复杂性越高,熵值也越高;反之,当频谱分量越少且每个频谱分量的幅值差异越小时,则频谱的复杂性越低,熵值也越低。
步骤S103,基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数。
步骤S104,采用训练集中的样本图像训练所述预处理模型,训练目标为优化所述损失函数至目标值。
其中,损失函数的目标值可以根据实际场景的需求设定,例如本实施例中损失函数与输出图像、样本图像之间的均方差以及所述输出图像的频谱信息的熵相关,可以设定目标值为达到所述损失函数的最小值。在实际场景中,可以通过梯度下降等方式来找到该最小值,从而判断是否已经完成该预处理模型的训练。
在图像压缩场景中,PSNR是一种用来比较处理后图像与处理前图像的差异的指标,以dB为单位。PSNR值越大则表明处理前后的图像差异越小,是一种应用较为广泛的客观评价图像质量的标准。在实际计算PSNR值时,其结果与处理前后图像之间的均方差相关,因此本方案在损失函数加入输出图像与样本图像之间的均方差后,可以使得训练完成的预处理模型在对图像进行处理后,能够尽可能使得图像的PSNR基本不变,从而避免图像质量的降低。同时,由于损失函数中还包含了频谱信息的熵,该部分则与输出图像在频谱上的复杂性相关,可以使得训练完成的预处理模型在对图像进行处理后,有效降低图像的频谱复杂性,使得后续进行压缩处理时,具有更高的压缩比,提升压缩效率。
在本申请的一些实施例中,所述损失函数LOSS可以具体设定如下:
LOSS=L2(S’,S)+λ·LowRank(S’)
其中,L2(S’,S)表示输出图像与样本图像之间的均方差,LowRank(S’)表示输出图像的频谱信息的熵,λ为损失因子,可以是一个由用户根据实际场景设定的、大于0的数值,例如本实施例中可以设定为0.01。
基于该损失函数,不断通过训练集中的样本图像对该预处理模型进行训练直至所述损失函数达到最小值,此时获得训练完成的预处理模型NN,用于对待压缩的图像进行预处理。
图2示出了本申请实施例提供的一种图像压缩方法,该方法使用了前述的模型训练方法所训练完成的预处理模型,包括以下的处理步骤:
步骤S201,将原始图像输入所述预处理模型,获取经过预处理的输出图像。其中,所述原始图像即为待压缩的图像,以图像I为例,图像I作为本实施例中的原始图像输入预处理模型NN后,可以获取经过预处理的输出图像INN=NN(I)。
步骤S202,将输出图像采用预设的压缩算法进行压缩,获取压缩图像。
若未采用本申请实施例的方案,则是对原始图像I直接采用预设的压缩算法进行压缩,获取压缩图像I’。而本申请实施例的方案中则是对经过预处理模型处理后的输出图像INN,采用预设的压缩算法进行压缩,获取到压缩图像I’NN
在本申请的一些实施例中,若本方案用于压缩获得JPEG格式的图像文件,则所述压缩算法可以是JPEG编码算法。在此场景中,对原始图像I直接进行压缩所获得压缩图像I’=JPEG(I),而对经过预处理模型处理后再进行压缩所获得得压缩图像I’NN=JPEG(INN)。
对于两种方式所获得的结果,使用PSNR来评价其对应的图像质量可以发现:PSNR(I,I’)与PSNR(I,I’NN)基本相同,其中,PSNR(I,I’)为原始图像I与直接压缩获得的压缩图像I’之间的PSNR,PSNR(I,I’NN)为原始图像I经本申请实施例提供的图像压缩方法处理所获得的压缩图像I’NN之间的PSNR。而在PSNR(I,I’)与PSNR(I,I’NN)基本相同的情况下,压缩图像I’NN比压缩图像I’的文件大小更小,在实际场景中可以一般可以提升5%~10%的压缩率。
此外,本申请实施例还提供了一种图像预处理模型的训练设备,该设备的结构如图3所示,包括处理模块310和训练模块320。其中,处理模块310用于将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差;将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵;基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数。训练模块320用于采用训练集中的样本图像训练所述预处理模型,训练目标为优化所述损失函数至目标值。
本申请实施例还提供了一种图像压缩设备,该设备在进行压缩时使用了前述的图像预处理模型的训练方法所训练完成的预处理模型,其结构如图4所示,包括了预处理模块410和图像压缩模块420。其中,预处理模块410用于将原始图像输入所述预处理模型,获取经过预处理的输出图像。图像压缩模块420用于将输出图像采用预设的压缩算法进行压缩,获取压缩图像。
基于同一发明构思,本申请实施例中还提供了一种电子设备,所述电子设备对应的方法可以是前述实施例中图像预处理模型的训练方法以及图像压缩方法,并且其解决问题的原理与该方法相似。本申请实施例提供的所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述本申请的多个实施例的方法和/或技术方案。
所述电子设备可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序,所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(CloudComputing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图5示出了适用于实现本申请实施例中的方法和/或技术方案的一种设备的结构,该设备500包括中央处理单元(CPU,Central Processing Unit)501,其可以根据存储在只读存储器(ROM,Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM,Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O,Input/Output)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标、触摸屏、麦克风、红外传感器等的输入部分506;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,LiquidCrystal Display)、LED显示器、OLED显示器等以及扬声器等的输出部分507;包括硬盘、光盘、磁盘、半导体存储器等一个或多个计算机可读介质的存储部分508;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。
特别地,本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
本申请另一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现前述本申请的任意一个或多个实施例的方法和/或技术方案。
具体来说,本实施例可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或页面组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一个计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种图像预处理模型的训练方法,其中,所述方法包括:
将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差;
将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵;
基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数;
采用训练集中的样本图像训练所述预处理模型,训练目标为优化所述损失函数至目标值。
2.根据权利要求1所述的方法,其中,基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数,包括:
设定损失函数为:LOSS=L2(S’,S)+λ·LowRank(S’),其中,L2(S’,S)表示输出图像与样本图像之间的均方差,LowRank(S’)表示输出图像的频谱信息的熵,λ为预先设定的损失因子,且λ>0。
3.根据权利要求1所述的方法,其中,所述预处理模型为卷积神经网络。
4.根据权利要求1所述的方法,其中,将输出图像从空间域转换为频域,包括:
采用离散余弦变换算法将输出图像从空间域转换为频域。
5.一种图像压缩方法,其中,所述方法使用权利要求1至4中任一项所述的方法所训练完成的预处理模型,包括:
将原始图像输入所述预处理模型,获取经过预处理的输出图像;
将输出图像采用预设的压缩算法进行压缩,获取压缩图像。
6.根据权利要求5所述的方法,其中,所述预设的压缩算法为JPEG编码算法。
7.一种图像预处理模型的训练设备,其中,所述设备包括:
处理模块,用于将训练集中的样本图像输入预处理模型,获取经过预处理的输出图像,并计算所述输出图像与样本图像之间的均方差;将输出图像从空间域转换为频域,获取关于所述输出图像的频谱信息,并计算所述输出图像的频谱信息的熵;基于输出图像与样本图像之间的均方差、以及所述输出图像的频谱信息的熵,设定损失函数;
训练模块,用于采用训练集中的样本图像训练所述预处理模型,训练目标为优化所述损失函数至目标值。
8.一种图像压缩设备,其中,所述设备使用权利要求1至4中任一项所述的方法所训练完成的预处理模型,包括:
预处理模块,用于将原始图像输入所述预处理模型,获取经过预处理的输出图像;
图像压缩模块,用于将输出图像采用预设的压缩算法进行压缩,获取压缩图像。
9.一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至6中任一项所述的方法。
CN202310645563.5A 2023-06-01 2023-06-01 模型训练、图像压缩方法、设备及计算机可读介质 Pending CN116778270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310645563.5A CN116778270A (zh) 2023-06-01 2023-06-01 模型训练、图像压缩方法、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310645563.5A CN116778270A (zh) 2023-06-01 2023-06-01 模型训练、图像压缩方法、设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN116778270A true CN116778270A (zh) 2023-09-19

Family

ID=88012492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310645563.5A Pending CN116778270A (zh) 2023-06-01 2023-06-01 模型训练、图像压缩方法、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN116778270A (zh)

Similar Documents

Publication Publication Date Title
CN109325928A (zh) 一种图像重建方法、装置及设备
CN113870104A (zh) 超分辨率图像重建
Zhang et al. Fine-grained quality assessment for compressed images
WO2022048330A1 (zh) 视频的水印添加和提取方法、装置、设备及存储介质
CN113191495A (zh) 超分模型的训练及人脸识别方法、装置、介质及电子设备
CN113724136A (zh) 一种视频修复方法、设备及介质
CN113496465A (zh) 图像缩放
US20230419452A1 (en) Method and device for correcting image on basis of compression quality of image in electronic device
WO2023142715A1 (zh) 视频编码方法、实时通信方法、装置、设备及存储介质
CN116778270A (zh) 模型训练、图像压缩方法、设备及计算机可读介质
CN114900717B (zh) 视频数据传输方法、装置、介质和计算设备
CN116980604A (zh) 视频编码方法、视频解码方法及相关设备
CN114596203A (zh) 用于生成图像和用于训练图像生成模型的方法和装置
US10405005B1 (en) Methods and systems for video compression based on dynamic vector wave compression
CN110033413B (zh) 客户端的图像处理方法、装置、设备、计算机可读介质
CN115546036A (zh) 一种图像增强方法、装置、设备及计算机可读存储介质
CN111696041A (zh) 图像处理方法、装置及电子设备
CN106412583B (zh) 一种图像压缩方法和装置
CN111932466A (zh) 一种图像去雾方法、电子设备及存储介质
US8244071B2 (en) Non-dyadic spatial scalable wavelet transform
CN117237259B (zh) 基于多模态融合的压缩视频质量增强方法及装置
CN116567194B (zh) 虚拟图像合成方法、装置、设备及存储介质
CN116760983B (zh) 用于视频编码的环路滤波方法及装置
CN116684607B (zh) 图像压缩和解压缩方法、装置、电子设备及存储介质
Wang et al. High dynamic range image compression based on visual saliency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination