CN116092529A - 音质评估模型的训练方法及装置、音质评估方法及装置 - Google Patents
音质评估模型的训练方法及装置、音质评估方法及装置 Download PDFInfo
- Publication number
- CN116092529A CN116092529A CN202310019263.6A CN202310019263A CN116092529A CN 116092529 A CN116092529 A CN 116092529A CN 202310019263 A CN202310019263 A CN 202310019263A CN 116092529 A CN116092529 A CN 116092529A
- Authority
- CN
- China
- Prior art keywords
- audio
- quality evaluation
- audio sample
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 163
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000011156 evaluation Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000001303 quality assessment method Methods 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 23
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 13
- 238000013210 evaluation model Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 230000006735 deficit Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本公开关于一种音质评估模型的训练方法及装置、音质评估方法及装置。音质评估模型的训练方法包括:获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。
Description
技术领域
本公开涉及音频处理领域,尤其涉及一种音质评估模型的训练方法及装置、音质评估方法及装置。
背景技术
音乐、长视频、短视频等多媒体数据已经广泛存在于人们的日常生活中。对于提供这些数据和服务的流媒体平台,无论平台的音频算法迭代,还是网络传输服务提供商的资源统筹和排障,都需要一种能够在各种使用场景下评价音频质量的方法。但是,目前的基于信号处理的客观音频质量评估算法,如常用的音频质量的感知评价(PerceptualEvaluation of Audio Quality,缩写为PEAQ)和虚拟语音质量目标听者(Virtual SpeechQuality Objective Listener,缩写为ViSQOL)等,需要同时输入损伤音频和参考音频,由于在很多实际使用场景中无法得到参考音频,因此使用场景相对受限。
发明内容
本公开提供一种音质评估模型的训练方法及装置、音质评估方法及装置,以至少解决相关技术中音频质量评估应用场景单一的问题。
根据本公开实施例的第一方面,提供一种音质评估模型的训练方法,包括:获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。
可选地,音质评估标签通过如下方式得到:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。
可选地,将多个预定评估指标信息进行融合,得到音频样本的音质评估标签,包括:确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。
可选地,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
可选地,音频样本通过以下至少一种处理方式得到:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。
可选地,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。
可选地,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。
可选地,基于音频样本的音质评估标签和预估音质评估信息,计算损失,包括:获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。
可选地,基于损失调整音质评估模型的参数,包括:通过最小化均方误差,调整音质评估模型的参数。
根据本公开实施例的第二方面,提供一种音质评估方法,包括:获取待评估音频;将待评估音频输入音质评估模型,得到待评估音频的音质评估信息,其中,音质评估模型是通过如上任意的训练方法训练得到。
根据本公开实施例的第三方面,提供一种音质评估模型的训练装置,包括:样本获取单元,被配置为获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;音质预估单元,被配置为将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;损失获取单元,被配置为基于音频样本的音质评估标签和预估音质评估信息,计算损失;训练单元,被配置为基于损失调整音质评估模型的参数。
可选地,样本获取单元,还被配置为通过如下方式得到音质评估标签:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。
可选地,样本获取单元,还被配置确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。
可选地,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
可选地,样本获取单元,还被配置为通过以下至少一种处理方式得到音频样本:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。
可选地,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,音质预估单元,还被配置为将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。
可选地,音质预估单元,还被配置为对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。
可选地,损失获取单元,还被配置为获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。
可选地,训练单元,还被配置为通过最小化均方误差,调整音质评估模型的参数。
根据本公开实施例的第四方面,提供一种音质评估装置,包括:待评估音频获取单元,被配置为获取待评估音频;音质信息获取单元,被配置为将待评估音频输入音质评估模型,得到待评估音频的音质评估信息,其中,音质评估模型是通过如上任意的训练方法训练得到。
根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现根据本公开的音质评估模型的训练方法和/或音质评估方法。
根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上根据本公开的音质评估模型的训练方法和/或音质评估方法。
根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现根据本公开的音质评估模型的训练方法和/或音质评估方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的音质评估模型的训练方法及装置、音质评估方法及装置,基于至少一种预定损伤类型对对应原始音频进行处理得到音频样本,且音频样本具有对应的音质评估标签,从而基于音质评估标签和音质评估模型输出的预估音质评估信息,可以调整音质评估模型,实现对音质评估模型的训练,训练出的音质评估模型无需参考音频,也即无需原始音频,基于音频样本(如待评估音频)既可以直接预估出相应的音质评估信息,而且本公开的音质评估标签是基于音频样本的多个预定评估指标信息得到,因此,该音质评估指标具有更好的预测准确性以及对于各种类型的音频数据的鲁棒性都很好,从而可以训练出更优秀的模型。因此,本公开解决了相关技术中音频质量评估应用场景单一的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的音质评估模型的训练方法的实施场景示意图;
图2是根据一示例性实施例示出的一种音质评估模型的训练方法的流程图;
图3是根据一示例性实施例示出的一种网络配置示意图;
图4是根据一示例性实施例示出的一种GConv2d示意图;
图5是根据一示例性实施例示出的一种模型训练框架示意图;
图6是根据一示例性实施例示出的一种音质评估方法的流程图;
图7是根据一示例性实施例示出的一种音质评估模型的训练装置的框图;
图8是根据一示例性实施例示出的一种音质评估装置的框图;
图9是根据本公开实施例的一种电子设备900的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
本公开提供了一种音质评估模型的训练方法,能够满足任何场景下的音频的音质评估,下面以评估一首歌曲的音质的场景为例进行说明。
图1是示出根据本公开的示例性实施例的音质评估模型的训练方法的实施场景示意图,如图1所述,该实施场景包括服务器100、用户终端110和用户终端120,其中,用户终端不限于2个,包括并不限于手机、个人计算机等设备,用户终端可以安装用于训练模型的应用程序,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。
用户终端110或用户终端120上的应用程序获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始歌曲进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。需要说明的是,用户终端110和用户终端120可以独立完成该工作,也可以通过服务器100为其提供数据服务,本公开对此并不进行限定。当通过服务器100为其提供数据服务时,用户终端110和/或用户终端120上的应用程序获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始歌曲进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的,并将音频样本发送给服务器100,服务器100接收到音频样本后,依次将每个音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。当音质评估模型训练完后,可以将其应用到任何场景。
下面,将参照附图详细描述根据本公开的示例性实施例的音质评估模型的训练方法及装置、音质评估方法及装置。
图2是根据一示例性实施例示出的一种音质评估模型的训练方法的流程图,如图2所示,音质评估模型的训练方法包括以下步骤:
在步骤S201中,获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的。由于不同客观音频质量评估指标(即本步骤中的预定评估指标信息)适用的音频类型不太一致,同时不同客观音频质量评估指标对于特定音频文件也会有不同的估计误差,因此,本公开可以将多种客观音频质量评估指标融合,使得融合后的客观音频质量评估指标(即本步骤中的音质评估标签)具有更好的预测准确性以及对于各种类型的音频数据的鲁棒性也更好。上述多个预定评估指标可以通过原始音频、音频样本结合相应的指标算法得到,对此本公开并不进行限定。需要说明的是,上述预定损伤类型可以对原始音频进行空处理,对此本公开并不进行限定。
根据本公开的示例性实施例,音质评估标签通过如下方式得到:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。根据本实施例,通过音频样本和对应原始音频,可以获取到音频样本的多个评估指标值,将多个评估指标值进行融合,从而可以得到具有更好的预测准确性和对于各种类型的音频数据的鲁棒性都很好的标签。
具体地,上述预定评估指标信息可以包括但不限于音频质量的感知评价(Perceptual Evaluation of Audio Quality,缩写为PEAQ)和虚拟语音质量目标听者(Virtual Speech Quality Objective Listener,缩写为ViSQOL)等客观音频质量评估指标。例如,可以基于音频样本和对应的原始音频,得到音频质量的感知评价和虚拟语音质量目标听者,在将得到的音频质量的感知评价和虚拟语音质量目标听者进行融合,融合后的结果即音频样本的音质评估标签。
根据本公开的示例性实施例,将多个预定评估指标信息进行融合,得到音频样本的音质评估标签,包括:确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。根据本实施例,基于权重进行线性融合,可以方便、快速的得到音频样本的音质评估标签。
具体地,上述权重可以根据需要设定,如,可以根据不同客观音频质量评估指标(即上述预定评估指标信息)的效果设置不一样的融合权重,也可以对不同客观音频质量评估指标直接采用平均融合,对此本公开并不进行限定。例如,具体的融合方式可以采用简单的线性融合,如下:
根据本公开的示例性实施例,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。根据本实施例,通过这些损伤类型,可以获取到实际中常出现的损伤音频,而且这些损伤类型适用于包括语音、音乐、各种音效和环境声等的原始音频,不仅限于语音信号,因此得到的音频样本种类丰富,从而提高了音质评估模型的实用性。
例如,上述预定损伤类型可以包括但不限于:多种编码算法(如高效高级音频编码(HEAAC),动态影像专家压缩标准音频层面3(MP3))的不同码率编码方式(如32kbps,48kbps,64kbps,96kbps),模拟设备频响损伤的不同截止频率的低通滤波器和高通滤波器,低通滤波器的截止频率可以为1000Hz,2400Hz,3600Hz and 6000Hz,高通滤波器的截止频率可以为300Hz,1000Hz,2000Hz and 3000Hz。
根据本公开的示例性实施例,音频样本通过以下至少一种处理方式得到:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。根据本实施例,通过如上的处理方式,可以得到丰富的音频样本。
具体地,基于原始音频和各种损伤类型,可以合成对应的损伤音频,也即音频样本,其中,原始音频可以是包括语音、音乐、各种音效和环境声等类型的音频,也可以包括这些类型的混合音频(如带背景音乐的语音),对此本公开并不进行限定。例如,以任意一种原始音频为例,可以通过32kbps的码率的编码方式对原始音频进行编码得到音频样本,也可以通过48kbps的码率的编码方式对原始音频进行编码得到音频样本,还可以先通过32kbps的码率的编码方式对原始音频进行编码得到中间音频,再通过48kbps的码率的编码方式对中间音频进行编码得到音频样本;又例如,可以通过截止频率为1000Hz的低通滤波器对原始音频进行滤波得到音频样本,也可以通过截止频率为2400Hz的低通滤波器对原始音频进行滤波得到音频样本,还可以截止频率为1000Hz的低通滤波器对原始音频进行滤波得到中间音频,再通过截止频率为2400Hz的低通滤波器对中间音频进行滤波得到音频样本;又例如,可以先通过32kbps的码率的编码方式对原始音频进行编码得到中间音频,再通过截止频率为2400Hz的低通滤波器对中间音频进行滤波得到音频样本。
返回图2,在步骤S202中,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息。
根据本公开的示例性实施例,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。根据本实施例模型配置,可以得到相对准确的音质评估信息。
具体地,上述音质评估模型可以由若干个二维卷积层,双向循环网络层和全连接层构成。图3是根据一示例性实施例示出的一种网络配置示意图,如图3所示,上述音质评估模型可以由6层二维卷积层,3层双向循环网络层和2层全连接层构成,其中,6层二维卷积层为6个Gated-Conv2d(GConv2d)模块,6个Gated-Conv2d(GConv2d)模块从上述梅尔频谱中进一步提取音质相关信息。而3层双向循环网络层(BiGRU)用于时间维度的建模,融合多帧音频信号的信息。之后再经过2层全连接层(Dense)得到最终的预估音质评估信息,其中,O对应预估音质评估信息的维度,在本公开中O=1。需要说明的是,CNN表示卷积神经网络,RNN表示循环神经网络,FC表示全连接。
需要说明的是,上述给出的音质评估模型的网络结构仅仅是一个示例,任何可以将音频样本的音频特征映射到音质评估信息的网络结构,均可以用作本公开音质评估模型的网络结构,对此,本公开并不进行限定。
根据本公开的示例性实施例,至少一层二维卷积层中每层二维卷积层包括S型函数。根据本实施例,通过S型函数引入类似于注意力的机制,使得模型能更加侧重于重要的特征。
具体地,图3中每个GConv2d的具体定义可以如图4所示,上面的分支包含二维卷积层(conv2d)、批量标准化层(batchnorm,缩写为BN)和丢弃网络(dropout)层,下面的分支通过conv2d和S型函数(sigmoid)层引入类似于注意力的机制,使得音质评估模型可以更加侧重于重要的特征。
根据本公开的示例性实施例,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。根据本实施例,音频样本的音频特征采用梅尔频谱,可以得到相对准确的音质评估信息。
具体地,可以提取音频样本的音频特征,如梅尔频谱,再通过音质评估模型进一步提取音频样本的音质相关信息,进而输出音频样本的预估音质评估信息。需要说明的是,上述音频特征还可以修正离散余弦变换(Modified Discrete Cosine Transform,缩写为MDCT),并不局限于梅尔谱特征,对此本公开并不进行限定。
例如,假设音频特征是梅尔频谱,可以通过如下方式获取:先通过短时傅里叶变换处理音频样本得到相应频谱,再将得到的相应频谱与若干个梅尔滤波器点乘,即可以得到梅尔频谱,其中,对于44.1kHz采样的音频样本,梅尔滤波器个数可以设置为120,但是本公开对此并不进行限定。
返回图2,在步骤S203中,基于音频样本的音质评估标签和预估音质评估信息,计算损失。本步骤中的损失可以采用均方误差(Mean Square Error,缩写为MSE),当然也可以采用其他损失,对此本公开并不进行限定。
根据本公开的示例性实施例,基于音频样本的音质评估标签和预估音质评估信息,计算损失,包括:获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。根据本实施例,将音质评估标签和预估音质评估信息的均方误差作为损失,可以方便快速的得到损失。
在步骤S204中,基于损失调整音质评估模型的参数。在本步骤的音质评估模型训练过程中,可以通过最小化上述均方误差MSE,来迭代模型的参数直至模型收敛,得到最终的音质评估模型。
根据本公开的示例性实施例,基于损失调整音质评估模型的参数,包括:通过最小化均方误差,调整音质评估模型的参数。根据本实施例,通过最小化均方误差,可以快速收敛模型且可以得到效果相对较好的模型。
为了更好的理解本公开,下面结合图5系统的说明,图5是根据一示例性实施例示出的一种模型训练框架示意图,如图5所示,本公开的音质评估模型的训练过程主要包括数据合成和模型训练两个部分:1)数据合成阶段:基于原始音频和多种损失类型合成大量损伤音频,也即大量的音频样本,集中在一起得到音频样本集,而且,在本阶段还可以融合多种客观音频质量评估指标(也即图5中的客观指标),以便使用该融合后的结果来训练音质评估模型。2)模型训练阶段,从音频样本中提取对应的音频特征,通过音质评估模型(也即图5中的神经网络)来估计音频样本的预估音质评估信息(也即图5中的客观指标估计),从而通过最小化音质评估标签和预估音质评估信息之间的均方误差,来迭代模型的参数直至模型收敛,得到最终的音质评估模型。
图6是根据一示例性实施例示出的一种音质评估方法的流程图,如图6所示,音质评估方法包括以下步骤:
在步骤S601中,获取待评估音频。待评估音频可以是包括语音、音乐、各种音效和环境声等类型的音频,也可以是包括这些类型的混合音频(如带背景音乐的语音),对此本公开并不进行限定。
在步骤S602中,将待评估音频输入音质评估模型,得到待评估音频的音质评估信息,其中,音质评估模型是通过如上任意的训练方法训练得到。
综上,本公开通过合成大量的模拟音频损伤数据,也即大量的音频样本,以音频样本融合后的客观音频质量评估指标作为训练目标,最终得到无参考的音质评估模型,为流媒体等音频相关平台提供了一种有效的音频质量评估方法。
图7是根据一示例性实施例示出的一种音质评估模型的训练装置的框图。参照图7,该装置包括样本获取单元70、音质预估单元72、损失获取单元74和训练单元76。
样本获取单元70,被配置为获取音频样本,其中,音频样本中的每个音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到;音质预估单元72,被配置为将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;损失获取单元74,被配置为基于音频样本的音质评估标签和预估音质评估信息,计算损失;训练单元76,被配置为基于损失调整音质评估模型的参数。
根据本公开的示例性实施例,样本获取单元70,还被配置为通过如下方式得到音质评估标签:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。
根据本公开的示例性实施例,样本获取单元70,还被配置确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。
根据本公开的示例性实施例,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
根据本公开的示例性实施例,样本获取单元70,还被配置为通过以下至少一种处理方式得到音频样本:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。
根据本公开的示例性实施例,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,音质预估单元72,还被配置为将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。
根据本公开的示例性实施例,音质预估单元72,还被配置为对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。
根据本公开的示例性实施例,损失获取单元74,还被配置为获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。
根据本公开的示例性实施例,训练单元76,还被配置为通过最小化均方误差,调整音质评估模型的参数。
图8是根据一示例性实施例示出的一种音质评估装置的框图。参照图8,该装置包括待评估音频获取单元80和音质信息获取单元82。
待评估音频获取单元80,被配置为获取待评估音频;音质信息获取单元82,被配置为将待评估音频输入音质评估模型,得到待评估音频的音质评估信息,其中,音质评估模型是通过如上任意的训练方法训练得到。
根据本公开的实施例,可提供一种电子设备。图9是根据本公开实施例的一种电子设备900的框图,该电子设备包括至少一个存储器901和至少一个处理器902,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的音质评估模型的训练方法和/或音质评估方法。
作为示例,电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备900中,处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器902还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器902可运行存储在存储器中的指令或代码,其中,存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器901可与处理器902集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器901可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器902能够读取存储在存储器901中的文件。
此外,电子设备900还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的音质评估模型的训练方法和/或音质评估方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的音质评估模型的训练方法和/或音质评估方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种音质评估模型的训练方法,其特征在于,包括:
获取音频样本,其中,所述音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,所述音质评估标签是基于音频样本的多个预定评估指标信息得到的;
将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息;
基于所述音频样本的音质评估标签和预估音质评估信息,计算损失;
基于所述损失调整所述音质评估模型的参数。
2.如权利要求1所述的训练方法,其特征在于,所述音质评估标签通过如下方式得到:
基于音频样本和对应的原始音频,得到所述音频样本的多个预定评估指标信息;
将所述多个预定评估指标信息进行融合,得到所述音频样本的音质评估标签。
3.如权利要求2所述的训练方法,其特征在于,所述将所述多个预定评估指标信息进行融合,得到所述音频样本的音质评估标签,包括:
确定所述多个预定评估指标信息中每个预定评估指标信息的权重;
基于所述权重,将所述多个预定评估指标信息进行线性融合,得到所述音频样本的音质评估标签。
4.如权利要求1所述的训练方法,其特征在于,所述预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
5.如权利要求2所述的训练方法,其特征在于,所述音频样本通过以下至少一种处理方式得到:
通过至少一种码率的编码方式对与所述音频样本对应的原始音频进行编码,得到所述音频样本;
通过至少一种截止频率的滤波器对与所述音频样本对应的原始音频进行滤波,得到所述音频样本。
6.如权利要求1所述的训练方法,其特征在于,所述音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,
所述将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息,包括:
将所述音频样本的音频特征输入所述至少一层二维卷积层,得到所述音频样本的损伤信息;
将所述损伤信息输入所述至少一层双向循环网络层,得到所述音频样本的融合损伤信息;
将所述融合损伤信息输入所述至少一层全连接层,得到所述音频样本的预估音质评估信息。
7.如权利要求1所述的训练方法,其特征在于,所述将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息,包括:
对所述音频样本进行短时傅里叶变换,得到所述音频样本的频谱;
将所述频谱输入至少一个梅尔谱滤波器,得到所述音频样本的梅尔频谱;
将音频样本的梅尔频谱输入所述音质评估模型,得到所述音频样本的预估音质评估信息。
8.如权利要求1所述的训练方法,其特征在于,所述基于所述音频样本的音质评估标签和预估音质评估信息,计算损失,包括:
获取所述音频样本的音质评估标签和预估音质评估信息的均方误差,作为所述损失。
9.如权利要求8所述的训练方法,其特征在于,所述基于所述损失调整所述音质评估模型的参数,包括:
通过最小化所述均方误差,调整所述音质评估模型的参数。
10.一种音质评估方法,其特征在于,包括:
获取待评估音频;
将所述待评估音频的音频特征输入音质评估模型,得到所述待评估音频的音质评估信息,
其中,所述音质评估模型是通过如权利要求1至9中的任意一项所述的训练方法训练得到。
11.一种音质评估模型的训练装置,其特征在于,包括:
样本获取单元,被配置为获取音频样本,其中,所述音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,所述音质评估标签是基于音频样本的多个预定评估指标信息得到的;
音质预估单元,被配置为将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息;
损失获取单元,被配置为基于所述音频样本的音质评估标签和预估音质评估信息,计算损失;
训练单元,被配置为基于所述损失调整所述音质评估模型的参数。
12.一种音质评估装置,其特征在于,包括:
待评估音频获取单元,被配置为获取待评估音频;
音质信息获取单元,被配置为将所述待评估音频输入音质评估模型,得到所述待评估音频的音质评估信息,
其中,所述音质评估模型是通过如权利要求1至9中的任意一项所述的训练方法训练得到。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的音质评估模型的训练方法和/或权利要求10所述的音质评估方法。
14.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至9中任一项所述的音质评估模型的训练方法和/或权利要求10所述的音质评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310019263.6A CN116092529A (zh) | 2023-01-06 | 2023-01-06 | 音质评估模型的训练方法及装置、音质评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310019263.6A CN116092529A (zh) | 2023-01-06 | 2023-01-06 | 音质评估模型的训练方法及装置、音质评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092529A true CN116092529A (zh) | 2023-05-09 |
Family
ID=86203960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310019263.6A Pending CN116092529A (zh) | 2023-01-06 | 2023-01-06 | 音质评估模型的训练方法及装置、音质评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092529A (zh) |
-
2023
- 2023-01-06 CN CN202310019263.6A patent/CN116092529A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6732296B2 (ja) | オーディオ情報処理方法およびデバイス | |
CN112927707A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
WO2024021882A1 (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN113241088B (zh) | 语音增强模型的训练方法及装置、语音增强方法及装置 | |
CN111309966B (zh) | 音频匹配方法、装置、设备及存储介质 | |
CN113192536B (zh) | 语音质量检测模型的训练方法、语音质量检测方法及装置 | |
CN107680584B (zh) | 用于切分音频的方法和装置 | |
CN117059106A (zh) | 有声书的音效音频生成方法、设备以及可读存储介质 | |
CN113593594B (zh) | 语音增强模型的训练方法和设备及语音增强方法和设备 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN113035221B (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
JP7288062B2 (ja) | 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN113591853A (zh) | 关键词提取方法、装置及电子设备 | |
CN111445922B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
WO2023226572A1 (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
CN113555031B (zh) | 语音增强模型的训练方法及装置、语音增强方法及装置 | |
CN112423019A (zh) | 调整音频播放速度的方法、装置、电子设备及存储介质 | |
CN116092529A (zh) | 音质评估模型的训练方法及装置、音质评估方法及装置 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN114242110A (zh) | 模型训练方法、音频处理方法、装置、设备、介质及产品 | |
CN114283833A (zh) | 语音增强模型训练方法、语音增强方法、相关设备及介质 | |
CN113223485A (zh) | 节拍检测模型的训练方法、节拍检测方法及装置 | |
CN112687247A (zh) | 音频对齐方法、装置、电子设备及存储介质 | |
CN113436644B (zh) | 音质评估方法、装置、电子设备及存储介质 | |
CN114822492B (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |