CN116075890A - 结合标记数据和未标记数据学习音频质量指标的方法 - Google Patents

结合标记数据和未标记数据学习音频质量指标的方法 Download PDF

Info

Publication number
CN116075890A
CN116075890A CN202180058804.5A CN202180058804A CN116075890A CN 116075890 A CN116075890 A CN 116075890A CN 202180058804 A CN202180058804 A CN 202180058804A CN 116075890 A CN116075890 A CN 116075890A
Authority
CN
China
Prior art keywords
audio
degradation
information
loss function
audio samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180058804.5A
Other languages
English (en)
Inventor
J·塞拉
J·庞斯普伊格
S·帕斯夸尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN116075890A publication Critical patent/CN116075890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

描述了一种训练用于确定对音频输入的音频质量的指示的基于神经网络的系统的方法。所述方法包括获得包括音频样本的至少一个训练集作为输入。所述音频样本包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标的相应音频质量指标的信息来标记。所述方法进一步包括:将所述训练集输入到所述基于神经网络的系统中;以及迭代地训练所述系统以预测所述训练集中的所述音频样本的相应标签信息。

Description

结合标记数据和未标记数据学习音频质量指标的方法
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2020年6月22日提交的ES申请202030605(参考号:D20045ES)、于2020年8月31日提交的美国临时申请63/072,787(参考号:D20045USP1)、于2020年10月13日提交的美国临时申请63/090,919(参考号:D20045USP2)以及于2020年10月22日提交的EP申请20203277.7(参考号:D20045EP),所述申请通过引用并入本文。
技术领域
本公开总体上涉及音频处理领域。具体地,本公开涉及用于使用机器学习模型或系统进行语音/音频质量评估的技术,并且涉及用于训练用于语音/音频质量评估的机器学习模型或系统的框架。
背景技术
语音或音频质量评估对于无数的研究课题和现实世界应用是至关重要的。其需求范围从算法评估和开发到基本分析或知情决策。广义上讲,可以通过主观听觉测试或客观质量指标来执行音频质量评估。与人工判断密切相关的客观指标为扩展自动质量评估提供了可能性,只需主观指标的努力、时间和成本的一小部分就可得到一致结果。传统的客观指标依赖于如短时傅里叶变换等标准信号处理块或如伽马通滤波器组等感知激励块。这些与进一步的处理块一起创建了通常错综复杂的基于规则的系统。替代方法是通过将机器学习技术与精心选择的刺激及其对应的人工评级相结合,直接从原始数据中学习语音质量。基于规则的系统可能具有感知激励的优势,并且在某种程度上是可解释的,但通常只关注特定类型的信号或退化,如电话信号或IP语音(VoIP)退化。另一方面,基于学习的系统通常很容易重新用于其他任务和退化,但需要大量的人工注释数据。另外,基于规则的系统和基于学习的系统都可能缺乏泛化能力,因此在样本外但仍在焦点上的数据上表现不佳。
因此,需要执行(自动)音频质量评估的方法和系统,并且可能还需要训练这种用于(自动)评估音频质量的系统的方法,使得可以实现改善的性能(例如,在错误率、一致性等方面)和/或效率,同时允许对新音频(例如,录音)和/或听众的良好泛化。
发明内容
鉴于以上所述,本公开总体上提供了一种训练用于确定对音频输入的音频质量的指示的基于神经网络的系统的方法、一种用于确定对输入音频样本的音频质量的指示的基于神经网络的系统和一种操作用于确定对输入音频样本的音频质量的指示的基于神经网络的系统的方法,以及具有相应独立权利要求的特征的对应程序、计算机可读存储介质和装置。从属权利要求涉及优选实施例。
根据本公开的一方面,提供了一种训练用于确定对音频输入的音频质量的指示的基于深度学习(例如,基于神经网络)的系统的方法。训练可以意指确定用于实施所述系统的(多个)深度学习模型(例如,(多个)神经网络)的参数。进一步,训练可以意指迭代训练。例如,对音频输入的音频质量的指示可以是得分。如果需要,得分可以被标准化(限制)为预定范围,如介于1与5之间。所述方法可以包括获得包括音频样本的至少一个训练集作为(多个)输入。特别地,音频样本可以包括第一类型的音频样本和第二类型的音频样本。更特别地,第一类型的音频样本中的每一个可以用指示相应的预定音频质量指标(例如,介于1与5之间)的信息来标记,并且第二类型的音频样本中的每一个可以用指示相对于参考音频样本的音频质量指标(例如,相对于训练集中另一个音频样本的音频质量指标)的相应音频质量指标的信息来标记。换句话说,第一类型的音频样本可以被视为每一个都包括指示绝对音频质量指标(例如,在1与5之间标准化,其中5是最高音频质量)的标签信息。相比之下,第二类型的音频样本可以被视为每一个都包括指示相对音频质量指标的标签信息。如技术人员可以理解和认识到的,这里使用的参考音频样本可以是但不一定必须是训练集中的另一个音频样本。换句话说,参考音频样本可以是外部参考音频样本(即,不在训练集中)或内部参考音频样本(即,在训练集内)。此外,参考音频样本可以是任何合适的音频样本,例如,预定义或预定的音频样本,其可以充当(比较)参考,使得在广义上可以通过将音频样本与参考音频样本进行比较来确定(例如,计算)相对指标。在一些示例中,相对标签信息可以包括指示音频样本比(预定)参考音频样本(例如,训练集中的另一个音频样本)退化更多(或更少)的信息。在一些示例中,相对标签信息可以包括指示特定退化函数(以及可选地,对应退化强度)的信息,所述退化函数在生成(退化的)音频样本时已经被应用于例如参考音频样本(例如,训练集中的另一个音频样本)。当然,如技术人员将理解和认识到的,如果需要或适当,可以包括任何其他合适的相对标签信息。所述方法可以进一步包括将训练集输入到基于深度学习的系统,以及迭代地训练所述系统以预测训练集中的音频样本的相应标签信息。训练可以基于多个损失函数。特别地,所述多个损失函数可以被生成为反映训练集中的音频样本的标签信息与其相应预测之间的差异。
如上所述配置的,广义上讲,所提出的方法可以训练产生非侵入式质量评级的神经网络。因为评级是从数据中学习的,所以可以通过改变用于训练的音频类型来重新利用焦点,并且还可以选择感兴趣的退化来学习。值得注意的是,所提出的方法通常是半监督的,这意味着其可以利用从不同数据源获得的绝对评级和相对评级。这样,所述方法可以减少对昂贵且耗时的听众数据的需求。除了从多个源学习之外,所提出的方法还通过基于(根据数据源中的音频样本生成的)多个损失函数训练网络来从那些源的多个特性中学习,因此导致更一般的自动测量。
在一些示例中,第一类型的音频样本可以包括人工注释的音频样本。每个人工注释的音频样本可以用指示相应的预定音频质量指标的信息来标记。如技术人员可以理解和认识到的,音频样本可以用任何合适的方式来注释,例如由音频专家、普通听众、机械工人(mechanical turker)(例如,众包)等来注释。
在一些示例中,人工注释的音频样本可以包括平均意见得分(MOS)音频样本和/或最小可觉差(JND)音频样本。附录的B.1和B.2部分分别给出了MOS数据集和JND数据集的一些可能的示例。
在一些示例中,第二类型的音频样本可以包括算法(或编程、人工)生成的音频样本,每个音频样本用指示相对音频质量指标的信息来标记。
在一些示例中,每个算法生成的样本可以通过将各自具有相应退化强度的至少一个退化函数选择性地应用于参考音频样本或另一个算法生成的音频样本来生成。在这样的示例中,标签信息可以包括指示已经应用于所述参考音频样本或所述另一个算法生成的音频样本的相应退化函数和/或相应退化强度的信息。当然,如技术人员将认识到的,任何其他合适的算法和/或程序可以用于生成第二类型的音频样本。
在一些示例中,标签信息可以进一步包括指示相对于彼此的退化的信息。也就是说,在一些示例中,标签信息可以进一步包括指示相对于参考音频样本或训练集中的其他音频样本的退化的信息。例如,标签信息可以包括指示一个音频样本比另一个音频样本(例如,外部参考音频样本或训练集中的另一个音频样本)退化相对更多或更少的相对信息。
在一些示例中,退化函数可以选自多个可用的退化函数。例如,多个可用的退化函数可以被实施为退化函数池。另外地或替代性地,相应退化强度可以被设置为使得在其最小值处退化可能仍然在感知上是明显的(例如,由专家、听众或作者感知)。
在一些示例中,多个可用退化函数可以包括与以下各项的一个或多个函数、操作或过程相关的函数:混响、削波、用不同编解码器进行的编码、相位失真、音频反转以及背景噪声。进一步,(背景)噪声可以包括真实的(例如,记录的)背景噪声或人工生成的背景噪声。注意,在一些情况下,所选退化强度可能只是整个退化的一个方面,并且对于其他相关方面,可以在根据经验选择的值之间随机取样。例如,对于混响效果的情况,可以选择信噪比(SNR)作为主要强度,但是也可以随机选择混响类型、宽度、延迟等。附录的C部分给出了退化和/或强度的一些可能的示例。
在一些示例中,算法生成的音频样本可以被生成为音频帧对{xi,xj}和/或音频帧四元组
Figure BDA0004113602100000041
特别地,音频帧xi可以通过将各自具有相应退化强度的至少一个退化函数选择性地应用于(例如,外部)参考音频帧(或训练集中的音频帧)来生成。然后,音频帧xj可以通过将各自具有相应退化强度的至少一个退化函数选择性地应用于音频帧xi来生成。进一步,音频帧
Figure BDA0004113602100000042
Figure BDA0004113602100000043
可以通过将相应时间延迟选择性地应用于音频帧xi来从音频帧xi中提取,并且音频帧
Figure BDA0004113602100000044
Figure BDA0004113602100000045
可以通过将相应时间延迟选择性地应用于音频帧xj来从音频帧xj中提取。通过示例而非限制的方式,音频帧xi的长度可以是1.1秒,并且从1.1秒音频帧xi中提取的音频帧
Figure BDA0004113602100000046
Figure BDA0004113602100000047
的长度可以是1秒。如技术人员可以理解和认识到的,根据各种实施方式和/或要求,音频样本可以以任何合适的方式生成。
在一些示例中,损失函数可以包括指示MOS误差指标的第一损失函数。第一损失函数可以基于训练集中的音频样本的MOS真实数据与对音频样本的预测之间的差异来计算。在这个意义上,第一损失函数在一些情况下也可以被认为是指示MOS意见得分指标。当然,如技术人员将理解和认识到的,除了差异之外,可以使用任何其他合适的手段(如合适的数学概念,像散度或交叉熵)来确定(计算)第一损失函数(或将在下面详细讨论的任何其他合适的损失函数)。
在一些示例中,第二类型的音频样本的标签信息可以包括指示一个音频样本是否比另一个音频样本退化更多(或者在一些情况下退化更少)的相对(标签)信息。除了或代替如上所示的第一损失函数,另外的损失函数可以包括指示成对排序指标的第二损失函数。特别地,第二损失函数可以基于由包括相对退化信息及其预测的标签信息建立的排序来计算。
在一些示例中,所述系统可以以这样的方式训练,即一个退化较少的音频样本比另一个退化较多的音频样本获得指示更好的音频质量的音频质量指标。
在一些示例中,第二类型的音频样本的标签信息可以包括指示音频样本之间的感知相关性的相对信息。例如,感知相关性可以指示两个音频样本之间或两对音频样本之间的感知差异或感知相似性。也就是说,广义上讲,如果两个音频信号是从相同的(音频)源提取的并且仅相差几个音频样本,或者如果两个信号之间的差异在感知上是不相关的,则其相应质量指标(或质量得分)应该基本上相同。补充地,如果两个信号在感知上是可区分的,则其指标/得分差异应该在某个界限之上。值得注意的是,例如,通过考虑得分差异对之间的一致性,这两个概念还可以扩展到成对的对。因此,损失函数可以另外地或替代性地包括指示一致性指标的第三损失函数,并且特别地,第三损失函数可以基于包括感知相关性信息的标签信息与其预测之间的差异来计算。在这个意义上,第三损失函数在一些情况下也可以被认为是指示得分一致性指标。
在一些示例中,一致性指标可以指示两个或更多个音频样本是否具有相同的退化函数和/或退化强度以及是否对应于相同的时间帧。
在一些示例中,第二类型的音频样本的标签信息可以包括指示一个音频样本是否已经被应用了与另一个音频样本相同的退化函数和相同的退化强度的相对信息。因此,损失函数可以另外地或替代性地包括指示(相同或不同)退化条件指标的第四损失函数。特别地,第四损失函数可以基于包括相对退化信息/条件的标签信息与其预测之间的差异来计算。
在一些示例中,第二类型的音频样本的标签信息可以包括指示相对于彼此的感知差异的相对信息。因此,损失函数可以另外地或替代性地包括指示JND指标的第五损失函数,并且第五损失函数可以基于包括相对感知差异的标签信息与其预测之间的差异来计算。
在一些示例中,第二类型的音频样本的标签信息可以包括指示已经应用于音频样本的退化函数的信息。因此,损失函数可以另外地或替代性地包括指示退化类型指标的第六损失函数。特别地,第六损失函数可以基于包括相应退化函数类型信息的标签信息与其预测之间的差异来计算。
在一些示例中,第二类型的音频样本的标签信息可以包括指示已经应用于音频样本的退化强度的信息。因此,损失函数可以另外地或替代性地包括指示退化强度指标的第七损失函数。并且第七损失函数可以基于包括相应退化强度信息的标签信息与其预测之间的差异来计算。
在一些示例中,损失函数还可以另外地或替代性地包括指示回归指标的第八损失函数。特别地,回归指标可以根据基于参考的质量度量和/或无参考的质量度量中的至少一个来计算。
在一些示例中,基于参考的质量度量可以包括但不限于以下各项中的至少一项:语音质量的感知评估(PESQ)、信号的复合测量(CSIG)、噪声的复合测量(CBAK)、整体质量的复合测量(COVL)、分段信噪比(SSNR)、对数似然比(LLR)、加权斜率谱距离(WSSD)、短期客观可懂度(STOI)、尺度不变信号失真比(SISDR)、梅尔倒谱失真以及对数梅尔频带失真。当然,如技术人员将认识到的,可以使用任何其他合适的基于参考的质量度量和/或无参考的质量度量。
在一些示例中,训练集中的每个音频样本可以在多个损失函数中的至少一个中使用。也就是说,训练集中的一些音频样本可以被一个或多个损失函数重新使用或共享。例如,用于计算第三损失函数(即,得分一致性指标)的(算法生成的)音频样本可以在计算第四损失函数(即,相同/不同的退化条件指标)时被重新使用,反之亦然。这样,可以显著提高训练系统的效率。特别地,可以基于多个损失函数中的一个或多个的求平均过程来生成用于训练的最终损失函数。如技术人员将认识到的,根据各种实施方式和/或要求,可以使用任何其他合适的手段或过程来生成基于任何数量的合适损失函数的最终损失函数。
在一些示例中,所述系统可以包括用于将音频输入映射(例如,变换)到特征空间表示的编码级(或简称为编码器)。例如,特征空间表示可以是(特征)潜在空间。所述系统然后可以进一步包括用于基于特征空间表示来生成对标签信息的预测的评估级。
在一些示例中,用于生成中间表示的编码级可以包括神经网络编码器。
在一些示例中,可以基于包括线性层或多层感知器MLP的神经网络来确定多个损失函数中的每一个。
根据本公开的另一方面,提供了一种用于确定对输入音频样本的音频质量的指示的基于深度学习(例如,基于神经网络)的系统。可以根据如上所示的示例中的任一者来训练所述系统。特别地,所述系统可以包括编码级和评估级。更特别地,编码级可以被配置为将输入音频样本映射到特征空间表示。进一步,评估级可以被配置为基于所述特征空间表示来预测指示预定音频质量指标的信息,并且进一步预测指示相对于参考音频样本的相对音频质量指标的信息。如技术人员可以理解和认识到的,这里使用的参考音频样本可以是但不一定必须是用于训练所述系统的训练集中的另一个音频样本。换句话说,参考音频样本可以是外部参考音频样本(即,不在训练集中)或内部参考音频样本(即,在训练集内)。此外,参考音频样本可以是任何合适的音频样本,例如,预定义或预定的音频样本,其可以充当(比较)参考,使得在广义上可以通过将音频样本与参考音频样本进行比较来确定(例如,计算)相对指标。此外,预测信息(例如,指示相对于参考音频样本的相对音频质量指标的信息)可以用于进一步训练(调整)所述系统。
在一些示例中,所述系统可以被配置为将至少一个训练集作为输入。特别地,训练集可以包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标或相对于训练集中的另一个音频样本的音频质量指标的相应音频质量指标的信息来标记。进一步,所述系统可以被配置为将训练集输入到系统中;以及基于所述训练集迭代地训练所述系统,以基于多个损失函数来预测所述训练集中的音频样本的相应标签信息,所述多个损失函数被生成为反映所述训练集中的音频样本的标签信息与其相应预测之间的差异。
根据本公开的又另一方面,提供了一种操作用于确定对输入音频样本的音频质量的指示的基于深度学习(例如,基于神经网络)的系统的方法。所述系统可以对应于如上所示的示例系统中的任一者;并且所述系统可以根据如上所示的示例方法中的任一者来训练。例如,所述系统可以包括编码级和评估级。特别地,所述方法可以包括由编码级将输入音频样本映射到特征空间表示。所述方法可以进一步包括由评估级基于特征空间表示来预测指示预定音频质量指标的信息和指示相对于参考音频样本的相对音频质量指标的信息。如技术人员可以理解和认识到的,这里使用的参考音频样本可以是但不一定必须是训练集中的另一个音频样本。换句话说,参考音频样本可以是外部参考音频样本(即,不在训练集中)或内部参考音频样本(即,在训练集内)。此外,参考音频样本可以是任何合适的音频样本,例如,预定义或预定的音频样本,其可以充当(比较)参考,使得在广义上可以通过将音频样本与参考音频样本进行比较来确定(例如,计算)相对指标。此外,预测信息(例如,指示相对于参考音频样本的相对音频质量指标的信息)可以用于进一步训练(调整)所述系统。
根据本公开的进一步的方面,提供了一种计算机程序。所述计算机程序可以包括指令,所述指令当由处理器执行时使所述处理器执行在整个公开中描述的示例方法的所有步骤。
根据进一步的方面,提供了一种计算机可读存储介质。所述计算机可读存储介质可以存储前述计算机程序。
根据又进一步的方面,提供了一种包括处理器和耦接到所述处理器的存储器的装置。所述处理器可以适于使所述装置执行在整个公开中描述的示例方法的所有步骤。
应当认识到,系统特征和方法步骤可以以许多方式互换。特别地,如技术人员将认识到的,所公开的(多种)方法的细节可以由对应系统来实现,反之亦然。此外,任何关于(多种)方法的上述陈述被理解为同样适用于对应系统,反之亦然。
附图说明
下文参考附图解释本公开的示例实施例,在附图中:
图1A是根据本公开的实施例的用于音频质量评估的系统的框图的示意图,
图1B是根据本公开的实施例的用于音频质量评估的系统的另一个框图的示意图,
图2是图示了根据本公开的实施例的训练用于确定对音频输入的音频质量的指示的基于深度学习的系统的方法的示例的流程图,
图3是图示了根据本公开的实施例的操作用于确定对输入音频样本的音频质量的指示的基于深度学习的系统的方法的示例的流程图,以及
图4至图8是示出了基于本公开的实施例的各种结果和比较的示例图示。
具体实施方式
附图(图)和以下描述仅通过说明的方式涉及优选实施例。应当注意的是,根据以下讨论,在不脱离所要求保护的原理的情况下,本文公开的结构和方法的替代实施例将很容易被认为是可以采用的可行替代方案。
现在将详细参考若干实施例,在附图中图示了这些实施例的示例。注意,只要可行,在附图中可以使用类似或相同的附图标记,并且其可以指示类似或相同的功能。仅出于说明的目的,附图描绘了所公开的系统(或方法)的实施例。本领域技术人员将从下面的描述中容易地认识到,在不脱离本文所描述的原理的情况下,可以采用本文所图示的结构和方法的替代实施例。
一般来说,质量评级在音频行业至关重要,其用途从监测声道失真到开发新的处理算法。传统上,质量评级是从普通听众或专家听众那里获得的,这在金钱、时间和基础设施方面都需要大量投入。在本公开中,提出了一种提供这种质量评级的自动工具。
用于测量音频质量的自动工具(或算法)的目的是获得人工评级的可靠代理,以解决上述投入问题。有几种用于测量音频文件的语音质量的自动工具。给定一些输入音频,这种工具产生与某种主观音频质量评级相关的得分,通常在1与5之间。
这些工具之间的一个区别是它们是否使用参考(纯净)音频进行比较(侵入式与非侵入式)。另一个区别是它们是手工制作/预定义的还是从数据中学习的。进一步的考虑因素是将要分析的音频的范围,以及将能够检测到度量的特定退化或失真。
因此,本公开的关键驱动因素是注意到除了与语音质量的惯例或合理的度量(如平均意见得分(MOS))相关之外,还应当考虑另外的评估标准/任务。特别是还决定借鉴这种另外的评估标准。本公开的另一个基本方面是认识到存在可以补充那些标准并帮助学习语音质量和得分的更鲁棒表示的进一步的目标、数据集和任务。
鉴于此,广义上讲,本公开提出了一种用于训练产生非侵入式质量评级的神经网络的方法。因为评级是从数据中学习的,所以可以通过改变用于训练神经网络的音频类型来重新利用焦点,并且还可以选择感兴趣的退化来学习。值得注意的是,所提出的方法通常是半监督的,这意味着所述方法可以利用从人类听众获得的评级(例如,嵌入在人工注释的数据中,有时也称为标记数据)和作为输入数据的原始(未评级)音频(有时也称为未标记数据)。这样,所述方法可以减少对昂贵且耗时的听众数据的需求。除了从多个源学习之外,所提出的方法还从那些源的多个表征中学习,因此导致更一般的自动测量。所提出的方法(和系统)的附加设计原理可以包括但不限于本质上完全可微分的轻量和快速操作,以及处理例如48kHz的短时原始音频帧的能力(因此产生时变的动态估计)。
参考图1A,示出了根据本公开的实施例的用于音频质量评估的系统100的(简化)框图的示意图。系统100可以由编码级(或简称为编码器)1010和评估级1020构成。如图1A的示例所示,评估级1020可以包括一系列“头”1021、1022和1023,有时(统一)表示为H。下面将参考图1B详细描述不同的头。广义上讲,每个头可以被认为是适合于确定与相应音频样本(帧)相关联的相应标签信息(例如,绝对质量指标或相对质量指标)的单独计算单元。通常,编码器1010可以采用原始输入音频信号(例如,音频帧)x 1000,并将其映射(或变换)为例如潜在空间表示(向量)z 1005。然后,不同的头可以采用这些潜在向量z 1005,并针对一个或多个所考虑的标准(其示例性地示出为1025)计算输出。值得注意的是,在一些情况下,当处理对{zi,zj}时,头可以将其串联(或任何其他合适的形式)作为输入。
在一些示例中,编码器1010可以包括四个主要级,如图1A所示。首先,编码器1010可以通过应用具有可学习μ的μ律公式(例如,不进行量化)来变换x 1000的分布。一般来说,μ律算法(有时写为“μ律”)是一种压扩算法,主要用于例如8位PCM数字电信系统。值得注意的是,压扩算法可以用来减小音频信号的动态范围。在模拟系统中,这可以提高传输期间实现的SNR;而在数字域,其可以减少量化误差(从而增加信号与量化噪声比)。例如,μ的值可能在开始时被初始化为8。接下来,可以采用块1001,在一些示例中,所述块可以包括一系列(例如,4个)池化子块,所述池化子块由卷积、批量归一化(BN)、修正线性单元(ReLU)激活、BlurPool或任何其他合适的块/模块构成。作为示例而非限制,可以使用内核宽度为4且下采样因子为4的32、64、128和256个滤波器。当然,如技术人员将认识到的,也可以采用任何其他合适的实施方式。例如,卷积的可能替代方案包括但不限于线性层、递归神经网络、注意力模块或变换器。批量归一化的可能替代方案包括但不限于层归一化、实例归一化或组归一化。在一些其他实施方式中,可以完全省略批量归一化。ReLU的可能替代方案包括但不限于S型门、tanh门、门控线性单元、参数化ReLU或泄漏型ReLU。BlurPool的可能替代方案包括但不限于步长卷积、最大池化或平均池化。应进一步理解,如技术人员将认识到的,前述替代实施方式可以根据需要或在可行的情况下彼此组合。
接下来,可以采用块1002,在一些示例中,所述块可以包括由BN预激活形成的多个(例如,6个)残差块,随后是3个块ReLU、卷积和BN。作为示例而非限制,可以使用内核宽度为1、3和1的512、512和256个滤波器,并且通过参数线性平均的残差连接:h′=a′h+(1-a′)F(h),其中a′=σ(a)是0与1之间的可学习参数的向量,并且F是残差网络(例如,a的所有分量可以被初始化为3,使得训练主要从h至h’的旁路开始)。在残差块1002之后,可以在块1003中计算时间方面的统计数据,例如取每个通道的平均值和标准偏差。该步骤可以将所有时间信息聚集成单个向量(例如,2×256维度)。随后,在块1004中,可以对这样的向量执行BN,然后将其输入到多层感知器(MLP)中,所述多层感知器由例如具有BN的两个线性层形成,在中间使用ReLU激活。作为示例而非限制,可以采用1024和200个单元。
现在参考图1B,其中示出了根据本公开的实施例的用于音频质量评估的系统110的更详细框图的示意图。值得注意的是,图1B的系统110中相同或相似的附图标记指示如图1A所示的系统100中相同或相似的元件,因此为了简明起见,可以省略对其的重复描述。特别地,在图1B的示例系统110中,重点将放在评估级1120,其中将在下面详细讨论头的不同学习/训练标准。
参考图1B的系统110,广义上讲,可以对(卷积)神经网络进行训练,所述神经网络可以将音频输入x 1100变换为(低维)潜在空间表示z 1105并且稍后可以输出单值得分s1140。类似于图1A所示的,网络/系统可以由两个主要块(级)形成,即输出潜在向量z 1105的编码级(或有时称为编码器网络)1110,以及包括多个不同“头”的评估级1120,所述评估级进一步处理潜在向量z 1105。值得注意的是,其中一个头负责产生最终得分s 1140,而其余的头通常用于调整潜在空间(它们也可以用作用于对其进行训练的量的预测器)。
类似于图1A,编码级1110可以采用音频的μ律对数表示,并使其通过一系列卷积块。例如,首先,多个BlurPool块(例如,1101)可以将信号抽取到较低的时间跨度。接下来,多个ResNet块(例如,1102)可以进一步处理所获得的表示。然后,可以采用如平均值、标准偏差、最小值和最大值等时间方面的统计数据(例如,1103)来概括音频帧。最后,可以使用MLP(例如,1104)来执行那些统计数据与z值1105之间的映射。
不同的头可以采用z向量1105并预测不同的量1121-1128。一般来说,在训练时,每个头可以具有使期望特性印记在得分s 1140或潜在空间z 1105上的损失函数。
值得注意的是,如技术人员将认识到的,得分s可以以任何合适的方式计算。关于可以如何计算得分s的一些可能的示例例如在附录的A部分中提供。
现在参考图1B的系统110,下面将详细讨论对应于可能的头的各种可能的学习或评估标准及其相应的损失函数的示例。在一些情况下,这些标准中的一些可以被认为是辅助任务。换句话说,当执行系统的训练时,并非所有的标准都必须被使用,并且根据各种实施方式和/或要求,一些标准可以被省略或忽视。当然,如技术人员将理解和认识到的,标准(或头)不限于本文讨论的那些,而是可以扩展或适于任何特定的情况。
平均意见得分
传统方法所考虑的主要且几乎唯一的标准可能是MOS误差。在一些情况下,这也可以简称为得分头1121。一般来说,该得分头可以将z 1105作为输入并使其通过例如线性层(也可以是MLP或任何其他合适的神经网络)1131,以产生单个质量得分值s。作为示例,这种得分可以用S型函数来界定,并重新缩放到例如1与5之间(例如,5是最高质量)。并且为了计算该头的损失,例如,可以使用由人类听众提供的评级(如果可用的话)。替代方式可以是使用由其他现有质量度量(基于参考或无参考)提供的评级。换句话说,广义上讲,可以认为损失函数可以包括指示MOS误差指标的第一损失函数,并且第一损失函数可以基于训练集中的音频样本的MOS真实数据与对音频样本的预测之间的差异来计算。
更具体地说(但不作为限制),在基于学习的方法中,通常设置有监督回归问题,使得
Figure BDA0004113602100000121
其中,
Figure BDA0004113602100000122
1141是MOS真实数据,si是模型预测的得分,并且||||对应于某个范数。例如,可以使用L1范数(平均绝对误差)或任何其他合适的范数。
在一个示例中,系统110可以通过使用例如线性单元和S型激活σ来预测潜在表示zi的得分si:si=1+4σ(wTzi+b),其中,示例系数1和4使得分适于1与5之间的MOS值。潜在表示Zi可以通过用神经网络编码器1110对原始音频帧xi进行编码来获得。
成对排序
除了MOS,质量评估中另一个直观但经常被忽视的概念可能是成对排序。在一些情况下,这也可以简称为排序头1122。一般来说,该成对排序头1122可以将得分对(例如s1和S2)作为输入,其可以在处理音频x1和x2之后从先前得分头获得。然后,其可以使用标志(如标签信息)来计算基于排序的损失,所述标志发信号通知哪个音频退化更多(或更少)(如果可用的话)。例如,如果x1比x2退化/失真更多(或相反),则损失可能会促使S1低于S2。换句话说,广义上讲,可以认为损失函数可以包括指示成对排序指标的第二损失函数,并且第二损失函数可以基于包括相对退化信息的标签信息(例如,由标签信息建立的排序)与其预测之间的差异来计算。
更具体地说(但不作为限制),在成对排序的概念下,如果语音信号xj是相同(最初为“纯净”或“更纯净的”)话语xi的编程(算法)退化版本,则其得分应该反映这种关系,即si≥sj。然后,可以通过考虑学习排序策略在训练方案中引入这种概念。在一个示例中,其可以遵循界限损失公式
LRANK=max(0,sj-si+α)                      (2)
其中,α=0.3(或任何其他合适的值)可以用作界限常数。
在一个示例中,对{xi,xj}1142可以通过考虑具有“纯净”语音(或者也称为参考语音)的多个数据集和若干退化函数的池来编程生成。
对{xi,xj}1142可以以任何合适的方式生成。作为示例而非限制,为了形成每个对,可以如下进行:
·对数据集进行均匀采样,并从中对文件进行均匀采样。
·对1.1s(或任何其他合适长度)的帧进行均匀采样,从而避免静音帧或主要静音帧。将其归一化,以使最大绝对幅度为1。
·在概率为0.84、0.12和0.04的情况下,从可用退化池中采样零次、一次或两次退化(稍后将详细讨论)。如果为零次退化,则信号直接变为xi。否则,可以统一选择每种退化的强度并顺序地应用以生成xi
·在概率为0.75、0.2、0.04和0.01的情况下,从可用退化池中采样一次、两次、三次或四次退化。统一选择强度并将其顺序地应用于xi以生成xj
应当理解,以上实施方式(包括所提及的概率)仅仅是为了说明的目的,而没有任何限制。如技术人员将认识到的,任何其他合适的概率或实施方式都可以应用于此。
然后,所生成的对{xi,xj}可以与退化类型和/或强度信息一起存储(例如存储为标签信息)。
关于用于生成对的可能方式的另外的信息也可以在例如附录的B.3部分中找到。
另外地或替代性地,也可以从例如(人工)注释的数据中收集随机对,从而根据例如对应的s*分配索引i和j,使得具有较大s*的对的元素可以得到索引i,反之亦然。对于来自注释数据的对,界限常数可以例如被设置为
Figure BDA0004113602100000131
或任何其他合适的值。
得分一致性
一致性也可能是音频质量评估中另一个被忽视的概念。一般来说,一致性头1123可以将分别对应于音频x1和x2的得分对s1和s2作为输入。然后,其可以使用标志(例如,标签信息)来计算基于距离的损失,所述标志发信号通知音频是否可能具有相同的退化类型和/或级别(如果可用的话)。例如,如果x1与x2具有相同的失真/退化并且处于相同级别,则损失可能会促使s1更接近s2(在一些情况下,如果需要,可以假设x1和x2中存在类似的原始内容)。其还可能会促使具有不同退化x′1和x′2的x1和x2的类似实现也可以紧密连接在一起(例如,具有x′1的x1和具有x′2的x2)。换句话说,广义上讲,可以认为损失函数可以包括指示一致性指标的第三损失函数,并且第三损失函数可以基于包括感知相关性信息的标签信息与其预测之间的差异来计算。
更具体地说(但不作为限制),在得分一致性的概念下,如果两个信号xk和xl从(本质上)相同的源中提取并且仅相差几个音频样本,或者如果两个信号xk和xl之间的差异在感知上不相关,则其得分应该本质上相同,即sk=sl。补充地,如果两个信号xi和xj在感觉上是可区分的,则其得分差异应该高于某个(例如,预定的)界限,即|si-sj|≥β。注意,通过考虑得分差异对之间的一致性,这两个概念还可以进一步扩展到例如成对的对。在一个可能的实施方式中,第一概念可以扩展为:如果有在感知上分别与xil和xjl相同的两个信号xik和xjk(其中xj比xi具有更多的退化,信号k和l从那些信号中提取),则得分差异应该趋于相等,即sik-sjk=sil-sjl
在一个示例中,如果考虑所有上述三个概念,则一致性损失可以被提出为
Figure BDA0004113602100000141
其中,β=0.1(或任何其他合适的值)是另一个界限常数。
值得注意的是,音频帧/信号对{xi,xj}1142可以在成对排序的计算期间如上所示地或者以任何其他合适的方式生成。进一步,可以例如通过从对xi和xj中提取音频帧四元组{xik,xil,xjk,xjl}1142并使用随机的小延迟(如低于100ms)来生成所述音频帧四元组。作为示例而非限制,为了由给定对{xi,xj}形成每个四元组,可以如下进行:
·对在0ms与100ms之间的时间延迟进行均匀采样。使用这样的延迟从xj中提取1s帧xik和xil,并对xj中的xjk和xjl进行同样的操作。
同上,所生成的四元组{xjk,xil,xjk,xjl}可以与退化类型和/或强度信息一起存储(例如存储为标签信息)。
关于用于生成四元组的可能方式的另外的信息也可以在例如附录的B.3部分中找到。
另外地或替代性地,也可以从(预定的)JND数据集1143中获得对{xi,xj}和/或{xk,xl},然后可以从那些对{xi,xj}和/或{xk,xl}中生成四元组{xik,xil,xjk,xjl}。
相同/不同条件
利用如上所述的LCONS的编程生成的数据,还可以提供关于对应于(本质上)相同的退化条件的信号对的信息,即,经历了相同退化类型以及(可选地)相同强度的信号。换句话说,广义上讲,可以认为损失函数可以包括指示退化条件指标的第四损失函数,并且第四损失函数可以基于包括相对退化信息的标签信息与其预测之间的差异来计算。
在一个可能的示例中,然后可以通过考虑头1124中的分类损失来包括该信息
LSD=BCE(δSD,HSD(zu,zv))                (4)
其中,BCE代表二元交叉熵,δSD∈{0,1}指示潜在向量zu和zv是否对应于相同的条件
Figure BDA0004113602100000151
Figure BDA0004113602100000152
并且H可以例如是小神经网络1132,其可以采用两个向量的串联并产生单个概率值。
最小可觉差
如以上所提及的,如果具有关于信号对的感知差异(或相关性)的人工注释的信号对可以从训练集访问或获得,则感知差异(或相关性)的这种概念可以例如用头1125中的另一分类损失在潜在空间中进一步加强
LJND=BCE(δJND,HJND(zu,zv))               (5)
其中,δJND∈{0,1}指示潜在表示zu和zv是否对应于JND。BCE(二元交叉熵)和H(小神经网络1133)可以与以上所示的那些相同或类似或者采用任何其他合适的形式。
换句话说,广义上讲,可以认为损失函数可以包括指示JND指标的第五损失函数,并且第五损失函数可以基于包括相对感知差异的标签信息与其预测之间的差异来计算。
退化类型
编程生成的数据的另一个优点是,如果从被认为纯净或没有明显退化的信号开始,就可以知道应用了哪些退化。因此,一般来说,该退化类型头(有时也称为分类头)1126可以获取潜在向量z并对其进行进一步处理(例如,通过MLP 1134)以产生概率输出。然后,其可以进一步使用标志(例如,标签信息)来计算二元交叉熵,所述标志发信号通知原始音频中的失真类型(如果可用的话)。换句话说,广义上讲,可以认为损失函数可以包括指示退化类型指标的第六损失函数,并且第六损失函数可以基于包括相应退化函数信息的标签信息与其预测之间的差异来计算。
更具体地,在一种可能的实施方式中,多类分类损失可以被构建为
Figure BDA0004113602100000161
其中,
Figure BDA0004113602100000162
指示潜在表示zi是否包含退化n。BCE(二元交叉熵)和H(神经网络1134)可以与以上所示的那些相同或类似或者采用任何其他合适的形式。在一些示例中,还可以包括没有退化的情况作为n种可能性之一,这种情况因此被视为独立地构成二元纯净/退化分类器。
退化强度
一般来说,该退化强度头1127(有时也称为退化头以区别于以上所示的分类头1126)可以获取潜在向量z并对其进行进一步处理(例如,通过MLP 1135)以产生输出,例如,1与5之间的值。然后,如果可用的话(例如,根据可用的标签信息),其可以利用已经引入到音频中的退化级别来计算基于回归的损失。在一些实施方式中,可以根据在训练网络/系统之前已经应用的(自动)退化算法来记录(存储)这种退化级别。换句话说,广义上讲,可以认为损失函数可以包括指示退化强度指标的第七损失函数,并且第七损失函数可以基于包括相应退化强度信息的标签信息与其预测之间的差异来计算。
更具体地说(但不作为限制),在对信号应用退化的时刻,通常也可以决定对应的退化强度(并应用于此)。因此,在可能的示例中,对应的回归量可以被添加为
Figure BDA0004113602100000163
其中,
Figure BDA0004113602100000164
指示退化n的强度。
其他质量评估度量
最后,由于已经生成了对{xi,xj},因此也可以在这些对上计算其他或传统的基于参考(或无参考)的质量度量并从中学习。
一般来说,该回归头1128可以获取潜在向量z并对其进行进一步处理(例如,通过MLP 1136)以产生与可用的或者已经为所考虑的音频预先计算的替代指标一样多的输出(如果可用的话)。换句话说,广义上讲,可以认为损失函数可以包括指示回归指标的第八损失函数,并且回归指标可以根据基于参考的质量度量和/或无参考的质量度量中的至少一个来计算。
在一个可能的实施方式中,回归损失池可以被执行为
Figure BDA0004113602100000171
其中,
Figure BDA0004113602100000172
是在{xi,xj}上计算的度量m的值。在一些示例中,如果需要,可以基于训练数据将
Figure BDA0004113602100000173
归一化为具有零均值和单位方差。基于参考的度量的一些可能的示例可以包括(但不限于)语音质量的感知评估(PESQ)、信号的复合测量(CSIG)、噪声的复合测量(CBAK)、整体质量的复合测量(COVL)、分段信噪比(SSNR)、对数似然比(LLR)、加权斜率谱距离(WSSD)、短期客观可懂度(STOI)、尺度不变信号失真比(SISDR)、梅尔倒谱失真以及对数梅尔频带失真。当然,如技术人员将认识到的,可以使用任何其他合适的基于参考的质量度量和/或无参考的质量度量。
值得注意的是,应当理解,训练集中的每个音频样本可以用于上述多个损失函数中的一个或多个(但不必是全部)。也就是说,训练集中的一些音频样本可以被一个或多个损失函数重新使用或共享。这也在图1B中反映和示出。例如,用于计算指示得分一致性头(指标)1123的损失函数的(算法生成的)音频样本1142可以在计算指示退化条件头(指标)1124的损失函数时被重新使用,反之亦然。这样,可以显著提高训练系统的效率。此外,应当注意,在一些情况下,其可以进一步被配置为基于多个损失函数中的一个或多个例如通过利用对那些损失函数的求平均过程来生成用于训练过程的最终(整体)损失函数。如技术人员将认识到的,根据各种实施方式和/或要求,可以使用任何其他适当的手段或过程来生成这种基于任何数量的合适损失函数的最终损失函数。
此外,还应注意,上述多个头1121-1128可以由具有任何合适数量的单元(例如,400个)的线性层或MLP(例如,两层MLP)构成,也可能在末端都具有BN。在一些情况下,可能优选地使用简单的头,以便促使编码器而不是头来学习即使容量有限的网络也能成功利用的高级特征。在一些情况下,是否使用线性层或MLP的决策可能基于这样的想法,即辅助任务越相关,头的容量就应该越小。这样,在一些实施方式中,可以凭经验选择用于得分s(即,1131)以及JND和DT头(即,分别为1133和1134)的线性层。注意,为这三个头设置线性层可以为潜在空间提供有趣的属性,使其反映潜在表示之间的‘距离’(由于s和LJND),并促进退化类型的组/集群(由于LDT)。当然,如技术人员将认识到的,任何其他合适的配置都可以应用于此。
图2是图示了根据本公开的实施例的训练用于确定对音频输入的音频质量的指示的基于深度学习(例如,基于神经网络)的系统的方法200的示例的流程图。所述系统可以例如与如图1A所示的系统100或如图1B所示的系统110相同或类似。
特别地,方法200从步骤S210开始,获得包括音频样本的至少一个训练集作为输入。更特别地,音频样本可以包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标(例如,相对于训练集中的另一个音频样本的音频质量指标)的相应音频质量指标的信息来标记。如以上所指示的,这里使用的参考音频样本可以是但不一定必须是训练集中的另一个音频样本。换句话说,如技术人员将理解和认识到的,参考音频样本可以是外部参考音频样本(即,不在训练集中)或内部参考音频样本(即,在训练集中)。
如技术人员将认识到的,可以以任何合适的方式获得(生成)包括所需音频样本(以及适当的标签信息)的这种训练集。例如,对于第一类型的音频样本,可以使用人工注释的音频数据(样本、信号、帧),所述人工注释的音频数据可以从内部(例如,由音频专家、普通听众或机械工人)或外部(例如,使用公开可用的数据集)获得。作为示例,这种人工注释的音频数据可以是MOS数据、JND数据等。关于要用作人工注释的可能数据集的进一步信息也可以在例如附录的B.1和B.2部分中找到。另一方面,对于第二类型的音频样本,可以使用编程生成的音频数据(样本、信号、帧),所述编程生成的音频数据的一些示例已经在上面说明。关于要用作程序生成的可能数据集的进一步信息也可以在例如附录的B.3部分中找到。
方法200然后继续进行步骤S220,将训练集输入到基于深度学习(基于神经网络)的系统,如图1A中的输入x 1000或图1B中的x 1100。
随后,方法200执行步骤S230,迭代地训练系统以预测训练集中的音频样本的相应标签信息。特别地,可以基于多个损失函数来执行训练,并且可以生成多个损失函数以反映训练集中的音频样本的标签信息与其相应预测之间的差异,如以上参考图1B所图示的。
一般来说,整个网络/系统可以被端到端地训练,例如使用随机梯度下降方法和反向传播。在训练之前,可以如上所示述获取一组音频样本,并且可以对其执行若干次退化。如技术人员将认识到的,应用于其上的各种合适的退化可以包括但不限于涉及混响、削波、用不同的编解码器对其进行编码、相位失真、对其进行反转、添加(真实的或人工的)背景噪声等的操作/过程。下面给出了一些可能的退化作为示例,但不作为限制:
·附加真实噪声(来自不同来源)。
·附加人工噪声(生成的有色噪声)。
·附加音调/嗡嗡声。
·音频重采样。
·μ律量化。
·削波。
·音频反转。
·插入静音。
·插入噪声。
·插入衰减。
·扰动振幅。
·延迟。
·均衡、带通、带阻滤波。
·低/高通滤波。
·合唱。
·过载。
·相移器。
·音高移位。
·混响。
·颤音。
·相位失真:Griffin-Lim,随机相位,混洗相位,谱图孔洞,谱图卷积。
·转码(用音频编解码器编解码并重新编解码)。
值得注意的是,退化可以以非固定的方式应用于整个音频帧或仅应用于其某一部分。此外,在一些情况下,可以在这些音频对上运行一些现有的(自动)测量。自动生成的数据的主要用途是补充人工注释的数据,但是人们仍然可以在没有两者之一的情况下训练所公开的网络或系统,并且仍然以最小的适应获得合理的结果。
关于可能的退化函数和可选的其对应退化强度的进一步信息也可以在例如附录的C部分中找到。
系统可以根据任何合适的配置或设置以任何合适的方式进行训练。例如,在一些可能的实施方式中,系统可以用RangerQH优化器来训练,例如,通过使用默认参数和10-3的学习率来训练。学习率可能衰减某个因子(例如,在70%和90%的训练时为1/5)。进一步,为了有利于泛化并略微提高性能,如果需要,也可以在最后的训练时期采用随机加权平均。由于通常在几次迭代之后所有损失可能在类似的范围内,因此可能不执行损失加权。
一旦训练完成,经训练的系统然后可以被用于或操作用于确定输入音频的质量指示指标。现在参考图3,其中示出了图示了根据本公开的实施例的训练用于确定对音频输入的音频质量的指示的基于深度学习(例如,基于神经网络)的系统的方法300的示例的流程图。所述系统可以例如与如图1A所示的系统100或如图1B所示的系统110相同或类似。也就是说,所述系统可以包括合适的编码级和合适的评估级,如任一附图所示。此外,所述系统可能已经经历了例如图2所图示的训练过程。因此,为了简明起见,可以省略对其的重复描述。
特别地,方法300可以从步骤S310开始,由编码级将输入音频样本映射到特征空间表示(例如,如上所示的潜在空间表示z)。
然后,方法300可以继续进行步骤S320,由评估级基于特征空间表示来预测指示预定音频质量指标的信息和指示相对于参考音频样本的相对音频质量指标的信息。预测信息(例如,指示相对于参考音频样本的相对音频质量指标的信息)可以用于进一步训练(调整)系统,如上文参考图1B详细说明的。
这样,可以生成如得分(例如,如图1B所示的得分s 1140)等最终质量指标,使得输出指标(或得分)然后可以用作对输入音频样本的质量的指示。如以上所提及的,指标(或得分)可以被生成为任何合适的表示,如1与5之间的值(例如,1或5指示最高音频质量)。
总而言之,广义上讲,本公开提出了遵循半监督方法来学习结合多个目标的语音质量模型。在一些情况下,所公开的方法有时也可以简称为半监督语音质量评估(或简称为SESQA)。特别地,本公开从现有的标记数据以及(理论上无限)数量的未标记或编程生成的数据中学习,并且产生语音质量得分以及可用的潜在特征和信息辅助输出。在多任务设置中,得分和输出可以通过一些不同但互补的客观标准同时优化,因为所有这些标准中都存在相关线索。通过使信息流经共享的潜在空间瓶颈,所考虑的目标学习合作,并促进更好和更鲁棒的表示,同时丢弃不必要的信息。
值得注意的是,可以以多种方式利用本公开,例如(但不限于):
·作为用于获得上传音频的质量得分的云API。
·作为用于监测通信的工具。
·作为用于监测编解码器退化的工具。
·作为用于评估音频处理算法的性能的(例如,内部)工具。
·作为用于训练或调整深度学习模型(例如,神经网络模型)的损失函数。
·作为用于知晓音频信号中存在哪种类型的失真的特征提取器。
当然,如技术人员将理解和认识到的,可以利用任何其他合适的用例。
图4至图8是分别示出基于本公开的(多个)实施例的各种结果和比较的示例图。特别地,用许多现有方法或传统方法进行定量比较。特别地,与用于比较的一些现有方法相关的细节可以例如在附录的D部分中找到。
此外,要注意的是,为了评估的目的,本公开通常使用3个MOS数据集,即两个内部数据集和一个公开可用的数据集。第一内部数据集由1,109段录音和总共1.5h的音频构成,以主要是用户生成的内容(UGC)为特征。第二内部数据集由8,016段录音和15h的音频构成,以电话和VoIP退化为特征。第三数据集是TCD-VoIP,其由384段录音和0.7h的音频构成,以大量VoIP退化为特征。我们使用的另一个数据集是JND数据集,其由20,797对录音和28h的音频构成。训练集的更多细节可以例如在附录的B部分中找到。对于数据的编程生成,本公开通常使用一组内部数据集和公共数据集,并且生成70,000个符合78h音频的四元组。进一步,总共采用了37种可能的退化,包括附加背景噪声、嗡嗡声、削波、声音效果、数据包丢失、相位失真以及多种音频编解码器(更多细节可以在附录的C部分中找到)。然后将本公开与ITU-P563进行比较,两种方法基于特征损失,一种使用JND(FL-JND),而另一种使用PASE(FL-PASE)、SRMR、Auto-MOS、质量网、WEnet、CNN-ELM和NISQA。为了评估的目的,如果需要/可能的话,其中一些方法已经被重新实施以适合本公开的训练和评估流水线,并且已经被适配成以48kHz工作。注意,FL、AutoMOS和NISQA通常利用MOS之外的部分附加数据,因此是弱半监督方法。关于基线方法的更多细节也可以在附录的D部分中找到。
所有方法都被置于相同的设置下,从而在验证集上选择其最佳优化器和超参数。通过在某个时期(epoch)内执行数据扩充并重新使用MOS数据(例如,时期可以被定义为编程生成的数据上的完整传递),用1s弱标记帧来对其进行训练,持续5个时期。随机缩放、相位反转和时间采样也可以用作数据扩充。为了评估,使用LMOS和LCONS,并且计算错误分类的排序的比率RRANK(针对可解释性报告RRANK而不是LRANK)。另外,计算汇总误差ETOTAL=0.5LMOS+RRANK+LCONS(引入0.5权重以补偿不同的范围)。还执行5重交叉验证并报告平均误差。
当然,应当理解,根据各种实施方式和/或要求,可以采用任何其他合适的训练数据集和/或评估手段。
根据这些结果,本公开中公开的方法似乎优于已经考虑的评估指标中的方法。还观察到,从得分头获得的得分与质量的人工判断很好地相关,它们能够检测大量失真的不同程度的退化,并且潜在空间z聚集退化类型。
例如,图4通常示出得分似乎与人工判断很好地相关。
图5示出了潜在空间向量z之间的距离的经验分布。从图510可以看出,较小的距离对应于具有相同退化类型和强度的类似话语(例如,平均距离为7.6且标准偏差为3.4),而从图530可以看出,较大的距离对应于具有不同退化的不同话语(例如,平均距离为16.9且标准偏差为3.9)。这两者之间的重叠似乎很小,均值加一个标准差互不相交。具有不同退化的类似话语(图520)在前两个分布之间扩展(例如,平均距离为13.7且标准偏差为5.5)。这在由退化和强度组织的潜在空间中是有意义的,在较小强度与较大强度之间有很大范围。可以假设这种整体行为可能是所有损失的结果,但特别是s和LJND及其(线性)头的结果。
图6A描绘了根据没有退化的测试信号计算的得分s如何在增加退化强度的同时趋于变低。在许多情况下,效果似乎既清晰可见又一致(例如附加噪声或EAC3编解码器)。在其他情况下,高强度的效果似乎饱和(例如,μ律量化或削波)。似乎还有强度不对应于单个变量并且因此效果似乎不明显的几种退化。总的来说,观察到退化和强度之间的一致行为。可以假设,LMOS、LRANK和LDS可能是实现这种行为的主要驱动力。图6B和图6C示意性地示出了类似的附加结果,其中,得分似乎很好地反映了渐进的音频退化。
图7A示出了潜在空间向量z的三个低维t-SNE投影。在图中,可以看出不同的退化类型是如何分组或聚集在一起的。例如,在复杂度为200的情况下,可以看到包含附加噪声的帧的潜在向量聚集在中心。有趣的是,还可以看出类似的退化可能被放置得彼此接近。例如,附加噪声和有色噪声、MP3和OPUS编解码器或者Griffin-Lim和STFT相位失真就是这种情况。可以假设这种聚集行为可能是LDT及其(线性)头的直接结果。
图7B示意性地示出了类似的附加结果,其中,分类头似乎具有区分退化类型的潜力。
图8A示意性地示出了与一些现有方法或传统方法的比较。从图8A中整体观察到所有方法似乎明显优于随机基线,并且这些方法中有大约一半似乎实现了与人工得分之间的可变性相当的误差(通过在听众间获取标准偏差并在话语间取平均值来估计LMOS)。还观察到,许多现有方法报告了相当好的一致性,其中LCONS在0.1的范围内,比随机基线低六倍。然而,当考虑相对成对排序(RRANK)时,现有方法会产生相当大的误差。本公开似乎在所有考虑的评估指标方面大幅度优于所有列出的现有方法,包括标准LMOS。先前陈述的唯一例外似乎是ITU-P563方法的LCONS指标,尽管如此,所述指标似乎具有较高的LCONS和几乎随机的RRANK。考虑到汇总指标ETOTAL,本公开似乎将现有最佳方法的误差减少了36%。
图8B示意性地示出了所考虑的标准/任务对本公开的公开方法的性能的影响。首先,观察到去除单个标准似乎永远不会减少误差。这可能表明,就性能而言,这些误差似乎都没有害处。接下来,观察到存在一些在被去除时会产生相当大的影响的相关标准(例如LMOS和LRANK)。然而,这种相关标准之一的缺失还不会产生现有方法的平均误差(参见例如图8A中的ETOTAL)。关于一些不太相关的任务,注意,发现它们似乎仍然对其所产生的输出有用(例如,知道一对信号是否呈现JND差异)或者对其赋予潜在空间z的组织的属性有用。最后,也很有趣的是强调单独考虑LMOS标准(参见图8B的最后一行)似乎产生了与一些表现最佳的现有方法相当的性能(参见例如图8A中的NISQA和CNN-ELM)。总的来说,这证明了考虑多个优化标准和任务似乎是实现出色性能的关键,并且从经验上证明了类似于本公开的音频质量评估的半监督方法。
图8C示意性地示出了通过对样本外数据执行事后非正式测试来进一步评估所考虑的方法的泛化能力的结果。为此,例如可以从以纯净语音的或生产质量语音为特征的UGC以及具有如真实背景噪声、编解码器伪像或麦克风失真等退化的语音中选择20段新录音。然后,新的一组听众可能会被要求以1至5之间的得分对录音的质量进行评级,并将其评级与在内部UGC数据集上预先训练的模型产生的评级进行比较。从图8C中可以看出,现有方法的排序发生了变化,显示出一些方法在泛化样本外数据方面比其他方法更好。尽管如此,本公开似乎仍然在所有列出的指标中以大幅度优胜。值得注意的是,似乎将所列出的最佳现有方法的LMOS减少了21%,这比在样本内数据中观察到的7%(来自图8A)的相对LMOS差异大得多。这可能表明本公开更好地泛化为样本外但相关的数据。
图8D和图8E进一步示意性地示出了所考虑数据集的误差值以及跨数据集的LTOTAL平均值。特别地,图8D示意性地将本公开与现有方法进行了比较,并且图8E示意性地示出了除了仅使用LMOS之外不使用所考虑的损失之一的训练效果。值得注意的是,类似于以上提及的,ETOTAL=0.5LMOS+RRANK+LCONS。图8F进一步提供了一些另外的结果,这些结果示意性地示出了本公开提出的方法(最后一行)似乎优于所列出的传统方法。
在上文中,已经描述了训练和操作用于确定对输入音频样本的音频质量的指示的基于深度学习(例如,基于神经网络)的系统的可能方法以及这种系统的可能实施方式。另外,本公开还涉及用于实施这些方法的设备。这种装置的示例可以包括处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、一个或多个专用集成电路(ASIC)、一个或多个射频集成电路(RFIC)或这些的任何组合)和耦接到处理器的存储器。处理器可以适于执行在整个公开中描述的方法的一些或所有步骤。
装置可以是服务器计算机、客户端计算机、个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、智能手机、web设备、网络路由器、交换机或网桥、或能够(顺序或以其他方式)执行指定要由所述装置采取的动作的指令的任何机器。进一步,本公开将涉及单独或联合执行指令以执行本文讨论的任何一种或多种方法的装置的任何集合。
本公开进一步涉及一种包括指令的程序(例如,计算机程序),所述指令当由处理器执行时使所述处理器执行本文描述的方法的一些或所有步骤。
更进一步,本公开涉及存储前述程序的计算机可读(或机器可读)存储介质。这里,术语“计算机可读存储介质”包括但不限于例如固态存储器、光学介质和磁性介质形式的数据储存库。
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开的讨论中,利用如“处理”、“计算(computing)”、“计算(calculating)”“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,所述处理器接受包含一组指令的计算机可读(也称为机器可读)代码,所述一组指令在由一个或多个处理器执行时执行本文所述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统,所述存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是分布式处理系统,其中,处理器通过网络耦接在一起。如果处理系统需要显示器,则可以包括这样的显示器,例如,液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元等存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。存储器子系统因此包括携带计算机可读代码(例如,软件)的计算机可读载体介质,所述计算机可读代码包括一组指令,所述一组指令在由一个或多个处理器执行时使得执行本文所述的方法中的一种或多种。应当注意的是,当所述方法包括几个元素(例如,几个步骤)时,除非特别声明,否则不暗示这些元素的任何顺序。在计算机系统执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或包括在计算机程序产品中。
在替代性示例实施例中,一个或多个处理器可以作为独立设备运行,或者可以在联网部署中连接到(例如,联网到)其他处理器,所述一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行,或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定该机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。
应当注意的是,术语“机器”也应该被认为包括单独或联合地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。
因此,本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式,所述指令例如为用于在一个或多个处理器(例如,作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将认识到的,本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理系统的装置、或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码,所述一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,所述载体介质携带体现在所述介质中的计算机可读程序代码。
可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质,所述一组指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,所述一组指令在被执行时实施方法;以及网络中的传输介质,所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示所述一组指令的传播信号。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统中的适当处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。
在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此,在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以以任何合适的方式组合,这根据本公开对于本领域的普通技术人员而言将是显而易见的。
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象,仅表明提及相似对象的不同实例,并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的要素/特征,但不排除其他要素/特征。因此,当在权利要求中使用术语“包括”时,所述术语不应当被解释为限于在其之后列出的装置或要素或步骤。例如,包括A和B的设备的表达的范围不应限于仅包括元件A和B的设备。如本文所使用的,术语包括(including)或其包括(whichincludes)或包括(that includes)中的任何一个也是开放术语,其也意指至少包括所述术语之后的元件/特征,但不排除其他元件/特征。因此,包括(including)与包括(comprising)同义并且意指包括(comprising)。
应当认识到,在以上对本公开的示例实施例的描述中,有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在所附权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。
上文已经关于用于确定对音频输入的音频质量的指示的方法和系统描述了本公开所枚举的示例实施例(“EEE”)。因此,本发明的实施例可以涉及以下枚举的示例中的一个或多个:
EEE 1.一种用于将卷积神经网络(CNN)训练成确定音频信号的音频质量评级的方法,所述方法包括:
将所述音频信号变换为低维潜在空间表示音频信号;
将所述低维潜在空间表示音频信号输入到编码器级中;
经由所述编码器级处理所述低维潜在空间表示音频信号,以确定所述低维潜在空间表示音频信号的参数;
基于所述参数和所述低维潜在空间表示音频信号来确定所述音频信号的音频质量得分。
EEE 2.一种训练用于确定对音频输入的音频质量的指示的基于深度学习的系统的方法,所述方法包括:
获得包括音频样本的至少一个训练集作为输入,其中,所述音频样本包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标或所述训练集中的另一个音频样本的音频质量指标的相应音频质量指标的信息来标记;
将所述训练集输入到所述基于深度学习的系统中;以及
迭代地训练所述系统以预测所述训练集中的所述音频样本的相应标签信息,其中,所述训练基于多个损失函数;以及
其中,所述多个损失函数被生成为反映所述训练集中的所述音频样本的标签信息与其相应预测之间的差异。
EEE 3.根据EEE 2所述的方法,其中,所述第一类型的音频样本包括人工注释的音频样本,每个人工注释的音频样本用指示所述相应的预定音频质量指标的信息来标记。
EEE 4.根据EEE 3所述的方法,其中,所述人工注释的音频样本包括平均意见得分MOS音频样本和/或最小可觉差JND音频样本。
EEE 5.根据前述EEE中任一项所述的方法,其中,所述第二类型的音频样本包括算法生成的音频样本,每个算法生成的音频样本用指示相对音频质量指标的信息来标记。
EEE 6.根据EEE 5所述的方法,其中,所述算法生成的样本中的每一个是通过将各自具有相应退化强度的至少一个退化函数选择性地应用于参考音频样本或另一个算法生成的音频样本来生成的,并且其中,所述标签信息包括指示已经应用于所述参考音频样本或所述另一个算法生成的音频样本的相应退化函数和/或相应退化强度的信息。
EEE 7.根据EEE 6所述的方法,其中,所述标签信息进一步包括指示相对于所述参考音频样本或所述训练集中的其他音频样本的退化的信息。
EEE 8.根据EEE 6或7所述的方法,其中,所述退化函数选自多个可用退化函数,和/或其中,所述相应退化强度被设置为使得在其最小值处所述退化在感知上是明显的。
EEE 9.根据EEE 8所述的方法,其中,所述多个可用退化函数包括与以下各项中的一项或多项相关的函数:混响、削波、用不同编解码器进行的编码、相位失真、音频反转以及背景噪声。
EEE 10.根据EEE 6至9中任一项所述的方法,其中,所述算法生成的音频样本被生成为音频帧对{xi,xj}和/或音频帧四元组
Figure BDA0004113602100000291
其中,音频帧xi是通过将各自具有相应退化强度的至少一个退化函数选择性地应用于参考音频帧来生成的,其中,音频帧xj是通过将各自具有相应退化强度的至少一个退化函数选择性地应用于所述音频帧xi来生成的,其中,音频帧
Figure BDA0004113602100000292
Figure BDA0004113602100000293
是通过将相应时间延迟选择性地应用于音频帧xi来从所述音频帧xi中提取的,并且其中,音频帧
Figure BDA0004113602100000301
Figure BDA0004113602100000302
是通过将相应时间延迟选择性地应用于音频帧xj来从所述音频帧xj中提取的。
EEE 11.根据前述EEE中任一项所述的方法,其中,所述损失函数包括指示MOS误差指标的第一损失函数,并且其中,所述第一损失函数是基于所述训练集中的音频样本的MOS真实数据与对所述音频样本的预测之间的差异来计算的。
EEE 12.根据EEE 5至10或当从属于EEE 5至10中任一项时的EEE 11中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示一个音频样本是否比另一个音频样本退化更多的相对信息,其中,所述损失函数包括指示成对排序指标的第二损失函数,并且其中,所述第二损失函数是基于由包括所述相对退化信息的标签信息及其预测建立的排序来计算的。
EEE 13.根据EEE 12所述的方法,其中,所述系统以这样的方式训练,即一个退化较少的音频样本获得指示比另一个退化较多的音频样本更好的音频质量的音频质量指标。
EEE 14.根据EEE 5至10、12和13或当从属于EEE 5至10中任一项时的EEE 11中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示音频样本之间的感知相关性的相对信息,其中,所述损失函数包括指示一致性指标的第三损失函数,并且其中,所述第三损失函数是基于包括所述感知相关性信息的标签信息与其预测之间的差异来计算的。
EEE 15.根据EEE 14所述的方法,其中,所述一致性指标指示两个或更多个音频样本是否具有相同的退化函数和退化强度以及是否对应于相同的时间帧。
EEE 16.根据EEE 5至10和12至15或当从属于EEE 5至10中任一项时的EEE 11中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示一个音频样本是否已经被应用了与另一个音频样本相同的退化函数和相同的退化强度的相对信息,其中,所述损失函数包括指示退化条件指标的第四损失函数,并且其中,所述第四损失函数是基于包括所述相对退化信息的标签信息与其预测之间的差异来计算的。
EEE 17.根据EEE 5至10和12至16或当从属于EEE 5至10中任一项时的EEE 11中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示相对于彼此的感知差异的相对信息,其中,所述损失函数包括指示JND指标的第五损失函数,并且其中,所述第五损失函数是基于包括相对感知差异的标签信息与其预测之间的差异来计算的。
EEE 18.根据EEE 5至10和12至17或当从属于EEE 5至10中任一项时的EEE 11中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示已经应用于音频样本的退化函数的信息,其中,所述损失函数包括指示退化类型指标的第六损失函数,并且其中,所述第六损失函数是基于包括相应退化函数信息的标签信息与其预测之间的差异来计算的。
EEE 19.根据EEE 5至10和12至18或当从属于EEE 5至10中任一项时的EEE 11中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示已经应用于音频样本的退化强度的信息,其中,所述损失函数包括指示退化强度指标的第七损失函数,并且其中,所述第七损失函数是基于包括相应退化强度信息的标签信息与其预测之间的差异来计算的。
EEE 20.根据前述EEE中任一项所述的方法,其中,所述损失函数包括指示回归指标的第八损失函数,并且其中,所述回归指标是根据基于参考的质量度量和/或无参考的质量度量中的至少一个来计算的。
EEE 21.根据EEE 20所述的方法,其中,所述基于参考的质量度量包括以下各项中的至少一项:PESQ、CSIG、CBAK、COVL、SSNR、LLR、WSSD、STOI、SISDR、梅尔倒谱失真和对数梅尔频带失真。
EEE 22.根据前述EEE中任一项所述的方法,其中,所述训练集中的音频样本中的每一个用于所述多个损失函数中的至少一个,并且其中,用于所述训练的最终损失函数是基于所述多个损失函数中的一个或多个的求平均过程来生成的。
EEE 23.根据前述EEE中任一项所述的方法,其中,所述系统包括用于将所述音频输入映射到特征空间表示的编码级和用于基于所述特征空间表示来生成标签信息的预测的评估级。
EEE 24.根据前述EEE中任一项所述的方法,其中,用于生成中间表示的所述编码级包括神经网络编码器。
EEE 25.根据前述EEE中任一项所述的方法,其中,所述多个损失函数中的每一个是基于包括线性层或多层感知器MLP的神经网络来确定的。
EEE 26.一种用于确定对输入音频样本的音频质量的指示的基于深度学习的系统,其中,所述系统包括:
编码级;以及
评估级,
其中,所述编码级被配置为将所述输入音频样本映射到特征空间表示;并且
其中,所述评估级被配置为基于所述特征空间表示来预测指示预定音频质量指标的信息,并且进一步预测指示相对于另一个音频样本的相对音频质量指标的信息。
EEE 27.根据EEE 26所述的系统,其中,所述系统被配置为:
将至少一个训练集作为输入,其中,所述训练集包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标或相对于训练集中的另一个音频样本的音频质量指标的相应音频质量指标的信息来标记;
将所述训练集输入到所述系统中;以及
基于所述训练集迭代地训练所述系统,以基于多个损失函数来预测所述训练集中的所述音频样本的相应标签信息,所述多个损失函数被生成为反映所述训练集中的所述音频样本的标签信息与其相应预测之间的差异。
EEE 28.一种操作用于确定对输入音频样本的音频质量的指示的基于神经深度学习的系统的方法,其中,所述系统包括编码级和评估级,所述方法包括:
由所述编码级将所述输入音频样本映射到特征空间表示;以及
由所述评估级基于所述特征空间表示来预测指示预定音频质量指标的信息和指示相对于另一个音频样本的相对音频质量指标的信息。
EEE 29.一种包括指令的程序,所述指令当由处理器执行时使所述处理器执行根据EEE 1至25和28中任一项所述的方法的步骤。
EEE 30.一种计算机可读存储介质,存储有根据EEE 29所述的程序。
EEE 31.一种装置,包括处理器和耦接到所述处理器的存储器,其中,所述处理器适于使所述装置执行根据EEE 1至25和28中任一项所述的方法的步骤。
附录
附录A.用参考信号计算得分
为了以基于参考的设置而不是无参考的设置计算得分s,两个信号xi和xj通过编码器以获得对应的潜在值zi和zj。然后,例如,使用这两个潜在值的线性单元来计算sij=1+4σ(wTzi-wTzj+b)。其他选项根据潜在向量差来计算单一得分sij=1+4σ(wT(zi-zj)+b),或者串联潜在值并使用两倍大小的层
Figure BDA0004113602100000331
Figure BDA0004113602100000332
另外的观点包括用更复杂的非线性、参数化和/或可学习的函数来代替向量差或线性层。
附录B:数据
如所提及的,在半监督方法中,采用了三(3)种数据类型:MOS数据、JND数据和编程生成的数据。描述中总结了事后听力测试中使用的另外的样本外数据集,并且其退化特性类似于内部UGC数据集中的退化特性(见下文)。
B.1.MOS数据
整个网络/系统在具有不同大小和特性的三(3)个不同MOS数据集上进行训练和评估:
1.内部UGC数据集——该数据集由1,109个UGC录音构成,加起来总共是1.5h的音频。所有录音都转换为48kHz的单声道WAV PCM,并归一化为具有相同的响度。话语范围从单个单词到几个句子,由男性和女性说话者在各种条件下使用不同的语言(主要是英语,但也有汉语、俄语、西班牙语等)说出。录音中常见的退化包括背景噪声(街道、自助餐厅、风、背景TV/广播、其他人的讲话等)、混响、带宽减少(低通低至3kHz)和编码伪像(MP3、OGG、AAC等)。质量评级是在一群至少有几年音频处理/工程化经验的10名专家听众的帮助下收集的。录音具有4个与10个之间的评级,所述评级是通过遵循比如由IEEE和ITU描述的标准程序来获得的(参见P.C.Loizou,“Speech quality assessment[语音质量评估]”,Multimedia Analysis,Processing and Communications[多媒体分析、处理和通信],Studies in Computational Intelligence[计算智能研究]德国柏林:施普林格(Springer),2011,第346卷,第623-654页,以及其中的参考文献)。
2.内部电话/VoIP数据集——该数据集由8,016段录音构成,具有典型的电话和VoIP退化,加起来总共是15h的音频。除了一小部分之外,所有音频在进一步处理之前最初以48kHz录制,并归一化为具有相同的响度。录音包含由静音分隔的两个句子并且持续时间在5s与15s之间,遵循类似于ITU-P800的协议。男性和女性的话语是平衡的,并且存在不同的语言(英语、法语、意大利语、捷克语等)。常见的退化包括数据包丢失(20ms与60ms之间)、带宽减少(低通低至3kHz)、附加合成噪声(不同的SNR)和编码伪像(G772、OPUS、AC3等)。质量评级由一群固定的听众提供,每个录音有10个与15个之间的评级。评级是通过遵循由ITU描述的标准程序来获得的(参见P.C.Loizou,“语音质量评估”,多媒体分析、处理和通信,计算智能研究德国柏林:施普林格,2011,第346卷,第623-654页,以及其中的参考文献)。
3.TCD-VoIP数据集——这是一种公共数据集,可在http://www:mee:tcd:ie/~sigmedia/Resources/TCD-VoIP上在线获取。所述数据集由384段录音构成,具有常见的VoIP退化,加起来总共是0.7h。原始参考文献(N.Harte、E.Gillen和A.Hines,“TCD-VoIP,aresearch database of degraded speech for assessing quality in VoIPapplications[TCD-VoIP,一种用于评估VoIP应用质量的退化语音研究数据库]”Proc.ofthe Int.Workshop on Quality of Multimedia Experience(QoMEX)[多媒体体验质量国际研讨会论文集],2015)中提供了对数据集的良好描述。尽管也是VoIP退化,但其中一些与我们的内部电话/VoIP数据集不同(在类型和强度上都不同)。
B.2.JND数据
JND数据也用于训练。使用由Manocha等人(P.Manocha、A.Finkelstein、Z.Jin、N.J.Bryan、R.Zhang和G.J.Mysore,“A differentiable perceptual audio metriclearned from just noticeable differences[从最小可觉差中学习的可区分感知音频指标]”,ArXiv:2001.04460,2020)汇编的数据集,所述数据集可在https://github:com/pranaymanocha/PerceptualAudio中获取。数据集由20,797对“受干扰”的录音(28h的音频)构成,每对录音都来自同一话语,并注释了这种干扰是否成对可见。注释是按照特定的程序从Amazon Mechanical Turk众包的(P.Manocha、A.Finkelstein、Z.Jin、N.J.Bryan、R.Zhang和G.J.Mysore,“从最小可觉差中学习的可区分感知音频指标”,ArXiv:2001.04460,2020)。扰动对应于附加线性背景噪声、混响和编码/压缩。
B.3.编程生成的数据
四元组{xik,xil,xjk,xjl}是根据编程生成的数据计算的。为此,使用被认为纯净且没有加工的一系列10个48kHz音频的数据集。该数据集包括私有/专有数据集和公共数据集,如VCTK(Y.Yamagishi、C.Veaux和K.MacDonald,“CSTR VCTK Corpus:English Multi-speaker Corpus for CSTR Voice cloning toolkit(version 0.92)[CSTR VCTK文集:CSTR语音克隆工具包多语种英语语料库(0.92版)]”,爱丁堡大学,语音与技术研究中心(CSTR),2019[在线]获取:https://doi:org/10:7488/ds/2645)、RAVDESS(S.R.Livingstone和F.A.Russo,“The Ryerson audio-visual database of emotionalspeech and song(RAVDESS)[瑞尔森情感语音和歌曲视听数据库]”PLoS ONE[公共科学图书馆:综合],第13卷,第5号,第e0196391页,2018[在线]获取:https://zenodo:org/record/1188976)或TSP语音(http://www-mmsp:ece:mcgill:ca/Documents/Data/)。对于本公开的实验,50,000个四元组用于训练,10,000个用于验证,并且10,000个用于测试。为了形成每个四元组,进行如下:
·对数据集进行均匀采样,并从中对文件进行均匀采样。
·对1.1s的帧进行均匀采样,从而避免静音帧或主要静音帧。将其归一化,以使最大绝对幅度为1。
·在概率为0.84、0.12和0.04的情况下,从可用退化池中采样零次、一次或两次退化(参见下文)。如果为零次退化,则信号直接变为xi。否则,我们为每个退化统一选择强度,并顺序地应用它们以生成xi
·在概率为0.75、0.2、0.04和0.01的情况下,从可用退化池中采样一次、两次、三次或四次退化(参见下文)。统一选择强度并将其顺序地应用于xi以生成xj
·对在0ms与100ms之间的时间延迟进行均匀采样。使用这样的延迟从xi中提取1s帧xik和xil,并对xi中的xjk和xjl进行同样的操作。
·存储{xik,xil,xjk,xjl}以及退化类型和强度信息。
总共使用78h的音频:1×4×(50000+10000+10000)/3600=77:77h。
附录C:退化和强度
考虑了三十七(37)种可能的退化及其对应的强度。强度被设置为使得在其最小值处这些强度对于作者而言在感知上是明显的。注意,在一些情况下,以下所选的强度只是整个退化的一个方面,并且对于其他相关方面,我们在根据经验选择的值之间随机取样。例如,对于混响效果的情况,选择SNR作为主要强度,但是也随机选择混响类型、宽度、延迟等。
1.附加噪声——概率为0.29,从可用的噪声数据集池中对噪声帧进行采样。将其添加到x,其中SNR在35dB与-15dB之间。噪声数据集包括私有/专有数据集和公共数据集,如ESC(K.J.Piczak,“ESC:dataset for environmental sound classification[ESC:环境声音分类数据集]”,Proc.of the ACM Conf.on Multimedia(ACM-MM)[ACM多媒体会议文集],2015,第1015-1018页[在线]获取:https://doi:org/10:7910/DVN/YDEPUT)或FSDNoisy18k(E.Fonseca、M.Plakal、D.P.W.E.Ellis、F.Font、X.Favory和X.Serra,“Learning soundevent classifiers from web audio with noisy labels[从具有噪声标签的web音频中学习声音事件分类器]”,ArXiv:1901.01189,2019[在线]获取:https://doi:org/10:5281/zenodo:2529934)。这种退化可以应用于整个帧,或者以0.25的概率应用于其一部分(最少300ms)。
2.有色噪声——概率为0.07,生成均匀指数介于0与0.7之间的有色噪声帧。将其添加到x,其中SNR在45dB与-15dB之间。这种退化可以应用于整个帧,或者以0.25的概率应用于其一部分(最少300ms)。
3.嗡嗡声——概率为0.035,添加SNR在35dB与-15dB之间的大约50Hz或60Hz(正弦、锯齿形、方形)的音调。这种退化可以应用于整个帧,或者以0.25的概率应用于其一部分(最少300ms)。
4.音调噪声——概率为0.011,与之前相同但频率在20Hz与12,000Hz之间。
5.重采样——概率为0.011,将信号重采样到2kHz与32kHz之间的频率并将其转换回48kHz。
6.μ律量化——概率为0.011,应用2位与10位之间的μ律量化。
7.削波——概率为0.011,对信号的0.5%至99%进行削波。
8.音频反转——概率为0.05,暂时反转信号。
9.插入静音——概率为0.011,插入长度在20ms与120ms之间的1至10个静音片段。
10.插入噪声——概率为0.011,同上,但具有白噪声。
11.插入衰减——概率为0.011,同上,但通过乘以最大线性增益0.8来衰减片段。
12.扰动振幅——概率为0.011,同上,但插入乘法高斯噪声。
13.样本复制——概率为0.011,同上,但复制先前的样本。
14.延迟——概率为0.035,使用最大500ms的延迟添加信号的延迟版本(单次点击和多次点击)。
15.极端均衡——概率为0.006,应用具有随机Q和20dB以上或-20dB以下增益的均衡滤波器。
16.带通——概率为0.006,以100Hz与4,000Hz之间的随机频率应用具有随机Q的带通滤波器。
17.带阻——概率为0.006,同上,但阻滞所述带。
18.高通——概率为0.011,以150Hz与4,000Hz之间的随机截止频率应用高通滤波器。
19.低通——概率为0.011,以250Hz与8,000Hz之间的随机截止频率应用低通滤波器。
20.合唱——概率为0.011,添加线性增益在0.15与1之间的合唱效果。
21.过载——概率为0.011,添加增益在12dB与50dB之间的过载效果。
22.相移器——概率为0.011,添加线性增益在0.1与1之间的相移器效果。
23.混响——概率为0.035,添加SNR在-5dB与10dB之间的混响。
24.颤音——概率为0.011,添加深度在30%与100%之间的颤音效果。
25.Griffin-Lim重建——概率为0.023,对信号的STFT执行Griffin-Lim重建。使用随机窗口长度和50%的重叠来计算STFT。
26.相位随机化——概率为0.011,同上,但具有随机相位信息。
27.相位混洗——概率为0.011,同上,但在时间上混洗窗口相位。
28.谱图卷积——概率为0.011,用2D内核卷积信号的STFT。使用随机窗口长度和50%的重叠来计算STFT。
29.谱图孔洞——概率为0.011,对概率在0.15与0.98之间的频谱幅度应用下降。
30.谱图噪声——概率为0.011,同上,但用随机值代替0。
31.转码MP3——概率为0.023,使用libmp3lame和2kbps与96kbps之间(所有编解码器均来自ffmpeg)编码为MP3并返回。
32.转码AC3——概率为0.035,使用2kbps与96kbps之间编码为AC3并返回。
33.转码EAC3——概率为0.023,使用16kbps与96kbps之间编码为EAC3并返回。
34.转码MP2——概率为0.023,使用32kbps与96kbps之间编码为MP2并返回。
35.转码WMA——概率为0.023,使用32kbps与128kbps之间编码为WMA并返回。
36.转码OGG——概率为0.023,使用libvorbis和32kbps与64kbps之间编码为OGG并返回。
37.转码OPUS——概率为0.046,使用libopus和2kbps与64kbps之间编码为OPUS并返回。
附录D:所考虑的方法
将本公开与9种现有方法进行比较:
1.ITU-P563(L.Malfait、J.Berger和M.Kastner,“P.563–The ITU-T standardfor single-ended speech quality assessment[第563页——单端语音质量评估的ITU-T标准]”,IEEE Trans.On Audio,Speech and Language Processing[IEEE音频、语音和语言处理汇刊],第14卷,第6号,第1924-1934页,2010)——这是为窄带电话设计的无参考标准。之所以选择该方法是因为它是我们可以使用的无参考标准的最佳匹配。所产生的得分被直接使用。
2.FL-JND——受Manocha等人的启发(P.Manocha、A.Finkelstein、Z.Jin、N.J.Bryan、R.Zhang和G.J.Mysore,“从最小可觉差中学习的可区分感知音频指标”,ArXiv:2001.04460,2020),实施了所提出的编码器架构并在JND任务上进行了训练。接下来,对于每个数据集,使用S型输出对小MLP进行训练,所述输出将来自所有编码器层的潜在特征作为输入并预测质量得分。
3.FL-PASE——PASE编码器(S.Pascual、M.Ravanelli、J.Serrà、A.Bonafonte和Y.Bengio,“Learning problem-agnostic speech representations from multipleself-supervised tasks[从多项自我监督任务中学习问题不可知的语音表示]”,Proc.ofthe Int.Speech Comm.Assoc.Conf.(INTERSPEECH)[国际语音交流协会论文集],2019,第161-165页)用JND、DT和说话者识别等任务进行训练。接下来,对于每个数据集,使用S型输出对小MLP进行训练,所述输出将来自最后一层的潜在特征作为输入并预测质量得分。
4.SRMR(T.H.Falk、C.Zheng和W.-Y.Chan,“A non-intrusive quality andintelligibility measure of reverberant and dereverberated speech[混响和去混响语音的非侵入式质量和可懂度测量]”,IEEE音频、语音和语言处理汇刊,第18卷,第7号,第1766-1774页,2010)——使用了来自https://github:com/jfsantos/SRMRpy的度量,并采用了具有S型输出的小MLP以使其适应对应的数据集。
5.AutoMOS(B.Patton、Y.Agiomyrgiannakis、M.Terry、K.Wilson、R.A.Saurous和D.Sculley,“AutoMOS:learning a non-intrusive assessor of naturalness-of-speech[AutoMOS:学习语音自然度的非侵入式评估器]”,NIPS16 End-to-end Learning forSpeech and Audio Processing Workshop[NIPS16语音和音频处理端到端学习研讨会],2016)——所述方法被重新实施,但合成语音嵌入及其辅助损失被替换为LMR
6.质量网(S.-W.Fu、Y.Tsao、H.-T.Hwang和H.-M.Wang,“Quality-Net:an end-to-end non-intrusive speech quality assessment model based on BLSTM[质量网:基于BLSTM的端到端非侵入式语音质量评估模型]”,国际语音交流协会论文集(INTERSPEECH),2018,第1873-1877页)——所提出的方法被重新实施。
7.WEnet(A.A.Catellier和S.D.Voran,“WEnets:a convolutional frameworkfor evaluating audio waveforms[Wenet:用于评估音频波形的卷积框架]”,ArXiv:1909.09024,2019)——所提出的方法适于回归MOS。
8.CNN-ELM(H.Gamper、C.K.A.Reddy、R.Cutler、I.J.Tashev和J.Gehrke,“Intrusive and non-intrusive perceptual speech quality assessment using aconvolutional neural network[使用卷积神经网络的侵入式和非侵入式感知语音质量评估]”,IEEE Workshop on Applications of Signal Processing to Audio andAcoustics(WASPAA)[IEEE音频和声学信号处理应用研讨会],2019,第85-89页)——所提出的方法被重新实施。
9.NISQA(G.Mittag和S.
Figure BDA0004113602100000391
“Non-intrusive speech quality assessmentfor super-wideband speech communication networks[超宽带语音通信网络的非侵入式语音质量评估]”,Proc.of the IEEE Int.Conf.on Acoustics,Speech and SignalProcessing(ICASSP)[IEEE声学、语音和信号处理国际会议论文集],2019,第7125-7129页)——所提出的方法适于与MOS一起工作,并且辅助POLQA损失被替换为LMR

Claims (30)

1.一种训练用于确定对音频输入的音频质量的指示的基于神经网络的系统的方法,所述方法包括:
获得包括音频样本的至少一个训练集作为输入,其中,所述音频样本包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标的相应音频质量指标的信息来标记;
将所述训练集输入到所述基于神经网络的系统中;以及
迭代地训练所述系统以预测所述训练集中的所述音频样本的相应标签信息,
其中,所述训练基于多个损失函数;并且
其中,所述多个损失函数被生成为反映所述训练集中的所述音频样本的标签信息与其相应预测之间的差异。
2.根据权利要求1所述的方法,其中,所述第一类型的音频样本包括人工注释的音频样本,每个人工注释的音频样本用指示所述相应的预定音频质量指标的所述信息来标记。
3.根据权利要求2所述的方法,其中,所述人工注释的音频样本包括平均意见得分MOS音频样本和/或最小可觉差JND音频样本。
4.根据前述权利要求中任一项所述的方法,其中,所述第二类型的音频样本包括算法生成的音频样本,每个算法生成的音频样本用指示相对音频质量指标的信息来标记。
5.根据权利要求4所述的方法,其中,所述算法生成的样本中的每一个是通过将各自具有相应退化强度的至少一个退化函数选择性地应用于参考音频样本或另一个算法生成的音频样本来生成的,并且其中,所述标签信息包括指示已经应用于所述参考音频样本或所述另一个算法生成的音频样本的相应退化函数和/或相应退化强度的信息。
6.根据权利要求5所述的方法,其中,所述标签信息进一步包括指示相对于所述参考音频样本或所述训练集中的其他音频样本的退化的信息。
7.根据权利要求5或6所述的方法,其中,所述退化函数选自多个可用退化函数,和/或其中,所述相应退化强度被设置为使得在其最小值处所述退化在感知上是明显的。
8.根据权利要求7所述的方法,其中,所述多个可用退化函数包括与以下各项中的一项或多项相关的函数:混响、削波、用不同编解码器进行的编码、相位失真、音频反转以及背景噪声。
9.根据权利要求5至8中任一项所述的方法,其中,所述算法生成的音频样本被生成为音频帧对{xi,xj}和/或音频帧四元组
Figure FDA0004113602090000025
其中,音频帧xi是通过将各自具有相应退化强度的至少一个退化函数选择性地应用于参考音频帧来生成的,其中,音频帧xj是通过将各自具有相应退化强度的至少一个退化函数选择性地应用于所述音频帧xi来生成的,其中,音频帧
Figure FDA0004113602090000022
Figure FDA0004113602090000021
是通过将相应时间延迟选择性地应用于音频帧xi来从所述音频帧xi中提取的,并且其中,音频帧
Figure FDA0004113602090000024
Figure FDA0004113602090000023
是通过将相应时间延迟选择性地应用于音频帧xj来从所述音频帧xj中提取的。
10.根据前述权利要求中任一项所述的方法,其中,所述损失函数包括指示MOS误差指标的第一损失函数,并且其中,所述第一损失函数是基于所述训练集中的音频样本的MOS真实数据与对所述音频样本的预测之间的差异来计算的。
11.根据权利要求4至9或当从属于权利要求4至9中任一项时的权利要求10中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示一个音频样本是否比另一个音频样本退化更多的相对信息,其中,所述损失函数包括指示成对排序指标的第二损失函数,并且其中,所述第二损失函数是基于由包括相对退化信息的标签信息及其预测建立的排序来计算的。
12.根据权利要求11所述的方法,其中,所述系统以这样的方式训练,即一个退化较少的音频样本比另一个退化较多的音频样本获得指示更好的音频质量的音频质量指标。
13.根据权利要求4至9、11和12或当从属于权利要求4至9中任一项时的权利要求10中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示音频样本之间的感知相关性的相对信息,其中,所述损失函数包括指示一致性指标的第三损失函数,并且其中,所述第三损失函数是基于包括所述感知相关性信息的标签信息与其预测之间的差异来计算的。
14.根据权利要求13所述的方法,其中,所述一致性指标指示两个或更多个音频样本是否具有相同的退化函数和退化强度以及是否对应于相同的时间帧。
15.根据权利要求4至9和11至14或当从属于权利要求4至9中任一项时的权利要求10中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示一个音频样本是否已经被应用了与另一个音频样本相同的退化函数和相同的退化强度的相对信息,其中,所述损失函数包括指示退化条件指标的第四损失函数,并且其中,所述第四损失函数是基于包括相对退化信息的标签信息与其预测之间的差异来计算的。
16.根据权利要求4至10和11至15或当从属于权利要求4至9中任一项时的权利要求10中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示相对于彼此的感知差异的相对信息,其中,所述损失函数包括指示JND指标的第五损失函数,并且其中,所述第五损失函数是基于包括相对感知差异的标签信息与其预测之间的差异来计算的。
17.根据权利要求4至9和11至16或当从属于权利要求4至9中任一项时的权利要求10中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示已经应用于音频样本的退化函数的信息,其中,所述损失函数包括指示退化类型指标的第六损失函数,并且其中,所述第六损失函数是基于包括相应退化函数信息的标签信息与其预测之间的差异来计算的。
18.根据权利要求4至9和11至17或当从属于权利要求4至9中任一项时的权利要求10中任一项所述的方法,其中,所述第二类型的音频样本的标签信息包括指示已经应用于音频样本的退化强度的信息,其中,所述损失函数包括指示退化强度指标的第七损失函数,并且其中,所述第七损失函数是基于包括相应退化强度信息的标签信息与其预测之间的差异来计算的。
19.根据前述权利要求中任一项所述的方法,其中,所述损失函数包括指示回归指标的第八损失函数,并且其中,所述回归指标是根据基于参考的质量度量和/或无参考的质量度量中的至少一个来计算的。
20.根据权利要求19所述的方法,其中,所述基于参考的质量度量包括以下各项中的至少一项:PESQ、CSIG、CBAK、COVL、SSNR、LLR、WSSD、STOI、SISDR、梅尔倒谱失真和对数梅尔频带失真。
21.根据前述权利要求中任一项所述的方法,其中,所述训练集中的所述音频样本中的每一个用于所述多个损失函数中的至少一个,并且其中,用于所述训练的最终损失函数是基于所述多个损失函数中的一个或多个的求平均过程来生成的。
22.根据前述权利要求中任一项所述的方法,其中,所述系统包括用于将所述音频输入映射到特征空间表示的编码级和用于基于所述特征空间表示来生成标签信息的预测的评估级。
23.根据前述权利要求中任一项所述的方法,其中,用于生成中间表示的所述编码级包括神经网络编码器。
24.根据前述权利要求中任一项所述的方法,其中,所述多个损失函数中的每一个是基于包括线性层或多层感知器MLP的神经网络来确定的。
25.一种用于确定对输入音频样本的音频质量的指示的基于神经网络的系统,其中,所述系统包括:
编码级;以及
评估级,
其中,所述编码级被配置为将所述输入音频样本映射到特征空间表示;并且
其中,所述评估级被配置为基于所述特征空间表示来预测指示预定音频质量指标的信息,并且进一步预测指示相对于参考音频样本的相对音频质量指标的信息。
26.根据权利要求25所述的系统,其中,所述系统被配置为:
将至少一个训练集作为输入,其中,所述训练集包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于所述参考音频样本的音频质量指标的相应音频质量指标的信息来标记;
将所述训练集输入到所述系统中;以及
基于所述训练集迭代地训练所述系统,以基于多个损失函数来预测所述训练集中的所述音频样本的相应标签信息,其中,所述多个损失函数被生成为反映所述训练集中的所述音频样本的标签信息与其相应预测之间的差异。
27.一种操作用于确定对输入音频样本的音频质量的指示的基于神经网络的系统的方法,其中,所述系统包括编码级和评估级,所述方法包括:
由所述编码级将所述输入音频样本映射到特征空间表示;以及
由所述评估级基于所述特征空间表示来预测指示预定音频质量指标的信息和指示相对于参考音频样本的相对音频质量指标的信息。
28.一种包括指令的程序,所述指令当由处理器执行时使所述处理器执行根据权利要求1至24和27中任一项所述的方法的步骤。
29.一种计算机可读存储介质,所述计算机可读存储介质存储有根据权利要求28所述的程序。
30.一种装置,所述装置包括处理器和耦接到所述处理器的存储器,其中,所述处理器适于使所述装置执行根据权利要求1至24和27中任一项所述的方法的步骤。
CN202180058804.5A 2020-06-22 2021-06-21 结合标记数据和未标记数据学习音频质量指标的方法 Pending CN116075890A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
ESP202030605 2020-06-22
ES202030605 2020-06-22
US202063072787P 2020-08-31 2020-08-31
US63/072,787 2020-08-31
US202063090919P 2020-10-13 2020-10-13
US63/090,919 2020-10-13
EP20203277.7 2020-10-22
EP20203277 2020-10-22
PCT/EP2021/066786 WO2021259842A1 (en) 2020-06-22 2021-06-21 Method for learning an audio quality metric combining labeled and unlabeled data

Publications (1)

Publication Number Publication Date
CN116075890A true CN116075890A (zh) 2023-05-05

Family

ID=76483320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180058804.5A Pending CN116075890A (zh) 2020-06-22 2021-06-21 结合标记数据和未标记数据学习音频质量指标的方法

Country Status (5)

Country Link
US (1) US20230245674A1 (zh)
EP (1) EP4169019A1 (zh)
JP (1) JP2023531231A (zh)
CN (1) CN116075890A (zh)
WO (1) WO2021259842A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948598B2 (en) * 2020-10-22 2024-04-02 Gracenote, Inc. Methods and apparatus to determine audio quality
CN114242044B (zh) * 2022-02-25 2022-10-11 腾讯科技(深圳)有限公司 语音质量评估方法、语音质量评估模型训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028767A1 (en) * 2016-08-09 2018-02-15 Huawei Technologies Co., Ltd. Devices and methods for evaluating speech quality

Also Published As

Publication number Publication date
US20230245674A1 (en) 2023-08-03
WO2021259842A1 (en) 2021-12-30
JP2023531231A (ja) 2023-07-21
EP4169019A1 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
Triantafyllopoulos et al. Towards robust speech emotion recognition using deep residual networks for speech enhancement
Fu et al. MetricGAN-U: Unsupervised speech enhancement/dereverberation based only on noisy/reverberated speech
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
WO2018159403A1 (ja) 学習装置、音声合成システムおよび音声合成方法
Santos et al. Speech dereverberation with context-aware recurrent neural networks
Dubey et al. Bigear: Inferring the ambient and emotional correlates from smartphone-based acoustic big data
CN108682432B (zh) 语音情感识别装置
CN116075890A (zh) 结合标记数据和未标记数据学习音频质量指标的方法
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
CN116997962A (zh) 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN107895571A (zh) 无损音频文件识别方法及装置
Reddy et al. Audio compression with multi-algorithm fusion and its impact in speech emotion recognition
Moore et al. Say What? A Dataset for Exploring the Error Patterns That Two ASR Engines Make.
Moliner et al. Behm-gan: Bandwidth extension of historical music using generative adversarial networks
Mumtaz et al. Nonintrusive perceptual audio quality assessment for user-generated content using deep learning
Xu et al. Improving visual speech enhancement network by learning audio-visual affinity with multi-head attention
Dey et al. Cross-corpora spoken language identification with domain diversification and generalization
Sharma et al. Non-intrusive estimation of speech signal parameters using a frame-based machine learning approach
Huber et al. Single-ended speech quality prediction based on automatic speech recognition
US20220277040A1 (en) Accompaniment classification method and apparatus
Roberts et al. Deep learning-based single-ended quality prediction for time-scale modified audio
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
Shu et al. A human auditory perception loss function using modified bark spectral distortion for speech enhancement
CN115798453A (zh) 语音重建方法、装置、计算机设备和存储介质
WO2022103290A1 (en) Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination