CN116472579A - 用于麦克风风格转移的机器学习 - Google Patents
用于麦克风风格转移的机器学习 Download PDFInfo
- Publication number
- CN116472579A CN116472579A CN202180070897.3A CN202180070897A CN116472579A CN 116472579 A CN116472579 A CN 116472579A CN 202180070897 A CN202180070897 A CN 202180070897A CN 116472579 A CN116472579 A CN 116472579A
- Authority
- CN
- China
- Prior art keywords
- microphone
- data
- model
- learned
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 126
- 230000003416 augmentation Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 162
- 230000005236 sound signal Effects 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 50
- 230000004044 response Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 42
- 230000003190 augmentative effect Effects 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 4
- 230000003278 mimic effect Effects 0.000 abstract description 5
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 15
- 239000003623 enhancer Substances 0.000 description 13
- 230000015654 memory Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000000844 transformation Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 8
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013434 data augmentation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开的示例实施方式涉及用于麦克风风格转移的机器学习,例如,以促进诸如语音数据的音频数据的扩增,以提高在音频数据上训练的机器学习模型的健壮性。用于麦克风风格转移的系统和方法可以包括一个或多个机器学习的麦克风模型,该模型被训练以获得和扩增信号数据以模仿从目标麦克风获得的信号数据的特性。该系统和方法可以包括用于在风格转移之前增强样本的语音增强网络。然后可以将扩增输出用于各种下游任务。
Description
相关申请
本申请要求2020年10月16日提交的美国临时专利申请号63/092,760的优先权和权益。美国临时专利申请号63/092,760通过引用整体并入本文。
技术领域
本公开总体上涉及用于麦克风风格转移的机器学习。更具体地,本公开涉及用于麦克风风格转移的机器学习,以例如促进诸如语音数据的音频数据的扩增(augmentation)以提高机器学习模型的健壮性。
背景技术
音频识别模型的最新进展已经在多个任务中产生了显著的性能改进。然而,这些系统在遇到域偏移(例如,输入数据的特性的变化,诸如由于使用不同的麦克风收集输入音频数据而导致的变化)时遭受严重的性能劣化。实践中经常出现这种情况:部署的模型面对由异构设备在各种环境中收集的音频数据,每个设备的特征在于不同的硬件和信号处理流水线。
解决域偏移的一个重要手段是开发模型,该模型演示针对域偏移(诸如麦克风变化性)的提高的健壮性。在语音识别界,模型健壮性的话题由来已久。
关于对麦克风变化性的健壮性,已经注意到当对由与用于收集训练集的麦克风不同的麦克风捕获的音频执行推理时,性能受到显著影响。为了缓解这个问题,某些现有手段使用在倒谱域中的加法校正,而其他手段则使用麦克风集合执行多风格训练。前一种方法的一个局限性是它仅与在倒谱域中的输入上操作的应用兼容,而后一种方法假设在训练时间期间来自多个麦克风的数据的可用性。
在另一个示例手段中,使用CycleGAN学习在麦克风之间的映射。虽然此方法既不需要配对数据,也不会对其建模的麦克风变换的类型施加约束,但它依赖于从头开始为在测试时间期间遇到的每一种麦克风类型训练单独的CycleGAN,这在部署期间引入了显著的计算开销。此外,即使对于简单的关键词检测任务,每个麦克风也需要若干分钟的未配对训练数据。该方法还继承了CycleGAN的弱点,例如,在源域和目标域中映射完全不相关的样本。
发明内容
本公开的实施例的方面和优点将在下面的描述中部分地阐述,或者可以从描述中了解到,或者可以通过实施例的实践而了解到。
本公开的一个示例方面涉及一种用于麦克风格转移的计算机实现的方法(其可以用于将准确表示声音样本的一组音频数据修改为表示由某个麦克风在接收到声音样本后输出的音频数据的音频数据)。该方法可以包括由包括一个或多个计算设备的计算系统获得由第一麦克风收集的输入音频数据。该方法可以包括由计算系统用机器学习的麦克风模型处理输入音频数据以生成不同于第一麦克风的目标麦克风的预测的目标音频数据。由计算系统用机器学习的麦克风模型处理输入音频数据可以包括:由计算系统至少部分地基于音频数据和机器学习的麦克风模型的机器学习的脉冲响应数据来确定第一信号数据;以及由计算系统用机器学习的麦克风模型的机器学习的功率频率模型处理第一信号数据以产生第二信号数据,其中,机器学习的功率频率模型对一个或多个频带截断进行建模。
可以采用机器学习的麦克风模型,例如,以生成用于训练自适应系统(机器学习系统)例如用于识别语音(诸如识别语音内的至少一个预定义的词或短语)的训练数据。该方法可以包括:执行该训练操作,并且可选地使用训练的语音识别系统对由麦克风收集的声音样本执行语音识别。本公开的这一方面可以备选地被表达为共同存储指令的一个或多个非暂时性计算机可读介质,该指令当由一个或多个处理器执行时使处理器执行该方法。它也可以被表达为包含一个或多个处理器和一个或多个非暂时性计算机可读介质的计算机系统。在一些实施方式中,由计算系统用机器学习的麦克风模型处理输入音频数据可以包括:由计算系统用机器学习的滤波器处理噪声信号以生成滤波的噪声数据;以及由计算系统将滤波的噪声数据与第二信号数据组合以生成第三信号数据。由计算系统用机器学习的麦克风模型处理输入音频数据可以包括由计算系统用机器学习的限幅模型处理第二信号或第三信号以生成限幅数据,其中,限幅数据可以包括预测的目标音频数据。输入音频数据可以包括未扩增的训练示例,并且预测的目标音频数据可以包括扩增的训练示例。在一些实施方式中,该方法可以包括使用扩增的训练示例来训练音频处理模型。
在一些实施方式中,脉冲响应数据可以包括房间混响脉冲响应数据。房间混响脉冲响应数据可以是至少部分地基于麦克风所在的房间。机器学习的功率频率模型可以应用一个或多个短期傅里叶变换(其可以是对于输入音频数据的不同分段不同的傅里叶变换,其中,可以通过在时域中对输入音频数据进行分割来获得分段;机器学习的功率频率模型可以将傅里叶变换的每个频率分量与输入音频数据的对应分段的频域数据的对应分量相乘)。在一些实施方式中,一个或多个频带截断可以是至少部分地基于功率谱密度。噪声信号可以包括白高斯噪声信号。机器学习的限幅模型可以应用波形的学习的最大绝对值。在一些实施方式中,机器学习的限幅模型可以包括平滑的最小值函数和平滑的最大值函数。机器学习的功率频率模型可以包括sigmoid激活函数。
本公开的另一个示例方面涉及一种计算机系统,该计算机系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质,这些计算机可读介质共同存储指令,该指令当由一个或多个处理器执行时,使计算系统执行操作。这些操作可以包括获得训练目标音频信号。这些操作可以包括用语音增强模型处理训练目标音频信号以生成源音频信号,其中,源音频信号可以包括精炼的音频数据。这些操作可以包括用机器学习的麦克风模型处理源音频信号以生成预测的目标音频信号。这些操作可以包括评估将预测的目标音频信号与训练目标音频信号进行比较的损失函数。这些操作可以包括基于损失函数来修改机器学习的麦克风模型的一个或多个参数的一个或多个值。机器学习的麦克风模型可以用于例如生成用于训练自适应系统例如用于识别语音的训练数据。记录介质可以包括指令,该指令使处理器执行该训练操作,以及可选的使用训练的语音识别系统对由麦克风收集的声音样本执行语音识别的操作。本公开的这个方面可以备选地被表达为一个或多个非暂时性计算机可读介质,或被表达为包括操作的方法。
在一些实施方式中,这些操作可以包括采用机器学习的麦克风模型来执行对训练数据集的扩增。这些操作可以包括使用扩增的训练数据集来训练关键词识别模型。获得训练目标音频信号可以包括至少部分地基于模拟麦克风扩增来扩增音频数据以生成模拟目标数据。在一些实施方式中,模拟目标数据可以包括训练目标音频信号。评估损失函数可以包括:根据预测的目标音频信号来生成预测的目标频谱图,根据训练目标音频信号来生成训练目标频谱图,以及将预测的目标频谱图与训练目标频谱图进行比较。
本公开的另一个示例方面涉及一个或多个非暂时性计算机可读介质,其共同存储指令,该指令当由一个或多个处理器执行时使计算系统执行操作。这些操作可以包括:获得包括源音频信号和与目标麦克风风格相关联的训练目标音频信号的风格转移训练数据(例如,表示目标麦克风在接收到声音信号时输出的信号的音频信号;其可以是包括目标麦克风应用于声音信号的任何伪像)。这些操作可以包括用机器学习的麦克风模型处理源音频信号以生成预测的目标音频信号。机器学习的麦克风模型可以包括以下中的一个或多个:机器学习的脉冲响应;机器学习的功率频率模型;机器学习的噪声输入滤波器;或者机器学习的限幅功能。这些操作可以包括评估将预测的目标音频信号与训练目标音频信号进行比较的损失函数。这些操作可以包括基于损失函数来修改机器学习的麦克风模型的一个或多个参数的一个或多个值。机器学习的麦克风模型可以用于例如生成用于训练自适应系统用于识别语音的训练数据。记录介质可以包括指令,该指令使处理器执行该训练操作,以及可选的使用训练的语音识别系统对由麦克风收集的声音样本执行语音识别的操作。本公开的这个方面可以备选地被表达为一个或多个非暂时性计算机可读介质,或被表达为包括操作的方法。
在一些实施方式中,评估损失函数可以包括:根据预测的目标音频信号来生成预测的目标频谱图;根据训练目标音频信号来生成训练目标频谱图;以及将预测的目标频谱图与训练目标频谱图进行比较。这些操作可以包括采用机器学习的麦克风模型来执行对训练数据集的扩增。在一些实施方式中,操作可以包括使用扩增的训练数据集来训练关键词识别模型。
本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户接口和电子设备。
参考以下描述和所附权利要求,本公开的各种实施例的这些和其他特征、方面和优点将变得更好理解。包含在本说明书中并构成本说明书的一部分的附图图示了本公开的示例实施例,并且与描述一起用于解释相关原理。
附图说明
在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,说明书参考了附图,在附图中:
图1A描绘了根据本公开的示例实施例的执行麦克风风格转移的示例计算系统的框图。
图1B描绘了根据本公开的示例实施例的执行麦克风风格转移的示例计算设备的框图。
图1C描绘了根据本公开的示例实施例的执行麦克风风格转移的示例计算设备的框图。
图2描绘了根据本公开的示例实施例的使用麦克风模型对用于模型训练的合成数据的示例生成的框图。
图3描绘了根据本公开的示例实施例的示例麦克风模型的框图。
图4描绘了根据本公开的示例实施例的麦克风模型的示例训练的框图。
图5描绘了根据本公开的示例实施例的示例麦克风模型的框图。
图6描绘了根据本公开的示例实施例的用于执行目标音频数据预测的示例方法的流程图。
图7描绘了根据本公开的示例实施例的用于执行机器学习的麦克风模型训练的示例方法的流程图。
图8描绘了根据本公开的示例实施例的用于执行机器学习的麦克风模型训练的示例方法的流程图。
图9描绘了根据本公开的示例实施例的示例学习的参数的框图。
图10描绘了根据本公开的示例实施例的示例机器学习的模型结果的框图。
跨多个图重复的附图标号旨在标识各种实施方式中的相同特征。
具体实施方式
概述
本公开的示例实施方式涉及用于麦克风风格转移的机器学习,以例如促进诸如语音数据的音频数据的扩增,以提高在音频数据上训练的机器学习模型的健壮性。特别是,“在野外”成功部署基于音频的模型的关键方面可能是对由异构麦克风引入的变换的健壮性。本公开的方面通过生成扩增的训练数据来实现(例如,对麦克风变化性的)改进的模型健壮性,其中,训练数据可以被扩增以反映不同的潜在麦克风变换。特别地,在一些实施方式中,系统和方法能够执行单次(one-shot)麦克风风格转移以仅对来自麦克风的单个数据示例学习麦克风变换。具体地,给定由目标设备记录的仅几秒音频,本公开的示例实施方式可以标识与麦克风相关联的变换并且可以使用学习到的变换来合成音频,就好像该音频是由该设备记录的一样。这些系统和方法可以成功地将这些变换应用于训练数据中包含的真实音频或其他音频,并且当在下游任务中用作数据扩增时,该变换可以显著提高对麦克风变化性的模型健壮性。
特别地,本公开的一些示例实施方式可以被称为“MicAugment”。MicAugment系统和方法可以执行少数次(few-shot)(例如,单次)麦克风风格转移。MicAugment系统和方法可以包括机器学习的麦克风模型,并且在一些实例中,还包括语音增强器模型。麦克风模型可以学习近似与麦克风变化性相关联的变换。例如,可以训练麦克风模型来改变源音频信号以产生预测的目标音频信号,其中,预测的目标音频信号听起来就好像它是由目标麦克风捕获或记录的一样。
在一些实施方式中,麦克风模型可以获得和/或接收音频输入数据并且可以使用脉冲响应数据、功率频率模型、滤波模型和/或限幅(clip)模型来处理和/或变换音频输入数据。脉冲响应数据、功率频率模型、滤波模型和/或限幅模型中的一些或全部可以包括和/或应用根据本文描述的训练过程学习的机器学习的参数值。
例如,这些系统和方法可以包括获得由第一麦克风(例如,源)收集和/或生成的输入音频数据。输入音频数据可以包括语音数据或另一种形式的音频数据。然后可以用机器学习的麦克风模型处理输入音频数据,以生成预测的目标音频数据。预测的目标音频数据可以包括来自输入音频数据的音频数据,该输入音频数据被变换以模仿由第二麦克风(例如,目标麦克风)生成的音频数据的风格。第一麦克风和目标麦克风可以是不同的麦克风。例如,第一麦克风可以是动圈麦克风,并且目标麦克风可以是大振膜电容式麦克风,或反之亦然。附加地和/或备选地,第一麦克风和目标麦克风可以是相同的麦克风类型(例如,动圈麦克风、大振膜电容式麦克风、小振膜电容式麦克风、带式麦克风等)。
用机器学习的麦克风模型处理输入音频数据可以包括至少部分地基于音频数据和机器学习的麦克风模型的机器学习的脉冲响应数据来确定第一信号数据。可以用机器学习的麦克风模型的机器学习的功率频率模型来处理第一信号数据,以便产生或生成第二信号数据。可以训练机器学习的功率频率模型来对一个或多个频带截断(cutout)进行建模。
在一些实施方式中,麦克风模型的第一步可以包括比较(例如,卷积)音频输入和脉冲响应数据。脉冲响应数据可以是在特定麦克风或一组麦克风的脉冲响应上收集的数据和/或可以作为为学习麦克风模型而执行的学习过程的一部分来学习。该比较可以用于生成第一信号数据。然后可以用对一个或多个频带截断进行建模的功率频率模型处理第一信号数据以生成第二信号数据。功率频率模型可以使用功率谱密度数据和傅里叶变换(例如,其包括或应用学习的值)来生成第二信号数据。例如,傅里叶变换可以包括短时傅里叶变换。
可以通过滤波模型(例如,使用学习的滤波器)处理白噪声信号以生成滤波的噪声数据。白噪声信号可以包括白高斯噪声信号(例如,具有学习的高斯参数)。滤波模型可以包括将白信号噪声与一个或多个频带截断进行卷积和/或执行加法运算以将噪声添加到信号。例如,可以将滤波的噪声数据添加到第二信号数据以生成第三信号数据。麦克风模型的最后一步可以包括用限幅模型处理滤波后的数据以生成限幅数据。例如,限幅模型可以应用学习的限幅阈值。麦克风模型的输出可以是预测的目标音频信号。例如,可以将限幅的数据作为预测的目标音频信号输出。
在一些实施方式中,麦克风模型的训练可以包括处理配对的音频样本,其中,配对的音频样本包括源数据和训练目标数据。具体地,源数据可以由麦克风模型处理以预测目标数据。预测的目标数据可以用于生成预测的目标频谱图。训练目标数据可以用于生成训练目标频谱图。在一些实施方式中,频谱图可以包括梅尔频谱图。可以比较预测的目标频谱图和训练目标频谱图来评估损失函数。作为一个示例,损失函数可以包括比较的平均绝对误差和/或其他距离或差异度量。响应于损失函数的评估,可以(例如,经由损失函数的反向传播)修改麦克风模型的参数(例如,脉冲响应、功率频率模型、滤波模型和/或限幅模型)。
在可以被称为在“配对”设置中操作的一些实施方式中,源音频信号和目标音频信号的训练版本可以被单独地生成并且两者都可用。例如,相同音频的两个演示可以由两个不同的麦克风单独地捕获(例如,创建“干净”的源样本的较高质量的麦克风和创建训练目标音频信号的较低质量的麦克风)。如上所述,可以训练麦克风模型以将源音频信号变换成预测的目标音频信号,使得预测的目标音频信号匹配训练目标音频信号。
在可以被称为在“未配对”设置(这更常见)中操作的其他实施方式中,源音频信号或训练音频信号中的仅一个可以可用。在此类情况中的一些中,例如当仅训练目标信号可用时,可以使用语音增强器模型来增强训练音频信号以产生“干净”的源音频信号。例如,语音增强器模型可以反转或移除在目标域中遇到的麦克风变换,从而产生包含干净语音的样本。在使用语音增强器以根据训练目标音频信号来生成源音频信号之后,可以如上所述的训练麦克风模型——实际上是学习反转语音增强。因此,麦克风模型和语音增强器模型可以串联操作以允许系统和方法训练麦克风模型以输出或执行将源样本修改为听起来就好像样本是由目标麦克风记录的一样的变换。
在一些实施方式中,语音增强器模型可以使用麦克风脉冲响应、房间混响脉冲响应和噪声分段来帮助执行盲去卷积和去噪。
在另外的其他实施方式中,可以通过从一组候选值(例如,从不同的真实世界麦克风观测的值)(例如,随机地或伪随机地)选择麦克风模型的不同参数值来合成训练音频信号。这可以创建一组训练目标信号,其模仿由不同麦克风捕获的音频信号。然后可以如上所述的使用这些训练目标信号。
因此,在一些实施方式中,麦克风脉冲响应、房间混响脉冲响应和噪声分段可以用于处理或生成合成数据集。合成数据集可以被拆分成小批次。每个小批次可以与随机选取的混响脉冲响应进行卷积以生成第一输出。然后可以将第一输出与随机选取的麦克风脉冲响应进行卷积以产生信号。然后可以将信号除以频率范围,并且可以相对于阈值对划分的分段进行采样以生成第二输出。可以将随机选取的噪声样本添加到第二输出以生成第三输出。第三输出然后可以被限幅以生成最终的增强音频数据。最终的增强音频数据可以用作麦克风模型的源数据。
因此,本公开的示例方面提供了对以下问题的解决方案:给定由目标麦克风记录的几秒音频,将其他音频样本变换为听起来就好像它们是由目标麦克风记录的一样。为此,以语音数据为焦点,本公开提供了MicAugment,这是一种用于少数次(例如,单次)麦克风风格转移的机器学习方法。在时域中操作,该方法可以与下游任务无关,并且因此具有广泛的适用性。MicAugment可以用作数据扩增方法,以提高对由于麦克风变化性而导致的域偏移的模型健壮性。实现这一点的两个重要元素可能是语音增强的最新进展和新颖的非线性麦克风模型,该模型通过包含捕获麦克风信号处理流水线的强先验,实现快速模型标识。
本公开的系统和方法提供了许多技术效果和益处。作为一个示例,本公开提供了一种基于强先验的轻量级麦克风模型。由于模型的轻量级性质,使用来自目标设备的仅几秒音频就可以学习它。作为另一个示例技术效果,当用于执行数据扩增时,本公开的系统和方法可以显著增加对麦克风变化性的模型健壮性。作为又一个示例技术效果,麦克风模型可以在对抗训练中使用以提升模型的健壮性。更健壮的模型可以在暴露到分布偏移(例如,麦克风变化性)时提供一致的模型性能,从而避免为每个不同的设置(例如,不同的麦克风)训练新模型的需要。避免训练许多不同模型的需要可以节省计算资源,诸如处理器使用、存储器使用和网络带宽使用。
现在参考附图,将更详细地讨论本公开的示例实施例。
示例设备和系统
图1A描绘了根据本公开的示例实施例的执行麦克风风格转移的示例计算系统100的框图。系统100包括通过网络180通信耦合的用户计算设备102、服务器计算系统130和训练计算系统150。
用户计算设备102可以是任何类型的计算设备,诸如,例如个人计算设备(例如膝上型计算机或台式计算机)、移动计算设备(例如智能手机或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。在一些实施方式中,这些设备中的一些可能具有有限的处理和存储器容量,因此重要的是它们可以以对处理操作或数据存储的降低的要求运行。
用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及其组合。存储器114可以存储数据116和由处理器112执行以使用户计算设备102执行操作的指令118。
在一些实施方式中,用户计算设备102可以存储或包括一个或多个麦克风模型120。例如,麦克风模型120可以是或者可以否则包括各种机器学习的模型,诸如神经网络(例如,深度神经网络)或其他类型的机器学习的模型,包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如,长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。参考图2至图5讨论了示例麦克风模型120。
在一些实施方式中,一个或多个麦克风模型120可以通过网络180从服务器计算系统130接收,存储在用户计算设备存储器114中,并且然后由一个或多个处理器112使用或否则实现。在一些实施方式中,用户计算设备102可以实现单个麦克风模型120的多个并行实例(例如,以跨麦克风风格的多个实例执行并行合成数据生成)。
更具体地,麦克风模型可以用于将麦克风风格转移到音频数据以生成合成数据以被用于训练其他模型,诸如语音命令模型。
附加地或备选地,一个或多个麦克风模型140可以被包括在服务器计算系统130中或者由服务器计算系统130存储和实现,服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如,麦克风模型140可以由服务器计算系统140实现为web服务(例如,合成音频数据生成服务)的一部分。因此,一个或多个模型120可以在用户计算设备102处存储和实现,和/或一个或多个模型140可以在服务器计算系统130处存储和实现。
用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如,用户输入组件122可以是对用户输入对象(例如,手指或触笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件可以用于实现虚拟键盘。其他示例用户输入组件可以包括麦克风、传统键盘或用户可以用来提供用户输入的其他装置。
服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及其组合。存储器134可以存储数据136和由处理器132执行以使服务器计算系统130执行操作的指令138。
在一些实施方式中,服务器计算系统130包括一个或多个服务器计算设备或否则由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的实例中,这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。
如上所述,服务器计算系统130可以存储或否则包括一个或多个机器学习的麦克风模型140。例如,模型140可以是或可以否则包括各种机器学习的模型。示例机器学习的模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图2至图4讨论示例模型140。
用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离或者可以是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及其组合。存储器154可以存储数据156和由处理器152执行以使训练计算系统150执行操作的指令158。在一些实施方式中,训练计算系统150包括一个或多个服务器计算设备或否则由一个或多个服务器计算设备实现。
训练计算系统150可以包括模型训练器160,其使用各种训练或学习技术(诸如,例如,错误的反向传播)训练存储在用户计算设备102和/或服务器计算系统130处的机器学习的模型120和/或140。例如,可以通过模型反向传播损失函数以更新模型的一个或多个参数(例如,基于损失函数的梯度)。可以使用各种损失函数,诸如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术可以用于通过多次训练迭代来迭代地更新参数。
在一些实施方式中,执行误差的反向传播可以包括执行通过时间的截断的反向传播。模型训练器160可以执行多种泛化技术(例如,权重衰减、丢失等)以提高正在训练的模型的泛化能力。
特别地,模型训练器160可以基于一组训练数据162来训练麦克风模型120和/或140。训练数据162可以包括例如用麦克风模型处理源数据以生成处理后的源数据。然后可以使用处理后的源数据来生成预测的目标频谱图。然后可以将预测的目标频谱图与目标频谱图进行比较以评估损失函数。然后可以使用损失函数来修改麦克风模型的参数。
在一些实施方式中,如果用户已经提供了同意,则训练示例可以由用户计算设备102提供。因此,在这样的实施方式中,可以由训练计算系统150在从用户计算设备102接收到的用户特定数据上训练提供给用户计算设备102的模型120。在一些实例中,该过程可以被称为个性化模型。
模型训练器160包括用于提供期望功能的计算机逻辑。可以以硬件、固件和/或控制通用处理器的软件来实现模型训练器160。例如,在一些实施方式中,模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中,模型训练器160包括一组或多组计算机可执行指令,其被存储在诸如RAM硬盘或光或磁介质的有形计算机可读存储介质中。
网络180可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,因特网)或其某种组合,并且可以包括任何数量的有线或无线链路。一般而言,通过网络180的通信可以使用多种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接承载。
本说明书中描述的机器学习的模型可以在各种任务、应用和/或用例中使用。
在一些实施方式中,对本公开的机器学习的模型的输入可以是语音数据。机器学习的模型可以处理语音数据以生成输出。作为另一个示例,机器学习的模型可以处理语音数据以生成潜在嵌入输出。作为另一个示例,机器学习的模型可以处理语音数据以生成编码语音输出(例如,语音数据的编码和/或压缩表示等)。作为另一个示例,机器学习的模型可以处理语音数据以生成质量提高的语音输出(例如,比输入语音数据质量更高的语音数据等)。作为另一个示例,机器学习的模型可以处理语音数据以生成预测输出。
在一些实施方式中,对本公开的机器学习的模型的输入可以是潜在编码数据。机器学习的模型可以处理潜在编码数据以生成输出。作为另一个示例,机器学习的模型可以处理潜在编码数据以生成重建输出。
在一些实施方式中,对本公开的机器学习的模型的输入可以是传感器数据。机器学习的模型可以处理传感器数据以生成输出。作为另一个示例,机器学习的模型可以处理传感器数据以生成分段输出。作为另一个示例,机器学习的模型可以处理传感器数据以生成可视化输出。
图1A图示了可以用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如,在一些实施方式中,用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中,模型120可以在用户计算设备102本地被训练和使用。在一些这样的实施方式中,用户计算设备102可以实现模型训练器160以基于用户特定数据来个性化模型120。
图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。
计算设备10包括多个应用(例如,应用1到N)。每个应用都包含它自己的机器学习库和机器学习的模型。例如,每个应用都可以包括机器学习的模型。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图1B所示,每个应用都可以与计算设备的许多其他组件(诸如,例如,一个或多个传感器、场境管理器、设备状态组件和/或附加组件)通信。在一些实施方式中,每个应用可以使用API(例如,公共API)与每个设备组件通信。在某些实施方式中,由每个应用使用的API特定于该应用。
图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。
计算设备50包括多个应用(例如,应用1到N)。每个应用都与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用可以使用API(例如,跨所有应用的通用API)与中央智能层(和存储在其中的模型)通信。
中央智能层包括多个机器学习的模型。例如,如图1C所示,可以为每个应用提供相应的机器学习的模型(例如,模型)并将其由中央智能层管理。在其他实施方式中,两个或更多个应用可以共享单个机器学习的模型。例如,在一些实施方式中,中央智能层可以为所有应用提供单个模型(例如,单个模型)。在一些实施方式中,中央智能层被包括在计算设备50的操作系统内或否则由计算设备50的操作系统实现。
中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的中央数据存储库。如图1C所示,中央设备数据层可以与计算设备的许多其他组件(诸如,例如,一个或多个传感器、场境管理器、设备状态组件和/或其他组件)通信。在一些实施方式中,中央设备数据层可以使用API(例如,私有API)与每个设备组件通信。
示例模型布置
图2描绘了根据本公开的示例实施例的用于使用麦克风模型204生成扩增的训练数据的示例系统200的框图。在一些实施方式中,使用初始训练数据202来训练麦克风模型204。一旦被训练,麦克风模型204就可以用于扩增数据样本206以生成扩增的训练数据,其可以用于训练另一个模型208。
因此,图2描绘了用于训练模型的扩增的音频数据的生成的一种实施方式的图示。麦克风模型204可以用于生成可以用于训练其他模型208的合成数据。可以从合成数据中获益的一个示例模型将是语音识别模型,例如,该模型处理音频数据以确定关键词或命令是否在音频数据中。麦克风模型可以允许生成添加了噪声的新的扩增的数据或对应于麦克风变化性的其他麦克风变换。
在图2的这个图示中,存在初始训练数据集202。数据集可以是来自配对数据集的源数据和目标数据。在一些实施方式中,数据集可以包括“未配对的”目标数据和由语音增强器模型生成的源数据。在一些示例中,训练数据202可以是“在野外”收集的真实世界数据。
在该实施方式200中,麦克风模型204从初始数据202源获得或获取源数据和目标数据。麦克风模型204处理源数据和目标数据以学习生成麦克风风格转移的数据。生成的麦克风风格转移的数据可以包括转移到源数据的目标数据的麦克风风格。
一旦经过训练,麦克风模型204就可以用于基于音频库206或其他训练数据集的一个或多个数据样本来生成扩增的数据。然后扩增的数据可以用作模型208的训练数据。模型208可以是任何形式的音频处理模型,诸如,在一个示例中,可以处理音频数据以确定关键词或短语是否在音频数据中的语音识别模型。扩增的数据可以包括具有转移到基于麦克风模型204输出或由麦克风模型204执行的音频扩增数据的数据的麦克风风格的数据文件中的关键词或短语。模型208的训练可以进一步采用内容数据,其指示,对于扩增的数据的每个项,该扩增的数据是否包括一个或多个词(例如,关键词或短语)。该内容数据可以从初始数据202中包括的对应内容数据获得,初始数据202指示源数据或目标数据的每个项是否包括一个或多个词。因此,可以通过监督学习算法来训练模型208。
图3描绘了麦克风模型的一个示例实施方式的图示。麦克风模型300可以获得音频数据x作为输入并输出麦克风类型转移的数据y。在此实施方式中,麦克风模型300获得音频数据并将音频数据的输入时域波形与麦克风脉冲响应数据302进行卷积。麦克风脉冲响应在一些实例中还可以包括房间混响脉冲响应。得到的输出y1或第一信号然后可以由麦克风模型的组件304处理,该麦克风模型基于功率谱密度对麦克风的频带截断进行建模以生成第二信号y2。组件304可以是可以包括短期傅里叶变换的功率频率模型。
在此实施方式中,麦克风模型包括滤波器模型306,其中,使用学习的滤波器对白高斯噪声信号进行卷积。所得到的卷积数据然后可以被添加308到第二信号y2以生成第三信号y3。第三信号然后可以由限幅模型310处理以生成限幅数据。限幅数据可以是或包括麦克风风格转移的数据y。
图4描绘了用于训练麦克风模型的系统的一种实施方式的图示。可以使用包括源数据和目标数据的训练数据402来训练麦克风模型404。在此实施方式中,源数据由麦克风模型404处理以生成麦克风风格转移的数据。在一些实施方式中,为目标数据生成406一个或多个频谱图。在一些实施方式中,为麦克风风格转移的数据生成408一个或多个频谱图。可以将基于麦克风风格转移的数据生成的预测的目标频谱图与目标频谱图进行比较。该比较可以用于评估410损失函数。
来自训练数据402的源数据可以是干净的波形数据(例如,由高质量麦克风生成并且基本上没有由于麦克风造成的伪像的数据,或者其中由特定麦克风生成的伪像被移除或最小化的数据),而训练数据402的目标数据可以是由具有麦克风变化性的麦克风收集的数据。麦克风模型404可以被配置为将目标数据的麦克风风格转移到源数据。麦克风模型404可以将源波形数据与麦克风脉冲响应数据进行卷积,用功率频率模型、滤波模型和限幅模型处理所得数据以生成具有期望的麦克风变化性的限幅数据。限幅数据可以用于生成408预测的目标频谱图。在一些实施方式中,可以生成406目标频谱图以与预测的目标频谱图进行比较。用于评估损失函数410的比较可以包括确定预测的目标频谱图和目标频谱图之间的平均绝对误差。
在此实施方式中,可以响应于损失函数的评估而修改麦克风模型404的一个或多个参数。可以响应于该比较而修改脉冲响应、功率频率模型、滤波器模型和/或限幅模型的参数(例如,以迭代地减小损失函数)。
图5描绘了示例机器学习的麦克风模型系统的概述。训练的麦克风模型508可以基于目标样本502(即,由目标麦克风(例如,具有麦克风变化性的麦克风)生成的声音数据的项)和由语音增强网络504产生的目标样本的增强版本506来生成学习的扩增510。
更具体地,图5描绘了根据本公开的示例实施例的示例机器学习的麦克风模型508的框图。在一些实施方式中,机器学习的麦克风模型508被训练以从目标麦克风接收描述目标样本的一组输入数据502,并且作为收到输入数据502的结果,提供包括扩增的音频数据(例如,被扩增以变换音频数据以模仿来自目标麦克风的输出的音频数据)的输出数据510。因此,在一些实施方式中,机器学习的麦克风模型508可以包括增强器模型504,该增强器模型504可操作以对目标样本502执行语音增强技术以便生成增强样本。
在一些实施方式中,本文公开的系统和方法可以获得描述目标麦克风的目标样本502。目标样本502可以由增强器模型504处理以生成增强样本506。在一些实施方式中,增强器模型可以包括语音增强器网络。目标样本502和增强样本506然后可以由麦克风模型508处理以生成学习的扩增输出510,其可以包括被扩增以模仿由目标麦克风生成的音频数据的音频数据。
图9描绘了根据移动设备的配对数据和机器学习的麦克风模型的参数而估计的功率谱密度。更具体地,第一曲线图902描绘了功率谱密度图,包括针对源和目标中的每一个的相应线,其可以用于比较源和目标之间的差异。然后可以训练麦克风模型以扩增源音频数据以将源音频数据变换成描述目标麦克风的数据(其可以表示由目标麦克风输出的音频数据)。第二到第五曲线图描绘了不同的学习参数,包括麦克风频率响应参数904、频率阈值参数906、噪声频率响应参数908和限幅阈值参数910。
图10描绘了目标音频长度对欺骗源设备标识模型的成功率的影响,源设备标识模型被配置为接收来自目标麦克风的具有目标音频长度的声音的音频样本,并且输出音频样本是否确实是由目标麦克风生成的指示。特别地,图10描绘了具有配对设置数据106和未配对设置数据108的曲线图1000。如曲线图1000中所传达的,配对设置数据106和未配对设置数据108两者一直到大约九秒的序列长度都经历了响应于序列长度104的增加而提高的成功率102。因此,系统和方法可以提供随着序列长度的增加而提高的性能,在序列长度的九秒左右出现收益减弱。
示例方法
图6描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管图6出于说明和讨论的目的描绘了以特定顺序执行的步骤,但是本公开的方法不限于具体图示的顺序或布置。在不脱离本公开的范围的情况下,可以以各种方式省略、重新布置、组合和/或调整方法600的各个步骤。
在602处,计算系统可以获得由第一麦克风收集的输入音频数据。
在604处,计算系统可以用机器学习的麦克风模型处理输入音频数据,以生成不同于第一麦克风的目标麦克风的预测的目标音频数据。在一些实施方式中,输入音频数据可以包括未扩增的训练示例(即,由与目标麦克风不同的麦克风(例如,输出接收的声音信号的基本上准确表示的高质量麦克风)输出的音频数据),并且预测的目标音频数据可以包括扩增的训练示例(即,标识由目标麦克风在接收到声音信号时输出的音频的修改后的音频数据)。此外,该系统可以使用扩增的训练示例来训练音频处理模型。
在一些实施方式中,用机器学习的麦克风模型处理输入音频数据以为不同于第一麦克风的目标麦克风生成预测的目标音频数据可以包括计算系统执行606和608。
在606,计算系统可以至少部分地基于音频数据和机器学习的麦克风模型的机器学习的脉冲响应数据来确定第一信号数据。在一些实施方式中,脉冲响应数据可以包括房间混响脉冲响应数据。房间混响脉冲响应数据可以是至少部分地基于目标麦克风所在的房间。
在608处,计算系统可以用机器学习的麦克风模型的机器学习的功率频率模型来处理第一信号数据以产生第二信号数据。在一些实施方式中,机器学习的功率频率模型可以对一个或多个频带截断进行建模。一个或多个频带截断可以是至少部分地基于功率谱密度。附加地和/或备选地,机器学习的功率频率模型可以应用一个或多个短期傅里叶变换。机器学习的功率频率模型可以包括sigmoid激活函数。
在一些实施方式中,用机器学习的麦克风模型处理输入音频数据可以包括:用机器学习的滤波器处理噪声信号以生成滤波的噪声数据;以及将滤波的噪声数据与第二信号数据组合以生成第三信号数据。在一些实施方式中,噪声信号可以包括白高斯噪声信号。机器学习的限幅模型可以应用波形的学习的最大绝对值。在一些实施方式中,机器学习的限幅模型可以包括平滑的最小值函数和平滑的最大值函数。
备选地和/或附加地,用机器学习的麦克风模型处理输入音频数据可以包括用机器学习的限幅模型处理第二信号或第三信号以生成限幅数据,其中,限幅数据可以包括预测的目标音频数据。
图7描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管图7出于说明和讨论的目的描绘了以特定顺序执行的步骤,但是本公开的方法不限于具体图示的顺序或布置。在不脱离本公开的范围的情况下,可以以各种方式省略、重新布置、组合和/或调整方法700的各个步骤。
在702处,计算系统可以获得训练目标音频信号。获得训练目标音频信号可以包括获得由目标麦克风输出的“原始音频”信号,和/或可以包括至少部分地基于模拟麦克风扩增来扩增音频数据以生成模拟目标数据(其可以是表示由目标麦克风输出的音频数据的音频数据)。模拟目标数据可以被包括在训练目标音频信号中。
在704处,计算系统可以用语音增强模型处理训练目标音频信号以生成源音频信号,其表示由高质量麦克风输出的音频信号。在一些实施方式中,源音频信号可以包括精炼的音频数据(例如,表示目标麦克风的缺点的伪像可以被移除)。
在706处,计算系统可以用机器学习的麦克风模型处理源音频信号以生成预测的目标音频信号。
在708处,计算系统可以评估将预测的目标音频信号与训练目标音频信号进行比较的损失函数。在一些实施方式中,评估损失函数可以包括根据预测的目标音频信号来生成预测的目标频谱图,根据训练目标音频信号来生成训练目标频谱图,以及将预测的目标频谱图与训练目标频谱图进行比较。
在710处,计算系统可以基于损失函数来修改机器学习的麦克风模型的一个或多个参数的一个或多个值(例如,以例如通过反向传播算法减小损失函数)。
在一些实施方式中,计算系统可以采用机器学习的麦克风模型来执行对训练数据集的扩增。备选地和/或附加地,计算系统可以使用扩增的训练数据集来训练关键词识别模型。
图8描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管图8出于说明和讨论的目的描绘了以特定顺序执行的步骤,但是本公开的方法不限于具体图示的顺序或布置。在不脱离本公开的范围的情况下,可以以各种方式省略、重新布置、组合和/或调整方法800的各个步骤。
在802处,计算系统可以获得包括源音频信号和与目标麦克风风格相关联的训练目标音频信号的风格转移训练数据。风格转移训练数据可以指示目标麦克风在根据声音信号生成音频数据时如何破坏它接收到的声音信号。
在804处,计算系统可以用机器学习的麦克风模型处理源音频信号以生成预测的目标音频信号(例如,表示由目标麦克风输出的音频数据的音频数据)。机器学习的麦克风模型可以包括以下中的一个或多个:机器学习的脉冲响应、机器学习的功率频率模型、机器学习的噪声输入滤波器或机器学习的限幅函数。
在806处,计算系统可以评估将预测的目标音频信号与训练目标音频信号进行比较的损失函数。在一些实施方式中,评估损失函数可以包括:根据预测的目标音频信号来生成预测的目标频谱图,根据训练目标音频信号来生成训练目标频谱图,以及将预测的目标频谱图与训练目标频谱图进行比较。
在808处,计算系统可以基于损失函数来修改机器学习的麦克风模型的一个或多个参数的一个或多个值(例如,以例如通过反向传播减小损失函数)。
附加地和/或备选地,计算系统可以采用机器学习的麦克风模型来执行对训练数据集的扩增。然后可以将扩增的训练数据集存储在训练数据库中,以用于训练其他机器学习的模型或用于重新训练当前机器学习的模型。
在一些实施方式中,计算系统可以使用扩增的训练数据集来训练关键词识别模型。
示例实施方式
“在野外”部署基于音频的模型可能受到由异构麦克风引入的变换的健壮性的影响。在一些实施方式中,本文公开的系统和方法可以执行单次性麦克风风格转移。给定由目标设备记录的仅几秒音频,该系统和方法可以标识与麦克风相关联的变换,并且可以使用学习到的变换来合成音频,就好像它是由该设备记录的一样。该系统和方法可以包括机器学习的麦克风模型,该模型可以将变换应用于真实音频,并且当在下游任务用作数据扩增时可以显著提高对麦克风变化性的模型健壮性。
在一些实施方式中,这些系统和方法可以用于解决健壮模型的开发中的域偏移。关于对麦克风变化性的健壮性,当对由与用于收集训练集的麦克风不同的麦克风捕获的音频执行推理时,性能会受到显著影响。为了缓解在从与训练麦克风不同的麦克风接收音频数据时模型的性能问题,系统和方法可以使用在倒谱域中的相加法校正和使用麦克风集合的多风格训练。但是,如果无法访问来自多个麦克风的训练数据,则该校正可能会受到限制。
因此,系统和方法可以解决以下问题,给定由目标麦克风记录的几秒音频,使用机器学习的麦克风模型将其他音频样本变换为听起来就好像它们是由目标麦克风记录的一样。这些系统和方法可以在很大程度上适用于语音数据和其他音频数据。在一些实施方式中,系统和方法可以包括用于单次麦克风风格转移的机器学习的麦克风模型。在时域中操作,系统和方法可以与下游任务无关,并且因此具有广泛的适用性。此外,系统和方法可以利用麦克风模型和语音增强技术来实现快速模型标识。附加地和/或备选地,机器学习的麦克风模型可以利用捕获麦克风信号处理流水线的强先验来训练麦克风模型。
在一些实施方式中,系统和方法可以包括基于强先验的轻量级麦克风模型,该模型可以使用来自目标设备的仅几秒音频来训练。计算操作和执行此操作所需的数据存储要求可能在适中的移动计算设备的能力内。机器学习的麦克风模型可以输出由可以欺骗源设备标识模型的学习的麦克风模型变换的样本。此外,系统和方法可以用于数据扩增以显著提高对麦克风变化性的模型健壮性。备选地和/或附加地,麦克风模型可以在对抗训练中使用以提升模型健壮性。
系统和方法可以获得训练数据,包括:i)语音样本的集合(例如,由基本上不会向接收到的声音信号添加伪像的高质量麦克风输出),其可以被称为源,ii)由感兴趣的麦克风记录的短语音分段,其可以被称为目标。系统和方法可以假设源样本包含干净的语音样本,这些样本是用具有平坦频率响应的高质量麦克风收集的,并且仅受背景噪声和房间混响轻微影响。在一些实施方式中,系统和方法的输出可以包括将源样本修改为听起来就好像它们是由目标麦克风记录的一样的变换。
在图5中描绘了具有麦克风模型的示例系统的概述。第一构建块可以是语音增强网络504。在一些实施方式中,增强网络可以包括波到波完全卷积U-Net。语音增强网络504可以成功地扩展由于在移除噪声中并且甚至在移除早期房间混响中的麦克风滤波而丢失的频率。因此,通过在将样本馈送到服务于下游任务的模型之前增强样本,可以用语音增强网络504实现对麦克风变换的健壮性。然而,在推理时间运行语音增强网络可能会引入延时。
在一些实施方式中,语音增强器模型的输出可以包括一个或多个伪像。因此,系统和方法可以进一步包括麦克风模型508,其利用在麦克风的信号处理流水线中的强先验。机器学习的麦克风模型的任务可以是从样本对中标识由麦克风引入的变换。强先验可以用于允许给定仅几秒音频的模型标识,即使在存在可能由增强网络引入的伪像的情况下。一旦已经标识了变换,就可以在训练期间使用这些变换进行数据扩增,以实现目标域中的健壮性。
备选地和/或附加地,系统和方法可以包括直接从目标样本学习变换,而不依赖于语音增强网络。在一些实施方式中,可以用时间对齐的源-目标样本对来训练该系统和方法。
在一些实施方式中,系统和方法可以被训练以将源样本变换为听起来就好像它们是由目标麦克风记录的一样。在一些实施方式中,可以经由一系列下游任务(即,将麦克风风格转移的输出作为输入接收的监督学习问题)来评估麦克风模型。
麦克风模型的任务可以是在x目标=T(x源)的假设下,基于包含仅几秒语音的单个对(x源,x目标)来近似归因于麦克风变化性的变换T。为了从单个、可能较短的样本实现这一点,系统和方法可以在对麦克风采集流水线进行建模中并入强先验,但仍然足够灵活以实现令人信服的实验结果。
在图3中描绘了示例麦克风模型。作为流水线的第一步,输入时域波形可以与麦克风脉冲响应(IR)fm进行卷积:
y1=fm*x. (1)
因此,在稍微滥用命名法的情况下,麦克风脉冲响应与房间脉冲响应的合成可以被表示为fm。由于麦克风模型可以处置数千个样本量级的可变大小输入,因此系统和方法可以将所有卷积执行为频域中的乘法,其中时间复杂度为
作为第二步,信号y1可以被传递通过组件,该组件基于功率谱密度(PSD)来对麦克风的频带截断进行建模:当频带中的信号功率低于学习的阈值时,相应的功率可能会在该频带中进一步降低。正式地,
y2=STFT-1 STFT(y1)·σ(|STFT(y1)|2-t), (2)
其中,σ(·)sigmoid函数,并且t随时间传播,具有对应于STFT窗口长度的尺寸。接下来,系统可以对白高斯噪声信号进行采样,该白高斯噪声信号与学习的滤波器fn卷积并添加到y2以产生y3,
最后一个组件可以通过学习波形的最大允许绝对值的阈值来对麦克风限幅效应进行建模。系统和方法可以经由平滑的最小和最大函数来实现这一点,即:
y=smoothmin(smoothmax(y3,-τ),τ), (4)
其中,smoothmax(a,b)=(aea+beb)/(ea+eb)并且smoothmax(a,b)=(ae-a+be-b)/(e-a+e-b)。此外,可学习参数集可以被表示为θ={fm,fn,t,τ}并且所得到的麦克风变换可以被表示为micθ(·)。
在获得仅几秒配对音频样本(x源,x目标)之后,可以优化麦克风模型的参数。对于训练,系统和方法可以对目标执行梯度下降
minθl1(MEL(micθ(x源)),MEL(x目标)), (5)
其中,l1(·,·)表示平均绝对误差,并且MFL(·)计算梅尔频谱图。可以假设所有信号都以16KHz被采样。可以用1024个样本(64ms)的窗口长度和160(10ms)的跳跃长度以及用128个分格来计算梅尔频谱图。可以使用步长0.005和1000次迭代用训练数据集执行优化,由于参数数量少,这可以在单个GPU上在少于一分钟的时间内执行。对于麦克风模型,系统和方法可以包括在实验中将STFT窗口长度固定为2048(128ms)并将跳跃长度固定为160。语音增强网络和麦克风模型两者都可以对增益归一化信号进行操作。作为说明,图9示出了从MOBIPHONE数据集中的单个音频样本中学习的麦克风模型的示例参数。
麦克风模型的估计可以假定输入音频x源表示干净的原始波形。备选地和/或附加地,语音增强网络可以通过下述方式产生近似通过反转在目标域中遇到的麦克风变换来增强样本x目标,并且因此产生包含干净语音的样本。由于x目标可能会受到噪声、麦克风滤波和房间混响影响,因此网络的任务可能是执行盲去卷积和去噪。
因此,语音增强网络的训练数据可以涵盖多种可能的变换。在一些实施方式中,系统和方法可以创建合成数据集。例如,干净的参考音频可能包含来自56个以英语为母语的说话者的句子,其被拆分成1秒的序列。然后可以通过应用由我们的麦克风模型表示的随机采样的变换来修改每个序列。虽然麦克风模型可以捕获复杂的变换,但其基于强先验的模块化结构允许系统单独地对图3中呈现的每个组件进行采样。语音增强网络的任务可以是学习反转,以便基于该对已变换的且干净的参考样本应用变换。
在一些实施方式中,系统和方法可以从训练数据集获得一组70个麦克风脉冲响应,补充有一组200个带通滤波器,其截止频率分别从[50Hz,150Hz]和[3kHz,8kHz]均匀地采样。接下来,系统和方法可以通过在多样化的几何形状的房间上运行基于图像源方法的房间模拟器来获得一组1000个房间混响脉冲响应。最后,系统和方法可能涉及通过应用提取方法(即,通过寻找100ms长度的短低能量分段并用重叠和添加来复制它们(随机化相位)以获得1秒的样本,从而匹配在训练期间使用的长度)来从语音命令数据集中提取10,000个噪声分段。
配备了这些集合,系统和方法可以通过将以下操作应用于每个VCTK小批次来创建并行语料库:i)将干净样本与随机选取的房间混响脉冲响应进行卷积;ii)将结果与随机选取的麦克风脉冲响应进行卷积;iii)通过将频率范围划分成8个相等的桶并且对于每个桶从范围[2,3]中随机均匀地采样阈值,使用等式(2)执行对结果信号的阈值化;iv)添加随机选取的噪声样本并调整增益,使得所得SNR在[5dB,30dB]范围内;并且最后,v)使用等式(4)执行限幅,其中,在半数和最大绝对时域信号值之间随机选取τ。先前操作中的每个操作都可以以0.8、0.9、0.6、0.9和0.1的概率独立地执行,其中,已经选取这些值以确保所得变换的多样性。
增强网络的架构可以包括与媒体训练数据集的纯音频版本相同的全卷积波到波U-Net。附加地和/或备选地,最小化损失函数可以涉及优化对抗损失和特征匹配损失的组合,其中,特征是从多尺度鉴别器的中间激活中提取的。
该系统和方法可以呈现一种新颖的非线性麦克风模型,该模型可以从几秒配对音频中学习。基于麦克风模型和语音增强网络,系统和方法可以包括机器学习的麦克风模型,其可以标识未配对设置中的麦克风变换。与对抗训练耦合的麦克风模型可以用于提高健壮性,而不依赖于来自目标设备的数据。系统和方法可以通过下游任务基于风格转移的质量来评估,并且结果可以示出该方法明显优于现有基线。
示例实验
为了评估由示例麦克风模型(例如,MicAugment)产生的样本的质量,实验系统可以利用两个不同的下游任务,即:i)欺骗源设备标识模型和ii)评估用不同扩增策略训练的完全监督模型的健壮性。虽然这种评估方法可能固有地依赖于在下游任务中使用的模型,但评估可以发现竞争方法的相对排序跨不同任务保持不变。
系统可以考虑从移动设备的麦克风留下的足迹标识移动设备的问题,这可能是音频取证中感兴趣的主题。在该实验中,系统可以首先训练完全监督的源设备标识模型。然后,给定来自目标移动设备的仅几秒音频,系统可能训练MicAugment并将其应用于干净的样本,目的是欺骗源设备标识模型以使其相信它们是从目标设备中获取的。
对于这个任务,系统可以依赖于训练数据集,该训练数据集记录从具有21个移动设备的TIMIT数据库中随机选取的12个男性和12个女性说话者的句子,从而得到每个说话者和设备的30秒音频。数据集可以指定记录中使用的来自TIMIT的原始句子,系统可以基于这些句子创建配对和对齐的TIMIT-MOBIPHONE数据集。联合数据集可以允许系统在真实世界数据集上单独评估我们的麦克风模型。
在一些实施方式中,系统可以通过在MOBIPHONE上训练源设备标识网络来开始。系统可以将数据集拆分为训练集和测试集,具有16个和8个说话者的非重叠集。此外,在训练和测试拆分中说出的句子之间可能没有重叠。对于训练,音频可以被拆分成一秒的块。对于测试,系统可以报告在一秒块上的平均准确度以及当对每个说话者和设备应用多数投票时的准确度两者。模型架构可以包括在log-mel频谱图输入上运行的CNN(窗口长度25ms,跳跃长度:10ms,64个mel通道)。附加地和/或备选地,网络可以包括六个卷积块的序列,每个卷积块包括沿时间轴和频率轴的可分离卷积,内核大小等于3,然后是ReLU非线性,与批量归一化交错。每个块中的通道数可以等于[64,128,256,256,512,512]。当通道数增加时,可以沿着时间和频率两者应用步幅为2的最大池化。卷积体后面可以跟着具有两个层的头部:具有256个具有ReLU非线性的输出的完全连接层;以及具有20个输出的最终线性层。表I中的结果可以传达相对于其他技术的结果的稍微改进,并确认该模型泛化良好,从而以针对未见过的说话者和内容的多数投票产生完美的分类准确度。
更具体地,表I传达了在MOBIPHONE数据集上用CNN进行设备标识的实验结果。
为了构建基线,系统可以从TIMIT中采样100个随机说话者的新集合并为每个说话者检索平均长度为3秒的随机句子。攻击方法的目的可以为每个目标设备提议变换,使得当应用于时,经变换的样本可能会被CNN错误分类为属于目标设备。系统可以报告中设备和样本两者上平均的成功率。此外,系统可以设计用作MicAugment下限和上限的基线。建立关于成功率的上限的最强基线可以是白盒攻击(即,可以访问经训练的源设备标识符模型并可以通过它反向传播梯度的攻击)。然而,与扰乱特征空间中的输入样本的常见手段不同,系统可能对抗地优化麦克风模型来欺骗设备检测器。更正式地说,对于目标设备类别c,攻击者的目标可以是:
其中,g(·)是设备检测器CNN,并且l(·,·)是交叉熵损失。这种方法的成功也可以用作对麦克风模型的灵活性的验证。通过收听对抗样本,系统能够核实攻击不会改变语音的语义内容。
在一些实施方式中,系统和方法可以包括依赖于配对和对齐的TIMIT-MOBIPHONE数据集的两个基线。为了训练这些,系统可以为每个设备选择15秒的配对音频,包含来自随机选取的5个说话者的一个句子。依赖于配对数据的第一基线可以是频谱均衡(即,基于从TIMIT和MOBIPHONE批次估计的功率谱密度(PSD)比率的校准方法:该方法调整的PSD以匹配来自目标设备的样本的PSD,因此仅捕获线性变换)。第二配对基线可以是从每个设备的仅15秒可用配对数据中学习麦克风变换模型。此外,评估可以包括MicAugment的展示,它在未配对设置中工作并且只能访问目标设备记录。
表II传达了各种风格转移方法在欺骗设备标识符网络中的成功率。
方法 | 成功率 |
白盒攻击 | 100.0±0.0 |
频谱均衡 | 34.4±1.3 |
麦克风模型(监督的) | 88.3±0.6 |
MicAugment | 68.3±2.4 |
附加地和/或备选地,系统可以从表II中的结果中获得关于转移的样本的质量的若干见解。该表可以传达在5个不同的随机选取的批次和具有不同随机种子的初始化上的率的平均值和标准偏差。白盒攻击的成功可以证明我们的模型的灵活性。这可以通过以下事实得到进一步巩固:在配对设置中,麦克风模型学习了一种以88.3%的成功率欺骗设备检测器的变换,尽管没有注意到手头的分类任务。最后,当被提供有来自每个目标设备的仅15秒音频样本时,MicAugment的成功率为68.3%。这项研究的结果可以表明,与配对设置相比,准确度下降20%可能是由于语音增强网络,它面临在训练期间未遇到的真实数据变换。可以提供源样本和目标样本的集合,以及用MicAugment变换的样本。该评估可以包括对可从目标设备获得的音频数据的长度对欺骗设备标识模型的成功率的影响执行消融研究。结果如图10所示,从中可以看出,来自目标设备的9秒音频可以达到峰值性能。可以注意到,由于语音增强网络,配对和未配对设置之间的20%的差距在不同的目标音频长度上可能是恒定的。
可以通过使用麦克风模型(例如,MicAugment系统)来缓解关键词检测系统中由于麦克风变化性而导致的准确度劣化。在一些实施方式中,MicAugment系统的评估可以包括:(1)合成设置,其中,测试集经由在上一节中在TIMIT-MOBIPHONE配对设置上学习的麦克风模型(例如,模型可以被用作真实麦克风变换的代理)被合成变换;以及(2)真实设置,其中,重新捕获测试集,用计算机扬声器播放音频剪辑并用内置麦克风记录它们。
表III传达了用于解决关于键盘检测的麦克风变化性的不同手段的性能。
表III(第一列)示出了取决于测试场景,准确度从95.7%下降到91.8%或88.3%。结果可以被报告为在5个随机种子上平均。为了获得在测试期间可达到的关于准确度的上限,系统可以学习oracle模型,该模型在训练期间联合利用在测试时间应用的相同扩增,即:(i)在合成设置中的所有变换和(ii)从来自重新记录的测试集的10秒配对音频中学习的麦克风模型。表III(最后一列)示出该模型可以在干净的测试集上达到相似的准确度水平(95.4%对比95.7%),但在两个修改后的测试集上明显更健壮(94.5%对比91.8%,91.0%对比88.3%)。
结果示出,可以通过用MicAugment扩增训练数据来显著恢复准确度损失,MicAugment可以从来自目标设备的仅15秒数据中学习。在合成设置中,系统可以使用来自先前实验的每个目标设备的未配对设置中学习的MicAugment模型。在真实设置中,系统可以使用经由计算机重新捕获的来自训练数据集的15秒剪辑来训练MicAugment。在这种情况下,系统可以使用数据集而不是语音命令来学习麦克风模型,因为后者已经包含由于记录麦克风而导致的明显劣化。表III中的MicAugment列示出了在训练期间使用扩增方法时达到的平均准确度,这接近用oracle模型可达到的准确度水平。
此外,该评估可以用于将MicAugment与可以在未配对设置中操作的其他方法(即频谱均衡和SpecAugment)进行比较。对于频谱均衡,系统可以估计中的干净样本与合成设置中每个目标设备的15秒音频之间或来自训练数据集的100秒随机样本和训练数据集的15秒重新记录部分之间的功率谱密度比。对于SpecAugment,系统可以用于在时域和频域两者中掩蔽2个切片的配置,每个切片最多具有10个元素。
总的来说,在表III中传达了以下结果:频谱均衡在合成设置中恢复了25%的准确度损失,并且在真实设置中恢复了35%。SpecAugment可能不会注意到应用于测试样本的特定失真,但它仍然可以分别恢复20%和26%的准确度损失,同时在原始干净的测试集上实现质量准确度。相比之下,MicAugment可以恢复超过70%的准确度损失,其中在干净的测试集上只有很小的劣化。
最后,评估结果示出,麦克风模型可以用于实现对广泛的可能麦克风变换的健壮性,而不使用来自目标设备的任何样本。这可以包括监督的下游任务和对应的标记数据集的知识。
虽然在图像域中可以通过扰乱像素值进行对抗攻击,但是在这里系统可以代替地通过优化我们的麦克风模型来执行攻击,类似于对源设备标识的白盒攻击。下游任务可能是在数据集上学习分类器gφ的K类分类任务。该系统可以包括以下优化目标:
其中,
其中,l(·,·)是交叉熵损失,并且C是在麦克风模型参数上的约束集。通俗地说,对于每个输入样本,系统可以发现欺骗分类器将样本错误分类为随机均匀采样的类的麦克风模型的参数化。
集合C可以定义麦克风模型参数的约束,并且可以谨慎选择该集合。在图像域中,对抗约束集通常可以被定义为像素空间中的lp范数约束。相反,系统可以将等式(8)的内部优化问题中的θ0初始化为等效于恒等变换,并且可以执行有限数量的梯度下降步骤来找到θ*(我们在我们的实验中使用了50个步骤)。该评估可以用于检查此类对抗麦克风变换,并且可以传达所得的经变换的样本中的语音内容在语义上保持未改变,并且人类听众可以轻松正确地对其进行分类。
系统和方法可以在先前实验的合成和真实设置上被评估,并在表III的对抗扩增列中报告结果。
附加公开
本文讨论的技术参考了服务器、数据库、软件应用和其他基于计算机的系统,以及采取的动作和发送到此类系统和从此类系统发送的信息。基于计算机的系统的固有灵活性允许在组件之间和之中进行各种可能的配置、组合以及任务和功能的划分。例如,可以使用单个设备或组件或组合工作的多个设备或组件来实现本文讨论的过程。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序地或并行运行。
虽然已经关于本主题的各种特定示例实施例详细描述了本主题,但是每个示例都是通过解释而不是限制本公开的方式提供的。本领域技术人员在获得对前述内容的理解后可以容易地产生对此类实施例的更改、变型和等同物。因此,本公开不排除包括对本主题的这样的修改、变化和/或添加,如对本领域普通技术人员来说将是显而易见的。例如,作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此,本公开旨在涵盖此类更改、变型和等同物。
Claims (20)
1.一种用于麦克风风格转移的计算机实现的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得由第一麦克风收集的输入音频数据;以及
由所述计算系统用机器学习的麦克风模型处理所述输入音频数据以生成不同于所述第一麦克风的目标麦克风的预测的目标音频数据;
其中,由所述计算系统用所述机器学习的麦克风模型处理所述输入音频数据包括:
由所述计算系统至少部分地基于所述音频数据和所述机器学习的麦克风模型的机器学习的脉冲响应数据来确定第一信号数据;以及
由所述计算系统用所述机器学习的麦克风模型的机器学习的功率频率模型处理所述第一信号数据以产生第二信号数据,其中,所述机器学习的功率频率模型对所述目标麦克风的一个或多个频带截断进行建模。
2.根据权利要求1所述的计算机实现的方法,其中,由所述计算系统用所述机器学习的麦克风模型处理所述输入音频数据进一步包括:
由所述计算系统用机器学习的滤波器处理噪声信号以生成滤波的噪声数据;以及
由所述计算系统将所述滤波的噪声数据与所述第二信号数据组合以生成第三信号数据。
3.根据任一前述权利要求所述的计算机实现的方法,其中,所述噪声信号包括白高斯噪声信号。
4.根据任一前述权利要求所述的计算机实现的方法,其中,由所述计算系统用所述机器学习的麦克风模型处理所述输入音频数据进一步包括:
由所述计算系统用机器学习的限幅模型处理所述第二信号或所述第三信号以生成限幅数据,其中,所述限幅数据包括所述预测的目标音频数据。
5.根据任一前述权利要求所述的计算机实现的方法,其中,所述机器学习的限幅模型应用波形的学习的最大绝对值。
6.根据任一前述权利要求所述的计算机实现的方法,其中,所述机器学习的限幅模型包括平滑的最小值函数和平滑的最大值函数。
7.根据任一前述权利要求所述的计算机实现的方法,其中,所述输入音频数据包括未扩增的训练示例,并且所述预测的目标音频数据包括扩增的训练示例,并且其中,所述方法进一步包括使用所述扩增的训练示例来训练音频处理模型。
8.根据任一前述权利要求所述的计算机实现的方法,其中,所述脉冲响应数据包括房间混响脉冲响应数据,其中,所述房间混响脉冲响应数据是至少部分地基于所述目标麦克风所在的房间。
9.根据任一前述权利要求所述的计算机实现的方法,其中,所述机器学习的功率频率模型应用一个或多个短期傅里叶变换。
10.根据任一前述权利要求所述的计算机实现的方法,其中,所述一个或多个频带截断是至少部分地基于功率谱密度。
11.根据任一前述权利要求所述的计算机实现的方法,其中,所述机器学习的功率频率模型包括sigmoid激活函数。
12.一种计算机系统,包括:
一个或多个处理器;
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令当由所述一个或多个处理器执行时,使所述计算系统执行操作,所述操作包括:
获得训练目标音频信号;
用语音增强模型处理所述训练目标音频信号以生成源音频信号,其中,所述源音频信号包括精炼的音频数据;
用机器学习的麦克风模型处理所述源音频信号以生成预测的目标音频信号;
评估将所述预测的目标音频信号与所述训练目标音频信号进行比较的损失函数;以及
基于所述损失函数来修改所述机器学习的麦克风模型的一个或多个参数的一个或多个值。
13.根据任一前述权利要求所述的计算机系统,其中,所述操作进一步包括采用所述机器学习的麦克风模型来执行对训练数据集的扩增。
14.根据权利要求13所述的计算机系统,其中,所述操作进一步包括:
使用扩增的训练数据集来训练关键词识别模型。
15.根据任一前述权利要求所述的计算机系统,其中,获得所述训练目标音频信号包括至少部分地基于模拟麦克风扩增来扩增音频数据以生成模拟目标数据,所述模拟目标数据包括所述训练目标音频信号。
16.根据任一前述权利要求所述的计算机系统,其中,评估所述损失函数包括:
根据所述预测的目标音频信号来生成预测的目标频谱图;
根据所述训练目标音频信号来生成训练目标频谱图;以及
将所述预测的目标频谱图与所述训练目标频谱图进行比较。
17.一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令当由一个或多个处理器执行时,使计算系统执行操作,所述操作包括:
获得包括源音频信号和与目标麦克风风格相关联的训练目标音频信号的风格转移训练数据;
用机器学习的麦克风模型处理所述源音频信号以生成预测的目标音频信号,其中,所述机器学习的麦克风模型包括以下中的一个或多个:
机器学习的脉冲响应;
机器学习的功率频率模型;
机器学习的噪声输入滤波器;或者
机器学习的限幅功能;
评估将所述预测的目标音频信号与所述训练目标音频信号进行比较的损失函数;以及
基于所述损失函数来修改所述机器学习的麦克风模型的一个或多个参数的一个或多个值。
18.根据权利要求17所述的一个或多个非暂时性计算机可读介质,其中,评估所述损失函数包括:
根据所述预测的目标音频信号来生成预测的目标频谱图;
根据所述训练目标音频信号来生成训练目标频谱图;以及
将所述预测的目标频谱图与所述训练目标频谱图进行比较。
19.根据权利要求17和18所述的一个或多个非暂时性计算机可读介质,其中,所述操作进一步包括采用所述机器学习的麦克风模型来执行对训练数据集的扩增。
20.根据权利要求19所述的一个或多个非暂时性计算机可读介质,其中,所述操作进一步包括:
使用扩增的训练数据集来训练关键词识别模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063092760P | 2020-10-16 | 2020-10-16 | |
US63/092,760 | 2020-10-16 | ||
PCT/US2021/055166 WO2022081962A1 (en) | 2020-10-16 | 2021-10-15 | Machine learning for microphone style transfer |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116472579A true CN116472579A (zh) | 2023-07-21 |
Family
ID=78536644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180070897.3A Pending CN116472579A (zh) | 2020-10-16 | 2021-10-15 | 用于麦克风风格转移的机器学习 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230395087A1 (zh) |
EP (1) | EP4211686A1 (zh) |
CN (1) | CN116472579A (zh) |
WO (1) | WO2022081962A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2618384A (en) * | 2022-05-06 | 2023-11-08 | Nokia Technologies Oy | Apparatus, methods and computer programs for adapting audio processing |
CN117457017B (zh) * | 2023-12-20 | 2024-03-01 | 浙江华创视讯科技有限公司 | 语音数据的清洗方法及电子设备 |
CN117711417B (zh) * | 2024-02-05 | 2024-04-30 | 武汉大学 | 一种基于频域自注意力网络的语音质量增强方法及系统 |
-
2021
- 2021-10-15 CN CN202180070897.3A patent/CN116472579A/zh active Pending
- 2021-10-15 WO PCT/US2021/055166 patent/WO2022081962A1/en active Application Filing
- 2021-10-15 US US18/249,126 patent/US20230395087A1/en active Pending
- 2021-10-15 EP EP21805774.3A patent/EP4211686A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4211686A1 (en) | 2023-07-19 |
US20230395087A1 (en) | 2023-12-07 |
WO2022081962A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
US11514925B2 (en) | Using a predictive model to automatically enhance audio having various audio quality issues | |
US9008329B1 (en) | Noise reduction using multi-feature cluster tracker | |
AU2022200439B2 (en) | Multi-modal speech separation method and system | |
CN116472579A (zh) | 用于麦克风风格转移的机器学习 | |
CN111971743A (zh) | 用于改进的实时音频处理的系统、方法和计算机可读介质 | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
JP2020071482A (ja) | 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体 | |
Shankar et al. | Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
KR20220022286A (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
CN116868265A (zh) | 用于动态声学环境中的数据增强和语音处理的系统和方法 | |
Somayazulu et al. | Self-supervised visual acoustic matching | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
ES2928736T3 (es) | Características de bajo nivel compensadas por canal para el reconocimiento de hablantes | |
Furnon et al. | Distributed speech separation in spatially unconstrained microphone arrays | |
EP3680901A1 (en) | A sound processing apparatus and method | |
Borsos et al. | Micaugment: One-shot microphone style transfer | |
Kamarudin et al. | Acoustic echo cancellation using adaptive filtering algorithms for Quranic accents (Qiraat) identification | |
O’Reilly et al. | Effective and inconspicuous over-the-air adversarial examples with adaptive filtering | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. | |
Birnie et al. | Noise retf estimation and removal for low snr speech enhancement | |
Jahanirad et al. | Blind source computer device identification from recorded VoIP calls for forensic investigation | |
Al-Ali et al. | Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |