CN117121103A - 用于实时声音增强的方法和装置 - Google Patents
用于实时声音增强的方法和装置 Download PDFInfo
- Publication number
- CN117121103A CN117121103A CN202280024687.5A CN202280024687A CN117121103A CN 117121103 A CN117121103 A CN 117121103A CN 202280024687 A CN202280024687 A CN 202280024687A CN 117121103 A CN117121103 A CN 117121103A
- Authority
- CN
- China
- Prior art keywords
- model
- audio
- noise
- speaker
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 230000005236 sound signal Effects 0.000 claims abstract description 147
- 238000012549 training Methods 0.000 claims abstract description 96
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 122
- 238000013528 artificial neural network Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 24
- 238000003780 insertion Methods 0.000 claims description 22
- 230000037431 insertion Effects 0.000 claims description 22
- 230000001419 dependent effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 35
- 238000013518 transcription Methods 0.000 description 20
- 230000035897 transcription Effects 0.000 description 20
- 230000001364 causal effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 15
- 230000002452 interceptive effect Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006872 improvement Effects 0.000 description 9
- 230000002708 enhancing effect Effects 0.000 description 8
- 238000013434 data augmentation Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012803 optimization experiment Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
广泛地说,本技术一般涉及用于训练机器学习ML模型以实时针对目标用户执行声音增强的系统、计算机实现的方法和装置,并且涉及用于使用训练的ML模型来实时执行音频信号的声音增强的方法和装置。有利地,本技术适合于在捕捉音频信号的资源受限设备上实现,诸如智能手机和物联网设备。
Description
技术领域
本申请总体上涉及用于实时声音增强的方法,尤其涉及用于训练机器学习ML模型以实时为目标用户执行声音增强的计算机实现的方法和装置。
背景技术
真实世界的语音信号记录经常被环境噪声和干扰发言者(speaker)所损坏。音频源分离或语音增强技术可以潜在地用作音频预处理步骤,以抑制这样的噪声,以用于在许多应用中改进用户体验,包括移动语音通信、电话会议、助听器和其他下游音频识别(recognition)任务,诸如鲁棒的自动语音识别(ASR)。当前在移动和IoT设备上使用语音知觉应用的广泛趋势也已驱动了对开发可以在设备上高效运行的实时语音增强方案的研究兴趣。
发明内容
技术问题
语音增强的最新进展已经改进了现有的非实时操作的语音增强方案的质量。典型地,这些方案用于清理收集的数据,以用于其他音频任务的训练。例如,语音增强技术集中于增强电话的感知质量或音频相关的下游任务的性能,诸如用于自动语音识别ASR的较低的词语错误率WER。
存在大量旨在离线(即非实时)语音增强的工作。然而,目前,对于各种资源受限的设备(诸如智能电话和物联网IoT设备),实时语音增强方案的设备上部署(on-devicedeployment)尚未实现。
关于减小模型大小和/或延迟以进行有效部署的大多数工作是基于双向架构(即,非因果的),或者基于以双路径方式应用的单向架构组件间和单向架构组件内的对,这实际上要求访问整个过去、当前和未来以增强当前帧(例如,组通信工作线),因此不适于实时部署。
本申请人已经认识到需要克服这些问题的改进的声音增强机构。
技术方案
在本技术的第一方法中,提供了一种计算机实现的方法,用于使用训练的机器学习ML模型来为目标用户执行实时声音增强,该方法包括:获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发言者嵌入向量;以及使用训练的ML模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的ML模型以执行个性化或非个性化噪声移除,以从有噪声的音频信号移除噪声,同时保持目标用户的语音。
一般来说,在包含目标用户(即,特定的个体人类)的语音的音频信号中可能出现两个广泛类型的干扰噪声,并且每个类型的干扰噪声可能使得难以辨别或听到目标用户的语音。干扰噪声可能使与目标用户进行音频或视频呼叫的参与者难以理解目标用户正在说什么。类似地,当音频信号包含干扰噪声时,对包含语音的音频信号动作的诸如自动语音识别的应用可能不能很好地执行。两个广泛类型的干扰噪声是环境(environmental)或外界(ambient)噪声和多路重合(babble)噪声。环境噪声是环境中的背景噪声,并且该类型的噪声可以跨不同的环境变化,例如,火车或火车站中的背景噪声可以包括火车和安全公告,而咖啡馆中的背景噪声可以包含咖啡机或杯子碰撞的声音,办公室中的背景噪声可以包含打印机和电话铃的声音。多路重合噪声是在目标用户附近(vicinity)的其他人们讲话的声音,或者在多人视频或电话会议期间有人与目标用户同时发言时的声音。
有利的是,本技术提供了单个训练的机器学习ML模型,该模型能够实时地对包含语音的音频信号执行声音增强。同一模型能够执行两个类型的声音增强:个性化噪声移除和非个性化噪声移除。非个性化噪声移除仅能够从音频信号中移除环境噪声。在这种情况下,模型不知道目标用户听起来像什么,并且不能区分目标用户和正在说话的任何其他人或人们,这意味着模型不能从音频信号中移除多路重合噪声。个性化噪声移除能够从音频信号中移除多路重合噪声和环境噪声两者。这是因为该模型确实知道目标用户听起来像什么,因此可以从音频信号中移除多路重合噪声。因此,本技术是有益的,因为它们能够对包含语音的任何音频信号执行声音增强,即使当模型不知道关于主/目标发言者的任何事情时。这也可以使得音频信号在例如被传送给音频呼叫中的参与者之前以及在被从音频呼叫中的参与者接收时,能够被增强。
如上所述,ML模型根据是否存在目标用户的发言者嵌入向量来执行个性化或非个性化语音增强。然而,在这两种情况下,ML模型的输入包括有噪声的音频信号和表示目标用户的语音简档的向量。在目标用户的发言者嵌入向量已知的情况下,发言者嵌入向量是输入到ML模型的向量,并且该向量实际上表示目标用户的语音简档。在目标用户未知并且目标用户的发言者嵌入向量未知的情况下,输入到ML模型的向量是零向量,零向量表示目标用户的语音简档未知的事实。
在许多现有的语音增强技术中,向量与有噪声的音频信号的每个帧(也称为频谱图)级联,并且这被输入到ML模型中进行处理。然而,这增加了要由ML模型处理的信息的大小,这可能要求更多的计算资源(处理能力和/或存储器)并且可能增加等待时间。相比之下,在本技术中,仅在有噪声的音频信号已经被ML模型的编码器和解码器模块处理之后,向量才与有噪声的音频信号级联。因此,本技术不会遭遇与现有技术相同的问题,并且本技术因此可以有利地用在资源受限的设备上,例如中等和高端智能手机和移动设备。
因此,在本技术中,使用训练的ML模型的神经网络来移除噪声可以包括:将损坏的音频信号输入到训练的ML模型的编码器模块中;将向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号。
优选地,当存在发言者嵌入向量时,与编码器和解码器模块的输出级联的向量是发言者嵌入向量,并且训练的ML模型切换以执行个性化噪声移除。在这种情况下,从输出的增强的音频信号中移除了外界(环境)噪声和/或多路重合噪声,同时保持了目标用户的语音。
可替代地,当不存在发言者嵌入向量时,与编码器和解码器模块的输出级联的向量是零向量,并且训练的ML模型切换以执行非个性化噪声移除。在这种情况下,仅从输出的增强的音频信号中移除外界噪声,同时保持目标用户的语音。
更明确地说,当存在发言者嵌入向量时,训练的ML模型切换以执行个性化噪声移除,并且在这种情况下,使用训练的ML模型的神经网络来移除噪声包括:将有噪声的音频信号输入到训练的ML模型的编码器模块中;将发言者嵌入向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将发言者嵌入向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号。类似地,当不存在发言者嵌入向量时,训练的ML模型切换以执行非个性化噪声移除,并且在这种情况下,使用训练的ML模型的神经网络来移除噪声包括:将有噪声的音频信号输入到训练的ML模型的编码器模块中;将零向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的损坏的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将零向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧连接,以输出增强的音频信号。
当不存在发言者嵌入向量时,该方法还可以包括通过以下步骤生成目标用户的发言者嵌入向量:获得目标用户的至少一个干净的(clean)音频信号;以及将发言者识别模型应用于目标用户的至少一个干净的音频信号,以生成表示目标用户的语音简档的发言者嵌入向量。这可以在任何时间执行。也就是说,用户可能能够使用训练的ML模型而无需经历任何注册过程来提供他们的语音样本(即,干净的音频信号),因为训练的ML模型转而可以简单地执行非个性化声音增强。类似地,训练的ML模型可以清除由另一个人(诸如用户在音频呼叫中对其发言的人)生成的传入有噪声的音频信号,因为是为了在音频信号被用户听到之前从音频信号中移除外界噪声,训练的ML模型不需要知道关于那个人的任何事情。任何合适的发言者识别模型都可以用来生成目标用户的发言者嵌入向量。
有噪声的音频信号可以在音频呼叫期间获得。该方法还可以包括在由训练的ML模型处理之后将音频信号传送给音频呼叫中的另一参与者。因此,“净化的”音频信号(而不是原始的有噪声的信号)在音频呼叫中被传送给收听者,从而为收听者改善了音频呼叫的声音质量。将理解,有噪声的信号同样可以在音频呼叫期间从音频呼叫中的另一个参与者获得,并且在这种情况下,可以在用户听到音频信号之前对有噪声的信号进行净化/去噪。因此,如上所述,在音频呼叫的情境下,实时增强的有噪声的音频信号可以是发送给另一个参与者的用户的音频信号,或者是发送给用户的另一个参与者的音频信号。
附加地或可替换地,该方法还可以包括在由训练的ML模型处理之后将音频信号输入到自动语音识别ASR系统中。因此,“净化的”音频信号可能更容易被ASR系统处理,并且可能导致更低的词语错误率。
在本技术的第二方法中,提供了一种使用训练的机器学习ML模型来为目标用户执行实时声音增强的装置,该装置包括:音频捕获设备;以及耦合到存储器的至少一个处理器,该处理器被布置为:从音频捕获设备获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发言者嵌入向量;以及使用训练的ML模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的ML模型以执行个性化或非个性化噪声移除,以从有噪声的音频信号中移除噪声,同时保持目标用户的语音。
上述关于第一方法的特征同样适用于第二方法,因此不再重复。
有噪声的音频信号可以在使用该装置进行音频呼叫期间获得。处理器可以被布置为在由训练的ML模型处理之后将音频信号传送给音频呼叫中的另一个参与者。有利的是,这意味着在音频呼叫期间以及在将用户的语音传送给呼叫中的另一个参与者之前,对用户的语音进行净化或去噪,这改进了呼叫的声音质量。
处理器可以被布置为在由训练的ML模型处理之后将音频信号输入到自动语音识别系统。
装置可以是以下中的任何一个:智能手机、平板电脑、膝上型电脑、计算机或计算设备、虚拟助理设备、载具、自主载具、机器人或机器人设备、机器人助理、图像捕获系统或设备、增强现实系统或设备、虚拟现实系统或设备、游戏系统、物联网设备或智能消费者设备(诸如智能冰箱)。将理解,这是示例装置的非穷举和非限制性列表。
在本技术的第三方法中,提供了一种用于训练机器学习ML模型以对目标用户执行实时声音增强的方法,该方法包括:获得训练数据集,该训练数据集包括多个音频噪声样本、各自包含个体发言者的语音的多个干净的音频样本和每个个体发言者的发言者嵌入向量;使用干净的音频样本,通过向每个干净的音频样本添加至少一个噪声样本来生成损坏的音频样本;以及使用训练数据集和损坏的音频样本来训练ML模型的神经网络,以从损坏的音频样本移除噪声,同时保持个体发言者的语音,并且学习取决于在训练回合期间个体发言者的发言者嵌入向量是否可用来在执行个性化和非个性化噪声移除之间进行切换。
有利地,在本技术中,可以使用远程或云服务器来集中训练单个模型,并且单个模型被训练以从包含个体发言者的语音的音频信号中移除噪声。也就是说,由远程服务器执行的训练生成能够处理包含人的语音和干扰噪声的音频信号的模型,使得该处理从音频信号中移除干扰噪声。以这种方式,音频信号被净化以尽可能多地移除干扰噪声,从而语音被增强,因为它在所得到的音频信号中更容易被听到。如下面更详细解释的,干扰噪声可能至少部分地与人的语音重叠。更有利的是,由于该模型被集中训练,然后被提供用于在终端用户设备上部署,因此即使当该模型被用于执行个性化语音增强时,在终端用户设备上也不要求训练。这使得本技术的模型更适合于资源受限的设备,例如中等智能手机,因为计算量大的训练过程不需要在终端用户设备上执行。
使用远程或云服务器训练的模型可以部署在终端用户设备上,以增强这些设备的用户的语音。使用远程服务器训练的模型能够执行个性化和非个性化声音增强模型,因为如下面更详细解释的,该模型是使用包含语音的音频样本训练的。这优于没有使用包含语音的音频样本专门训练的其他音频增强技术。因此,使用远程服务器训练的模型可以用于为用户执行实时声音增强,因为该模型在推理时间能够从包含用户语音的音频样本中移除噪声。
更有利的是,训练ML模型以执行个性化和非个性化声音增强的方式不要求特定用户向远程服务器提供他们的语音样本。有利的是,这改进了用户隐私,因为在推理时间实现个性化声音增强的步骤不要求将任何个人用户数据(诸如包含用户语音的音频样本)传送给远程服务器。
如上关于推理时间所述,ML模型的输入包括表示关于目标用户的什么是已知的向量。因此,为了实现这一点,训练ML模型的神经网络可以包括:将损坏的音频样本输入到ML模型的编码器模块中;将向量与由编码器模块处理之后的损坏的音频样本的每个帧级联,以生成修改的损坏的音频样本;将修改的损坏的音频样本输入到训练的ML模型的解码器模块中;以及将向量与由解码器模块处理之后的修改的损坏的音频信号的每个帧级联,以输出增强的音频样本。
当在训练回合期间存在发言者嵌入向量时,该向量是发言者嵌入向量,并且ML模型切换以执行个性化噪声移除。在这种情况下,模型学习从输出的增强的音频样本中移除外界噪声和/或多路重合噪声,同时保持目标用户的语音。
可替代地,当不存在发言者嵌入向量时,该向量为零向量,并且ML模型切换以执行非个性化噪声移除。在这种情况下,模型学习仅从输出的增强的音频样本中移除外界噪声,同时保持目标用户的语音。
训练ML模型的神经网络可以包括:将每个输出的增强的音频样本与对应的干净的音频样本进行比较,并确定输出的增强的音频样本与对应的干净的音频样本的匹配程度;使用比较结果确定用于训练神经网络的损失函数;以及更新神经网络以最小化损失函数。
附加地或可替换地,训练ML模型的神经网络可以包括:将自动语音识别模型应用于每个干净的音频样本,以获得语音的转录;将自动语音识别模型应用于每个输出的增强的音频样本,以获得语音的转录;将来自输出的增强的音频样本的语音的转录与来自对应的干净的音频样本的语音的转录进行比较,并确定来自输出的增强的音频样本的转录与来自对应的干净的音频样本的转录的匹配程度;使用比较结果确定用于训练神经网络的损失函数;以及更新神经网络以最小化损失函数。
获得包括多个音频噪声样本的训练数据集可以包括获得多个音频噪声样本,每个音频噪声样本包含不同发言者的语音、环境噪声或外界噪声。使用这些特定类型的音频噪声来训练ML模型可能是有益的,因为这些类型的音频噪声典型地存在于包含语音的音频信号中。例如,如果目标用户正在与至少一个其他人进行电话或视频呼叫,则该目标用户可能被其他人中断,或者其他人可能在目标用户仍在讲话时意外地发言。这些种类的中断或重叠的语音声音可能使得难以确定目标用户在说什么。类似地,如果目标用户正在有噪声的环境中进行电话或视频呼叫,诸如在火车上、在咖啡馆或在开放式办公室中,该环境中的背景外界声音可能使得难以确定目标用户正在说什么。因此,通过使用这些类型的音频噪声样本来训练ML模型,在噪声可能使得难以确定目标用户正在说什么的许多典型设置中,目标用户的语音可以被增强。
生成损坏的音频样本可以包括用来自训练数据集的音频噪声样本完全覆盖干净的音频样本中的语音。这很有用,因为在某些情况下,目标用户的语音中可能存在噪声。例如,背景外界声音可以存在于目标用户语音的整个持续时间。在另一个示例中,如在诸如Zoom和微软Teams会议的视频会议呼叫期间经常发生的,当不清楚轮到谁发言时,另一个发言者可以在目标用户语音的整个持续时间内发言。
生成损坏的音频样本可以包括用来自训练数据集的音频噪声样本部分覆盖干净的音频样本中的语音。这是有用的,因为在某些情况下,噪声可能只存在于目标用户的一部分语音期间。例如,当目标用户开始发言时,另一个发言者可能仍在发言(即,目标用户中断了另一个发言者)。在另一个示例中,另一个发言者可以在目标用户仍在发言时开始发言(即,另一个发言者中断了目标用户)。在另一个示例中,背景声音可以与目标用户的语音的开头或结尾重叠。
因此,生成的损坏的音频样本可以包括个体发言者的语音和覆盖在个体发言者的所有语音上的另一个发言者的干扰话语。在这种情况下,训练ML模型的神经网络以从损坏的音频样本中移除噪声可以包括训练神经网络以移除干扰话语。这要求在训练过程期间使用单个发言者的发言者嵌入向量,因为ML模型需要知道哪个发言者的语音将被保留,哪个发言者的语音将被移除。
生成的损坏的音频样本可以包括个体发言者的语音和覆盖在个体发言者的一部分语音上的另一个发言者的干扰话语。在这种情况下,训练ML模型的神经网络以从损坏的音频样本中移除噪声可以包括训练神经网络以移除部分干扰话语。这要求在训练过程期间使用单个发言者的发言者嵌入向量,因为ML模型需要知道哪个发言者的语音将被保留,哪个发言者的语音将被移除。
生成的损坏的音频样本可以包括个体发言者的语音和覆盖在单个发言者的所有语音上的外界噪声。在这种情况下,训练ML模型的神经网络以从损坏的音频样本中移除噪声可以包括训练神经网络以移除外界噪声。这不要求使用个体发言者的发言者嵌入向量。
生成的损坏的音频样本可以包括个体发言者的语音和覆盖在目标用户的一部分语音上的外界噪声。训练ML模型的神经网络以从损坏的音频样本中移除噪声可以包括训练神经网络以移除与语音部分重叠的外界噪声。这不要求使用个体发言者的发言者嵌入向量。
训练ML模型的神经网络可以包括训练ML模型以从损坏的音频样本中移除音频噪声样本并保留个体发言者的语音。
该方法还可以包括通过将发言者识别模型应用于训练数据集中的每个干净的音频样本来生成训练数据集中的发言者嵌入向量。可以使用任何合适的发言者识别模型来确定由干净的音频样本表示的每个发言者的语音简档。
训练ML模型的神经网络以移除噪声可以包括训练神经网络以辨识(identify)在损坏的音频信号中存在的噪声类型,并且基于辨识的噪声类型应用噪声移除过程。
在本技术的第四方法中,提供了一种用于训练机器学习ML模型以对目标用户执行实时声音增强的服务器,该服务器包括:至少一个处理器,耦合到存储器,并且被布置为:获得训练数据集,该训练数据集包括多个音频噪声样本、各自包含个体发言者的语音的多个干净的音频样本和每个个体发言者的发言者嵌入向量;使用干净的音频样本,通过向每个干净的音频样本添加至少一个噪声样本来生成损坏的音频样本;并且使用训练数据集和损坏的音频样本来训练ML模型的神经网络,以从损坏的音频样本中移除噪声,同时保持个体发言者的语音,并且学习取决于在训练回合期间个体发言者的发言者嵌入向量是否可用来在执行个性化和非个性化噪声移除之间进行切换。
上述关于第三方法的特征同样适用于第四方法,因此不再重复。
在本技术的相关方法中,提供了一种携带处理器控制代码以实现本文描述的方法的非暂时性数据载体。也就是说,提供了一种包括指令的计算机可读存储介质,当由计算机执行时,所述指令使得计算机执行本文描述的方法的步骤。
如本领域技术人员将理解的,本技术可以体现为系统、方法或计算机程序产品。因此,本技术可以采取完全硬件实施例、完全软件实施例或者结合软件和硬件方面的实施例的形式。
此外,本技术可以采取体现在计算机可读介质中的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读介质可以是例如但不限于电、磁、光、电磁、红外或半导体系统、装置或设备,或者前述的任何合适的组合。
用于执行本技术的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,包括面向对象的编程语言和传统的过程编程语言。代码组件可以体现为进程、方法等,并且可以包括子组件,这些子组件可以在任何抽象级别上采取指令或指令序列的形式,从本地指令集的直接机器指令到高级编译或解释语言结构。
本技术的实施例还提供了一种携带代码的非暂时性数据载体,当在处理器上实现时,该代码使得处理器执行本文描述的任何方法。
该技术还提供处理器控制代码来例如在通用计算机系统或数字信号处理器(DSP)上实现上述方法。该技术还提供了一种携带处理器控制代码的载体,当运行时,该处理器控制代码实现任何上述方法,特别是在非暂时性数据载体上。代码可以在载体上提供,诸如磁盘、微处理器、CD-ROM或DVD-ROM、编程存储器,诸如非易失性存储器(例如闪存)或只读存储器(固件),或者在数据载体上提供,诸如光或电信号载体。实现本文描述的技术的实施例的代码(和/或数据)可以包括诸如Python、C或汇编代码的传统编程语言(解释的或编译的)的源、目标或可执行代码,用于设置或控制ASIC(专用集成电路)或FPGA(现场可编程门阵列)的代码,或者用于诸如Verilog(RTM)或VHDL(超高速集成电路硬件描述语言)的硬件描述语言的代码。如本领域技术人员将理解的,这样的代码和/或数据可以分布在彼此通信的多个耦合的组件之间。该技术可以包括控制器,该控制器包括耦合到系统的一个或多个组件的微处理器、工作存储器和程序存储器。
本领域技术人员还将清楚的是,根据本技术的实施例的逻辑方法的全部或部分可以适当地体现在包括执行上述方法的步骤的逻辑元件的逻辑装置中,并且这样的逻辑元件可以包括例如可编程逻辑阵列或专用集成电路中的诸如逻辑门的组件。这样的逻辑布置还可以体现在使能元件中,用于使用例如虚拟硬件描述符语言在这样的阵列或电路中临时或永久地建立逻辑结构,虚拟硬件描述符语言可以使用固定或可传送的载体介质来存储和传送。
在一个实施例中,本技术可以以其上具有功能数据的数据载体的形式实现,所述功能数据包括功能计算机数据结构,当被加载到计算机系统或网络中并由此被操作时,使得所述计算机系统能够执行上述方法的所有步骤。
上述方法可以使用机器学习或人工智能模型在装置(即电子设备)上全部或部分执行。该模型可以由在为人工智能模型处理指定的硬件结构中设计的人工智能专用处理器来处理。人工智能模型可以通过训练获得。这里,“通过训练获得”意味着被配置为执行期望特征(或目的)的预定义操作规则或人工智能模型是通过训练算法用多条训练数据训练基本人工智能模型而获得的。人工智能模型可以包括多个神经网络层。多个神经网络层中的每一个包括多个权重值,并且通过在前一层的计算结果和多个权重值之间的计算来执行神经网络计算。
如上所述,本技术可以使用AI模型来实现。与AI相关联的功能可以通过非易失性存储器、易失性存储器和处理器来执行。处理器可以包括一个或多个处理器。此时,一个或多个处理器可以是诸如中央处理单元(CPU)、应用处理器(AP)等的通用处理器,诸如图形处理单元(GPU)、视觉处理单元(VPU)的图形专用处理单元,和/或诸如神经处理单元(NPU)的AI专用处理器。一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义操作规则或人工智能(AI)模型来控制输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。这里,通过学习来提供意味着,通过将学习算法应用于多个学习数据,作出期望特性的预定义操作规则或AI模型。学习可以在执行根据实施例的AI的设备本身中执行,和/或可以通过单独的服务器/系统来实现。
AI模型可以由多个神经网络层组成。每个层具有多个权重值,并且通过前一层的计算和多个权重的操作来执行层运算。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机器(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)和深度Q网络。
学习算法是一种使用多个学习数据来训练预定目标设备(例如,机器人)以使、允许或控制目标设备做出确定或预测的方法。学习算法的示例包括但不限于监督学习、非监督学习、半监督学习或强化学习。
附图说明
现在将参考附图仅通过示例的方式描述本技术的实施方式,其中:
图1是本技术的声音增强方法的示意图;
图2是示出了本技术的机器学习ML模型的架构的示意图;
图3是示出了在机器学习ML模型的训练期间部署的数据扩充方案的示图;
图4是用于ML模型训练的数据扩充机制的框图;
图5是示出了ML模型训练和使用训练的ML模型的示意图;
图6是使用远程服务器训练ML模型的示例步骤的流程图;
图7是在设备上使用训练的ML模型的示例步骤的流程图;
图8是用于训练机器学习ML模型以对目标用户执行实时个性化声音增强的系统的框图;
图9是示出在外界噪声和多路重合下跨不同语言评估的训练ML模型和基线模型的SDRi结果的表格;
图10是示出图9的模型对自动语音识别任务中词语错误率的影响的表格;
图11示出了已经传递通过在英语语音上训练的语音增强模型的西班牙语和德语音频的SDRi和词语错误率(WER)的曲线图;
图12是示出ML模型如何在执行个性化和非个性化声音增强之间切换的框图;
图13是示出如何使用图2所示的架构来执行个性化和非个性化声音增强的示意图;
图14是示出了在从音频信号中移除外界噪声时,没有针对目标用户的发言者嵌入向量对ML模型的性能的贡献的表格;和
图15是示出不同长度的注册数据在从音频信号中移除不同类型的噪声时对ML模型的性能的影响的表格。
具体实施方式
概括地说,本技术一般涉及用于训练机器学习ML模型以实时对目标用户执行声音增强的系统、计算机实现的方法和装置,并且涉及用于使用训练的ML模型来实时执行音频信号的声音增强的方法和装置。有利地,本技术适合于在捕捉音频信号的资源受限设备上实现,诸如智能手机和物联网设备。
本文使用的术语“有噪声的音频信号”是指包含用户的语音和噪声的音频信号,并且该音频信号将通过训练的ML模型实时增强。
本文使用的术语“干净的音频样本”是指仅包含个体用户的语音的音频信号,并且用于训练ML模型以执行声音增强。
本文使用的术语“损坏的音频样本”是指作为训练ML模型的过程的一部分而已经生成的音频样本,其中损坏的音频样本是通过将至少一个噪声样本添加到干净的音频样本而生成的。
本文使用的术语“增强的音频样本”是指在训练过程中ML模型的输出,其中,增强的音频样本是通过使用ML模型来增强损坏的音频样本而得到的。
如下面将更详细描述的,本技术提供了一种设备上的实时声音增强方法,该方法能够从有噪声的单通道音频记录中提取目标用户的语音信号。这样的方案的成功部署可以改善例如电话交谈中的用户体验,并且可以改善下游自动语音识别(ASR)系统的性能,尤其是在有噪声的状况下。本技术以新颖的方式组合了因果时间深度可分离卷积块和单向循环层,以创建个性化声音增强网络(PSE网),该网络促进低延迟的设备上方案,而不会降级源提取的质量。通过一系列的评价实验,示出在非平稳和多路重合的两个类型的噪声下,PSE网络在基于流的声音增强方面优于最先进的解决方案。声音增强的影响是通过计算下游ASR任务中的词语错误率来客观测量的,并且声音增强模型跨不同语言示出良好的可转移性。
图1是本技术的声音增强方法的示意图。一般而言,机器学习模型的声音增强模块可以将(i)包括目标用户语音的有噪声的记录和(ii)目标用户的语音简档作为输入,并且可以提供仅包含目标用户语音的增强的音频信号作为输出。换句话说,从输入音频信号中移除了噪声。
如上所述,语音增强研究最近受到关注,语音增强研究旨在用作预处理组件来增强电话的感知质量或音频相关下游任务的性能,诸如ASR的较低WER。
虽然有大量工作旨在离线语音增强,但移动和物联网设备上基于音频的应用的普遍使用正在向新颖的方向驱动研究,以实现实时语音增强。
表示最佳感知和WER质量但是以模型大小和实时性为代价的最近的工作,从使用在频域上操作的双向RNN到使用在时域上操作的无效非因果自注意模型的非因果非分组卷积,在改进性能方面提供了重要的里程碑。
基于以计算预算为代价在时域而不是频域操作的改进是期望的,因为相位信息隐含地用于前者而不是后者。此外,使用类似构象异体(conformer)的架构自然地改进增强质量,但花费的是实时因素和模型大小要求。
本技术不同于该研究线,因为本技术在没有任何前瞻的情况下在频率-时间上操作,将无因果分组卷积引入语音增强文献,并且利用RNN作为新颖的机制来促进更小的模型大小。在频域上操作允许更有效地与ASR模型集成,从而有机会避免在语音增强和ASR模型之间从频域转换到时域的重复工作。然而,这里提出的思想也可以通过增加卷积展开来用作对时域信号建模。
另一方面,适用于实时(或具有小前瞻的接近实时)的模型仅表示了近期工作的一小部分,并且主要由诸如开创性的工作的单向RNN构成。本技术不同于这些开发在于,通过利用分组卷积来减少模型参数的数量,以及通过使用单向RNN来允许进一步减小卷积中的过滤器大小,从而与其他可能的情况相比进一步减小了模型大小。
虽然最近在这一方面已经有了大量的工作,但是在与非实时语音增强模型相比时,在性能上仍然有相当大的差距,这指示可能有很大的改进可能性。最近在语音增强模型的小型化方面已经取得了很大进步,但这是以实时方案或质量为代价的。
本技术不同于这些努力在于,以可与非实时方案相比的方式保持增强质量。即使本技术的ML模型不要求任何前瞻,这也是可以实现的。此外,ML模型产出足够小的模型足迹,这使得本技术适合于在资源受限的设备(诸如中档或高端智能手机)上实现。
本技术提供了一种实时个性化声音增强方法,该方法从移动和可穿戴设备上的有噪声的单通道音频记录中提取目标用户的语音信号。个性化声音增强在设备上的成功部署具有重要的产品含义,包括:
改进的音频呼叫质量,其中,用户的有噪声的数据在设备上被清除,然后传送到远端的收听者;和
通过降低有噪声的状况下的词语错误率,提高自动语音识别(ASR)等服务的可用性。
最近,深度学习技术已经成功地应用于语音增强任务,例如,解决众所周知的盲源分离问题。然而,盲源分离问题的成功方案需要解决两个主要挑战:(i)辨识记录的音频中存在的发言者或声音源的总数,以及(ii)在训练期间对辨识的源标签的排列不变。有趣的是,个人设备上的声音增强通常可以降低为声音提取问题,其中,目标或源发言者的身份是先验已知的,例如设备的所有者。
本技术集中于声音增强,其中,主要目的是提取与目标用户的语音相关的音频。如上所述,声音增强可以是个性化的或非个性化的,并且相同的ML模型可能能够在执行个性化和非个性化声音增强之间切换。可以通过根据由固定大小的嵌入向量表示的目标用户的语音简档来调节源提取器网络的输出,来执行个性化。为了测量声音增强技术的影响,ASR被认为是下游任务。尽管尽了最大努力,ASR在有噪声的和拥挤的环境中仍然保持不佳,个性化的声音增强可能潜在地提高ASR在许多应用中的鲁棒性,包括个人助理、汽车导航、机器人和医疗听写设备。
尽管在声音提取方法上取得了进步,但是与它们的非因果替代方案相比,在实时流式声音增强方案的性能上存在相当大的差距。为了弥补这一差距,本申请人探索了使用具有单向RNN的因果时间深度可分离(TDS)卷积块来形成编码器-解码器架构,该架构(a)以流模式操作,(b)示出优越的信号失真比(SDR),以及(c)当应用于下游ASR任务时,实现较低的词语错误率(WER)。
本技术解决了以下主要技术挑战:
抑制背景谈话者和不稳定的外界噪声两者,同时保持目标发言者的音频完整无损。
增强后不降级干净的输入音频的频谱图表示,即,几乎不会对干净的输入音频做出任何改变。
支持实时操作,即,所提出的方案以流模式操作并且具有小的延迟。
执行因果预测,即在预测降噪输入记录时,它仅考虑过去的信息。
本技术以新颖的方式将因果时间-深度可分离(TDS)卷积块和单向循环层相结合,以促进更低的等待时间,而不降级源提取模块的性能。这是在实时帧进帧出个性化声音增强领域混合使用因果TDS卷积模块和单向RNN层的第一个实时声音增强方案。
实现在总体参数大小方面找到小模型,以及以非常小的延迟支持实时操作,同时不损害增强质量的目标,是非凡的技术问题。本技术是有利的,因为它们提供了同时满足所有准则(即上述技术挑战)的方案。
本技术的优点包括:
使用因果分组卷积将模型中的参数数量减少10到50倍的因子(a factor of 10to50times)。
使用编码器/解码器架构,其中,发言者嵌入不仅在编码器结束之后和解码器开始之前使用,而且在编码器结束和解码器结束时都使用。最先进的文献指示,瓶颈层上的一个位置调节对于有效的方案来说是足够的,但是本申请人证明了对于轻质模型来说并非如此。
使用浅且因此重量轻的单向RNN作为减小内核大小以及分组卷积中使用的膨胀的有效手段。这使得模型大小能够实现超过10倍的压缩(使得模型适合于在资源受限的设备上实现)。
最后,尽管最终目标是以低延迟和小模型大小创建具有有效推理的增强模型,但是所提出的方案在由双路径方案提供的训练时间方面与现有技术训练得一样快,这使得诸如超参数调整或神经架构搜索相关技术的这样的模型的优化更可拓展以进行处理。
如下面更详细解释的,本技术的主要贡献包括作为完全可流式的设备上的个性化声音增强网络的PSE网络,PSE网络设计有TDS单元和循环层,以满足存储器和延迟要求。通过测量与开源ASR系统结合使用时的SDRi和WER性能,对所提出的PSE网络模型呈现了广泛的评价。此外,对在英语上进行训练的模型进行语言转变分析,并在西班牙语、德语和英语上进行评价(针对SDRi和WER)。这阐明了在高资源公共数据上训练的声音增强系统如何能够转移到看不见的结构不同的语言。
架构。图2是示出了本技术的机器学习ML模型的架构的示意图。ML模型(这里也称为“PSE网络”)接受(i)有噪声的频谱图和(ii)目标用户的发言者嵌入作为输入,并输出时间-频率掩模,然后将时间-频率掩模应用于输入音频频谱图以获得增强的频谱图。如图2所示,该模型包括具有中间过滤器块的编码器和解码器型网络。最后,有具有sigmoid激活的全连接层来生成最终的输出掩模。
编码器和解码器。编码器和解码器两者都由四个时间-深度可分离卷积(TDS)单元组成。TDS单元(如图2右上方所示)以对T x F形状的输入张量进行操作并产生相同形状的输出张量的1维卷积开始。这里,T是时间步长的数量,F是通道的数量,即特征。使用缩放指数线性单元(SeLU)作为卷积层的激活,缓解了反向传播期间的死节点问题。最后,添加剩余连接并应用层归一化。然后,输出传递通过具有F个单元的全连接层,使得单元的输出形状保持与输入形状相同。来自全连接层的输出与剩余连接相加,并且应用层归一化。
在所有单元中使用7和10组的内核大小,这有助于显著减小网络大小。为了从1维(1-D)卷积中获得相同的输出形状而无需任何未来的前瞻,使用输入的第一个帧(veryfirst frame)来执行左填充。例如,如果输入帧是{t1,t2,......,tn},则用左边的六个帧将输入帧填充为如下:{t1,t1,t1,t1,t1,t1,t1,t2,......,tn}。
过滤器块。设计了具有N个循环层的过滤器块,并在末尾增加了剩余连接。在将输入传递到过滤器块之前,每个时间帧与表示目标用户的语音简档的向量级联。当目标用户的语音简档已知时,每个时间帧与发言者嵌入向量级联;当目标用户的语音简档未知时,每个时间帧与零向量级联。假设发言者嵌入向量是在注册阶段期间使用语音识别模型(诸如X向量模型)从目标用户的话语中预计算的,因此在声音提取阶段期间不需要另外的计算。
模型训练/推理流水线。为了改进声音增强模型的普遍性,引入了涵盖两个噪声类型的数据扩充(data augmentation)技术:(a)来自不同发言者的干扰话语,即多路重合噪声,以及(b)常见的非语音环境噪声。噪声信号与干净的音频混合以反映具有干扰信号的四种常见情况:(i)存在于整个目标话语中,(ii)在目标内短暂出现并损坏子片段,(iii)在目标话语之前开始但在目标话语完成之前停止,以及(iv)反之亦然。图3展示了这些场景。最后,通过基于在训练阶段期间为每个话语随机选择的目标信噪比(SNR)水平来缩放干扰,使得干扰扩充是随机的。除了损坏的输入,本技术的数据流水线还随机地包括干净的输入(没有任何损坏),以允许网络学习传递通过行为。
图4是用于ML模型训练的数据扩充机制的框图。该示图示出了用于帮助实现普遍性声音增强模型的数据扩充技术。
图5是示出了ML模型训练和训练的ML模型的使用的示意图。换句话说,图5示出了训练和推理阶段的详细流水线。
图6是用于训练ML模型来对目标用户执行实时个性化或非个性化声音增强的示例步骤的流程图。图6中所示的步骤可以在设备外(off-device)执行(即,在部署了训练的ML模型的终端用户设备外),诸如在远程服务器上。
该方法包括获得训练数据集,该训练数据集包括多个音频噪声样本、和各自包含个体发言者的语音的多个干净的音频样本和每个个体发言者的发言者嵌入向量(步骤S102)。可以从多个发言者捕获干净的音频样本。干净的音频样本x∈R(t+1)可以在时域中捕获,并且可以首先被转换到频域z=ρ⊙eiφ,其中z∈Ct′*F,ρ∈R+ t′*f,和φ∈[-π,π]t′*f。
该方法包括使用干净的音频样本,通过向每个干净的音频样本添加至少一个噪声样本来生成损坏的音频样本(步骤S102)。生成的损坏的样本(即,用噪声扩充的干净的样本)也可以被转换成频域/>由于本技术的ML模型仅增强了幅度信息/>因此获得的增强信号是表示因果帧入帧出PSE网络的/>其中/>其表示基于幅度的频率掩模。注意,当应用短时傅立叶变换(STFT)时,可以使用32毫秒的窗口长度和16毫秒的跨距。
生成损坏的音频样本的步骤S102可以包括用音频噪声样本完全覆盖干净的音频样本中的语音。附加地或替代地,生成损坏的音频样本可以包括用音频噪声样本部分地覆盖干净的音频样本中的语音。
该方法可以包括使用训练数据集和损坏的音频样本来训练ML模型的神经网络,以从损坏的音频样本中移除噪声,同时保持个体发言者的语音,并且学习取决于在训练回合(training round)期间个体发言者的发言者嵌入向量是否可用来在执行个性化和非个性化噪声移除之间切换(步骤S104)。该模型可以以最小化干净的信号z和增强的信号之间的差异为目标进行优化。这可以通过最小化干净的幅度ρ和增强幅度的/>之间的差异,即均方误差(MSE)来实现:
已经发现,如果在(0,1)中对归一化的幅度进行操作,而不是对幅度进行操作,那么如果转而是最小化MSE中的功率,则可以提高收敛速度,即:
对于∝,根据从αbegin到αend的减小的调度器,在训练期间是变化的。直觉是,对于归一化的幅度,较高的∝值将迫使训练集中于减少较大的差异,而较低的∝值将鼓励训练类似地减少较大和较小的误差。这种聚焦于更重要而不是一般误差的转变大大提高了作为缩放超参数优化实验的重要因素的收敛速度。
训练ML模型的神经网络的步骤S104可以包括:将损坏的音频样本输入到ML模型的编码器模块中;将向量与由编码器模块处理之后的损坏的音频样本的每个帧级联,以生成修改的损坏的音频样本(如图2所示);将修改的损坏的音频样本输入到训练的ML模型的解码器模块中;以及将向量与由解码器模块处理之后的修改的损坏的音频信号的每个帧级联(如图2所示),以输出增强的音频样本。
当在训练回合期间存在发言者嵌入向量时,该向量是发言者嵌入向量,并且ML模型切换以执行个性化噪声移除。在这种情况下,模型学习从输出的增强的音频样本中移除外界噪声和/或多路重合噪声,同时保持目标用户的语音。
可替代地,当不存在发言者嵌入向量时,该向量为零向量,并且ML模型切换以执行非个性化噪声移除。在这种情况下,模型学习仅从输出的增强音频样本中移除外界噪声,同时保持目标用户的语音。
训练ML模型的神经网络的步骤S104可以包括:将每个输出的增强的音频样本与对应的干净的音频样本进行比较,并确定输出的增强的音频样本与对应的干净的音频样本的匹配程度;使用比较结果确定用于训练神经网络的损失函数;以及更新神经网络以最小化损失函数。
附加地或可替换地,训练ML模型的神经网络的步骤S104可以包括:将自动语音识别模型应用于每个干净的音频样本,以获得语音的转录;将自动语音识别模型应用于每个输出的增强的音频样本,以获得语音的转录;将来自输出的增强的音频样本的语音的转录与来自对应的干净的音频样本的语音的转录进行比较,并确定来自输出的增强的音频样本的转录与来自对应的干净的音频样本的转录的匹配程度;使用比较结果确定用于训练神经网络的损失函数;以及更新神经网络以最小化损失函数。优选地,确定损失函数包括从生成的增强的音频样本中确定语音的转录的词语错误率。
该方法还可以包括将训练的(预训练的)ML模型发送到至少一个用户电子设备以供使用(图6中未示出)。
图7是使用训练的ML模型在设备上对目标用户执行实时声音增强的示例步骤的流程图。该方法可以包括:获得包括目标用户的语音和噪声的有噪声的音频信号(步骤S300)。
该方法可以包括确定是否存在目标用户的发言者嵌入向量(步骤S302)。如上所述,发言者嵌入向量的存在确定了ML模型执行的声音增强是个性化的还是非个性化的。
该方法可以包括使用训练的ML模型的神经网络,通过切换训练的ML模型以在存在发言者嵌入时执行个性化噪声移除(步骤S304)或者在不存在发言者嵌入向量时执行非个性化噪声移除(步骤S306),来从有噪声的音频信号中移除噪声,同时保持目标用户的语音。
使用训练的ML模型来执行个性化噪声移除(步骤S304)可以包括:将损坏的音频信号输入到训练的ML模型的编码器模块中;将发言者嵌入向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将发言者嵌入向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号。在这种情况下,从输出的增强的音频信号中移除了外界(环境)噪声和/或多路重合噪声,同时保持了目标用户的语音。
使用训练的ML模型来执行非个性化噪声移除(步骤S304)可以包括:将损坏的音频信号输入到训练的ML模型的编码器模块中;将零向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将零向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号。在这种情况下,仅从输出的增强的音频信号中移除外界噪声,同时保持目标用户的语音。
损坏的音频信号可能是在音频呼叫期间获得的。该方法还可以包括在由训练的ML模型处理之后将音频信号传送给音频呼叫中的另一个参与者。因此“,净化的”音频信号在音频呼叫中被传送给收听者(而不是有噪声的信号),从而为收听者改进了音频呼叫的声音质量。应当理解,有噪声的信号等同地可以在音频呼叫期间从音频呼叫中的另一个参与者获得,并且在这种情况下,可以在用户听到音频信号之前对有噪声的信号进行净化/去噪。因此,如上所述,在音频呼叫的情境下,实时增强的有噪声的音频信号可以是发送给另一个参与者的用户的音频信号,或者是发送给用户的另一个参与者的音频信号。
该方法还可以包括在由训练的ML模型处理之后将音频信号输入到自动语音识别ASR系统中。因此,“净化的”音频信号可能更容易被ASR系统处理,并且可能导致更低的词语错误率。
图8是用于训练机器学习ML模型来为目标用户执行实时声音增强的系统10的框图。
系统10包括服务器100,该服务器100被布置为来执行上面参考图6描述的步骤,以生成训练的ML模型。
系统10包括用于实现训练的ML模型的装置150。装置150可以是一下中的任何一个:智能手机、平板电脑、膝上型电脑、计算机或计算设备、虚拟助理设备、载具、无人机、自主载具、机器人或机器人设备、机器人助理、图像捕获系统或设备、增强现实系统或设备、虚拟现实系统或设备、游戏系统、物联网设备或智能消费者设备(诸如智能冰箱)。将理解,这是示例装置的非穷举和非限制性列表。
服务器100可通信地耦合到装置150,并且能够将训练的ML模型传送到装置150。
装置150包括耦合到存储器154的至少一个处理器152。该至少一个处理器152可以包括一下中的至少一个:微处理器、微控制器和集成电路。例如,存储器154可以包括易失性存储器,诸如用作临时存储器的随机存取存储器(RAM),和/或非易失性存储器,诸如用于存储数据、程序或指令的闪存、只读存储器(ROM)或电可擦除可编程ROM(EEPROM)。
装置150可以包括存储装置160,该存储装置160可以存储训练的ML模型106。训练的ML模型106是从服务器100获得的模型。
装置150可以包括用于捕获将由训练的ML模型106处理的声音/音频信号的音频捕获设备162。装置150可以包括用于在音频信号已经被训练的ML模型106处理之后传送音频信号的接口158(例如,通信接口)。例如,在使用该装置进行音频呼叫期间,有噪声的(noisy)音频信号可能被音频捕获设备162捕获。处理器可以被布置为在由训练的ML模型处理之后将音频信号传送给音频呼叫中的另一个参与者(未示出)。类似地,接口158可能能够接收从音频呼叫中的另一个参与者获得的音频信号。如上所述,训练的ML模型可能能够增强从音频呼叫中的另一个参与者接收的有噪声的音频信号。这可以使得装置150的用户能够听到从音频呼叫中的其他参与者接收的有噪声的音频信号的增强版本,从而改进装置150的用户听到的声音的音频质量。
耦合到存储器154的至少一个处理器152可以被布置为:从音频捕获设备158获得包括目标用户的语音和噪声的有噪声的音频信号;确定是否存在目标用户的发言者嵌入向量;并且使用训练的ML模型106的神经网络来从有噪声的音频信号中移除噪声,同时通过取决于是否存在发言者嵌入向量来切换训练的ML模型106以执行个性化或非个性化噪声移除,来保持目标用户的语音。
对PSE网的评价。
与ASR的集成:使用公开可获得的预训练的企业级自动语音识别(ASR)模型,这些模型可用于英语、德语和西班牙语语言(“Silero models:pre-trained enterprise-gradestt/tts models and benchmarks”,https://github.com/snakers4/silero-models,2021)。用PSE网络增强频域信号幅度后,使用损坏的频域信号相位将输出转换到时域,然后传递通过ASR模型。然后,将ASR模型的输出与基准真实转录进行比较,以计算词语错误率(WER)结果。
因此,如上所述,训练ML模型的神经网络可以包括:将自动语音识别模型应用于每个参考音频样本,以获得语音的转录;将自动语音识别模型应用于每个生成的增强的音频样本,以获得语音的转录;将来自生成的增强的音频样本的语音的转录与来自对应的参考音频样本的语音的转录进行比较,并确定来自生成的增强的音频样本的转录与来自对应的参考音频样本的转录本的匹配程度;以及使用比较结果确定用于训练神经网络的损失函数。
数据集:用于训练本技术的ML模型的训练数据集是从LibriSpeech(V.Panayotov,G.Chen,D.Povey,和S.Khudanpur,“Librispeech:an ASR corpus based on publicdomain audio books”,在ICASSP中,于2015年)构建的,100小时和360小时训练拆分开,其包含干净的语音。由于除了语音和文本之外,LibriSpeech数据集还包含发言者标识符(identifier),因此构建了元组其中r、z和/>分别表示发言者的参考信号、干净的信号和损坏的信号。为了评价具有ASR集成的PSE网络模型,LibriSpeech的测试-干净的拆分被用于英文ASR模型。对于西班牙语和德语的ASR模型,使用VoxForge数据集的测试-干净的拆分,这相当于20%的拆分,从而确保每个用户的数据只在一个拆分中(“VoxForgeCorpus”,http://www.voxforge.org,2006)。
基线。提出的因果帧内帧外PSE网络模型与最先进的(SOTA)因果帧内帧外VoiceFilter-Lite模型进行了比较(Q.Wang,I.L.Moreno,M.Saglam,K.Wilson,A.Chiao,R.Liu,Y.He,W.Li,J.Pelecanos,M.Nika,和A.Gruenstein,“VoiceFilter-Lite:StreamingTargeted Voice Separation for On-Device Speech Recognition”,在Interspeech,于2020年)。训练了若干个VoiceFilter-Lite模型变体,并且选择产出最佳信号失真比改进(SDRi)和WER结果的模型用于比较实验,即使模型选择超过了嵌入式部署的存储器限制。此外,还呈现了SOTA在非因果模型中的结果,即VoiceFilter(VF)模型(Q.Wang,H.Muckenhirn,K.Wilson,P.Sridhar,Z.Wu,J.R.Hershey,R.A.Saurous,R.J.Weiss,Y.Jia,and I.L.Moreno,“VoiceFilter:Targeted Voice Separation by Speaker-ConditionedSpectrogram Masking”,在Interspeech,于2019年),以将PSE网络的实时结果与强非实时基线进行比较。作为代表性的音频降级方案,在这里呈现的实验中,仅考虑加性多路重合和外界噪声。
图9是示出了在外界噪声和多路重合的情况下,跨不同语言评估的训练的ML模型和基线模型的SDRi结果的表格。作为感知音频质量度量的不完美替代,信号失真比改进(SDRi)度量用于测量增强的信号的客观质量。如图9所示(在“英语”栏下),在增强被两种噪声类型损坏的语音方面,所有三个最高性能的PSE网络模型都优于SOTA VoiceFilter-Lite模型。具体而言,最佳PSE网络模型(粗体突出)实现了分别用于抑制多路重合噪声和外界噪声的9.36和12.60SDRi。此外,示出了PSE网络的性能接近于VoiceFilter模型。此外,与多路重合噪声相比,SDRi对于去噪外界噪声总体上更好(即更高)。这与先前的研究一致,先前的研究示出,与外界噪声相比,抑制多路重合噪声是困难的。通过搜索不同的参数已经发现,增加模型复杂度不一定导致更好的模型性能。
PSE网络的推理延迟也在作为代表性移动平台的英伟达Jetson Nano和用于非嵌入式比较的英伟达GeForce GTX 1080Ti上进行测量。发现三个PSE网络在Jetson Nano上以0.71-0.84倍的RT因子执行语音增强,在GeForce GTX 1080Ti上以0.23-0.27倍的RT因子执行语音增强。所有PSE网络模型都有10-14M的参数。
图10是示出图9的模型对自动语音识别任务中词语错误率的影响的表格。为了量化PSE网络在下游ASR任务上的有效性,当通过ASR模型传递增强的语音(与损坏的语音相反)时,测量词语错误率(WER)的改善。上面提到的开源Silero ASR模型用于三种语言,在干净的、多路重合和外界噪声状况下的WER比较结果在图10中呈现。结果表明,所有PSE网络变体都可以有效地抑制多路重合噪声和外界噪声两者,并且以显著的差距优于SOTAVoiceFilter-Lite模型。具体地,可以看出,PSE网络模型的性能接近VoiceFilter(非因果)模型到4%的WER绝对差内,在多路重合噪声的情况下,比VoiceFilter-Lite好5.5倍。类似地,对于外界噪声,PSE网络比VoiceFilter-Lite改进1.7倍,而与VoiceFilter只有1.4%的WER绝对差异。可以看出,实现最佳SDRi的模型对于下游ASR任务也是最佳的。然而,在SDRi和WER指标之间没有发现显著的相关性。总的来说,对于在多路重合和外界噪声下的英语,最佳PSE网络模型在WER方面实现了69.6%和3.1%的绝对改进。结果还示出,当增强干净的信号(即,参考音频样本)时,对ASR WER的影响可以忽略,并且这种过度抑制与现有研究的发现一致。
还研究了在英语上训练但应用于其他语言的语音增强模型的性能。具体来说,使用英语音频语音样本训练的PSE网络的性能在有噪声的西班牙语和德语语音信号上进行评估。图1示出了已经传递通过在英语语音上训练的语音增强模型的西班牙语和德语音频的SDRi和词语错误率(WER)的曲线图。图11左手侧的曲线示出多路重合抑制的结果,右手侧的曲线示出外界噪声抑制的结果。可以看出,在英语上训练的PSE网络在用于增强西班牙语和德语语音时表现良好。从实用的角度来看,这是令人鼓舞的,因为它突出了以语言不可知的方式应用语音增强的潜力。具体地,利用西班牙数据集,在增强被多路重合和外界噪声损坏的信号之后,观察到5-6和8-9SDRi。使用德国数据集,在抑制多路重合和外界噪声之后,观察到大约4和9-10SDRi。总的来说,结果示出,即使两个模型用相似的设置训练,也比SOTAVoiceFilter-Lite模型有显著大的改进。
在ASR的情况下,多路重合噪声的存在具有大得多的影响,并且利用PSE网络,ASR性能可以在这种状况下显著改进。具体来说,在WER中观察到西班牙语和德语语言的绝对改进为60-61%和50-56%。总体来说,结果示出PSE网络针对个性化语音增强的跨语言可转移性,有很大的潜力。与VoiceFilter-Lite模型相比,VoiceFilter-Lite模型不能在除了它被训练的语言之外的语言上有效地执行,PSE网络示出针对跨语言成功地转移语音增强系统的巨大潜力。此外,观察到PSE网络的性能类似于非因果VoiceFilter模型,特别是对于多路重合噪声。
在图11中,示出了为了SDR和WER改进而应用于西班牙语和德语语言的英语语音增强模型之间的相关性。前七个PSE网络模型(来自在超参数优化期间训练的所有模型)以及VoiceFilter-Lite和VoiceFilter模型被选择用于该分析。结果示出,在应用于西班牙语和德语时,关于SDRi和WER两者方面的模型排名被维持。此外,各种PSE网络架构提供不同的性能/计算预算,从而缩小与非因果VoiceFilter的差距。
请注意,当转移到其他语言时,PSE网络的性能并不完美。这可能是由于VoxForge数据集拆分被用于西班牙语和德语,并且德语数据集的记录有些远场,而西班牙语记录主要是近场的事实。这为分析提供了另外的维度,假定当前的语音增强模型是在主要是近场的LibriSpeech数据集上训练的,这应该有利于转移到近场。事实上,图9和图10捕捉到了这种现象,这种现象也可能是由于母语为德语的人们与母语为西班牙语的人们之间的语音特性的可变性。
图12是示出ML模型如何在执行个性化和非个性化声音增强之间切换的框图。如上所述,执行语音增强的ML模型有两个输入(在训练时间期间和推理时间期间两者)。如果存在特定用户的发言者嵌入向量,则将发言者嵌入向量和损坏的语音(有噪声的音频信号)输入到ML模型中;并且如果不存在这样的发言者嵌入向量,则将零向量和损坏的语音输入到ML模型中。是否存在发言者嵌入向量取决于用户是否已经提供了注册数据,即是否已经参与了注册过程以提供他们的语音样本(即仅包含用户语音的干净的音频信号)。每个用户只需执行一次注册过程。在执行该登记过程之前,可以使用训练的ML模型来执行声音增强,因为如图12所示,ML模型简单地切换以执行非个性化声音增强。
图13是示出如何使用图2所示的架构来执行个性化和非个性化声音增强的示意图。如上所述,当存在发言者嵌入向量时(左手侧),训练的ML模型被切换以执行个性化噪声移除,并且在这种情况下,使用训练的ML模型的神经网络来移除噪声包括:将有噪声的音频信号输入到训练的ML模型的编码器模块中;将发言者嵌入向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以产生修改的有噪声的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将发言者嵌入向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧连接,以输出增强的音频信号。
类似地,当不存在发言者嵌入向量时(右手侧),训练的ML模型被切换以执行非个性化噪声移除,并且在这种情况下,使用训练的ML模型的神经网络来移除噪声包括:将有噪声的音频信号输入到训练的ML模型的编码器模块中;将零向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的损坏的音频信号;将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及将零向量与由解码器模块处理之后的修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号。
目标用户的发言者嵌入向量提供与由ML模型执行的声音增强的个性化有关的关键信息。研究了发言者嵌入向量对个性化的影响。还研究了执行个性化所需的注册数据量。
图14是示出了在从音频信号中移除外界噪声时,没有目标用户的发言者嵌入向量对ML模型的性能的贡献的表格。当用单位、零或随机向量代替发言者嵌入向量时,该表中呈现的结果捕获了对词语错误率(WER)和信号失真比(SDR)的影响。从结果可以看出,即使使用单位矢量或零矢量作为发言者嵌入矢量,ML模型在移除外界噪声方面的性能也仅受到轻微影响。这意味着当不存在目标用户的发言者嵌入向量时,ML模型能够移除外界噪声。这与网络的编码器和解码器部分(见图2和图13)过滤掉非语音噪声的假设相一致。接收发言者嵌入作为输入的过滤器块处理目标语音与干扰语音的分离,并且当存在非目标嵌入向量时,在多路重合噪声上表现不佳。
图15是示出不同长度的注册数据在从音频信号中移除不同类型的噪声时对ML模型的性能的影响的表格。该表格中呈现的结果总结了在计算发言者嵌入向量时使用的注册数据量对ML模型总体性能的影响。可以看出,ML模型甚至在只有一秒的注册数据的情况下也性能良好。总之,可以看出,即使没有任何注册数据,本技术的ML模型也可以抑制外界噪声。
因此,本技术通过抑制背景噪声为语音信号的实时增强提供了因果模型。申请人已经示出,对于抑制非平稳噪声和多路重合噪声两者的基于流的声音增强,所提出的方法优于当前的SOTA方案。此外,已经证明了本语音增强模型的能力可以跨语言很好地转移。
本领域的技术人员将会理解,虽然前面已经描述了被认为是最佳的模式以及在适当的情况下执行本技术的其他模式,但是本技术不应该限制于在优选实施例的描述中公开的具体配置和方法。本领域的技术人员将认识到,本技术具有广泛的应用范围,并且在不脱离所附权利要求中定义的任何发明概念的情况下,实施例可以进行广泛的修改。
Claims (15)
1.一种计算机实现的方法,用于使用训练的机器学习ML模型来针对目标用户执行实时声音增强,该方法包括:
获得包括目标用户的语音和噪声的有噪声的音频信号;
确定是否存在目标用户的发言者嵌入向量;以及
使用训练的ML模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的ML模型以执行个性化或非个性化噪声移除,来从有噪声的音频信号中移除噪声,同时保持目标用户的语音。
2.根据权利要求1所述的方法,其中,使用训练的ML模型的神经网络来移除噪声包括:
将有噪声的音频信号输入到训练的ML模型的编码器模块中;
将向量与由编码器模块处理之后的有噪声的音频信号的每个帧级联,以生成修改的有噪声的音频信号;
将修改的有噪声的音频信号输入到训练的ML模型的解码器模块中;以及
将所述向量与由解码器模块处理之后修改的有噪声的音频信号的每个帧级联,以输出增强的音频信号。
3.根据权利要求2所述的方法,其中,当存在发言者嵌入向量时,所述向量是发言者嵌入向量,并且训练的ML模型被切换以执行个性化噪声移除。
4.根据权利要求3所述的方法,其中,从输出的增强的音频信号中移除外界噪声和/或多路重合噪声,同时保持目标用户的语音。
5.根据权利要求2所述的方法,其中,当不存在发言者嵌入向量时,所述向量是零向量,并且训练的ML模型被切换以执行非个性化噪声移除。
6.根据权利要求5所述的方法,其中,从输出的增强的音频信号中移除外界噪声,同时保持目标用户的语音。
7.根据任何前述权利要求所述的方法,还包括通过以下步骤生成目标用户的发言者嵌入向量:
获得目标用户的至少一个干净的音频信号;以及
将发言者识别模型应用于目标用户的至少一个干净的音频信号,以生成表示目标用户的语音简档的发言者嵌入向量。
8.根据权利要求1至7中任一项所述的方法,其中,所述有噪声的音频信号是在音频呼叫期间获得的,并且其中,所述方法还包括将由训练的ML模型处理之后的音频信号传送给音频呼叫中的另一个参与者。
9.根据权利要求1至7中任一项所述的方法,其中,所述方法还包括将由训练的ML模型处理之后的音频信号输入到自动语音识别系统中。
10.一种使用训练的机器学习ML模型来针对目标用户执行实时声音增强的装置,该装置包括:
音频捕获设备;和
至少一个处理器,耦合到存储器,该处理器被布置为:
从音频捕获设备获得包括目标用户的语音和噪声的有噪声的音频信号;
确定是否存在目标用户的发言者嵌入向量;以及
使用训练的ML模型的神经网络,通过取决于是否存在发言者嵌入向量来切换训练的ML模型以执行个性化或非个性化噪声移除,来从有噪声的音频信号中移除噪声,同时保持目标用户的语音。
11.根据权利要求10所述的装置,其中,所述有噪声的音频信号是在使用所述装置进行的音频呼叫期间获得的,并且其中,所述处理器被布置为,将由训练的ML模型处理之后的音频信号传送给音频呼叫中的另一个参与者。
12.一种用于训练机器学习ML模型来针对目标用户执行实时声音增强的方法,该方法包括:
获得训练数据集,该训练数据集包括多个音频噪声样本、各自包含个体发言者的语音的多个干净的音频样本和每个个体发言者的发言者嵌入向量;
使用干净的音频样本,通过向每个干净的音频样本添加至少一个噪声样本来生成损坏的音频样本;以及
使用训练数据集和损坏的音频样本来训练ML模型的神经网络,以从损坏的音频样本中移除噪声,同时保持个体发言者的语音,并且学习取决于在训练回合期间个体发言者的发言者嵌入向量是否可用来在执行个性化和非个性化噪声移除之间切换。
13.根据权利要求12所述的方法,其中,训练ML模型的神经网络包括:
将损坏的音频样本输入到ML模型的编码器模块中;
将向量与由编码器模块处理之后的损坏的音频样本的每个帧级联,以生成修改的损坏的音频样本;
将修改的损坏的音频样本输入到训练的ML模型的解码器模块中;以及
将所述向量与由解码器模块处理之后的修改的损坏的音频信号的每个帧级联,以输出增强的音频样本。
14.根据权利要求13所述的方法,其中,当在训练回合期间存在发言者嵌入向量时,所述向量是发言者嵌入向量,并且ML模型切换以执行个性化噪声移除。
15.一种用于训练机器学习ML模型以针对目标用户执行实时声音增强的服务器,该服务器包括:
至少一个处理器,耦合到存储器,该处理器被布置为:
获得训练数据集,该训练数据集包括多个音频噪声样本、各自包含个体发言者的语音的多个干净的音频样本和每个个体发言者的发言者嵌入向量;
使用干净的音频样本,通过向每个干净的音频样本添加至少一个噪声样本来生成损坏的音频样本;以及
使用训练数据集和损坏的音频样本来训练ML模型的神经网络,以从损坏的音频样本中移除噪声,同时保持个体发言者的语音,并且学习取决于在训练回合期间个体发言者的发言者嵌入向量是否可用来在执行个性化和非个性化噪声移除之间切换。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB2104280.9 | 2021-03-26 | ||
GBGB2104280.9A GB202104280D0 (en) | 2021-03-26 | 2021-03-26 | Method and apparatus for real-time sound enhancement |
GB2114393.8 | 2021-10-07 | ||
GB2114393.8A GB2605219B (en) | 2021-03-26 | 2021-10-07 | Method and apparatus for real-time sound enhancement |
PCT/KR2022/004204 WO2022203441A1 (en) | 2021-03-26 | 2022-03-25 | Method and apparatus for real-time sound enhancement |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117121103A true CN117121103A (zh) | 2023-11-24 |
Family
ID=75783870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280024687.5A Pending CN117121103A (zh) | 2021-03-26 | 2022-03-25 | 用于实时声音增强的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230298593A1 (zh) |
EP (1) | EP4252228A4 (zh) |
CN (1) | CN117121103A (zh) |
GB (2) | GB202104280D0 (zh) |
WO (1) | WO2022203441A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114171038B (zh) * | 2021-12-10 | 2023-07-28 | 北京百度网讯科技有限公司 | 语音降噪方法、装置、设备及存储介质 |
CN114842863B (zh) * | 2022-04-19 | 2023-06-02 | 电子科技大学 | 一种基于多分支-动态合并网络的信号增强方法 |
US11937073B1 (en) * | 2022-11-01 | 2024-03-19 | AudioFocus, Inc | Systems and methods for curating a corpus of synthetic acoustic training data samples and training a machine learning model for proximity-based acoustic enhancement |
GB202302913D0 (en) * | 2023-02-28 | 2023-04-12 | Samsung Electronics Co Ltd | Persoda: personalized data augmentation for personalized asr |
CN117524228A (zh) * | 2024-01-08 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725506B2 (en) * | 2010-06-30 | 2014-05-13 | Intel Corporation | Speech audio processing |
KR101330328B1 (ko) * | 2010-12-14 | 2013-11-15 | 한국전자통신연구원 | 음성 인식 방법 및 이를 위한 시스템 |
JP5670298B2 (ja) * | 2011-11-30 | 2015-02-18 | 日本電信電話株式会社 | 雑音抑圧装置、方法及びプログラム |
KR101843079B1 (ko) * | 2016-09-26 | 2018-05-14 | 서울대학교산학협력단 | 화자 상호 정보를 활용한 강인한 i-벡터 추출기 학습 방법 및 시스템 |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
KR102316537B1 (ko) * | 2019-06-21 | 2021-10-22 | 한양대학교 산학협력단 | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 |
WO2022056226A1 (en) * | 2020-09-14 | 2022-03-17 | Pindrop Security, Inc. | Speaker specific speech enhancement |
-
2021
- 2021-03-26 GB GBGB2104280.9A patent/GB202104280D0/en not_active Ceased
- 2021-10-07 GB GB2114393.8A patent/GB2605219B/en active Active
-
2022
- 2022-03-25 CN CN202280024687.5A patent/CN117121103A/zh active Pending
- 2022-03-25 WO PCT/KR2022/004204 patent/WO2022203441A1/en unknown
- 2022-03-25 EP EP22776141.8A patent/EP4252228A4/en active Pending
-
2023
- 2023-05-23 US US18/322,228 patent/US20230298593A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230298593A1 (en) | 2023-09-21 |
WO2022203441A1 (en) | 2022-09-29 |
GB202104280D0 (en) | 2021-05-12 |
GB202114393D0 (en) | 2021-11-24 |
GB2605219B (en) | 2023-05-03 |
EP4252228A4 (en) | 2024-03-06 |
GB2605219A (en) | 2022-09-28 |
EP4252228A1 (en) | 2023-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
US11894014B2 (en) | Audio-visual speech separation | |
Wang et al. | VoiceFilter-Lite: Streaming targeted voice separation for on-device speech recognition | |
US10950249B2 (en) | Audio watermark encoding/decoding | |
Wang et al. | Voicefilter: Targeted voice separation by speaker-conditioned spectrogram masking | |
Peddinti et al. | Reverberation robust acoustic modeling using i-vectors with time delay neural networks. | |
CN117121103A (zh) | 用于实时声音增强的方法和装置 | |
CN108463848B (zh) | 用于多声道语音识别的自适应音频增强 | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
Delcroix et al. | Strategies for distant speech recognitionin reverberant environments | |
US20190172476A1 (en) | Deep learning driven multi-channel filtering for speech enhancement | |
Ravanelli et al. | Batch-normalized joint training for DNN-based distant speech recognition | |
US10978081B2 (en) | Audio watermark encoding/decoding | |
Pandey et al. | Dual application of speech enhancement for automatic speech recognition | |
Xue et al. | Online streaming end-to-end neural diarization handling overlapping speech and flexible numbers of speakers | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
Priyanka et al. | Multi-channel speech enhancement using early and late fusion convolutional neural networks | |
Lin et al. | Sparsely overlapped speech training in the time domain: Joint learning of target speech separation and personal vad benefits | |
Pan et al. | ImagineNet: Target speaker extraction with intermittent visual cue through embedding inpainting | |
Park et al. | Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition | |
Peracha et al. | Causal speech enhancement using dynamical-weighted loss and attention encoder-decoder recurrent neural network | |
Liu et al. | Gated Convolutional Fusion for Time-Domain Target Speaker Extraction Network. | |
Chhetri et al. | Speech Enhancement: A Survey of Approaches and Applications | |
Heymann et al. | Unsupervised adaptation of a denoising autoencoder by bayesian feature enhancement for reverberant asr under mismatch conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |