CN116741193B - 语音增强网络的训练方法、装置、存储介质及计算机设备 - Google Patents
语音增强网络的训练方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116741193B CN116741193B CN202310999362.5A CN202310999362A CN116741193B CN 116741193 B CN116741193 B CN 116741193B CN 202310999362 A CN202310999362 A CN 202310999362A CN 116741193 B CN116741193 B CN 116741193B
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- sample
- target
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000003860 storage Methods 0.000 title claims description 25
- 239000013598 vector Substances 0.000 claims abstract description 167
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000004519 manufacturing process Methods 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims description 32
- 230000007613 environmental effect Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000006403 short-term memory Effects 0.000 claims description 12
- 230000007787 long-term memory Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 25
- 238000004590 computer program Methods 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开一种语音增强网络的训练方法,包括:获取训练集,训练集包括多个训练样本,训练样本包括样本参考语音、样本比对语音和混合语音;对样本参考语音进行声纹提取,得到样本声纹向量;对混合语音进行音频特征提取,得到样本音频特征;由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征;根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失;基于目标损失迭代更新语音增强网络的权重参数,直至达到训练结束条件。本申请应用人工智能技术,能够基于源自同一发声对象的样本参考语音和样本比对语音,训练出用于抑制干扰人声的语音增强网络,有效提高语音增强的质量。
Description
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种语音增强网络的训练方法、装置、存储介质及计算机设备。
背景技术
语音增强(Speech Enhancement)其本质就是语音降噪,日常生活中,麦克风采集的语音通常是带有不同噪声的“污染”语音,语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出我们想要的干净语音,从而有效抑制各种干扰信号,增强目标语音信号,从而提高语音音频质量。语音增强的应用领域包括视频会议和语音识别等,是许多语音编码和识别系统的预处理模块。
在复杂的语音采集环境下,现有技术通常会基于对采集的语音中的噪声进行抑制的方式来达到降噪的目标。例如,基于谱减法对语音频谱的估计,利用高斯混合模型进行噪声估计,或者基于降噪的神经网络学习不含噪声的干净语音的频谱。然而,现有技术中语音增强得到的增强语音存在效果不佳的情况,因此,如何提升语音增强效果是相关技术中亟待解决的技术问题。
发明内容
本申请实施例提供一种语音增强网络的训练方法、装置、存储介质以及计算机设备,以解决相关技术进行语音增强时存在效果不佳的问题。
一方面,本申请实施例提供一种语音增强网络的训练方法,该方法包括:获取训练集,训练集包括多个训练样本,一训练样本包括样本参考语音、样本比对语音以及混合语音;混合语音是将干扰人声、环境噪声和样本比对语音进行混合得到的;其中,同一训练样本中的样本参考语音和样本比对语音来源于同一样本发声对象;对样本参考语音进行声纹提取,得到样本声纹向量;对混合语音进行音频特征提取,得到样本音频特征;由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征;根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失;基于目标损失,迭代更新语音增强网络的权重参数,直至达到训练结束条件。
本申请提供的实施例,可以获取训练集,该训练集包括多个训练样本,训练样本包括样本参考语音、样本比对语音和混合语音,进而,对样本参考语音进行声纹提取,得到样本声纹向量,并对混合语音进行音频特征提取,得到样本音频特征,进一步地,由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征,并根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失,从而,基于目标损失迭代更新语音增强网络的权重参数,直至达到训练结束条件。
如此,在语音增强网络的输入数据中增加样本发声对象的样本声纹向量,使得语音增强网络在训练过程中,提高对样本发声对象的声音信息学习的注意力,让语音增强网络更专注于增强样本发声对象的声音,在去除干扰噪声之外,还能同时有效抑制干扰人声,从而,使得训练后的语音增强网络的对语音增强的质量和性能得到提升。
另一方面,本申请实施例提供一种语音增强方法,该方法包括:获取目标发声对象的目标声纹向量;将目标声纹向量和目标语音的音频特征输入至语音增强网络进行增强处理,得到针对目标发声对象的增强音频特征;语音增强网络是按照如上述实施例提供的语音增强网络的训练方法得到的;对增强音频特征进行语音重构,得到目标语音对应的增强语音。
另一方面,本申请实施例还提供一种语音增强网络的训练装置,该装置包括:样本获取模块,用于获取训练集,训练集包括多个训练样本,一训练样本包括样本参考语音、样本比对语音以及混合语音;混合语音是将干扰人声、环境噪声和样本比对语音进行混合得到的;其中,同一训练样本中的样本参考语音和样本比对语音来源于同一样本发声对象;声纹提取模块,用于对样本参考语音进行声纹提取,得到样本声纹向量;特征提取模块,用于对混合语音进行音频特征提取,得到样本音频特征;特征预测模块,用于由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征;损失确定模块,用于根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失;参数更新模块,用于基于目标损失,迭代更新语音增强网络的权重参数,直至达到训练结束条件。
另一方面,本申请实施例还提供一种语音增强装置,该装置包括:向量获取模块,用于获取目标发声对象的目标声纹向量;语音增强模块,用于将目标声纹向量和目标语音的音频特征输入至语音增强网络进行增强处理,得到针对目标发声对象的增强音频特征;语音增强网络是按照如上述实施例提供的语音增强网络的训练方法训练得到的;语音重构模块,用于对增强音频特征进行语音重构,得到目标语音对应的增强语音。
另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,其中,在该计算机程序被处理器运行时执行上述的语音增强网络的训练方法。
另一方面,本申请实施例还提供一种计算机设备,该计算机设备包括处理器以及存储器,存储器存储有计算机程序,该计算机程序被处理器调用时执行上述的语音增强网络的训练方法。
另一方面,本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在存储介质中;计算机设备的处理器从存储介质读取该计算机程序,处理器执行该计算机程序,使得计算机设备执行上述语音增强网络的训练方法中的步骤。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种系统框架示意图。
图2示出了本申请实施例提供的另一种系统框架示意图。
图3示出了本申请实施例提供的一种语音增强网络的训练方法的流程示意图。
图4示出了本申请实施例提供的一种语音增强网络的架构示意图。
图5示出了本申请实施例提供的一种语音增强方法的流程示意图。
图6示出了本申请实施例提供的一种应用场景图。
图7示出了本申请实施例提供的一种目标声纹向量的提取流程图。
图8示出了本申请实施例提供的一种语音增强的流程图。
图9是本申请实施例提供的一种语音增强网络的训练装置的模块框图。
图10是本申请实施例提供的一种语音增强装置的模块框图。
图11是本申请实施例提供的一种计算机设备的模块框图。
图12是本申请实施例提供的一种计算机可读存储介质的模块框图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
在说明书、权利要求书和上述附图所描述的一些流程中,包含了按照特定顺序出现的多个步骤,但应该清楚了解,这些步骤可以不按照其在本文中出现的顺序来执行或并行执行,步骤序号仅仅是用于区分开各个不同的步骤,序号本身不代表任何的执行顺序。此外,本文中的“第一”和“第二”等描述,是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是, 在本申请的具体实施方式中,涉及到的样本参考语音、样本比对语音、注册语音以及录制语音等相关数据,当运用到本申请实施例的具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规及标准,并且在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
本申请提出的语音增强网络的训练方法涉及人工智能(ArtificialIntelligence, AI)技术,人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,语音处理技术(Speech Technology)关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(Text To Speech,TTS)以及声纹识别技术(Voiceprint Recognition,VPR)。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。在本申请实施例中,基于语音处理中的语音增强技术可以对采集的语音进行说话人的声纹提取以及对语音的噪声进行降噪。
目前,有关技术通常会基于对采集的语音中的噪声进行抑制的方式来达到降噪的目标。例如,基于谱减法(Spectral Subtraction)的语音增强方法利用加性噪声与语音不相关的特点,在假设噪声是统计平稳的前提下,将非语音段测算到的噪声频谱估计值取代有语音期间噪声的频谱,与含噪语音频谱相减,以获得语音频谱的估计值。
基于高斯混合模型(Gaussian Mixture Model,GMM)的语音增强方法使用GMM估计背景噪声和谱减系数,对含噪语音进行谱减,恢复纯净语音。其中,含噪语音经预处理得到对应的幅度和相位,幅度用于噪声估计和谱减,相位用于恢复时域信号。进一步地,利用GMM从含噪语音中实时估计噪声参数和纯净语音倒谱特征,根据估得的纯净语音倒谱特征计算谱减系数,再对含噪语音的频谱进行谱减后,恢复时域信号得到增强后的语音。
基于深度神经网络(Deep Neural Network,DNN)的语音增强方法,将带噪的语音频谱输入到深度神经网络,例如,循环神经网络(Recurrent Neural Works, RNN)或者卷积神经网络(Convolutional Neural Networks, CNN),网络训练的学习目标是干净的语音频谱。通过将采集的语音输入至训练得到的增强网络,该增强网络能够直接输出经有效抑制平稳和非平稳噪声的语音频谱。然而,上述语音增强的方法无法对采集的语音中的背景干扰人声进行抑制,语音增强的质量较低。为了解决上述问题,发明人经过研究,提出了本申请实施例提供的语音增强网络的训练方法。
下面先对本申请所涉及到的语音增强网络的训练方法的系统的架构进行介绍。
如图1所示,本申请实施例提供的语音增强网络的训练方法可以应用在系统100中,该系统100可以用于模型训练。其中,数据获取设备110用于获取训练集,训练集包括多个训练样本。针对本申请实施例的语音增强网络的训练方法来说,每个训练样本可以包括样本参考语音、样本比对语音以及混合语音。其中,同一训练样本中的样本参考语音和样本比对语音来源于同一样本发声对象。该训练集可以用于训练对采集的用户语音进行语音增强的目标模型101。数据获取设备110在获取到训练数据之后,可将该训练数据存入数据库120,训练设备130可基于数据库120中维护的训练集训练得到目标模型101。
具体地,训练设备130可以基于输入的训练数据对预设的语音增强网络进行训练,直至该语音增强网络满足预设的训练结束条件,得到训练后的目标模型101,也即,本申请的语音增强网络。其中,训练结束条件可以为:目标损失函数的损失值小于预设值、目标损失函数的损失值不再变化、或者训练次数达到预设次数等。该目标模型101可以用于基于输入的目标用户(本申请称为目标发声对象)的声纹向量和语音音频特征自动进行语音增强,得到针对目标发声对象的增强音频特征。目标模型101涉及的处理过程可以包括音频特征提取等。本申请实施例中的目标模型101可以为深度神经网络(Deep Neural Network,DNN),其中,网络结构可以包括长短期记忆网络(Long Short-Term Memory,LSTM)和全连接层(Fully Connected Layer)、卷积神经网络(Convolutional Neural Networks,CNN)等,在此不做限定。
在实际的应用场景中,数据库120中维护的训练数据不一定都来自于数据获取设备110,也可以从其他设备接收得到,例如,执行设备140也可以作为数据获取端,将获取的数据作为新的训练数据,并存入数据库120。此外,训练设备130也不一定完全基于数据库120维护的训练数据对预设的神经网络进行训练,也有可能基于从云端或者其他设备获取的训练数据对预设的神经网络进行训练,例如,执行设备140为客户端所在的终端时,可以将采集的用户语音作为训练数据,上述描述不应该作为对本申请实施例的限定。
上述根据训练设备130训练得到的目标模型101可以应用于不同的系统或设备,如应用于图1所示的执行设备140。训练设备130和执行设备140可以为服务器或者终端等,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等。
在执行设备140的处理模块141执行计算等相关的处理过程中,执行设备140可调用数据存储系统150中的数据、程序等以用于相应的计算处理,并将计算处理得到的处理结果等数据和指令存入数据存储系统150中。训练设备130可以针对不同的目标或不同的任务,基于不同的训练数据生成相应的目标模型101,该相应的目标模型101即可以用于完成相应的语音增强网络的训练任务和利用该语音增强网络进行的语音增强任务。
示例性地,图1所示的系统100中的训练设备130可以为服务供应商部署的云服务器,执行设备140可以为用户使用的终端(如,智能手机)。云服务器可以基于训练集进行网络训练得到用于执行语音增强任务的语音增强网络,该语音增强网络可以包括第一长短期记忆子网络和第一全连接子网络。进而,终端可以部署训练得到语音增强网络也即目标模型101执行语音增强任务。
例如,在视频会议场景,会场中的发言人说话时,该会场所在的视频会议客户端可以对采集的发言人的发言语音按照本申请的方法进行语音增强。具体地,客户端可以获取发言人的声纹向量,并将该声纹向量和发言语音的音频特征输入至语音增强网络,进而,语音增强网络可以针对发言人输出降噪后的干净的语音特征,并对该干净的语音特征进行语音重构得到对应的降噪后的干净语音,从而将干净语音发送至其他会场进行播放。
值得注意的是,图1仅是本申请实施例提供的一种系统的架构示意图,本申请实施例描述的系统的架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,在其它情况下图1中的训练设备130也可以是终端。执行设备140也可以为服务供应商部署的云服务器。
如图2所示,本申请实施例提供的语音增强网络的训练方法还可以应用在系统200中。示例性地,系统200中的数据获取设备210、数据库220、训练设备230以及数据库系统250所具有的功能和应用场景可以与系统100中的数据获取设备110、数据库120、训练设备130以及数据库系统150对应相同。系统200中的执行设备240可以为云执行服务器,该云执行服务器部署由云训练服务器(也即,训练设备230)训练得到的语音增强网络,并可以运行该语音增强网络与客户端设备260协同执行语音增强任务。
例如,用户可以在笔记本电脑(也即,客户端设备260)上安装并使用音频分享客户端。当用户在音频分享客户端使用音频分享客户端的广播功能时,笔记本电脑可以通过网络向云执行服务器发送用户在使用广播功能时的采集的现场语音。进一步地,云执行服务器在接收到现场语音时,利用语音增强网络网络,基于用户的声纹向量和现场语音的音频特征进行语音增强,输出降噪后的干净语音。进而,云执行服务器可以将干净语音发送到收听广播的用户的音频分享客户端。
请参阅图3,图3示出了本申请一个实施例提供的语音增强网络的训练方法的流程示意图。在本实施例中,该语音增强网络的训练方法可以由服务端执行,该服务端至少具有存储、计算和通信的功能。如图3所示,所述语音增强网络的训练方法具体可以包括以下步骤:
步骤S110:获取训练集,训练集包括多个训练样本,一训练样本包括样本参考语音、样本比对语音以及混合语音;混合语音是将干扰人声、环境噪声和样本比对语音进行混合得到的;同一训练样本中的样本参考语音和样本比对语音来源于同一样本发声对象。
在语音增强技术的使用场景中,需要进行语音增强的待增强语音通常包括干扰人声。例如,网络课堂客户端采集的某位同学的说话声音中,除了环境噪声之外,还会包括其他同学的说话声音,也即干扰人声。考虑到有关技术在语音增强过程中无法对干扰人声进行有效抑制,为此,本申请提出基于带有同一样本发声对象的样本参考语音和样本比对语音训练语音增强网络,以便使用训练后的语音增强网络对待增强语音进行可抑制干扰人声的语音增强。
在本申请实施中,每个训练样本可以包括样本参考语音、样本比对语音(也即,干净的语音)以及混合语音。混合语音可以是对干扰人声、环境噪声和样本比对语音进行不同比例的混合得到,可选地,混合语音可以按照如下公式如下:
其中,表示混合语音,/>表示干扰人声,/>表示环境噪声,/>表示样本比对语音。/>是比例参数,/>。值得注意的是,在同一个训练样本中,样本参考语音的发声对象和样本比对语音的发声对象是同一个人,样本参考语音和样本比对语音的发声对象和干扰人声的发声对象是不同的人。
在一些实施例中,训练样本中的样本参考语音和样本比对语音可以是样本发声对象录制的语音,为保证语音增强网络的训练效果,可以设定样本参考语音和样本比对语音的时长需要满足时长阈值范围,该时长阈值范围用于保证样本参考语音和样本比对语音能够保证语音的时长较长,从而,保证能够从样本参考语音和样本比对语音中提取到准确的特征以指导语音增强模型进行语音增强。例如,时长阈值范围的最小值可以为30秒,时长阈值范围可以根据实际的网络训练需求,通过实验计算得到,在此不做限定。
此外,样本参考语音和样本比对语音的语音内容是可以不同的,例如,样本参考语音和样本比对语音的内容是同一发声对象阅读的两篇不同的新闻。语音内容可以仅可能多的包括不同发音的字词,使得样本参考语音和样本比对语音覆盖更多的语音信息,提高网络训练的准确率和置信度。当然,在其他实施例中,同一训练样本中的样本参考语音和样本比对语音的语音内容也可以是相同的。
在本申请实施中,可以从语音库中随机抽取样本参考语音、样本比对语音以及干扰人声,并从噪声库中随机抽取环境噪声。进一步地,对干扰人声、环境噪声和样本比对语音进行不同比例的组合得到混合语音,并基于样本参考语音、样本比对语音以及混合语音组成训练样本。如此,可以得到个训练样本,进而得到包括/>个训练样本的训练集,其中,/>。可选地,将该训练集存储至数据库。
作为一种实施方式,服务端在对语音增强网络进行训练时,可以从数据库中获取训练集。
步骤S120:对样本参考语音进行声纹提取,得到样本声纹向量。
作为一种实施方式,服务端可以对样本参考语音进行时频转换,得到样本参考语音的频域特征。进一步地,将样本参考语音的频域特征输入至声纹提取网络进行声纹提取,得到样本声纹向量。
例如,在获取样本参考语音后,可以对样本参考语音进行分帧处理和加窗处理,之后,进行时频转换,得到对应的频域特征。具体地,依次对麦克风采集的样本参考语音进行分帧处理和加窗处理,得到样本参考语音的语音信号帧,并对语音信号帧进行快速傅里叶变换(Fast Fourier Transformation,FFT)并求取FFT之后的离散功率谱,进而对获得的离散功率谱进行对数计算,得到对数功率谱作为样本参考语音的频域特征。
在一些实施例中,该声纹提取网络可以包括第二长短期记忆子网络、第二全连接子网络和池化子网络。具体地,可以将样本参考语音的频域特征输入至第二长短期记忆子网络进行特征提取,得到第一声纹特征,并将第一声纹特征输入至第二全连接子网络进行全连接处理,得到第二声纹特征。进一步地,可以将第二声纹特征输入至池化子网络进行池化处理,得到样本声纹向量。值得一提的是,声纹提取网络的结构不限于如上所列举,在其他实施例中,声纹特征提取网络还可以是通过其他的神经网络,例如卷积神经网络、全连接神经网络等构建,在此不进行具体限定。
步骤S130:对混合语音进行音频特征提取,得到样本音频特征。
在本申请实施例中,样本音频特征为基于混合语音转化得到的声学特征,例如,对数功率谱(Logarithmic Power Spectrum,LPS)和梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC)等,在此不做限定。
由于语音数据往往不能像图像数据那样直接输入到模型中训练,其在长时域上没有明显的特征变化,所以很难学习到语音数据的特征,加之语音的时域数据通常由16K采样率构成,即1秒16000个采样点,直接输入时域采样点会导致训练数据量过大且很难训练出具有实际意义的效果。因此,在语音增强任务中,可以将语音数据转化为声学特征作为网络的输入或者输出。
作为一种实施方式,服务端可以对混合语音进行分帧处理、加窗处理和快速傅里叶变换,得到样本音频特征。如此,将混合语音由时域空间的非平稳时变信号转化为频域空间的平稳信号,便于语音增强网络的训练。
步骤S140:由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征。
实际的应用场景中,麦克风采集的语音除了包括目标发声对象的语音和环境噪声,还会包括其他发声对象的干扰人声,为了能够在语音增强的过程中同时对环境噪声和干扰人声进行抑制,本申请在网络训练的输入中增加样本发声对象的样本声纹向量,以除去环境噪声以及除样本发声对象的语音外的干扰人声。
其中,语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征,可以视为将混合语音中抑制干扰人声和环境噪声后的语音的音频特征。在本申请中,将样本声纹向量输入语音增强网络,可以监督语音增强网络基于该样本声纹向量分离出样本音频特征中与样本发声对象的语音相关的特征,以此,达到抑制样本音频特征中环境噪声以及干扰人声的特征,以此实现对混合语音进行语音增强。
请参阅图4,图4示出了一种语音增强网络的架构示意图。该语音增强网络可以包括第一长短期记忆子网络和第一全连接子网络。其中,第一长短期记忆子网络和第一全连接子网络中的层数可以根据具体的训练需求进行设定。语音特征具有短时平稳性的时序序列,与长短期记忆网络的长短期记忆能力相吻合,提高语音增强质量。可选地,第一长短期记忆子网络也可以为双向长短期记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM),在此不做限定。
作为一种实施方式,服务端可以将样本声纹向量和样本音频特征输入至第一长短期记忆子网络进行特征提取,得到中间特征。进一步地,将中间特征输入至第一全连接子网络进行全连接处理,得到样本发声对象的预测音频特征。
步骤S150:根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失。
其中,样本比对语音对应的比对音频特征可以是对样本比对语音进行特征提取得到。在一些实施例中,可以是对样本比对语音进行时频转换得到的频域特征。例如,样本比对语音经过快速傅里叶变换得到的离散功率谱。
在本申请实施例中,对语音增强网络进行训练时的学习目标是语音增强网络输出的预测音频特征与样本比对语音对应的比对音频特征在嵌入空间中尽可能的接近,也即,使得语音增强网络能够预测出与作为标签的干净的比对音频特征更接近的预测音频特征。
作为一种实施方式,可以通过计算预测音频特征和样本比对语音对应的比对音频特征的均方误差(Mean Square Error,MSE)来作为语音增强网络的目标损失,计算公式如下:
其中,表示语音增强网络的目标损失,/>表示语音增强网络的权重参数,/>表示第/>个训练样本/>对应的预测音频特征,/>表示第/>个训练样本对应的样本比对语音的比对音频特征。
在其他实施例中,还可以通过其他损失函数(例如交叉熵损失函数、绝对值损失函数等)来基于预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失。在一些实施例中,可以通过至少两种不同的损失函数来分别根据预测音频特征和样本比对语音对应的比对音频特征来分别计算在每一种损失函数下的损失,之后,将在至少两种不同的损失函数下的损失进行加权处理,将加权处理结果作为语音增强网络的目标损失。
步骤S160:基于目标损失,迭代更新语音增强网络的权重参数,直至达到训练结束条件。
在本申请实施例中,训练结束条件可以包括:目标损失的损失值小于预设值、目标损失的损失值不再变化、或者训练次数达到预设次数等。可选的,可以采用优化器去优化目标损失函数,基于实验经验设置学习率、训练时的Batch Size (批量大小)训练的Epoch(时期)。
作为一种实施方式,在根据训练集对语音增强网络进行多个训练周期的迭代训练,其中,每个训练周期可以包括多次的迭代训练,不断对语音增强网络的权重参数进行优化,以上总损失值越来越小,最后变小为一个固定值,或者小于以上预设值,此时,则表示语音增强网络已收敛,停止迭代更新语音增强网络的权重参数,结束网络训练。
可选地,在网络训练结束时,可以将训练得到的语音增强网络与现有的用于语音增强的深度神经网络进行语音增强的性能比较,比较指标可以使用噪声平均选项得分(Noise Mean Option Score,NMOS)。NMOS的值越大,表明语音增强的性能越好。
在本实施例中,可以对训练样本中的样本参考语音进行声纹提取,得到样本声纹向量,以及对训练样本中的混合语音进行音频特征提取,得到样本音频特征。进而由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征,进一步地,根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失,并基于目标损失,迭代更新语音增强网络的权重参数,直至达到训练结束条件。
如此,在语音增强网络的输入数据中增加样本发声对象的样本声纹向量,使得语音增强网络在训练过程中,提高对样本发声对象的声音信息的学习注意力,让语音增强网络更专注于样本增强发声对象的声音,除了去除干扰噪声之外,同时还能够有效抑制干扰人声,从而使得训练后的语音增强网络可以用于针对性地对指定的发声对象的语音进行增强,有效抑制环境噪声和干扰噪声,提升语音增强质量和性能得到提升。
此外,本申请中的语音增强网络以长短期记忆网络和全连接网络作为基础结构(Backbone),有效降低了整个网络结构的时间复杂度和空间复杂度,使得语音增强网络更加轻量化,在实际语音增强应用场景中,可以减少对计算资源和空间资源的消耗。
在一些实施例中,训练结束后,语音增强网络可以部署到终端,这样,终端可以利用该语音增强网络对采集到的语音(例如,在语音通话场景、视频通话场景、云会议场景下)实时进行语音增强,并传输语音增强后的语音信号,以在接收方播放语音增强后的语音,提升语音通话效果。而且,在本实施例中,由于传输语音增强后的语音信号,而不是传输直接采集到的语音,可以理解的是,在直接采集到的语音包括干扰人声和环境噪声中的至少一项的情况下,直接采集到的语音相对于增强后的语音的数据量更大,这样,在语音增强后进行传输可以有效减少数据传输量,减少带宽消耗,提升网络资源的利用率。
请参阅图5,图5示出了本申请另一个实施例提供的语音增强方法的流程示意图。在本实施例中,该语音增强网络方法可以由终端执行,该终端至少具有显示、存储、计算和通信的功能。其中,语音增强网络方法所使用的语音增强网络可以由服务端训练得到。图5所示的语音增强网络方法可以运用到如图6所示的视频会议场景中。
在该视频会议场景中,视频会议服务供应商提供的云服务器310可以用于训练语音增强网络。在网络训练完成之后,用户可以从云服务器310下载带有语音增强网络的视频会议客户端,并将该带有语音增强网络的视频会议客户端安装在终端设备上,从而,在使用视频会议的过程中,终端设备可以使用语音增强网络对说话声音进行语音增强。其中,终端设备可以包括第一终端设备330和第二终端设备350。云服务器310通过网络与第一终端设备330和第二终端设备350进行通信连接。
需要说明的是,图6仅是本申请实施例提供的一种应用场景图,本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知,随着系统架构的演变和新的应用场景(在线语音或实况直播等)的出现,本申请实施例提供的技术方案对于解决类似的技术问题,同样适用。如图5所示,该语音增强方法可以包括以下步骤:
步骤S210:获取目标发声对象的目标声纹向量。
其中,目标发声对象指的是需要对其发出的语音进行语音增强的对象。目标发声对象也可以是指当前发言的发声对象。如图6所示,在视频会议场景中,用户340作为当前的会议发言人即为目标发声对象。
在一些实施例中,可以将目标发声对象的在客户端中的账号与目标发声对象的目标声纹向量进行关联存储,这样,在登录客户端后,可以基于登录客户端的账号,获取目标发声对象的目标声纹向量。例如,可以根据登录视频会议客户端的账号,快速获取目标发声对象的目标声纹向量。
在另一些实施例中,可以在进行语音通话或者视频通话之前,针对通话的参考方进行语音采集,所采集到的语音作为注册语音,并通过注册语音提取到当前的通话参与方的声纹向量,在此种情况下,每一通话的参与方可以作为本申请中的目标发声对象。
在一些场景下,考虑到在会议场景下存在一个会场多个使用一个账号的可能,或者群组中多个用户之间进行视频通话或者语音通话的情况下,由于一个账号所在的客户端包括多个通话参与对象,在此种情况下,在每一客户端,可以在通话开始前,采集各通话参与对象的注册语音,之后对各通话参与对象的注册语音进行声纹特征提取,并将提取到的声纹向量添加到声纹向量集合中。在此基础上,步骤S210可以包括如下的步骤A1~步骤A3:
步骤A1:对目标语音进行声纹特征提取,得到参考声纹向量。
其中,目标语音是指当前采集到待进行语音增强的语音。
步骤A2:计算参考声纹向量与声纹向量集合中各声纹向量之间的声纹相似度。
步骤A3:根据所述声纹相似度,从所述声纹向量集合中确定与所述参考声纹向量相似度最高,且与所述参考声纹向量的相似度超过相似度阈值的声纹向量,作为所述目标发声对象的目标声纹向量。
其中,相似度阈值可根据实际需要设定,若一声纹向量与参考声纹向量的相似度超过相似度阈值,表明该声纹向量与参考声纹向量为同一发声对象的声纹的概率较高。在本申请中,将声纹向量集合中确定与参考声纹向量相似度最高,且与参考声纹向量的相似度超过相似度阈值的声纹向量,作为目标发声对象的目标声纹向量,相当于将声纹向量集合中与参考声纹向量对应于同一发声对象的概率最高的声纹向量确定为目标发声对象的目标声纹向量,即当前待语音增强的目标语音所来源的发声对象的目标声纹向量。
在如上的实施例中,基于目标语音对目标发声对象进行身份确认,例如,第二终端设备350可以响应于采集到的目标语音,对目标语音进行语音识别,确定用户340的身份,也即,是否为已注册用户,即声纹向量集合中的声纹向量所来源的用户。
作为一种实施方式,可以获取采集到目标语音的时间与上一进行语音增强的语音之间的时间间隔,若该时间间隔大于间隔阈值,可以重新针对当前的目标语音进行声纹特征提取,以匹配用于语音增强的目标声纹向量。若该时间间隔未大于间隔阈值,直接获取目标发声对象的目标声纹向量。如此,在时间间隔大于间隔阈值时,针对存在的发声对象发生变化的情况,依然能够为新的发声对象匹配到对应的目标声纹向量。
其中,目标声纹向量可以是预先提取并存储的。在一些实施例中,可以获取目标发声对象的注册语音,并对目标发声对象的注册语音进行声纹提取,得到目标发声对象的目标声纹向量。请参阅图7,图7示出一种目标声纹向量的提取流程图。如图7所示,目标发声对象可以录制一段语音,也即注册语音,进而对该注册语音进行音质检测。
示例性地,对注册语音进行音质检测,得到注册语音的语音信噪比。若语音信噪比大于信噪比阈值,则可以对注册语音进行时频转换,进而将时频转换后的注册语音的频域特征输入声纹提取网络进行声纹提取,得到目标发声对象的目标声纹向量。
在一些实施例中,会场使用的账号对应的注册用户,与用户340不是同一人。为此,可以获取目标发声对象的录制语音,进一步地,基于声纹提取网络对录制语音的频域特征进行声纹提取,得到目标发声对象的目标声纹向量。
例如,第二终端设备350可以采集用户340的一段语音,也即录制语音。进而,基于声纹提取网络对录制语音的频域特征进行声纹提取,得到用户340的目标声纹向量。
步骤S220:将目标声纹向量和目标语音的音频特征输入至语音增强网络进行增强处理,得到针对目标发声对象的增强音频特征。
其中,语音增强网络的训练过程可以参照上述实施例中步骤110至步骤160的内容,在此不做赘述。
作为一种实施方式,该语音增强网络可以包括长短期记忆子网络和全连接子网络。示例性地,第二终端设备350可以将用户340的目标声纹向量和采集的目标语音的音频特征输入至语音增强网络。基于语音增强网络的长短期记忆子网络对目标声纹向量和采集的目标语音的音频特征进行特征提取,得到中间特征。进一步地,第二终端设备350可以将中间特征输入至全连接子网络进行全连接处理,得到针对目标发声对象的增强音频特征。
步骤S230:对增强音频特征进行语音重构,得到目标语音对应的增强语音。
作为一种实施方式,可以对获取的增强音频特征进行语音重构,将增强音频特征从频域转换到时域,计算出去语音增强后的增强语音。例如,第二终端设备350可以对增强音频特征进行傅里叶逆变换(Inverse Fourier Transform),从而获得语音增强后的时域语音,也即增强语音。进一步地,第二终端设备350可以将增强语音通过网络发送至第一终端设备330,进而,用户320可以听到第一终端设备330播放的增强语音。
示例性地,请参阅图8,图8示出一种语音增强的流程图。如图8所示,终端设备在获取目标发声对象的的注册语音时,可以对该注册语音进行时频转换得到对应的频域特征,进而利用声纹提取网络对注册语音的频域特征进行声纹提取,得到对应的目标声纹向量。
终端设备在采集到目标语音时,可以将该目标语音经时频转换后的频域特征与注册语音的频域特征输入至语音增强网络进行语音增强,进而该语音增强网络可以输出针对目标发声对象的增强音频特征。进一步地,通过对该增强音频特征进行语音重构,例如,傅里叶逆变换,得到针对目标发声对象去除干扰人声和干扰噪声的增强语音。
考虑到当前的目标语音包括多个主要发言用户的语音,这种情况不便于针对性多个主要发言用户进行语音增强,可以仅抑制环境噪声。在一些实施例中,该语音增强方法还可以包括:
若声纹向量集合中的指定声纹向量与参考声纹向量之间的相似度不超过相似度阈值,通过参考语音增强网络对目标语音进行语音增强,得到针对目标语音的参考增强音频特征;其中,参考语音增强网络是通过带噪语音和带噪语音对应的纯净语音进行训练得到的;指定声纹向量是指声纹向量集合中与参考声纹向量之间的相似度最高的声纹向量;对参考增强音频特征进行语音重构,得到目标语音对应的增强语音。
在一些实施例中,参考语音增强网络可以通过如下步骤训练得到:获取训练样本集合,训练样本集合包括样本参考语音、样本比对语音以及干扰噪声;对样本参考语音、样本比对语音以及干扰噪声分别进行音频特征提取,得到对应的参考音频特征、比对音频特征和噪声音频特征;由参考语音增强网络基于参考音频特征和比对音频特征进行增强处理,输出预测音频特征;根据预测音频特征和比对音频特征,确定参考语音增强网络的目标损失;基于目标损失,迭代更新参考语音增强网络的权重参数,直至达到训练结束条件。
在如上的实施例中,可以在应用中部署两个用于语音增强的模型,即语音增强网络和参考语音增强网络,在能够确定当前待增强的目标语音所来源的发声对象的声纹特征的情况下,或者说,在目标语音对应的发声对象较明确的情况下,通过语音增强网络按照图6所示的过程进行语音增强,以便于后续得到除去干扰人声和环境噪声的增强语音。若声纹向量集合中的指定声纹向量与所述参考声纹向量之间的相似度不超过所述相似度阈值,可能的原因是当前的目标语音包括多个主要的发声对象的语音,在该种情况下,可以通过参考语音增强网络对所述目标语音进行语音增强,这样,避免抑制目标语音中任一主要发生对象的语音。
值得一提的是,如上的语音增强方法可以是由终端执行,也可以是由提供语音服务的服务端执行,在此不进行具体限定。
请参阅图9,其示出了本申请实施例提供的一种语音增强网络的训练装置400的结构框图。该语音增强网络的训练装置400包括:
样本获取模块410,用于获取训练集,所述训练集包括多个训练样本,一训练样本包括样本参考语音、样本比对语音以及混合语音;所述混合语音是将干扰人声、环境噪声和所述样本比对语音进行混合得到的;其中,同一训练样本中的样本参考语音和样本比对语音来源于同一样本发声对象;
声纹提取模块420,用于对所述样本参考语音进行声纹提取,得到样本声纹向量;
特征提取模块430,用于对所述混合语音进行音频特征提取,得到样本音频特征;
特征预测模块440,用于由语音增强网络基于所述样本声纹向量和所述样本音频特征进行增强处理,输出针对所述样本发声对象的预测音频特征;
损失确定模块450,用于根据所述预测音频特征和所述样本比对语音对应的比对音频特征,确定所述语音增强网络的目标损失;
参数更新模块460,用于基于所述目标损失,迭代更新所述语音增强网络的权重参数,直至达到训练结束条件。
在一些实施例中,所述语音增强网络包括第一长短期记忆子网络和第一全连接子网络;特征预测模块440可以具体用于:
将所述样本声纹向量和所述样本音频特征输入至所述第一长短期记忆子网络进行特征提取,得到中间特征;
将所述中间特征输入至所述第一全连接子网络进行全连接处理,得到所述样本发声对象的预测音频特征。
在一些实施例中,声纹提取模块420可以包括:时频转换单元以及声纹提取单元。时频转换单元,用于对所述样本参考语音进行时频转换,得到所述样本参考语音的频域特征;声纹提取单元,用于将所述样本参考语音的频域特征输入至声纹提取网络进行声纹提取,得到样本声纹向量。
在一些实施例中,所述声纹提取网络包括第二长短期记忆子网络、第二全连接子网络和池化子网络:声纹提取单元可以具体用于:将所述样本参考语音的频域特征输入至所述第二长短期记忆子网络进行特征提取,得到第一声纹特征;将所述第一声纹特征输入至所述第二全连接子网络进行全连接处理,得到第二声纹特征;将所述第二声纹特征输入至池化子网络进行池化处理,得到样本声纹向量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
如此,在语音增强网络的输入数据中增加样本发声对象的样本声纹向量,使得语音增强网络在训练过程中,提高对样本发声对象的声音信息学习的注意力,让语音增强网络更专注于增强样本发声对象的声音,在去除干扰噪声之外,还能同时有效抑制干扰人声,从而,使得训练后的语音增强网络的对语音增强的质量和性能得到提升。
请参阅图10,其示出了本申请实施例提供的一种语音增强装置500的结构框图。该语音增强装置500包括:
向量获取模块510,用于获取目标发声对象的目标声纹向量;
语音增强模块520,用于将所述目标声纹向量和目标语音的音频特征输入至语音增强网络进行增强处理,得到针对所述目标发声对象的增强音频特征;所述语音增强网络是由上述实施例中的语音增强网络的训练装置400训练得到的;
语音重构模块530,用于对所述增强音频特征进行语音重构,得到所述目标语音对应的增强语音。
在一些实施例中,向量获取模块510可以具体用于对目标语音进行声纹特征提取,得到参考声纹向量;计算参考声纹向量与声纹向量集合中各声纹向量之间的声纹相似度;根据所述声纹相似度,从所述声纹向量集合中确定与所述参考声纹向量相似度最高,且与所述参考声纹向量的相似度超过相似度阈值的声纹向量,作为所述目标发声对象的目标声纹向量。
在一些实施例中,向量获取模块510还可以包括,语音获取单元,用于获取目标发声对象的注册语音;向量生成单元,用于对所述目标发声对象的注册语音进行声纹提取,得到所述目标发声对象的目标声纹向量。
在一些实施例中,向量生成单元可以具体用于: 对所述注册语音进行音质检测,得到所述注册语音的语音信噪比;若所述语音信噪比大于信噪比阈值,对所述注册语音进行时频转换,得到所述注册语音的频域特征;基于声纹提取网络对所述注册语音的频域特征进行声纹提取,得到所述目标发声对象的目标声纹向量。
在一些实施例中,向量获取模块510还可以具体用于若所述声纹向量集合中的指定声纹向量与所述参考声纹向量之间的相似度不超过所述相似度阈值,通过参考语音增强网络对所述目标语音进行语音增强,得到针对所述目标语音的参考增强音频特征;其中,所述参考语音增强网络是通过带噪语音和所述带噪语音对应的纯净语音进行训练得到的;所述指定声纹向量是指所述声纹向量集合中与所述参考声纹向量之间的相似度最高的声纹向量;对所述参考增强音频特征进行语音重构,得到所述目标语音对应的增强语音。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
如图11所示,本申请实施例还提供一种计算机设备600,该计算机设备600包括处理器610、存储器620、电源630和输入单元640,存储器620存储有计算机程序,计算机程序被处理器610调用时,可实执行上述实施例提供的各种方法步骤。本领域技术人员可以理解,图中示出的计算机设备的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器610可以包括一个或多个处理核。处理器610利用各种接口和线路连接整个电池管理系统内的各种部分,通过运行或执行存储在存储器620内的指令、程序、指令集或程序集,调用存储在存储器620内的数据,执行电池管理系统的各种功能和处理数据,以及执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体控制。可选地,处理器610可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器610(CentralProcessing Unit,CPU)、图像处理器610(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器610中,单独通过一块通信芯片进行实现。
存储器620可以包括随机存储器620(Random Access Memory,RAM),也可以包括只读存储器620(Read-Only Memory)。存储器620可用于存储指令、程序、指令集或程序集。存储器620可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各种方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本和音视频数据)等。相应地,存储器620还可以包括存储器控制器,以提供处理器610对存储器620的访问。
电源630可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源630还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
输入单元640,该输入单元640可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备600还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器610会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器620中,并由处理器610来运行存储在存储器620中的比如电话本和音视频数据,从而实现前述实施例提供的各种方法步骤。
如图12所示,本申请实施例还提供一种计算机可读存储介质700,该计算机可读存储介质700中存储有计算机程序910,计算机程序710可被处理器调用于执行本申请实施例提供的各种方法步骤。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质700具有执行上述实施例中任何方法步骤的计算机程序的存储空间。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序能够以适当形式进行压缩。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例提供的各种方法步骤。
以上,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭示如上,然而并非用以限定本申请,任何本领域技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (10)
1.一种语音增强方法,其特征在于,所述方法包括:
对目标语音进行声纹特征提取,得到参考声纹向量;
计算参考声纹向量与声纹向量集合中各声纹向量之间的声纹相似度;
根据所述声纹相似度,从所述声纹向量集合中确定与所述参考声纹向量相似度最高,且与所述参考声纹向量的相似度超过相似度阈值的声纹向量,作为目标发声对象的目标声纹向量;
将所述目标声纹向量和目标语音的音频特征输入至语音增强网络进行增强处理,得到针对所述目标发声对象的增强音频特征;
对所述增强音频特征进行语音重构,得到所述目标语音对应的增强语音;
若所述声纹向量集合中的指定声纹向量与所述参考声纹向量之间的相似度不超过所述相似度阈值,通过参考语音增强网络对所述目标语音进行语音增强,得到针对所述目标语音的参考增强音频特征;其中,所述参考语音增强网络是通过带噪语音和所述带噪语音对应的纯净语音进行训练得到的;所述指定声纹向量是指所述声纹向量集合中与所述参考声纹向量之间的相似度最高的声纹向量;
对所述参考增强音频特征进行语音重构,得到所述目标语音对应的增强语音。
2.根据权利要求1所述的方法,其特征在于,所述对目标语音进行声纹特征提取,得到参考声纹向量之前,所述方法还包括:
获取目标发声对象的注册语音;
对所述目标发声对象的注册语音进行声纹提取,得到所述目标发声对象的目标声纹向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标发声对象的注册语音进行声纹提取,得到所述目标发声对象的目标声纹向量,包括:
对所述注册语音进行音质检测,得到所述注册语音的语音信噪比;
若所述语音信噪比大于信噪比阈值,对所述注册语音进行时频转换,得到所述注册语音的频域特征;
基于声纹提取网络对所述注册语音的频域特征进行声纹提取,得到所述目标发声对象的目标声纹向量。
4.根据权利要求1所述的方法,其特征在于,所述语音增强网络通过如下步骤训练得到:
获取训练集,所述训练集包括多个训练样本,一训练样本包括样本参考语音、样本比对语音以及混合语音;所述混合语音是将干扰人声、环境噪声和所述样本比对语音进行混合得到的;其中,同一训练样本中的样本参考语音和样本比对语音来源于同一样本发声对象;
对所述样本参考语音进行声纹提取,得到样本声纹向量;
对所述混合语音进行音频特征提取,得到样本音频特征;
由语音增强网络基于所述样本声纹向量和所述样本音频特征进行增强处理,输出针对所述样本发声对象的预测音频特征;
根据所述预测音频特征和所述样本比对语音对应的比对音频特征,确定所述语音增强网络的目标损失;
基于所述目标损失,迭代更新所述语音增强网络的权重参数,直至达到训练结束条件。
5.根据权利要求4所述的方法,其特征在于,所述语音增强网络包括第一长短期记忆子网络和第一全连接子网络;
所述由语音增强网络基于所述样本声纹向量和所述样本音频特征进行增强处理,输出针对所述样本发声对象的预测音频特征,包括:
将所述样本声纹向量和所述样本音频特征输入至所述第一长短期记忆子网络进行特征提取,得到中间特征;
将所述中间特征输入至所述第一全连接子网络进行全连接处理,得到所述样本发声对象的预测音频特征。
6.根据权利要求4所述的方法,其特征在于,所述对所述样本参考语音进行声纹提取,得到样本声纹向量,包括:
对所述样本参考语音进行时频转换,得到所述样本参考语音的频域特征;
将所述样本参考语音的频域特征输入至声纹提取网络进行声纹提取,得到样本声纹向量。
7.根据权利要求6所述的方法,其特征在于,所述声纹提取网络包括第二长短期记忆子网络、第二全连接子网络和池化子网络;
所述将所述样本参考语音的频域特征输入至声纹提取网络进行声纹提取,得到样本声纹向量,包括:
将所述样本参考语音的频域特征输入至所述第二长短期记忆子网络进行特征提取,得到第一声纹特征;
将所述第一声纹特征输入至所述第二全连接子网络进行全连接处理,得到第二声纹特征;
将所述第二声纹特征输入至池化子网络进行池化处理,得到样本声纹向量。
8.一种语音增强装置,其特征在于,所述装置包括:
向量获取模块,用于对目标语音进行声纹特征提取,得到参考声纹向量;计算参考声纹向量与声纹向量集合中各声纹向量之间的声纹相似度;根据所述声纹相似度,从所述声纹向量集合中确定与所述参考声纹向量相似度最高,且与所述参考声纹向量的相似度超过相似度阈值的声纹向量,作为目标发声对象的目标声纹向量;若所述声纹向量集合中的指定声纹向量与所述参考声纹向量之间的相似度不超过所述相似度阈值,通过参考语音增强网络对所述目标语音进行语音增强,得到针对所述目标语音的参考增强音频特征;其中,所述参考语音增强网络是通过带噪语音和所述带噪语音对应的纯净语音进行训练得到的;所述指定声纹向量是指所述声纹向量集合中与所述参考声纹向量之间的相似度最高的声纹向量;对所述参考增强音频特征进行语音重构,得到所述目标语音对应的增强语音;
语音增强模块,用于将所述目标声纹向量和目标语音的音频特征输入至语音增强网络进行增强处理,得到针对所述目标发声对象的增强音频特征;
语音重构模块,用于对所述增强音频特征进行语音重构,得到所述目标语音对应的增强语音。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码被处理器调用执行如权利要求1至7任一项所述的方法。
10.一种计算机设备,其特征在于,包括:
存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310999362.5A CN116741193B (zh) | 2023-08-09 | 2023-08-09 | 语音增强网络的训练方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310999362.5A CN116741193B (zh) | 2023-08-09 | 2023-08-09 | 语音增强网络的训练方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116741193A CN116741193A (zh) | 2023-09-12 |
CN116741193B true CN116741193B (zh) | 2023-11-14 |
Family
ID=87917179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310999362.5A Active CN116741193B (zh) | 2023-08-09 | 2023-08-09 | 语音增强网络的训练方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741193B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176243A (zh) * | 2018-08-10 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN110364178A (zh) * | 2019-07-22 | 2019-10-22 | 出门问问(苏州)信息科技有限公司 | 一种语音处理方法、装置、存储介质和电子设备 |
CN114255782A (zh) * | 2021-12-21 | 2022-03-29 | 思必驰科技股份有限公司 | 说话人语音增强方法、电子设备和存储介质 |
CN115240702A (zh) * | 2022-07-15 | 2022-10-25 | 西安电子科技大学 | 基于声纹特征的语音分离方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107483445A (zh) * | 2017-08-23 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种静默声纹识别注册方法、装置、服务器和存储介质 |
CN115862658A (zh) * | 2021-09-24 | 2023-03-28 | 祖玛视频通讯公司 | 提取目标说话者语音的系统和方法 |
-
2023
- 2023-08-09 CN CN202310999362.5A patent/CN116741193B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176243A (zh) * | 2018-08-10 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN110364178A (zh) * | 2019-07-22 | 2019-10-22 | 出门问问(苏州)信息科技有限公司 | 一种语音处理方法、装置、存储介质和电子设备 |
CN114255782A (zh) * | 2021-12-21 | 2022-03-29 | 思必驰科技股份有限公司 | 说话人语音增强方法、电子设备和存储介质 |
CN115240702A (zh) * | 2022-07-15 | 2022-10-25 | 西安电子科技大学 | 基于声纹特征的语音分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116741193A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US20220230651A1 (en) | Voice signal dereverberation processing method and apparatus, computer device and storage medium | |
CN110457457B (zh) | 对话生成模型的训练方法、对话生成方法及装置 | |
WO2021139327A1 (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
Xiang et al. | A parallel-data-free speech enhancement method using multi-objective learning cycle-consistent generative adversarial network | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
WO2014114049A1 (zh) | 一种语音识别的方法、装置 | |
WO2014114048A1 (zh) | 一种语音识别的方法、装置 | |
CN112102846B (zh) | 音频处理方法、装置、电子设备以及存储介质 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN111951823A (zh) | 一种音频处理方法、装置、设备及介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
US20230317096A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN113571078B (zh) | 噪声抑制方法、装置、介质以及电子设备 | |
WO2023216760A1 (zh) | 语音处理方法、装置、存储介质、计算机设备及程序产品 | |
CN114333893A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN113571080A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN112259114A (zh) | 语音处理方法及装置、计算机存储介质、电子设备 | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN115083440A (zh) | 音频信号降噪方法、电子设备和存储介质 | |
CN111698232B (zh) | 数据处理方法、装置、计算机设备以及存储介质 | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40092286 Country of ref document: HK |