CN112201262B - 一种声音处理方法及装置 - Google Patents
一种声音处理方法及装置 Download PDFInfo
- Publication number
- CN112201262B CN112201262B CN202011059464.1A CN202011059464A CN112201262B CN 112201262 B CN112201262 B CN 112201262B CN 202011059464 A CN202011059464 A CN 202011059464A CN 112201262 B CN112201262 B CN 112201262B
- Authority
- CN
- China
- Prior art keywords
- sound
- voice
- deep learning
- target
- sound processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 96
- 230000005236 sound signal Effects 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 51
- 238000013136 deep learning model Methods 0.000 claims abstract description 31
- 238000013135 deep learning Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 239000000654 additive Substances 0.000 claims description 5
- 230000000996 additive effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000004088 simulation Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 12
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种声音处理方法及装置,解决了目前市面上非专业声音处理设备功能简单、处理效果单一,且处理时间过长的问题。所述声音处理方法包括:采集初始声音信号,将所述初始声音信号分离出进行声音处理的部分;将所述声音处理的部分输入深度学习模型,对所述声音处理的部分卷积混响函数得到美化后的声音信号;将所述美化后的声音信号转换成音频并输出。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种声音处理方法及装置。
背景技术
随着娱乐行业的快速发展和普及,许多娱乐方式已经成为大众触手可及的休闲活动,例如手机KTV,网络直播,视频记录生活的行为等等。同时伴随着自媒体的成熟,大众对这类娱乐方式的质量要求也越来越高,例如在手机上录制歌曲,直播,拍摄短视频的同时对声音的质量有着高要求。这个要求不仅包括一定的语音增强、噪声抑制的效果,还需要适度添加混响对声音进行美化。因此,语音信号处理的过程就变得尤为重要。语音信号处理是指对原始语音进行处理,消除部分噪声和他人说话带来的影响,语音信号处理中的语音增强的主要任务就是消除环境噪声对语音的影响,混响添加是麦克风、声卡等声音处理设备对声音进行美化的常用方法。
市面上专业的麦克风、声卡等设备操作复杂,上手难度大。定制化的声音处理设备可以根据客户需求制定一套处理方案,但价格过高,不适用于大多数的用户。简单的声音处理设备虽然价格亲民,但功能和处理效果单一,一般只能提供几种固定的混响程度,不适用于多种音色和场合,还同时存在处理后的声音相似度大,丢失个人特色的问题,这主要是由于没有像专业设备一样,考虑到不同音色需要的处理方法应该有所变化的原因。语音增强则包含了多种不同的算法,包括回声消除,声源定位,噪声消除等,每个算法对于不同的场景要做不同的处理,再将各个算法组合,算法难度大,处理时间长。
发明内容
有鉴于此,本发明实施例提供了一种声音处理方法及装置,解决了目前市面上非专业声音处理设备功能简单、处理效果单一,且处理时间过长的问题。
本发明一实施例提供的一种声音处理方法及装置包括:采集初始声音信号,将所述初始声音信号分离出进行声音处理的部分;将所述声音处理的部分输入深度学习模型,对所述声音处理的部分卷积混响函数得到美化后的声音信号;将所述美化后的声音信号转换成音频并输出。
在一种实施方式中,所述混响函数由所述初始声音信号决定。
在一种实施方式中,在采集初始声音信号,将所述初始声音信号分离出进行声音处理的部分之前,还包括获得深度学习的模型,包括:建立深度学习数据;基于所述深度学习数据对所述深度学习模型进行训练。
在一种实施方式中,准备深度学习数据包括:采集纯净目标语音;基于所述纯净目标语言得到混响目标语音,且基于所述混响目标语音得到噪声目标语音。
在一种实施方式中,基于所述纯净目标语音得到混响目标语音,且基于所述混响目标语音得到噪声目标语音的公式包括:y(m)=sd*h(m)+n(m),其中,sd为目标语音,*为卷积操作,h(m)为房间冲击函数,n(m)为加性噪声。
在一种实施方式中,基于所述深度学习数据对所述深度学习模型进行训练,包括:对所述深度学习数据提取特征向量得到深度学习的输入数据;区分所述输入数据中的目标语音和非目标语音;对所述目标语音和所述非目标语音进行端到端的训练。
在一种实施方式中,对所述深度学习数据提取特征向量得到深度学习的输入数据包括:对所述深度学习数据采用梅尔倒谱系数算法或线性预测分析中的一种提取特征向量。
在一种实施方式中,区分所述输入数据中的目标语音,包括:使用softmax激活函数和对数似然损失函数区分所述输入数据中的目标语音和非目标语音。
在一种实施方式中,对所述目标语音进行端到端的训练包括:以Mapping-basedtarget训练对所述目标语音和所述非目标语音进行端到端的训练。
在一种实施方式中,对所述目标语音进行端到端的训练的公式包括:
其中为目标语音,/>为非目标语音,Y(t)是真实的声音信号,*为卷积操作,h(m)′为房间冲击函数,/>为异或运算符号。
一种声音处理装置,包括:声音采集设备,作用为采集初始声音信号;语音信号处理模块,作用为将所述初始声音信号分离出进行声音处理的部分,将所述声音处理的部分输入深度学习模型,对所述声音处理的部分卷积混响函数得到美化后的声音信号;输出模块,作用为将所述美化后的声音信号转换成音频并输出。
在一种实施方式中,所述语音信号处理模块的作用还包括:建立深度学习数据;基于所述深度学习数据对所述深度学习模型进行训练。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如权利要求任一所述的声音处理方法。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求任一所述的声音处理方法。
本发明实施例提供的一种声音处理方法及装置,所述声音处理方法包括:采集初始声音信号,将所述初始声音信号分离出进行声音处理的部分;将所述声音处理的部分输入深度学习模型,对所述声音处理的部分卷积混响函数得到美化后的声音信号;将所述美化后的声音信号转换成音频并输出。通过对初始声音信号过滤出噪声得到声音处理部分,然后居于深度学习模型对声音处理部分卷积混响函数得到美化后的声音信号,具有增强声音处理部分的作用,使输出的音频中的噪声小、用户声音清晰且好听,采用此声音处理方法操作简单、功能性强,处理效果多种多样,且成本低,能够满足不同用户的需求。
附图说明
图1所示为本发明一实施例提供的一种声音处理方法的流程图。
图2所示为本发明一实施例提供的一种深度学习模型训练的流程图。
图3所示为本发明一实施例提供的一种声音处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一实施例中,如图1所示,该声音处理方法,包括:
步骤01:采集初始声音信号,将初始声音信号分离出进行声音处理的部分。初始声音信号可以是用户自行录制的一段声音,例如:可以是用户在室外的场景下使用非专业设备进行录制的声音,该声音的音频会有风声,或者街道上车辆行驶的噪声等,且包括用户自行录制的人声语音,将初始声音信号中用户自行录制的人声语音分离出来作为声音处理的部分。
步骤02:将声音处理的部分输入深度学习模型,对声音处理的部分卷积混响函数得到美化后的声音信号。将步骤01中声音处理的部分作为深度学习的输入,将声音处理的部分输入深度学习的模型,对声音处理的部分卷积混响函数,从而得到美化后的声音信号。其中,混响函数由初始声音信号决定,由于不同的用户的音色不同,所以分离出的声音处理的部分是不同的,深度学习模型会根据用户的音色添加不同的混响函数,从而做出不同声音美化处理。例如:用户在室外的场景下使用非专业设备进行录制的声音,该声音的音频会有风声,或者街道上车辆行驶的噪声等,且包括用户自行录制的人声语音,将初始声音信号中用户自行录制的人声语音分离出来作为声音处理的部分,并根据声音处理部分中的用户的音色(可以是尖锐的、低沉的、清亮的和沙哑的等)做出不同的声音美化处理效果,进而得到美化后的声音信号。
步骤03:将美化后的声音信号转换成音频并输出。美化后的声音信号转换成的音频,具有增强声音处理部分的作用,使输出的音频中的噪声小、用户声音清晰且好听。采用此声音处理方法操作简单、功能性强,处理效果多种多样,能够满足不同用户的需求。
本发明实施例所述声音处理方法通过对初始声音信号过滤出噪声得到声音处理部分,然后居于深度学习模型对声音处理部分卷积混响函数得到美化后的声音信号,具有增强声音处理部分的作用,使输出的音频中的噪声小、用户声音清晰且好听,采用此声音处理方法操作简单、功能性强,处理效果多种多样,且成本低,能够满足不同用户的需求。
本发明一实施例中,如图2所示,在采集初始声音信号,将初始声音信号分离出进行声音处理的部分之前,还包括获得深度学习的模型,具体步骤参考如下:
步骤04:建立深度学习数据。深度学习数据包括准备用于深度学习所需要的数据。建立该深度学习数据首先需要采集纯净目标语音,纯净目标语音包括在安静的环境下进行的声音录制,例如:可以是无音乐的唱歌的声音、单人聊天的声音或者室外单人说话声音等等。基于纯净目标语音得到混响目标语音,且基于混响目标语音得到噪声目标语音。基于纯净目标语音得到混响目标语音包括给纯净目标语音卷积上适合的房间冲击函数以达到声音美化的目的,不同的纯净目标语音美化时选择不同的房间冲击函数,对房间冲击函数的选择需要考虑噪声环境和使用场景,其选择的标准包括当纯净目标语音卷积上被选择的房间冲激函数,可以达到当前噪声环境下的用户需求,例如:室内唱歌时需要声音混响足够,室外录音时需要声音清晰等。基于混响目标语音得到噪声目标语音包括:随机选用多种环境噪声与卷积房间冲击函数后的纯净目标语音音频数据混合模拟制作成在噪声环境下的声音录制场景,混合后的音频数据为噪声目标语音。将不同环境下的噪声目标语音进行分类,将噪声目标语音数据以一定的比例随机分配给训练集和测试集,比例可以为7:3或8:2等等,本发明对比例的分配不做限定。基于纯净目标语音得到混响目标语音,且基于混响目标语音得到噪声目标语音的公式包括:
y(m)=sd*h(m)+n(m);
其中,sd为目标语音,*为卷积操作,h(m)为房间冲击函数,n(m)为加性噪声。
深度学习数据是深度学习的原料,面对不同的场景和需求,所需要的数据也是不同的,合适的数据对于深度学习结果的影响是十分重要的。
步骤05:基于深度学习数据对深度学习模型进行训练,可选地,基于深度学习数据对深度学习模型进行训练包括:对深度学习数据提取特征向量得到深度学习的输入数据;区分所述输入数据中的目标语音和非目标语音;对所述目标语音和非目标语音进行端到端的训练。对深度学习数据采用梅尔倒谱系数算法或线性预测分析中的一种进行提取特征向量。可以使用softmax激活函数和对数似然损失函数区分输入数据中的目标语音和非目标语音。Softmax包括对于神经网络中隐藏层输出的一个转换公式,对数似然损失函数包括后续梯度下降或批梯度下降迭代参数时的判断标准。以Mapping-based targets训练对目标语音进行端到端的训练,对目标语音进行端到端的训练的公式包括:
其中为目标语音,/>为非目标语音,Y(t)是真实的声音信号,*为卷积操作,h(m)′为房间冲击函数,/>为异或运算符号。
现有的数据处理系统或者学习系统,需要多个阶段进行处理。那么端到端深度学习就是忽略所有这些不同的阶段,用单个神经网络代替它。以语音识别为例,目标是输入x,比如说一段音频,然后把它映射到一个输出y,就是这段音频的听写抄本,所以和现有的很多阶段的流水线相比,端到端深度学习做的是,训练一个巨大的神经网络,输入就是一段音频,输出直接是听写文本。事实证明,当你拥有非常大的数据集时,比如10,000小时数据或者100,000小时数据,这样端到端方法功能就变得强大了,端到端的训练方式可以使整个训练流程变得更简单,将语音分离得到的结果直接作用于声音美化。真实的声音信号在声学领域的表达是目标声音,干扰声,噪声以及混响的和,其数学表达为纯净目标语音卷积上房间冲激函数再加上加性噪声,这是模拟出来的声音,也就是深度学习的输入,而目标语音是纯净的人声,非目标语音是真实的声音减去目标语音,深度学习的输出是加混响的目标语音,非目标语音是中间需要被分离出来的步骤。
通过本实施例中所述的建立深度学习模型的方法,与现有技术相比,不需要将多个算法进行组合,可以简化算法的复杂度,缩短声音处理的时间。
本发明一实施例中,该声音处理装置包括声音采集设备10、语音信号处理模块20和输出模块30。其中声音采集设备10作用为采集初始声音信号;语音信号处理模块20作用为将初始声音信号分离出进行声音处理的部分,将声音处理的部分输入深度学习模型,对声音处理的部分卷积混响函数得到美化后的声音信号;输出模块30作用为将美化后的声音信号转换成音频并输出。声音处理装置可以包括语音板,语音板上包括声音采集接口,该声音采集接口可以和声音采集设备10相连,声音采集设备10可以为麦克风,声音采集设备10采集到用户声音传到语音板上转换成初始声音信号,然后语音板将初始声音信号发送给语音信号处理模块20,语音信号处理模块20上集成有特征提取算法和深度学习模型,语音信号处理模块20接收到初始声音信号后,对初识声音信号进行体征提取算法分离出进行声音处理的部分,然后将声音处理的部分输入深度学习模型,进行声音美化处理。输出模块30作用为将美化后的声音信号通过信号转音频接口40转换成音频并输出。美化完成的声音信号通过接口输出到输出模块30,该输出模块30可以直接将语音信号转换成音频进行输出,也可以添加其他音频处理模块50进行更进一步的处理,然后通过扬声器60进行播放。
本发明一实施例中,如图3所示,语音信号处理模块20的作用还包括建立深度学习模型,可选地,建立深度学习模型的步骤可以包括:建立深度学习数据;基于深度学习数据对深度学习模型进行训练。建立深度学习数据包括:声音采集设备10采集到纯净的目标语音后发送给语音信号处理模块20,语音信号处理模块20对纯净目标语言卷积房间冲击函数得到混响目标语音,然后语音信号处理模块20对混响目标语音添加加性噪声得到噪声目标语音,具体公式包括y(m)=sd*h(m)+n(m),其中,sd为目标语音,*为卷积操作,h(m)为房间冲击函数,n(m)为加性噪声。基于深度学习数据对深度学习模型进行训练包括:语音信号处理对深度学习数据提取特征向量得到深度学习的输入数据,可以采用梅尔倒谱系数算法或线性预测分析中的一种提取特征向量;语音信号处理模块20上集成的深度学习模型区分输入数据中的目标语音,可以使用softmax的激活函数和对数似然损失函数区分所述输入数据中的目标语音;语音信号处理模块20上集成的深度学习模型对目标语音进行端到端的训练,可以采用Mapping-based targets训练对目标语音进行端到端的训练,公式包括:
其中为目标语音,/>为非目标语音,Y(t)是真实的声音信号,*为卷积操作,h(m)′为房间冲击函数,/>为异或运算符号。
采用本发明中的声音处理装置对声音进行处理,可以在不使用专业设备的前提下根据客户的需求进行声音处理,功能多样,处理效果丰富,消除噪音且设备成本低,从而满足不同用户的需求。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。
本实施例中一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述实施例中的声音处理方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种声音处理方法,其特征在于,包括:
步骤一:采集非专业设备获取的初始声音信号,将所述初始声音信号分离出进行声音处理的部分,其中,进行声音处理的部分为将所述初始声音信号中用户自行录制的人声语音分离出来作为声音处理的部分;
步骤二:将所述声音处理的部分输入深度学习模型,对所述声音处理的部分卷积混响函数得到美化后的声音信号,其中深度学习模型会根据不同用户的音色添加不同的混响函数,以做出不同声音美化处理,其中,所述深度学习模型的建立过程如下:(1)建立深度学习数据,其包括:a.采集纯净目标语音,其中所述纯净目标语音为在安静的环境下进行的声音录制,所述纯净目标语音包括无音乐的唱歌的声音、单人聊天的声音和室外单人说话声音;b.给纯净目标语音卷积上房间冲击函数得到混响目标语音,其中,不同的纯净目标语音卷积时选择不同的房间冲击函数,c.随机选用多种环境噪声和所述混响目标语音进行混合模拟制作得到噪声目标语音,其中,将不同环境下的噪声目标语音进行分类,将噪声目标语音数据以预设比例随机分配给训练集和测试集,基于混响目标语音得到噪声目标语音的公式包括:
y(m)=sd*h(m)+n(m);
其中,sd为目标语音,*为卷积操作,h(m)为房间冲击函数,n(m)为加性噪声;
(2)基于训练集和测试集的所述深度学习数据对所述深度学习模型进行训练得到所述深度学习模型,其包括:a.对训练集和测试集的深度学习数据提取特征向量得到深度学习的输入数据;b.区分所述输入数据中的目标语音和非目标语音;对所述目标语音和非目标语音进行端到端的训练,其中,以Mapping-based targets训练对目标语音进行端到端的训练,对目标语音进行端到端的训练的公式包括:
其中为目标语音,/>为非目标语音,Y(t)是真实的声音信号,*为卷积操作,h(m)′为房间冲击函数,/>为异或运算符号;
步骤三:将所述美化后的声音信号转换成音频并输出。
2.根据权利要求1所述的声音处理方法,其特征在于,所述混响函数由所述初始声音信号决定。
3.根据权利要求1所述的声音处理方法,其特征在于,对所述深度学习数据采用梅尔倒谱系数算法或线性预测分析中的一种提取特征向量。
4.根据权利要求1所述的声音处理方法,其特征在于,区分所述输入数据中的目标语音和非目标语音,包括:使用softmax激活函数和对数似然损失函数区分所述输入数据中的目标语音。
5.一种声音处理装置,其特征在于,用于实现如权利要求1所述的声音处理方法,所述声音处理装置包括:
声音采集设备,作用为采集初始声音信号;
语音信号处理模块,作用为将所述初始声音信号分离出进行声音处理的部分,将所述声音处理的部分输入深度学习模型,对所述声音处理的部分卷积混响函数得到美化后的声音信号;
输出模块,作用为将所述美化后的声音信号转换成音频并输出。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如权利要求1-4任一所述的声音处理方法。
7.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-4任一所述的声音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011059464.1A CN112201262B (zh) | 2020-09-30 | 2020-09-30 | 一种声音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011059464.1A CN112201262B (zh) | 2020-09-30 | 2020-09-30 | 一种声音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112201262A CN112201262A (zh) | 2021-01-08 |
CN112201262B true CN112201262B (zh) | 2024-05-31 |
Family
ID=74007237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011059464.1A Active CN112201262B (zh) | 2020-09-30 | 2020-09-30 | 一种声音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201262B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN113035176B (zh) * | 2021-03-09 | 2023-03-10 | 北京声智科技有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN114666706B (zh) * | 2021-11-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100774A (ja) * | 1999-09-28 | 2001-04-13 | Takayuki Arai | 音声処理装置 |
CN105957536A (zh) * | 2016-04-25 | 2016-09-21 | 南京奇音石信息技术有限公司 | 基于通道聚合度频域回声消除方法 |
JP2017097160A (ja) * | 2015-11-24 | 2017-06-01 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
CN107507625A (zh) * | 2016-06-14 | 2017-12-22 | 讯飞智元信息科技有限公司 | 声源距离确定方法及装置 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN109523999A (zh) * | 2018-12-26 | 2019-03-26 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN109686347A (zh) * | 2018-11-30 | 2019-04-26 | 北京达佳互联信息技术有限公司 | 音效处理方法、音效处理装置、电子设备和可读介质 |
CN110136745A (zh) * | 2019-05-08 | 2019-08-16 | 西北工业大学 | 一种基于卷积神经网络的汽车鸣笛识别方法 |
CN110660403A (zh) * | 2018-06-28 | 2020-01-07 | 北京搜狗科技发展有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN110767215A (zh) * | 2019-08-01 | 2020-02-07 | 北京嘀嘀无限科技发展有限公司 | 一种训练语音识别模型、识别语音的方法及装置 |
CN111429927A (zh) * | 2020-03-11 | 2020-07-17 | 云知声智能科技股份有限公司 | 提升个性化合成语音质量的方法 |
-
2020
- 2020-09-30 CN CN202011059464.1A patent/CN112201262B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100774A (ja) * | 1999-09-28 | 2001-04-13 | Takayuki Arai | 音声処理装置 |
JP2017097160A (ja) * | 2015-11-24 | 2017-06-01 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
CN105957536A (zh) * | 2016-04-25 | 2016-09-21 | 南京奇音石信息技术有限公司 | 基于通道聚合度频域回声消除方法 |
CN107507625A (zh) * | 2016-06-14 | 2017-12-22 | 讯飞智元信息科技有限公司 | 声源距离确定方法及装置 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN110660403A (zh) * | 2018-06-28 | 2020-01-07 | 北京搜狗科技发展有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN109686347A (zh) * | 2018-11-30 | 2019-04-26 | 北京达佳互联信息技术有限公司 | 音效处理方法、音效处理装置、电子设备和可读介质 |
CN109523999A (zh) * | 2018-12-26 | 2019-03-26 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN110136745A (zh) * | 2019-05-08 | 2019-08-16 | 西北工业大学 | 一种基于卷积神经网络的汽车鸣笛识别方法 |
CN110767215A (zh) * | 2019-08-01 | 2020-02-07 | 北京嘀嘀无限科技发展有限公司 | 一种训练语音识别模型、识别语音的方法及装置 |
CN111429927A (zh) * | 2020-03-11 | 2020-07-17 | 云知声智能科技股份有限公司 | 提升个性化合成语音质量的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112201262A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112201262B (zh) | 一种声音处理方法及装置 | |
Tomilov et al. | STC antispoofing systems for the ASVspoof2021 challenge | |
Gabbay et al. | Seeing through noise: Visually driven speaker separation and enhancement | |
CN112289333B (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
CN108877823B (zh) | 语音增强方法和装置 | |
JP2019216408A (ja) | 情報を出力するための方法、及び装置 | |
CN111128214B (zh) | 音频降噪方法、装置、电子设备及介质 | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
US8140329B2 (en) | Method and apparatus for automatically recognizing audio data | |
CN105405439A (zh) | 语音播放方法及装置 | |
JP2001051689A (ja) | 信号の混合物からの特徴抽出方法およびその装置 | |
EP3723088A1 (en) | Audio contribution identification system and method | |
Gabbay et al. | Seeing through noise: Speaker separation and enhancement using visually-derived speech | |
CN109584904A (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
CN114758668A (zh) | 语音增强模型的训练方法和语音增强方法 | |
Schuller | Affective speaker state analysis in the presence of reverberation | |
Copiaco et al. | Identifying optimal features for multi-channel acoustic scene classification | |
CN111477244B (zh) | 一种面向用户的自定义体育赛事解说增强方法 | |
US20230260527A1 (en) | Audio data processing method and apparatus, device, and medium | |
Lin et al. | Focus on the sound around you: Monaural target speaker extraction via distance and speaker information | |
Borsos et al. | Micaugment: One-shot microphone style transfer | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
CN110049409B (zh) | 用于全息影像的动态立体声调节方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |