CN117079661A - 一种声源处理方法及相关装置 - Google Patents
一种声源处理方法及相关装置 Download PDFInfo
- Publication number
- CN117079661A CN117079661A CN202311059317.8A CN202311059317A CN117079661A CN 117079661 A CN117079661 A CN 117079661A CN 202311059317 A CN202311059317 A CN 202311059317A CN 117079661 A CN117079661 A CN 117079661A
- Authority
- CN
- China
- Prior art keywords
- signal
- sound source
- sound
- signals
- source signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 115
- 230000005236 sound signal Effects 0.000 claims abstract description 67
- 238000001228 spectrum Methods 0.000 claims description 113
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000009499 grossing Methods 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 claims description 6
- 229940083712 aldosterone antagonist Drugs 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 38
- 230000008569 process Effects 0.000 abstract description 22
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 230000006854 communication Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 20
- 230000002238 attenuated effect Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 208000013407 communication difficulty Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- YJQZYXCXBBCEAQ-UHFFFAOYSA-N ractopamine Chemical compound C=1C=C(O)C=CC=1C(O)CNC(C)CCC1=CC=C(O)C=C1 YJQZYXCXBBCEAQ-UHFFFAOYSA-N 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种声源处理方法及相关装置,可应用于人工智能、云技术等领域中的语音识别、语音合成等音频处理技术领域。其方法包括:获取多路声源信号;将多路声源信号划分为第一声源信号和第二声源信号,第一声源信号的能量参数大于第二声源信号的能量参数;对第一声源信号和第二声源信号分号进行混音处理,得到第一混音信号和第二混音信号;根据第一混音信号和第二混音信号的信号能量,确定第二混音信号的衰减参数;基于衰减参数对第二混音信号进行衰减处理,得到衰减信号;对第一混音信号和衰减信号进行混音处理,得到目标混音信号。通过对第二混音信号进行衰减处理,以便于在声源数量较多的情况下,收听者能聚焦于第一声源信号的收听。
Description
技术领域
本申请涉及音频处理技术领域,尤其涉及一种声源处理方法及相关装置。
背景技术
在多人音视频会议、多人音视频通话、多人游戏语音等场景中,用户终端需要将来自不同终端采集到的多路声音信号通过混音处理得到一路声音信号并通过耳机、音响的扬声器传递给用户。
现有的混音处理方案多都是采用加权平均的方式进行混音处理,主要从“混音防溢出处理”和“音量调节合理性”两个因素考虑权重的分配,而没有考虑人耳辨识能力的上限,当声源数量较多时,多路声源同时传递到收听者处,造成收听者对声源的辨识能力下降。
发明内容
本申请实施例提供了一种声源处理方法以及相关装置,通过将多路声源划分为主声源和次声源,并对次声源进行衰减处理,以便于在声源数量较多的情况下,收听者能聚焦于关键声源的收听。
本申请第一方面提供一种声源处理方法,包括:
获取N路声源信号,其中N为大于1的整数;
将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,所述第一声源信号的能量参数大于所述第二声源信号的能量参数,所述能量参数包括信噪比、信号能量、声源音量中的至少一种;
对所述M路第一声源信号进行混音处理,得到第一混音信号,对所述N-M路第二声源信号进行混音处理,得到第二混音信号;
根据所述第一混音信号和所述第二混音信号的信号能量,确定所述第二混音信号的衰减参数;
基于所述衰减参数对所述第二混音信号进行衰减处理,得到衰减信号;
对所述第一混音信号和所述衰减信号进行混音处理,得到目标混音信号。
在一种可能的实现方法中,所述根据所述第一混音信号和所述第二混音信号的信号能量,确定所述第二混音信号的衰减参数,包括:
根据所述第一混音信号的第一信号能量,计算所述第一混音信号的能量跟踪值,得到第一跟踪值,其中,所述能量跟踪值表示信号能量相对于时间的变化量;
根据所述第二混音信号的第二信号能量,计算所述第二混音信号的能量跟踪值,得到第二跟踪值;
根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数。
在一种可能的实现方法中,计算所述能量跟踪值,包括:
对混音信号进行分帧处理和加窗处理,得到混音序列,所述混音信号包括所述第一混音信号和所述第二混音信号;
计算所述混音序列内每一帧的信号能量值;
根据所述每一帧的信号能量值,进行平滑处理和递归计算,得到每一帧的能量跟踪值。
在一种可能的实现方法中,所述根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数,包括:
计算所述第一跟踪值和所述第二跟踪值的比值,得到跟踪比;
若所述跟踪比小于第一预设阈值,则将所述衰减参数确定为所述跟踪比和所述第一预设阈值的比值的平方根;
若所述跟踪比不小于所述第一预设阈值,则将所述衰减参数确定为1。
在一种可能的实现方法中,所述根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数,包括:
计算所述第一跟踪值与所述第二跟踪值的差值,得到跟踪差;
将所述衰减参数确定为所述跟踪差与所述第一跟踪值的比值。
在一种可能的实现方法中,在所述获取N路声源信号之后,还包括:
分别计算所述N路声源信号对应的信噪比;
所述将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,包括:
将所述信噪比不小于第二预设阈值的M路声源信号确定为所述第一声源信号;
将除所述第一声源信号以外的N-M路声源信号确定为所述第二声源信号。
在一种可能的实现方法中,所述将所述信噪比不小于第二预设阈值的M路声源信号确定为所述第一声源信号,包括:
根据所述N路声源信号对应的信噪比,得到满足所述信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;
分别计算所述P个高信噪比信号的信号能量;
将所述信号能量最高的前M个所述高信噪比信号确定为所述第一声源信号。
在一种可能的实现方法中,所述计算所述N路声源信号对应的信噪比,包括:
基于频域分析计算N路声源信号对应的信噪比。
在一种可能的实现方法中,所述基于频域分析计算N路声源信号对应的信噪比,包括:
将所述声源信号基于频域分解为多个子带;
计算每个所述子带内的子带信号功率谱的总和,得到信号总功率谱;
计算每个所述子带内的子带噪声功率谱的总和,得到噪声总功率谱;
根据所述信号总功率谱与所述噪声总功率谱的比值,确定所述信噪比。
在一种可能的实现方法中,所述子带噪声功率谱由最小控制递归平均MCRA算法计算得到;
所述计算每个所述子带内的子带噪声功率谱的总和,得到噪声总功率谱,包括:
获取在一个所述子带范围内的信号功率谱的最小值,得到最小子带信号功率谱;
分别计算每个所述子带内的子带信号功率谱与所述最小子带信号功率谱的比值,得到每个所述子带内的语言存在概率;
在每个所述子带内,根据所述子带信号功率谱和所述语音存在概率,计算子带噪声功率谱;
将每个所述子带内的所述子带噪声功率谱的总和,确定为所述噪声总功率谱。
在一种可能的实现方法中,
所述在将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号之后,还包括:
对M路所述第一声源信号进行语音识别,得到对应的M个识别结果;
基于所述M个识别结果,对所述M路第一声源信号进行对应的降噪处理。
在一种可能的实现方法中,所述将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,包括:
将声源音量不小于第三预设阈值的M路声源信号确定为所述第一声源信号;
将除所述第一声源信号以外的N-M路声源信号确定为所述第二声源信号。
本申请第二方面提供一种声源处理装置,包括:
获取模块,用于获取N路声源信号,其中N为大于1的整数;
划分模块,用于将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,所述第一声源信号的能量参数大于所述第二声源信号的能量参数,所述能量参数包括信噪比、信号能量、声源音量中的至少一种;
第一混音模块,用于对所述M路第一声源信号进行混音处理,得到第一混音信号,对所述N-M路第二声源信号进行混音处理,得到第二混音信号;
计算模块,用于根据所述第一混音信号和所述第二混音信号的信号能量,确定所述第二混音信号的衰减参数;
衰减模块,用于基于所述衰减参数对所述第二混音信号进行衰减处理,得到衰减信号;
第二混音模块,用于对所述第一混音信号和所述衰减信号进行混音处理,得到目标混音信号。
在一种可能的实现方法中,所述计算模块,具体包括:
跟踪子模块,用于根据所述第一混音信号的第一信号能量,计算所述第一混音信号的能量跟踪值,得到第一跟踪值,其中,所述能量跟踪值表示信号能量相对于时间的变化量;根据所述第二混音信号的第二信号能量,计算所述第二混音信号的能量跟踪值,得到第二跟踪值;
计算子模块,用于根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数。
在一种可能的实现方法中,所述跟踪子模块,具体用于对混音信号进行分帧处理和加窗处理,得到混音序列,所述混音信号包括所述第一混音信号和所述第二混音信号;计算混音序列内每一帧的信号能量值;根据所述每一帧的信号能量值,进行平滑处理和递归计算,得到每一帧的能量跟踪值。
在一种可能的实现方法中,所述计算子模块,具体用于计算所述第一跟踪值和所述第二跟踪值的比值,得到跟踪比;
若所述跟踪比小于第一预设阈值,则将所述衰减参数确定为所述跟踪比和所述第一预设阈值的比值的平方根;
若所述跟踪比不小于所述第一预设阈值,则将所述衰减参数确定为1。
在一种可能的实现方法中,计算子模块,具体用于计算所述第一跟踪值与所述第二跟踪值的差值,得到跟踪差;
将所述衰减参数确定为所述跟踪差与所述第一跟踪值的比值。
在一种可能的实现方法中,还包括:
信噪比计算模块,用于分别计算所述N路声源信号对应的信噪比;
划分模块,具体用于将所述信噪比不小于第二预设阈值的M路声源信号确定为所述第一声源信号;将除所述第一声源信号以外的N-M路声源信号确定为所述第二声源信号。
在一种可能的实现方法中,划分模块,具体用于根据所述N路声源信号对应的信噪比,得到满足所述信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;分别计算所述P个高信噪比信号的信号能量;将所述信号能量最高的前M个所述高信噪比信号确定为所述第一声源信号。
在一种可能的实现方法中,信噪比计算模块,具体用于基于频域分析计算N路声源信号对应的信噪比。
在一种可能的实现方法中,所述基于频域分析计算N路声源信号对应的信噪比,包括:
将所述声源信号基于频域分解为多个子带;
计算每个所述子带内的子带信号功率谱的总和,得到信号总功率谱;
计算每个所述子带内的子带噪声功率谱的总和,得到噪声总功率谱;
根据所述信号总功率谱与所述噪声总功率谱的比值,确定所述信噪比。
在一种可能的实现方法中,所述子带噪声功率谱由最小控制递归平均MCRA算法计算得到;
所述计算每个所述子带内的子带噪声功率谱的总和,得到噪声总功率谱,包括:
获取在一个所述子带范围内的信号功率谱的最小值,得到最小子带信号功率谱;
分别计算每个所述子带内的子带信号功率谱与所述最小子带信号功率谱的比值,得到每个所述子带内的语言存在概率;
在每个所述子带内,根据所述子带信号功率谱和所述语音存在概率,计算子带噪声功率谱;
将每个所述子带内的所述子带噪声功率谱的总和,确定为所述噪声总功率谱。
在一种可能的实现方法中,还包括:
降噪模块,用于对M路所述第一声源信号进行语音识别,得到对应的M个识别结果;基于所述M个识别结果,对所述M路第一声源信号进行对应的降噪处理。
在一种可能的实现方法中,划分模块,具体用于将声源音量不小于第三预设阈值的M路声源信号确定为所述第一声源信号;将除所述第一声源信号以外的N-M路声源信号确定为所述第二声源信号。
本申请第三提供了一种计算机设备,包括:
存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,包括执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供了一种声源处理方法以及相关装置,通过将多路声源信号根据信噪比、信号能量、声源音量等能量参数划分为主声源(第一声源)信号和次声源(第二声源)信号,并对主次声源分别进行混音处理,根据混音后的信号能量来对次声源的混音信号进行衰减,使得主次声源在感知音量上拉开一定差距,最后将再将主声源混音结果和衰减后的次声源混音结果再次混音,以便主声源能被听者清晰收听。通过减少次声源的干扰,拉开了主次声音的听觉区分度,使得听者能聚焦在主声源声音的收听,让用户的收听和沟通过程更轻松、舒适。
附图说明
图1为本申请实施例中声源处理方法的应用环境图;
图2为本申请实施例提供的声源处理方法的方法流程图;
图3为本申请实施例提供的声源处理方法的一个可选实施例的流程图;
图4为本申请实施例提供的声源处理方法的一个可选实施例的流程图;
图5为本申请实施例提供的声源处理方法的一个可选实施例的流程图;
图6为本申请实施例提供的声源处理方法的一个可选实施例的流程图;
图7为本申请实施例提供的声源处理装置的结构示意图;
图8为本申请实施例提供的声源处理装置的一个可选实施例的结构示意图;
图9至图11为本申请实施例提供的声源处理方法在场景下的应用的示意图;
图12是本申请实施例提供的一种服务器结构示意图。
具体实施方式
本申请实施例提供了一种声源处理方法,通过将多路声源划分为主声源和次声源,并对次声源进行衰减处理,以便于在声源数量较多的情况下,收听者能聚焦于关键声源的收听。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。本申请实施例提供的方案涉及音频处理技术,通过该音频处理技术得到的音频数据,可用于语音识别、语音合成、声纹识别、情感分析、自然语音处理等人工智能的语音技术领域中。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及音频处理技术,通过该音频处理技术得到的音频数据,可用于语音识别、语音合成、声纹识别、情感分析、自然语音处理等人工智能的技术领域中。
云技术是指基于互联网的计算、存储和服务模式,可以让用户通过网络访问计算资源和服务,而无需拥有实际的物理设备。这种模式可以提供灵活性、可扩展性和成本效益,使个人和企业能够更高效地管理和利用计算资源。常见的云技术包括云计算、云存储和云服务。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
云服务是在云平台上构建的各种服务,可用于开发、测试和部署应用程序。这些服务可以包括人工智能、大数据分析、物联网、服务器less计算等。
本申请实施例所提供的方案所涉及的音频处理方法,其执行主体可以是服务器,该服务器可部署于云端。当服务器部署于云端时,服务器与终端设备之间的数据交互通过网络传输。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
混音技术是多人通话应用中的核心技术之一,在多人音视频会议、多人音视频通话、多人游戏语音等场景中,用户终端需要将来自不同终端采集到的多路声音信号通过混音处理得到一路声音信号并通过耳机、音响的扬声器传递给用户,因此,混音技术常用于会议系统、多人聊天系统中。
多方通话无论在传统的电信网络通讯还是基于互联网协议(internet protocol,IP)的语音传输(voice over internet protocol,VoIP)应用中都有着重要的意义。其中,VoIP的主要内容是,通过语音的压缩算法把语音数据进行编码压缩处理后,按照网络传输协议标准进行打包,经过IP网络把数据包发送到目的IP地址,再把语音数据包解析并解压缩处理后,恢复原来的语音信号,从而达到通过互联网传送语音信号的目的。
多方通话过程中,各通话方利用终端设备进行语音接入,将语音信号压缩发送到混音模块,以使得混音模块将除本方以外的其他各方的有效语音进行混音处理。本方(本端)和其他方(对端)指的是多人语音通话场景中的两个角色。其中,本方指的是当前用户所处的设备和通话终端,也就是发起通话的一方;其他方指的是与本方进行通话的其他用户或参与者。在多人语音通话中,除本方以外的其他所有通话方都是其他方。
混音模块可部署在混音服务器或者接入终端,如果部署在混音服务器,则混音信号需要再经过编码压缩后传输给本方终端进行解码后播放;如果部署在接入终端,则直接由终端进行播放,以使得能从本地听到其他各方的声音。
混音的基本处理公式如公式(1)所示:
其中,M为参与多人通话的有效语音方数;ai(t)是第i方的输入语音信号;bj(t)是向第j方的输出语音信号,j=1,2,…,M;Wij(t)为第i方输入的混音权重。其中,各语音输入方的混音权重Wij(t)如何定义是混音的关键。
以下给出了常规情况下的4中混音处理方案,分别是平均调整权重法(align-to-average weighted,AAW)、强对齐权重法(align-to-biggest weighted,ABW)、弱对齐权重法(align-to-weakest weighted,AWW)和自对齐权重法(align-to-self weighted,ASW)。这4种方法都是采用加权平均的方式进行混音处理,主要从“混音防溢出处理”和“音量调节合理性”两个因素考虑权重的分配,其基本公式符合公式(1)所示内容。
其中,平均调整权重法是对所有输入方采用相同的权重值,该权重值为1/(M-1),M为所有参与混音方数,排除本方一路则有M-1路进行混音,混音权重计算公式如公式(2):
Wij(t)=1/(Mi-1); (2)
平均调整权重法不会引入噪声,但是当参与混音方数增加时,所有输入方的声音将被混音权重极大衰减,当混音输入方中有一部分原始音量较低的,则平均调整权重法混音处理后整体音量会被拉低,最终声音变得特别小。
强对齐权重法的混音权重是依据其信号幅度值来定义的,如公式(3):
其中的μ是调整因子,用于调整幅度值,取值为Max对应当前混音方所有输入信号缓冲区中的信号最大值;MixedMax为当前混音方信号经过公式(1)计算后得到的bj(t)中的最大值。当遇到混音方中有一部分声音信号较小时,Max大于MixedMax,则bj′(t)会重新调大,但同时也会带来了混音结果溢出和噪声被放大的问题。
弱对齐权重法与强对齐权重法刚好相反,其将幅度值最小项与某种特定方法合成输出的最弱项,此处不再进行赘述。弱对齐方法可以将参与方声音较弱的声音放大,使原来辨识度低的声音得以听清楚,但同时也会引入噪声放大问题,混音溢出问题等。
自适应权重法:将各路参与方的信号幅度值与线性混音后信号的幅度值的比例作为权重,如公式(4)所示:
可以理解的是,该方法中,信号越大者权重越大,相反信号小者权重越小,且权重受比例控制所以不会导致溢出问题,但是该方法会导致混音过程信号忽大忽小,当M值越大这种问题越发突出。
综上,现有的混音处理方案多都是采用加权平均的方式进行混音处理,主要从“混音防溢出处理”和“音量调节合理性”两个因素考虑权重的分配,即出发点在于解决信号混音后幅度值溢出,以及多路声音混音后信号变小、听不清问题,但是没有考虑听觉感知和人耳辨识能力的因素。
可以理解的是,正常情况下,人耳只能同时辨识出3至4路同时讲话的声音,因此当声源数量较多时,多路声源同时传递到收听者处,造成收听者对声源的辨识能力下降,可能无法辨识出多路声源中的任意一种,导致沟通困难。
为了解决上述问题,本申请实施例提供了一种声源处理方法以及相关装置,通过将接收到的多路声源根据声源能量划分为主声源和次声源,并对次声源进行能量衰减处理,以便于在声源数量较多的情况下,收听者能够聚焦于关键声源的收听,以达到沟通过程更轻松、舒适的效果。
为了便于理解,请参阅图1,图1为本申请实施例中声源处理方法的应用环境图,如图1所示,本申请实施例中声源处理方法应用于声源处理系统。声源处理系统包括:服务器和终端设备;其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
本申请实施例应用于多人通话场景中,多方通话过程中各通话方利用终端设备进行语音接入,得到声源信号;终端设备将声源信号发送给服务器;服务器对声源信号进行处理,得到混音信号;服务器将混音信号传输给终端设备,由终端设备进行播放,使得用户能够听到其他各方的声音。可以理解的是,该服务器可部署于云端,也可部署在终端设备。当服务器部署于云端时,服务器与终端设备之间的数据交互通过网络传输。当服务器部署在终端设备上时,终端设备具体包括接入终端和发送终端,发送终端用于向其他终端设备的接入终端发送声源信号,接入终端用于接收其他终端设备的声源信号并进行处理,得到混音信号。
下面将从服务器的角度,对本申请中声源处理方法进行介绍。请参阅图2,本申请实施例提供的声源处理方法包括:步骤S201至步骤S206。具体的:
S201,获取N路声源信号,其中N为大于1的整数。
获取声源信号是指从周围环境中捕获声音或声波的过程,通常通过部署于终端设备上的麦克风来获取。当服务器与终端设备分别部署时,具体为通过网络、通信线路或音频接口等形式,获取终端设备传输的声源信号。
可以理解的是,要对声源信号进行处理,首先需要获取声源信号。在多人通话场景中,每一个终端设备获取到的声源信号为一路声源信号,当多个终端设备对应的用户在同时通话时,服务器同时接收到多路声源信号。
如图1所示,多个用户通过手机、电脑、智能移动设备等终端设备进行多人通话类的应用,包括多人音视频会议,多人音视频通话、多人游戏语音等,用户的声音通过对应的终端设备接收,以声源信号的形式发送其他用户对应的终端设备。
S202,将N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,第一声源信号的能量参数大于第二声源信号的能量参数,能量参数包括信噪比、信号能量、声源音量中的至少一种。
鉴于人耳感知特性,正常情况下人耳只能同时辨识出3至4路同时讲话的声音,因此可以将获取到的N路声源信号分为主声源信号和次声源信号,其中可以限定主声源信号的数量为3或4,当然也可以根据语音通话场景限定为其他数量,总之本步骤目的在于对声源信号进行划分,以便于对主次声源信号进行不同的处理。
可以理解的是,在多人通话场景下,需要保证用户能对从多个声源信号中辨识出其中的几路声源,因此主声源信号应当具备比次声源信号更优质的通话能力。本申请实施例中,通过能量参数来对主次声源信号进行划分,该能量参数可以包括信噪比、信号能量、声源音量等具体参数。
本实施例中的第一声源信号为主声源信号,第二声源信号为次声源信号,其中第一声源信号的能量参数大于第二声源信号的能量参数,指的是第一声源信号的声音表现上优于第二声源信号,以能量参数为信噪比为例,第一声源信号的信噪比高于第二声源信号的信噪比,即第一声源信号比第二声源信号更为清楚;当能量参数包括信号能量时,第一声源信号比第二声源信号在一定时间或频率范围内的强度或功率更大;当能量参数包括声源音量时,第一声源信号比第二声源信号的声源音量更大。在基于上述能量参数的情况下,还可以根据实际需求进一步的增加声源信号的划分规则,例如通过人工智能的语音识别算法,将语音更为清晰的声源信号划分为第一声源信号。
因此可以将N路声源信号分为M路第一声源信号和N-M路第二声源信号,其中M路声源信号表示为人耳能同时辨识出的最大声音路数,例如M=3。
本申请实施例中,在获取了多路声源信号后,根据声源信号的能量参数将多路声源信号分为高能量参数的第一声源信号和低能量参数的第二声源信号,其中高能量参数的为主声源信号,低能量参数的为次声源信号,以便于后续对主次声源信号分别进行处理,使得用户能够更专注于主声源信号的收听。
S203,对M路第一声源信号进行混音处理,得到第一混音信号,对N-M路第二声源信号进行混音处理,得到第二混音信号。
可以理解的事,混音处理是将多个音频信号合并成一个统一的音频的过程,常用于音乐制作、广播、电影等领域。在本实施例中,对声源信号进行混音处理,可以是简单的将多个声源信号进行合并,也可以在合并的同时,对该多个声源信号进行音量平衡调整。
本申请实施例中,对M路第一声源信号进行混音处理,得到第一混音信号,指的是对前述步骤中划分出的多个主声源信号进行合并处理,得到主混音信号;同样的,对N-M路第二声源信号进行混音处理,得到第二混音信号,指的是对多个次声源信号进行合并处理,得到次混音信号。可以理解的是,对主次声源分别进行混音处理,得到对应的两个混音结果,以便于后续基于该两个混音结果的信号能量,对次声源对应的混音结果进行衰减,以提高用户对主声源的辨识度。
S204,根据第一混音信号和第二混音信号的信号能量,确定第二混音信号的衰减参数。
可以理解的是,信号能量指的是声音信号中所携带的能量量度,其中声音信号包括声源信号、混音信号等。在数字音频处理中,声音信号通常被表示为一系列离散的样本点,每个样本点对应一个特定的振幅值。在时域中,声音信号的能量可以通过将每个样本点的振幅值取平方,然后对所有样本点的平方值求和得到。例如,先对声音信号进行分帧处理,如每帧20ms,那么在一段长度为20ms的声音信号中,采样点数为L,信号能量E如公式(5)所示:
其中,x(n)为声音信号在当前帧中的第n个采样点上的振幅值。
通过分别计算第一混音信号和第二混音信号的在同一时间范围内信号能量,可以确定第一混音信号和第二混音信号之间的能量差距,从而确定第二混音信号的衰减参数。可以理解的是,衰减参数根据第一混音信号和第二混音信号的信号能量确定,具体为确定衰减参数的计算函数。计算函数的选择取决于具体的应用场景和效果要求,第一混音信号和第二混音信号之间的差距越小,那么对第二混音信号的衰减程度应当越大;第一混音信号和第二混音信号之间的差距越大,那么对第二混音信号的衰减程度应当越小。
本申请实施例中,在对主次声源信号分别进行混音处理,得到对应的主混音信号和次混音信号后,分别计算两种混音信号的信号能量,然后根据两个信号能量之间的关系,来确定于次声源信号对应的衰减参数,以便于对次声源混音信号进行衰减处理,从而拉大主次声源之间的感知差距。
S205,基于衰减参数对第二混音信号进行衰减处理,得到衰减信号。
可以理解的是,当确定了衰减参数后,将第二混音信号与该衰减参数进行结合,得到衰减后的第二混音信号,即衰减信号。
本申请实施例中,将主次声源信号分别进行混音处理后,分别计算主次声源的混音信号的信号能量,然后根据主次两种混音信号的信号能量确定与次声源信号对应的衰减参数,将衰减参数与次声源混音信号进行结合,达到对次声源混音信号进行衰减的效果。
S206,对第一混音信号和衰减信号进行混音处理,得到目标混音信号。
可以理解的是,在将第二混音信号进行衰减处理得到衰减信号后,将该衰减信号与第一混音信号进行二次混音,即将第一混音信号与衰减信号合并成一个信号,该信号为目标混音信号,即通过用户对应的终端设备输出的混音信号。
本申请实施例所提供的声源处理方法,通过将多路声源信号根据信噪比、信号能量、声源音量等能量参数划分为主声源(第一声源)信号和次声源(第二声源)信号,并对主次声源分别进行混音处理,根据混音后的信号能量来对次声源的混音信号进行衰减,使得主次声源在感知音量上拉开一定差距,最后将再将主声源混音结果和衰减后的次声源混音结果再次混音,以便主声源能被听者清晰收听。通过减少次声源的干扰,拉开了主次声音的听觉区分度,使得听者能聚焦在主声源声音的收听,让用户的收听和沟通过程更轻松、舒适。
在本申请的图2对应的实施例提供的声源处理方法的一个可选实施例中,请参阅图3,其中步骤S204具体包括:
S2041,根据第一混音信号的第一信号能量,计算第一混音信号的能量跟踪值,得到第一跟踪值,其中,能量跟踪值表示信号能量相对于时间的变化量;
S2042,根据第二混音信号的第二信号能量,计算第二混音信号的能量跟踪值,得到第二跟踪值。
本申请实施例中,分别通过第一混音信号和第二混音信号的信号能量,计算出对应的第一跟踪值和第二跟踪值。能量跟踪值表示信号能量相对于时间的变化量,可以理解的是,根据上述公式(5)可知,由于声音信号的信号能量在每一帧内都是变化的,因此能量跟踪值是对这种根据时间或帧数变化的信号能量的综合表征值Esm(i)。
具体的,能量跟踪值的计算方式如下:
对混音信号进行分帧处理和加窗处理,得到混音序列,混音信号包括第一混音信号和第二混音信号;
计算混音序列内每一帧的信号能量值;
根据每一帧的信号能量值,进行平滑处理和递归计算,得到每一帧的能量跟踪值。
可以理解的是,分帧处理以及加窗处理均为对混音信号进行预处理的阶段。由于音频信号具有短时平稳性,需要将混音信号进行切段,即为分帧处理;通常,10-30ms范围内都可以认为混音信号是稳定的;优选的,对目标音频信号进行分帧处理,使得一帧的帧长为20ms,帧移为10ms。由于分帧后的每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与目标音频信号的误差也就越大;故通过加窗处理,使分帧后的信号变得连续。
如上所述,具体的,步骤S2041和步骤S2042具体为:
S2041,对第一混音信号进行分帧处理和加窗处理,得到第一混音序列;计算第一混音序列内每一帧的信号能量值;根据第一混音序列内每一帧的信号能量值,进行平滑处理和递归计算,得到第一混音序列内每一帧的第一能量跟踪值。
S2042,对第二混音信号进行分帧处理和加窗处理,得到第二混音序列;计算第二混音序列内每一帧的信号能量值;根据第二混音序列内每一帧的信号能量值,进行平滑处理和递归计算,得到第二混音序列内每一帧的第二能量跟踪值。
分帧处理和加窗处理后,可以如上述公式(5)所示,计算得到每一帧的信号能量值E(i),其中i表示帧序号。然后根据每一帧的信号能量值进行平滑处理和递归计算,得到每一帧的能量跟踪值。如公式(6)所示:
Esm(i)=a*Esm(i-1)+(1-a)*E(i); (6)
其中,a为平滑系数,例如平滑系数a的取值可以为0.93,当然该系数也可根据实际应用进行变更,此处不进行限定;变量i代表第i帧的信号。公式(6)对应的能量跟踪值,用于在时间上平滑处理信号能量值。每个新的能量跟踪值是由前一个能量跟踪值与当前信号能量值的加权平均得到的。这里的权重由一个称为平滑系数的参数以及其补数(1减去平滑系数)来决定。通过以递归的方式应用此公式,能够逐步计算出平滑的能量跟踪值序列,以更好地反映能量的变化趋势。平滑系数的选择将在平滑程度方面产生影响,较大的平滑系数将导致较强的平滑效果,而较小的平滑系数则会产生较少的平滑效果,使得跟踪值更快地响应能量的变化。
S2043,根据第一跟踪值和第二跟踪值,确定衰减参数。
可以理解的是,由于本申请实施例应用于多人通话场景中,因此每一帧的信号能量的大小具有不确定性,通过引入能量跟踪值的计算公式,采用信号能量随着时间变化的综合表征值来确定次声源信号的衰减参数,有利于平滑的收听其他用户的声音,在一定程度上避免了在连续时间内,由于主次声源判定变更而导致的存在某音源信号的收听音量不稳定的现象。
以下提供了两种具体的计算衰减参数的方法:
在第一种方法中,如图4所示,步骤S2043具体包括:
S401,计算第一跟踪值和第二跟踪值的比值,得到跟踪比;
S402,若跟踪比小于第一预设阈值,则将衰减参数确定为跟踪比和预设阈值的比值的平方根;
S403,若跟踪比不小于第一预设阈值,则将衰减参数确定为1。
在本方法中,首先计算第一跟踪值En0和第二跟踪值En1的比值,得到跟踪比Er=En0/En1。当跟踪比Er小于第一预设阈值ThresE时,则将衰减参数gain确定为gain=sqrtf(Er/ThresE),即衰减参数确定为跟踪比Er和第一预设阈值ThresE的比值的平方根(sqrtf)。当跟踪比Er不小于第一预设阈值ThresE时,则衰减参数gain的值为1。其中,第一预设阈值根据实际业务工程经验值指定,例如ThresE=2,即当第一跟踪值En0和第二跟踪值En1的比值小于2时,需要对第二混音信号进行衰减。
可以理解的时,根据计算结果,得到的衰减参数范围为(0,1],因此基于衰减参数对第二混音信号进行衰减处理,得到衰减信号,具体为:将衰减参数gain与第二混音信号相乘,得到衰减信号。
在第二种方法中,如图5所示,步骤S2043具体包括:
S501,计算第一跟踪值与第二跟踪值的差值,得到跟踪差;
S502,将衰减参数确定为跟踪差与第一跟踪值的比值。
在本方法中,首先计算第一跟踪值En0和第二跟踪值En1的差值,得到跟踪差Ed=En0-En1。将衰减参数gain确定为gain=Ed/En0。
可以理解的时,根据理论计算结果,第一跟踪值大于第二跟踪值,因此计算得到的衰减参数范围也为(0,1],基于衰减参数对第二混音信号进行衰减处理,得到衰减信号,具体为:将衰减参数gain与第二混音信号相乘,得到衰减信号。
在本申请的图2对应的实施例提供的声源处理方法的一个可选实施例中,在步骤S201之后,还包括:
分别计算N路声源信号对应的信噪比。
其中,如图6所示,步骤S202,具体包括:
S2021,将信噪比不小于第二预设阈值的M路声源信号确定为第一声源信号;
S2022,将除第一声源信号以外的N-M路声源信号确定为第二声源信号。
本申请实施例中,声源信号能量参数包括信噪比。可以理解的是,声音信号的信噪比(signal-to-noise ratio,SNR)是衡量声音信号中有用信号与噪音水平之间比例的指标。高信噪比表示有用信号相对于噪音更强,通常认为声音质量更好,而低信噪比表示噪音相对较多,可能导致声音变得模糊或难以辨认。为了保障用户的对多路声源的收听效果,所筛选出来的主声源信号应当质量更好,因此只有信噪比不小于指定值的声源信号,才能作为主声源信号。
进一步的,步骤S2021具体包括:
根据N路声源信号对应的信噪比,得到满足信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;
分别计算P个高信噪比信号的信号能量;
将信号能量最高的前M个高信噪比信号确定为第一声源信号。
可以理解的是,首先根据信噪比对N个声源信号进行第一次划分,依据第二预设阈值,将信噪比高于该第二预设阈值的P个声源信号确定为高信噪比信号,其他为低信噪比信号。可以理解的是,根据实际需求预设了第二预设阈值后,则表示低信噪比信号的收听效果不佳,因此不能作为主声源信号。
在获得了P个高信噪比信号后,分别对该P个信号进行信号能量的计算,得到对应的P个信号能量。然后根据信号能量由大到小进行排序,将信号能量最高的前M个高信噪比信号确定为第一声源信号,即第一声源信号需满足声音质量高,且信号能量大的特点。
本申请实施例中,主声源信号的划分原则,包括信噪比不低于预设阈值,以及信号能量较高,即主声源信号先满足信噪比不低于第二预设阈值,对满足要求的声源信号,再按照其信号能量进行从大到小排序,排名前P位的参与方视为主声源信号,除主声源信号外的其它声源信号视为次声源信号。
进一步的,在上述步骤中,为了实现对声音信号的平滑处理,也可用能量跟踪值来代替信号能量,即步骤S2021具体包括:
根据N路声源信号对应的信噪比,得到满足信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;
分别计算P个高信噪比信号的能量跟踪值;
将能量跟踪值最高的前M个高信噪比信号确定为第一声源信号。
可以理解的是,能量跟踪值的计算方法及有益效果请参阅上述步骤2042中的相关描述,此处不再进行赘述。
在另一种可能的实现方法中,能量参数包括声源音量,即第一声源信号和第二声源信号通过声源音量的大小进行划分,即步骤202具体包括:
将声源音量不小于第三预设阈值的M路声源信号确定为第一声源信号;
将除第一声源信号以外的N-M路声源信号确定为第二声源信号。
可以理解的是,本申请实施例仅提供了几种可以实现的主次声源的划分方法,在实际应用中还可以结合语音识别、声纹识别、情感分析、自然语言处理等AI技术,根据实际通话内容来划分,此处不进行限定。
在一种可能的实现方法中,可以基于频域分析计算N路声源信号对应的信噪比。
可以理解的是,信噪比一般分为时域信噪比和频域信噪比,但是声音信号是典型的随机信号,即非平稳的时变信号,因此从时域去分析会很难进行。本申请实施例采用了基于频域分析的信噪比的计算方法。
本实施例中,基于频域分析技术的信噪比的计算方法,包括:通过先计算第i帧信号的子带功率谱,然后再估算子带噪声功率谱,进而得到整体信噪比SNR。
具体的,包括:
将声源信号基于频域分解为多个子带;
计算每个子带内的子带信号功率谱的总和,得到信号总功率谱;
计算每个子带内的子带噪声功率谱的总和,得到噪声总功率谱;
根据信号总功率谱与噪声总功率谱的比值,确定信噪比。
子带功率谱计算过程如公式(7)所示:
其中,i为帧序号;z为频点索引值;k为子带序号;X(i,z)为傅里叶变换后的第i帧第z频点的频域复数值;freq1(k)是第k子带的起始频点索引值,freq2(k)是第k子带的结束频点索引值;S(i,k)表示帧序号为i,子带序号为k的子带功率谱。
具体的,子带噪声功率谱可以由最小控制递归平均(minimum controlledregressive averaging,MCRA)算法计算得到。即,计算每个子带内的子带噪声功率谱的总和,得到噪声总功率谱,包括:
获取在一个子带范围内的信号功率谱的最小值,得到最小子带信号功率谱;
分别计算每个子带内的子带信号功率谱与最小子带信号功率谱的比值,得到每个子带内的语言存在概率;
在每个子带内,根据子带信号功率谱和语音存在概率,计算子带噪声功率谱;
将每个子带内的子带噪声功率谱的总和,确定为噪声总功率谱。
其中,在获取在一个子带范围内的信号功率谱的最小值,得到最小子带信号功率谱之前,还包括对子带功率谱做平滑处理。
以下对MCRA算法估算子带噪声功率谱进行详细描述:
1)功率谱做时频域平滑;
先对子带功率谱做平滑处理,这里的平滑处理包括相邻子带的频域平滑和历史帧的时域平滑处理。
其中相邻子带的频域平滑后的子带功率谱如公式(8)所示:
其中x为频域平滑加权因子组,例如x[5]=[0.1,0.2,0.4,0.2,0.1];w指平滑窗的半窗大小,当平滑窗的长度是奇数时,长度为2w+1,因此长度为5的平滑窗(x[5]),对应的w=2。
历史帧的时域平滑后的子带功率谱如公式(9)所示:
其中,c0为时域平滑因子,例如c0=0.9;为表示帧序号为i,子带序号为k的平滑后的子带功率谱。
2)使用最小值跟踪法求带噪语音的最小值Smin(i,k),作为噪声的初略估计,如下所示:
其中,Stmp(i,k)为临时变量;T为常数,表示噪声估计值更新周期。
3)计算语音存在概率如下公式(10)所示:
其中,Sr(i,k)表示帧序号为i,子带序号为k的子带功率谱与最小值的比值。
4)计算子带噪声功率谱估计值如下公式(11)所示:
最后,根据以上公式(7)和公式(11)计算得到的子带功率谱和子带噪声功率谱,根据如下信噪比计算公式(12)得到信噪比snr:
即信噪比为所有子带的总功率谱相加,除以估计的噪声子带的总功率谱。
在一种可能的实现方法中,在步骤S201之后,还包括:
S207,对声源信号进行降噪处理。
可以理解的是,对声源信号进行降噪处理,能够改善声音质量和可听性。
该步骤S207可在步骤S201之后的任意步骤间执行,例如:
若步骤S207执行于步骤S201与步骤S203之间,那么具体为对N路声源信号分别进行降噪处理。可以理解的是,步骤S201获取到的声源信号中存在的噪音,可能是在信号采集过程中的背景环境的杂音,该步骤可用于提高原始声音信号的声音质量;该噪音也可能是在信号传输过程中设备产生的电磁干扰,该步骤可用于提高通信质量。由于后续需要对声源信号进行混音处理,因此在此之前对声源信号进行降噪处理,有利于提高后续的混音处理效果。
若步骤S207执行于步骤S203与步骤S204之间,那么具体为分别对第一混音信号和第二混音信号进行降噪处理。可以理解的是,对声源信号进行混音的过程中可能会引入其他干扰噪音,因此对对第一混音信号和第二混音信号进行降噪处理,有利于提高后续信号能量计算的准确性。
若步骤S207执行于步骤S206之后,那么具体为对目标混音信号进行降噪处理。可以理解的是,目标混音信号为收听方对应的设备终端需要播放给用户的声音信号,对该目标混音信号进行降噪处理,有利于改善通话声音,使得通信更加清晰和可靠、减少噪声对语音识别性能的干扰,提高识别准确率、帮助减少对听觉系统的不良影响,保护听力等。
进一步的,由于第一声源信号为主声源信号,即用户主要辨识的声源信号,因此可以通过降噪处理来对第一声源信号进行优化,具体为:在步骤S202之后,还包括:
对M路第一声源信号进行语音识别,得到对应的M个识别结果;
基于M个识别结果,对M路第一声源信号进行对应的降噪处理。
可以理解的是,语音识别的方式进行降噪处理,首先需要使用清晰的语音数据,建立一个语音识别模型;然后对第一声源信号进行特征提取,对于含有噪音的第一声源信号,使用已建立的语音识别模型来进行特征匹配,识别出第一声源信号的语音中的噪音部分;利用识别出的噪音部分,可以进行噪音估计;将估计得到的噪音频谱与含噪音的第一声源信号进行比对,然后将估计的噪音频谱从第一声源信号中去除;将去噪后的第一声源信号与原始清晰第一声源信号合成,得到降噪处理后的第一声源信号。本申请实施例所提供的声源处理方法,首先将输入的N个各方声源信号中划分出主声源信号和次声源信号,主声源信号是有限的M方(例如M≤4,这里假设M=3,为人耳同时辨识出的最大声音方数)信号,主声源信号划分原则:信号能量(或者听觉感知能量)较高、信噪比不低于预设阈值,即主声源信号先满足信噪比不低于阈值,对满足要求的P个参与方声源信号,再按照其能量跟踪值进行从大到小排序,排名前M位的声源信号视为主声源,除主声源信号外的其它声源信号视为次声源信号;然后基于一定的混音策略(可以采取现有的混音方法策略,例如平均权重法或自适应权重法),M个主声源信号进行混音后得到主声源混音结果Res0;同样地,剩下的N-M个次声源信号进行混音后得到次声源混音结果Res1,分别对Res0和Res1做能量跟踪,得到对应跟踪值结果En0和En1,按照预设主次能量比阈值ThresE计算出次声源整体增益gain,次声源混音结果Res1乘以gain后与主声源混音结果Res0进行二次混音,进而得到最终的混音结果输出。本申请所提供的方法,能提升通话过程的声音清晰度,降低通话过程多声源干扰问题。
下面对本申请中的声源处理装置进行详细描述,请参阅图7。图7为本申请实施例中声源处理装置700的一个实施例示意图,声源处理装置700包括:
获取模块701,用于获取N路声源信号,其中N为大于1的整数;
划分模块702,用于将N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,第一声源信号的能量参数大于第二声源信号的能量参数,能量参数包括信噪比、信号能量、声源音量中的至少一种;
第一混音模块703,用于对M路第一声源信号进行混音处理,得到第一混音信号,对N-M路第二声源信号进行混音处理,得到第二混音信号;
计算模块704,用于根据第一混音信号和第二混音信号的信号能量,确定第二混音信号的衰减参数;
衰减模块705,用于基于衰减参数对第二混音信号进行衰减处理,得到衰减信号;
第二混音模块706,用于对第一混音信号和衰减信号进行混音处理,得到目标混音信号。
本申请实施例所提供的声源处理装置,通过将多路声源信号根据信噪比、信号能量、声源音量等能量参数划分为主声源(第一声源)信号和次声源(第二声源)信号,并对主次声源分别进行混音处理,根据混音后的信号能量来对次声源的混音信号进行衰减,使得主次声源在感知音量上拉开一定差距,最后将再将主声源混音结果和衰减后的次声源混音结果再次混音,以便主声源能被听者清晰收听。通过减少次声源的干扰,拉开了主次声音的听觉区分度,使得听者能聚焦在主声源声音的收听,让用户的收听和沟通过程更轻松、舒适。
在本申请的图7对应的实施例提供的声源处理装置700的一个可选实施例中,请参阅图8,计算模块704,具体包括:
跟踪子模块7041,用于根据第一混音信号的第一信号能量,计算第一混音信号的能量跟踪值,得到第一跟踪值;根据第二混音信号的第二信号能量,计算第二混音信号的能量跟踪值,得到第二跟踪值;其中,能量跟踪值表示信号能量相对于时间的变化量。
计算子模块7042,用于根据第一跟踪值和第二跟踪值,确定衰减参数。
本申请实施例中,能量跟踪值表示信号能量相对于时间的变化量,分别通过第一混音信号和第二混音信号的信号能量,计算出对应的第一跟踪值和第二跟踪值,通过引入能量跟踪值的计算公式,采用信号能量随着时间变化的综合表征值来确定次声源信号的衰减参数,有利于平滑的收听其他用户的声音,在一定程度上避免了在连续时间内,由于主次声源判定变更而导致的存在某音源信号的收听音量不稳定的现象。
在一种可能的实现方法中,跟踪子模块7041,具体用于对混音信号进行分帧处理和加窗处理,得到混音序列,混音信号包括第一混音信号和第二混音信号;计算混音序列内每一帧的信号能量值;根据每一帧的信号能量值,进行平滑处理和递归计算,得到每一帧的能量跟踪值。
在一种可能的实现方法中,计算子模块7042,具体用于计算第一跟踪值和第二跟踪值的比值,得到跟踪比;若跟踪比小于第一预设阈值,则将衰减参数确定为跟踪比和第一预设阈值的比值的平方根;若跟踪比不小于第一预设阈值,则将衰减参数确定为1。
在另一种可能的实现方法中,计算子模块7042,具体用于计算第一跟踪值与第二跟踪值的差值,得到跟踪差;将衰减参数确定为跟踪差与第一跟踪值的比值。
本申请实施例提供了两种衰减参数的确定方法,第一混音信号和第二混音信号之间的差距越小,那么对第二混音信号的衰减程度应当越大;第一混音信号和第二混音信号之间的差距越大,那么对第二混音信号的衰减程度应当越小。根据计算结果,得到的衰减参数范围为(0,1],因此基于衰减参数对第二混音信号进行衰减处理,得到衰减信号,具体为:将衰减参数与第二混音信号相乘,得到衰减信号。
如图8所示,在本申请的图7对应的实施例提供的声源处理装置的一个可选实施例中,还包括:
信噪比计算模块707,用于分别计算N路声源信号对应的信噪比;
其中,划分模块702,具体用于将信噪比不小于第二预设阈值的M路声源信号确定为第一声源信号;将除第一声源信号以外的N-M路声源信号确定为第二声源信号。
本申请实施例中,声源信号能量参数包括信噪比。为了保障用户的对多路声源的收听效果,所筛选出来的主声源信号应当质量更好,因此只有信噪比不小于指定值的声源信号,才能作为主声源信号。
进一步的,划分模块702,具体用于根据N路声源信号对应的信噪比,得到满足信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;分别计算P个高信噪比信号的信号能量;将信号能量最高的前M个高信噪比信号确定为第一声源信号。
本申请实施例中,首先根据信噪比对N个声源信号进行第一次划分,将信噪比高于该第二预设阈值的P个声源信号确定为高信噪比信号,其他为低信噪比信号。然后在获得了P个高信噪比信号后,分别对该P个信号进行信号能量的计算,根据信号能量由大到小进行排序,将信号能量最高的前M个高信噪比信号确定为第一声源信号。即第一声源信号(主声源信号)需满足声音质量高,且信号能量大的特点。
进一步的,为了实现对声音信号的平滑处理,也可用能量跟踪值来代替信号能量,即划分模块702,具体用于根据N路声源信号对应的信噪比,得到满足信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;分别计算P个高信噪比信号的能量跟踪值;将能量跟踪值最高的前M个高信噪比信号确定为第一声源信号。
此外,能量参数还可以包括声源音量,即第一声源信号和第二声源信号通过声源音量的大小进行划分,即划分模块702,具体用于将声源音量不小于第三预设阈值的M路声源信号确定为第一声源信号;将除第一声源信号以外的N-M路声源信号确定为第二声源信号。
本申请实施例仅提供了几种可以实现的主次声源的划分方法,在实际应用中还可以结合语音识别、声纹识别、情感分析、自然语言处理等AI技术,根据实际通话内容来划分,此处不进行限定。
在一种可能的实现方法中,信噪比计算模块707,具体用于基于频域分析技术计算N路声源信号对应的信噪比。
本实施例中,基于频域分析技术的信噪比的计算方法,通过先计算第i帧信号的子带功率谱,然后再估算子带噪声功率谱,进而得到整体信噪比SNR。
进一步的,基于频域分析技术计算N路声源信号对应的信噪比,具体包括:
将声源信号基于频域分解为多个子带;
计算每个子带内的子带信号功率谱的总和,得到信号总功率谱;
计算每个子带内的子带噪声功率谱的总和,得到噪声总功率谱;
根据信号总功率谱与噪声总功率谱的比值,确定信噪比。
其中,子带噪声功率谱具体可以由MCRA算法计算得到。即,算每个子带内的子带噪声功率谱的总和,得到噪声总功率谱,包括:
获取在一个子带范围内的信号功率谱的最小值,得到最小子带信号功率谱;
分别计算每个子带内的子带信号功率谱与最小子带信号功率谱的比值,得到每个子带内的语言存在概率;
在每个子带内,根据子带信号功率谱和语音存在概率,计算子带噪声功率谱;
将每个子带内的子带噪声功率谱的总和,确定为噪声总功率谱。
其中,在获取在一个子带范围内的信号功率谱的最小值,得到最小子带信号功率谱之前,还包括对子带功率谱做平滑处理。
可以理解的是,关于本申请实施例所提供的信噪比计算方法,以及在信噪比计算过程中涉及到的子带信号功率谱和子带噪声功率谱计算方法请参阅上述图2对应的方法实施例中相关步骤的描述,此处不再进行赘述。
如图8所示,在本申请的图7对应的实施例提供的声源处理装置的一个可选实施例中,还包括:
降噪模块708,用于对M路第一声源信号进行语音识别,得到对应的M个识别结果;基于M个识别结果,对M路第一声源信号进行对应的降噪处理。
可以理解的是,对声源信号进行降噪处理,能够改善声音质量和可听性。
为了便于理解,下面结合图9至图11,介绍本申请实施例所提供的声源处理方法在不同场景下的应用。
如图9所示,图9为应用于手机终端上的一种多人语音通话场景的示意图。如图所示,该多人语音通话场景下,包括6个通话方,用户可选择静音(关闭麦克风收音)、免提(切换手机听筒和手机扬声器播放声音)、视频(开启手机摄像头)、挂断等操作。
用户在该场景下,需要收听除自己以外的其他5个通话方的声音,若5个通话方同时发声,由于声音间的相互干扰导致无法听清其中任何一路声音。因此通过本申请实施例所提供的音源处理方法,可以使得用户至少能够听清其中3或4路声音,保障了沟通效果。
如图10所示,图10为应用于电脑终端上的一种线上会议场景的示意图。如图所示,在该线上会议场景下,参会方高达107人,用户可选择静音、视频、共享屏幕、邀请(邀请参会成员)、管理成员(对参会用户进行单独控制,例如控制其静音、屏蔽文字聊天等)、聊天(文字聊天)、录制等操作。
在该场景下,同一时间参会人数众多,因此环境音和设备噪音也会较大,若不进行处理,也会存在声音间的相互干扰导致沟通艰难。因此通过本申请实施例所提供的音源处理方法,保障了其中声源能量参数最高的3或4路声音,以便于维持会议秩序,保障了沟通效果。
如图11所示,图11为应用于手机、电脑或其他智能终端上的一种游戏场景的示意图。如图所示,该场景为多人协作关卡,玩家需要与其他玩家进行协作,操作各自的游戏角色,共同击杀头目。玩家之间通过游戏内置的语音系统沟通游戏策略,通过攻击、(使用)道具、召唤(帮手)、防御等操作通过关卡。
在该游戏场景下,多个玩家之间需要相互配合,随着游戏的同步进行,很容易出现多个玩家同时发声的情况,在游戏场景内,玩家之间的距离越近,声源能量参数越高,因此结合本申请实施例所提供的音源处理方法,保障了玩家能够听清附近的其他几个玩家的声音,有利于快速通关,提高游戏体验。
在上述场景中,当多个通话方同时发出声音时,音源数量太多会导致用户无法听清任一一个音源的声音,造成沟通困难。通过本申请实施例所提供的声源处理方法,鉴于人耳辨识能力了,使得用户至少听清楚至少3方的对话内容,从而保障了沟通效果。
图12是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种声源处理方法,其特征在于,包括:
获取N路声源信号,其中N为大于1的整数;
将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,所述第一声源信号的能量参数大于所述第二声源信号的能量参数,所述能量参数包括信噪比、信号能量、声源音量中的至少一种;
对所述M路第一声源信号进行混音处理,得到第一混音信号,对所述N-M路第二声源信号进行混音处理,得到第二混音信号;
根据所述第一混音信号和所述第二混音信号的信号能量,确定所述第二混音信号的衰减参数;
基于所述衰减参数对所述第二混音信号进行衰减处理,得到衰减信号;
对所述第一混音信号和所述衰减信号进行混音处理,得到目标混音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一混音信号和所述第二混音信号的信号能量,确定所述第二混音信号的衰减参数,包括:
根据所述第一混音信号的第一信号能量,计算所述第一混音信号的能量跟踪值,得到第一跟踪值,其中,所述能量跟踪值表示信号能量相对于时间的变化量;
根据所述第二混音信号的第二信号能量,计算所述第二混音信号的所述能量跟踪值,得到第二跟踪值;
根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数。
3.根据权利要求2所述的方法,其特征在于,计算所述能量跟踪值,包括:
对混音信号进行分帧处理和加窗处理,得到混音序列,所述混音信号包括所述第一混音信号和所述第二混音信号;
计算所述混音序列内每一帧的信号能量值;
根据所述每一帧的信号能量值,进行平滑处理和递归计算,得到所述能量跟踪值。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数,包括:
计算所述第一跟踪值和所述第二跟踪值的比值,得到跟踪比;
若所述跟踪比小于第一预设阈值,则将所述衰减参数确定为所述跟踪比和所述第一预设阈值的比值的平方根;
若所述跟踪比不小于所述第一预设阈值,则将所述衰减参数确定为1。
5.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一跟踪值和所述第二跟踪值,确定所述衰减参数,包括:
计算所述第一跟踪值与所述第二跟踪值的差值,得到跟踪差;
将所述衰减参数确定为所述跟踪差与所述第一跟踪值的比值。
6.根据权利要求1所述的方法,其特征在于,在所述获取N路声源信号之后,还包括:
分别计算所述N路声源信号对应的信噪比;
所述将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,包括:
将所述信噪比不小于第二预设阈值的M路声源信号确定为所述第一声源信号;
将除所述第一声源信号以外的N-M路声源信号确定为所述第二声源信号。
7.根据权利要求6所述的方法,其特征在于,所述将所述信噪比不小于第二预设阈值的M路声源信号确定为所述第一声源信号,包括:
根据所述N路声源信号对应的信噪比,得到满足所述信噪比不小于第二预设阈值的P个高信噪比信号,其中P为不小于M且不大于N的整数;
分别计算所述P个高信噪比信号的信号能量;
将所述信号能量最高的前M个所述高信噪比信号确定为所述第一声源信号。
8.根据权利要求6或7所述的方法,其特征在于,所述计算所述N路声源信号对应的信噪比,包括:
将所述声源信号基于频域分解为多个子带;
计算每个所述子带内的子带信号功率谱的总和,得到信号总功率谱;
计算每个所述子带内的子带噪声功率谱的总和,得到噪声总功率谱;
根据所述信号总功率谱与所述噪声总功率谱的比值,确定所述信噪比。
9.根据权利要求8所述的方法,其特征在于,所述子带噪声功率谱由最小控制递归平均MCRA算法计算得到;
所述计算每个所述子带内的子带噪声功率谱的总和,得到噪声总功率谱,包括:
获取在一个所述子带范围内的信号功率谱的最小值,得到最小子带信号功率谱;
分别计算每个所述子带内的子带信号功率谱与所述最小子带信号功率谱的比值,得到每个所述子带内的语言存在概率;
在每个所述子带内,根据所述子带信号功率谱和所述语音存在概率,计算子带噪声功率谱;
将每个所述子带内的所述子带噪声功率谱的总和,确定为所述噪声总功率谱。
10.根据权利要求1所述的方法,其特征在于,所述在将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号之后,还包括:
对M路所述第一声源信号进行语音识别,得到对应的M个识别结果;
基于所述M个识别结果,对所述M路第一声源信号进行对应的降噪处理。
11.根据权利要求1所述的方法,其特征在于,所述将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,包括:
将声源音量不小于第三预设阈值的M路声源信号确定为所述第一声源信号;
将除所述第一声源信号以外的N-M路声源信号确定为所述第二声源信号。
12.一种声源处理装置,其特征在于,包括:
获取模块,用于获取N路声源信号,其中N为大于1的整数;
划分模块,用于将所述N路声源信号划分为M路第一声源信号和N-M路第二声源信号,其中M为大于0且小于N的整数,所述第一声源信号的能量参数大于所述第二声源信号的能量参数,所述能量参数包括信噪比、信号能量、声源音量中的至少一种;
第一混音模块,用于对所述M路第一声源信号进行混音处理,得到第一混音信号,对所述N-M路第二声源信号进行混音处理,得到第二混音信号;
计算模块,用于根据所述第一混音信号和所述第二混音信号的信号能量,确定所述第二混音信号的衰减参数;
衰减模块,用于基于所述衰减参数对所述第二混音信号进行衰减处理,得到衰减信号;
第二混音模块,用于对所述第一混音信号和所述衰减信号进行混音处理,得到目标混音信号。
13.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括执行如权利要求1至11中任一项所述的声源处理方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
14.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至11中任一项所述的声源处理方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行如权利要求1至11中任一项所述的声源处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311059317.8A CN117079661A (zh) | 2023-08-21 | 2023-08-21 | 一种声源处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311059317.8A CN117079661A (zh) | 2023-08-21 | 2023-08-21 | 一种声源处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079661A true CN117079661A (zh) | 2023-11-17 |
Family
ID=88703802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311059317.8A Pending CN117079661A (zh) | 2023-08-21 | 2023-08-21 | 一种声源处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079661A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117998274A (zh) * | 2024-04-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
-
2023
- 2023-08-21 CN CN202311059317.8A patent/CN117079661A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117998274A (zh) * | 2024-04-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489760B (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
CN111048119B (zh) | 通话音频混音处理方法、装置、存储介质和计算机设备 | |
KR101970370B1 (ko) | 오디오 신호의 처리 기법 | |
US20100217590A1 (en) | Speaker localization system and method | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
CN111696567B (zh) | 用于远场通话的噪声估计方法及系统 | |
CN112750444B (zh) | 混音方法、装置及电子设备 | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
CN117079661A (zh) | 一种声源处理方法及相关装置 | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN111951813A (zh) | 语音编码控制方法、装置及存储介质 | |
CN111863011A (zh) | 音频处理方法及电子设备 | |
CN103370741B (zh) | 处理音频信号 | |
CN111951821B (zh) | 通话方法和装置 | |
CN113571082B (zh) | 语音通话的控制方法、装置、计算机可读介质及电子设备 | |
CN113823307A (zh) | 语音信号处理方法及其装置、设备、介质、产品 | |
WO2022156336A1 (zh) | 音频数据处理方法、装置、设备、存储介质及程序产品 | |
CN117118956B (zh) | 音频处理方法、装置、电子设备及计算机可读存储介质 | |
CN116962583B (zh) | 一种回声控制的方法、装置、设备、存储介质及程序产品 | |
EP2456184B1 (en) | Method for playback of a telephone signal | |
CN113571086B (zh) | 声音信号处理方法、装置、电子设备及可读存储介质 | |
US20240340605A1 (en) | Information processing device and method, and program | |
US20230005469A1 (en) | Method and system for speech detection and speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |