CN114627889A - 多声源声音信号处理方法及装置、存储介质和电子设备 - Google Patents

多声源声音信号处理方法及装置、存储介质和电子设备 Download PDF

Info

Publication number
CN114627889A
CN114627889A CN202210233049.6A CN202210233049A CN114627889A CN 114627889 A CN114627889 A CN 114627889A CN 202210233049 A CN202210233049 A CN 202210233049A CN 114627889 A CN114627889 A CN 114627889A
Authority
CN
China
Prior art keywords
sound
sound signal
preset
request
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210233049.6A
Other languages
English (en)
Inventor
刘卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202210233049.6A priority Critical patent/CN114627889A/zh
Publication of CN114627889A publication Critical patent/CN114627889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本申请公开了一种多声源声音信号处理方法及装置、存储介质和电子设备,方法包括:接收请求信息,判断请求信息的请求类型,并确定与请求信息对应的目标声音信号,其中,请求类型为请求屏蔽或请求增强;获取多声源信号,并分解多声源信号,得到多个声源声音信号;分别计算每个声源声音信号与目标声音信号的相似度;根据请求类型以及相似度,分别处理每个声源声音信号。本申请的方法可根据用户请求处理特定的声音信号,提高了声音处理的灵活度,适用于多变的降噪场景。

Description

多声源声音信号处理方法及装置、存储介质和电子设备
技术领域
本申请涉及语音处理技术领域,尤其是涉及到一种多声源声音信号处理方法及装置、存储介质和电子设备。
背景技术
现有的智能降噪技术利用特定的参数增强人声同时减弱环境噪声,以在降低噪声的同时避免遗漏想听到的声音信息。然而有些场景中的噪声可能是其他场景中希望听到的声音,例如在马路上行走时,车辆鸣笛声音是希望听到的声音,不应该被减弱;而在临街房间读书时,车辆鸣笛的声音则是噪声,应该被减弱。现有的主动降噪技术只能机械地增强人声而减弱外界环境的声音,显然无法适用于如此多变的使用场景。此外,特定的降噪参数也不适用于所有的环境。
发明内容
有鉴于此,本申请提供了一种多声源声音信号处理方法及装置、存储介质和电子设备,适用于多变的降噪场景。
根据本申请的一个方面,提供了一种多声源声音信号处理方法,包括:
接收请求信息,判断所述请求信息的请求类型,并确定与所述请求信息对应的目标声音信号,其中,所述请求类型为请求屏蔽或请求增强;
获取多声源信号,并分解所述多声源信号,得到多个声源声音信号;
分别计算每个所述声源声音信号与所述目标声音信号的相似度;
根据所述请求类型以及所述相似度,分别处理每个所述声源声音信号。
可选地,所述根据所述请求类型以及所述相似度,分别处理每个所述声源声音信号,具体包括:
若所述请求类型为请求降噪,则确定与所述目标声音信号的相似度大于预设相似度阈值的声源声音信号为待降噪声音信号;
若所述请求类型为请求增强,则确定所述相似度大于所述预设相似度阈值的声源声音信号为待增强声音信号,所述相似度小于所述预设相似度阈值的声源声音信号为所述待降噪声音信号;
对所述待降噪声音信号进行降噪处理;
对所述待增强声音信号进行增强处理,或不处理所述待增强声音信号。
可选地,所述对所述待降噪声音信号进行降噪处理,具体包括:
对所述待降噪声音信号进行分帧处理,得到时域下的每一帧声音信号;
利用傅里叶变换方法处理所述时域下的每一帧声音信号,得到频域下的多个正弦波信号;
确定每个所述正弦波信号的幅值以及相位角;
根据所述幅值以及所述待降噪声音信号的平均能量值,得到时域下的纯净声音信号;
根据所述相位角,利用傅里叶逆变换方法处理所述时域下的纯净声音信号,得到频域下的纯净声音信号。
可选地,所述根据所述幅值以及所述待降噪声音信号的平均能量值,得到时域下的纯净声音信号,具体包括:
根据降噪公式,计算所述时域下的纯净声音信号,所述降噪公式为:
Figure BDA0003539308210000021
其中,|Xi(k)|2为第i帧声音信号对应的第k个正弦波信号的幅值,0≤i<n,n为所述待降噪声音信号的总帧数,D(k)为所述待降噪声音信号的平均能量值,a是预设过减因子,b是预设增益补偿因子。
可选地,所述分别计算每个所述声源声音信号与所述目标声音信号的相似度,具体包括:
利用预设特征提取模型,确定所述目标声音信号的特征参数以及每个所述声源声音信号的特征参数,其中,所述特征参数包括以下至少之一:频率、振幅、相位;
计算所述声源声音信号的特征参数与所述目标声音信号的特征参数的匹配值,并根据所述匹配值确定所述声源声音信号与所述目标声音信号的相似度。
可选地,所述分别计算每个所述声源声音信号与所述目标声音信号的相似度之前,还包括:
将预设声音库中的多个预设声音样本叠加,得到混合声音样本;
利用所述预设特征提取模型提取所述混合声音样本中每个预设声音样本的特征参数,并根据所述混合声音样本中每个预设声音样本的特征参数,在所述混合声音样本中识别指定的预设声音样本;
根据识别结果调整所述预设特征提取模型。
可选地,所述方法还包括:
根据历史处理记录,调整所述预设过减因子和/或所述预设增益补偿因子的数值。
根据本申请的另一方面,提供了一种多声源声音信号处理装置,包括:
解析模块,用于接收请求信息,判断所述请求信息的请求类型,并确定与所述请求信息对应的目标声音信号,其中,所述请求类型为请求屏蔽或请求增强;
分解模块,用于获取多声源信号,并分解所述多声源信号,得到多个声源声音信号;
运算模块,用于分别计算每个所述声源声音信号与所述目标声音信号的相似度;
处理模块,用于根据所述请求类型以及所述相似度,分别处理每个所述声源声音信号。
可选地,所述处理模块包括待处理信号确定单元以及待处理信号处理单元。
所述待处理信号确定单元,具体用于若所述请求类型为请求降噪,则确定与所述目标声音信号的相似度大于预设相似度阈值的声源声音信号为待降噪声音信号;
所述待处理信号确定单元,还用于若所述请求类型为请求增强,则确定所述相似度大于所述预设相似度阈值的声源声音信号为待增强声音信号,所述相似度小于所述预设相似度阈值的声源声音信号为所述待降噪声音信号;
所述待处理信号处理单元,具体用于对所述待降噪声音信号进行降噪处理;
所述待处理信号处理单元,还用于对所述待增强声音信号进行增强处理,或不处理所述待增强声音信号。
可选地,所述待处理信号处理单元,具体用于:
对所述待降噪声音信号进行分帧处理,得到时域下的每一帧声音信号;
利用傅里叶变换方法处理所述时域下的每一帧声音信号,得到频域下的多个正弦波信号;
确定每个所述正弦波信号的幅值以及相位角;
根据所述幅值以及所述待降噪声音信号的平均能量值,得到时域下的纯净声音信号;
根据所述相位角,利用傅里叶逆变换方法处理所述时域下的纯净声音信号,得到频域下的纯净声音信号。
可选地,所述待处理信号处理单元,具体用于:
根据降噪公式,计算所述时域下的纯净声音信号,所述降噪公式为:
Figure BDA0003539308210000041
其中,|Xi(k)|2为第i帧声音信号对应的第k个正弦波信号的幅值,0≤i<n,n为所述待降噪声音信号的总帧数,D(k)为所述待降噪声音信号的平均能量值,a是预设过减因子,b是预设增益补偿因子。
可选地,所述运算模块,具体用于:
利用预设特征提取模型,确定所述目标声音信号的特征参数以及每个所述声源声音信号的特征参数,其中,所述特征参数包括以下至少之一:频率、振幅、相位;
计算所述声源声音信号的特征参数与所述目标声音信号的特征参数的匹配值,并根据所述匹配值确定所述声源声音信号与所述目标声音信号的相似度。
可选地,所述装置还包括训练模块,所述训练模块具体用于:
将预设声音库中的多个预设声音样本叠加,得到混合声音样本;
利用所述预设特征提取模型提取所述混合声音样本中每个预设声音样本的特征参数,并根据所述混合声音样本中每个预设声音样本的特征参数,在所述混合声音样本中识别指定的预设声音样本;
根据识别结果调整所述预设特征提取模型。
可选地,所述装置还包括调整模块,用于:
根据历史处理记录,调整所述预设过减因子和/或所述预设增益补偿因子的数值。
根据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,程序被处理器执行时实现上述多声源声音信号处理方法。
根据本申请再一个方面,提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行程序时实现上述多声源声音信号处理方法。
借由上述技术方案,本申请接收用户的请求信息,其中请求信息的类型可以为请求屏蔽或请求增强。在确定与请求信息对应的目标声音信号后,根据请求类型以及当前场景的多声源信号中每个声源声音信号与目标声音信号的相似度,确定每个声源声音信号对应的处理方法,并利用该处理方法处理对应的声源声音信号。本申请的方法可根据用户请求处理指定的声音信号,提高了声音处理的灵活度,适用于多变的降噪场景。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种多声源声音信号处理方法的流程示意图;
图2示出了本申请实施例提供的另一种多声源声音信号处理方法的流程示意图;
图3示出了本申请实施例提供的另一种多声源声音信号处理方法的流程示意图;
图4示出了本申请实施例提供的另一种多声源声音信号处理方法的流程示意图;
图5示出了本申请实施例提供的另一种多声源声音信号处理方法的流程示意图;
图6示出了本申请实施例提供的另一种多声源声音信号处理方法的流程示意图;
图7示出了本申请实施例提供的一种多声源声音信号处理装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种多声源声音信号处理方法,如图1所示,该方法包括:
步骤101,接收请求信息,判断请求信息的请求类型,并确定与请求信息对应的目标声音信号,其中,请求类型为请求屏蔽或请求增强;
本申请实施例提供的多声源声音信号处理方法,可以根据用户发送的请求信息对声音信号进行处理。解析接收到的请求信息,判断请求信息的请求类型为请求屏蔽还是请求增强,并确定请求信息对应的目标声音信号。
例如,居住在机场附近的用户可能发送请求屏蔽飞机起飞声音的请求信息,此时解析该请求信息,确定请求类型为请求屏蔽,目标声音信号为飞机起飞的声音信号。
步骤102,获取多声源信号,并分解多声源信号,得到多个声源声音信号;
在该实施例中,获取多声源信号,其中,多声源信号可以是当前环境的声音信号,当前环境中的不同声音信号叠加形成了多声源信号。分解多声源信号得到多个声源声音信号,例如,若当前环境为办公室,可以从多声源信号中分解得到敲击键盘的声音信号、喝水的声音信号以及电话沟通的声音信号等。
步骤103,分别计算每个声源声音信号与目标声音信号的相似度;
在该实施例中,计算从多声源信号中分解得到的每个声源声音信号与目标声音信号的相似度,从而可以根据相似度判断是否屏蔽或增强该声音信号。
例如,若目标声音信号为飞机起飞的声音信号,则计算每个声源声音信号与飞机起飞的声音信号之间的相似度,如果相似度很高,则可以认为该声源声音信号为飞机起飞的声音信号。
步骤104,根据请求类型以及相似度,分别处理每个声源声音信号。
在该实施例中,根据请求类型以及当前场景的多声源信号中每个声源声音信号与目标声音信号的相似度,确定每个声源声音信号对应的处理方法,并利用该处理方法处理对应的声源声音信号。
例如,若请求类型为请求屏蔽,目标声音信号为飞机起飞的声音信号,则若一个声源声音信号与目标声音信号之间的相似度满足要求,则屏蔽该声源声音信号。
通过应用本实施例的技术方案,接收用户的请求信息,其中请求信息的类型可以为请求屏蔽或请求增强。在确定与请求信息对应的目标声音信号后,根据请求类型以及当前场景的多声源信号中每个声源声音信号与目标声音信号的相似度,确定每个声源声音信号对应的处理方法,并利用该处理方法处理对应的声源声音信号。该实施例可根据用户请求处理指定的声音信号,提高了声音处理的灵活度,适用于多变的降噪场景。
进一步地,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种多声源声音信号处理方法,如图2所示,根据请求类型以及相似度,分别处理每个声源声音信号,具体包括:
步骤201,若请求类型为请求降噪,则确定与目标声音信号的相似度大于预设相似度阈值的声源声音信号为待降噪声音信号;
在该实施例中,请求类型可以为请求降噪或请求增强,若请求类型为请求降噪,则认为用户不希望听到目标声音信号。基于此,认为与目标声音信号的相似度大于预设相似度阈值的声源声音信号均为用户不希望听到的声音信号,将这些声源声音信号作为待降噪声音信号。
步骤202,若请求类型为请求增强,则确定相似度大于预设相似度阈值的声源声音信号为待增强声音信号,相似度小于预设相似度阈值的声源声音信号为待降噪声音信号;
在该实施例中,若请求类型为请求增强,则认为用户希望听到目标声音信号。基于此,认为与目标声音信号的相似度大于预设相似度阈值的声源声音信号均为用户希望听到的声音信号,将这些声源声音信号作为待增强声音信号。认为与目标声音信号的相似度小于预设相似度阈值的声源声音信号均可能干扰用户接收待增强声音信号,将这些声源声音信号作为待降噪声音信号。
步骤203,对待降噪声音信号进行降噪处理;
在该实施例中,对待降噪声音信号进行降噪处理,以减弱用户不希望听到的或者可能对用户造成干扰的声音信号。
进一步地,可利用次级声源产生与待降噪声音信号频率一致、振幅一致、相位相反的声音,以实现待降噪声音信号的削弱。
步骤204,对待增强声音信号进行增强处理,或不处理待增强声音信号。
在该实施例中,可对待增强声音信号进行增强处理,以使用户听到能量更强也即音量更大的待增强声音信号。也可以不处理待增强声音信号,仅通过削弱待降噪声音信号,使用户更清楚地听到待增强声音信号,同时避免音量过大影响用户听力。
该实施例根据请求类型的不同,以及相似度的不同,对多声源信号中的每个声源声音信号采用不同的处理方法,使用户可以更清楚地听到想要听到的声音,而更少地听到不希望听到的声音。该实施例实现了基于用户需求的个性化处理,声音信号处理结果更符合用户实际需要。
进一步地,如图3所示,在另一种多声源声音信号处理方法中,对待降噪声音信号进行降噪处理,具体包括:
步骤301,对待降噪声音信号进行分帧处理,得到时域下的每一帧声音信号;
在该实施例中,由于待降噪声音信号x(n)具有一定的长度,因此,将其进行分帧处理,得到每一帧声音信号,其中,第i帧声音信号可记为Xi(m)。
步骤302,利用傅里叶变换方法处理时域下的每一帧声音信号,得到频域下的多个正弦波信号;
在该实施例中,利用傅里叶变换方法处理每一帧声音信号,将声音信号由时域变换至频域。
具体地,利用公式
Figure BDA0003539308210000101
对每一帧声音信号进行傅里叶变换,将Xi(m)分解成为多个正弦波Xi(k),也就是Xi(m)由多个正弦波Xi(k)叠加而成。
步骤303,确定每个正弦波信号的幅值以及相位角;
在该实施例中,计算每个正弦波的幅值|Xi(k)|以及相位角
Figure BDA0003539308210000102
其中,相位角可以根据如下公式计算:
Figure BDA0003539308210000103
步骤304,根据幅值以及待降噪声音信号的平均能量值,得到时域下的纯净声音信号;
在该实施例中,根据每个正弦波的幅值|Xi(k)|以及待降噪声音信号的平均能量值,处理每个正弦波信号,从而实现降噪效果。
其中,待降噪声音信号的平均能量值可以由正弦波的幅值计算得到。
具体地,可以根据如下公式计算平均能量值:
Figure BDA0003539308210000104
其中,NIS为待降噪声音信号对应的帧数。
步骤305,根据相位角,利用傅里叶逆变换方法处理时域下的纯净声音信号,得到频域下的纯净声音信号。
在该实施例中,利用傅里叶逆变换方法处理时域下的纯净声音信号,将该信号由时域变换至频域,得到频域下的纯净声音信号。
该实施例对待降噪声音信号进行分帧处理,进而分别对每一帧的声音信号进行降噪,在噪声时断时续或者忽大忽小的场景中,该实施例使降噪结果更加精准。具体地,本申请将每一帧声音信号由时域转换至频域,并在频域根据每一帧声音信号中每一个正弦波的能量与整个待处理声音信号的平均能量值进行降噪操作,再转换回到时域。
进一步地,在另一种多声源声音信号处理方法中,根据幅值以及待降噪声音信号的平均能量值,得到时域下的纯净声音信号,具体包括:
根据降噪公式,计算时域下的纯净声音信号,降噪公式为:
Figure BDA0003539308210000111
其中,|Xi(k)|为第i帧声音信号对应的第k个正弦波信号的幅值,|Xi(k)|2为根据幅值计算得到的第i帧声音信号对应的第k个正弦波信号的能量值,0≤i<n,n为待降噪声音信号的总帧数,D(k)为待降噪声音信号的平均能量值,a是预设过减因子,b是预设增益补偿因子。
在该实施例中,若第i帧声音信号对应的第k个正弦波信号的能量值大于整个待处理声音信号的平均能量值,则表明此时噪声出现,因此将该正弦波信号的能量值减去平均能量值*预设过减因子就得到了去除噪音的语音;若第i帧声音信号对应的第k个正弦波信号的能量值小于整个待处理声音信号的平均能量值,表明此时噪声消失,因此需要将减少的能量进行补充,使语音恢复正常大小。
具体地,对待降噪声音信号进行降噪处理的完整步骤的流程示意图如图4所示,其详细说明如前所述,在此不再赘述。
进一步地,如图5所示,在另一种多声源声音信号处理方法中,分别计算每个声源声音信号与目标声音信号的相似度,具体包括:
步骤501,利用预设特征提取模型,确定目标声音信号的特征参数以及每个声源声音信号的特征参数,其中,特征参数包括以下至少之一:频率、振幅、相位;
在该实施例中,每个声音信号均具有声纹特征,声纹特征标识了声音信号的特点,通过声纹特征可以区分不同的声音信号。基于此,利用预设特征提取模型,提取目标声音信号和声源声音信号的特征参数,其中特征参数可以用来表示声纹特征。
其中,特征参数包括频率、振幅以及相位中的一个或多个。
步骤502,计算声源声音信号的特征参数与目标声音信号的特征参数的匹配值,并根据匹配值确定声源声音信号与目标声音信号的相似度。
在该实施例中,根据每个声源声音信号的特征参数以及目标声音信号的特征参数的数值大小,计算该声源声音信号每个特征参数对应的匹配值,进而综合分析该声源声音信号所有的特征参数的匹配值,计算该声源声音信号与目标声音信号的相似度。
进一步地,如图6所示,在另一种多声源声音信号处理方法中,分别计算每个声源声音信号与目标声音信号的相似度之前,还包括:
步骤601,将预设声音库中的多个预设声音样本叠加,得到混合声音样本;
步骤602,利用预设特征提取模型提取混合声音样本中每个预设声音样本的特征参数,并根据所述混合声音样本中每个预设声音样本的特征参数,在混合声音样本中识别指定的预设声音样本;
步骤603,根据识别结果调整预设特征提取模型。
在该实施例中,利用机器学习方法训练预设特征提取模型。具体地,预设声音库中包含多个预先录制的预设声音样本,并记录每个预设声音样本的特征参数。将若干预设声音样本叠加,得到混合声音样本。在混合声音样本中指定一个用于训练的声音样本,利用预设特征提取模型提取每个预设声音样本的特征参数,并判断提取的特征参数是否与指定的预设声音样本的特征参数相同,进而识别得到指定的预设声音样本。若识别到目标声音样本,则识别成功,根据识别结果是否成功,调整预设特征提取模型,以提高模型的准确度。
进一步地,在另一种多声源声音信号处理方法中,还包括:
根据历史处理记录,调整预设过减因子和/或预设增益补偿因子的数值。
在该实施例中,根据用户的历史请求信息,以及与历史请求信息对应的历史处理记录,调整预设过减因子以及预设增益补偿因子中的一个或两个,以提高降噪效果。
进一步地,作为上述多声源声音信号处理方法的具体实现,本申请实施例提供了一种多声源声音信号处理装置,如图7所示,该多声源声音信号处理装置包括:解析模块、分解模块、运算模块以及处理模块。
解析模块,用于接收请求信息,判断请求信息的请求类型,并确定与请求信息对应的目标声音信号,其中,请求类型为请求屏蔽或请求增强;
分解模块,用于获取多声源信号,并分解多声源信号,得到多个声源声音信号;
运算模块,用于分别计算每个声源声音信号与目标声音信号的相似度;
处理模块,用于根据请求类型以及相似度,分别处理每个声源声音信号。
可选地,处理模块包括待处理信号确定单元以及待处理信号处理单元。
待处理信号确定单元,具体用于若请求类型为请求降噪,则确定与目标声音信号的相似度大于预设相似度阈值的声源声音信号为待降噪声音信号;
待处理信号确定单元,还用于若请求类型为请求增强,则确定相似度大于预设相似度阈值的声源声音信号为待增强声音信号,相似度小于预设相似度阈值的声源声音信号为待降噪声音信号;
待处理信号处理单元,具体用于对待降噪声音信号进行降噪处理;
待处理信号处理单元,还用于对待增强声音信号进行增强处理,或不处理待增强声音信号。
可选地,待处理信号处理单元,具体用于:
对待降噪声音信号进行分帧处理,得到时域下的每一帧声音信号;
利用傅里叶变换方法处理时域下的每一帧声音信号,得到频域下的多个正弦波信号;
确定每个正弦波信号的幅值以及相位角;
根据幅值以及待降噪声音信号的平均能量值,得到时域下的纯净声音信号;
根据相位角,利用傅里叶逆变换方法处理时域下的纯净声音信号,得到频域下的纯净声音信号。
可选地,待处理信号处理单元,具体用于:
根据降噪公式,计算时域下的纯净声音信号,降噪公式为:
Figure BDA0003539308210000141
其中,|Xi(k)|2为第i帧声音信号对应的第k个正弦波信号的幅值,0≤i<n,n为待降噪声音信号的总帧数,D(k)为待降噪声音信号的平均能量值,a是预设过减因子,b是预设增益补偿因子。
可选地,运算模块,具体用于:
利用预设特征提取模型,确定目标声音信号的特征参数以及每个声源声音信号的特征参数,其中,特征参数包括以下至少之一:频率、振幅、相位;
计算声源声音信号的特征参数与目标声音信号的特征参数的匹配值,并根据匹配值确定声源声音信号与目标声音信号的相似度。
可选地,装置还包括训练模块,训练模块具体用于:
将预设声音库中的多个预设声音样本叠加,得到混合声音样本;
利用预设特征提取模型提取混合声音样本中每个预设声音样本的特征参数,并根据所述混合声音样本中每个预设声音样本的特征参数,在混合声音样本中识别指定的预设声音样本;
根据识别结果调整预设特征提取模型。
可选地,装置还包括调整模块,用于:
根据历史处理记录,调整预设过减因子和/或预设增益补偿因子的数值。
根据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,程序被处理器执行时实现上述多声源声音信号处理方法。
根据本申请再一个方面,提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行程序时实现上述多声源声音信号处理方法。
需要说明的是,本申请实施例提供的一种多声源声音信号处理装置所涉及各功能模块的其他相应描述,可以参考图1至图6中的对应描述,在此不再赘述。
基于上述如图1至图6所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图6所示的多声源声音信号处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图6所示的方法,以及图7所示的多声源声音信号处理装置实施例,为了实现上述目的,本申请实施例还提供了一种电子设备,具体可以为个人计算机、服务器、网络设备等,该电子设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图6所示的多声源声音信号处理方法。
可选地,该电子设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种电子设备结构并不构成对该电子设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作装置、网络通信模块。操作装置是管理和保存电子设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各控件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的单元或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的单元可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的单元可以合并为一个单元,也可以进一步拆分成多个子单元。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种多声源声音信号处理方法,其特征在于,所述方法包括:
接收请求信息,判断所述请求信息的请求类型,并确定与所述请求信息对应的目标声音信号,其中,所述请求类型为请求屏蔽或请求增强;
获取多声源信号,并分解所述多声源信号,得到多个声源声音信号;
分别计算每个所述声源声音信号与所述目标声音信号的相似度;
根据所述请求类型以及所述相似度,分别处理每个所述声源声音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述请求类型以及所述相似度,分别处理每个所述声源声音信号,具体包括:
若所述请求类型为请求降噪,则确定与所述目标声音信号的相似度大于预设相似度阈值的声源声音信号为待降噪声音信号;
若所述请求类型为请求增强,则确定所述相似度大于所述预设相似度阈值的声源声音信号为待增强声音信号,所述相似度小于所述预设相似度阈值的声源声音信号为所述待降噪声音信号;
对所述待降噪声音信号进行降噪处理;
对所述待增强声音信号进行增强处理,或不处理所述待增强声音信号。
3.根据权利要求2所述的方法,其特征在于,所述对所述待降噪声音信号进行降噪处理,具体包括:
对所述待降噪声音信号进行分帧处理,得到时域下的每一帧声音信号;
利用傅里叶变换方法处理所述时域下的每一帧声音信号,得到频域下的多个正弦波信号;
确定每个所述正弦波信号的幅值以及相位角;
根据所述幅值以及所述待降噪声音信号的平均能量值,得到时域下的纯净声音信号;
根据所述相位角,利用傅里叶逆变换方法处理所述时域下的纯净声音信号,得到频域下的纯净声音信号。
4.根据权利要求3所述的方法,其特征在于,所述根据所述幅值以及所述待降噪声音信号的平均能量值,得到时域下的纯净声音信号,具体包括:
根据降噪公式,计算所述时域下的纯净声音信号,所述降噪公式为:
Figure FDA0003539308200000021
其中,|Xi(k)|2为第i帧声音信号对应的第k个正弦波信号的幅值,0≤i<n,n为所述待降噪声音信号的总帧数,D(k)为所述待降噪声音信号的平均能量值,a是预设过减因子,b是预设增益补偿因子。
5.根据权利要求1所述的方法,其特征在于,所述分别计算每个所述声源声音信号与所述目标声音信号的相似度,具体包括:
利用预设特征提取模型,确定所述目标声音信号的特征参数以及每个所述声源声音信号的特征参数,其中,所述特征参数包括以下至少之一:频率、振幅、相位;
计算所述声源声音信号的特征参数与所述目标声音信号的特征参数的匹配值,并根据所述匹配值确定所述声源声音信号与所述目标声音信号的相似度。
6.根据权利要求5所述的方法,其特征在于,所述分别计算每个所述声源声音信号与所述目标声音信号的相似度之前,还包括:
将预设声音库中的多个预设声音样本叠加,得到混合声音样本;
利用所述预设特征提取模型提取所述混合声音样本中每个预设声音样本的特征参数,并根据所述混合声音样本中每个预设声音样本的特征参数,在所述混合声音样本中识别指定的预设声音样本;
根据识别结果调整所述预设特征提取模型。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据历史处理记录,调整所述预设过减因子和/或所述预设增益补偿因子的数值。
8.一种多声源声音信号处理装置,其特征在于,所述装置包括:
解析模块,用于接收请求信息,判断所述请求信息的请求类型,并确定与所述请求信息对应的目标声音信号,其中,所述请求类型为请求屏蔽或请求增强;
分解模块,用于获取多声源信号,并分解所述多声源信号,得到多个声源声音信号;
运算模块,用于分别计算每个所述声源声音信号与所述目标声音信号的相似度;
处理模块,用于根据所述请求类型以及所述相似度,分别处理每个所述声源声音信号。
9.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。
CN202210233049.6A 2022-03-09 2022-03-09 多声源声音信号处理方法及装置、存储介质和电子设备 Pending CN114627889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210233049.6A CN114627889A (zh) 2022-03-09 2022-03-09 多声源声音信号处理方法及装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210233049.6A CN114627889A (zh) 2022-03-09 2022-03-09 多声源声音信号处理方法及装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN114627889A true CN114627889A (zh) 2022-06-14

Family

ID=81900349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210233049.6A Pending CN114627889A (zh) 2022-03-09 2022-03-09 多声源声音信号处理方法及装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN114627889A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117357094A (zh) * 2023-11-15 2024-01-09 读取(北京)科技有限公司 应用声音强度和二氧化碳检测的呼吸状态验证系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117357094A (zh) * 2023-11-15 2024-01-09 读取(北京)科技有限公司 应用声音强度和二氧化碳检测的呼吸状态验证系统

Similar Documents

Publication Publication Date Title
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
CN108564963A (zh) 用于增强语音的方法和装置
CN110706719B (zh) 一种语音提取方法、装置、电子设备及存储介质
CN110088835B (zh) 使用相似性测度的盲源分离
CN112562648A (zh) 基于元学习的自适应语音识别方法、装置、设备及介质
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN110765868A (zh) 唇读模型的生成方法、装置、设备及存储介质
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
CN112420049A (zh) 数据处理方法、装置及存储介质
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN114627889A (zh) 多声源声音信号处理方法及装置、存储介质和电子设备
CN112151055B (zh) 音频处理方法及装置
CN116612778B (zh) 回声及噪声抑制方法、相关装置和介质
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
CN116312570A (zh) 一种基于声纹识别的语音降噪方法、装置、设备及介质
CN117496990A (zh) 语音去噪方法、装置、计算机设备及存储介质
CN111402918A (zh) 一种音频处理方法、装置、设备及存储介质
CN116312559A (zh) 跨信道声纹识别模型的训练方法、声纹识别方法及装置
CN111370017B (zh) 一种语音增强方法、装置、系统
CN116486789A (zh) 语音识别模型的生成方法、语音识别方法、装置及设备
CN113707149A (zh) 音频处理方法和装置
CN116982111A (zh) 音频特征补偿方法、音频识别方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination