CN111883166A - 一种语音信号处理方法、装置、设备以及存储介质 - Google Patents

一种语音信号处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN111883166A
CN111883166A CN202010693401.5A CN202010693401A CN111883166A CN 111883166 A CN111883166 A CN 111883166A CN 202010693401 A CN202010693401 A CN 202010693401A CN 111883166 A CN111883166 A CN 111883166A
Authority
CN
China
Prior art keywords
sound source
target sound
voice signal
mask
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010693401.5A
Other languages
English (en)
Other versions
CN111883166B (zh
Inventor
吴晓潭
贡昱洲
罗友
李峥
魏建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010693401.5A priority Critical patent/CN111883166B/zh
Priority claimed from CN202010693401.5A external-priority patent/CN111883166B/zh
Publication of CN111883166A publication Critical patent/CN111883166A/zh
Application granted granted Critical
Publication of CN111883166B publication Critical patent/CN111883166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本申请公开了一种语音信号处理方法、装置、设备以及存储介质,涉及自然语言处理、深度学习和语音交互技术领域。具体实现方案为:对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;根据所述至少两路语音信号,确定目标声源的掩码;根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。以高质量从多个声源的原始语音信号中提取出目标声源的语音信号。

Description

一种语音信号处理方法、装置、设备以及存储介质
技术领域
本申请涉及信号处理技术领域,尤其自然语言处理、深度学习和语音交互技术,具体涉及一种语音信号处理方法、装置、设备以及存储介质。
背景技术
在语音交互场景中,多声源(例如多人说话,或者人声和非人声等)场景十分常见,例如智能家居语音交互场景和车载语音交互场景等。如何从多个声源的原始语音信号中提取目标声源的语音信号十分重要,因此亟需一种能够很好提取出目标声源的语音信号的方法。
发明内容
本公开实施例提供了一种语音信号处理方法、装置、设备以及存储介质,以高质量从多个声源的原始语音信号中提取出目标声源的语音信号。
根据本公开的一方面,提供了一种语音信号处理方法,该方法包括:
对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
根据所述至少两路语音信号,确定目标声源的掩码;
根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。
根据本公开的另一方面,提供了一种语音信号处理装置,该装置包括:
波束形成模块,用于对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
掩码确定模块,用于根据所述至少两路语音信号,确定目标声源的掩码;
目标信号确定模块,用于根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的语音信号处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请任一实施例所述的语音信号处理方法。
根据本申请的技术解决了现有实数网络无法恢复目标声源的相位特征等的问题,可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为高质量提取目标声源的语音信号提供了一种可选方案。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的一种语音信号处理方法的流程图;
图2是根据本申请实施例提供的另一种语音信号处理方法的流程图;
图3A是根据本申请实施例提供的一种语音信号处理流程示意图;
图3B是根据本申请实施例提供的一种采用IVA算法在车载高噪声数据下的处理效果示意图;
图3C是根据本申请实施例提供的一种采用本申请方案在车载高噪声数据下的处理效果示意图;
图4是根据本申请实施例提供的一种语音信号处理装置的结构示意图;
图5是用来实现本申请实施例的语音信号处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请实施例提供的一种语音信号处理方法的流程图。本申请实施例适用于在多个声源场景(即多个人同时说话,或者说话人与多噪声源并存等场景,如会议室语音交互、车载语音交互、智能家居语音交互和审讯场景等)下,如何高质量从多个声源的原始语音信号中提取目标声源的语音信号的情况。该实施例可以由语音信号处理装置来执行,该装置可以采用软件和/或硬件来实现,并可集成于语音信号处理功能的电子设备上,如服务器上。如图1所示,该方法包括:
S101,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号。
本实施例中,所谓麦克风阵列可以由至少两个麦克风构成,且麦克风阵列的形状包括但不限于线性阵列、平面阵列以及立体阵列等;此外,本实施例对麦克风之间的间距不做限定,可以相同,也可以不同。原始语音信号是指在多个声源场景中,麦克风阵列所采集的多个(两个或两个以上)候选声源的混合信号。例如,在会议室场景下,原始语音信号可以是多个人说话所产生的声源信号混合而成;在车载环境下,原始语音信号可以是车内人员说话所产生的声源信号和车外环境所产生的噪声源信号混合而成;在机械环境下,原始语音信号可以是工厂内不同机械运转所产生的多个噪声源信号混合而成等。
具体的,可以采用波束算法,将麦克风阵列所在空间分割为多个波束,拾取原始语音信号在每一波束内的信号,从而可得到多路语音信号。可选的,本实施例中的波束算法可根据实际场景中麦克风的位置信息和声源位置信息等进行确定,包括但不限于差分波束和延迟和波束等;分割可根据实际声源场景信息确定,包括但不限于等空间划分和重叠划分等。本实施例采用波束算法对原始语音信号进行处理,不仅可提取到多路语音信号,而且还可达到抑制噪声的目的。
对于声源位置相对固定的场景,如车载场景、审讯场景和会议场景等,为了可自动快速且精准从原始语音信号中获取到多路语音信号,本实施例可以采用人工智能技术如通过对神经网络模型进行训练,得到神经网络波束,进而采用神经网络波束,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行处理,得到至少两路语音信号。可选的,本实施例中的神经网络波束可通过如下方式确定:可以预先采用包含声源空间信息的冲击响应与原始语音信号做卷积生成训练数据,利用训练数据对神经网络模型进行训练,得到神经网络波束。需要说明的是,本实施例基于神经网络波束,能够自动且快速获取到多路语音信号,使语音信号处理更加智能化。
S102,根据至少两路语音信号,确定目标声源的掩码。
本实施例中,目标声源可以是候选声源中的一个或多个。例如,车载场景中,车辆上4个座位处的人正在交互,则候选声源可以为4个座位处的人(进一步可以是人的嘴巴);目标声源可以是正驾驶和副驾驶中的至少一个。目标声源的掩码即为目标声源的语音信号的掩码。可选的,目标声源的掩码可以为实数掩码,还可以为复数掩码;实数掩码用于表征目标声源的语音信号的幅度和能量权重,复数掩码用于表征目标声源的语音信号在特征域的复数权重。由于实数掩码不能辩证信号的相位,本实施例中,目标声源的掩码优选为目标声源的复数掩码。其中,复数掩码可以采用a+b*i的形式表示,其中a,b都是浮点数。
可选的,本实施例可以基于预先训练的神经网络,对至少两路语音信号进行分析处理,可得到目标声源的掩码。
需要说明的是,相比于现有的实数网络方案,本申请分离得到目标声源的语音信号的质量更优越,且语音识别率高。此外,现有的深度学习方案多为实数网络方案,只能恢复目标语音幅度谱,无法恢复目标语音相位;且现有复数网络虽然可以同时恢复目标语音的幅度和相位,但计算量过大,在实际应用中无法部署。而本实施例中,经过S101获取的多路语音信号为神经网络提供了空间和相位信息;进而在仅采用实数网络的情况下,经过S103也可获得复数掩码,提升了系统的整理性能。为高质量提取目标声源的语音信号提供了一种可选方案。
S103,根据目标声源的掩码和原始语音信号,得到目标声源的语音信号。
具体的,在得到目标声源的掩码之后,可以对原始语音信号进行编码,之后将目标声源的掩码和经过编码后的信号做乘法运算,进而根据乘积得到目标声源的语音信号。进一步的,为了快速精准获取目标声源的语音信号,可选的,可以根据目标声源位置信息,从至少两路语音信号中确定目标声源所关联的语音信号(即目标声源所在方位的语音信号)对所确定的语音信号进行编码,之后可以将目标声源的掩码和经过编码后的该路语音信号做乘积,进而根据乘积得到目标声源的语音信号。
可选的,在得到目标声源的语音信号之后,可以根据目标声源的语音信号和声源场景信息,确定对终端的控制指令。本实施例中,声源场景信息是指声源当前所处场景的信息,例如车载场景,会议场景等。终端是一种具有智能技术的设备,可选的,本实施例中终端可以为车载终端,控制指令是指可以控制终端执行一系列操作的语音指令。
具体的,可以通过对目标声源的语音信号进行语义分析;之后根据声源场景信息从分析结果中获取与声源当前所处场景相关的信息,根据所获取的信息,确定对终端的控制指令。例如,车载场景下,目标声源的语音信号为正驾驶的语音信号,可以根据声源场景信息剔除正驾驶与其他人聊天的信息;从剩余信息中确定正驾驶对车载终端的控制指令,如开启导航、关闭空调或打开车窗等。本实施例,在高质量的获取目标声源的语音信号之后,通过结合声源场景信息,可以准确分析出用户的意图,进而提升了语音交互体验。
需要说明的是,通过大量实测数据表明,与传统的语音信号处理方案相比,本实施例在不同噪声场景下,对终端(如车载终端)的唤醒性能更优,进而提升了语音交互体验。
本申请实施例的技术方案,通过对原始语音信号进行波束形成得到多路语音信号,并根据多路语音信号可确定目标声源的掩码,进而根据目标声源的掩码和原始语音信号即可得到目标声源的语音信号。与现有的实数网络方案相比,本实施例可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为无失真提取目标声源的语音信号提供了一种可选方案。
图2是根据本申请实施例提供的另一种语音信号处理方法的流程图。本实施例在上述实施例的基础上,提供了一种确定目标声源的掩码(进一步为复数掩码)的方式。如图2所示,该方法具体包括:
S201,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号。
S202,对至少两路语音信号进行特征域变换,并从特征域中提取至少两个候选声源的语音信号特征。
可选的,麦克风阵列采集到的原始语音信号一般是时域信号,进而经过S201得到的至少两路语音信号也为时域信号,时域信号是以时间轴为坐标表示动态信号;为了减少实际部署和训练等过程中的计算负担,本实施例中,可以采用子带分解算法、傅立叶变换算法、拉普拉斯变换算法或深度学习训练的卷积层等,将语音信号从时域变换到特征域。例如,可以通过傅里叶变换将原始语音信号从时域转换到频域,或者,通过拉普拉斯变换将原始语音信号从时域转换到复频域等。
之后,可以采用预先训练的卷积神经网络、时域卷积神经网络和长短期记忆网络等中的一种或多种,从特征域中提取多个候选声源的语音信号特征。可选的,每一候选声源的语音信号特征可以用于辨别该声源。
进一步的,从特征域中提取至少两个候选声源的语音信号特征可以是:确定至少两路语音信号之间的差异特征;其中差异特征包括幅度特征和相位特征;根据差异特征,从特征域中提取至少两个候选声源的语音信号特征。本实施例中的,所谓差异特征指的是多路语音信号在特征域的差异,例如特征域为频域,差异特征包括但不限于幅度特征、相位特征和频带之间的相关性特征等。
具体的,将经过特征域变换后的特征域信号输入至卷积神经网络,或者卷积神经网络和长短期记忆网络的混合网络,卷积神经网络或混合网络可对所输入的信号进行分析,确定多路语音信号在特征域的差异(即差异特征),之后,基于差异特征,对特征域信号进行分类,从而实现从特征域中提取至少两个候选声源的语音信号特征。
需要说明的是,本实施例基于多路语音信号之间的差异特征,来提取不同声源的语音信号特征,可保证所提取的每一声源的语音信号特征的全面性,为后续从多个声源的原始语音信号中高质量即无失真提取目标声源的语音信号奠定了基础。
S203,采用复数掩码生成器对所提取的至少两个候选声源的语音信号特征进行融合和排序处理,得到目标声源的复数掩码。
进一步的,本实施例中的复数掩码可以用于表征目标声源的语音信号在特征域的复数权重。复数掩码生成器可以是但不限于预先训练的全连接网络和卷积神经网络。
需要说明的是,本实施例中的复数掩码生成器本身含有掩盖掉不需要特征,提取需要特征的功能。而且,本实施例中的排序可以包含两层含义,第一层:对同一声源的特征进行排序(即同一声源内部排序);第二层:对不同声源的输出顺序进行排序(即不同声源之间的排序)。可以理解的是,在目标声源只有一个的情况下,排序就只有第一层含义。
进而,在目标声源的个数为一个的情况下,本实施例中,可以采用复数掩码生成器对S202所提取的不同候选声源的语音信号的特征进行融合和排序(即对不同分离特征进行加权组合),进而输出目标声源的复数掩码。
进一步的,在目标声源的个数为多个的情况下,对每一目标声源的不同特征进行排序和融合之后,可以按照设定的顺序对融合后的不同声源的特征进行排序,依据排序结果输出目标声源的复数掩码。例如,对于车载场景,原始语音信号中包括4个座位上人说话的语音,通过S201可以得到4路语音信号;之后执行S202和S203步骤,在S204中采用掩码生成器进行处理之后,可以得到正驾驶和副驾驶的语音信号的复数掩码。
此外,需要说明的是,本实施例中的原始语音信号可以由人说话声和噪声混合而成,进而候选声源可以包括人和噪声源。例如,对于车载场景,车辆中只有正驾驶的座位上有人,进而经过麦克风阵列所采集到的原始语音信号由正驾驶上驾驶员说话声和噪声混合而成。经过S202所提取出的两个候选声源的语音信号特征分别为噪声源的语音信号特征和正驾驶上驾驶员的语音信号特征;采用S203之后,可以得到正驾驶的语音信号的复数掩码。
S204,根据目标声源的复数掩码和原始语音信号,得到目标声源的语音信号。
可选的,在目标声源的掩码为复数掩码,复数掩码用于表征目标声源的语音信号在特征域的复数权重的场景下,可以直接将原始语音信号从时域变换到特征域,从特征域中提取原始语音信号的特征,之后根据目标声源的复数掩码和原始语音信号的特征,得到目标声源特征;根据目标声源特征,得到目标声源的语音信号。
具体的,可以是将目标声源的复数掩码和原始语音信号的特征做乘积,进而得到目标声源特征;对目标声源特征进行时域变换(即将目标声源特征从特征域变换到时域),即可得到目标声源的语音信号。本实施例提供了一种确定目标声源的语音信号的可选方式。
进一步的,为了快速精准获取目标声源的语音信号,可选的,可以根据目标声源位置信息,从至少两路语音信号中确定目标声源所关联的语音信号;根据目标声源的复数掩码和所确定的语音信号的特征(即为从特征域中提取的该路语音信号的特征),得到目标声源特征;根据目标声源特征,得到目标声源的语音信号。
此外,在目标声源的掩码为实数掩码,实数掩码用于表征目标声源的语音信号的幅度和能量权重的场景下,也可以直接将原始语音信号从时域变换到特征域,从特征域中提取原始语音信号的特征,之后根据目标声源的实数掩码和原始语音信号的特征,得到目标声源特征;根据目标声源特征,得到目标声源的语音信号。需要说明的是,目标声源的掩码为实数掩码场景下得到目标声源的语音信号的过程,与上述目标声源的掩码为复数掩码场景下得到目标声源的语音信号的过程相类似,此处不再赘述。
可以理解的是,经过S201获取的多路语音信号中已包括空间和相位信息;通常多路语音信号之间的差异在频域中可以用幅度和相位来表征,进而卷积神经网络或者混合网路通过学习幅度和相位之间的差异,即可学习到空间和相位信息。也就是说经过S201为卷积神经网络或者混合网路提供了空间和相位信息;进而在仅采用实数网络的情况下,经过S203也可获得复数掩码,提升了系统的整理性能。为无失真提取目标声源的语音信号提供了一种可选方案。
本申请实施例的技术方案,通过对原始语音信号进行波束形成得到多路语音信号,对多路语音信号进行特征域变换,并采用复数掩码生成器对从特征域中提取的不同声源的语音信号特征进行处理,可得到目标声源的复数掩码,进而根据目标声源的复数掩码和原始语音信号即可得到目标声源的语音信号。与现有的实数网络方案相比,本实施例通过波束形成和复数掩码配合使用,可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为无失真提取目标声源的语音信号提供了一种可选方案。
图3A是根据本申请实施例提供的一种语音信号处理流程示意图;以车载场景为例,结合图3A,本实施例的语音信号处理过程具体如下:
通过麦克风阵列采集车辆上4个座位上人说话的声音混合而成的原始语音信号,对麦克风阵列所采集的原始语音信号进行波束形成,可得到4路语音信号。其中,图3A中的BF(BeamFormer,波束形成)模块的参数W1、W2、....Wn(n为正整数,由于此处将原始语音信号进行波束处理得到4路语音信号,因此n为4)可以由波束形成的方式确定,例如可以采用差分波束进行确定等。
之后,可以通过图3A中所示的编码单元(或者称编码器)对所得到的四路语音信号进行特征域变换,得到特征域信号,其中,编码单元可以包括但不限于子带分解算法、傅立叶变换算法、拉普拉斯变换算法或深度学习训练的卷积层等。
通过特征提取单元(或者称分离器)从特征域中提取4个候选声源的语音信号特征;采用复数掩码生成器对所提取的4个候选声源的语音信号特征进行融合和排序等处理,可以得到目标声源的复数掩码(如正驾驶和副驾驶的语音信号的复数掩码)。其中,特征提取单元可以包括但不限于预先训练的卷积神经网络、时域卷积神经网络和长短期记忆网络等中的一种或多种。
之后,可以将目标声源的复数掩码和原始语音信号的特征做乘积,进而得到目标声源特征。进一步的,可以根据目标声源位置信息,从四路语音信号中确定目标声源所关联的语音信号;根据目标声源的复数掩码和所确定的语音信号的特征(即为从特征域中提取的该路语音信号的特征),得到目标声源特征。
继续参见图3A,可以通过解码器对目标声源特征进行恢复,以完成目标声源的语音信号在时域的重建工作,即得到目标声源的语音信号。可选的,解码器可以包括但不限于:子带合成器、逆傅立叶变换、以及深度学习训练的卷积层等。
需要说明的是,通过大量实测数据表明,与传统的语音信号处理方案相比,通过本实施例获得的目标声源的语音信号无明显的频谱损伤,音频听感自然舒适,用户的体验更佳。例如,图3B是采用独立向量分析算法(Independent Vector Analysis,IVA)在车载高噪声数据下的处理效果图,图3C采用本申请方案在车载高噪声数据下的处理效果图,图3B中1至4处存在明显的语音损伤,而图3C中对应位置处无可见损伤。
而且,本实施例在不同噪声场景下,对终端(如车载终端)的唤醒性能更优,如表1所示,本实施例对终端的唤醒性能相比于IVA算法有较大幅度提升,其中,低噪声唤醒误差相对降低86%,中噪声唤醒误差相对降低75.5%,高噪声唤醒误差相对降低45%。此外,本实施例在不同噪声场景下,相比于IVA算法,语音识别率较高,如表2所示。其中,错误率相对降低34.37%。
Figure BDA0002590056240000101
表1IVA算法与本实施例在不同噪声场景下对终端唤醒情况
Figure BDA0002590056240000102
表2IVA算法与本实施例在不同噪声场景下语音识别率情况
本申请实施例的技术方案,通过对原始语音信号进行波束形成得到多路语音信号,对多路语音信号进行特征域变换,并采用复数掩码生成器对从特征域中提取的不同声源的语音信号特征进行处理,可得到目标声源的复数掩码,进而根据目标声源的复数掩码和原始语音信号即可得到目标声源的语音信号。与传统的信号处理方案相比,本实施例对终端的唤醒性能效果更优,且语音识别率相对较高;与现有的实数网络方案相比,本实施例通过波束形成和复数掩码配合使用,可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为无失真提取目标声源的语音信号提供了一种可选方案。
图4是根据本申请实施例提供的一种语音信号处理装置的结构示意图。本申请实施例适用于在多个声源场景(即多个人同时说话,或者说话人与多噪声源并存等场景,如会议室语音交互、车载语音交互和智能家居语音交互等场景)下,如何高质量从多个声源的原始语音信号中提取目标声源的语音信号的情况。该装置可实现本申请任意实施例所述的语音信号处理方法。该装置可以采用软件和/或硬件来实现,并可集成于语音信号处理功能的电子设备上,如服务器上。该装置400具体包括:
波束形成模块401,用于对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
掩码确定模块402,用于根据至少两路语音信号,确定目标声源的4掩码;
目标信号确定模块403,用于根据目标声源的4掩码和原始语音信号,得到目标声源的语音信号。
本申请实施例的技术方案,通过对原始语音信号进行波束形成得到多路语音信号,并根据多路语音信号可确定目标声源的4掩码,进而根据目标声源的复数掩码和原始语音信号即可得到目标声源的语音信号。与现有的实数网络方案相比,本实施例可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为高质量提取目标声源的语音信号提供了一种可选方案。
示例性的,波束形成模块401具体可以用于:
采用神经网络波束,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行处理,得到至少两路语音信号。
示例性的,掩码确定模块402可以包括:
编码单元,用于对至少两路语音信号进行特征域变换;
特征提取单元,用于从特征域中提取至少两个候选声源的语音信号特征;
掩码确定单元,用于采用复数掩码生成器对所提取的至少两个候选声源的语音信号特征进行融合和排序处理,得到目标声源的复数掩码。
示例性的,特征提取单元具体可以用于:
确定至少两路语音信号之间的差异特征;差异特征包括幅度特征和相位特征;
根据差异特征,从特征域中提取至少两个候选声源的语音信号特征。
示例性的,目标信号确定模块403具体可以用于:
根据目标声源的掩码和原始语音信号的特征,得到目标声源特征;
根据目标声源特征,得到目标声源的语音信号。
示例性的,上述装置还可以包括:
指令确定模块,用于根据目标声源的语音信号和声源场景信息,确定对终端的控制指令。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的语音信号处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音信号处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音信号处理方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音信号处理方法对应的程序指令/模块(例如,附图4所示的波束形成模块401、掩码确定模块402和目标信号确定模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音信号处理方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理方法的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语音信号处理方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与语音信号处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,通过对原始语音信号进行波束形成得到多路语音信号,并根据多路语音信号可确定目标声源的掩码,进而根据目标声源的掩码和原始语音信号即可得到目标声源的语音信号。与现有的实数网络方案相比,本实施例可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为高质量提取目标声源的语音信号提供了一种可选方案。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种语音信号处理方法,包括:
对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
根据所述至少两路语音信号,确定目标声源的掩码;
根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。
2.根据权利要求1所述的方法,其中,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号,包括:
采用神经网络波束,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行处理,得到至少两路语音信号。
3.根据权利要求1所述的方法,其中,根据所述至少两路语音信号,确定目标声源的掩码,包括:
对所述至少两路语音信号进行特征域变换,并从所述特征域中提取至少两个候选声源的语音信号特征;
采用复数掩码生成器对所提取的所述至少两个候选声源的语音信号特征进行融合和排序处理,得到目标声源的复数掩码。
4.根据权利要求3所述的方法,其中,从所述特征域中提取至少两个候选声源的语音信号特征,包括:
确定所述至少两路语音信号之间的差异特征;所述差异特征包括幅度特征和相位特征;
根据所述差异特征,从所述特征域中提取至少两个候选声源的语音信号特征。
5.根据权利要求1-4任一所述的方法,其中,根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号,包括:
根据所述目标声源的掩码和所述原始语音信号的特征,得到目标声源特征;
根据所述目标声源特征,得到所述目标声源的语音信号。
6.根据权利要求1所述的方法,还包括:
根据所述目标声源的语音信号和声源场景信息,确定对终端的控制指令。
7.一种语音信号处理装置,包括:
波束形成模块,用于对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
掩码确定模块,用于根据所述至少两路语音信号,确定目标声源的掩码;
目标信号确定模块,用于根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。
8.根据权利要求7所述的装置,其中,所述波束形成模块具体用于:
采用神经网络波束,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行处理,得到至少两路语音信号。
9.根据权利要求7所述的装置,其中,所述掩码确定模块包括:
编码单元,用于对所述至少两路语音信号进行特征域变换;
特征提取单元,用于从所述特征域中提取至少两个候选声源的语音信号特征;
掩码确定单元,用于采用复数掩码生成器对所提取的所述至少两个候选声源的语音信号特征进行融合和排序处理,得到目标声源的复数掩码。
10.根据权利要求9所述的装置,其中,所述特征提取单元具体用于:
确定所述至少两路语音信号之间的差异特征;所述差异特征包括幅度特征和相位特征;
根据所述差异特征,从所述特征域中提取至少两个候选声源的语音信号特征。
11.根据权利要求7-10任一所述的装置,其中,所述目标信号确定模块具体用于:
根据所述目标声源的掩码和所述原始语音信号的特征,得到目标声源特征;
根据所述目标声源特征,得到所述目标声源的语音信号。
12.根据权利要求7所述的装置,还包括:
指令确定模块,用于根据所述目标声源的语音信号和声源场景信息,确定对终端的控制指令。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语音信号处理方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的语音信号处理方法。
CN202010693401.5A 2020-07-17 一种语音信号处理方法、装置、设备以及存储介质 Active CN111883166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010693401.5A CN111883166B (zh) 2020-07-17 一种语音信号处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010693401.5A CN111883166B (zh) 2020-07-17 一种语音信号处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111883166A true CN111883166A (zh) 2020-11-03
CN111883166B CN111883166B (zh) 2024-05-10

Family

ID=

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435659A (zh) * 2021-01-28 2021-03-02 北京威泰视信科技有限公司 一种信号处理方法、装置、电子设备及介质
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN113129918A (zh) * 2021-04-15 2021-07-16 浙江大学 联合波束形成和深度复数U-Net网络的语音去混响方法
CN113132519A (zh) * 2021-04-14 2021-07-16 Oppo广东移动通信有限公司 电子设备、电子设备的语音识别方法及存储介质
CN113823273A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
US20230178061A1 (en) * 2021-12-08 2023-06-08 Hyundai Motor Company Method and device for personalized sound masking in vehicle
WO2024016793A1 (zh) * 2022-07-20 2024-01-25 深圳Tcl新技术有限公司 语音信号的处理方法、装置、设备及计算机可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076769A1 (en) * 2007-03-19 2010-03-25 Dolby Laboratories Licensing Corporation Speech Enhancement Employing a Perceptual Model
US20100111290A1 (en) * 2008-11-04 2010-05-06 Ryuichi Namba Call Voice Processing Apparatus, Call Voice Processing Method and Program
CN101852846A (zh) * 2009-03-30 2010-10-06 索尼公司 信号处理设备、信号处理方法和程序
CN104995679A (zh) * 2013-02-13 2015-10-21 美国亚德诺半导体公司 信号源分离
US9502021B1 (en) * 2014-10-09 2016-11-22 Google Inc. Methods and systems for robust beamforming
CN107172018A (zh) * 2017-04-27 2017-09-15 华南理工大学 公共背景噪声下激活式的声纹密码安全控制方法及系统
CN107785029A (zh) * 2017-10-23 2018-03-09 科大讯飞股份有限公司 目标语音检测方法及装置
CN108564963A (zh) * 2018-04-23 2018-09-21 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076769A1 (en) * 2007-03-19 2010-03-25 Dolby Laboratories Licensing Corporation Speech Enhancement Employing a Perceptual Model
US20100111290A1 (en) * 2008-11-04 2010-05-06 Ryuichi Namba Call Voice Processing Apparatus, Call Voice Processing Method and Program
CN101852846A (zh) * 2009-03-30 2010-10-06 索尼公司 信号处理设备、信号处理方法和程序
CN104995679A (zh) * 2013-02-13 2015-10-21 美国亚德诺半导体公司 信号源分离
US9502021B1 (en) * 2014-10-09 2016-11-22 Google Inc. Methods and systems for robust beamforming
CN107172018A (zh) * 2017-04-27 2017-09-15 华南理工大学 公共背景噪声下激活式的声纹密码安全控制方法及系统
CN107785029A (zh) * 2017-10-23 2018-03-09 科大讯飞股份有限公司 目标语音检测方法及装置
CN108564963A (zh) * 2018-04-23 2018-09-21 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宫琴;郑硕;: "基于波束形成与最大似然估计的近距离双麦克风语音增强算法", 清华大学学报(自然科学版), no. 06, 15 June 2018 (2018-06-15) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435659A (zh) * 2021-01-28 2021-03-02 北京威泰视信科技有限公司 一种信号处理方法、装置、电子设备及介质
CN113132519A (zh) * 2021-04-14 2021-07-16 Oppo广东移动通信有限公司 电子设备、电子设备的语音识别方法及存储介质
CN113129918A (zh) * 2021-04-15 2021-07-16 浙江大学 联合波束形成和深度复数U-Net网络的语音去混响方法
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN113113041B (zh) * 2021-04-29 2022-10-11 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN113823273A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113823273B (zh) * 2021-07-23 2024-02-13 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
US20230178061A1 (en) * 2021-12-08 2023-06-08 Hyundai Motor Company Method and device for personalized sound masking in vehicle
WO2024016793A1 (zh) * 2022-07-20 2024-01-25 深圳Tcl新技术有限公司 语音信号的处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110459238B (zh) 语音分离方法、语音识别方法及相关设备
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Gao et al. Visualvoice: Audio-visual speech separation with cross-modal consistency
CN110544488B (zh) 一种多人语音的分离方法和装置
US20190198024A1 (en) Permutation Invariant Training for Talker-Independent Multi-Talker Speech Separation
Pal et al. Blind source separation: A review and analysis
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
CN110400572B (zh) 音频增强方法及系统
US20240029736A1 (en) Voice wakeup method and apparatus, storage medium, and system
CN111863020B (zh) 语音信号处理方法、装置、设备及存储介质
JP7214798B2 (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
CN112466318A (zh) 语音处理方法、装置及语音处理模型的生成方法、装置
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN110148212B (zh) 一种动作序列生成方法及装置、电子设备和存储介质
CN112466327B (zh) 语音处理方法、装置和电子设备
CN113823273B (zh) 音频信号处理方法、装置、电子设备及存储介质
Paikrao et al. Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications
CN113077779A (zh) 一种降噪方法、装置、电子设备以及存储介质
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
CN111883166B (zh) 一种语音信号处理方法、装置、设备以及存储介质
Jeon et al. Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model
CN111883166A (zh) 一种语音信号处理方法、装置、设备以及存储介质
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN114187892A (zh) 一种风格迁移合成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant