CN111128221A - 一种音频信号处理方法、装置、终端及存储介质 - Google Patents

一种音频信号处理方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN111128221A
CN111128221A CN201911302374.8A CN201911302374A CN111128221A CN 111128221 A CN111128221 A CN 111128221A CN 201911302374 A CN201911302374 A CN 201911302374A CN 111128221 A CN111128221 A CN 111128221A
Authority
CN
China
Prior art keywords
signal
signals
sound source
microphone
frequency estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911302374.8A
Other languages
English (en)
Other versions
CN111128221B (zh
Inventor
侯海宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Priority to CN201911302374.8A priority Critical patent/CN111128221B/zh
Publication of CN111128221A publication Critical patent/CN111128221A/zh
Priority to US16/888,388 priority patent/US11205411B2/en
Priority to EP20179695.0A priority patent/EP3839950B1/en
Application granted granted Critical
Publication of CN111128221B publication Critical patent/CN111128221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/222Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only  for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开是关于一种音频信号处理方法,所述方法包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。本公开还公开了一种音频信号处理装置、终端及存储介质。

Description

一种音频信号处理方法、装置、终端及存储介质
技术领域
本公开涉及通信技术领域,尤其涉及一种音频信号处理方法、装置、终端及存储介质。
背景技术
相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。
因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强,而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。
发明内容
本公开提供一种音频信号处理方法、装置、终端及存储介质。
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。
上述方案中,所述对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号,包括:
基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。
上述方案中,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
所述基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号,包括:
基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。
上述方案中,所述方法还包括:
若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
上述方案中,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:
基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
上述方案中,所述对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值,包括:
使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
上述方案中,若所述声源为N个,其中,N为大于或等于2的自然数;
所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号,包括:
基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;
基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。
根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:
检测模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
第一获得模块,用于对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
第一处理模块,用于基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
第二处理模块,用于基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
第三处理模块,用于基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。
上述方案中,所述第一获得模块,包括:
第一获得单元,用于基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
第二获得单元,用于组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。
上述方案中,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
第一获得单元,用于基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。
上述方案中,所述第一获得模块,还包括:
第三获得单元,用于若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
上述方案中,所述第一处理模块,包括:
第一处理单元,用于基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
第二处理单元,用于对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
上述方案中,所述第二处理单元,用于使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
上述方案中,若所述声源为N个,其中,N为大于或等于2的自然数;
所述第二处理模块,包括:
第三处理单元,用于基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X 为所述麦克风的总个数;
第四处理单元,用于基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。
根据本公开实施例的第三方面,提供一种终端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:用于执行所述可执行指令时,实现本公开任一实施例所述的音频信号处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时实现本公开任一实施例所述的音频信号处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,通过对至少两个麦克风的原始带噪信号进行分离,以获得至少两个声源发出的声音在各所述麦克风的时频估计信号,能够利用不同声源信号间的独立性进行初步分离,从而将原始带噪信号中至少两个声源发出的声音分开,如此,相对于现有技术中,利用多个麦克风的波束形成技术实现对声源信号进行分离来说,无需考虑该些麦克风的位置,从而能够实现更高精准度的声源发出声音的音频信号的分离。
且,本公开实施例中,还能基于所述时频估计信号,获得至少所述两个声源分别在每一个麦克风的掩蔽值,并基于每一个麦克风所述原始带噪信号及所述掩蔽值,获取至少所述两个声源发出的声音的更新后的时频估计信号;如此,本公开实施例还能根据原始带噪信号及由初步分离出的时频估计信号,进一步实现对至少两个声源发出声音的分离;且,由于其掩蔽值是各声源的所述时频估计信号在分别在每一个麦克风的原始带噪信号的占比;如此,能够将初次分离时部分没有分离出的频带恢复到各自对应的声源的音频信号中,从而能减小分离后的音频信号的语音损伤度,能够使得分离出的各声源的音频信号质量更高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。
图2是根据一示例性实施例示出的一种音频信号处理方法的应用场景的框图。
图3是根据一示例性实施例示出的一种音频信号处理方法的流程图。
图4是根据一示例性实施例示出的一种音频信号处理装置的示意图。
图5是根据一示例性实施例示出的一种终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,所述方法包括以下步骤。
步骤S11,由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
步骤S12,对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
步骤S13,基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
步骤S14,基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
步骤S15,基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。
本公开实施例所述的方法应用在终端中。这里,所述终端为集成了两个或两个以上麦克风的电子设备。例如,所述终端可以为车载终端、计算机、或服务器等。在一实施例中,所述终端还可以是:与集成了两个或两个以上麦克风的预定设备连接的电子设备;所述电子设备基于所述连接接收所述预定设备采集的音频信号,且基于所述连接将处理后的音频信号发送给所述预定设备。例如,所述预定设备为音箱等。
在实际应用中,所述终端中包括至少两个麦克风,所述至少两个麦克风同时检测至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号。这里,可以理解的是,本实施例中所述至少两个麦克风对所述两个声源发出的音频信号是同步进行检测的。
在本公开实施例的所述音频信号处理方法在线模式进行,也可以是在离线模式进行的。其中,所述离线模式进行是指,可以是获取音频帧的原始带噪信号及分离音频帧的音频信号可以同时进行。其中,所述离线模式进行是指,需要对预定时间内的音频帧的原始带噪信号获取完之后,才开始对该预定时间内的音频帧的音频信号进行分离。
在本公开实施例中,所述麦克风为2个或2个以上,所述声源为2个或2个以上。
在本公开实施例中,所述原始带噪信号为:包括至少两个声源发出的声音的混合信号。例如,所述麦克风为2个,分别为:麦克风1和麦克风2;所述声源为2个,分别为声源 1和声源2;则所述麦克风1的原始带噪信号为包括声源1和声源2的音频信号;所述麦克风2原始带噪信号同样也是均包括声源1和声源2音频信号。
例如,所述麦克风为3个,分别为麦克风1、麦克风2和麦克风3;所述声源为3个,分别为声源1、声源2和声源3;则所述麦克风1的原始带噪信号为包括声源1、声源2 和声源3的音频信号;所述麦克风2和所述麦克风3的原始带噪信号同样也是均包括声源 1、声源2和声源3的音频信号。
这里,所述音频信号可以为更新后的时频估计信号经过傅里叶逆变换的值。
这里,若所述时频估计信号为经过第一次分离的信号,则所述更新后的时频估计信号为经过第二次分离的信号。
这里,所述掩蔽值是,各声源的所述时频估计信号分别在每一个麦克风的原始带噪信号的占比
可以理解的是,若一个声源发出的声音在一个对应的麦克风中信号为音频信号,则其它声源在所述麦克风中的信号为噪声信号。本公开实施例是需要从至少两个麦克风中恢复至少两个声源发出的声源。
本公开实施例中,通过对至少两个麦克风的原始带噪信号进行分离,以获得至少两个声源发出的声音在各所述麦克风的时频估计信号,能够利用不同声源信号间的独立性进行初步分离,从而将原始带噪信号中至少两个声源发出的声音分开,如此,相对于现有技术中,利用多个麦克风的波束形成技术实现对声源信号进行分离来说,无需考虑该些麦克风的位置,从而能够实现更高精准度的声源发出声音的音频信号的分离。
且,本公开实施例中,还能基于所述时频估计信号,获得至少所述两个声源分别在每一个麦克风的掩蔽值,并基于每一个麦克风所述原始带噪信号及所述掩蔽值,获取至少所述两个声源发出的声音的更新后的时频估计信号;如此,本公开实施例还能根据原始带噪信号及由初步分离出的时频估计信号,进一步实现对至少两个声源发出声音的分离;且,由于其掩蔽值是各声源的所述时频估计信号在分别在每一个麦克风的原始带噪信号的占比;如此,能够将初次分离时部分没有分离出的频带恢复到各自对应的声源的音频信号中,从而能减小分离后的音频信号的语音损伤度,能够使得分离出的各声源的音频信号质量更高。
且,若所述音频信号处理方法应用在两个麦克风的终端设备中,相对于现有技术中至少3个以上的多个麦克风的波束形成技术来提高语音质量来说,还大大减少了麦克风的个数,降低了终端的硬件成本。
可以理解的是,在本公开实施例中,一般麦克风的个数是同于声源个数的。若在一些实施例中,麦克风的个数小于所述声源的个数,可以对所述声源的个数进行降维,以降到与所述麦克风个数相等的维度。
在一些实施例中,所述对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号,包括:
基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。
可以理解的是,麦克风采集声源发出声音的音频信号时,可以采集至少一帧音频帧的音频信号,此时采集到的音频信号为每一个麦克风的原始带噪信号。
其中,所述获取每个麦克风的每一帧的原始带噪信号,包括:
采集各麦克风的每一帧的时域信号;
将每一帧的时域信号进行频域变换,根据预定频点的频域信号确定每一帧的原始带噪信号。
这里,可以基于快速傅里叶变换(Fast Fourier Transform,FFT),将时域信号进行频域变换。或者,可以基于短时傅里叶变换(short-time Fourier transform,STFT),将时域信号进行频域变换。或者,还可以基于其它傅里叶变换,将时域信号进行频域变换。
示例性的,若第p个麦克风在第n帧的时域信号为:
Figure BDA0002322163300000071
将第n帧的时域信号变变换为频域信号,确定第n帧的原始带噪信号为:
Figure BDA0002322163300000072
其中,所述m 为第n帧时域信号的离散时间点数量,k为频点。如此,本实施例可以通过所述时域到频域的变化,可以获得每一帧的原始带噪信号。当然,获取每一帧的原始带噪信号也可以基于其它的快速傅里叶变换公式,在此不做限制。
在本公开实施例中,可以获得每一帧的原始带噪信号,再基于所述分离矩阵与当前帧的原始带噪信号,获得当前帧的第一分离信号。这里,基于所述分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号,可以为:基于分离矩阵乘当前帧的原始带噪信号,获得当前帧的第一分离信号。例如,若所述分离矩阵为W(k),若当前帧的原始带噪信号为X(k,n);则所述当前帧的第一分离信号为:Y(k,n)=W(k)X(k,n)。
在一实施例中,若所述分离矩阵为当前帧的分离矩阵,基于当前帧的分离矩阵与当前帧的原始带噪信号,获得当前帧的所述第一分离信号。
在另一实施例中,若所述分离矩阵为当前帧的前一帧的分离矩阵,基于前一帧的分离矩阵与所述当前帧的原始带噪信号,获得当前帧的所述第一分离信号。
在一实施例中,若麦克风采集到的音频信号的帧长为n,其中,n为大于或等于1的自然数,则n=1时,为第一帧。
在一些实施例中,若所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
所述基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号,包括:
基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。
这里,若所述麦克风的个数为2个,则所述单位矩阵为:
Figure BDA0002322163300000081
若所述麦克风的个数为3个,则所述单位矩阵为:
Figure BDA0002322163300000082
依次类推,若所述麦克风的个数为N个,则所述单位矩阵可以为:
Figure BDA0002322163300000083
其中,所述
Figure BDA0002322163300000084
为N×N的矩阵。
在另一些实施例中,所述若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
在一实施例中,一个音频帧可为预设时长的音频段。
示例性的,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵,具体可以为如下:则可以先根据原始带噪信号以及前一帧协方差矩阵,计算出当前帧的协方差矩阵;再基于当前帧的协方差以及前一帧的分离矩阵计算当前帧的分离矩阵。
其中,若确定n帧为当前帧,n-1为当前帧的前一帧;则可以先根据原始带噪信号以及前一帧协方差矩阵,计算出当前帧的协方差矩阵;其中,所述协方差矩阵为
Figure BDA0002322163300000091
其中,所述β为平滑系数,所述 Vp(k,n-1)为上一帧的更新协方差,所述
Figure BDA0002322163300000092
为加权系数,所述Xp(k,n)为当前帧的原始带噪信号,所述
Figure BDA0002322163300000093
为当前帧的原始带噪信号的共轭转置矩阵;这里,第一帧的协方差为零矩阵。在一实施例中,当获得当前帧的协方差之后,还可求解如下特征问题: V2(k,n)ep(k,n)=λp(k,n)V1(k,n)ep(k,n),求得当前帧的分离矩阵为
Figure BDA0002322163300000094
其中,所述λp(k,n)为特征值,所述ep(k,n)为特征向量。
在上述本实施例中,若根据当前帧的分离矩阵及当前帧的原始带噪信号,获得第一分离信号,由于分离矩阵是经过更新后的当前帧的分离矩阵,能够动态跟踪各声源发出声音在对应麦克风的占比,因而能够获得的第一分离信号更加精准,从而有利于获得更加精确的时频估计信号。若根据当前帧的前一帧的分离矩阵及当前帧的原始带噪信号,获得第一分离信号,能够使得获得第一分离信号的计算更加简单,从而简化了求取所述时频估计信号的计算过程。
在一些实施例中,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:
基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号的占比,确定为任意所述声源分别在每一个麦克风的掩蔽值。
示例性的,若麦克风为3个,分别为:麦克风1、麦克风2和麦克风3;声源为3个,分别为声源1、声源2和声源3。若所述麦克风1的原始带噪信号为X1,所述声源1、所述声源2及所述声源3的时频估计信号分别为:Y1、Y2、及Y3。则所述声源1在所述麦克风1的掩蔽值为Y1/X1,所述声源2在所述麦克风1的掩蔽值为Y2/X1,所述声源3 在所述麦克风1的掩蔽值为Y3/X1。
基于上述示例,所述掩蔽值还可以为:所述比值经对数函数关系变换后的值。例如,所述声源1在所述麦克风1的掩蔽值为:α×log(Y1/X1),所述声源2在所述麦克风1的掩蔽值为α×log(Y2/X1),所述声源3在所述麦克风1的掩蔽值为α×log(Y3/X1);其中,所述α整数。在一实施例中,所述α为20。在本实施例中,经过对数函数log变换所述比值,能够同步压缩各掩蔽值的动态范围,使得分离出的语音质量更好。
在一实施例中,所述对数函数的log的底数为10或者e。例如,在上述实施例中,所述log(Y1/X1)可以为log10(Y1/X1)或者loge(Y1/X1)。
在另一实施例中,若所述麦克风为2个,且所述声源为2个,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:
其中一个声源的时频估计信号与另一个声源的时频估计信号在同一所述麦克风的比值。
示例性的,若麦克风为2个,分别为:麦克风1和麦克风2;声源为2个,分别为:声源1和声源2;所述麦克风1的原始带噪信号为X1,所述麦克风2的原始带噪信号为 X2;所述声源1在所述麦克风1中的时频估计信号为Y11,所述声源2在所述麦克风2中的时频估计信号为Y22;则通过计算可获得所述声源2在所述麦克风1中时频估计信号 Y12=X1-Y11,获得所述声源1在所述麦克风2中的时频估计信号Y21=X2-Y22;则所述声源1在所述麦克风1的掩蔽值基于(Y11/Y12)获得;所述声源1在所述麦克风2的掩蔽值基于(Y21/Y22)获得。
在另一些实施例中,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:
基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
其中,所述对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值,包括:
使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
例如,按照sigmoid函数关系对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
这里,所述sigmoid函数为一种非线性激活函数;所述sigmoid函数用于将输入函数映射到(0,1)的区间上。在一实施例中,所述sigmoid函数为:
Figure BDA0002322163300000111
其中,所述x为掩蔽值。在另一实施例中,所述sigmoid函数为:
Figure BDA0002322163300000112
其中,所述x为掩蔽值,所述a为表征所述sigmoid函数的函数曲线的弯曲程度系数,所述c为表征所述sigmoid函数的函数曲线在x轴的平移系数。
在另一个实施例中,所述单调递增函数可以为:
Figure BDA0002322163300000113
其中,所述所述x为掩蔽值;所述a1大于1。
示例性的,若麦克风为2个,分别为:麦克风1和麦克风2;声源为2个,分别为:声源1和声源2;所述麦克风1的原始带噪信号为X1,所述麦克风2的原始带噪信号为 X2;所述声源1在所述麦克风1中的时频估计信号为Y11,所述声源2在所述麦克风2中的时频估计信号为Y22;则通过计算可获得所述声源2在所述麦克风1中时频估计信号 Y12=X1—Y11。所述声源1在所述麦克风1的掩蔽值可以为:α×log(Y11/Y12);所述声源1在所述麦克风2的掩蔽值可以为:α×log(Y21/Y22)。或者,将α×log(Y11/Y12)通过非线性激活函数sigmoid映射到(0,1)的区间中,以获得的第一映射值作为所述声源1 在所述麦克风1中的掩蔽值;并计算1减去所述第一映射值,以获得的第二映射值作为所述声源2在所述麦克风1中的掩蔽值;将α×log(Y21/Y22)通过非线性激活函数sigmoid 映射(0,1)的区间中,以获得的第三映射值作为所述声源1在所述麦克风2中的掩蔽值;并计算1减去所述第三映射值,以获得的第四映射值作为所述声源2在所述麦克风2中掩蔽值。
当然,在其它实施例中,也可以通过其它的非线性映射函数关系,任意所述声源在各所述麦克风的掩蔽值映射在其它预定范围区间;例如(0,2)或(0,3)等,只是此时,后续求取所述更新后的时频估计信号时,要除以相应倍数的系数。
在本公开实施例中,可以通过sigmoid函数等非线性映射将所述任意声源在各麦克风的掩蔽值映射到预定范围区间,能够动态压缩一部分实施例中出现的掩蔽值过大情况,简化计算;且还能为后续更新后的时频估计信号求取统一了参考标准,有利于后续获得更加精准的更新后的时频估计信号。尤其的,若将所述预定范围区间限定为(0,1),若对于仅包括两个麦克风的掩蔽值的计算,能够极大简化另一个声源在同一所述麦克风掩蔽值的计算过程。
当然,在其它实施例中,也可以基于其它方式获取所述掩蔽值,只要满足基于各声源的时频估计信号在同一所述麦克风原始带噪信号的占比获取即可,可以通过对数函数或者非线性映射等方式压缩所述掩蔽值的动态范围,在此不做限制。
在一些实施例中,所述若所述声源为N个,其中,N为大于或等于2的自然数;
所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号,包括:
基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;
基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。
示例性的,基于所述第N个声源在第1个麦克风的掩蔽值,与所述第1个麦克风的原始带噪信号,确定第1数值;
基于所述第N个声源在第2个麦克风的掩蔽值,与所述第2个麦克风的原始带噪信号,确定第2数值;
基于所述第N个声源在第3个麦克风的掩蔽值,与所述第3个麦克风的原始带噪信号,确定第3数值;
依次类推;
直到基于所述第N个声源在第X个麦克风的掩蔽值,与所述第X个麦克风的原始带噪信号,确定第X数值;
基于所述第1数值、第2数值、直至所述第X数值,确定所述第N个声源的更新后的时频估计信号。
如此,对于其它声源的更新后的时频估计信号的确定如上述第N个声源的更新后的时频估计信号的确定方式类似。
为了进一步解释上述示例,可用以下计算公式求得所述第N个声源的更新后的时频估计信号: YN(k,n)=X1(k,n)·mask1N+X2(k,n)·mask2N+X3(k,n)·mask3N+…+XX(k,n)·maskXN;其中,所述YN(k,n)为第N个声源的更新后的时频估计信号,其中,所述k为频点,所述 n为音频帧;所述X1(k,n)、所述X2(k,n)、所述X3(k,n)、……、及所述XX(k,n)分别为第1个麦克风、第2个麦克风、第3个麦克风、……、及所述第X个麦克风的原始带噪信号;所述mask1N、所述mask2N、所述mask3N、……、及所述maskXN分别为第N 个声源分别在第1个麦克风、第2个麦克风、第3个麦克风、……、及所述第X个麦克风的掩蔽值。
在本公开实施例中,基于掩蔽值及原始带噪信号,可实现对各所述声源发出的声音进行音频信号的再次分离,由于其掩蔽值是基于对音频信号的进行初次分离的时频估计信号以及时频估计信号在原始带噪信号的比值确定的,因而能够初次分离时未分离出的频带信号进行再次分离,恢复到对应的各声源音频信号中。如此,能够减少音频信号的语音损伤度,从而能够增强语语音,提高各声源的音频信号的质量。
在一些实施例中,所述基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号,包括:
对至少两个声源各自的更新后的时频估计信号进行时域变换,以获得所述至少两个声源各自发出的音频信号。
这里,可以基于快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT),将更新后的频域估计信号进行时域变换。或者,可以基于短时傅里叶逆变换(Inverse short-time Fourier transform,ISTFT),将更新后的频域估计信号变成时域信号。或者,还可以基于其它傅里叶逆变换,将更新后的频域频域信号进行时域变换。
为了有助于理解本公开的上述实施例,在此以下面示例为例进行说明。如图2所示,公开了一种音频信号处理方法的应用场景;其中,所述终端包括音箱A,所述音箱A中包括两个麦克风,分别麦克风1和麦克风2;所述声源为2个,分别为声源1和声源2。声源1和声源2发出的信号均会被麦克风1和麦克风2采集到。在每个麦克风中两个声源信号都混叠在一起。
图3是根据一示例性实施例示出的一种音频信号处理方法的流程图;其中,所述音频信号处理方法中,如图2所示,声源包括声源1和声源2,麦克风包括麦克风1和麦克风 2。基于所述音频信号处理方法,从麦克风1和麦克风2的原始带噪信号中恢复出声源1 和声源2的音频信号。如图3所示,所述方法包括以下步骤:
若系统帧长为Nfft,则频点K=Nfft/2+1。
步骤S301:初始化W(k)和Vp(k);
其中,初始化包括以下步骤:
1)初始化各个频点的分离矩阵;
Figure BDA0002322163300000141
其中,所述
Figure BDA0002322163300000142
为单位矩阵;所述k为频点;所述k=1,…,K。
2)初始化各声源在各个频点的加权协方差矩阵Vp(k)。
Figure BDA0002322163300000143
其中,
Figure BDA0002322163300000144
为零矩阵;其中,所述p用于表示麦克风;p=1,2。
步骤S302:获得第p个麦克风在第n帧的原始带噪信号;
Figure BDA0002322163300000145
加窗进行Nfft点得到对应的频域信号:
Figure BDA0002322163300000146
其中,所述m为傅里叶变换所选取的点数;其中,所述STFT为短时傅里叶变换;所述
Figure BDA0002322163300000147
为第 p个麦克风第n帧的时域信号;这里,所述时域信号为原始带噪信号。
则所述XP(k,n)的观测信号为:X(k,n)=[X1(k,n),X2(k,n)]T;其中, [X1(k,n),X2(k,n)]T为转置矩阵。
步骤S303:利用上一帧的W(k)获得两个声源信号的先验频域估计;
令两个声源信号的先验频域估计Y(k,n)=[Y1(k,n),Y2(k,n)]T,其中Y1(k,n),Y2(k,n) 分别为声源1和声源2在时频点(k,n)处的估计值。
通过分离矩阵W(k)对观测矩阵X(k,n)进行分离得到:Y(k,n)=W(k)'X(k,n);其中,W'(k)为上一帧(即当前帧的前一帧)的分离矩阵。
则第p个声源在第n帧的先验频域估计为:
Figure BDA0002322163300000149
步骤S304:更新加权协方差矩阵Vp(k,n);
计算更新的加权协方差矩阵:
Figure BDA00023221633000001410
其中,所述β为平滑系数。在一实施例中,所述β为0.98;其中,所述Vp(k,n-1)为上一帧的加权协方差矩阵;所述
Figure BDA00023221633000001411
为Xp(k,n)的共轭转置;所述
Figure BDA00023221633000001412
为加权系数,其中,所述
Figure BDA00023221633000001413
为辅助变量;所述
Figure BDA00023221633000001414
为对比函数。
其中,所述
Figure RE-GDA0002427967880000151
代表了第p个声源的基于整个频带的多维超高斯先验概率密度函数。在一实施例中,
Figure RE-GDA0002427967880000152
此时,若所述
Figure RE-GDA0002427967880000153
则所述
Figure RE-GDA0002427967880000154
步骤S305:解特征问题,以求得特征向量ep(k,n);
这里,所述ep(k,n)为第p个麦克风对应的特征向量。
其中,求所述特征问题:V2(k,n)ep(k,n)=λp(k,n)V1(k,n)ep(k,n),得到,
Figure BDA0002322163300000155
Figure BDA0002322163300000156
Figure BDA0002322163300000157
Figure BDA0002322163300000158
其中,
Figure BDA0002322163300000159
步骤S306:获得各个频点的更新后的分离矩阵的W(k);
基于上述特征问题的特征向量,求得更新后的当前帧的分离矩阵
Figure BDA00023221633000001510
步骤S307:利用当前帧的W(k)获得两个声源信号的后验频域估计;
利用当前帧的W(k)对原始带噪信号进行分离得到两个声源信号的后验频域估计Y(k,n)=[Y1(k,n),Y2(k,n)]T=W(k)X(k,n)。
可以理解的是,后续步骤的计算可以用先验频域估计或者后验频率估计进行计算,其中,利用先验频域估计是可以简化计算过程,利用后验频域估计是可以获得更准确的各声源的音频信号。这里,上述步骤S301-S307的过程可认为对声源信号进行的第一次分离,其中,所述先验频域估计或者后验频率估计可认为是上述实施例中的时频估计信号。
可以理解的是,本公开实施例中,为了进一步降低语音损伤,可以对分离后的音频信号基于掩蔽值进行再次分离,得到再次分离的音频信号。
步骤S308,获取各声源信号在各麦克风的原始带噪信号中的成分;
由上述步骤,可获得声源1在麦克风1的原始带噪信号X1(k,n)的成分为:Y1(k,n);
获得声源2在麦克风2的原始带噪信号X2(k,n)的成分为:Y2(k,n);
则所述声源2在麦克风1的原始带噪信号X1(k,n)的成分为:Y2'(k,n)=X1(k,n)-Y1(k,n)
所述声源1在麦克风2的原始带噪信号X2(k,n)中的成分为: Y1'(k,n)=X2(k,n)-Y2(k,n)。
步骤S309:获取各声源信号在各麦克风的原始带噪信号的掩蔽值,以及对所述掩蔽值进行非线性映射;
获得声源1在mic1的原始带噪信号中的掩蔽值为: mask11(k,n)=20*log10(abs(Y1(k,n))/abs(Y2'(k,n)))
对所述声源1在mic1的原始带噪信号中的掩蔽值进行非线性映射,为: mask11(k,n)=sigmoid(mask11(k,n),0,0.1);
则所述声源2在mic1的掩蔽值为:mask12(k,n)=1-mask11(k,n)
获得所述声源1在mic2的原始带噪信号中的掩蔽值为: mask21(k,n)=20*log10(abs(Y1'(k,n))/abs(Y2(k,n)));
对所述声源1在mic2的原始带噪信号中的掩蔽值进行非线性映射,为: mask21(k,n)=sigmoid(mask21(k,n),0,0.1);
则声源2在mic2的原始带噪信号中掩蔽值为:mask22(k,n)=1-mask21(k,n);
其中,所述
Figure BDA0002322163300000162
在本实施例中,所述a=0,所述c为0.1;其中,所述x为掩蔽值,所述a为表征所述sigmoid函数的函数曲线的弯曲程度系数,所述 c为表征所述sigmoid函数的函数曲线在x轴的平移系数。
步骤S310:基于掩蔽值获取更新后的时频估计信号;
基于各声源在各麦克风的掩蔽值及各麦克风的原始带噪信号,可获取各声源的更新后的时频估计信号:
Y1(k,n)=(X1(k,n)*mask11+X2(k,n)*mask21)/2,其中,所述Y1(k,n)为声源1的更新后的时频估计信号;
Y2(k,n)=(X1(k,n)*mask12+X2(k,n)*mask22)/2,其中,所述Y2(k,n)为声源2的更新后的时频估计信号。
步骤S311,通过傅里叶逆变换对更新后的时频估计信号进行时域变换。
分别对
Figure BDA0002322163300000171
进行ISTFT和重叠相加得到估计的时域的音频信号:
Figure BDA0002322163300000172
本公开实施例中,通过对两个麦克风的原始带噪信号进行分离,以获得两个声源发出的声音在各所述麦克风的时频估计信号,能够初步分离出原始带噪信号中两个声源发出的声音在各麦克分的时频估计信号,还能基于所述时频估计信号,获得所述两个声源分别在两个所述麦克风的掩蔽值,并基于所述原始带噪信号及所述掩蔽值,获取所述两个声源发出的声音的更新后的时频估计信号。如此,本公开实施例还能根据原始带噪信号及由初步分离出的时频估计信号,进一步实现对两个声源发出声音的分离;且,由于其掩蔽值是各声源的所述时频估计信号分别在每一个麦克风的原始带噪信号的占比;如此,能够将初次分离时部分没有分离出的频带恢复到各自对应的声源的音频信号中,从而能减小分离后的音频信号的语音损伤度,能够使得分离出的各声源的音频信号质量更高。
且本公开实施例中,仅用了两个麦克风;如此,相对于现有技术中;利用三个或更加多麦克风的波束形成技术实现对声源分离来说,一方面大大减少了麦克风的个数,降低了终端的硬件成本;另一方面无需考虑多麦克风的位置,从而能够实现更高精准度的声源发出声音的音频信号的分离。
图4是根据一示例性示出的一种音频信号处理装置的框图。参照图4,该装置包括:检测模块41、第一获得模块42、第一处理模块43、第二处理模块44及第三处理模块45;其中,
所述检测模块41,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
所述第一获得模块42,用于对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
所述第一处理模块43,用于基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
所述第二处理模块44,用于基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
所述第三处理模块45,用于基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。
在一些实施例中,所述第一获得模块42,包括:
所述第一获得单元421,用于基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
所述第二获得单元422,用于组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。
在一些是实施例中,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
所述第一获得单元421,用于基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。
在一些实施例中,所述第一获得模块41,还包括:
第三获得单元423,用于若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
在一些实施例中,所述第一处理模块43,包括:
第一处理单元431,用于基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
第二处理单元432,用于对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
在一些实施例中,所述第二处理单元432,用于使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
在一些实施例中,若所述声源为N个,其中,N为大于或等于2的自然数;
所述第二处理模块44,包括:
第三处理单元441,用于基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述 X为所述麦克风的总个数;
第四处理单元442,用于基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开的实施例还提供了一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:用于执行可执行指令时,实现本公开任意实施例所述的音频信号处理方法。
所述存储器可包括各种类型的存储介质,该存储介质为非临时性计算机存储介质,在通信设备掉电之后能够继续记忆存储其上的信息。
所述处理器可以通过总线等与存储器连接,用于读取存储器上存储的可执行程序,例如,实现如图1或图3所示的方法的至少其中之一。
本公开的实施例还提供了一种计算机可读存储介质,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时实现本公开任意实施例所述的音频信号处理方法。例如,实现如图1或图3所示的方法的至少其中之一。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于终端800的框图。例如,终端800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,终端800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件 814,以及通信组件816。
处理组件802通常控制终端800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在终端800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为终端800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为终端800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述终端800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当终端800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为终端800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为终端800的显示器和小键盘,传感器组件814还可以检测终端800或终端800 一个组件的位置改变,用户与终端800接触的存在或不存在,终端800方位或加速/减速和终端800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于终端800和其他设备之间有线或无线方式的通信。终端800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA) 技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由终端800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (16)

1.一种音频信号处理方法,其特征在于,所述方法包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号,包括:
基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。
3.根据权利要求2所述的方法,其特征在于,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
所述基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号,包括:
基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:
基于任意所述声源在所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
6.根据权利要求5所述的方法,其特征在于,所述对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值,包括:
使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
7.根据权利要求1至4任一项所述的方法,其特征在于,若所述声源为N个,其中,N为大于或等于2的自然数;
所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号,包括:
基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;
基于所述第1数值至所述第X数值,确定所述第N个声源更新后的时频估计信号。
8.一种音频信号处理装置,其特征在于,包括:
检测模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
第一获得模块,用于对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
第一处理模块,用于基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
第二处理模块,用于基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
第三处理模块,用于基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。
9.根据权利要求8所述的装置,其特征在于,所述第一获得模块,包括:
第一获得单元,用于基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
第二获得单元,用于组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。
10.根据权利要求9所述的装置,其特征在于,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
第一获得单元,用于基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。
11.根据权利要求9所述的装置,其特征在于,所述第一获得模块,还包括:
第三获得单元,用于若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
12.根据权利要求8至11任一项所述的装置,其特征在于,所述第一处理模块,包括:
第一处理单元,用于基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
第二处理单元,用于对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
13.根据权利要求12所述的装置,其特征在于,所述第二处理单元,用于使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。
14.根据权利要求8至11任一项所述的装置,其特征在于,若所述声源为N个,其中,N为大于或等于2的自然数;
所述第二处理模块,包括:
第三处理单元,用于基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;
第四处理单元,用于基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。
15.一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:用于执行所述可执行指令时,实现权利要求1-7任一项所述的音频信号处理方法。
16.一种计算机可读存储介质,其特征在于,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时实现权利要求1-7任一项所述的音频信号处理方法。
CN201911302374.8A 2019-12-17 2019-12-17 一种音频信号处理方法、装置、终端及存储介质 Active CN111128221B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911302374.8A CN111128221B (zh) 2019-12-17 2019-12-17 一种音频信号处理方法、装置、终端及存储介质
US16/888,388 US11205411B2 (en) 2019-12-17 2020-05-29 Audio signal processing method and device, terminal and storage medium
EP20179695.0A EP3839950B1 (en) 2019-12-17 2020-06-12 Audio signal processing method, audio signal processing device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911302374.8A CN111128221B (zh) 2019-12-17 2019-12-17 一种音频信号处理方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111128221A true CN111128221A (zh) 2020-05-08
CN111128221B CN111128221B (zh) 2022-09-02

Family

ID=70499259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911302374.8A Active CN111128221B (zh) 2019-12-17 2019-12-17 一种音频信号处理方法、装置、终端及存储介质

Country Status (3)

Country Link
US (1) US11205411B2 (zh)
EP (1) EP3839950B1 (zh)
CN (1) CN111128221B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724801A (zh) * 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113314135A (zh) * 2021-05-25 2021-08-27 北京小米移动软件有限公司 声音信号识别方法及装置
CN113345435A (zh) * 2020-07-03 2021-09-03 北京声智科技有限公司 一种音频降噪方法、装置、设备及介质
CN113362847A (zh) * 2021-05-26 2021-09-07 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113470675A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 音频信号处理方法及装置
CN113488066A (zh) * 2021-06-18 2021-10-08 北京小米移动软件有限公司 音频信号处理方法、音频信号处理装置及存储介质
CN114446316A (zh) * 2022-01-27 2022-05-06 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935883B (zh) * 2023-09-14 2023-12-29 北京探境科技有限公司 声源定位方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090202091A1 (en) * 2008-02-07 2009-08-13 Oticon A/S Method of estimating weighting function of audio signals in a hearing aid
US20090306973A1 (en) * 2006-01-23 2009-12-10 Takashi Hiekata Sound Source Separation Apparatus and Sound Source Separation Method
US20100082340A1 (en) * 2008-08-20 2010-04-01 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US20150117649A1 (en) * 2013-10-31 2015-04-30 Conexant Systems, Inc. Selective Audio Source Enhancement
US20180047407A1 (en) * 2015-03-23 2018-02-15 Sony Corporation Sound source separation apparatus and method, and program
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110364175A (zh) * 2019-08-20 2019-10-22 北京凌声芯语音科技有限公司 语音增强方法及系统、通话设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090306973A1 (en) * 2006-01-23 2009-12-10 Takashi Hiekata Sound Source Separation Apparatus and Sound Source Separation Method
US20090202091A1 (en) * 2008-02-07 2009-08-13 Oticon A/S Method of estimating weighting function of audio signals in a hearing aid
US20100082340A1 (en) * 2008-08-20 2010-04-01 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US20150117649A1 (en) * 2013-10-31 2015-04-30 Conexant Systems, Inc. Selective Audio Source Enhancement
US20180047407A1 (en) * 2015-03-23 2018-02-15 Sony Corporation Sound source separation apparatus and method, and program
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110364175A (zh) * 2019-08-20 2019-10-22 北京凌声芯语音科技有限公司 语音增强方法及系统、通话设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐舜等: "基于非线性时频掩蔽的语音盲分离方法", 《声学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724801A (zh) * 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
US11430460B2 (en) 2020-06-22 2022-08-30 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for processing audio signal, and storage medium
EP3929920A1 (en) * 2020-06-22 2021-12-29 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for processing audio signal, and storage medium
CN113345435A (zh) * 2020-07-03 2021-09-03 北京声智科技有限公司 一种音频降噪方法、装置、设备及介质
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113314135A (zh) * 2021-05-25 2021-08-27 北京小米移动软件有限公司 声音信号识别方法及装置
CN113314135B (zh) * 2021-05-25 2024-04-26 北京小米移动软件有限公司 声音信号识别方法及装置
CN113362847A (zh) * 2021-05-26 2021-09-07 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113362847B (zh) * 2021-05-26 2024-09-24 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113488066A (zh) * 2021-06-18 2021-10-08 北京小米移动软件有限公司 音频信号处理方法、音频信号处理装置及存储介质
CN113488066B (zh) * 2021-06-18 2024-06-18 北京小米移动软件有限公司 音频信号处理方法、音频信号处理装置及存储介质
CN113470675A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 音频信号处理方法及装置
CN114446316A (zh) * 2022-01-27 2022-05-06 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
CN114446316B (zh) * 2022-01-27 2024-03-12 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备

Also Published As

Publication number Publication date
US11205411B2 (en) 2021-12-21
US20210183351A1 (en) 2021-06-17
EP3839950A1 (en) 2021-06-23
EP3839950B1 (en) 2024-10-09
CN111128221B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111009256B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111009257B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111179960B (zh) 音频信号处理方法及装置、存储介质
CN111429933B (zh) 音频信号的处理方法及装置、存储介质
CN111402917B (zh) 音频信号处理方法及装置、存储介质
CN110133594B (zh) 一种声源定位方法、装置和用于声源定位的装置
CN113314135B (zh) 声音信号识别方法及装置
CN113223553B (zh) 分离语音信号的方法、装置及介质
CN112863537B (zh) 一种音频信号处理方法、装置及存储介质
CN113362848B (zh) 音频信号处理方法、装置及存储介质
CN113506582B (zh) 声音信号识别方法、装置及系统
CN111667842B (zh) 音频信号处理方法及装置
CN111724801B (zh) 音频信号处理方法及装置、存储介质
CN112447184B (zh) 语音信号处理方法及装置、电子设备、存储介质
CN112201267A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN113488066B (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN110580910A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN111429934B (zh) 音频信号处理方法及装置、存储介质
CN113362847B (zh) 音频信号处理方法及装置、存储介质
EP4113515A1 (en) Sound processing method, electronic device and storage medium
CN114724578A (zh) 一种音频信号处理方法、装置及存储介质
CN118038889A (zh) 音频数据处理方法、装置、电子设备及存储介质
CN117880732A (zh) 一种空间音频录制方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant