CN110890098A - 盲信号分离方法、装置和电子设备 - Google Patents

盲信号分离方法、装置和电子设备 Download PDF

Info

Publication number
CN110890098A
CN110890098A CN201811045478.0A CN201811045478A CN110890098A CN 110890098 A CN110890098 A CN 110890098A CN 201811045478 A CN201811045478 A CN 201811045478A CN 110890098 A CN110890098 A CN 110890098A
Authority
CN
China
Prior art keywords
signal separation
blind signal
modeling
sound source
separated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811045478.0A
Other languages
English (en)
Other versions
CN110890098B (zh
Inventor
胡玉祥
朱长宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Horizon Robotics Technology Co Ltd
Original Assignee
Nanjing Horizon Robotics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Horizon Robotics Technology Co Ltd filed Critical Nanjing Horizon Robotics Technology Co Ltd
Priority to CN201811045478.0A priority Critical patent/CN110890098B/zh
Priority to US16/555,166 priority patent/US10978089B2/en
Priority to EP19195106.0A priority patent/EP3624117A1/en
Priority to KR1020190109632A priority patent/KR102194194B1/ko
Priority to JP2019162504A priority patent/JP6966750B2/ja
Publication of CN110890098A publication Critical patent/CN110890098A/zh
Application granted granted Critical
Publication of CN110890098B publication Critical patent/CN110890098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了一种盲信号分离方法、装置和电子设备。该方法包括:使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;基于所述概率密度分布来更新盲信号分离模型;以及,使用更新后的盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。这样,可以通过基于复数高斯分布获得的声源的概率密度分布更新盲信号分离模型,从而有效地提升盲信号分离算法在特定场景下的分离性能。

Description

盲信号分离方法、装置和电子设备
技术领域
本申请涉及音频处理技术,且更为具体地,涉及盲信号分离方法、盲信号分离装置和电子设备。
背景技术
“鸡尾酒会”问题是语音增强系统中极具挑战性的问题之一,其难点在于要求从包含音乐、车辆噪声以及其他说话人声的嘈杂环境中,分离提取期望说话人的语音信号,而人类听觉系统能够从这一环境中轻易地提取感兴趣的音频信号。
现有的解决方案是使用盲信号分离系统来模拟人类的听觉系统,即识别和增强来自特定声源的声音。
但是,现有的盲信号分离系统仍存在诸如针对特定场景的适应性的问题。例如,基于多元拉普拉斯分布的盲信号分离算法可以作用于大多数声信号,并且可以扩展到实时处理场景,但是对于一些有特定频谱结构的信号,例如具有谐波结构的音乐信号,多元拉普拉斯模型无法很好地描述此类信号。此外,基于谐波模型的盲信号分离算法可以有效地分离语音和音乐的混合信号,但是谐波模型假设分离信号的方差为1,需要白化操作,因此只适用于离线场景,无法扩展到实时处理场景。
因此,仍期望提供改进的盲信号分离方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种盲信号分离方法、装置和电子设备,其通过基于复数高斯分布获得的声源的概率密度分布更新盲信号分离模型,从而有效地提升盲信号分离算法在特定场景下的分离性能。
根据本申请的一个方面,提供了一种盲信号分离方法,包括:使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;基于所述概率密度分布来更新盲信号分离模型;以及使用更新后的盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。
在上述盲信号分离方法中,所述盲信号分离模型的代价函数为:
Figure BDA0001793188370000021
其中W(k)为第k个频点的分离模型,yi表示第i个声源的分离信号,G(yi)为对照函数,其表示为log q(yi),q(yi)是第i个声源的概率密度分布。
在上述盲信号分离方法中,使用复数高斯分布对声源进行建模包括离线建模、在线建模、或者二者的组合。
在上述盲信号分离方法中,所述离线建模包括:使用与要分离的音频信号中的声源相同类型的声源的干净语音信号进行建模,以获得所述声源的概率密度分布。
在上述盲信号分离方法中,还包括:基于所获得的多个分离的输出信号来更新所述盲信号分离模型。
在上述盲信号分离方法中,所述在线建模包括:对上一帧音频信号分离得到的多个输出信号进行建模,以获得各个声源的概率密度分布。
在上述盲信号分离方法中,所述离线建模和在线建模的组合包括:对要分离的音频信号中的部分声源进行离线建模;以及,对要分离的音频信号中的其余声源进行在线建模。
在上述盲信号分离方法中,所述部分声源是已知声源,所述其余声源是未知声源。
在上述盲信号分离方法中,使用所获得的盲信号分离模型对音频信号进行分离包括:将所述音频信号转换为频域信号,以在频域进行分离,所述多个分离的输出信号是频域信号。
在上述盲信号分离方法中,还包括:将所述多个分离的输出信号中的至少一个转换为时域信号。
根据本申请的另一方面,提供了一种盲信号分离装置,包括:建模单元,配置为使用复数高斯分布对声源进行建模,以获得声源的概率密度分布;更新单元,配置为基于声源的概率密度分布来更新盲信号分离模型;以及,分离单元,配置为使用更新后的盲信号分离模型来对音频信号进行分离,以获得多个分离的输出信号。
在上述盲信号分离装置中,所述盲信号分离模型的代价函数为:
Figure BDA0001793188370000031
其中W(k)为第k个频点的分离模型,yi表示第i个声源的分离信号,G(yi)为对照函数,其表示为log q(yi),q(yi)是第i个声源的概率密度分布。
在上述盲信号分离装置中,所述建模单元包括离线建模单元和在线建模单元中的至少一个。
在上述盲信号分离装置中,所述离线建模单元配置为使用与要分离的音频信号中的声源相同类型的声源的干净语音信号进行建模,以获得所述声源的概率密度分布,所述在线建模单元配置为对上一帧音频信号分离得到的多个输出信号进行建模,以获得各个声源的概率密度分布。
在上述盲信号分离装置中,所述建模单元包括离线建模单元和在线建模单元二者,所述离线建模单元配置为对要分离的音频信号中的已知声源进行离线建模,所述在线建模单元配置为对要分离的音频信号中的未知声源进行在线建模。
在上述盲信号分离装置中,还包括:频域转换单元,配置为将所述音频信号转换为频域信号,以在频域进行分离,所述多个分离的输出信号是频域信号;以及,时域转换单元,配置为将所述多个分离的输出信号中的至少一个转换为时域信号。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的盲信号分离方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的盲信号分离方法。
与现有技术相比,本申请提供的盲信号分离方法、盲信号分离装置和电子设备可以使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;基于所述概率密度分布来更新盲信号分离模型;以及使用所述盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。这样,可以有效地提升盲信号分离算法在特定场景下的分离性能,例如对于具有谐波结构的音乐信号的实时分离。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的盲信号分离方法的应用场景的示意图。
图2图示了根据本申请实施例的盲信号分离方法的流程图。
图3图示了与离线建模对应的全监督盲信号分离系统的示意图。
图4图示了与在线建模对应的实时盲信号分离系统的示意图。
图5图示了与离线建模和在线建模的组合对应的半监督实时盲信号分离系统的示意图。
图6图示了根据本申请实施例的盲信号分离装置的框图。
图7图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,现有的盲信号分离系统仍存在诸如针对特定场景的适应性的问题,这是由于现有的盲信号分离算法使用基于多元拉普拉斯分布的多元拉普拉斯模型,其可以作用于大多数的声音信号,并且可以扩展到实时处理场景,但是对于一些有特定频谱结构的信号,如具有谐波结构的音乐信号,多元拉普拉斯模型无法很好地描述此类信号。另一方面,如果使用采用超高斯分布的谐波模型,虽然可以有效地分离语音与音乐的混合信号,但是谐波模型假定分离信号的方差为1,需要白化操作,因此只适用于离线场景,无法扩展到实时处理场景。
基于上述技术问题,本申请的基本构思是基于复数高斯分布来进行建模,替换常规分离算法中的多元拉普拉斯模型或谐波模型。根据具体应用场景,建模过程可以是离线建模,也可以是在线建模,并且基于建模来迭代地更新盲信号分离模型,从而改进盲信号分离算法在特定场景下的分离性能。
具体地,本申请提供的盲信号分离方法、盲信号分离装置和电子设备首先使用复数高斯分布对声源进行建模,以确定声源的概率密度分布,然后基于所述概率密度分布来更新盲信号分离模型,最后使用所述盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。这样,可以有效地提升盲信号分离算法在特定场景下的分离性能,例如对于具有谐波结构的音乐信号的实时分离。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图1图示了根据本申请实施例的盲信号分离技术的应用场景的示意图。
如图1所示,盲信号分离系统S110可接收来自多个声源110-1、110-2、…、110-N的声音信号,并且,每个声源可能是已知声源,例如音乐声源、语音声源、环境噪声等,也可以是未知声源,即不清楚声源的类型。
盲信号分离系统S110可以利用盲信号分离模型来识别和增强来自特定声源的声音,比如来自特定说话人的语音。如下面将详细描述的那样,盲信号分离模型可以是基于复数高斯分布的模型。当已知声源类型时,可以采用相同类型的干净的声音信号来离线建模;另一方面,当不清楚声源类型时,则可以采用在线建模和迭代地更新模型的方式。
来自各个声源的混合声音信号在被盲信号分离模型分离之后,产生分离的多个输出声音信号S1、S2、…、SM-1,用户可以从其中选取并且增强期望的声音信号。
下面,将具体说明根据本申请实施例的盲信号分离方法的具体示例。
示例性方法
图2图示了根据本申请实施例的盲信号分离方法的流程图。
如图2所示,根据本申请实施例的盲信号分离方法可包括:步骤S210,使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;步骤S220,基于所述概率密度分布来更新盲信号分离模型;以及步骤S230,使用更新后的盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。
在步骤S210中,使用复数高斯分布对声源进行建模,以确定声源的概率密度分布。建模步骤可以采用多种方式来进行。例如,当已知各个声源的类型时,可以事先采用相同类型声源的干净声音信号来进行离线建模,以确定各个声源的概率密度分布。离线建模的一个优点在于由于利用已知类型的干净声音信号来进行建模,所以建模效率高,而且分离效果好。不过,离线建模不适用于事先未知要分离的盲信号中的声源类型的情况。在该情况下,则可以采用在线建模的方式。在线建模时,可以采用初始模型对盲信号进行分离,然后对分离信号进行在线建模,以确定其相应声源的概率密度分布。在另一些情况下,还可以采用离线建模和在线建模的组合方式。例如,当已知盲信号中的部分声源类型,但是不清楚其余声源类型时,就可以采用这种方式。具体而言,采用已知类型的声源的干净声音信号来进行离线建模,而对未知声源类型采用在线建模,建模过程分别与上述离线建模和在线建模过程相同,从而确定各个声源的概率密度分布。
接下来在步骤S220中,可以利用各个声源的概率密度分布来确定或者说更新盲信号分离模型。在本发明一实施例中,盲信号分离模型的代价函数QBSS可以表示为:
Figure BDA0001793188370000061
其中W(k)为第k个频点的分离模型,yi表示第i个声源的分离信号,G(yi)为对照函数,其表示为log q(yi),q(yi)是第i个声源的概率密度分布。在本发明的实施例中,如前所述,概率密度分布q(yi)采用复数高斯分布,以替代常规模型中的多元拉普拉斯分布或超高斯分布。通过在步骤S210中对声源进行建模,可以确定各个声源的复数高斯分布q(yi)的参数例如方差。进而,利用代价函数QBSS,可以确定分离模型W。在步骤S220中,可以基于声源的概率密度分布来确定分离模型W并且使用其更新原本使用的分离模型。
然后在步骤S230中,可以使用该盲信号分离模型W来对音频信号进行分离,以获得多个分离的输出信号。在分离步骤S230中,可以对盲信号进行短时傅里叶变换(STFT)以将其转换为频域信号,从而在频域中通过盲信号分离模型进行分离。相应地,所获得的多个输出信号是频域信号,可以将其中的所需的信号再转换为时域信号,进而可以通过例如扬声器输出为声音信号。
本领域技术人员基于以上描述并且结合下面将进一步详细描述的实施例可以理解,无论是上述离线建模过程,还是在线建模过程,对盲信号分离模型的更新都是一个迭代的过程。也就是说,在使用所述盲信号分离模型对音频信号进行分离以获得多个分离的输出信号之后,进一步基于所获得的多个分离的输出信号来进行建模,以更新该盲信号分离模型。从而,使用更新后的盲信号分离模型进一步对下一帧音频信号进行分离。这样,能够实现更好的、适用于正在分离的盲信号的特定分离过程。
针对在根据本申请实施例的盲信号分离方法中采用在线建模或者离线建模或者其二者的组合,对应的盲信号分离系统可以实现为全监督盲信号分离系统、实时盲信号分离系统或者半监督实时盲信号分离系统,下面,将进一步具体说明。
图3图示了与离线建模对应的全监督盲信号分离系统的示意图。如图3所示,使用已知声源类型的干净声音信号进行离线建模,以确定声源的概率密度分布。由于用于建模的声音信号是已知的,因此该建模过程可称为全监督过程,其具有良好的建模效率和模型准确性。进而,可基于代价函数确定盲信号分离模型。传声器阵列接收到的信号通过短时傅立叶变换(STFT)变换到频域,在频域中使用盲信号分离模型对盲信号进行分离,以得到多个输出信号。输出信号可以变换回到时域,以实现音频输出。在一些实施例中,还可以对所获得的多个输出信号进行建模,进而确定并且更新盲信号分离模型,该过程可以迭代地进行,以实现最佳的分离效果。
图4图示了与在线建模对应的实时盲信号分离系统的示意图。如图4所示,传声器接收到的信号通过短时傅立叶变换(STFT)变换到频域,在频域使用初始盲信号分离模型对盲信号进行分离,以获得多个输出信号。对分离产生的多个输出信号进行在线建模,以确定未知类型的各个声源的概率密度分布,进而确定盲信号分离模型。利用在线建模确定的盲信号分离模型来更新原先使用的初始盲信号分离模型,并且继续进行后续帧的分离。该过程迭代地进行,不断更新盲信号分离模型,从而提高分离效果。在该过程中,由于事先未知声源类型,所以采用了实时建模方案。
图5图示了与离线建模和在线建模的组合对应的半监督实时盲信号分离系统的示意图。如图5所示,对于已知类型的部分声源,可以采用离线建模以确定其概率密度分布;而对于未知类型的部分声源,则采用在线建模以确定其概率密度分布。初始时,对于未知声源,可以采用预定的初始概率密度分布,例如随机分布,结合离线建模确定的已知声源的概率密度分布来确定分离模型。传声器接收到的信号通过短时傅立叶变换(STFT)变换到频域,在频域使用所确定的盲信号分离模型对信号进行分离,产生已知类型的输出信号1和未知类型的输出信号2。对于未知类型的输出信号2,可以对其进行前述在线建模过程,以更新其概率密度分布,进而更新盲信号分离模型。在一些实施例中,还可以对已知类型的输出信号1也进行建模过程,以更新离线建模确定的其对应的概率密度分布。在上述过程中,由于仅针对部分已知类型的声源,采用干净的音频信号进行建模,而对未知声源采用实时建模,所以也称为半监督实时建模系统。
常规多元拉普拉斯模型无法准确对待分离信号进行建模,实时独立向量分析算法可能无法有效提示输出信号的信扰比,而使用本发明的半监督实时盲信号分离算法,可以有效提升分离信号的信扰比。在一实例中,采用根据本申请实施例的盲信号分离方法对一段音乐混杂语音的声音信号进行实时分离,分离前传声器数据信扰比为10.66dB,使用基于多元拉普拉斯模型的实时独立向量分析算法对信号进行分离,分离后的信扰比为9.82dB,而使用如图5所示的半监督实时盲信号分离系统对信号进行分离,其中音乐信号已知,分离后信扰比为16.91dB。
示例性装置
图6图示了根据本申请实施例的盲信号分离装置的框图。
如图6所示,根据本申请实施例的盲信号分离装置300包括:建模单元310,用于使用复数高斯分布对声源进行建模,以获得声源的概率密度分布;更新单元320,用于基于声源的概率密度分布来更新盲信号分离模型;以及分离单元330,用于使用更新后的盲信号分离模型来对音频信号进行分离,以获得多个分离的输出信号。
在一个示例中,在上述盲信号分离装置300中,建模单元310可包括离线建模单元和在线建模单元中的至少一个。离线建模单元可用于使用与要分离的音频信号中的声源相同类型的声源的干净语音信号进行建模,以获得所述声源的概率密度分布。在线建模单元可用于对上一帧音频信号分离得到的多个输出信号进行建模,以获得各个声源的概率密度分布。可以理解,离线建模单元可用于已知声源类型,而在线建模可用于未知声源类型。在一些实施例中,建模单元310还可以包括离线建模单元和在线建模单元二者。
建模单元310的建模结果可用于更新模块320来基于其更新盲信号分离模型,进而分离单元330使用该分离模型来对音频信号进行分离,产生多个输出。应理解,该过程可以迭代地进行。也就是说,建模单元310可以针对分离单元330产生的多个输出中的一个或多个来进行建模,从而不断地更新盲信号分离模型,实现更好的分离效果。
在一个示例中,盲信号分离装置300还可包括:频域转换单元340,用于将音频信号转换为频域信号,以在频域进行分离,所分离的多个输出信号也是频域信号;以及,时域转换单元350,用于将所分离的频域输出信号中的至少一个转换为时域信号,以作为音频输出。
可以理解的是,上述盲信号分离装置300中的各个单元和模块的具体功能和操作已经在上面参考图1到图5的描述中得到了详细介绍,因此这里仅简要介绍,而省略其重复详细描述。
如上所述,根据本申请实施例的盲信号分离装置300可以实现在各种终端设备中,例如用于声音信号分离的音频处理设备等。在一个示例中,根据本申请实施例的装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该装置300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端证设备所开发的一个应用程序;当然,该装置300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该盲信号分离装置300与该终端设备也可以是分立的设备,并且该装置300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的盲信号分离方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储例如已知声源类型的干净音频信号等。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该输入装置13可以是麦克风或麦克风阵列,用于实时捕捉声源的输入信号。该输入装置13也可以是各种输入接口,例如通信网络连接器,用于从外部接收数字化的音频信号。此外,输入装置13还可以包括例如键盘、鼠标等。
输出装置14可以向外部输出各种信息,包括分离的多个输出信号等。输出设备14可以包括例如显示器、扬声器、以及通信网络接口及其所连接的远程输出设备等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的盲信号分离方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的盲信号分离方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (17)

1.一种盲信号分离方法,包括:
使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;
基于所述概率密度分布来更新盲信号分离模型;以及
使用更新后的盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。
2.如权利要求1所述的盲信号分离方法,其中,所述盲信号分离模型的代价函数为
Figure FDA0001793188360000011
其中W(k)为第k个频点的分离模型,yi表示第i个声源的分离信号,G(yi)为对照函数,其表示为log q(yi),q(yi)是第i个声源的概率密度分布。
3.如权利要求1所述的盲信号分离方法,其中,使用复数高斯分布对声源进行建模包括离线建模、在线建模、或者二者的组合。
4.如权利要求3所述的盲信号分离方法,其中,所述离线建模包括:
使用与要分离的音频信号中的声源相同类型的声源的干净语音信号进行建模,以获得所述声源的概率密度分布。
5.如权利要求4所述的盲信号分离方法,还包括:
基于所获得的多个分离的输出信号来更新所述盲信号分离模型。
6.如权利要求3所述的盲信号分离方法,其中,所述在线建模包括:
对上一帧音频信号分离得到的多个输出信号进行建模,以获得各个声源的概率密度分布。
7.如权利要求3所述的盲信号分离方法,其中,所述离线建模和在线建模的组合包括:
对要分离的音频信号中的部分声源进行离线建模;以及
对要分离的音频信号中的其余声源进行在线建模。
8.如权利要求7所述的盲信号分离方法,其中,所述部分声源是已知声源,所述其余声源是未知声源。
9.如权利要求1所述的盲信号分离方法,其中,使用更新后的盲信号分离模型对音频信号进行分离包括:
将所述音频信号转换为频域信号,以在频域进行分离,所述多个分离的输出信号是频域信号。
10.如权利要求9所述的盲信号分离方法,还包括:
将所述多个分离的输出信号中的至少一个转换为时域信号。
11.一种盲信号分离装置,包括:
建模单元,配置为使用复数高斯分布对声源进行建模,以获得声源的概率密度分布;
更新单元,配置为基于声源的概率密度分布来更新盲信号分离模型;以及
分离单元,配置为使用更新后的盲信号分离模型来对音频信号进行分离,以获得多个分离的输出信号。
12.如权利要求11所述的盲信号分离装置,其中,所述建模单元包括离线建模单元和在线建模单元中的至少一个。
13.如权利要求12所述的盲信号分离装置,其中,所述离线建模单元配置为使用与要分离的音频信号中的声源相同类型的声源的干净语音信号进行建模,以获得所述声源的概率密度分布,所述在线建模单元配置为对上一帧音频信号分离得到的多个输出信号进行建模,以获得各个声源的概率密度分布。
14.如权利要求13所述的盲信号分离装置,其中,所述建模单元包括离线建模单元和在线建模单元二者,所述离线建模单元配置为对要分离的音频信号中的已知声源进行离线建模,所述在线建模单元配置为对要分离的音频信号中的未知声源进行在线建模。
15.如权利要求11所述的盲信号分离装置,还包括:
频域转换单元,配置为将所述音频信号转换为频域信号,以在频域进行分离,所述多个分离的输出信号是频域信号;以及
时域转换单元,配置为将所述多个分离的输出信号中的至少一个转换为时域信号。
16.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-10中任一项所述的盲信号分离方法。
17.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-10中的任一项所述的盲信号分离方法。
CN201811045478.0A 2018-09-07 2018-09-07 盲信号分离方法、装置和电子设备 Active CN110890098B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201811045478.0A CN110890098B (zh) 2018-09-07 2018-09-07 盲信号分离方法、装置和电子设备
US16/555,166 US10978089B2 (en) 2018-09-07 2019-08-29 Method, apparatus for blind signal separating and electronic device
EP19195106.0A EP3624117A1 (en) 2018-09-07 2019-09-03 Method, apparatus for blind signal seperating and electronic device
KR1020190109632A KR102194194B1 (ko) 2018-09-07 2019-09-04 암묵 신호 분리를 위한 방법, 장치 및 전자 장치
JP2019162504A JP6966750B2 (ja) 2018-09-07 2019-09-06 ブラインド信号分離のための方法、装置及び電子デバイス

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811045478.0A CN110890098B (zh) 2018-09-07 2018-09-07 盲信号分离方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110890098A true CN110890098A (zh) 2020-03-17
CN110890098B CN110890098B (zh) 2022-05-10

Family

ID=67847636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811045478.0A Active CN110890098B (zh) 2018-09-07 2018-09-07 盲信号分离方法、装置和电子设备

Country Status (5)

Country Link
US (1) US10978089B2 (zh)
EP (1) EP3624117A1 (zh)
JP (1) JP6966750B2 (zh)
KR (1) KR102194194B1 (zh)
CN (1) CN110890098B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863020A (zh) * 2020-07-30 2020-10-30 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN112349292A (zh) * 2020-11-02 2021-02-09 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112339684B (zh) * 2020-10-27 2021-12-24 广州汽车集团股份有限公司 一种基于概率分布的汽车安全机制触发方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887238A (zh) * 2017-03-01 2017-06-23 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
GB2548325A (en) * 2016-02-10 2017-09-20 Cedar Audio Ltd Acoustic source seperation systems
CN108364659A (zh) * 2018-02-05 2018-08-03 西安电子科技大学 基于多目标优化的频域卷积盲信号分离方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007103037A2 (en) * 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
JP4660739B2 (ja) * 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
JP6099032B2 (ja) * 2011-09-05 2017-03-22 大学共同利用機関法人情報・システム研究機構 信号処理装置、信号処理方法及びコンピュータプログラム
US9124981B2 (en) * 2012-11-14 2015-09-01 Qualcomm Incorporated Systems and methods for classification of audio environments
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2548325A (en) * 2016-02-10 2017-09-20 Cedar Audio Ltd Acoustic source seperation systems
CN106887238A (zh) * 2017-03-01 2017-06-23 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
CN108364659A (zh) * 2018-02-05 2018-08-03 西安电子科技大学 基于多目标优化的频域卷积盲信号分离方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAESU KIM ET AL: "Frequency Domain Blind Source Separation Exploiting Higher-Order Dependencies", 《ACOUSTICS,SPEECH AND SIGNAL PROCESSING,2006,ICASSP 2006 PROCEEDINGS.2006 IEEE INTERNATIONAL CONFERENCE ON TOULOUSE,FRANCE 14-19 MAY 2006,PISCATAWAY,NJ,USA,IEEE,PISCATAWAY,NJ,USA,(2006-01-01),PAGES V-V,XP031101599》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863020A (zh) * 2020-07-30 2020-10-30 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN111863020B (zh) * 2020-07-30 2022-09-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN112349292A (zh) * 2020-11-02 2021-02-09 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备
CN112349292B (zh) * 2020-11-02 2024-04-19 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备

Also Published As

Publication number Publication date
JP6966750B2 (ja) 2021-11-17
US20200082838A1 (en) 2020-03-12
EP3624117A1 (en) 2020-03-18
JP2020042266A (ja) 2020-03-19
KR102194194B1 (ko) 2020-12-22
CN110890098B (zh) 2022-05-10
KR20200028852A (ko) 2020-03-17
US10978089B2 (en) 2021-04-13

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP6621536B2 (ja) 電子装置、身元認証方法、システム及びコンピュータ読み取り可能な記憶媒体
US11282505B2 (en) Acoustic signal processing with neural network using amplitude, phase, and frequency
US20220036903A1 (en) Reverberation compensation for far-field speaker recognition
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN110890098B (zh) 盲信号分离方法、装置和电子设备
CN108198566B (zh) 信息处理方法及装置、电子设备及存储介质
US11869493B2 (en) Method and apparatus for audio data processing
US11688412B2 (en) Multi-modal framework for multi-channel target speech separation
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
CN112530410A (zh) 一种命令词识别方法及设备
CN111696520A (zh) 智能配音方法、装置、介质及电子设备
US20240177726A1 (en) Speech enhancement
Kim et al. Efficient implementation of the room simulator for training deep neural network acoustic models
Ullah et al. Single channel speech dereverberation and separation using RPCA and SNMF
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
CN111696573A (zh) 声源信号处理方法及装置、电子设备和存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN112992167A (zh) 音频信号的处理方法、装置及电子设备
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN113539300A (zh) 基于噪声抑制的语音检测方法、装置、存储介质以及终端
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant