CN110675892B - 多位置语音分离方法和装置、存储介质、电子设备 - Google Patents

多位置语音分离方法和装置、存储介质、电子设备 Download PDF

Info

Publication number
CN110675892B
CN110675892B CN201910907419.8A CN201910907419A CN110675892B CN 110675892 B CN110675892 B CN 110675892B CN 201910907419 A CN201910907419 A CN 201910907419A CN 110675892 B CN110675892 B CN 110675892B
Authority
CN
China
Prior art keywords
transfer function
determining
positions
matrix
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910907419.8A
Other languages
English (en)
Other versions
CN110675892A (zh
Inventor
胡玉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910907419.8A priority Critical patent/CN110675892B/zh
Publication of CN110675892A publication Critical patent/CN110675892A/zh
Application granted granted Critical
Publication of CN110675892B publication Critical patent/CN110675892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开实施例公开了一种多位置语音分离方法和装置、存储介质、电子设备,其中,方法包括:确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;确定所述至少两个设定发声范围对应的传递函数矩阵;基于传声器阵列采集所述至少两个位置中每个位置发出的包含期望声源的原始声音信号;利用盲源分离方法处理所述原始声音信号,分离获得至少两组分离滤波器;基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系;基于传递函数矩阵与盲源分离方法可确定多个位置中每个位置对应的声音信号,实现了对多位置的信号输出位置确定,提高了输出信号的排序准确率。

Description

多位置语音分离方法和装置、存储介质、电子设备
技术领域
本公开涉及声音信号处理技术,尤其是一种多位置语音分离方法和装置、存储介质、电子设备。
背景技术
使用分布式传声器阵列时,基于波束的方法不满足Nyquist定理,很难分离高频信号,此时,通常采用盲源分离算法。盲源分离算法可以模拟人耳听觉系统,从传声器阵列接收到的混合信号中估计出源信号。频域独立成分分析方法具有较低的计算复杂度和较快的收敛速度,是求解卷积混合盲源分离问题的主要方法之一。
但是频域独立成分分析方法存在排序不确定性问题。
发明内容
为了解决上述对盲源分离方法获得的信号排序不确定的技术问题,提出了本公开。本公开的实施例提供了一种多位置语音分离方法和装置、存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种多位置语音分离方法,包括:
确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;
确定所述至少两个设定发声范围对应的传递函数矩阵;
基于传声器阵列采集所述至少两个位置中每个位置发出的包含期望声源的原始声音信号;
利用盲源分离方法处理所述原始声音信号,分离获得至少两组分离滤波器;
基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系。
根据本公开实施例的另一方面,提供了一种多位置语音分离装置,包括:
发声范围确定模块,用于确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;
矩阵确定模块,用于确定所述至少两个设定发声范围对应的传递函数矩阵;
信号采集模块,用于基于传声器阵列采集所述发声范围确定模块确定的至少两个位置中每个位置发出的包含期望声源的原始声音信号;
信号分离模块,用于利用盲源分离方法处理所述信号采集模块采集的原始声音信号,分离获得至少两组分离滤波器;
语音分离模块,用于基于所述信号分离模块确定的至少两组分离滤波器与所述矩阵确定模块确定的传递函数矩阵,确定所述至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实施例提供的多位置语音分离方法。
根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述实施例提供的多位置语音分离方法。
基于本公开上述实施例提供的一种多位置语音分离方法和装置、存储介质、电子设备,确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;确定所述至少两个设定发声范围对应的传递函数矩阵;基于传声器阵列采集所述至少两个位置中每个位置发出的包含期望声源的原始声音信号;利用盲源分离方法处理所述原始声音信号,分离获得至少两组分离滤波器;基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系;基于传递函数矩阵与盲源分离方法可确定多个位置中每个位置对应的声音信号,实现了对多位置的信号输出位置确定,提高了输出信号的排序准确率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的多位置语音分离方法的流程示意图。
图2是本公开另一示例性实施例提供的多位置语音分离方法的流程示意图。
图3是本公开图2所示的实施例中步骤205的一个流程示意图。
图4是本公开图3所示的实施例中步骤2052的一个流程示意图。
图5是本公开图2所示的实施例中步骤202的一个流程示意图。
图6是本公开图5所示的实施例中步骤2023的一个流程示意图。
图7是本公开一示例性实施例提供的多位置语音分离装置的结构示意图。
图8是本公开另一示例性实施例提供的多位置语音分离装置的结构示意图。
图9是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少两个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少两个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术中,对应多位置的信号分离,通常采用安装线性阵列,并基于自由场模型增强不同位置语音信息。但该方法至少存在以下问题:通常只能增强特定位置的语音信息,无法实现多位置拾音;并且由于空间内的反射与散射作用,自由场模型与实际模型差别较大,语音增强性能受限。
示例性系统
图1是本公开一示例性实施例提供的多位置语音分离方法的流程示意图。基于分布式传声器阵列的语音分离方法包括以下步骤:
步骤101,获取声源相对于传声器阵列的传递函数矩阵;该传递函数矩阵的获取可以是从数据库中直接获取的,或者,基于针对设定空间内的多个位置各自对应的设定发声范围离线建模获得的绝对传递函数获得;其中,数据库中的传递函数矩阵可以是基于任意方法(例如,基于离线建模获得的绝对传递函数处理获得)获得之后存储的,在之后需要获取时,直接从数据库调用即可。本实施例中使用的是绝对传递函数;相对传递函数是两个传声器之间的传递函数,更适用于两单元传声器阵列;绝对传递函数是传声器与声源之间的传递函数,更适用于多单元传声器阵列。
可选地,离线建模获得绝对传递函数的过程包括:
使用声音信号(如,白噪声)对每个位置的声音可能出现的发声范围进行离线建模,获得每个位置所在方向的绝对传递函数。具体可包括:选取设定空间内的一个位置q,在位置q上声音可能出现的小范围区域,选取P个发声范围,使用人工嘴在上述位置播放已知声音信号(如,白噪声),同步采集人工嘴播放的已知声音信号
Figure BDA0002213688980000051
以及传声器阵列接收到的信号x=[x1,x2,...,xM],其中M为传声器数目,第q个位置的声源与第m个传声器之间的绝对传递函数可以表示为:
Figure BDA0002213688980000052
其中,
Figure BDA0002213688980000053
分别表示声源在第p个位置时,第m个传声器接收到的时域信号,N表示时域建模数据的长度,“*”表示卷积。
对于设定空间内的Q个位置,M个传声器单元,离线建模可以获得绝对传递函数h,如下公式(2)所示:
Figure BDA0002213688980000061
基于上述绝对传递函数获得传递函数矩阵包括:
将离线建模获得的绝对传递函数归一化,可以表示为公式(3)所示:
Figure BDA0002213688980000062
其中,
Figure BDA0002213688980000063
为公式(2)的第q列,
Figure BDA0002213688980000064
表示
Figure BDA0002213688980000065
的l-范数,l=1时表示按照幅度归一化,l=2表示按照能量归一化,本公开可采用能量归一化,保证能量一致,保证了每个声源相对传声器接收到的能量一致。将归一化后的传递函数变换到频域,获得声源相对于传声器阵列的传递函数矩阵,第ω频率处的传递函数矩阵H(ω)可以表示为:
Figure BDA0002213688980000066
步骤102,使用传声器阵列接收设定空间内发出的原始声音信号,并使用盲源分离方法处理传声器阵列接收到的原始声音信号,获得分离滤波器W(ω)。由于当使用分布式传声器阵列时,波束方法不满足Nyquist定理,很难分离高频信号,使用盲源分离方法可以有效抑制干扰信号,进而获得期望座位的信号,因此,本实施例采用盲源分离方法处理原始声音信号。可选地,可使用的盲源分离方法包括但不限于:主成分分析、独立成分分析、独立向量分析、非负矩阵分解等。
步骤103,基于盲源分离滤波器W(ω)以及传递函数矩阵H(ω),获得分离滤波器在不同位置传递函数的响应矩阵G,该响应矩阵可以通过公式(5)表示:
G=∑ωW(ω)H(ω) 公式(5)
其中,响应矩阵中的每列对应一个位置,每行对应一个分离滤波器,例如,对于4个位置、包括4个传声器的传声器阵列,该响应矩阵为4×4矩阵。
步骤104,使用联合最大化方法处理响应矩阵,获得盲源分离输出信号与多个位置的对应关系。由于盲源分离算法存在排序不确定性问题,输出信号与座位无法一一对应;对于公式(5)来说,G是一个M*Q的矩阵,gmq表示G中的一个元素,G中第m行最大值所在的列,通常为第m组盲源分离滤波器输出信号对应的座位;本实施例使用联合最大化方法,来提升盲源分离输出映射座位对应关系的准确度。例如,以M个传声器单元,M个位置为例,联合最大化方法的优化目标是从G中提取M个元素,使得这M个元素的和最大,并且这M个元素的行列均不相同,此时共有M的阶乘(M!)种通道映射关系,σk′(m)表示第k种通道映射方式下,提取的第m行元素所在的列,其中k′=(1,2,…,M!),联合最大化代价函数可以表示为:
Figure BDA0002213688980000071
其中,M!=M×(M-1)×(M-2)×(M-3)…×1。
示例性方法
图2是本公开另一示例性实施例提供的多位置语音分离方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围。
本实施例中的设定空间可以为车内等空间,每个位置可对应至少一个设定发声范围,例如,对应上述图1所示的实施例中步骤101中选取设定空间内的一个位置q,在位置q上声音可能出现的小范围区域,选取P个发声范围,其中的P个发声范围为该位置q对应的多个设定发声范围。
步骤202,确定至少两个设定发声范围对应的传递函数矩阵。
可选地,传递函数矩阵的获取可以是从数据库中直接获取的,或者,基于针对设定空间内的多个位置各自对应的设定发声范围离线建模获得的绝对传递函数获得;其中,数据库中的传递函数矩阵可以是基于任意方法(例如,基于离线建模获得的绝对传递函数处理获得)获得之后存储的,在执行步骤202时,直接从数据库调用即可。
步骤203,基于传声器阵列采集至少两个位置中每个位置发出的包含期望声源的原始声音信号。
本实施例中,传声器阵列可以为分布式传声器阵列,基于分布式传声器阵列接收到的信号对每个位置的声源有一定的区分度,靠近声源位置的传声单元接收到的能量最大,实现了语音增强。
步骤204,利用盲源分离方法处理原始声音信号,分离获得至少两组分离滤波器。
其中,盲源分离方法(Blind Source Separation,BSS),又称为盲信号分离,是指在信号的理论模型和源信号无法精确获知的情况下,如何从混合信号(观测信号,对应本实施例的原始声音信号)中分离出各源信号的方法。
由于当使用分布式传声器阵列时,波束方法不满足Nyquist定理,很难分离高频信号,使用盲源分离方法可以有效抑制干扰信号,进而获得期望座位的信号,因此,本实施例采用盲源分离方法处理原始声音信号。使用盲源分离方法处理传声器阵列接收到的信号,提升了高频信号的分离性能。
步骤205,基于至少两组分离滤波器与传递函数矩阵,确定至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
盲源分离方法分类得到的滤波器存在排序不确定的问题,即,无法确定每个输出通道与位置之间的对应关系,只是将不同声音信号从原始声音信号中分离开了,因此,本实施例通过结合传递函数矩阵和分离滤波器将位置与输出通道之间的关系进行对应,提高了得到的对应关系的准确性。
本公开上述实施例提供的一种多位置语音分离方法,确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;确定所述至少两个设定发声范围对应的传递函数矩阵;基于传声器阵列采集所述至少两个位置中每个位置发出的包含期望声源的原始声音信号;利用盲源分离方法处理所述原始声音信号,分离获得至少两组分离滤波器;基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系;基于传递函数矩阵与盲源分离方法可确定多个位置中每个位置对应的声音信号,实现了对多位置的信号输出位置确定,提高了输出信号的排序准确率。
如图3所示,在上述图2所示实施例的基础上,步骤205可包括如下步骤:
步骤2051,基于至少两组分离滤波器和传递函数矩阵确定一个响应矩阵。
其中,响应矩阵中的每一行对应至少两组分离滤波器中的一个分离滤波器,响应矩阵中的每一列对应至少两个位置中的一个位置。
可选地,基于至少两组分离滤波器构成的分离矩阵和传递函数矩阵进行矩阵乘法,确定一个响应矩阵。
该响应矩阵可以如图1提供实施例中的公式(5)所示,基于所有分离滤波器与传递函数矩阵的矩阵乘法得到。
步骤2052,基于响应矩阵确定至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
本实施例中,通过离线建模获得的传递函数矩阵和盲源分离方法获得导向向量,替换了自由场模型,更加适合设定空间内(如,车内)的实际声学环境;基于导向向量,实现盲源分离输出通道与位置的一一映射,可获得每个位置对应的输出信号。
如图4所示,在上述图3所示实施例的基础上,步骤2052可包括如下步骤:
步骤401,从响应矩阵中的至少两行的每行中分别取一个元素进行求和,得到至少两个元素和值。
其中,每个元素和值对应的每两行中的元素不在同一列。
步骤402,以至少两个元素和值中最大的元素和值对应的响应矩阵中的元素的位置,确定至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
本实施例实现了联合最大化方法处理响应矩阵,可参照图1提供的实施例中的步骤104进行理解,例如,以M个传声器单元,M个位置为例,联合最大化方法的优化目标是从G中提取M个元素,使得这M个元素的和最大,并且这M个元素的行列均不相同。本实施例使用联合最大化方法,提升了盲源分离输出映射座位对应关系的准确度。
如图5所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2021,分别在至少两个设定发声范围中的每个设定发声范围内播放已知声音信号。
其中,每个设定发声范围包括多个预设声源位置;
可选地,分别在至少两个设定发声范围中的每个设定发声范围内的多个预设声源位置分别播放已知声音信号。
本实施例中,设定发声范围可以为以每个位置作为中心相对于阵列的夹角±10°范围(即,设定发声范围位于[夹角-10°,夹角+10°]),在该范围内应用本实施方法进行信号排序更准确;可选地,本实施例播放的已知声音信号可以为白噪声,例如,如图1所示实施例中步骤101中分别在P个发声范围播放白噪声。
步骤2022,基于传声器阵列采集每个已知声音信号,确定传声器阵列中的每个传声器单元相对于声源的绝对传递函数。
步骤2023,基于传声器阵列中的至少两个传声器单元对应的至少两组绝对传递函数确定传递函数矩阵。
本实施例通过对声源可能出现的位置进行多点建模,降低了建模分离滤波器对建模位置的敏感性,提升了建模结果的鲁棒性。
如图6所示,在上述图5所示实施例的基础上,步骤2023可包括如下步骤:
步骤601,分别对至少两组绝对传递函数中的每组绝对传递函数执行归一化操作,得到至少两组归一化传递函数。
本实施例中的归一化操作可参照图1提供的实施例中公式(3)实现,例如,实现幅度归一化。
步骤602,分别将至少两组归一化传递函数中的每组归一化传递函数转换为频域表达的频域传递函数。
步骤603,将至少两组频域传递函数按照对应的位置排列,获得传递函数矩阵。
可选地,可参照上述图1提供的实施例中的公式(4)实现对归一化传递函数的频域转换,获得频域传递函数,其中,传递函数矩阵H(ω)中的每列与一个归一化传递函数存在对应关系;本实施例采用能量归一化,保证能量一致,保证了每个声源相对传声器接收到的能量一致,消除了与传声器阵列距离不同距离的声源之间的能量差异。
本公开实施例提供的任一种多位置语音分离方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种多位置语音分离方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种多位置语音分离方法。下文不再赘述。
示例性装置
图7是本公开一示例性实施例提供的多位置语音分离装置的结构示意图。如图7所示,本实施例提供的装置包括:
发声范围确定模块71,用于确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围。
矩阵确定模块72,用于确定至少两个设定发声范围对应的传递函数矩阵。
信号采集模块73,用于基于传声器阵列采集发声范围确定模块71确定的至少两个位置中每个位置发出的包含期望声源的原始声音信号。
信号分离模块74,用于利用盲源分离方法处理信号采集模块73采集的原始声音信号,分离获得至少两组分离滤波器。
语音分离模块75,用于基于信号分离模块74确定的至少两组分离滤波器与矩阵确定模块72确定的传递函数矩阵,确定至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
本公开上述实施例提供的一种多位置语音分离装置,确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;确定所述至少两个设定发声范围对应的传递函数矩阵;基于传声器阵列采集所述至少两个位置中每个位置发出的包含期望声源的原始声音信号;利用盲源分离方法处理所述原始声音信号,分离获得至少两组分离滤波器;基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系;基于传递函数矩阵与盲源分离方法可确定多个位置中每个位置对应的声音信号,实现了对多位置的信号输出位置确定,提高了输出信号的排序准确率。
图8是本公开另一示例性实施例提供的多位置语音分离装置的结构示意图。如图8所示,本实施例提供的装置包括:
语音分离模块75包括:
相应矩阵单元751,用于基于至少两组分离滤波器和传递函数矩阵确定一个响应矩阵。其中,响应矩阵中的每一行对应至少两组分离滤波器中的一个分离滤波器,响应矩阵中的每一列对应至少两个位置中的一个位置。
关系确定单元752,用于基于相应矩阵单元751确定的响应矩阵确定至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
可选地,关系确定单元752,具体用于从响应矩阵中的至少两行的每行中分别取一个元素进行求和,得到至少两个元素和值;其中,每个元素和值对应的每两行中的元素不在同一列;以至少两个元素和值中最大的元素和值对应的响应矩阵中的元素的位置,确定至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
可选地,相应矩阵单元751,具体用于基于至少两组分离滤波器构成的分离矩阵和传递函数矩阵进行矩阵乘法,确定一个响应矩阵。
在一些可选的实施例中,矩阵确定模块72包括:
信号播放单元721,用于分别在至少两个设定发声范围中的每个设定发声范围内播放已知声音信号。
其中,每个设定发声范围包括多个预设声源位置;可选地,信号播放单元721,具体用于分别在至少两个设定发声范围中的每个设定发声范围内的多个预设声源位置播放已知声音信号。
绝对函数确定单元722,基于传声器阵列采集信号播放单元721播放的每个已知声音信号,确定传声器阵列中的每个传声器单元相对于声源的绝对传递函数。
函数确定单元723,基于传声器阵列中的至少两个传声器单元对应的绝对函数确定单元722确定的至少两组绝对传递函数确定传递函数矩阵。
函数确定单元723,具体用于分别对至少两组绝对传递函数中的每个绝对传递函数执行归一化操作,得到至少两组归一化传递函数;分别将至少两组归一化传递函数中的每个归一化传递函数转换为频域表达的频域传递函数;将至少两组频域传递函数按照对应的位置排列,获得传递函数矩阵。
示例性电子设备
下面,参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图9图示了根据本公开实施例的电子设备的框图。
如图9所示,电子设备90包括一个或多个处理器91和存储器92。
处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。
存储器92可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器91可以运行所述程序指令,以实现上文所述的本公开的各个实施例的多位置语音分离方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备90还可以包括:输入装置93和输出装置94,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置93可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置93可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备93还可以包括例如键盘、鼠标等等。
该输出装置94可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备90中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的多位置语音分离方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的多位置语音分离方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种多位置语音分离方法,包括:
确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;
确定所述至少两个设定发声范围对应的传递函数矩阵;
基于传声器阵列采集所述至少两个位置中每个位置发出的包含期望声源的原始声音信号;
利用盲源分离方法处理所述原始声音信号,分离获得至少两组分离滤波器;
基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系。
2.根据权利要求1所述的方法,所述基于所述至少两组分离滤波器与所述传递函数矩阵,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系,包括:
基于所述至少两组分离滤波器和所述传递函数矩阵确定一个响应矩阵;其中,所述响应矩阵中的每一行对应所述至少两组分离滤波器中的一个分离滤波器,所述响应矩阵中的每一列对应所述至少两个位置中的一个位置;
基于所述响应矩阵确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系。
3.根据权利要求2所述的方法,所述基于所述响应矩阵确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系,包括:
从所述响应矩阵中的至少两行的每行中分别取一个元素进行求和,得到至少两个元素和值;其中,每个所述元素和值对应的所述每两行中的元素不在同一列;
以所述至少两个元素和值中最大的元素和值对应的所述响应矩阵中的元素的位置,确定所述至少两个位置中每个位置与所述盲源分离方法的输出通道的对应关系。
4.根据权利要求2所述的方法,所述基于所述至少两组分离滤波器和所述传递函数矩阵确定一个响应矩阵,包括:
基于所述至少两组分离滤波器构成的分离矩阵和所述传递函数矩阵进行矩阵乘法,确定一个所述响应矩阵。
5.根据权利要求1-4任一所述的方法,其中,所述确定所述至少两个设定发声范围对应的传递函数矩阵,包括:
分别在所述至少两个设定发声范围中的每个设定发声范围内播放已知声音信号;
基于所述传声器阵列采集每个所述已知声音信号,确定所述传声器阵列中的每个传声器单元相对于声源的绝对传递函数;
基于所述传声器阵列中的至少两个传声器单元对应的至少两组绝对传递函数确定所述传递函数矩阵。
6.根据权利要求5所述的方法,其中,每个所述设定发声范围包括多个预设声源位置;
所述分别在所述至少两个设定发声范围中的每个设定发声范围内播放已知声音信号,包括:
分别在所述至少两个设定发声范围中的每个设定发声范围内的多个预设声源位置播放已知声音信号。
7.根据权利要求5所述的方法,其中,所述基于所述传声器阵列中的至少两个传声器单元对应的至少两组绝对传递函数确定所述传递函数矩阵,包括:
分别对所述至少两组绝对传递函数中的每组绝对传递函数执行归一化操作,得到至少两组归一化传递函数;
分别将所述至少两组归一化传递函数中的每组归一化传递函数转换为频域表达的频域传递函数;
将所述至少两组频域传递函数按照对应的位置排列,获得所述传递函数矩阵。
8.一种多位置语音分离装置,包括:
发声范围确定模块,用于确定设定空间内至少两个位置各自对应的设定发声范围,得到至少两个设定发声范围;
矩阵确定模块,用于确定所述至少两个设定发声范围对应的传递函数矩阵;
信号采集模块,用于基于传声器阵列采集所述发声范围确定模块确定的至少两个位置中每个位置发出的包含期望声源的原始声音信号;
信号分离模块,用于利用盲源分离方法处理所述信号采集模块采集的原始声音信号,分离获得至少两组分离滤波器;
语音分离模块,用于基于所述信号分离模块确定的至少两组分离滤波器与所述矩阵确定模块确定的传递函数矩阵,确定所述至少两个位置中每个位置与盲源分离方法的输出通道的对应关系。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的多位置语音分离方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-7任一所述的多位置语音分离方法。
CN201910907419.8A 2019-09-24 2019-09-24 多位置语音分离方法和装置、存储介质、电子设备 Active CN110675892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907419.8A CN110675892B (zh) 2019-09-24 2019-09-24 多位置语音分离方法和装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907419.8A CN110675892B (zh) 2019-09-24 2019-09-24 多位置语音分离方法和装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN110675892A CN110675892A (zh) 2020-01-10
CN110675892B true CN110675892B (zh) 2022-04-05

Family

ID=69078904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907419.8A Active CN110675892B (zh) 2019-09-24 2019-09-24 多位置语音分离方法和装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN110675892B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113109763B (zh) * 2020-01-13 2023-08-25 北京地平线机器人技术研发有限公司 声源位置确定方法和装置、可读存储介质、电子设备
CN111312275B (zh) * 2020-02-13 2023-04-25 大连理工大学 一种基于子带分解的在线声源分离增强系统
CN112346012A (zh) * 2020-11-13 2021-02-09 南京地平线机器人技术有限公司 声源位置确定方法和装置、可读存储介质、电子设备
CN113380267B (zh) * 2021-04-30 2024-04-19 深圳地平线机器人科技有限公司 对音区进行定位的方法、装置、存储介质及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004053790A1 (de) * 2004-11-08 2006-05-18 Siemens Audiologische Technik Gmbh Verfahren zur Erzeugung von Stereosignalen für getrennte Quellen und entsprechendes Akustiksystem
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
JP5706782B2 (ja) * 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
US20120294446A1 (en) * 2011-05-16 2012-11-22 Qualcomm Incorporated Blind source separation based spatial filtering
WO2014202286A1 (en) * 2013-06-21 2014-12-24 Brüel & Kjær Sound & Vibration Measurement A/S Method of determining noise sound contributions of noise sources of a motorized vehicle
CN107219512B (zh) * 2017-03-29 2020-05-22 北京大学 一种基于声传递函数的声源定位方法
CN109308909B (zh) * 2018-11-06 2022-07-15 北京如布科技有限公司 一种信号分离方法、装置、电子设备及存储介质
CN109920448A (zh) * 2019-02-26 2019-06-21 江苏大学 一种自动驾驶车辆交通环境特种声音的识别系统及方法
CN110148422B (zh) * 2019-06-11 2021-04-16 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备

Also Published As

Publication number Publication date
CN110675892A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110675892B (zh) 多位置语音分离方法和装置、存储介质、电子设备
Diaz-Guerra et al. Robust sound source tracking using SRP-PHAT and 3D convolutional neural networks
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
Sainath et al. Multichannel signal processing with deep neural networks for automatic speech recognition
Hertel et al. Comparing time and frequency domain for audio event recognition using deep learning
US20110125496A1 (en) Speech recognition device, speech recognition method, and program
US20130297296A1 (en) Source separation by independent component analysis in conjunction with source direction information
WO2006085537A1 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
Amiriparian et al. Bag-of-deep-features: Noise-robust deep feature representations for audio analysis
US10262678B2 (en) Signal processing system, signal processing method and storage medium
WO2016100460A1 (en) Systems and methods for source localization and separation
JP7326627B2 (ja) オーディオ信号処理方法、装置、機器及びコンピュータプログラム
CN111863005B (zh) 声音信号获取方法和装置、存储介质、电子设备
CN112349292A (zh) 信号分离方法和装置、计算机可读存储介质、电子设备
CN110673096A (zh) 语音定位方法和装置、计算机可读存储介质、电子设备
CN109979428B (zh) 音频生成方法和装置、存储介质、电子设备
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.
CN110689900B (zh) 信号增强方法和装置、计算机可读存储介质、电子设备
CN112346012A (zh) 声源位置确定方法和装置、可读存储介质、电子设备
CN107843871B (zh) 声源定向方法、装置和电子设备
CN112055284A (zh) 回声消除方法及神经网络的训练方法、装置、介质、设备
CN111696573A (zh) 声源信号处理方法及装置、电子设备和存储介质
CN112799016B (zh) 声源定位方法、装置、计算机可读存储介质和电子设备
CN112151061B (zh) 信号排序方法和装置、计算机可读存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant