CN111863005A - 声音信号获取方法和装置、存储介质、电子设备 - Google Patents

声音信号获取方法和装置、存储介质、电子设备 Download PDF

Info

Publication number
CN111863005A
CN111863005A CN201910351668.3A CN201910351668A CN111863005A CN 111863005 A CN111863005 A CN 111863005A CN 201910351668 A CN201910351668 A CN 201910351668A CN 111863005 A CN111863005 A CN 111863005A
Authority
CN
China
Prior art keywords
sound
signal
image
signals
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910351668.3A
Other languages
English (en)
Inventor
张志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910351668.3A priority Critical patent/CN111863005A/zh
Publication of CN111863005A publication Critical patent/CN111863005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Abstract

本公开实施例公开了一种声音信号获取方法和装置、存储介质、电子设备,其中,方法包括:获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;获取所述K个声源中每个声源的图像;基于每个所述声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号,本公开除了获取声音信号本身,还获取了额外的体现为声源的图像的视觉信息,结合声音信号和图像信息实现实时获取期望信号,由于加入了图像的视觉信息,因此可直观获得空间当前环境的复杂程度,进而可提高目标声源的声音信号的准确性和完整性。

Description

声音信号获取方法和装置、存储介质、电子设备
技术领域
本公开涉及声音信号处理技术,尤其是一种声音信号获取方法和装置、存储介质、电子设备。
背景技术
“鸡尾酒会”问题是语音增强系统中极具挑战性的问题之一,其难点在于要求从包含音乐、车辆噪声以及其他说话人嘈杂环境中,分离提取期望说话人的语音信号,而人类听觉系统能够从这一环境中轻易地提取感兴趣的音频信号。
现有分离提取期望声音信号的解决方案是使用盲信号分离系统来模拟人类的听觉系统,将采集到的信号分离完成后,从各通道中选择能量最大的声源作为期望信号。
发明内容
为了解决现有技术在没有先验知识的情况下,仅根据语音信号本身特征很难实时选中期望信号的技术问题,提出了本公开。本公开的实施例提供了一种声音信号获取方法和装置、存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种声音信号获取方法,包括:
获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;
获取所述K个声源中每个声源的图像;
基于每个所述声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号。
根据本公开实施例的另一方面,提供了一种声音信号获取装置,包括:
原始信号获取模块,用于获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;
图像采集模块,用于获取所述K个声源中每个声源的图像;
目标信号获取模块,用于基于所述图像采集模块获得的所述每个声源的图像和所述原始信号获取模块获取的原始信号,确定所述K个声源中目标声源的声音信号。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实施例所述的声音信号获取方法。
根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述实施例所述的声音信号获取方法。
基于本公开上述实施例提供的声音信号获取方法和装置、存储介质、电子设备,获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;获取所述K个声源中每个声源的图像;基于每个所述声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号,本公开除了获取声音信号本身,还获取了额外的体现为声源的图像的视觉信息,结合声音信号和图像信息实现实时获取期望信号,由于加入了图像的视觉信息,因此可直观获得空间当前环境的复杂程度,进而可提高目标声源的声音信号的准确性和完整性。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的声音信号获取系统的应用示意图。
图2是本公开一示例性实施例提供的声音信号获取方法的流程示意图。
图3是本公开另一示例性实施例提供的声音信号获取方法的流程示意图。
图4是本公开图3所示实施例中步骤304的一种流程示意图。
图5是本公开图4所示实施例中步骤3043的流程示意图。
图6是本公开图3所示实施例中步骤304的另一种流程示意图。
图7是本公开图2所示实施例中步骤202的一种流程示意图。
图8是本公开图2所示实施例中步骤202的另一种流程示意图。
图9是本公开一示例性实施例提供的声音信号获取装置的结构示意图。
图10是本公开另一示例性实施例提供的声音信号获取装置的结构示意图。
图11是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有的解决“鸡尾酒会”问题的方案是使用盲信号分离算法来模拟人类的听觉系统,将采集到的信号分离完成后,从各通道中选择能量最大的声源作为期望信号。
至少存在以下问题:现有技术提出的盲信号分离算法虽然可以把混叠在一起的期望信号、干扰信号以及背景噪声分离在不同的通道中,但是在没有先验知识的情况下,仅根据语音信号本身特征,很难选中期望信号。
示例性系统
图1是本公开一示例性实施例提供的声音信号获取系统的应用示意图。如图1所示,系统处理过程包括:101,阵列信号输入;102,通过摄像头等设备采集场景信息,实现加入场景判断;103,判断场景是否属于多干扰复杂场景;104,对于复杂场景盲信号分离失效,此时输出原始输入信号作为期望信号输出,实现尽可能保证期望信号的完整性;105,如盲信号分离生效,进行盲信号分离;106,将盲信号分离结果结合声音的方位信息(例如,声源为人时的唇动方位信息),来选择相应的通道作为输出的期望信号。
盲信号分离,指的是从多个观测到的混合信号中分析出没有观测的原始信号。通常观测到的混合信号来自多个传感器的输出,并且传感器的输出信号具有独立性(线性不相关)。盲信号的“盲”字强调了两点:1)原始信号并不知道;2)对于信号混合的方法也不知道。
示例性方法
图2是本公开一示例性实施例提供的声音信号获取方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,获取空间中的原始信号。
其中,原始信号是基于空间中的K个声源发出的声音信号确定的,K为声源数量,且为大于或等于1的整数。可选地,本实施例所指空间可以为车辆、房间等空间,或其他声源数量可计量的空间。
步骤202,获取K个声源中每个声源的图像。
在一实施例中,可通过图像采集装置(如,摄像头等)采集每个声源的图像。
步骤203,基于每个声源的图像和原始信号,确定K个声源中目标声源的声音信号。
可选地,目标声源可以是K个声源中的任一声源,该步骤确定的目标声源的声音信号可以是原始信号或原始信号经过处理得到的声音信号。
本公开上述实施例提供的声音信号获取方法,获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;获取所述K个声源中每个声源的图像;基于每个所述声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号,本公开除了获取声音信号本身,还获取了额外的体现为声源的图像的视觉信息,结合声音信号和图像的视觉信息实现实时获取期望信号,由于加入了图像的视觉信息,因此可直观获得空间当前环境的复杂程度,进而可提高目标声源的声音信号的准确性和完整性。
图3是本公开另一示例性实施例提供的声音信号获取方法的流程示意图。如图3所示,包括如下步骤:
步骤301,通过声音采集阵列中包括的M个声音采集通道获得M个原始信号。
其中,M为原始信号的信号数量,且为大于1的整数。
步骤302,获取K个声源中每个声源的图像。
步骤303,根据声源数量与信号数量之间的大小关系,从原始信号获得K个声源对应的K个声音信号。
一个可选示例中,响应于声源数量与信号数量之间的大小关系满足第一预设条件,利用盲信号分离算法从原始信号中分离出K个声源的声音信号;分别通过M个声音采集通道中的K个通道输出K个声音信号。
可选地,第一预设条件可以是声音采集通道的数量M大于或等于声源数量K,即,在M≥K时,每个声源可以分别对应一个声音采集通道,例如,K=5,M=6时,5个声源分别对应5个声音采集通道,剩余的声音采集通道分解出的声音信号无意义。此时,通过盲信号分离算法可实现将K个声源的声音信号从原始信号中分离出来,并分别基于K个通道输出。
另一可选示例中,响应于声源数量与信号数量之间的大小关系满足第二预设条件,将原始信号作为目标声源的声音信号。
可选地,第二预设条件可以是声音采集通道的数量M小于声源数量K,即,在M<K时,每个声音采集通道可能对应多个声源,例如,K=6,M=4时,6个声源对应4个声音采集通道,此时,将有至少2个声音采集通道中出现混合声音信号的情况,此时,盲信号分离算法不适用于获取每个声源的声音信号,本实施例采用原始信号作为目标声源的声音信号,实现通过场景判断尽可能保留期望信号的完整性。
步骤304,基于K个声源中每个声源的图像从K个声音信号中确定目标声源的声音信号。
在诸如复杂的多干扰办公室,例如,声源数量多于麦克风数量的场景中,盲信号分离算法有可能失效,无法在分离后的通道中选择合适的期望信号,此时如果仍利用盲信号分离算法获得目标声源的声音信号,本实施例通过根据声源数量与信号数量之间的大小关系,获得目标声源的声音信号,提高了获得的声音信号的准确性。
如图4所示,在上述图3所示实施例的基础上,步骤304可包括如下步骤:
步骤3041,基于K个声源中每个声源的图像确定每个声源的位置信息,基于每个声源的位置信息确定每个声源与声音采集阵列之间的第一角度。
可选地,可通过图像采集装置(如,摄像头等)获得每个声源的图像,通过采集到的图像可得到声源的位置信息,获得每个声源的位置信息与声音采集阵列(例如,麦克风阵列等)的第一角度,例如,K个声源在以声音采集阵列为中心的空间直角坐标系中分别对应的K个第一角度为:α1,α2,……αK
步骤3042,基于获得K个声音信号确定每个声音信号与声音采集阵列之间的第二角度。
其中,第一角度和第二角度在同一坐标系下。
可选地,可利用波达方向定位技术(DOA)获取每个声音信号与声音采集阵列之间的第二角度,例如,声音信号通过M个声音采集通道获得的M个第二角度为:β1,β2,……βM。波达方向定位技术属于现有技术,是电子、通信、雷达、声呐等研究领域的行业内用语,通过处理接收到的回波信号(对应本实施例中的原始信号),获取目标(对应本实施例中的声音)的距离信息和方位信息,其中,距离信息体现该声音信号与声音采集阵列之间的距离信息,方位信息体现该声音信号与声音采集阵列之间的方向信息,通过方位信息可确定以声音采集阵列为中心的坐标系下声音信号与声音采集阵列之间的角度信息,结合距离信息可将该角度信息转换到与第一角度相同的坐标系下,获得与第一角度在相同的坐标系下的第二角度;本实施例实现了通过获得的每个声源的距离信息和方位信息可确定每个声音信号与声音采集阵列之间的第二角度。
步骤3043,基于每个声源对应的第一角度和每个声音信号对应的第二角度,从M个声音采集通道中确定目标声音采集通道。
步骤3044,通过目标声音采集通道输出目标声源的声音信号。
本实施例通过结合声源的图像信息确定了声源与声音采集阵列之间的角度,为盲信号分离后的声音信号选择提供了先验信息,提高了获得的目标声音采集通道的准确性。
如图5所示,在上述图4所示实施例的基础上,步骤3043可包括如下步骤:
步骤30431,基于每个声音信号的信噪比从K个声源中确定目标声源。
可选地,将声音信号中,信噪比最高的声音信号作为目标声源。
步骤30432,基于目标声源对应的第一角度和每个声音信号对应的第二角度,从M个声音采集通道中确定目标声音采集通道。
根据确定的目标声源可获得其对应的第一角度,根据第二角度与第一角度之间的关系,即可确定输出目标声源的目标声音采集通道。例如,计算目标声源对应的第一角度与每个声音信号对应的第二角度之间差值绝对值,获得多个差值绝对值;确定多个差值绝对值中最小的差值绝对值;将最小的差值绝对值对应的声音信号对应的声音采集通道作为目标声音通道。当确定的目标声源为第n个声源,此时目标声源对应的第一角度为αn,此时,可基于计算|βin|获得每个第二角度与目标声源的第一角度之间的差值绝对值,其中,i的取值为1至M,以最小的差值绝对值对应的βi对应的声音采集通道作为目标声音通道;差值绝对值体现了在视觉信息中声源位置与听觉信息中声源位置之间的差异,差异越小,说明重合度越高,获得的目标声源的声音信号越准确。
如图6所示,在上述图3所示实施例的基础上,步骤304可包括如下步骤:
步骤3045,响应于已知目标声源的相关信息,基于目标声源的相关信息,获得目标声源与声音采集阵列之间的第一角度。
步骤3046,基于获得K个声音信号确定每个声音信号与声音采集阵列之间的第二角度。
其中,第一角度和第二角度在同一坐标系下。
步骤3047,基于目标声源对应的第一角度和每个声音信号对应的第二角度,从M个声音采集通道中确定目标声音采集通道,通过目标声音采集通道输出目标声源的声音信号。
本实施例对于已知目标声源的相关信息的情况进行获取目标声源的声音信号,其中,目标声源的相关信息可以包括但不限于:人脸信息、位置信息、声纹信息等,例如,对于已知的人脸信息,通过摄像头等采集装置可对已知的人脸信息基于采集的图像进行定位,获得目标声源的位置,确定第一角度,再以第二角度与第一角度之间的差值绝对值确定目标声音采集通道,实现快速获得目标声源的声音信号。
在具体应用中,例如,假设在汽车场景,车主预先在系统中注册了人脸信息(目前商用的人脸识别准确率在99%以上),那么当检测到车主和乘客同时说话时,可以优先输出车主语音信号。如果车主预先注册了声纹,则在分离的通道中检测对应声纹信息,如果有则优先输出车主语音信号。如果预先设置的是位置信息,如驾驶位置,则优先输出。
如图7所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2021,采集空间中的第一图像。
可选地,可通过图像采集装置采集第一图像,图像采集装置的数量可以是1个或者分布式的多个。
步骤2022,识别第一图像中的人脸特征。
步骤2023,基于人脸特征确定处于发声状态的用户作为声源。
步骤2024,将处于发声状态的用户对应的图像作为声源的图像。
本公开实施例中的声源可以是人和/或固定物体(如,电视、音箱、洗衣机、空调等),本实施例是当声源为人时,获取声源图像的方法,其中,通过唇动信息确定用户是否发声,获得用户的唇动信息可以基于现有技术中的方法实现,本实施例不限制具体获得唇动信息的方式。
在另一种情况下,当声源为固定物体时,如图8所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2025,采集空间中的第二图像。
可选地,可通过图像采集装置采集第二图像,图像采集装置的数量可以是1个或者分布式的多个,针对固定物体,可以设置固定位置的图像采集装置对其图像进行采集。
步骤2026,识别第二图像中的固定物体特征。
步骤2027,基于固定物体特征确定处于发声状态的固定物体作为声源。
步骤2028,将处于发声状态的固定物体对应的图像作为声源的图像。
本实施例中,对固定物体可基于该物体的设备信号灯确定该物体是否发声,例如,洗衣机通过其显示设备是否启动的信号灯确定其是否处于工作状态,当设备信号灯显示该设备处于工作状态,即可确认该固定物体处于发声状态,即可将该物体对应的图像作为声源的图像。
在还一种情况下,在上述图2所示实施例中的步骤202可以包括上述步骤2021到步骤2028,共8个步骤,即,将人和固定物体同时作为声源。
在一个可选的实施例中,本公开提供的声音信号获取方法,还包括:
基于目标声源的声音信号,实现以下至少一个操作:声纹识别、语音唤醒和识别、对象识别。
可选地,可将本公开提供的声音信号获取方法应用到车载设备语音唤醒中,此时,获取原始信号的空间为车辆内,获取车辆内的原始信号;对车辆内的多个声源进行图像采集,获得多个图像,本实施例中由于需要实现语音唤醒,可仅针对车内人员而不针对其他设备声音进行采集,因此,对车内人员进行图像采集,获得多个人脸图像,对人脸图像进行特征提取获得人脸特征;基于人脸特征确定处于发声状态的车内人员作为声源;将处于发声状态的车内人员对应的人脸图像作为声源的图像;通过每个声源的图像和原始信号,即可获得用于语音唤醒的目标声源的声音信号,并将该声音信号作为语音唤醒的指令,实现语音唤醒;可选地,本实施例中还可以规定驾驶位的声源作为目标声源。
本实施例为对获取的目标声源的声音信号的应用,以获得的目标声源的声音信号,实现声纹识别、语音唤醒、语音识别或对象识别中的一个或多个,例如,以获得的驾驶员的声音信号,对驾驶员的语音进行识别,获得相应指令,以实现对车辆的控制,本公开提高了语音唤醒或者识别的成功率。
在0db以下的音乐干扰或者人声干扰场景,本方法由于加入了图像的视觉信息,可以更为准确的选中盲信号分离后期望信号的通道;而在复杂的多背景干扰场景中,本方法通过直接输出原始信号的方式,实现了在盲信号分离失效的情况下尽可能保留期望信号的完整性。从而提高语音唤醒或者识别的成功率。
本公开实施例提供的任一种声音信号获取方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种声音信号获取方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种声音信号获取方法。下文不再赘述。
示例性装置
图9是本公开一示例性实施例提供的声音信号获取装置的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图9所示,包括:
原始信号获取模块91,用于获取空间中的原始信号。
其中,原始信号是基于空间中的K个声源发出的声音信号确定的,K为声源数量,且为大于或等于1的整数。
图像采集模块92,用于获取K个声源中每个声源的图像。
目标信号获取模块93,用于基于图像采集模块获得的每个声源的图像和原始信号获取模块获取的原始信号,确定K个声源中目标声源的声音信号。
本公开上述实施例提供的声音信号获取装置,获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;获取所述K个声源中每个声源的图像;基于每个所述声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号,本公开除了获取声音信号本身,还获取了额外的体现为声源的图像的视觉信息,结合声音信号和图像信息实现实时获取期望信号。
图10是本公开另一示例性实施例提供的声音信号获取装置的结构示意图。
原始信号获取模块91,具体用于通过声音采集阵列中包括的M个声音采集通道获得M个原始信号;其中,M为原始信号的信号数量,且为大于1的整数。
目标信号获取模块93,包括:
声音信号单元931,用于根据声源数量与信号数量之间的大小关系,从原始信号获得K个声源对应的K个声音信号。
信号确定单元932,用于基于K个声源中每个声源的图像从K个声音信号中确定目标声源的声音信号。
可选地,声音信号单元931,具体用于响应于声源数量与信号数量之间的大小关系满足第一预设条件,利用盲信号分离算法从原始信号中分离出K个声源的声音信号;分别通过M个声音采集通道中的K个通道输出K个声音信号。
响应于声源数量与信号数量之间的大小关系满足第二预设条件,将原始信号作为目标声源的声音信号。
可选地,信号确定单元932,包括:
第一角度单元,用于基于K个声源中每个声源的图像确定每个声源的位置信息,基于每个声源的位置信息确定每个声源与声音采集阵列之间的第一角度;
第二角度单元,用于基于获得K个声音信号确定每个声音信号与声音采集阵列之间的第二角度,第一角度和第二角度在同一坐标系下;
通道确定单元,用于基于每个声源对应的第一角度和每个声音信号对应的第二角度,从M个声音采集通道中确定目标声音采集通道;
信号输出单元,用于通过目标声音采集通道输出目标声源的声音信号。
可选地,通道确定单元,包括:
目标确定单元,用于基于每个声音信号的信噪比从K个声源中确定目标声源;
角度通道确定单元,用于基于目标声源对应的第一角度和每个声音信号对应的第二角度,从M个声音采集通道中确定目标声音采集通道。
可选地,角度通道确定单元,用于计算目标声源对应的第一角度与每个声音信号对应的第二角度之间差值绝对值,获得多个差值绝对值;确定多个差值绝对值中最小的差值绝对值;将最小的差值绝对值对应的声音信号对应的声音采集通道作为目标声音通道。
可选地,信号确定单元932,具体用于响应于已知目标声源的相关信息,基于目标声源的相关信息,获得目标声源与声音采集阵列之间的第一角度;基于获得K个声音信号确定每个声音信号与声音采集阵列之间的第二角度,第一角度和第二角度在同一坐标系下;基于目标声源对应的第一角度和每个声音信号对应的第二角度,从M个声音采集通道中确定目标声音采集通道,通过目标声音采集通道输出目标声源的声音信号。
图像采集模块92,具体用于采集空间中的第一图像;识别第一图像中的人脸特征;基于人脸特征确定处于发声状态的用户作为所述声源;将处于发声状态的用户对应的图像作为声源的图像;和/或,
图像采集模块92,具体用于采集空间中的第二图像;识别第二图像中的固定物体特征;基于固定物体特征确定处于发声状态的固定物体作为声源;将处于发声状态的固定物体对应的图像作为声源的图像。
本公开实施例提供的声音信号获取装置,还包括:
信号操作模块,用于基于目标声源的声音信号,实现以下至少一个操作:声纹识别、语音唤醒和识别、对象识别。
示例性电子设备
下面,参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图11图示了根据本公开实施例的电子设备的框图。
如图11所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本公开的各个实施例的声音信号获取方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置113可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置113可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图11中仅示出了该电子设备11中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声音信号获取方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声音信号获取方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种声音信号获取方法,包括:
获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;
获取所述K个声源中每个声源的图像;
基于所述每个声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号。
2.根据权利要求1所述的方法,其中,所述获取空间中的原始信号,包括:
通过声音采集阵列中包括的M个声音采集通道获得M个原始信号,所述M为原始信号的信号数量,且为大于1的整数;
所述基于所述每个声源的图像和所述原始信号,确定所述K个声源中目标声源的声音信号,包括:
根据所述声源数量与所述信号数量之间的大小关系,从所述原始信号获得所述K个声源对应的K个声音信号;
基于所述K个声源中每个声源的图像从所述K个声音信号中确定所述目标声源的声音信号。
3.根据权利要求2所述的方法,其中,所述根据所述声源数量与所述信号数量之间的大小关系,从所述原始信号获得所述K个声源对应的K个声音信号,包括:
响应于所述声源数量与所述信号数量之间的大小关系满足第一预设条件,利用盲信号分离算法从所述原始信号中分离出所述K个声源的声音信号;
分别通过所述M个声音采集通道中的K个通道输出K个声音信号。
4.根据权利要求3所述的方法,其中,所述基于所述K个声源中每个声源的图像从所述K个声音信号中确定所述目标声源的声音信号,包括:
基于所述K个声源中每个声源的图像确定所述每个声源的位置信息,基于所述每个声源的位置信息确定所述每个声源与所述声音采集阵列之间的第一角度;
基于所述获得K个声音信号确定每个声音信号与所述声音采集阵列之间的第二角度,所述第一角度和所述第二角度在同一坐标系下;
基于所述每个声源对应的第一角度和所述每个声音信号对应的第二角度,从所述M个声音采集通道中确定目标声音采集通道;
通过所述目标声音采集通道输出所述目标声源的声音信号。
5.根据权利要求4所述的方法,其中,所述基于所述每个声源对应的第一角度和所述每个声音信号对应的第二角度,从所述M个声音采集通道中确定目标声音采集通道,包括:
基于所述每个声音信号的信噪比从所述K个声源中确定目标声源;
基于所述目标声源对应的第一角度和所述每个声音信号对应的第二角度,从所述M个声音采集通道中确定目标声音采集通道。
6.根据权利要求5所述的方法,其中,所述基于所述目标声源对应的第一角度和所述每个声音信号对应的第二角度,从所述M个声音采集通道中确定目标声音采集通道,包括:
计算所述目标声源对应的第一角度与所述每个声音信号对应的第二角度之间差值绝对值,获得多个差值绝对值;
确定所述多个差值绝对值中最小的差值绝对值;
将所述最小的差值绝对值对应的所述声音信号对应的声音采集通道作为所述目标声音通道。
7.根据权利要求3所述的方法,其中,所述基于所述K个声源中每个声源的图像从所述K个声音信号中确定所述目标声源的声音信号,包括:
响应于已知所述目标声源的相关信息,基于所述目标声源的相关信息,获得所述目标声源与所述声音采集阵列之间的第一角度;
基于所述获得K个声音信号确定所述每个声音信号与所述声音采集阵列之间的第二角度,所述第一角度和所述第二角度在同一坐标系下;
基于所述目标声源对应的第一角度和所述每个声音信号对应的第二角度,从所述M个声音采集通道中确定目标声音采集通道,通过所述目标声音采集通道输出所述目标声源的声音信号。
8.根据权利要求2所述的方法,所述根据所述声源数量与所述信号数量之间的大小关系,从所述原始信号获得所述K个声源对应的K个声音信号,包括:
响应于所述声源数量与所述信号数量之间的大小关系满足第二预设条件,将所述原始信号作为所述目标声源的声音信号。
9.根据权利要求1-8任一所述的方法,其中,所述获取所述K个声源中每个声源的图像,包括:
采集所述空间中的第一图像;
识别所述第一图像中的人脸特征;
基于所述人脸特征确定处于发声状态的用户作为所述声源;
将所述处于发声状态的用户对应的图像作为所述声源的图像;和/或,
获取所述K个声源中每个声源的图像,包括:
采集所述空间中的第二图像;
识别所述第二图像中的固定物体特征;
基于所述固定物体特征确定处于发声状态的固定物体作为所述声源;
将所述处于发声状态的固定物体对应的图像作为所述声源的图像。
10.根据权利要求9所述的方法,还包括:
基于所述目标声源的声音信号,实现以下至少一个操作:声纹识别、语音唤醒和识别、对象识别。
11.一种声音信号获取装置,包括:
原始信号获取模块,用于获取空间中的原始信号,所述原始信号是基于所述空间中的K个声源发出的声音信号确定的,所述K为声源数量,且为大于或等于1的整数;
图像采集模块,用于获取所述K个声源中每个声源的图像;
目标信号获取模块,用于基于所述图像采集模块获得的所述每个声源的图像和所述原始信号获取模块获取的原始信号,确定所述K个声源中目标声源的声音信号。
12.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10任一所述的声音信号获取方法。
13.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-10任一所述的声音信号获取方法。
CN201910351668.3A 2019-04-28 2019-04-28 声音信号获取方法和装置、存储介质、电子设备 Pending CN111863005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910351668.3A CN111863005A (zh) 2019-04-28 2019-04-28 声音信号获取方法和装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910351668.3A CN111863005A (zh) 2019-04-28 2019-04-28 声音信号获取方法和装置、存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN111863005A true CN111863005A (zh) 2020-10-30

Family

ID=72965156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910351668.3A Pending CN111863005A (zh) 2019-04-28 2019-04-28 声音信号获取方法和装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN111863005A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112492207A (zh) * 2020-11-30 2021-03-12 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN113257271A (zh) * 2021-05-17 2021-08-13 浙江大学 多发声者发声运动特征波形的获取方法及装置、电子设备
CN116489572A (zh) * 2022-01-14 2023-07-25 华为技术有限公司 一种电子设备控制方法、装置及电子设备
CN117593949A (zh) * 2024-01-19 2024-02-23 成都金都超星天文设备有限公司 一种用于天象仪运行演示天象的控制方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020064287A1 (en) * 2000-10-25 2002-05-30 Takashi Kawamura Zoom microphone device
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
US20090279715A1 (en) * 2007-10-12 2009-11-12 Samsung Electronics Co., Ltd. Method, medium, and apparatus for extracting target sound from mixed sound
CN106653041A (zh) * 2017-01-17 2017-05-10 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN106782584A (zh) * 2016-12-28 2017-05-31 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020064287A1 (en) * 2000-10-25 2002-05-30 Takashi Kawamura Zoom microphone device
US20090279715A1 (en) * 2007-10-12 2009-11-12 Samsung Electronics Co., Ltd. Method, medium, and apparatus for extracting target sound from mixed sound
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
CN106782584A (zh) * 2016-12-28 2017-05-31 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN106653041A (zh) * 2017-01-17 2017-05-10 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112492207A (zh) * 2020-11-30 2021-03-12 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112492207B (zh) * 2020-11-30 2023-04-18 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN113257271A (zh) * 2021-05-17 2021-08-13 浙江大学 多发声者发声运动特征波形的获取方法及装置、电子设备
CN116489572A (zh) * 2022-01-14 2023-07-25 华为技术有限公司 一种电子设备控制方法、装置及电子设备
CN117593949A (zh) * 2024-01-19 2024-02-23 成都金都超星天文设备有限公司 一种用于天象仪运行演示天象的控制方法、设备及介质
CN117593949B (zh) * 2024-01-19 2024-03-29 成都金都超星天文设备有限公司 一种用于天象仪运行演示天象的控制方法、设备及介质

Similar Documents

Publication Publication Date Title
CN111863005A (zh) 声音信号获取方法和装置、存储介质、电子设备
JP7114752B2 (ja) 音源場所検出のための方法および装置
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9076450B1 (en) Directed audio for speech recognition
CN102903362B (zh) 集成的本地和基于云的语音识别
CN111833899B (zh) 一种基于多音区的语音检测方法、相关装置及存储介质
CN112088315A (zh) 多模式语音定位
KR20180039135A (ko) 음성-인에이블 디바이스들 간 중재
CN110741433A (zh) 使用多个计算设备的对讲式通信
CN110673096B (zh) 语音定位方法和装置、计算机可读存储介质、电子设备
US20110125496A1 (en) Speech recognition device, speech recognition method, and program
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
CN111370014A (zh) 多流目标-语音检测和信道融合
US20150058003A1 (en) Speech recognition system
CN110675892B (zh) 多位置语音分离方法和装置、存储介质、电子设备
JP2007233239A (ja) 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
WO2019239667A1 (ja) 収音装置、収音方法、及びプログラム
EP4310838A1 (en) Speech wakeup method and apparatus, and storage medium and system
CN110827823A (zh) 语音辅助识别方法、装置、存储介质及电子设备
CN113593572A (zh) 在空间区域内进行音区定位方法和装置、设备和介质
JP2023546703A (ja) マルチチャネル音声アクティビティ検出
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
CN115910037A (zh) 语音信号的提取方法、装置、可读存储介质及电子设备
CN112346012A (zh) 声源位置确定方法和装置、可读存储介质、电子设备
Bergh et al. Multi-speaker voice activity detection using a camera-assisted microphone array

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination