CN109506568B

CN109506568B - 一种基于图像识别和语音识别的声源定位方法及装置

Info

Publication number: CN109506568B
Application number: CN201811641541.7A
Authority: CN
Inventors: 雷玉雄; 雷雄国; 刘寒英; 黄海艳; 程栋梁; 曾勋; 陈庆安
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-06-18
Anticipated expiration: 2038-12-29
Also published as: CN109506568A

Abstract

本发明公开一种基于图像识别和语音识别的声源定位方法，包括，实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置；实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置；根据第一坐标位置和第二坐标位置确定目标声源位置。本发明还公开了一种基于图像识别和语音识别的声源定位装置，根据本发明公开的方法和装置可以通过图像识别技术和麦克风阵列实现对声源的方向位置的精确定位，并且还可以通过图像识别技术和麦克风阵列对声源的方向位置的距离测量，这样可以达到更加精准的定位效果，实用性较高。

Description

一种基于图像识别和语音识别的声源定位方法及装置

技术领域

本发明涉及语音识别和图像识别的技术领域，特别是一种基于图像识别和语音识别的声源定位方法及装置。

背景技术

随着科技发展，智能设备越来越普及，其中，声源定位对于一些智能设备来说是尤为重要的，目前市面上单纯依靠麦克风阵对声源进行定位，这样往往会导致结果不准确，而且对麦克风阵列的算法、布局、测试角度的精度都是有非常高的要求，基本上不能实现对定位的精度要求，即不能达到精准定位。这就会导致通过单纯的麦克风阵列来进行声源方向的定位，不能进行实际应用，或者应用效果非常差，这会影响语音交互设备的交互效果和用户体验。

发明内容

为了解决上述问题，发明人构思通过参考仿生原理(它是一门生物科学与技术科学交叉的边缘科学,其任务是将生物系统的优异能力及产生的功能应用到技术发展中，以更好地解决技术问题)，应用图像识别技术结合语音识别技术，来实现对声源方向的精准定位，这样就可以解决了纯依靠麦克风阵不能对声源的精准定位的问题。

根据本发明的第一个方面，提供了一种基于图像识别和语音识别的声源定位方法，包括如下步骤

实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置；

实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置；

根据第一坐标位置和第二坐标位置确定目标声源位置。

根据本发明的第二个方面，提供了一种通过基于图像识别和语音识别的声源定位装置，包括：

图像采集模块，用于实时捕捉图像信息；

音频采集模块，用于实时采集声源信息；

图像识别模块，用于进行图像识别，并根据图像识别结果确定第一坐标位置；

语音识别模块，用于进行语音识别，并根据语音识别结果确定第二坐标位置；

声源定位模块，用于根据第一坐标位置和第二坐标位置确定目标声源位置。

本发明提供的装置和方法，通过图像识别来获取第一坐标位置，通过语音识别来获取第二坐标位置，基于两种识别得到的坐标位置来确定目标声源位置，既考虑图像特征，又辅助以语音特征，通过图像识别技术和语音识别技术实现了对声源的方向位置的精确定位，这样可以达到更加精准的定位效果，实用性较高。

附图说明

图1为本发明一实施方式的基于图像识别和语音识别的声源定位方法流程图；

图2为本发明又一实施方式的基于图像识别和语音识别的声源定位的装置原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的基于图像识别和语音识别的声源定位方法可以应用于任何配置了语音功能和图像识别功能的终端设备，例如，智能手机、平板电脑、智能家居等终端设备，本发明对此不作限制，从而能够使得用户在使用这些终端设备的过程中获得更及时准确的响应。

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一种实施方式的基于图像识别和语音识别的声源定位方法流程图。如图1所示，本实施例包括如下步骤：

步骤S101：实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置。具体实现为：通过具有摄像功能的装置实时捕捉图像信息，对捕捉的图像信息根据人脸识别技术进行人像识别，在确定为人像时，再进行张嘴识别，在确定为识别结果为张嘴时，获取发出张嘴动作的人像坐标，获取的方式可以由远程测距技术实现，即测量具有摄像功能的装置到发出声音的人的坐标，并将其确定为第一坐标位置。具体实现为：首先摄像头校准后会获取摄像头自身的基准坐标，在使用前，摄像头周围(靠近摄像头的任意位置)会设置有一个超声雷达和陀螺仪，超声雷达和陀螺仪均能够与摄像头中的图像识别模块进行通信，通过超声雷达可以测算人和摄像头之间的距离，通过陀螺仪可以测算人和摄像头之间的角度，结合目标图像角度和距离通过图像识别技术中的相应现有算法就可以计算出人的坐标位置(即第一坐标位置)，并将其坐标进行存储。

步骤S102：实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置。通过麦克风阵列或其它具有采集音频功能的装置实时采集用户发出的声源信息，对实时采集的声源信息进行最大声强的语音识别，关于声音强度的识别可以参照现有技术实现，在识别出最大声强时，获取最大声强发出者的音源坐标，将其确定为第二坐标位置。具体实现为：首先计算最大声强的角度，由于MIC(麦克风)是按照规则的安装在球形上，因此每个MIC会有一个固定的角度和基准坐标位置，当球形上的MIC获取到人声后，通过算法去对比哪些MIC获取到的声压是最强的(可以参照现有技术来实现对声压的对比判断)，将最接收到强声压MIC的坐标位置以及指向角度上报并保存。根据MIC记录的声源指向角度，设备上的雷达自动旋转到MIC指向的声源位置，通过雷达去获取声源的距离。结合MIC获取的角度信息和雷达获取的距离信息，通过现有的常用算法(还可以采用思必驰公司自己的语音算法)即可计算出声源的语音坐标位置(即第二坐标位置。由于实际应用中，此位置可能会存在几个，因此会将得到的第二坐标位置和第一坐标位置去对比，确定哪个更接近第一坐标位置，哪个就是真正的声源位置，即将最接近第一坐标位置的确定为最接近声源的位置。

步骤S103：根据第一坐标位置和第二坐标位置确定目标声源位置。其中，目标声源位置包括目标声源坐标方位。首先将由步骤S101获取的第一坐标位置和步骤S102获取的第二坐标位置进行比对，在第一坐标位置和第二坐标位置的误差不大于预设阈值时(此位置可能会存在几个，因此会将得到的第二坐标位置和第一坐标位置去对比，确定哪个更接近第一坐标位置，哪个就是真正的声源位置)，该预设的阈值可以根据测量经验进行设定，则根据第一坐标位置进行定向声源信息采集，再根据定向采集的声源信息进行语音识别，确定目标声源坐标方位，从而确定为最终的位置信息。示例性地，预设阈值为一个较小的值，将麦克风采集到第二坐标位置和图像采集到的第一坐标位置进行比对，如果声强较大的方向位置和张嘴图像的坐标位置相接近，即第一坐标位置和第二坐标位置的差值为一个较小的值，例如与预设阈值相比，小于预设阈值，则用图像采集到的第一坐标位置替代麦克风采集到的第二坐标位置。由于第一坐标位置为图像位置，定义的为精确位置，第二坐标位置为语音采集位置，定义为模糊位置，通过将第一坐标位置替代第二坐标位置，由此，麦克风就可以得到声源的精准位置，即目标声源坐标方位。

在优选实施方式中，目标声源位置还包括目标声源距离，通过第一坐标位置和第二坐标位置确定目标声源位置还实现为根据定向采集的声源信息进行语音识别，确定目标声源距离。从而通过图像识别技术来辅助麦克风阵列实现对声源的方向位置的距离测量。

通过上述方法，即可得到精准的目标声源位置，之后就可以开启麦克风的定向识别，该定向识别为根据图像识别算法，当图像上的识别确认(非图像上识别对象所发出的声音被自动滤除)成功后，则实时旋转跟踪音源目标，实时上报目标音源距离、坐标方位。

优选地，麦克风还可以实现为自动过滤掉非特定坐标的声源，实现对目标声源位置的定位，实时跟踪音源。根据图像识别算法，图像上的识别确认成功后，会实时旋转摄像头和球形麦克分的位置去跟踪音源目标的，只是上报被识别确认目标的音源，通过图像识别算法和语音算法对其它对象所发出的声音被自动滤除。图像识别算法和语音算法可以参照现有技术实现。

在又一优选实施方式中，还可以根据声纹识别技术对采集到的音源进行声纹识别，并将识别出的声纹信息进行存储，之后，就可以通过对声源的声纹识别来快速捕捉到同一个人发出的声源，即只要被存储的声纹再次发出声音，就可以快速捕捉到正确的声源位置信息。示例性地，对于已经存储记录的声纹，如果该声纹的发出者又再次发声的话，可以直接通过声纹比对，快速完成对目标声源的定位，直接忽略其它噪声，减少了大量的噪声消除运算，加快了定位速度。

根据本实施例的方法可以实现结合图像识别技术和语音识别技术实现对声源的方向位置的精确定位，并且还可以通过图像识别技术和语音识别技术实现对声源的方向位置的距离测量，这样可以达到更加精准的定位效果，实用性较高。

图2示意性地显示了根据本发明一实施方式的基于图像识别和语音识别的声源定位装置原理框图。如图2所示，

该基于图像识别和语音识别的声源定位装置包括图像采集模块201、音频采集模块203、图像识别模块202、语音识别模块204和声源定位模块205。

图像采集模块201用于实时捕捉图像信息，示例性地实现为可360°旋转的摄像头。

音频采集模块203用于实时采集声源信息，示例性地实现为球形麦克风阵列，可以采集任何方向的声源信息。

图像识别模块202用于采用人像识别技术对获取的图像信息进行图像识别，通过人像识别和张嘴动作识别确定第一坐标位置。

语音识别模块204用于对获取的音频信息进行语音识别，可以参照现有的语音识别技术实现，通过语音识别确定最大声强，基于最大声强的识别确定第二坐标位置。

声源定位模块205用于根据第一坐标位置和第二坐标位置确定目标声源位置。其中，目标声源位置包括目标声源坐标方位和目标声源距离。声源定位模块205包括声源位置追踪单元2051和定位采集单元2052。声源位置追踪单元2051用于将第一坐标位置和第二坐标位置进行比对，在第一坐标位置和第二坐标位置的误差不大于预设阈值时，将第一坐标位置作为实时目标声源坐标，实现方式可以参照上述的方法部分。定位采集单元2052用于根据实时目标声源位置启动音频采集模块进行定向声源采集，并根据定向采集的声源信息进行语音识别，确定目标声源坐标方位和目标声源距离，实现的方式可以参照上述的方法部分。

根据本实施例的装置可以实现通过图像识别技术和语音识别技术实现对声源的方向位置的精确定位，并且还可以通过图像识别技术和语音识别技术实现对声源的方向位置的距离测量，这样可以达到更加精准的定位效果，实用性较高。

在优选实施例中，该装置还可以包括声纹识别模块，用于对音频采集模块203采集的目标声源位置的音频信息进行声纹识别，并将对目标声源的声纹识别结果存储，即存储识别出的目标声源的声纹信息，这样确定了目标声源位置后，音频采集模块203再次采集到音频信息后，就会首先通过声纹识别模块203进行识别，以快速确定目标声源再次发声的位置，即在确定出的目标声源再次发出声音时，就可以快速捕捉到声源位置，实现对识别出的目标声源的实时跟踪和快速二次声源捕捉。具体实现为：该模块通过MIC获取到语音信号后，音频解码芯片对此语音信号进行编码，编码后传输到DSP芯片，DSP芯片对该语音信号转化为命令信号去控制对应的接口(例如控制电机马达，使电机马达旋转，控制球形上安装的MIC精确指向声源位置)。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.基于图像识别和语音识别的声源定位方法，其特征在于，包括

根据第一坐标位置和第二坐标位置确定目标声源位置；

其中，所述目标声源位置包括目标声源坐标方位，所述根据第一坐标位置和第二坐标位置确定目标声源位置包括

将第一坐标位置和第二坐标位置进行比对，在第一坐标位置和第二坐标位置的误差不大于预设阈值时，根据第一坐标位置进行定向声源信息采集；

根据定向采集的声源信息进行语音识别，确定目标声源坐标方位。

2.根据权利要求1所述的方法，其特征在于，所述目标声源位置还包括目标声源距离，所述根据第一坐标位置和第二坐标位置确定目标声源位置还包括

根据定向采集的声源信息进行语音识别，确定目标声源距离。

3.根据权利要求2所述的方法，其中，所述实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置包括

对实时采集的声源信息进行最大声强的语音识别，在识别出最大声强时，获取最大声强的音源坐标，将其确定为第二坐标位置。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置包括

对捕捉的图像信息进行人像识别，在确定为人像时，进行张嘴识别，在确定为张嘴时，获取张嘴人像的坐标，将其确定为第一坐标位置。

5.基于图像识别和语音识别的声源定位装置，其特征在于，包括

图像采集模块，用于实时捕捉图像信息；

音频采集模块，用于实时采集声源信息；

声源定位模块，用于根据第一坐标位置和第二坐标位置确定目标声源位置；

其中，所述目标声源位置包括目标声源坐标方位，所述声源定位模块包括

声源位置追踪单元，用于将第一坐标位置和第二坐标位置进行比对，在第一坐标位置和第二坐标位置的误差不大于预设阈值时，将第一坐标位置作为实时目标声源坐标；

定位采集单元，用于根据实时目标声源坐标启动音频采集模块进行定向声源采集，并根据定向采集的声源信息进行语音识别，确定目标声源坐标方位。

6.根据权利要求5所述的装置，其特征在于，所述图像采集模块为可360°旋转的摄像头。

7.根据权利要求5或6所述的装置，其特征在于，音频采集模块为球形麦克风阵列。

8.根据权利要求7所述的装置，其特征在于，所述目标声源位置还包括目标声源距离，所述定位采集单元还用于根据定向采集的声源信息进行语音识别，确定目标声源距离。

9.根据权利要求8所述的装置，其特征在于，所述图像识别模块通过人像识别和张嘴动作识别确定第一坐标位置，所述语音识别模块通过最大声强识别确定第二坐标位置。