CN103902963B

CN103902963B - 一种识别方位及身份的方法和电子设备

Info

Publication number: CN103902963B
Application number: CN201210589531.XA
Authority: CN
Inventors: 薛苏葵
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2017-06-20
Anticipated expiration: 2032-12-28
Also published as: CN103902963A

Abstract

本发明的实施例提供一种识别方位及身份的方法和电子设备，涉及计算机领域，能够提高对讲话者识别的精度，并且能够提高识别的效率，实现实时反馈。其方法为：首先通过声源定位获取声源的第一方位集合，再通过定位有嘴唇动作的人的获取声源的第二方位集合，并获取有嘴唇动作的人的身份集合，而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合，最后根据第三方位集合和身份集合确定讲话者的方位及身份。本发明实施例用于声源的定位和声源身份的识别。

Description

一种识别方位及身份的方法和电子设备

技术领域

本发明涉及计算机领域，尤其涉及一种识别方位及身份的方法和电子设备。

背景技术

目前，随着语音技术发展迅速，声源定位可以被应用到很多的领域。例如在有多人交流的场景中，通过适当技术去判断说话人的方位和说话人的身份；又例如在低成本的多人视屏会议系统当中，或者在移动的机器人平台上，又或者在Smart TV上，甚至是舞台的智能灯光控制等等。

以有多人交流的场景为例，在面对多个输入声源或者是多个说话者的时候，传统的做法是：先通过一个麦克风阵列(Mic Array)收集声音信号，然后在阵列里面将不同通道的获取的声波进行相互变换(由于方位不同，导致声音有差异)从而分离出声音，进而可以辨别出大致方位。理论上来讲，麦克风通道声音的数量要与声源的数相同，而实际情况往往是麦克风的通道数量要大于声源数量，而在背景声音复杂或者有多个人同时说话的时候，往往定位的效果不会很理想，比如看电视的时候。而且对于这种声源定位，则对于声源分离的要求则更加的苛刻，而且需要收集10s-20s以上的声波信号，通过统计学上的比对，才可以得出一个相对精确的结果。

而且实际的环境往往是很复杂，各种噪音都会对最终的定位和身份识别的正确行造成很大影响，而且10-20s的声音样本收集过程过长，也使得整个系统无法实时的做出反馈。因此，如何准确、高效的定位识别出讲话者成为亟需解决的问题。

发明内容

本发明的实施例提供一种识别方位及身份的方法和电子设备，能够提高对讲话者识别的精度，并且能够提高识别的效率，实现实时反馈。

为达到上述目的，本发明的实施例采用如下技术方案：

一方面，提供一种识别方位及身份的方法，应用于识别讲话者的方位及身份，所述方法包括：

采集声音，获取声音所在声源的方位信息，获得第一方位集合；

获取有嘴唇动作的人的方位信息，获得第二方位集合；

获取所述有嘴唇动作的人的身份，得到所述有嘴唇动作的人的身份集合；

根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合；

根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份。

另一方面，提供一种电子设备，所述电子设备包括：

第一定位单元，用于采集声音，获取声音所在声源的方位信息，获得第一方位集合；

第二定位单元，用于获取有嘴唇动作的人的方位信息，获得第二方位集合；

身份识别单元，用于获取所述有嘴唇动作的人的身份，得到所述有嘴唇动作的人的身份集合；

第三定位单元，用于根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合；

身份匹配单元，用于根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份。

本发明的实施例提供一种识别方位及身份的方法和电子设备，首先通过声源定位获取声源的第一方位集合，再通过定位有嘴唇动作的人的获取声源的第二方位集合，并获取有嘴唇动作的人的身份集合，而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合，最后根据第三方位集合和身份集合确定讲话者的方位及身份，能够提高对讲话者识别的精度，并且能够提高识别的效率，实现实时反馈。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别方位及身份的方法的流程示意图；

图2为本发明实施例提供的另一种识别方位及身份的方法的流程示意图；

图3为本发明实施例提供的一种电子设备的结构示意图；

图4为本发明实施例提供的另一种电子设备的结构示意图；

图5为本发明实施例提供的又一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种识别方位及身份的方法，如图1所示，方法包括：

101、采集声音，获取声音所在声源的方位信息，获得第一方位集合。

102、获取有嘴唇动作的人的方位信息，获得第二方位集合。

103、获取有嘴唇动作的人的身份，得到有嘴唇动作的人的身份集合。

104、根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合。

105、根据第三方位集合和身份集合确定讲话者的方位信息及身份。

需要说明的是，步骤101、102和103之间没有固定的执行顺序，这里不做限定。

本发明的实施例提供一种识别方位及身份的方法，首先通过声源定位获取声源的第一方位集合，再通过定位有嘴唇动作的人的获取声源的第二方位集合，并获取有嘴唇动作的人的身份集合，而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合，最后根据第三方位集合和身份集合确定讲话者的方位及身份，能够提高对讲话者识别的精度，并且能够提高识别的效率，实现实时反馈。

本发明另一实施例提供另一种识别方位及身份的方法，如图2所示，包括：

201、采集声音，获取声音所在声源的方位信息，获得第一方位集合。

示例性的，可以通过一个麦克风来采集声音，并根据采集到的声音进行声源定位(Sound Source Tracking)，该麦克风可以是一个麦克风阵列，包括了多个通道，在接收到声波信号时，该麦克风阵列的不同通道将获取的声波进行互相变换，由于每个通道的位置不同，导致接收到的声音有差异，根据该差异就可以辨别出声源的大致方位(而辨别方位的手法同主动式的声纳探测类似)。

其中，采用麦克风阵列进行声音定位，一般情况下只能定位声源的方向，并不能定位声源的距离，因此，上述采用麦克风阵列获得的声源方位信息一般可以为相对角度。

例如，该角度可以是声源和麦克风所在直线与麦克风的某一基准线的夹角，该麦克风的基准线可以是麦克风的中轴线，或者可以是麦克风的水平线，麦克风的水平线为经过麦克风的中心且垂直于麦克风的中轴线的直线。

当然，上述声源可能是一个声源，也可能是多个声源，因此这里得到的声源的方位信息是一个方位集合，可以称为声源的第一方位集合，可以用D₁表示。

202、侦测出可侦测范围内的人脸。

示例性的，可以利用支持人脸侦测(Face Detection)技术的摄像头在可侦测范围内侦测出所有人脸。

203、在已侦测出的人脸中识别有嘴唇动作的人脸，以确定有嘴唇动作的人。

示例性的，可以对已侦测出的所有人脸进行唇部动作识别(LipMovementDetection)，在这些人脸中识别出有嘴唇动作的人脸，从而确定有嘴唇动作的人。

204、获取有嘴唇动作的人的方位信息，获得第二方位集合。

示例性的，通过摄像头可以获取有嘴唇动作的人和摄像头所在直线与该摄像头的某一基准线的夹角，该摄像头的基准线可以是摄像头的中轴线，或摄像头的水平线，该摄像头的水平线可以为经过摄像头的中心且垂直于摄像头中轴线的直线。

需要注意的是，麦克风的中轴线与摄像头的中轴线重合，且麦克风的中心与摄像头的中心重合，这样就使得麦克风和摄像头在获取相对角度时，参考的标准线是相同的，避免了不必要的误差。

当然，上述有嘴唇动作的人可能是一个，也可能是多个，因此这里得到的有嘴唇动作的人的方位信息是一个方位集合，可以称为声源的第二方位集合，用D₂表示。

进一步的，采用深度摄像头还可以获取有嘴唇动作的人与摄像头的距离，将有嘴唇动作的人与摄像头的距离也作为有嘴唇动作的人的方位信息，这样根据角度和距离就可以获得更加精确的方位信息。

205、获取有嘴唇动作的人的身份，得到有嘴唇动作的人的身份集合。

具体的，可以将有嘴唇动作的人的面部特征与预存的面部特征进行匹配，并根据面部特征与身份的对应关系获取有嘴唇动作的人的身份，得到有嘴唇动作的人的身份集合。

需要说明的是，步骤204与步骤205没有固定的顺序，这里不做限定。

206、根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合。

将第一方位集合和声源的第二方位集合取交集，以获取被的第一集合和第二集合同时包括的方位信息，获得第三方位集合。

具体的，可以将第一方位集合中的声源和麦克风所在直线与麦克风的基准线的夹角，与的第二方位集合中的有嘴唇动作的人和摄像头所在直线与摄像头的基准线的夹角进行对比，若存在大小相同的夹角，则将该夹角的角度确定为讲话者方位信息，获得第三方位集合。其中，关于麦克风的基准线以及摄像头的基准线的选取方法可参照步骤201和步骤204，这里不再赘述。

或者，可以利用加权平均公式根据第一方位集合和第二方位集合确定讲话者方位信息，获得第三方位集合；

其中，加权平均公式包括：D＝ω₁D₁+ω₂D₂，其中，D为第三方位集合，D₁为第一方位集合，D₂为第二方位集合，ω₁和ω₂为系数，且(0＜ω₁＜1，0＜ω₂＜1，ω₁+ω₂＝1)。

其中，ω₁和ω₂的值可以根据实际的算法及测试来选取最佳值，本实施例不做限定。

这样，在使用声源定位的同时，加入了人脸侦测和识别技术来确定讲话者的方位，比单纯使用声源定位更加精确，而且人脸侦测和识别的速度相当快，相比通过使用声纹识别技术来识别讲话者的身份而言，具有更高的识别速度，所以上述方法能够明显提高对讲话者的方位和身份的识别精度，并且能够提高讲话者方位及身份的识别效率，实现实时反馈。

本发明的又一实施例提供一种电子设备01，如图3所示，电子设备包括：

第一定位单元011，用于采集声音，获取声音所在声源的方位信息，获得第一方位集合；

第二定位单元012，用于获取有嘴唇动作的人的方位信息，获得第二方位集合；

身份识别单元013，用于获取有嘴唇动作的人的身份，得到有嘴唇动作的人的身份集合；

第三定位单元014，用于根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合；

身份匹配单元015，用于根据第三方位集合和身份集合确定讲话者的方位信息及身份。

可选的，第一定位单元011可以具体用于：

获取每个声源和麦克风所在直线与麦克风的基准线的夹角作为该声源方位的方位信息，获得第一方位集合；

麦克风的基准线包括麦克风的中轴线，或麦克风的水平线，麦克风的水平线为经过麦克风的中心且垂直于麦克风的中轴线的直线。

可选的，如图4所示，第二定位单元012可以包括：

人脸识别单元0121，用于侦测出可侦测范围内的人脸；

唇部运动识别单元0122，用于在已侦测出的人脸中识别有嘴唇动作的人脸，以确定有嘴唇动作的人；

角度获取单元0123，用于获取每个有嘴唇动作的人和摄像头所在直线与摄像头的基准线的夹角作为该有嘴唇动作的人的方位信息，获得第二方位集合；

摄像头的基准线包括摄像头的中轴线，或摄像头的水平线，摄像头的水平线为经过摄像头的中心且垂直于摄像头中轴线的直线；

其中，麦克风的中轴线与摄像头的中轴线重合，且麦克风的中心与摄像头的中心重合。

可选的，如图5所示，第二定位单元012还可以包括：

距离获取单元0124，用于获取每个有嘴唇动作的人与摄像头的距离，将有嘴唇动作的人与摄像头的距离也作为有嘴唇动作的人的方位信息。

可选的，身份识别单元013可以具体用于：

将有嘴唇动作的人的面部特征与预存的面部特征进行匹配，并根据面部特征与身份的对应关系获取有嘴唇动作的人的身份，得到有嘴唇动作的人的身份集合。

可选的，第三定位单元014可以具体用于：

将第一集合和第二集合取交集，以获取被的第一集合和第二集合同时包括的方位信息，获得第三方位集合；或

利用加权平均公式根据第一集合和第二集合确定第三方位集合；

本发明的实施例提供一种电子设备，首先通过声源定位获取声源的第一方位集合，再通过定位有嘴唇动作的人的获取声源的第二方位集合，并获取有嘴唇动作的人的身份集合，而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合，最后根据第三方位集合和身份集合确定讲话者的方位及身份，能够提高对讲话者识别的精度，并且能够提高识别的效率，实现实时反馈。

本发明各个实施例中的电子设备的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别方位及身份的方法，应用于识别讲话者的方位及身份，其特征在于，所述方法包括：

获取有嘴唇动作的人的方位信息，获得第二方位集合；

根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合，包括：将所述第一方位集合和所述第二方位集合取交集，以获取被所述第一方位集合和所述第二方位集合同时包括的方位信息，获得所述第三方位集合；或者，利用加权平均公式根据所述第一方位集合和所述第二方位集合确定所述第三方位集合；

2.根据权利要求1所述的方法，其特征在于，所述获取声音所在声源的方位信息，获得第一方位集合包括：

获取每个声源和麦克风所在直线与所述麦克风的基准线的夹角作为该声源方位的方位信息，获得所述第一方位集合；

所述麦克风的基准线包括所述麦克风的中轴线，或所述麦克风的水平线，所述麦克风的水平线为经过所述麦克风的中心且垂直于所述麦克风的中轴线的直线。

3.根据权利要求1所述的方法，其特征在于，所述获取有嘴唇动作的人的方位信息，获得第二方位集合包括：

侦测出可侦测范围内的人脸；

在已侦测出的人脸中识别有嘴唇动作的人脸，以确定有嘴唇动作的人；

获取每个有嘴唇动作的人和摄像头所在直线与所述摄像头的基准线的夹角作为该有嘴唇动作的人的方位信息，获得所述获得第二方位集合；

所述摄像头的基准线包括所述摄像头的中轴线，或所述摄像头的水平线，所述摄像头的水平线为经过所述摄像头的中心且垂直于所述摄像头中轴线的直线；

其中，麦克风的中轴线与所述摄像头的中轴线重合，且所述麦克风的中心与所述摄像头的中心重合。

4.根据权利要求3所述的方法，其特征在于，所述获取有嘴唇动作的人的方位信息包括：

获取每个有嘴唇动作的人与所述摄像头的距离，将所述有嘴唇动作的人与所述摄像头的距离也作为有嘴唇动作的人的方位信息。

5.根据权利要求1所述的方法，其特征在于，所述获取所述有嘴唇动作的人的身份，得到所述有嘴唇动作的人的身份集合包括：

将所述有嘴唇动作的人的面部特征与预存的面部特征进行匹配，并根据面部特征与身份的对应关系获取所述有嘴唇动作的人的身份，得到所述有嘴唇动作的人的身份集合。

6.根据权利要求1所述的方法，其特征在于，

所述加权平均公式包括：D＝ω₁D₁+ω₂D₂，其中，D为所述第三方位集合，D₁为第一方位集合，D₂为第二方位集合，ω₁和ω₂为系数，且(0<ω₁<1,0<ω₂<1,ω₁+ω₂＝1)。

7.一种电子设备，其特征在于，所述电子设备包括：

身份匹配单元，用于根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份；

所述第三定位单元具体用于：将所述第一方位集合和所述第二方位集合取交集，以获取被所述第一方位集合和所述第二方位集合同时包括的方位信息，获得所述第三方位集合；或者，利用加权平均公式根据所述第一方位集合和所述第二方位集合确定所述第三方位集合。

8.根据权利要求7所述的电子设备，其特征在于，所述第一定位单元具体用于：

9.根据权利要求7所述的电子设备，其特征在于，所述第二定位单元包括：

人脸识别单元，用于侦测出可侦测范围内的人脸；

唇部运动识别单元，用于在已侦测出的人脸中识别有嘴唇动作的人脸，以确定有嘴唇动作的人；

角度获取单元，用于获取每个有嘴唇动作的人和摄像头所在直线与所述摄像头的基准线的夹角作为该有嘴唇动作的人的方位信息，获得所述获得第二方位集合；

10.根据权利要求9所述的电子设备，其特征在于，所述第二定位单元包括还包括：

距离获取单元，用于获取每个有嘴唇动作的人与所述摄像头的距离，将所述有嘴唇动作的人与所述摄像头的距离也作为有嘴唇动作的人的方位信息。

11.根据权利要求7所述的电子设备，其特征在于，