CN110443371A

CN110443371A - 一种人工智能设备和方法

Info

Publication number: CN110443371A
Application number: CN201910557324.8A
Authority: CN
Inventors: 吴志鹏
Original assignee: Shenzhen Ekman Technology Co Ltd
Current assignee: Shenzhen Ekman Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-12
Anticipated expiration: 2039-06-25
Also published as: CN110443371B

Abstract

本发明实施例公开了一种人工智能设备,其特征在于包括：三个线性麦克风阵列，三个声源定位单元，三维声源定位单元，两个摄像机，人脸检测单元，三维人脸定位单元，三维声脸匹配单元，视音频人工智能单元。其中两个克风阵列位于同一条直线上，第三麦克风阵列与该直线垂直。所述三维声源定位单元根据所述声源的三个角度坐标计算出声源位置的三维直角坐标。所述三维人脸定位单元接收两个像机的图像信号，计算出人脸位置的三维直角坐标。所述三维声脸匹配单元比对声源位置的三维坐标和人脸位置的三维坐标，得到声脸匹配结果。通过上述方式，本发明能够通过准确地进行声脸匹配，实现与视音频相关的人工智能动作。

Description

一种人工智能设备和方法

技术领域

本发明涉及人工智能领域，特别是涉及一种与视音频相关的人工智能装备和方法。

背景技术

随着计算性能的提升和计算成本的不断下降，人工智能技术快速发展，人脸识别、声纹识别、语音识别、文本翻译、语音合成在一些领域开始进入了实用阶段，比如ATM机刷脸取款，上下班刷脸打卡、视频监控身份识别、考场身份识别、电子铭牌、智能字幕等、语音输入法、智能音箱、语音声控、智能导播。这些视音频相关的人工智能，识别准确率需要不断地改进和提升。比如人脸识别，用世界权威的人脸数据库LFW(Labeled Faces in the Wild)进行测试，已经能够达到99％的准确率，但在正常的民用环境中，人脸识别准确率不到95％，在真实复杂的测试场景中，甚至下降到70％左右。比如语音识别，虽然很多厂家宣称中文语音识别准确率达到97％，但那是在安静环境中标准普通话发音的测试结果，在正常使用条件下，语音识别准确率急剧下降，如果发音不标准，口音、方言比较严重的情况下，70％的准确率都达不到。语音输入法通过语音识别配合其它输入法不断学习和训练，可以适应口音和方言，不断提升语音输入法的准确率，但这种方法仅适合个人设备。如果使用这种方法提升在公用设备上的语音识别准确率，就需要准确地声脸匹配和准确的身份识别。类似的方法可以用于提升公用设备的口水稿文本翻译准确率。电子铭牌，智能字幕，对声脸匹配、语音识别、身份识别的准确率都有比较高的要求。

发明内容

本发明主要解决的技术问题是提供一种人工智能系统和方法，提升声脸匹配的准确率和身份识别的准确率，同时可以自动注册ID对照表。本发明利用已注册的ID对照表，还公开了一种声源定位的低成本技术方案。

为解决上述技术问题，本发明采用的一个技术方案是一种人工智能系统和方法，其特征在于，包括：一种人工智能设备，一种声源定位设备，人工智能服务器，人脸识别服务器，声纹识别服务器。

所述人工智能服务器，至少包括PersonalID(个人身份识别号)与FaceID(人脸识别号)及VoiceID(声纹识别号)的对照表。人工智能服务器也可以被称为人工智能网关、人工智能数据库、ID数据库、通讯录、地址本等。所述PersonalID为注册对照表内唯一身份识别号。PersonalID可以由工智能服务器生成，也可以由人工智能设备生成。如果PersonalID由人工智能设备生成，则PersonalID采用GUID(Globally Unique IDentifier)。

所述人工智能设备，进行声脸匹配得到FaceSamlle(人脸样本)和VoiceSample(声纹样本)，如果人脸样本和声纹样本是一对一的关系，则向人脸识别服务器注册人脸并获得人脸ID，向声纹识别服务器注册声纹并获得声纹ID，然后生成PersonalID，并自动向人工智能服务器注册ID对照表。

所述声源定位设备，检测出当前画面中的至少一个人脸样本，同时收集声纹样本，然后向人脸识别服务器提交人脸识别，并获得与每个人脸样本人脸特征相似度最高的人脸ID，向声纹识别服务器提交声纹识别并获得声纹特征相似度最高的声纹ID，以所得至少一个人脸ID和声纹ID为索引向人工智能服务器查询ID对照表，如果有属于同一个PersonalID的人脸ID和声纹ID，与人脸样本和声纹样本都匹配，则该人脸样本所在的位置即为声源位置。

根据本发明的特定实施例，一种人工智能设备和方法，其特征在于，包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，第一声源定位单元，第二声源定位单元，第三声源定位单元，三维声源定位单元，第一摄像机，第二摄像机，人脸检测单元，三维人脸定位单元，三维声脸匹配单元，视音频人工智能单元。所述第一麦克风阵列，第二麦克风阵列，第三麦克风阵列都是线性麦克风阵列。所述第一麦克风阵列，第二麦克风阵列位于同一条直线上，所述第三麦克风阵列与该直线垂直。所述第一声源定位单元接收所述第一麦克风阵列的音频信号，并定位出声源的第一角度坐标。所述第二声源定位单元接收所述第一麦克风阵列的音频信号，并定位出声源的第二角度坐标。所述第三声源定位单元接收所述第一麦克风阵列的音频信号，并定位出声源的第三角度坐标。所述三维声源定位单元根据所述声源的第一角度坐标，第二角度坐标，第三角度坐标计算出声源位置的三维直角坐标。所述人脸检测单元接收所述第一摄像机的图像数据，检测出人脸图像位置。所述三维人脸定位单元接收第一摄像机、第二摄像机的图像信号，根据人脸图像位置，计算出人脸位置的三维直角坐标。所述三维声脸匹配单元比对声源位置的三维坐标和人脸位置的三维直角坐标，根据预设的允许偏差范围，得到声脸匹配结果。所述视音频人工智能单元根据声脸匹配结果执行视音频相关的人工智能动作。

根据本发明的特定实施例，所述视音频人工智能单元包括语音识别客户端和智能字幕叠加单元，所述智能字幕叠加单元根据三维声脸匹配结果把语音识别客户端得到的文本叠加到对应的人脸附近。

根据本发明的特定实施例，所述视音频人工智能单元包括声纹识别客户端、人脸识别客户端、人工智能客户端、ID比对单元。所述ID比对单元从三维声脸匹配单元获得声纹样本，转发给声纹识别客户端，并获得声纹ID列表及其声纹特征相似度值。所述ID匹配单元从三维声脸匹配单元获得人脸样本，转发给人脸识别客户端，并获得人脸ID列表及其人脸特征相似度值。所述ID比对单元把得到的人脸ID和声纹ID转发给人工智能客户端，得到包括这些人脸ID和声纹ID的ID对照表。所述ID比对单元把人脸ID与声纹ID遍历组合，与ID对照表比较，找到两者都匹配的PersonalID为备选身份识别结果。所述ID比对单元在备选身份识别结果里，找到人脸特征相似度值最高者，其PersonalID为最终身份识别结果，其对应的人脸样本和声纹样本为最终声脸匹配结果。

根据本发明的特定实施例，所述视音频人工智能单元包括声纹识别客户端、人脸识别客户端、人工智能客户端、ID注册单元。ID注册单元把人脸样本发给人脸识别客户端，注册人脸并获得人脸ID。ID注册单元把声纹样本发给声纹识别客户端，并获得声纹ID。ID注册单元把人脸ID和声纹ID发给人工智能客户端，注册ID对照表。

根据本发明的特定实施例，所述第二摄像机与第一摄像机组成双目深度摄像机，所述三维人脸定位单元根据双目视差确定人脸位置的三维坐标。

根据本发明的特定实施例，所述第二摄像机为TOF深度摄像机，所述三维人脸定位单元根据飞行时间确定人脸位置的三维坐标。

根据本发明的特定实施例，所述第二摄像机为结构光深度摄像机，所述三维人脸定位单元根据结构光特征点确定人脸位置的三维坐标。

根据本发明的特定实施例，人脸检测单元采用人形检测，在人脸短暂丢失的时候，通过比对人形坐标和人脸坐标，补齐丢失的人脸，延长人脸跟踪的存活期，减少人脸识别的调用次数。

根据本发明的特定实施例，三维声源定位单元使用滑动时间窗收集多个声源坐标，通过三维聚类的方法进行声源对象跟踪，实现非同步多声源定位，同时滤除环境噪声形成的假声源。

根据本发明的特定实施例，通过合理安排麦克风间距，使单倍距、二倍距、四倍距、八倍距的角度采样位置对齐，使用线性插值的方法大大降低声源定位算法的计算量。

根据本发明的特定实施例，不同的麦克风间距配合不同的频率子带，按组划分成不同的谱类，所述谱类为单峰谱、二分谱、四分谱、八分谱，在不同谱类上分步搜索峰值位置，在提升声源定位精度的同时避开相位缠绕造成的假峰。

根据本发明的特定实施例，一种声源定位设备，其特征在于，包括：麦克风，全景摄像机，人脸检测单元214，视音频人工智能单元。所述视音频人工智能单元包括：声纹识别客户端，人脸识别客户端，ID比对单元，人工智能客户端，人工智能控制单元。所述人脸检测单元，检测出当前画面中的所有人脸。所述声纹识别客户端，收集声纹样本，提交声纹识别，并获得声纹特征相似度最高的声纹ID。所述人脸识别客户端提交人脸识别，并获得人脸特征相似度最高的人脸ID。人工智能客户端，以所得人脸ID和声纹ID为索引查询ID对照表。ID比对单元进行比对分析，如果有属于同一个PersonalID的人脸ID和声纹ID，与人脸样本和声纹样本都匹配，则该人脸样本所在的位置即为声源位置。人工智能执行单元呈现以该讲话人脸样本为中心的特写画面。

根据本发明的特定实施例，一种声源定位的方法，其特征在于，获得摄像机视频数据，并进行人脸检测得到所有人脸对象，然后提交人脸识别并获得人脸特征相似度值超过预设门限的人脸ID列表和对应的人脸相似度值。如果有人脸相似度值超过预设的门限，则提交声纹识别并获得声纹ID列表和相应的声纹特征相似度值。然后根据声纹ID和人脸ID，查询获得ID对照表。然后进行ID比对，如果有属于同一个PersonalID的人脸ID和声纹ID，与人脸样本和声纹样本都匹配，则该人脸样本所在的位置即为声源位置。最后呈现以该人脸样本为中心的特写画面。

根据本发明的特定实施例，通过PTZ(Pan/Tilt/Zoom)摄像机实现以讲话人脸样本为中心的特写画面。

根据本发明的特定实施例，PTZ摄像机为电动PTZ摄像机。

根据本发明的特定实施例，PTZ摄像机为ePTZ摄像机,通过数字图像的缩放和平移实现PTZ功能。

本发明的有益效果是：本发明通过三维匹配的方法提升了声脸匹配的准确率。三维匹配与人脸识别声纹识别相结合，使声脸匹配、身份识别的准确率进一步提高。通过合理安排麦克风间距并对齐角度采样点的方法，大大降低了声源定位计算量。通过谱类分组和逐级搜索峰值位置的方法，在提升声源定位精度的同时避免了相位缠绕造成的假声源。通过三维聚类的方法滤除噪声对声源定位的短暂干扰，并实现非同步多声源定位。通过延长人脸跟踪存活期的方法，减少人脸识别调用次数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术中所需要使用的附图作简要的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明特定实施例，一种人工智能系统的结构示意图；

图2A示出了根据本发明特定实施例，一种人工智能设备的结构示意图；

图2B示出了根据本发明特定实施例，第二种人工智能设备的结构示意图；

图2C示出了根据本发明特定实施例，第三种人工智能设备的结构示意图；

图3A示出了根据本发明特定实施例，一种人工智能方法的流程示意图；

图3B示出了根据本发明特定实施例，第二种人工智能方法的流程示意图

图4示出了根据本发明特定实施例，一种声源定位设备的结构示意图；

图5示出了根据本发明特定实施例，一种声源定位方法的流程示意图；

图6示出了根据本发明特定实施例，麦克风阵列和双目深度摄像机位置关系示意图；

图7示出了根据本发明特定实施例，三维声源定位坐标系示意图；

图8A、图8B、图8C、图8D示出了根据本发明特定实施例，三维声源定位坐标求解示意图；

图9示出了根据本发明特定实施例，使用双目深度摄像机求解三维坐标示意图。

图10示出了根据本发明特定实施例，麦克风间距配置示意图；

图11示出了根据本发明特定实施例，声源到达一对麦克风的路程差求解示意图；

图12示出了根据本发明特定实施例，线性阵列麦克风配置示意图；

图13示出了根据本发明特定实施例，采用多个谱类逐步搜素峰值位置示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，本发明实施例涉及的“第一”、“第二”、“第三”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品、或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，根据本发明的特定实施例，一种人工智能系统，其特征在于，包括：人工智能设备100，声源定位设备200，人工智能服务器300，人脸识别服务器400，声纹识别服务器500，IP互联网600。

所述人工智能服务器100至少包括PersonalID与FaceID及VoiceID的对照表。人工智能服务器100也可以被称为人工智能网关、人工智能数据库、ID数据库、通讯录、地址本等。所述PersonalID为注册对照表内唯一身份识别号。PersonalID可以由工智能服务器300生成，也可以由人工智能设备100生成。如果PersonalID由人工智能设备100生成，则PersonalID采用GUID。

所述人工智能设备100进行声脸匹配得到FaceSamlle和VoiceSample，如果人脸样本和声纹样本是一对一的关系，则向人脸识别服务器400注册人脸并获得人脸ID，向声纹识别服务器500注册声纹并获得声纹ID，然后生成PersonalID，并自动向人工智能服务器300注册ID对照表。ID对照表的示例如下表所示：

所述声源定位设备200检测出当前画面中的至少一个人脸样本，同时收集声纹样本，然后向人脸识别服务器400提交人脸识别并获得人脸特征相似度最高的人脸ID，向声纹识别服务器500提交声纹识别并获得声纹特征相似度最高的声纹ID，以所得人脸ID和声纹ID为索引向人工智能服务器300查询ID对照表，如果有属于同一个PersonalID的人脸ID和声纹ID，与人脸样本和声纹样本都匹配，则该人脸样本所在的位置即为声源位置。

值得注意的是所述人工智能设备100和所述声源定位设备200可以处于同一个房间，也可以布置在不同的房间。

如图2A所示，一种人工智能设备,其特征在于，包括：第一麦克风阵列110，第二麦克风阵列131，第三麦克风阵列132，第一声源定位单元120，第二声源定位单元133，第三声源定位单元134，三维声源定位单元135，第一摄像机136，第二摄像机137，人脸检测单元138，三维人脸定位单元139，三维声脸匹配单元140，视音频人工智能单元150。

所述第一声源定位单元120接收所述第一麦克风阵列110的音频信号，并定位出声源的第一角度坐标。

所述第二声源定位单元133接收所述第二麦克风阵列131的音频信号，并定位出声源的第二角度坐标。

所述第三声源定位单元134接收所述第三麦克风阵列132的音频信号，并定位出声源的第三角度坐标。

所述三维声源定位单元135根据所述声源的第一角度坐标，第二角度坐标，第三角度坐标计算出声源位置的三维直角坐标。

所述人脸检测单元138接收所述第一摄像机136的图像数据，检测出人脸图像位置。

所述三维人脸定位单元139接收第一摄像机136、第二摄像机137的图像信号，根据人脸图像位置，计算出人脸位置的三维坐标。

所述三维声脸匹配单元140比对声源位置的三维坐标和人脸位置的三维坐标，根据预设的允许偏差范围，得到声脸匹配结果。

所述视音频人工智能单元150根据声脸匹配结果执行视音频相关的人工智能动作。

如图2B所示，根据本发明的特定实施例，所述视音频人工智能单元150包括语音识别客户端151和智能字幕叠加单元152，所述智能字幕叠加单元152根据声脸匹配结果把语音识别客户端151得到的文本叠加到对应的人脸附近。

如图2C所示，根据本发明的特定实施例，所述视音频人工智能单元150包括声纹识别客户端153，人脸识别客户端154，ID比对单元155，人工智能客户端156，所述声纹识别客户端153提交声纹识别并得到声纹特征相似度最高的Voice_ID列表。所述人脸识别客户端154提交人脸识别并得到人脸特征相似度最高的Face_ID列表。人工智能客户端156获得ID对照表。ID比对单元155根据来自三维声脸匹配单元140的声脸样本关系列表、来自人脸识别客户端154的Face_ID列表、来自声纹识别客户端153的Voice_ID列表、来自人脸识别客户端156的ID对照表，综合分析匹配，得出唯一的声脸匹配结果和唯一的身份识别结果。

根据本发明的特定实施例，ID比对单元155的ID比对过程为：

步骤1、从三维声脸匹配单元140获得一个VoiceSamle及其相关概率不为零的Q个FaceSamle(i)，i∈[0,Q-1]，Q至少为1；

步骤2、把VoiceSamle发送给声纹识别客户端153，并获得声纹特征相似度足够高的列表Voice_ID(k)及其相似度值；

步骤3、把FaceSamle发送给人脸识别客户端154，并获得人脸特征相似度足够高的列表Face_ID(i,j)及其相似度值；

步骤4、把Voice_ID(k)与Face_ID(i,j)遍历组合成对，并与ID对照表比较，符合条件Voice_ID(k)与Registered_Voice_ID相等而且Face_ID(i,j)＝与Registered_Face_ID相等的PersonalID为备选身份识别结果；

步骤5、在备选身份识别结果中，搜索人脸相似度最高者，其对应的PersonalID为最终身份识别结果，其对应的FaceSample和VoiceSample为最终的声脸匹配结果。

经过以上步骤，同时提升了身份识别准确率和声脸匹配准确率。

如图3A所示，根据本发明的特定实施例，一种人工智能方法，其特征在于，在步骤161中，获得第一麦克风阵列的音频数据。在步骤162中，计算得到第一声源定位角度α。在步骤163中，获得第二麦克风阵列的音频数据。在步骤164中，计算得到第一声源定位角度β。在步骤165中，获得第一麦克风阵列的音频数据。在步骤166中，计算得到第一声源定位角度γ。在步骤167中，根据α，β，γ求解声源的三维坐标(x,y,z)。在步骤168中，获得第一摄像机视频数据。在步骤169中，通过人脸检测获得所有人脸对象。在步骤170中，获得第二摄像机视频数据。在步骤171中，求解三维人脸坐标(u,v,w)。在步骤172中，根据预设的允许偏差范围，进行声脸匹配。在步骤180中，根据声脸匹配结果注册ID对照表。

根据特定实施例，所述步骤180又可以分解为：在步骤181中，如果声脸匹配结果是一对一，则转向步骤182，否则结束步骤180。在步骤182中，提交人脸识别并获得人脸特征相似度最高的人脸ID，及其人脸相似度值。在步骤183中，如果人脸相似度值超过预设的阈值，则结束步骤180，否则转向步骤185。在步骤185中，生成唯一个人身份识别号PersonalID。在步骤186中，注册人脸库并得到人脸ID。在步骤187中，注册声纹库并得到声纹ID。在步骤188中，把所得PersonalID、人脸ID、声纹ID作为一组数据注册ID对照表。

如图3B所示，根据本发明的特定实施例，一种人工智能方法，其特征在于:所述步骤180又可以分解为：在步骤181中，如果声脸匹配结果是一对一，则转向步骤182，否则转向步骤184。在步骤182中，提交人脸识别并获得人脸特征相似度最高的人脸ID，及其人脸相似度值。在步骤184中，如果人脸相似度值超过预设的阈值，则转向步骤190，否则转向步骤185。在步骤185中，生成个人身份唯一识别号PersonalID。在步骤186中，注册人脸库并得到人脸ID。在步骤187中，注册声纹库并得到声纹ID。在步骤188中，把所得PersonalID、人脸ID、声纹ID作为一组数据注册ID对照表。在步骤184中，提交人脸识别并获得人脸特征相似度最高的人脸ID，及其人脸相似度值。在步骤189中，如果有人脸相似度值超过预设的阈值，则转向步骤190，否则结束步骤180。在步骤190中，提交人脸识别并获得人脸特征相似度值超过预设阈值的人脸ID列表。在步骤191中，提交声纹识别并获得声纹特征相似度值超过预设阈值的声纹ID列表。在步骤192中，根据声纹ID和人脸ID获得ID对照表。在步骤193中，找出与ID对照表相一致的声纹ID和人脸ID。在步骤194中，输出有效的声脸匹配结果，包括对用的声纹样本、人脸样本、PersonalID。

如图4所示，根据本发明的特定实施例，一种声源定位的设备，其特征在于，包括：麦克风211，全景摄像机213，人脸检测单元214，视音频人工智能单元150。所述视音频人工智能单元150包括：声纹识别客户端153，人脸识别客户端154，ID比对单元155，人工智能客户端156，人工智能控制单元157。所述人脸检测单元214检测出当前画面中的所有人脸。所述声纹识别客户端153收集声纹样本，提交声纹识别，并获得声纹特征相似度最高的声纹ID。所述人脸识别客户端提交人脸识别，并获得人脸特征相似度最高的人脸ID。人工智能客户端156以所得人脸ID和声纹ID为索引查询ID对照表。ID比对单元155进行比对分析，如果有属于同一个PersonalID的人脸ID和声纹ID，与人脸样本和声纹样本都匹配，则该人脸样本所在的位置即为声源位置。人工智能执行单元157呈现以该人脸样本为中心的特写画面。

如图5所示，根据本发明的特定实施例，一种声源定位的方法，其特征在于，在步骤220中，获得摄像机视频数据。在步骤221中，进行人脸检测得到所有人脸对象。在步骤222中，提交人脸识别并获得人脸特征相似度值超过预设门限的人脸ID列表和对应的人脸相似度值。在步骤189中，如果没有人脸相似度值超过预设的门限则结束，如果有人脸相似度值超过预设的门限则转向步骤191。在步骤191中，提交声纹识别并获得声纹ID列表和相应的声纹特征相似度值。在步骤192中，根据声纹ID和人脸ID，查询获得ID对照表。在步骤193中，进行ID比对，如果有属于同一个PersonalID的人脸ID和声纹ID，与人脸样本和声纹样本都匹配，则该人脸样本所在的位置即为声源位置。在步骤225中，呈现以该人脸样本为中心的特写画面。

如图6所示，根据本发明的特定实施例，所述第一麦克风阵列110，第二麦克风阵列131，第三麦克风阵列132都是线性麦克风阵列。所述第一麦克风阵列110，第二麦克风阵列131位于同一条直线上，所述第三麦克风阵列132与该直线垂直。所述第一摄像机136和第一摄像机137组成双目深度摄像机。

如图7所示，根据本发明的特定实施例，第一坐标系141位于第一麦克风阵列110的中心，第二坐标系142位于第二麦克风阵列132的中心，第三坐标系143位于第三麦克风阵列133的中心。声源144在第一坐标系141里的坐标为(x1,y1,z1)，声源与在第一坐标系141里的原点连线与x1轴夹角为α。声源144在第二坐标系142里的坐标为(x2,y2,z2)，声源与在第一坐标系142里的原点连线与x2轴夹角为β。声源144在第三坐标系143里的坐标为(x,y,z)，声源与在第一坐标系143里的原点连线与y轴夹角为γ。根据坐标平移关系有：

x1＝x+w

x2＝x–w

y1＝y2＝y

z1＝z2＝z

根据三角函数关系有：

由以上方程消去y和z，得到：

(tg²α-tg^2β)x²+2w*(tg²α+tg2^β)x+w²(tg²α-tg^2β)＝0

为一元二次方程。令：

a＝tg²α-tg^2β

b＝2w*(tg²α+tg^2β)

c＝w²(tg²α-tg^2β)

如图8A、8B、8C、8D所示，S是真正的声源，S’为假声源，所以该一元二次方程只有一个根指向真正的声源，根据8A、8B、8C、8D的关系得到：

得到了x，就可以求解y：

得到了x，y就可以求解z：

根据本发明的特定实施例，可以采用双目深度摄像机，根据双目视差计算人脸位置的三维坐标。

如图9所示，两个摄像机之间的距离为B，两个摄像机的光心分别为OC1和OC2,，摄像机的焦距为f，摄像机的像素间距为p。人脸F坐标为(u,v,w)，人脸在两个摄像机里的图像坐标分别为(u1,v1)和(u2,v2)。则根据相似三角形关系可以得到：

所以只要检测到人脸在两个摄像机里的图像坐标(u1,v1)和(u2,v2)，就可以计算出人脸在三维空间里的坐标(u,v,w)。

因为uvw坐标系和xyz坐标系完全重合，所以得到了人脸位置三维坐标(u,v,w)和声源位置三维坐标(x,y,z)，就可以进行声脸匹配了。

如图10所示，以人脸坐标(u,v,w)为中心，以(±Δu,±Δv,±Δw)为限的立方体为声脸匹配范围，如果声源坐标(x,y,z)该立方体内，则该声源与该人脸成功匹配。如果一个声源只与一个人脸成功匹配，则该匹配的置信度为100％。如果某声源与多个人脸匹配成功，则与每个人脸匹配的置信度按曼哈顿距离加权分配。

设当前场景中有M个人脸FaceSample(i)和N个声源VoiceSample(k)。他们的三维坐标分别是：

声源与人脸之间的曼哈顿距离为：

d(i,k)＝|u(i)–x(k)|+|v(i)–y(k)|+|w(i)–z(k)|

，i∈[0,M-1]，k∈[0,N-1]

设声脸匹配的允许误差范围是±Δu(i)，±Δv(i)，±Δw(i)，则d(i,k)的最大值为：

Dmax(i)＝Δu(i)+Δv(i)+Δw(i)。

设声源与人脸之间的相关距离为：

定义声源与人脸之间的相关概率为：

相关概率不为零的FaceSample和VoiceSample声脸匹配成功。

根据本发明的特定实施例，匹配门限(Δu,Δv,Δw)是(u,v,w)的函数，该函数可以用3D-LUT来描述，也可以用拟合的三变量数学表达式来描述。该函数可以通过标定的方法得到。

根据本发明的特定实施例，声源坐标(x,y,z)每20ms更新一次，三维声源定位单元以400ms的滑动时间窗收集20个声源坐标，通过三维聚类的方法进行声源对象跟踪，实现非同步多声源定位，同时滤除环境噪声造成的假声源。

根据本发明的特定实施例，人脸坐标(u,v,w)每帧图像更新一次，通过比对相邻帧人脸坐标的位置进行跟踪。

根据本发明的特定实施例，人脸检测单元采用人形检测，在人脸短暂丢失的时候，通过比对人形坐标和人脸坐标，补齐丢失的人脸，延长人脸跟踪的存活期，从而减少人脸识别的调用次数。

如图11所示，两个麦克风的距离为d，两个麦克风的连线中点为O，声源S到O的距离为r，S到两个麦克风的距离分别是r1和r2，OS与两个麦克风的连线夹角为θ。则根据三角函数关系可以得到，r1和r2之间的差值为：

在远场情况下，可以认为r>>d，此时声源到两个麦克风的路程差为：

Δs≈d*cosθ,Δs∈[-d,d]

两个麦克风接收到的声音信号延时差为：

Δt＝Δs/c

其中c为声速。空气中声速为c＝340米/秒。

如图12所示，6个麦克风的距离安排，可以形成多个不同距离的麦克风对：

名称	距离	麦克风对
			单倍距	d＝e	112-113，114-115
二倍距	d＝2e	111-112，113-114，115-116
			四倍距	d＝4e	112-115
八倍距	d＝8e	111-116

根据本发明的特定实施例，取最大八倍距d＝8e＝340mm，则Δt8∈[-1ms,1ms]。以此类推，四倍距d＝4e＝170mm，则Δt4∈[-0.5ms,0.5ms]；二倍距d＝2e＝85mm，则Δt2∈[-0.25ms,0.25ms]；单倍距d＝e＝42.5mm，则Δt∈[-0.125ms,0.125ms]。

根据本发明的特定实施例，采用20kz的采样率，延时分辨率为0.05ms，即使4倍亚采样插值，延时分辨率可以达到0.0125ms。对于八倍距，Δt8有161个采样点。同理，对于四倍距，Δt4有81个采样点；对于二倍距，Δt2有41个采样点；对于单倍距，Δt有21个采样点。

其中k为整数。

因此单倍距、二倍距、四倍距、八倍距的θ采样点是对齐的。这样用SRP-PHAT算法计算相位加权变换可控功率谱(Steered Response Power PHAse Transform)时，八倍距直接计算161个角度采样点的功率谱；四倍距直接计算81个角度采样点的功率谱，然后线性插值补齐到161个采样点，从而大大节省计算量；同理，二倍距、单倍距通过线性插值可以节省更多的计算量。插值统一到161个角度采样点后，不同距离麦克风对的功率谱就可以叠加找峰了。

用SRP-PHAT相位加权变换可控功率谱搜索峰值进行声源定位时，只有d≤λ/8时才有单峰谱，其中λ为声音的波长。当d＞λ/8时会因为相位缠绕产生多峰，在进行峰值搜索时会得到假声源。本发明根据特定实施例，把声音信号分成多个频率子带，其中单倍频f保证d＝e时不发生相位缠绕。

如下表所示，把SRP-PHAT功率谱分成4个谱类：单峰谱、二分谱、四分谱、八分谱。相同的谱类，不同的麦克风距离，其子带频率范围是不同的，共有15个子功率谱。因为经过插值统一到了161个角度采样点，可以分组叠加生成4个谱类：单峰谱、二分谱、四分谱、八分谱。单峰谱没有相位缠绕，但峰比较宽，定位精度低。从单峰谱到二分谱到四分谱到八分谱，相位缠绕越来越多，但峰宽越来越窄，定位精度越来越高。综合利用单峰谱、二分谱、四分谱、八分谱，可以得到更精确的声源位置。

谱类	频率范围	单倍距	二倍距	四倍距	八倍距
						单峰谱	[125Hz,c/8d]	[125Hz,c/8e]	[125Hz,c/16e]	[125Hz,c/32e]	NA
二分谱	[c/8d,c/4d]	[c/8e,c/4e]	[c/16e,c/8e]	[c/32e,c/16e]	[125Hz,c/32e]
						四分谱	[c/4d,c/2d]	[c/4e,c/2e]	[c/8e,c/4e]	[c/16e,c/8e]	[c/32e,c/16e]
八分谱	[c/2d,c/d]	[c/2e,c/e]	[c/4e,c/2e]	[c/8e,c/4e]	[c/16e,c/8e]

根据特定实施例，c＝340米/秒，c/e＝8KHz，则e＝42.5mm，8e＝340mm。

如图13所示，根据特定实施例，把161个角度采样点首尾相连，把4个谱类形成循环队列，然后搜索峰值位置：

第一步：在单峰谱找到最大峰，峰宽按81个采样点处理。

第二步：在单峰谱峰宽范围内，对齐到二分谱上寻找最大峰，峰宽按41个采样点处理。

第三步：在二分谱峰宽范围内，对齐到四分谱上寻找最大峰，峰宽按21个采样点处理。

第四步：在四分谱峰宽范围内，对齐到八分谱上寻找最大峰，该峰值对应的采样点位置就是声源位置角度。

根据本发明的特定实施例，可以采用TOF深度摄像机，根据飞行时间计算人脸位置的三维坐标。

根据本发明的特定实施例，可以采用结构光深度摄像机，根据结构光特征点计算人脸位置的三维坐标。

在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有描述的部分，可以参考其它实施例的相关描述。

在本发明所提的几个实施例中，应该理解到，所披露的装置和方法，可以通过其它的方式实现。例如，以上说描述的装置实施例仅仅是示意性的。例如，所述单元的划分，仅仅是一种逻辑单元划分，实际实现时可以有另外的划分方式。例如，多个单元和组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的直接耦合或间接耦合或通信连接，可以是通过一些接口，可以是有线的、无线的，可以是电气的、机械的、软件的、或其它形式。

所述作为分离部件说明的单元，可以是或者可以不是物理上分开的。作为单元显示的部件可以是或者可以不是物理单元，即可以位于一个地方，或者可以分步到多个网络单元上。可以根据实际需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以用硬件的形式实现，也可以用硬件加软件单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备)或数字信号处理器(DSP)或中央处理器(CPU)或图像处理器(GPU)或现场可编程阵列(FPGA)或复杂可编程逻辑器件(CPLD)或片上系统(SoC)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Accessed Memory，RAM)、磁碟、光碟等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置的内部结构划分成不同的功能单元，以完成以上描述的全部或部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应该说明的是，以上各实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种人工智能设备；其特征在于，包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，第一声源定位单元，第二声源定位单元，第三声源定位单元，三维声源定位单元，第一摄像机，第二摄像机，人脸检测单元，三维人脸定位单元，三维声脸匹配单元，视音频人工智能单元。

所述第一麦克风阵列，第二麦克风阵列，第三麦克风阵列都是线性麦克风阵列。

所述第一麦克风阵列，第二麦克风阵列位于同一条直线上，所述第三麦克风阵列与该直线垂直。

所述第一声源定位单元接收所述第一麦克风阵列的音频信号，并定位出声源的第一角度坐标。

所述第二声源定位单元接收所述第一麦克风阵列的音频信号，并定位出声源的第二角度坐标。

所述第三声源定位单元接收所述第一麦克风阵列的音频信号，并定位出声源的第三角度坐标。

所述三维声源定位单元根据所述声源的第一角度坐标，第二角度坐标，第三角度坐标计算出声源位置的三维直角坐标。

所述人脸检测单元接收所述第一摄像机的图像数据，检测出人脸图像位置。

所述三维人脸定位单元接收第一摄像机、第二摄像机的图像信号，根据人脸图像位置，计算出人脸位置的三维直角坐标。

所述三维声脸匹配单元比对声源位置的三维直角坐标和人脸位置的三维直角坐标，根据预设的允许偏差范围，得到声脸匹配结果。

所述视音频人工智能单元根据声脸匹配结果执行视音频相关的人工智能动作。

2.根据权利要求1所述的一种人工智能设备，其特征在于：所述视音频人工智能单元包括声纹识别客户端、人脸识别客户端、人工智能客户端、ID注册单元。ID注册单元把人脸样本发给人脸识别客户端，注册人脸并获得人脸ID。ID注册单元把声纹样本发给声纹识别客户端，并获得声纹ID。ID注册单元把人脸ID和声纹ID发给人工智能客户端，注册ID对照表。

3.根据权利要求1所述的一种人工智能设备，其特征在于：所述视音频人工智能单元包括声纹识别客户端、人脸识别客户端、人工智能客户端、ID比对单元。所述ID比对单元从三维声脸匹配单元获得声纹样本，转发给声纹识别客户端，并获得声纹ID列表及其声纹特征相似度值。所述ID匹配单元从三维声脸匹配单元获得人脸样本，转发给人脸识别客户端，并获得人脸ID列表及其人脸特征相似度值。所述ID比对单元把得到的人脸ID和声纹ID转发给人工智能客户端，得到包括这些人脸ID和声纹ID的ID对照表。所述ID比对单元把人脸ID与声纹ID组合，与ID对照表比较，找到两者都匹配的PersonalID为备选身份识别结果。所述ID比对单元在备选身份识别结果里，找到人脸特征相似度值最高者，其PersonalID为最终身份识别结果，其对应的人脸样本和声纹样本为最终声脸匹配结果。

4.根据权利要求1-3所述的一种人工智能设备，其特征在于：通过合理安排麦克风间距，使单倍距、二倍距、四倍距、八倍距的角度采样位置对齐，使用线性插值的方法大大降低声源定位算法的计算量。

5.根据权利要求1-4所述的一种人工智能设备，其特征在于：不同的麦克风间距配合不同的频率子带，按组划分成不同的谱类，所述谱类为单峰谱、二分谱、四分谱、八分谱，在不同谱类上分步搜索峰值位置，在提升声源定位精度的同时避开相位缠绕造成的假峰。

6.一种人工智能方法；其特征在于，包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，第一声源定位单元，第二声源定位单元，第三声源定位单元，三维声源定位单元，第一摄像机，第二摄像机，人脸检测单元，三维人脸定位单元，三维声脸匹配单元，视音频人工智能单元。

所述三维人脸定位单元接收第一摄像机、第二摄像机的图像信号，根据人脸图像位置，计算出人脸位置的三维坐标。

所述三维声脸匹配单元比对声源位置的三维坐标和人脸位置的三维坐标，根据预设的允许偏差范围，得到声脸匹配结果。

7.根据权利要求6所述的一种人工智能方法，其特征在于：所述视音频人工智能单元包括声纹识别客户端、人脸识别客户端、人工智能客户端、ID注册单元。ID注册单元把人脸样本发给人脸识别客户端，注册人脸并获得人脸ID。ID注册单元把声纹样本发给声纹识别客户端，并获得声纹ID。ID注册单元把人脸ID和声纹ID发给人工智能客户端，注册ID对照表。

8.根据权利要求6所述的一种人工智能方法，其特征在于：所述视音频人工智能单元包括声纹识别客户端、人脸识别客户端、人工智能客户端、ID比对单元。所述ID比对单元从三维声脸匹配单元获得声纹样本，转发给声纹识别客户端，并获得声纹ID列表及其声纹特征相似度值。所述ID匹配单元从三维声脸匹配单元获得人脸样本，转发给人脸识别客户端，并获得人脸ID列表及其人脸特征相似度值。所述ID比对单元把得到的人脸ID和声纹ID转发给人工智能客户端，得到包括这些人脸ID和声纹ID的ID对照表。所述ID比对单元把人脸ID与声纹ID组合，与ID对照表比较，找到两者都匹配的PersonalID为备选身份识别结果。所述ID比对单元在备选身份识别结果里，找到人脸特征相似度值最高者，其PersonalID为最终身份识别结果，其对应的人脸样本和声纹样本为最终声脸匹配结果。

9.根据权利要求6-8所述的一种人工智能方法，其特征在于：通过合理安排麦克风间距，使单倍距、二倍距、四倍距、八倍距的角度采样位置对齐，使用线性插值的方法大大降低声源定位算法的计算量。

10.根据权利要求6-9所述的一种人工智能方法，其特征在于：不同的麦克风间距配合不同的频率子带，按组划分成不同的谱类，所述谱类为单峰谱、二分谱、四分谱、八分谱，在不同谱类上分步搜索峰值位置，在提升声源定位精度的同时避开相位缠绕造成的假峰。