CN112711974A

CN112711974A - 人脸辨识方法及装置

Info

Publication number: CN112711974A
Application number: CN201911079872.0A
Authority: CN
Inventors: 李金龙
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2019-10-25
Filing date: 2019-11-07
Publication date: 2021-04-27
Anticipated expiration: 2039-11-07
Also published as: CN112711974B; US11308732B2; US20210124912A1; TWI714318B; TW202117601A

Abstract

本发明提供了一种人脸辨识方法及装置。所述方法适用于具有收音装置及影像撷取装置的电子装置，且包括下列步骤：利用收音装置检测声源的方向，以利用影像撷取装置撷取此方向的影像；检测并追踪影像中的人脸，以根据追踪结果给予人脸一影像识别；判断此影像识别是否存在于人脸辨识的数据集中已辨识的多个群组识别；以及响应于影像识别不存在于数据集，撷取此人脸的特征值，并与各个群组识别的人脸的特征值比对，以根据比对结果，更新人脸所属的群组识别。

Description

人脸辨识方法及装置

技术领域

本发明为有关于一种辨识方法及装置，且特别是有关于一种人脸辨识方法及装置。

背景技术

近年来人脸辨识技术爆发性成长，技术趋近成熟，各大厂商不论是电脑设备厂商甚或是智慧手机厂商皆趋之若鹜，纷纷推出量产性产品并挂载相关人脸技术运用。但大部分的人脸技术应用可能以下几项原因把真正的运算及特征识别技术放在云端服务上：1.为了求更高的准确度；2.保密人脸数据库的核心技术；3.大部分装置难以负担如此大量的运算；4.为了更快速的回应等等，其原因种类繁多不一阐述。

然而，使用上述方法的行动装置或是设备就必须具备连网功能，否则无法使用该功能。除此之外，使用云端服还有数据被第三方窃取的网络安全风险，或者是人脸信息被用做其他不可预期服务的问题存在。

发明内容

本发明提供一种人脸辨识方法及装置，通过持续追踪正在说话且被判定为人脸的物件，可增加人脸辨识的容错率。

本发明实施例的人脸辨识方法，适用于具有收音装置及影像撷取装置的电子装置。此方法包括下列步骤：利用收音装置检测声源的方向，以利用影像撷取装置撷取此方向的影像；检测并追踪影像中的人脸，以根据追踪结果给予人脸一影像识别；判断此影像识别是否存在于人脸辨识的数据集中已辨识的多个群组识别；以及响应于影像识别不存在于数据集，撷取此人脸的特征值，并与各个群组识别的人脸的特征值比对，以根据比对结果，更新人脸所属的群组识别。

本发明实施例的人脸辨识装置包括用以检测声源的收音装置、用以撷取影像的影像撷取装置及处理器。此处理器耦接收音装置及影像撷取装置，经配置以利用收音装置检测声源的方向，以利用影像撷取装置撷取此方向的影像；检测并追踪影像中的人脸，以根据追踪结果给予人脸一影像识别；判断此影像识别是否存在于人脸辨识的数据集中已辨识的多个群组识别；以及响应于影像识别不存在于数据集，撷取此人脸的特征值，并与各个群组识别的人脸的特征值比对，以根据比对结果，更新人脸所属的群组识别。

附图说明

图1是依据本发明一实施例所绘示的人脸辨识装置的方块图。

图2是依照本发明一实施例所绘示的人脸辨识方法流程图。

图3是依照本发明一实施例所绘示的撷取声源方向影像的范例。

图4是依照本发明一实施例所绘示的物件追踪方法的流程图。

图5是依照本发明一实施例所绘示的中心点追踪法的范例。

图6是依照本发明一实施例所绘示的物件追踪方法的流程图。

图7是依照本发明一实施例所绘示的特征值比对方法的流程图。

图8是依照本发明一实施例所绘示的人脸辨识方法的流程图。

符号说明：

10：人脸辨识装置

12：收音装置

14：影像撷取装置

16：处理器

30：环景影像

32：区域

32A：影像

50：人脸

52：边界框

A、B、C：使用者

S202～S210、S402～S410、S602～S610、S702～S708、S802～S808：步骤

具体实施方式

本发明实施例针对可控制的或者是局限性较高的场所，例如会议室、教室等，利用麦克风阵列做方向定位，并撷取声源方向的影像来进行人脸识别，藉此增加人脸识别的效率。本发明实施例进一步结合物件追踪演算法追踪人脸，通过将重叠的人脸、离开影像的人脸进行反注册/再注册等处理，藉此增加容错率。

图1是依据本发明一实施例所绘示的人脸辨识装置的方块图。请参考图1，本实施例的人脸辨识装置10例如是视频会议设备、远距教学设备，或是具备视频会议或其他通讯功能的电脑、伺服器、工作站等计算装置或手机、平板电脑等可携装置，在此不设限。人脸辨识装置10包括收音装置12、影像撷取装置14及处理器16，其功能分述如下：

收音装置12例如为麦克风、指向性麦克风、麦克风阵列等可辨识声源方向的装置，其中麦克风的个数及位置可视实际需求自由配置，在此不设限。收音装置12例如包括伺服马达，其可依据所辨识声源的方向，推动麦克风以改变其位置及/或角度，藉此转向声源方向以进行收音。

影像撷取装置14例如是由镜头、光圈、快门、影像感测器等元件组成。其中，镜头包括多个光学透镜，其例如是通过步进电机或音圈电机等致动器驱动，以改变透镜之间的相对位置，从而改变镜头的焦距。影像感测器例如是由电荷耦合元件(Charge CoupledDevice，CCD)、互补性氧化金属半导体(Complementary Metal-Oxide Semiconductor，CMOS)元件或其他种类的感光元件组成，其配置于镜头后方，而可感测入射镜头的光线强度以产生被摄物件的影像。在一实施例中，影像撷取装置14例如是360度环景相机，其例如是由两个视角为180度的广角相机组成，而可拍摄人脸辨识装置10周围的360度环景影像。

处理器16例如是中央处理单元(Central Processing Unit，CPU)，或是其他可编程之微处理器(Microprocessor)、数位信号处理器(Digital Signal Processor，DSP)、可编程控制器、特殊应用集成电路(Application Specific Integrated Circuit，ASIC)或其他类似元件或上述元件的组合。在本实施例中，处理器16耦接收音装置12及影像撷取装置14，用以存取并执行电脑程序，藉以实现本发明实施例的人脸辨识方法。

在一实施例中，人脸辨识装置10更包括通讯装置，此通讯装置例如支援全球行动通信(Global System for Mobile Communication，GSM)系统、个人手持式电话系统(Personal Handy-phone System，PHS)、码多重撷取(Code Division Multiple Access，CDMA)系统、全球互通微波存取(Worldwide Interoperability for Microwave Access，WiMAX)、无线相容认证(Wireless fidelity，Wi-Fi)、全球互通微波存取(WorldwideInteroperability for Microwave Access，WiMAX)或蓝牙(Bluetooth)等无线通讯技术，而可提供人脸辨识装置10与外部装置建立无线连结，并进行视频通话、视频会议、远距教学等通讯功能，在此不设限。

在一实施例中，上述的收音装置12及影像撷取装置14亦可独立于人脸辨识装置10外配置，而由处理器16通过通用序列汇流排(Universal Serial Bus，USB)等连接接口或上述的通讯装置，以有线或无线的方式接收由收音装置12输出的声音信号以及由影像撷取装置14输出的影像，在此不设限。

图2是依照本发明一实施例所绘示的人脸辨识方法流程图。请同时参照图1与图2，本实施例的方法适用于上述的人脸辨识装置10，以下即搭配图1中人脸辨识装置10的各项元件，说明本实施例方法的详细流程。

首先，在步骤S202中，由处理器16利用收音装置12检测一声源的方向，以利用影像撷取装置14撷取此方向的影像。在一实施例中，在使用收音装置12检测声源之前，处理器16例如会执行收音装置12的初始化，其中包括利用影像撷取装置14拍摄人脸辨识装置10周围的环景影像，并辨识此环景影像中的人脸，从而将收音装置12的检测角度调整为指向所辨识人脸所在的方向。

举例来说，图3是依照本发明一实施例所绘示的撷取声源方向影像的范例。请参照图3，本实施例假设人脸辨识装置10是放置于会议室的桌面上，用以提供会议室中的多个使用者A、B、C进行视频会议。在一实施例中，人脸辨识装置10利用影像撷取装置14拍摄其周围的环景影像30，并利用收音装置12检测声源(例如正在说话的使用者B)方向，从而依据声源方向裁切环景影像30中位于所检测方向上的部分区域32的影像，作为用以进行人脸辨识的影像32A。在一实施例中，人脸辨识装置10亦可先针对影像撷取装置14所拍摄的环景影像30进行人脸辨识，据以将收音装置12的检测角度调整为指向所辨识人脸所在的方向，藉此可增加声源检测的效率及正确率。

需说明的是，在一实施例中，处理器16更进一步利用收音装置12所检测声源的至少一项特征来判断所述声源是否为人声，所述特征包括发声时间间隔、连续发声长度及发声数据的收敛性等。详言之，处理器16例如通过判断收音装置12所检测声音信号是否为空，来判断是否有人发声；通过判断收音装置12所检测声音信号中的发声时间间隔来判断是否为同一人说话(若时间间隔过长，则代表为不同人说话)；通过判断收音装置12所检测声音信号中的连续发声长度，来判断是否为有效的说话(若长度过短，则代表所检测的声音可能为咳嗽声或其他声音，并非说话声)；通过判断收音装置12所检测声音信号中的发声数据的收敛性，判断收音装置12的方向是否已转向声源的方向。举例来说，若收音装置12的原始收音方向为0度，而声源的方向为180度，则收音装置12的收音方向例如会以0度、90度、130度、175度、180度的方向逐步朝180度收敛，此收敛可由声音信号的数据收敛性来判断是否完成。

回到图2的流程，在步骤S204中，处理器16检测并追踪影像中的人脸，以根据追踪结果给予此人脸一影像识别。详言之，当检测到影像中包括人脸时，处理器16例如会执行物件追踪演算法，以对影像中各个人脸进行追踪，并根据追踪结果给予所追踪人脸一个影像识别。

图4是依照本发明一实施例所绘示的物件追踪方法的流程图。请参照图4，本实施例说明图2步骤S204的详细流程。

在步骤S402中，由处理器16检测影像中的人脸。在一实施例中，处理器16例如会计算可涵盖人脸轮廓的最小矩形作为人脸的边界框来定义人脸区域。

在步骤S404中，由处理器16计算所检测的各个人脸的边界框的中心点座标作为人脸位置。详言之，处理器16例如会执行中心点追踪法(CentroidTracker)，而以人脸边界框的中心点座标作为人脸位置来进行人脸追踪。以图5为例，对于所检测的人脸50，处理器16会计算可涵盖人脸轮廓的最小矩形作为边界框52，然后再计算此边界框52的中心点座标(x,y)，而用以作为人脸50的位置。

在步骤S406中，由处理器16判断目前所检测的人脸位置与先前追踪的多个人脸位置之间的最短距离是否大于预设距离。详言之，先前追踪的多个人脸位置中与目前所检测的人脸位置距离最短的人脸位置可假定为目前所检测人脸可能的先前位置，而根据这两个人脸位置间的距离的长短，则可确认此人脸位置是否就是目前所检测人脸的先前位置。所述人脸位置间的距离例如是欧式距离，但不限于此。

其中，响应于此最短距离大于预设距离，则代表两个人脸位置之间的距离过长，并非代表同一人，且先前所追踪的人脸已消失于目前所撷取的影像，此时将进入步骤S408，由处理器16对目前所检测的人脸给予一个新影像识别，并将先前追踪的人脸的影像识别进行反注册，以进行后续的重新识别。反之，响应于此最短距离不大于预设距离，则代表两个人脸位置所对应的人脸为同一人，此时将进入步骤S410，由处理器16以目前所计算的人脸位置更新先前追踪的人脸位置。

需说明的是，在一实施例中，处理器16在步骤S406中判断最短距离大于预设距离时，例如会判断所追踪的人脸已消失于所撷取的影像，并累计人脸消失的影像的帧数，而当所累计的人脸消失的影像的帧数大于预设帧数(例如5帧)时，才判断所追踪的人脸已离开，而将其影像识别反注册。详言之，在一实施例中，处理器16是根据所追踪人脸连续未出现在影像中的时间(帧数)来决定是否进行该人脸的影像识别的反注册。因此，反注册的决定会与影片每秒包括多少帧，以及用以判定人脸消失的帧数(门槛值)有关。当这个门槛值愈小，人脸追踪的精确度越高。此外，由于追踪过程中不会进行任何辨识，因此当这个门槛值愈大，则愈有可能发生被冒用(例如他人突然出现在影像中的该位置)的机率。据此，在一实施例中，处理器16在准备对所追踪人脸的影像识别进行反注册时，会进一步判断该人脸(中心点)的附近是否有其他人脸(距离小于预设距离)，并将所判断的附近人脸一并强制进行反注册，以避免两张人脸快速靠近并重叠的情况下，仅依据欧式距离来判断会有很大的机会发生识别交换(ID swap)的现象。

举例来说，处理器16可根据前述计算的人脸位置，判断影像中的人脸是否发生重叠，并在判定人脸重叠时，同时对两个人脸进行反注册及重新注册，以避免重叠人脸因识别交换而造成识别错误。

详言之，图6是依照本发明一实施例所绘示的物件追踪方法的流程图。请参照图6，本实施例说明图2步骤S204的详细流程。

在步骤S602中，由处理器16检测影像中的人脸。在步骤S604中，由处理器16计算所检测的各个人脸的边界框的中心点座标作为人脸位置。其中，步骤S602～S604的实施方式与前述实施例的步骤S402～S404相同或相似，故在此不再赘述。

与前述实施例不同的是，本实施例假设步骤S604中检测到的人脸为多个。针对此情况，在步骤S606中，由处理器16计算影像中各个人脸的人脸位置之间的距离，并判断所计算的距离是否小于预设距离。

响应于所计算的距离小于预设距离，则可判断人脸发生重叠，此时将进入步骤S608，由处理器16将重叠的人脸的影像识别进行反注册，并给予一个新影像识别，以进行后续的重新识别。反之，响应于所计算的距离不小于预设距离，则代表两个人脸位置未重叠，此时将进入步骤S610，由处理器16维持目前人脸所属的影像识别，以节省运算资源且避免识别交换的现象。详言之，当影像中的两个或多个人脸发生重叠时，处理器16会将重叠人脸的影像识别都进行反注册，而反注册后重新出现在影像中的人脸会被判定为一个新的人脸，因此会重新给予一个新影像识别。也就是说，有几个人脸被反注册，就会重新给予几个新影像识别。

回到图2的流程，在步骤S206中，处理器16判断目前所检测人脸的影像识别是否存在于人脸辨识的数据集中已辨识的多个群组识别。响应于所述判断为已存在，则在步骤S208中，处理器16将目前所检测人脸的群组识别更新为数据集中的群组识别。反之，响应于所述判断为不存在，则在步骤S210中，由处理器16撷取人脸的特征值，并与各个群组识别的人脸的特征值比对，以根据比对结果，更新目前所检测人脸所属的群组识别。

详言之，上述的人脸辨识的数据集可实作为一个特征(embedding)与索引(index)的数据集，其格式例如包括(影像识别ImageId、群组识别ClusterId、特征Embedding)三个栏位。当有一笔数据进来之后，处理器16会给予该数据一个暂时索引(例如100)，此索引可作为影像识别ImageId，此时该物件的索引为(100、空、空)。其中，若此物件是一个新的物件，数据集中并不会存在这个影像识别ImageId。因此，在一实施例中，处理器16例如会将目前所辨识人脸的群组识别ClusterId预设为影像识别ImageId(即，预设为100)，并使用此群组识别ClusterId在人脸辨识的数据集中搜寻是否已存在有相同的群组识别。响应于此群组识别ClusterId已存在，则代表目前所辨识的人脸与所搜寻到的群组识别所对应的人脸相同，而可直接更新目前人脸所属的群组识别(即，将其群组识别确定为预设的影像识别)。反之，响应于此群组识别ClusterId不存在，则代表目前所辨识的人脸是新的物件，此时需再判断目前所辨识人脸的特征是否等同于数据集中的其他人脸。响应于找到等同的人脸，则可将该物件的索引改成(100、空、特征数据)；否则，可确定为新的物件。藉此，可增加本实施例的人脸辨识方法的容错率。

详言之，针对影像识别不存在于数据集中的情况，本实施例通过特征值比对的方式，搜寻数据集中可能为同一人的群组识别，并用以更新目前所辨识人脸所属的群组识别。

详言之，图7是依照本发明一实施例所绘示的特征值比对方法的流程图。请参照图7，本实施例说明图2步骤S210的详细流程。

在步骤S702中，由处理器16执行相似度比对法，以计算所撷取人脸的特征值与各个群组识别的人脸的特征值之间的相似度。其中，处理器16例如会针对目前所辨识人脸与数据集中的人脸执行1对N或N对N比对法，以计算两两人脸之间的距离来作为其相似度，并取其中的最大相似度来判断两个人脸是否为相同。需说明的是，由于相似度比对法的执行需要耗费较高的运算资源，因此在一实施例中，处理器16例如会对影像撷取装置所撷取的影像进行解析度缩减(downsize)或前置白化(prewhiten)等处理，使得所需处理影像的像素数目或数据减少，以增加处理效率。

举例来说，以下表1列出针对影像0～4中任意两张影像进行比对后所获得的距离矩阵，其中的最大距离1.1637所对应的影像2、4即为最相似影像，而可用以作为判断所对应人脸是否相同的依据。所述影像0～4例如是由影像撷取装置14撷取的连续影像，在此不设限。

表1

	0	1	2	3	4
						0	0.0000	0.8494	1.1214	0.9232	0.6813
1	0.8494	0.0000	1.1400	1.0842	0.5679
						2	1.1214	1.1400	0.0000	1.0999	1.1637
3	0.9232	1.0842	1.0999	0.0000	1.1536
						4	0.6813	0.5679	1.1637	1.1536	0.0000

详言之，在步骤S704，由处理器16判断所计算的相似度中的最大相似度是否大于门槛值。其中，响应于所述最大相似度大于门槛值，可确定两个人脸相同，因此在步骤S706，由处理器16将目前所辨识人脸所属的群组识别更新为具有最大相似度的群组识别。反之，响应于所述最大相似度不大于门槛值，可确定两个人脸不同，因此在步骤S708，由处理器16将目前所辨识人脸所属的群组识别新增至数据集，以作为新的人脸。在一实施例中，可通过调整上述门槛值的大小，决定人脸辨识的门槛(即，难易程度)。若门槛值愈高，则代表对于人脸相似度的要求愈高，而可获得较准确的辨识结果。

需说明的是，在采用360度环景相机撷取影像的情况下，由于所撷取影像的解析度高(例如4K解析度)，对该影像的数据进行传输及处理(特征值比对)所需的时间也较长。此外，采用麦克风阵列进行声源检测及人声辨识时，也会因为角度收敛、人声辨识困难等问题，造成处理延迟。因此，在一实施例中，处理器16例如会比对影像处理及人声辨识完成的时间点，以确认是否有人正在说话，并据以决定是否进行接续动作(即，对所辨识人脸所属的群组识别进行更新)。若影像处理及人声辨识完成的时间点相差太多，则可判断所述时间点获得的影像与所述声源不具有对应关系，因此影像和人声之间的比对就没有参考价值，此时处理器16将会放弃接续动作，以节省运算资源。

详言之，图8是依照本发明一实施例所绘示的人脸辨识方法的流程图。请参照图8，本实施例说明图2步骤S210中，根据比对结果来更新人脸所属群组识别的详细流程。

在步骤S802中，由处理器16计算获得比对结果(例如步骤S210中的比对结果)的时间点与判断声源为人声的时间点之间的时间差，并在步骤S804中，判断所计算的时间差是否大于预设时间。所述预设时间的长度例如为1至2秒之间的任意值，在此不设限。

响应于所计算的时间差大于预设时间，则代表所辨识的人声和所比对的人脸特征值可能不是属于同一个人，因此在步骤S806中，处理器16将判断所述时间点获得的影像与所述声源不具有对应关系。而响应于所计算的时间差不大于预设时间，则代表所辨识的人声和所比对的人脸特征值属于同一个人，而可确认比对结果为有效，由处理器16更新人脸所属的群组识别。

综上所述，本发明的人脸辨识方法及装置通过结合收音装置及影像撷取装置的检测结果，可在单机不连网的情况下，正确撷取正在说话的人的影像，并通过将重叠的人脸、离开影像的人脸进行反注册/再注册等处理，可解决人脸重叠、离开再进入所造成的识别交换(ID swap)问题，从而增加人脸辨识的容错率。根据人脸辨识所撷取/裁切的影像则可经由视频会议等通讯软件传送至另一端使用者，而实现视频影像的远端分享。

Claims

1.一种人脸辨识方法，适用于具有收音装置及影像撷取装置的电子装置，其特征在于，所述方法包括下列步骤：

利用所述收音装置检测一声源的方向，以利用所述影像撷取装置撷取所述方向的影像；

检测并追踪所述影像中的人脸，以根据追踪结果给予所述人脸一影像识别；

判断所述影像识别是否存在于人脸辨识的数据集中已辨识的多个群组识别；以及

响应于所述影像识别不存在于所述数据集，撷取所述人脸的特征值，并与各所述群组识别的人脸的特征值比对，以根据比对结果，更新所述人脸所属的群组识别。

2.根据权利要求1所述的人脸辨识方法，其特征在于，检测并追踪所述影像中的人脸的步骤包括：

当检测到所述影像中包括多个人脸时，利用物件追踪演算法追踪所述人脸，并判断所述人脸是否重叠；以及

响应于所述人脸重叠，反注册重叠的所述人脸的所述影像识别，并重新给予所述人脸一新影像识别。

3.根据权利要求2所述的人脸辨识方法，其特征在于，利用物件追踪演算法追踪所述人脸，并判断所述人脸是否重叠的步骤包括：

计算所检测的各所述人脸的边界框的中心点座标作为人脸位置，并判断各所述人脸的所述人脸位置之间的距离是否小于预设距离；以及

响应于所述距离小于所述预设距离，判断所述人脸重叠。

4.根据权利要求1所述的人脸辨识方法，其特征在于，检测并追踪所述影像中的人脸，以根据追踪结果给予所述人脸所述影像识别的步骤包括：

计算所检测的各所述人脸的边界框的中心点座标作为人脸位置，并判断所述人脸位置与先前追踪的多个人脸位置之间的最短距离是否大于预设距离；以及

响应于所述最短距离大于所述预设距离，判断所述人脸不等同于先前追踪的人脸，而给予所述人脸一新影像识别，并反注册先前追踪的所述人脸的影像识别。

5.根据权利要求1所述的人脸辨识方法，其特征在于，检测并追踪所述影像中的人脸，以根据追踪结果给予所述人脸所述影像识别脸的步骤更包括：

判断所追踪的人脸消失于所撷取的所述影像的帧数是否超过预设帧数；以及

响应于所述帧数大于所述预设帧数，判断所追踪的所述人脸已离开，而反注册所追踪的所述人脸的影像识别。

6.根据权利要求1所述的人脸辨识方法，其特征在于，所述影像撷取装置为环景相机，而利用所述影像撷取装置撷取所述方向的影像的步骤包括：

利用所述影像撷取装置拍摄所述电子装置周围的环景影像，并裁切所述环景影像中位于所述方向上的部分影像作为用以进行人脸辨识的影像。

7.根据权利要求1所述的人脸辨识方法，其特征在于，所述影像撷取装置为环景相机，而在利用所述收音装置检测所述声源的方向的步骤之前，所述方法更包括：

利用所述影像撷取装置拍摄所述电子装置周围的环景影像，并辨识所述环景影像中的人脸；以及

调整所述收音装置的检测角度为指向所辨识的所述人脸所在的方向。

8.根据权利要求1所述的人脸辨识方法，其特征在于，撷取所述人脸的特征值，并与各所述群组识别的人脸的特征值比对，以根据比对结果，更新所述人脸所属的群组识别的步骤包括：

执行相似度比对法，以计算所撷取的所述人脸的特征值与各所述群组识别的人脸的特征值之间的相似度；

判断所计算的所述相似度中的最大相似度是否大于门槛值；

响应于所述最大相似度不大于所述门槛值，将所述人脸所属的群组识别新增至所述数据集；以及

响应于所述最大相似度大于所述门槛值，将所述人脸所属的群组识别更新为具有所述最大相似度的所述群组识别。

9.根据权利要求1所述的人脸辨识方法，其特征在于，利用所述收音装置检测所述声源的方向，以利用所述影像撷取装置撷取所述方向的所述影像的步骤还包括：

利用所述收音装置检测所述声源的至少一特征，以判断所述声源是否为人声，并在判断为人声时，利用所述影像撷取装置撷取所述方向的所述影像，其中所述至少一特征包括发声时间间隔、连续发声长度及发声数据的收敛性。

10.根据权利要求1所述的人脸辨识方法，其特征在于，利用所述收音装置检测所述声源的所述方向，以利用所述影像撷取装置撷取所述方向的所述影像的步骤更包括：

计算获得所述影像的时间点与判断所述声源为人声的时间点之间的时间差，并判断所计算的所述时间差是否大于预设时间；以及

响应于所述时间差大于所述预设时间，判断所述时间点获得的所述影像与所述声源不具有对应关系。

11.一种人脸辨识装置，其特征在于，包括：

收音装置，检测声源；

影像撷取装置，撷取影像；

处理器，耦接所述收音装置及所述影像撷取装置，经配置以：

12.根据权利要求11所述的人脸辨识装置，其特征在于，当检测到所述影像中包括多个人脸时，所述处理器包括利用物件追踪演算法追踪所述人脸，并判断所述人脸是否重叠，而响应于所述人脸重叠，反注册重叠的所述人脸的所述影像识别，并重新给予所述人脸一新影像识别。

13.根据权利要求12所述的人脸辨识装置，其特征在于，所述处理器包括计算所检测的各所述人脸的边界框的中心点座标作为人脸位置，并判断各所述人脸的所述人脸位置之间的距离是否小于预设距离，以及响应于所述距离小于所述预设距离，判断所述人脸重叠。

14.根据权利要求11所述的人脸辨识装置，其特征在于，所述处理器包括计算所检测的各所述人脸的边界框的中心点座标作为人脸位置，并判断所述人脸位置与先前追踪的多个人脸位置之间的最短距离是否大于预设距离，而响应于所述最短距离大于所述预设距离，判断所述人脸不等同于先前追踪的人脸，而给予所述人脸一新影像识别，并反注册先前追踪的所述人脸的影像识别。

15.根据权利要求11所述的人脸辨识装置，其特征在于，所述处理器更判断所追踪的人脸消失于所撷取的所述影像的帧数是否超过预设帧数，而响应于所述帧数大于所述预设帧数，判断所追踪的所述人脸离开，而反注册所追踪的所述人脸的影像识别。

16.根据权利要求11所述的人脸辨识装置，其特征在于，所述影像撷取装置为环景相机，而所述处理器包括利用所述影像撷取装置拍摄电子装置周围的环景影像，并裁切所述环景影像中位于所述方向上的部分影像作为用以进行人脸辨识的影像。

17.根据权利要求11所述的人脸辨识装置，其特征在于，所述影像撷取装置为环景相机，而所述处理器包括利用所述影像撷取装置拍摄电子装置周围的环景影像，并辨识所述环景影像中的人脸，以及调整所述收音装置的检测角度为指向所辨识的所述人脸所在的方向。

18.根据权利要求11所述的人脸辨识装置，其特征在于，所述处理器包括执行相似度比对法，以计算所撷取的所述人脸的特征值与各所述群组识别的人脸的特征值之间的相似度，并判断所计算的所述相似度中的最大相似度是否大于门槛值，其中响应于所述最大相似度不大于所述门槛值，将所述人脸所属的群组识别新增至所述数据集；而响应于所述最大相似度大于所述门槛值，将所述人脸所属的群组识别更新为具有所述最大相似度的所述群组识别。

19.根据权利要求11所述的人脸辨识装置，其特征在于，所述处理器更利用所述收音装置检测所述声源的至少一特征，以判断所述声源是否为人声，并在判断为人声时，利用所述影像撷取装置撷取所述方向的影像，其中所述至少一特征包括发声时间间隔、连续发声长度及发声数据的收敛性。

20.根据权利要求11所述的人脸辨识装置，其特征在于，所述处理器包括获得所述比对结果的时间点与判断所述声源为人声的时间点之间的时间差，并判断所计算的所述时间差是否大于预设时间，而响应于所述时间差大于所述预设时间，判断所述时间点获得的所述影像与所述声源不具有对应关系。