CN110660102A

CN110660102A - 基于人工智能的说话人识别方法及装置、系统

Info

Publication number: CN110660102A
Application number: CN201910833635.2A
Authority: CN
Inventors: 揭泽群; 葛政; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2020-01-07
Anticipated expiration: 2039-06-17
Also published as: US20210343042A1; CN110335313B; US11915447B2; EP3985610B1; US20240153137A1; WO2020253616A1; EP3985610A4; EP3985610C0; CN110660102B; CN110335313A; EP3985610A1

Abstract

本发明涉及图像处理技术领域，具体而言，涉及一种基于人工智能的说话人识别方法及装置、系统以及电子设备。所述识别方法包括：获取待检测图像并对其进行人脸识别处理以获取至少一个人脸坐标；识别待检测图像中的音频采集设备，以获取音频采集设备的第一坐标数据；根据音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据位移数据计算音频采集设备的精确坐标；计算精确坐标与所述至少一个人脸坐标之间的物间距离，并将具有最小物间距离的人脸坐标对应的对象作为说话人。本发明的技术方案在确定待检测图像中的人脸以及唯一的音频采集设备后，可结合历史坐标数据对音频采集设备坐标的正确性进行判断并优化，提升说话人识别的精确度。

Description

基于人工智能的说话人识别方法及装置、系统

本发明是申请日为2019年06月17日、申请号为201910523416.4、发明名称为“音频采集设备定位方法及装置、说话人识别方法及系统”的专利申请的分案申请。

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种基于人工智能的说话人识别方法、一种基于人工智能的说话人识别装置、一种基于人工智能的说话人识别系统以及一种电子设备。

背景技术

随着音频处理技术的快速发展，说话人识别技术被广泛应用在日常生活的各个领域中。在进行说话人识别时，往往需要对麦克风设备进行准确定位。

现有的麦克风检测技术中存在大量的基于深度学习的方法，但是深度学习的方法会将深度学习模型的输出结果直接作为最终的检测结果输出，从而导致容易出现漏检、检测位置偏移或者误检等情况；尤其在面对小目标的检测任务时，容易出现定位错误的情况。并且不易确定深度学习模型出现上述异常的根本原因。

鉴于此，本领域亟需开发一种新的说话人识别方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的实施例提供了一种基于人工智能的说话人识别方法、一种基于人工智能的说话人识别装置、一种说话人识别系统以及一种电子设备，进而至少在一定程度上可以快速、准确地识别音频采集设备的位置数据，从而对说话人进行准确识别。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种基于人工智能的说话人识别方法，包括：获取待检测图像，所述待检测图像包括音频采集设备，以及至少一个使用所述音频采集设备的说话人；对所述待检测图像进行人脸识别处理以获取至少一个人脸坐标；识别所述待检测图像中的所述音频采集设备，以获取所述音频采集设备的第一坐标数据；根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述音频采集设备的精确坐标；计算所述精确坐标与所述至少一个人脸坐标之间的物间距离，并将具有最小物间距离的人脸坐标对应的对象作为说话人。

根据本发明实施例的一个方面，提供了一种基于人工智能的说话人识别装置，包括：图像获取模块，用于获取待检测图像，所述待检测图像包括音频采集设备，以及至少一个使用所述音频采集设备的说话人；人脸识别模块，用于对所述待检测图像进行人脸识别处理以获取至少一个人脸坐标；设备识别模块，用于识别所述待检测图像中的音频采集设备，以获取所述音频采集设备的第一坐标数据；坐标计算模块，用于根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述待检测图像中音频采集设备的精确坐标；说话人确定模块，用于计算所述精确坐标与所述至少一个人脸坐标之间的物间距离，并将具有最小物间距离的人脸坐标对应的对象作为说话人。

在本发明的一些实施例中，基于前述方案，所述设备识别模块配置为：对所述待检测图像进行识别，以获取所述音频采集设备的一个或多个第一坐标数据。

在本发明的一些实施例中，基于前述方案，所述设备识别模块还包括：边缘检测单元，用于在获取所述音频采集设备的第一坐标数据为多个时，对所述待检测图像进行边缘检测，以获取下方设置有支架装置的识别目标；目标确认单元，将所述下方设置有支架装置的识别目标对应的坐标数据作为所述音频采集设备的第一坐标数据。

在本发明的一些实施例中，所述装置包括：历史坐标数据库，用于存储所述历史坐标数据；移动缓存坐标数据库，用于存储移动缓存坐标数据。

在本发明的一些实施例中，基于前述方案，所述坐标计算模块包括：历史坐标计算单元，用于对历史坐标数据库中各历史坐标进行加权平均计算以获取第一历史坐标数据；位移数据计算单元，用于将所述待检测图像中的所述音频采集设备的第一坐标数据与所述第一历史坐标数据进行对比以获取位移数据。

在本发明的一些实施例中，基于前述方案，所述坐标计算模块包括：第一判断单元，用于在所述位移数据小于第一阈值时，将所述待检测图像中的所述音频采集设备的第一坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；第一精确坐标确定单元，用于对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第二坐标值，并将所述第二坐标值作为所述音频采集设备的精确坐标；数据库清理模块，用于清空移动缓存坐标数据库。

在本发明的一些实施例中，所述待检测图像为第n帧待检测图像；基于前述方案，所述坐标计算模块包括：第二判断单元，用于在所述位移数据大于或等于第一阈值时，将所述第一坐标数据保存至移动缓存坐标数据库中以更新所述移动缓存坐标数据库；第二精确坐标确定单元，用于获取第n+1帧待检测图像中待检测目标的第二坐标数据；并将所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标或所述第一历史坐标数据进行对比，以根据对比结果确定所述n+1帧待检测图像中音频采集设备的精确坐标；其中，n为正整数。

在本发明的一些实施例中，基于前述方案，所述第二精确坐标确定单元包括：位置偏差数据计算单元，用于计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；第一历史坐标数据更新单元，用于在所述位置偏差数据小于第二阈值时，清空所述历史坐标数据库，并将所述移动缓存坐标数据库中的移动缓存坐标和第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；第三精确坐标确定单元，用于对更新后的所述历史坐标数据库各历史坐标进行加权平均计算以获取第三坐标，并将所述第三坐标作为所述音频采集设备的精确坐标。

在本发明的一些实施例中，基于前述方案，所述第二精确坐标确定单元包括：位置偏差数据计算单元，用于计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；位移数据计算单元，用于在所述位置偏差数据大于或等于第二阈值时，将所述第二坐标数据与所述第一历史坐标数据进行对比以计算位移数据；第二历史坐标数据更新单元，用于在所述位移数据小于第一阈值时，将所述第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；第四精确坐标确定单元，用于对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第四坐标值，并将所述第四坐标值作为所述音频采集设备的精确坐标；数据库清理单元，用于清空所述移动缓存坐标数据库。

在本发明的一些实施例中，将所述第一坐标数据保存至移动缓存坐标数据库中以更新所述移动缓存坐标数据库时，基于前述方案，所述坐标计算模块包括：待检测图像精确坐标配置单元，用于将所述第一历史坐标数据配置为所述待检测图像中音频采集设备的精确坐标。

在本发明的一些实施例中，所述装置还包括：第一无目标处理模块，用于在连续n帧的所述待检测图像中未检测到音频采集设备，且n小于第三阈值时，则将所述历史坐标数据库各历史坐标进行加权平均计算以获取第五坐标，并将所述第五坐标作为所述待检测图像中音频采集设备的精确坐标；其中，n为正整数。

在本发明的一些实施例中，所述装置还包括：第二无目标处理模块，用于在连续n帧的所述待检测图像中未检测到所述音频采集设备，且n大于或等于第三阈值时，则生成所述待检测图像中不存在所述音频采集设备的报警信息；其中，n为正整数。

根据本发明实施例的一个方面，提供了一种基于人工智能的说话人识别系统，包括：

摄像设备，用于获取待检测图像；

电子设备，与所述摄像设备连接，并且所述电子设备包括存储装置和处理器，其中所述存储装置用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如上述实施例所述的说话人识别方法，以对所述待处理图像进行处理，获取说话人对象。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的说话人识别方法。

在本发明的一些实施例所提供的技术方案中，在获取待检测图像后，首先对待检测图像进行图像识别，以获取当前待检测图像中的至少一个人脸坐标，以及音频采集设备的第一坐标数据；再根据第一坐标数据与历史坐标数据进行对比计算位移数据，从而根据位移数据来确定待检测图像中音频采集设备最终的精确坐标；进而可以根据音频采集设备的精确坐标与人脸坐标来准确判断当前图像中的说话人。本发明的技术方案一方面能够利用图像识别技术准确的确定待检测图像中的唯一的音频采集设备，避免待检测图像中出现多个目标的错误，并能够结合历史坐标数据对第一坐标数据的正确性作出判断，并对坐标数据进行优化，进一步的提高音频采集设备坐标数据的精确度；另一方面，能够将精确的音频采集设备的坐标与人脸坐标相结合，实现对说话人进行准确的判断。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本发明的一个实施例的音频采集设备定位方法的流程示意图；

图3示意性示出了根据本发明的一个实施例的对待检测图像进行识别的流程示意图；

图4示意性示出了根据本发明的一个实施例的包含一个音频采集设备的待检测图像的检测结果示意图；

图5示意性示出了根据本发明的一个实施例的包含多个音频采集设备的待检测图像的检测结果示意图；

图6示意性示出了根据本发明的一个实施例的音频采集设备定位方法的流程示意图；

图7示意性示出了根据本发明的一个实施例的说话人识别方法的流程示意图；

图8示意性示出了根据本发明的一个实施例的包含人脸识别结果和音频采集设备识别结果的检测结果示意图；

图9示意性示出了根据本发明的一个实施例的音频采集设备定位装置的框图；

图10示意性示出了根据本发明的一个实施例的说话人识别系统的架构的示意图；

图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机、照相机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本发明的一个实施例中，用户可以利用终端设备101(也可以是终端设备102或103)获取待检测图像，然后将待检测图像发送至服务器105；服务器105在接收到终端设备101发送的待检测图像后，能够对待检测图像进行图像识别，识别待检测图像中的音频采集设备，并获取所述音频采集设备的第一坐标数据；然后根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述待检测图像中音频采集设备的精确坐标。本发明实施例的技术方案一方面能够利用图像识别技术准确的确定待检测图像中唯一的音频采集设备，避免待检测图像中出现多个目标的错误；另一方面，能够结合历史坐标数据对第一坐标数据的正确性作出判断，并对坐标数据进行优化，进一步的提高音频采集设备坐标数据的精确度。

需要说明的是，本发明实施例所提供的音频采集设备定位方法一般由服务器105执行，相应地，音频采集设备定位装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本发明实施例所提供的音频采集设备定位方法。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

近年来，各种样式的基于人工智能的相关算法被应用于计算机视觉技术中，从传统的机器学习到目前的深度学习。对于麦克风检测、说话人识别领域来说，计算机识别技术也同样有着广泛的应用。

但是相关技术存在相应的缺陷，主要体现在以下两方面：(1)深度学习需要大量带标注的样本来达到较好的性能，样本搜集和标注都需要非常大量的成本投入；(2)现有的基于深度学习的麦克风检测方法的准确度不高，尤其在面对小目标定位任务或复杂环境时，容易出现漏检、检测位置偏移以及误检等问题。并且很难确定深度学习模型出现上述异常的原因。

鉴于相关技术中存在的问题，本发明实施例首先提出了一种音频采集设备定位方法，以下对本发明实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本发明的一个实施例的用于麦克风识别的音频采集设备定位方法的流程图，该定位方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该音频采集设备定位方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取待检测图像。

在本发明的一个实施例中，可以通过终端设备101(也可以是终端设备102或103)获取待检测图像。具体地，终端设备101可以是相机或录像机等设备，或者可以通过终端设备101内置的拍摄单元或与终端设备101外部连接的拍摄装置进行拍照或录像，以获取每一帧的待检测图像；也可以将终端设备101与数据网络连接，通过浏览、下载网络资源或本地数据库资源以获取视频数据或图像数据，进而获取每一帧的待检测图像；本发明实施例对获取待检测图像的具体方式不做限定。

在步骤S220中，识别所述待检测图像中的音频采集设备，以获取所述音频采集设备的第一坐标数据。

在本发明的一个实施例中，上述的音频采集设备可以是每一帧待检测图像中的话筒、麦克风，或者手机等具有音频采集、音频放大功能的音频采集设备，本发明的各实施例以音频采集设备为麦克风进行举例说明。在本发明的实施例中，在获得待检测图像后，可以通过预先训练的目标识别模型对该待检测图像进行特征提取，进而根据提取到的特征信息对音频采集设备进行识别和定位，进而获取音频采集设备的坐标数据。在本发明的实施例中，可以将待检测图像输入至目标识别模型，以对该待检测图像进行识别，该目标识别模型可以为一机器学习模型，其具体地可以是卷积神经网络(CNN)模型、循环神经网络(RNN)模型、快速区域卷积神经网络(Faster RCNN)模型等，本发明实施例对此不做具体限定。

在本发明的一个实施例中，图3示出了利用目标识别模型对待检测图像进行识别的流程示意图，以基于Faster RCNN网络的目标识别模型为例，如图3所示：在步骤S301中，对所述待检测图像进行卷积处理以获取特征图；输入模型的待检测图像可以是任意大小的图片，利用卷积层提取待检测图像的特征图。在步骤S302中，对所述特征图中各特征点进行分类以确定候选区域；主要利用RPN网络生成候选区域(region proposals)；可以在上述获取的特征图上生成一定数量的锚框(Anchor Boxes)，并对锚(anchors)属于前景或者后景进行判断，同时对锚框进行修正，从而获取相对精确的候选区域。在步骤S303中，对所述候选区域进行池化处理以获取候选特征图；利用RPN网络生成的候选区域和特征图，得到固定大小的候选特征图。在步骤S304中，对所述候选特征图进行全连接处理以获取音频采集设备的位置数据；对池化层形成的固定大小的候选特征图进行全连接操作，并做具体类别的分类，同时进行回归操作获得待检测图像中音频采集设备的精确位置。

在本发明的一个实施例中，在将待检测图像输入目标识别模型进行音频采集设备的识别操作后，目标识别模型可能返回一个麦克风坐标，或多个麦克风坐标；该麦克风坐标可以是麦克风设备中心位置对应的中心坐标。若待检测图像中仅识别出一个麦克风目标，并返回唯一的第一坐标数据，如图4所示的一帧待检测图像中，仅包含一个识别框410，在这一帧待检测图像中仅识别出一个麦克风目标，则直接对该第一坐标数据执行后续操作。在本发明的实施例中，若待检测图像中识别出多个麦克风目标，并返回多个麦克风坐标，如图5所示的一帧待检测图像中，包含有两个识别结果：识别框510、识别框520，在这一帧待检测图像中识别出两个麦克风目标，其中仅有一个麦克风目标是正确的麦克风，其他的麦克风目标为误检；如图6所示的流程图，则可以对待检测图像进行边缘检测，识别待检测图像中用于支撑麦克风目标的支架装置。具体的，支架装置可以是麦克风支架；通过提取待检测图像中的边缘信息，可以获取麦克风支架的坐标信息，然后判断上述识别出的多个麦克风目标下方是否有检测到麦克风支架的边缘信息，从而在多个麦克风目标中将下方设置有麦克风支架的麦克风目标确认为唯一正确的麦克风设备。

在步骤S230中，根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述待检测图像中音频采集设备的精确坐标。

在本发明的一个实施例中，可以预先配置历史坐标数据库和移动缓存坐标数据库；其中，历史坐标数据库可以用于存储历史各帧待检测图像中音频采集设备的精确坐标数据，即麦克风在发生“事实移动”前的所有位置记录；移动缓存坐标数据库可以用于存储当前待检测图像中的待检测目标对应的移动缓存坐标，及麦克风“可能移动”的位置记录。

在本发明的一个实施例中，在获取音频采集设备的唯一的第一坐标数据后，便可以对该第一坐标数据进行精确修正。具体的，若当前的待检测图像为第n帧待检测图像时，前序的第m帧、第m+1帧……第n-1帧待检测图像，共M帧待检测图像的精确的历史坐标便可以存储在历史坐标数据库中，其中，m≥1，n≥1，n、m、M均为正整数。在本发明的实施例中，可以根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，首先，对历史坐标数据库中各历史坐标进行加权平均计算以获取第一历史坐标数据；其次，将所述待检测图像中的音频采集设备的第一坐标数据与所述第一历史坐标数据进行对比以获取位移数据；例如可以在同一坐标系中，通过计算第一坐标数据与第一历史坐标数据之间在横轴和纵轴上的差值，来获取位移数据。

在本发明的一个实施例中，在当前的待检测图像为第n帧待检测图像时，在获取位移数据后，便可以将该位移数据与预设的第一阈值进行对比，如图6所示，首先，在所述位移数据小于第一阈值时，将所述待检测图像中的音频采集设备的第一坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库。其次，对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第二坐标值，并将所述第二坐标值作为所述音频采集设备的精确坐标；以及清空所述移动缓存坐标数据库。具体的，在位移数据小于第一阈值时，则说明第n帧待检测图像中麦克风位置与历史位置相近，例如第一坐标数据与第一历史坐标数据之间在横轴和纵轴的坐标差值小于50个像素点，则认为麦克风未发生移动。便将第一坐标数据保存至历史坐标数据库中，从而对历史坐标数据库进行更新，再对更新后的历史坐标数据库中的各历史坐标数据进行加权平均计算，并将计算结果作为第n帧待检测图像中音频采集设备的精确坐标。同时，还可以对移动缓存数据库进行清空处理，删除其中的移动缓存坐标数据。

在本发明的一个实施例中，在当前的待检测图像为第n帧待检测图像时，在将位移数据与预设的第一阈值进行对比时，如图6所示，首先，在所述位移数据大于或等于第一阈值时，将所述第一坐标数据保存至移动缓存坐标数据库中以更新所述移动缓存坐标数据库。其次，获取第n+1帧待检测图像中待检测目标的第二坐标数据；再次，将所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标或所述第一历史坐标数据进行对比，以根据对比结果确定所述n+1帧待检测图像中音频采集设备的精确坐标。在位移数据大于或等于预设的第一阈值时，则说明第n帧待检测图像的位置与历史位置偏差较大，第n帧待检测图像中麦克风发生“可能移动”，此时将第n帧待检测图像的第一坐标数据保存至移动缓存坐标数据库以更新所述移动缓存坐标数据库。同时，可以将第一历史坐标数据配置为第n帧待检测图像中待识别目标的精确坐标，以保证对待检测图像进行目标识别的连续性。然后，可以获取第n+1帧待检测图像，并获取第n+1帧待检测图像中待识别目标的第二坐标数据，并将该第二坐标数据首先与更新后的移动缓存坐标数据中的移动缓存坐标进行对比，然后再根据对比结果判断是否需要与第一历史坐标数据进行对比，从而判断移动缓存坐标的正确性，和确定第n+1帧待检测图像对应的第二坐标数据。

在本发明的一个实施例中，在将第二坐标数据与更新后的移动缓存坐标数据中的移动缓存坐标进行对比时，首先，计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；其次，在所述位置偏差数据小于第二阈值时，清空所述历史坐标数据库，并将所述移动缓存坐标数据库中的移动缓存坐标和第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；再次，对更新后的所述历史坐标数据库各历史坐标进行加权平均计算以获取第三坐标，并将所述第三坐标作为所述音频采集设备的精确坐标。

在位置偏差数小于预设的第二阈值时，具体地，例如在第二坐标数据与移动缓存坐标在同一坐标系下横轴和纵轴之间的坐标差值均小于50个像素点时，表明第n+1帧待检测图像中的待识别目标与第n帧待检测图像中待识别目标的位置接近，则认为第n帧发生了“事实移动”，便可以将历史坐标数据库清空，并将第二坐标数据与移动缓存坐标数据保存至历史坐标数据库中，完成对历史坐标数据库的更新，此时历史坐标数据库中即保存了第n帧、第n+1帧待检测图像中待识别目标的第一坐标数据。然后可以对更新后的历史坐标数据库中的历史坐标数据进行加权平均计算，并将计算结果作为第n+1帧待检测图像中待识别目标的精确坐标。

在本发明的一个实施例中，在将第二坐标数据与更新后的移动缓存坐标数据中的移动缓存坐标进行对比时，首先，计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；其次，在所述位置偏差数据大于或等于第二阈值时，将所述第二坐标数据与所述第一历史坐标数据进行对比以计算位移数据；再次，在所述位移数据小于第一阈值时，将所述第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；然后，对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第四坐标值，并将所述第四坐标值作为所述音频采集设备的精确坐标；以及清空所述移动缓存坐标数据库。

在位置偏差数大于或等于预设的第二阈值时，具体地，例如在第二坐标数据与移动缓存坐标在同一坐标系下横轴和纵轴之间的坐标差值均大于50个像素点时，计算第二坐标数据与第一历史坐标数据之间的位移数据；若该位移数据小于预设的第一阈值，则说明第n+1帧待检测图像中的待识别目标与历史坐标数据库中的各坐标位置接近，且第n帧待检测图像发生了扰动，便可以将第二坐标数据保存至历史坐标数据库中，对历史坐标数据库进行更新，以及情况移动缓存坐标数据数据库中的坐标数据；对更新后的历史坐标数据库中的各历史坐标数据进行加权平均计算，并将计算结果作为第n+1帧待检测图像中待识别目标的精确坐标。

在本发明的一个实施例中，在第n帧待检测图像对应的第一坐标数据与第一历史坐标数据进行对比，位移数据大于或等于第一阈值时，还可以将第n+1帧待检测图像对应的第二坐标数据先与第一历史坐标数据进行对比，判断是否小于第一阈值；若小于第一阈值，则说明第n帧待检测图像出现扰动，将第n+1帧待检测图像对应的第二坐标数据保存至历史坐标数据库，并利用更新后的历史坐标数据库计算第n+1帧待检测图像的精确坐标。若第二坐标数据与第一历史坐标数据的对比结果大于或等于第一阈值，再将第二坐标数据与移动缓存坐标数据库中的缓存坐标数据进行对比并进行后续的判断。

在本发明的一个实施例中，还可以配置历史坐标数据库与移动缓存坐标数据库中的数据容量。具体的，例如配置历史坐标数据库中最多可以存储300或500个历史坐标数据。在历史坐标数据库中历史坐标数量达到上限时，若有新的坐标需要保存至历史坐标数据中，便可以将排序靠前的一个或多个历史坐标删除，例如10、50或100个坐标数据，或按一定的时间周期清空历史坐标数据库，从而使得坐标数据可以正常的存储在历史坐标数据库中。对于移动缓存坐标数据库，可以配置其至多存储2个或3个移动缓存坐标，从而可以快速、准确的处理每一帧出现扰动的待检测图像，避免缓存数据堆积造成的后续待检测图像中待识别目标精确坐标的计算出现较大的误差或错误。

在本发明的一个实施例中，在当前帧的待检测图像中未检测到音频采集设备时，为了保证对待检测图像进行目标识别的连续性，便可以将历史坐标数据库各历史坐标进行加权平均计算以获取第五坐标，并将该第五坐标作为所述待检测图像中音频采集设备的精确坐标。

在本发明的一个实施例中，在连续n帧的所述待检测图像中均未检测到音频采集设备，且n小于第三阈值时，则将所述历史坐标数据库各历史坐标进行加权平均计算以获取第五坐标，并将所述第五坐标作为所述待检测图像中音频采集设备的精确坐标；其中，n为正整数。具体的，若连续的两帧或三帧待检测图像中均未识别出音频采集设备，则将历史坐标数据库各历史坐标进行加权平均计算以获取第五坐标，并将该第五坐标作为该连续三帧待检测图像中音频采集设备的精确坐标。

在本发明的一个实施例中，在连续n帧的所述待检测图像中未检测到音频采集设备，且n大于或等于第三阈值时，则生成所述待检测图像中不存在音频采集设备的报警信息；其中，n为正整数。具体的，若连续五帧或六帧待检测图像中未识别出待识别目标时，则认为待检测图像中不存在待识别目标，便可以发出报警信息对用户进行提示，并暂时结束对待检测图像的目标定位。

本发明实施例中的目标方法可以应用于说话人识别等产品中，用于对环境中麦克风设备进行实时的检测、定位。还可以应用于其他的需要对特定目标进行识别的场景中。

根据本发明实施例中的音频采集设备定位方法，在利用图像识别技术确定音频采集设备的唯一的一个第一坐标数据后，可以结合音频采集设备的历史坐标数据对第一坐标数据进行判断和确认，从而提高对待识别目标对应坐标数据的精确度和准确度，避免出现漏检、误检或位置偏移的情况。

图7示意性示出了根据本发明的一个实施例的说话人识别方法的流程图，该识别方法可以由服务器来执行，例如图1中所示的服务器；或者，该识别方法也可以由终端设备来执行，例如图1中所示的终端设备。参照图7所示，该说话人识别方法至少包括步骤S710至步骤S740，详细介绍如下：

在步骤S710中，通过摄像设备获取待检测图像。

在本发明的一个实施例中，可以通过摄像设备获取待检测图像。具体地，摄像设备可以是摄像机、数码相机或监视器等设备，或者也可以是终端设备内置的拍摄单元或终端设备外接的拍摄单元等设备。利用摄像设备对包含音频采集设备(例如麦克风)的环境进行拍照或者录像，进而获取每一帧的待检测图像。

在步骤S720中，对所述待检测图像进行人脸识别处理以获取至少一个人脸坐标。

在本发明的一个实施例中，在获得待检测图像后，可以利用人脸识别模型对待检测图像进行人脸识别，获取待检测图像中的一个或多个人脸目标，并将各人脸目标中心点的坐标作为各自的人脸坐标。具体的，如图7所示的场景对应的一帧待检测图像中，在人脸识别后去确定当前帧待检测图像中包含3个人脸目标(目标711、目标712和目标713)，并可以将各人脸的中心点坐标作为各人脸目标在当前帧待检测图像中的人脸坐标。

在步骤S730中，对所述待检测图像执行所述的音频采集设备定位方法以获取音频采集设备的精确坐标。

在本发明的一个实施例中，在对待检测图像进行人脸识别的同时，还可以利用上述的音频设备定位方法对待检测图像中的麦克风进行识别，从而获取当前帧的待检测图像中麦克风的坐标数据。具体地，如图8所示的场景中包含麦克风设备721，可以将麦克风设备721的中心点坐标作为麦克风的精确坐标。对待检测图像进行识别以获取待检测图像中音频设备的精确坐标数据的详细过程已经在上述的实施例中详细说明，本实施例不再赘述。

在步骤S740中，计算所述精确坐标与所述至少一个人脸坐标之间的物间距离，并将具有最小物间距离的人脸坐标对应的对象作为说话人。

在本发明的一个实施例中，在获取当前帧中麦克风设备的精准坐标，以及人脸坐标数据后，便可以计算麦克风设备与各人脸之间的物间距离，并且将物间距离最小的对象确定为说话人。具体地，如图8中所示的场景下，经计算后，麦克风设备721与人脸目标713之间的距离最小，便可以将人脸目标713对应的对象确定为说话人。

根据本发明实施例中的说话人识别方法，可以对待检测图像中的麦克风设备和人脸进行识别和定位，确定图像中麦克风设备与各人脸之间的位置关系，进而可以视觉角度上有效的辅助进行说话人的定位。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中用于麦克风设备识别的音频采集设备定位方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的音频采集设备定位方法的实施例。

图9示意性示出了根据本发明的一个实施例的音频采集设备定位装置的框图。

参照图9所示，根据本发明的一个实施例的目标装置900，包括：图像获取模块901、图像识别模块902和坐标计算模块903。

其中，图像获取模块901，用于获取待检测图像；图像识别模块902，用于识别所述待检测图像中的音频采集设备，以获取所述音频采集设备的第一坐标数据；坐标计算模块903，用于根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述待检测图像中音频采集设备的精确坐标。

在本发明的一个实施例中，所述图像识别模块901配置为：对所述待检测图像进行识别，以获取所述音频采集设备的一个或多个第一坐标数据。

在本发明的一个实施例中，所述图像识别模块901还包括：边缘检测单元，用于对所述待检测图像进行边缘检测，以获取下方设置有支架装置的识别目标；目标确认单元，将所述下方设置有支架装置的识别目标对应的坐标数据作为所述音频采集设备的第一坐标数据。

在本发明的一个实施例中，所述装置900包括：历史坐标数据库，用于存储所述历史坐标数据；移动缓存坐标数据库，用于存储移动缓存坐标数据的。

在本发明的一个实施例中，所述坐标计算模块903包括：历史坐标计算单元，用于对历史坐标数据库中各历史坐标进行加权平均计算以获取第一历史坐标数据；位移数据计算单元，用于将所述待检测图像中的音频采集设备的第一坐标数据与所述第一历史坐标数据进行对比以获取位移数据。

在本发明的一个实施例中，所述坐标计算模块903包括：第一判断单元，用于在所述位移数据小于第一阈值时，将所述待检测图像中的音频采集设备的第一坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；第一精确坐标确定单元，用于对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第二坐标值，并将所述第二坐标值作为所述音频采集设备的精确坐标；数据库清理模块，用于清空所述移动缓存坐标数据库。

在本发明的一个实施例中，所述待检测图像为第n帧待检测图像；所述坐标计算模块903还包括：第二判断单元，用于在所述位移数据大于或等于第一阈值时，将所述第一坐标数据保存至移动缓存坐标数据库中以更新所述移动缓存坐标数据库；第二精确坐标确定单元，用于获取第n+1帧待检测图像中待检测目标的第二坐标数据；并将所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标或所述第一历史坐标数据进行对比，以根据对比结果确定所述n+1帧待检测图像中音频采集设备的精确坐标；其中，n为正整数。

在本发明的一个实施例中，所述第二精确坐标确定单元包括：位置偏差数据计算单元，用于计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；第一历史坐标数据更新单元，用于在所述位置偏差数据小于第二阈值时，清空所述历史坐标数据库，并将所述移动缓存坐标数据库中的移动缓存坐标和第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；第三精确坐标确定单元，用于对更新后的所述历史坐标数据库各历史坐标进行加权平均计算以获取第三坐标，并将所述第三坐标作为所述音频采集设备的精确坐标。

在本发明的一个实施例中，所述第二精确坐标确定单元包括：位置偏差数据计算单元，用于计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；位移数据计算单元，用于在所述位置偏差数据大于或等于第二阈值时，将所述第二坐标数据与所述第一历史坐标数据进行对比以计算位移数据；第二历史坐标数据更新单元，用于在所述位移数据小于第一阈值时，将所述第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；第四精确坐标确定单元，用于对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第四坐标值，并将所述第四坐标值作为所述音频采集设备的精确坐标；数据库清理单元，用于清空所述移动缓存坐标数据库。

在本发明的一个实施例中，将所述第一坐标数据保存至移动缓存坐标数据库中以更新所述移动缓存坐标数据库时，所述坐标计算模块903还包括：待检测图像精确坐标配置单元，用于将所述第一历史坐标数据配置为所述待检测图像中音频采集设备的精确坐标。

在本发明的一个实施例中，所述装置900还包括：第一无目标处理模块，用于在连续n帧的所述待检测图像中未检测到音频采集设备，且n小于第三阈值时，则将所述历史坐标数据库各历史坐标进行加权平均计算以获取第五坐标，并将所述第五坐标作为所述待检测图像中音频采集设备的精确坐标；其中，n为正整数。

在本发明的一个实施例中，所述装置900还包括：第二无目标处理模块，用于在连续n帧的所述待检测图像中未检测到音频采集设备，且n大于或等于第三阈值时，则生成所述待检测图像中不存在音频采集设备的报警信息；其中，n为正整数。

在本发明的一些实施例中，所述图像识别模块902包括：卷积处理单元，用于对所述待检测图像进行卷积处理以获取特征图；特征图处理单元，用于对所述特征图中各特征点进行分类以确定候选区域；池化处理单元，用于对所述候选区域进行池化处理以获取候选特征图；全连接处理单元，用于对所述候选特征图进行全连接处理以获取音频采集设备的位置数据。

图10示意性示出了根据本发明的一个实施例的说话人识别系统的框图。参照图10所示，根据本发明的一个实施例的识别系统1000，包括：摄像设备1001，电子设备1002。

其中，摄像设备1001，用于获取待检测图像；电子设备1002，与所述摄像设备连接，并且所述电子设备包括存储装置和处理器，其中所述存储装置用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如上述实施例中所述的说话人识别方法，以对所述待处理图像进行处理，获取说话人对象。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1702中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于人工智能的说话人识别方法，其特征在于，包括：

获取待检测图像，所述待检测图像包括音频采集设备，以及至少一个使用所述音频采集设备的说话人；

对所述待检测图像进行人脸识别处理以获取至少一个人脸坐标；

识别所述待检测图像中的所述音频采集设备，以获取所述音频采集设备的第一坐标数据；

根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述音频采集设备的精确坐标；

计算所述精确坐标与所述至少一个人脸坐标之间的物间距离，并将具有最小物间距离的人脸坐标对应的对象作为说话人。

2.根据权利要求1所述的基于人工智能的说话人识别方法，其特征在于，识别所述待检测图像中的所述音频采集设备，以获取所述音频采集设备的第一坐标数据，包括：

对所述待检测图像进行识别，以获取所述音频采集设备的一个或多个第一坐标数据。

3.根据权利要求2所述的基于人工智能的说话人识别方法，其特征在于，在获取所述音频采集设备的第一坐标数据为多个时，所述方法还包括：

对所述待检测图像进行边缘检测，以获取下方设置有支架装置的识别目标；

将所述下方设置有支架装置的识别目标对应的坐标数据作为所述音频采集设备的第一坐标数据。

4.根据权利要求1所述的基于人工智能的说话人识别方法，其特征在于，根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，包括：

对预设的历史坐标数据库中各历史坐标进行加权平均计算以获取第一历史坐标数据；

将所述待检测图像中的所述音频采集设备的第一坐标数据与所述第一历史坐标数据进行对比以获取位移数据。

5.根据权利要求4所述的基于人工智能的说话人识别方法，其特征在于，根据所述位移数据计算所述待检测图像中所述音频采集设备的精确坐标，包括：

在所述位移数据小于第一阈值时，将所述待检测图像中的所述音频采集设备的第一坐标数据保存至所述历史坐标数据库，以更新所述历史坐标数据库；

对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第二坐标值，并将所述第二坐标值作为所述音频采集设备的精确坐标；以及

清空移动缓存坐标数据库。

6.根据权利要求4所述的基于人工智能的说话人识别方法，其特征在于，所述待检测图像为第n帧待检测图像；

根据所述位移数据计算所述待检测图像中所述音频采集设备的精确坐标，包括：

在所述位移数据大于或等于第一阈值时，将所述第一坐标数据保存至预设的移动缓存坐标数据库中以更新所述移动缓存坐标数据库；

获取第n+1帧待检测图像中待检测目标的第二坐标数据；

将所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标或所述第一历史坐标数据进行对比，以根据对比结果确定所述n+1帧待检测图像中音频采集设备的精确坐标；其中，n为正整数。

7.根据权利要求6所述的基于人工智能的说话人识别方法，其特征在于，将所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标或所述第一历史坐标数据进行对比，以根据对比结果确定所述n+1帧待检测图像中音频采集设备的精确坐标，包括：

计算所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标之间的位置偏差数据，并将所述位置偏差数据与第二阈值进行对比；

在所述位置偏差数据小于第二阈值时，清空所述历史坐标数据库，并将所述移动缓存坐标数据库中的移动缓存坐标和第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；

对更新后的所述历史坐标数据库各历史坐标进行加权平均计算以获取第三坐标，并将所述第三坐标作为所述音频采集设备的精确坐标。

8.根据权利要求6所述的基于人工智能的说话人识别方法，其特征在于，将所述第二坐标数据与所述移动缓存坐标数据库中的移动缓存坐标或所述第一历史坐标数据进行对比，以根据对比结果确定所述n+1帧待检测图像中音频采集设备的精确坐标，包括：

在所述位置偏差数据大于或等于第二阈值时，将所述第二坐标数据与所述第一历史坐标数据进行对比以计算位移数据；

在所述位移数据小于第一阈值时，将所述第二坐标数据保存至所述历史坐标数据库以更新所述历史坐标数据库；

对更新后的所述历史坐标数据库中各历史坐标进行加权平均计算以获取第四坐标值，并将所述第四坐标值作为所述音频采集设备的精确坐标；以及

清空所述移动缓存坐标数据库。

9.根据权利要求6所述的基于人工智能的说话人识别方法，其特征在于，将所述第一坐标数据保存至移动缓存坐标数据库中以更新所述移动缓存坐标数据库时，所述方法还包括：

将所述第一历史坐标数据配置为所述待检测图像中音频采集设备的精确坐标。

10.根据权利要求1所述的基于人工智能的说话人识别方法，其特征在于，对所述待检测图像进行识别时，所述方法还包括：

在连续n帧的所述待检测图像中未检测到所述音频采集设备，且n小于第三阈值时，则将所述历史坐标数据库各历史坐标进行加权平均计算以获取第五坐标，并将所述第五坐标作为所述待检测图像中所述音频采集设备的精确坐标；其中，n为正整数。

11.根据权利要求1所述的基于人工智能的说话人识别方法，其特征在于，对所述待检测图像进行识别时，所述方法还包括：

在连续n帧的所述待检测图像中未检测到所述音频采集设备，且n大于或等于第三阈值时，则生成所述待检测图像中不存在所述音频采集设备的报警信息；其中，n为正整数。

12.一种基于人工智能的说话人识别装置，其特征在于，包括：

图像获取模块，用于获取待检测图像，所述待检测图像包括音频采集设备，以及至少一个使用所述音频采集设备的说话人；

人脸识别模块，用于对所述待检测图像进行人脸识别处理以获取至少一个人脸坐标；

设备识别模块，用于识别所述待检测图像中的音频采集设备，以获取所述音频采集设备的第一坐标数据；

坐标计算模块，用于根据所述音频采集设备的第一坐标数据与历史坐标数据计算位移数据，以根据所述位移数据计算所述待检测图像中音频采集设备的精确坐标；

说话人确定模块，用于计算所述精确坐标与所述至少一个人脸坐标之间的物间距离，并将具有最小物间距离的人脸坐标对应的对象作为说话人。

13.一种基于人工智能的说话人识别系统，其特征在于，包括：

摄像设备，用于获取待检测图像；

电子设备，与所述摄像设备连接，并且所述电子设备包括存储装置和处理器，其中所述存储装置用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1-11中所述的基于人工智能的说话人识别方法，以对所述待处理图像进行处理，获取说话人对象。