CN114819110B

CN114819110B - 一种实时识别视频中说话人的方法及装置

Info

Publication number: CN114819110B
Application number: CN202210717252.0A
Authority: CN
Inventors: 黄敏; 林哲远; 朱世强; 宋伟; 王文; 金天磊
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-21
Anticipated expiration: 2042-06-23
Also published as: CN114819110A

Abstract

本发明公开了一种实时识别视频中说话人的方法及装置，该方法包括：获取同一时刻开始且连续的图像序列和音频序列；根据所述图像序列中最新一帧的图像，检测并跟踪人脸，更新已有的人脸序列信息库；将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库；根据所述说话状态数据库，获取所有人的当前状态，从而识别视频中的可能的说话人。

Description

一种实时识别视频中说话人的方法及装置

技术领域

本发明属于计算机视觉说话人检测领域，尤其涉及一种实时识别视频中说话人的方法及装置。

背景技术

说话人分类是指自动区分一段音频中出现的不同说话人，并将音频按照不同说话人分成对应的音频。但是对于某些多说话人的场景，说话人自动分类则很难准确，为此，引入基于图像序列和音频序列混合信息的识别方法。混合信息识别方法能够很大程度提升识别的精确度。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

与此同时，由于混合信息的引入，非常明显地增加了处理时间，不能适应一些需要教导实时性的场景，如，需要镜头实时对焦到当前说话人的场景。

发明内容

本申请实施例的目的是提供一种实时识别视频中说话人的方法及装置，以解决相关技术中存在的无法在实时性要求高的场景中应用的技术问题。

根据本申请实施例的第一方面，提供一种实时识别视频中说话人的方法，包括：

获取同一时刻开始且连续的图像序列和音频序列；

根据所述图像序列中最新一帧的图像，检测并跟踪人脸，更新已有的人脸序列信息库；

将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库；

根据所述说话状态数据库，获取所有人的当前状态，从而识别视频中的可能的说话人。

进一步地，获取同一时刻开始且连续的图像序列和音频序列，包括：

获取连续的图像序列和音频序列，其中所述图像序列中的所有图像和所述音频序列中的所有音频数据都带有时间戳；

对所述图像序列中的每帧图像，根据自身的时间戳，在所述音频序列中寻找与该帧图像同一时刻采集的音频数据，从而得到同一时刻开始且连续的图像序列和音频序列。

进一步地，根据所述图像序列中最新一帧的图像，检测并跟踪人脸，得到人脸序列信息库，包括：

若所述最新一帧的图像未进行人脸跟踪，则调用人脸检测跟踪算法，提取所述最新一帧的图像中人脸的ID信息和包围框信息；

根据所述人脸的ID信息和包围框信息，从所述最新一帧的图像中提取人脸图像；

将所述人脸的ID信息、人脸图像和当前时间戳结合为人脸跟踪信息；

将所述人脸跟踪信息加入到已有的人脸序列信息库中，以更新已有的人脸序列信息库。

进一步地，将所述人脸跟踪信息加入到已有的人脸序列信息库中，包括：

对所述人脸序列信息库中的每一个人脸序列信息，对比所述人脸序列信息和所述人脸跟踪信息；

若所述人脸序列信息和所述人脸跟踪信息中的ID信息相同且所述人脸跟踪信息中的时间与所述人脸序列信息中最新的时间只差小于预定的时间差阈值，则将所述人脸跟踪信息加入到所述人脸序列信息中；

若所述人脸跟踪信息不能加入所述人脸序列信息库中的任一人脸序列信息中，则在所述人脸序列信息库中新增一条人脸序列信息，将所述人脸跟踪信息加入新增的人脸序列信息中。

进一步地，将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库，包括：

对于所述人脸序列信息库中的每一条人脸序列信息，根据所述人脸序列信息中最新的人脸跟踪信息，判断所述人脸序列信息能否进行说话人状态检测；

若所述人脸序列信息能进行说话人状态检测，则根据所述人脸序列信息的时间戳序列，获取对应的音频序列；

将所述音频序列和所述人脸序列信息中的人脸图像序列输入说话人状态检测网络中，得到所述人脸序列信息对应的说话人的说话状态序列；

根据所述说话状态序列对应的说话人，将得到的所有说话状态序列更新到说话状态数据库中。

进一步地，根据所述人脸序列信息中最新的人脸跟踪信息，判断所述人脸序列信息能否进行说话人状态检测，包括：

若所述人脸序列信息的长度达到预定的数量阈值且所述人脸序列信息中在上一次说话状态检测之后有新增的数据，则所述人脸序列信息能进行说话人状态检测，反之则所述人脸序列信息不能进行说话人状态检测。

进一步地，根据所述说话状态数据库，获取所有说话人的当前状态，包括：

对于所述说话状态数据库中的每一条说话状态序列，获取所述说话状态序列中与当前时刻最接近的正在说话的说话时刻；

根据所述当前时刻、所述说话时刻和预先设定的衰减系数，计算所述说话状态序列对应的说话人的当前说话概率；

根据所述当前说话概率，判断所述说话人的当前状态，从而得到所有说话人的当前状态。

根据本申请实施例的第二方面，提供一种实时识别视频中说话人的装置，包括：

获取模块，用于获取同一时刻开始且连续的图像序列和音频序列；

跟踪模块，用于根据所述图像序列中最新一帧的图像，检测并跟踪人脸，更新已有的人脸序列信息库；

检测模块，用于将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库；

识别模块，用于根据所述说话状态数据库，获取所有说话人的当前状态，从而识别视频中的说话人。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的实时识别视频中说话人的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述的实时识别视频中说话人的方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请针对视频中说话人检测问题，通过将每个步骤之间的依赖性拆分，并行各步骤：将采集数据和处理数据分开，可以连续不间断采集视频和音频信息，不会造成任何数据丢失；跟踪和预处理人脸数据模块只需要进行人脸跟踪和预处理，根据图像帧自身特性及选择的跟踪算法特性，选择是否执行跳帧跟踪，保证输入数据不堆积，实现实时处理；将数据输入到识别网络进行说话人状态识别的时候，总是选取最新的帧序列，保留当前输入序列的所有识别结果到说话状态数据库；获取当前说话人状态程序独立运行，按照访问实际及历史状态，计算当前说话概率；选择合适的人脸跟踪检测算法和说话人检测算法，整个处理过程，数据不堆积，采集的数据都能能够及时被处理，获取状态延迟不超过3帧，基本能满足大多数对实时性检测要求性高的场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种实时识别视频中说话人的方法的流程图。

图2是根据一示例性实施例示出的步骤S11的流程图。

图3是根据一示例性实施例示出的步骤S12的流程图。

图4是根据一示例性实施例示出的步骤S35的流程图。

图5是根据一示例性实施例示出的步骤S13的流程图。

图6是根据一示例性实施例示出的步骤S14的流程图。

图7是根据一示例性实施例示出的说话人检测的实时性示意图。

图8是根据一示例性实施例示出的一种实时识别视频中说话人的装置的框图。

图9是根据一示例性实施例示出的一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种实时识别视频中说话人的方法的流程图，如图1所示，该方法可以包括以下步骤：

步骤S11：获取同一时刻开始且连续的图像序列和音频序列；

步骤S12：根据所述图像序列中最新一帧的图像，检测并跟踪人脸，更新已有的人脸序列信息库；

步骤S13：将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库；

步骤S14：根据所述说话状态数据库，获取所有人的当前状态，从而识别视频中的可能的说话人。

在本方法中，该四个并行步骤按上述顺序，相邻步骤之间有公共数据，作为上一个数据的输出端，和下一个步骤的输入端；该四个步骤相互独立运行，分别检查对应的输入端，如有新增数据，则运行程序，无增新数据，则休眠预设时间再次检查是否有新增数据；该四个步骤中，当有新增数据时，根据各自标准选取数据，运行程序。

在步骤S11的具体实施中，获取同一时刻开始且连续的图像序列和音频序列；

具体地，如图2所示，该步骤可以包括以下子步骤：

步骤S21：获取连续的图像序列和音频序列，其中所述图像序列中的所有图像和所述音频序列中的所有音频数据都带有时间戳；

在一个实施例中，使用同一台计算机，通过摄像头实时获取图像序列，帧率为每秒25帧，每帧图像都带有采集时刻的时间戳；同时从麦克风实时获取单通道音频序列，音频采样率每秒16000个采样点，每640个采样点为记为一帧音频，每秒为25帧音频数据，每帧音频数据带时间戳。

步骤S22：对所述图像序列中的每帧图像，根据自身的时间戳，在所述音频序列中寻找与该帧图像同一时刻采集的音频数据，从而得到同一时刻开始且连续的图像序列和音频序列。

具体地，图像序列实时保存到视频数据库，音频序列实时保存到音频数据库。计算每帧图像和每帧音频的时间差，时间戳误差最小的视频帧和音频认为同一时刻采集的，将图像帧和音频帧一一对应。

在本实施例中，记采集的视频数据为

,记音频数据库

,视频音频分别使用独立设备采集，所以其时间戳不可能完全对应上，在后续计算时候，寻找当前视频帧对应的音频帧，只需要满足

, 则认为该视频帧和音频帧为同一时刻采集的。

其中

为相邻两帧之间的时间，本实施例中，为20ms.(每秒25帧,两帧间隔40ms)

在步骤S12的具体实施中，根据所述图像序列中最新一帧的图像，检测并跟踪人脸，更新已有的人脸序列信息库；

具体地，如图3所示，此步骤可以包括以下子步骤：

步骤S31：若所述最新一帧的图像未进行人脸跟踪，则调用人脸检测跟踪算法，提取所述最新一帧的图像中人脸的ID信息和包围框信息；

具体地，从视频数据库中选取最新一帧，若该帧为新采集的数据，则在该帧上检测跟踪人脸，若该帧是之前跟踪过的，则等待一定时间从数据库中获取最新视频帧判断是否为新数据。在具体实施中，每次跟踪从视频数据库中选取最新一帧进行检测跟踪，如果此时，视频数据库中新增超过1帧，也直接选取最新一帧进行处理，以保证检测跟踪模块的实时性。选取未跟踪过的最新一帧之后，调用人脸检测跟踪算法，获取每一帧中人脸的Id信息和包围框信息，该信息一一对应，如下结构：

。在一实施例中，还可以先将所述最新一帧的图像转化为灰度图，再通过人脸检测跟踪算法提取灰度图中的人脸的ID信息和包围框信息。

步骤S32：根据所述人脸的ID信息和包围框信息，从所述灰度图中提取人脸图像；

步骤S33：将所述人脸的ID信息、人脸图像和当前时间戳结合为人脸跟踪信息；

具体地，将所有提取到人脸图像与人脸Id一一对应，并且将当前时刻信息也对应进来，信息结构如下:

。

步骤S34：将所述人脸跟踪信息加入到已有的人脸序列信息库中，以更新已有的人脸序列信息库；

具体地，如图4所示，步骤S35还可以包括以下子步骤：

步骤S41：对所述人脸序列信息库中的每一个人脸序列信息，对比所述人脸序列信息和所述人脸跟踪信息；

具体地，记来自当前图像帧其中一条人脸信息为

, 记其中一条来自人脸数据库的人脸序列信息为：

,对比一下两点：

;

;

其中

为所对比的人脸序列信息中最新的时间，

为时间差阈值，本事实例中，为0.5秒。

在具体实施中，由于各种原因，跟踪可能不能做到每帧都跟踪上，时间差阈值的设计是一种容错处理，如，视频采集时候有某一帧糊了，下一帧又跟踪上了，这种认为是同一个跟踪序列；或者跟踪算法本身比采集慢，一直在跳帧跟踪，所以设定一个时间差阈值。

步骤S42：若所述人脸序列信息和所述人脸跟踪信息中的ID信息相同且所述人脸跟踪信息中的时间与所述人脸序列信息中最新的时间只差小于预定的时间差阈值，则将所述人脸跟踪信息加入到所述人脸序列信息中；

具体地，假如上述两个条件都满足时，将当前人脸信息合并到数据库中该人脸序列，合并为

。

步骤S43：若所述人脸跟踪信息不能加入所述人脸序列信息库中的任一人脸序列信息中，则在所述人脸序列信息库中新增一条人脸序列信息，将所述人脸跟踪信息加入新增的人脸序列信息中。

具体地，假如当前帧其中一个人脸信息，与人脸序列数据库中所有信息都不能匹配上，则在人脸序列数据库中新增一条人脸序列信息，记为

。

在步骤S13的具体实施中，将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库；

具体地，如图5所示，此步骤可以包括以下子步骤：

步骤S51：对于所述人脸序列信息库中的每一条人脸序列信息，根据所述人脸序列信息中最新的人脸跟踪信息，判断所述人脸序列信息能否进行说话人状态检测；

具体地，若所述人脸序列信息的长度达到预定的数量阈值且所述人脸序列信息中在上一次说话状态检测之后有新增的数据，则所述人脸序列信息能进行说话人状态检测，反之则所述人脸序列信息不能进行说话人状态检测。

在一个示例性实施例中，循环遍历人脸序列数据库中每一条信息，执行以下步骤，记当前的人脸序列信息为

，判断：

为从上次识别之后的新增数据

其中

为数量阈值，当前人脸序列长度需要达到

才能进行说话人识别，本实施例中，该阈值为10。

若当前序列不满足上述任一条件，则从数据库中获取下一条人脸序列信息判断。这么设计是因为，如果没有新增，说明上次识别有效的，没有必要再次识别，而且序列需要一定长度才能够识别准确。

步骤S52：若所述人脸序列信息能进行说话人状态检测，则根据所述人脸序列信息的时间戳序列，获取对应的音频序列；

具体地，若同时满足上述两个条件，则根据当前人脸信息序列中的时间戳序列

从S101中的音频数据库中获取对应的音频序列。此处视频采集和音频采集是两种硬件设备，不可能完全同时开始，哪怕有些网络摄像头能同时采集，严格来说也不是完全同时，所以需要设定判断是否同一帧的准则，其中判断是否同一帧的方法在S11中有给出。

步骤S53：将所述音频序列和所述人脸序列信息中的人脸图像序列输入说话人状态检测网络中，得到所述人脸序列信息对应的说话人的说话状态序列；

具体地，假设获取的音频序列为

, 将音频序列和人脸图像序列输入到选取的网络中，获取序列的说话状态

, 每一个时刻对应一个说话状态。

在具体实施中，可以选取talkNet网络或ASDNet网络，将人脸图像序列和音频序列输入相应的神经网络之前需要根据选取的神经网络做预处理，本实施案例中选取talkNet网络，需要对音频序列计算MFCC特征，将该特征矩阵和对应的人脸序列输入网络中。

步骤S54：根据所述说话状态序列对应的说话人，将得到的所有说话状态序列更新到说话状态数据库中。

具体地，将说话状态更新到说话状态数据库

,在更新说话状态过程中，从当前说话人状态数据库，找到对应的faceId，更新状态序列到该状态信息，更新过程中，可以将当前检测序列结果全部更新到数据库对应的序列，如某一时刻

的状态已经在数据库中信息了，使用新的状态覆盖。

在步骤S14的具体实施中，根据所述说话状态数据库，获取所有人的当前状态，从而识别视频中的可能的说话人。

具体地，如图6所示，此步骤可以包括以下子步骤：

步骤S61：对于所述说话状态数据库中的每一条说话状态序列，获取所述说话状态序列中与当前时刻最接近的正在说话的说话时刻；

步骤S62：根据所述当前时刻、所述说话时刻和预先设定的衰减系数，计算所述说话状态序列对应的说话人的当前说话概率；

步骤S63：根据所述当前说话概率，判断所述说话人的当前状态，从而得到所有说话人的当前状态。

在步骤S61-步骤S63的具体实施中，获取某一faceId的当前时刻的t的说话状态，在说话人数据库中，获取该faceId所有的状态

，本实施案例中，原始检测的说话状态stat取0或1，stat取0表示不在说话，stat取1表示正在说话。输出结果为：

其中，t为当前访问说话人状态的时间，

是从状态序列

中从后往前搜索，第一个

的时刻，r为衰减系数，控制当前说话状态随时间衰减的速度，本实施例中r=2,由此可知，

，p表示当前说话的概率。

为了实现说话人检测的实时性，进行说话人检测时候，需要及时处理上游人脸序列数据库中的新增信息，做到整个系统数据不堆积，具体地，如图7所示：

对当前faceId的数据第i次识别时，假设，此时数据库中最新的人脸图像时间戳为

,则从当前时间

往回去长度为L的人脸序列，并取对应的音频序列，进行说话人识别，根据S13中，L需要大于

才能进行识别，又因为过长的序列影响识别速度，本实施案例中，还需要L小于一定数量，本实施例中取40。即：

。如序列长度不够，无法提取L长度的序列，则本次人脸不识别，进行下一个人脸的识别。

由于步骤S13中遍历了人脸序列数据库中的每一条信息，本实施案例循环对人脸序列数据库中的所有人脸信息进行识别。

当下一次循环到到该人脸时候，时刻为

，对该人脸数据进行第i+1次识别，则从当前最新时刻的数据开始往回提取L长度的序列进行说话人检测。

由此可以看出，每次对某一人脸序列数据进行识别时，总是从最新数据往前提取，保证了最新数据一直被识别到。新增数据不堆积，及时被处理，从而保证本实施例的实时性。

与前述的实时识别视频中说话人的方法的实施例相对应，本申请还提供了实时识别视频中说话人的装置的实施例。

图8是根据一示例性实施例示出的一种实时识别视频中说话人的装置框图。参照图8，该装置可以包括：

获取模块21，用于获取同一时刻开始且连续的图像序列和音频序列；

跟踪模块22，用于根据所述图像序列中最新一帧的图像，检测并跟踪人脸，更新已有的人脸序列信息库；

检测模块23，用于将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中，检测说话状态，更新说话状态数据库；

识别模块24，用于根据所述说话状态数据库，获取所有说话人的当前状态，从而识别视频中的说话人。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的实时识别视频中说话人的方法。如图9所示，为本发明实施例提供的实时识别视频中说话人的方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图9所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的实时识别视频中说话人的方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。