CN110517295A

CN110517295A - 一种结合语音识别的实时人脸轨迹跟踪方法及装置

Info

Publication number: CN110517295A
Application number: CN201910818913.7A
Authority: CN
Inventors: 汪俊; 李索恒; 张志齐
Original assignee: Shanghai Yitu Information Technology Co Ltd
Current assignee: Shanghai Yitu Information Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29

Abstract

本发明涉及通信技术领域，特别涉及一种结合语音识别的实时人脸轨迹跟踪方法及装置。该方法为：将第二时段采集的音频信号进行语音识别，确定第三说话对象及所述第三说话对象对应的音频帧；在确定所述第三说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。

Description

一种结合语音识别的实时人脸轨迹跟踪方法及装置

技术领域

本发明涉及通信技术领域，特别涉及一种结合语音识别的实时人脸轨迹跟踪方法及装置。

背景技术

当今社会中，出于安防管理的需要，监控设备布满了街道、社区、楼宇等各种公共场合。在发生警情时，警务人员利用监控摄像搜捕嫌疑人。

然而随着监控网络规模的扩大，视频数据海量增长。在出现警情时，基于嫌疑人的图像从海量图像中获取有用的信息或者情报越来越困难，不仅效率低，同时人力成本高。

另外，出于会议场景的需要，尤其是远程会议场景的需要，会议中仅能显示视频，无法在显示界面显示说话人的语音识别结果，导致会议的效率不高，而且，针对会议中信息的记录也需要额外增加人力进行会议记录，导致耗费了大量的人力成本，无法提高业务效率。

发明内容

本发明实施例提供一种结合语音识别的实时人脸轨迹跟踪方法及装置，用以提高监控场景下的语音识别和图像识别的联合监控和语音的跟踪，提高监控效率，以及会议场景下的语音识别和图像识别的联合显示，满足会议的业务需要。

本发明实施例提供一种结合语音识别的实时人脸轨迹跟踪方法，包括：

将第二时段采集的音频信号进行语音识别，确定第三说话对象及所述第三说话对象对应的音频帧；

在确定所述第三说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；

确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。

本发明实施例中，通过将第二时段采集的音频信号进行语音识别，及所述第二时段采集的视频信号根据第一时段匹配的已关联对象与第二时段采集的音频信号进行语音识别的语音识别结果进行关联，确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系，以使监控场景或会议场景下，在获得已关联对象的条件下，可以直接进行说话对象的关联，减少图像识别所带来的资源消耗，提高语音跟踪效率，及监控效率，以适应更多的监控环境和会议场景。

一种可能的实现方式，所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象，包括：

将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；

将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的；

确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧之间的所述对应关系，并将所述对应关系中的对象确定为所述已关联对象。

本发明实施例中，通过将第一时段采集的音频信号进行语音识别，及所述第一时段采集的视频信号进行人脸识别；确定第一说话对象及所述第一说话对象对应的图像帧；确定所述第二说话对象对应的音频帧与所述第一说话对象对应的图像帧的对应关系，以使监控场景或会议场景下，获得更多的待识别对象的信息，无需在离线过程中，再查找第一说话对象对应的语音识别结果，进而提供更多的语音和图像的识别数据，提高监控效率和会议的业务效果，以适应更多的监控环境和会议场景的需要。

一种可能的实现方式，所述将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧，包括：

对所述第一时段采集的视频信号中的N帧图像进行人脸识别，确定第二对象；

对包括所述第二对象的M帧图像中所述第二对象的唇部区域进行唇动检测，确定所述M帧图像中每帧图像的唇动特征；

根据所述M帧图像中每帧图像的唇动特征确定存在唇动的置信度，若所述M帧图像中有K帧图像的存在唇动的置信度大于第一预设阈值，则确定所述第二对象为所述第二说话对象，并将所述K帧图像确定为所述第二说话对象对应的图像帧；N大于或等于M；M大于或等于K。

上述技术方案中，通过对图像中的唇部区域进行唇动检测，确定第二说话对象的图像帧，进而实现在线关联音频信号中的语音识别结果，无需在离线过程中，查找第二说话对象对应的语音识别结果，提高了监控效果，满足了会议场景的需要。

一种可能的实现方式，所述第二时段为当前时段，所述第一时段早于所述第二时段；或，所述将第二时段采集的音频信号进行语音识别，确定第三说话对象，包括：

将所述第二时段采集的音频信号进行语音识别，确定所述第一时段采集的音频信号与所述第二时段采集的音频信号为针对所述第三说话对象的连续音频信号；所述第一时段早于所述第二时段。

上述技术方案中，通过确定连续音频信号，直接将第一时段采集的音频信号与第二时段中确定的已关联对象在第二时段中的图像帧进行关联，减少了图像处理的时间，加快了在线语音跟踪的效率，提高了在线语音跟踪的效果，提高了监控效果，满足了会议场景的需要。

本发明实施例提供了一种结合语音识别的实时人脸轨迹跟踪装置，包括：

音频处理模块，用于将第二时段采集的音频信号进行语音识别，确定第三说话对象及所述第三说话对象对应的音频帧；

识别处理模块，用于在确定所述第三说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。

一种可能的实现方式，所述音频处理模块，具体用于：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；所述装置还包括：

图像处理模块，用于将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的；

所述识别处理模块，用于确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧之间的所述对应关系，并将所述对应关系中的对象确定为所述已关联对象。

一种可能的实现方式，所述图像处理模块，具体用于：对所述第一时段采集的视频信号中的N帧图像进行人脸识别，确定第二对象；对包括所述第二对象的M帧图像中所述第二对象的唇部区域进行唇动检测，确定所述M帧图像中每帧图像的唇动特征；根据所述M帧图像中每帧图像的唇动特征确定存在唇动的置信度，若所述M帧图像中有K帧图像的存在唇动的置信度大于第一预设阈值，则确定所述第二对象为所述第二说话对象，并将所述K帧图像确定为所述第二说话对象对应的图像帧；N大于或等于M；M大于或等于K。

一种可能的实现方式，所述第二时段为当前时段，所述第一时段早于所述第二时段；或，所述音频处理模块，用于：将所述第二时段采集的音频信号进行语音识别，确定所述第一时段采集的音频信号与所述第二时段采集的音频信号为针对所述第三说话对象的连续音频信号；所述第一时段早于所述第二时段。

本发明实施例提供了一种存储介质，存储有用于监控场景的语音识别的方法的程序，所述程序被处理器运行时，执行上述实施例中任一项所述的方法。

本发明实施例提供了一种计算机设备，包括一个或多个处理器；以及一个或多个计算机可读介质，所述可读介质上存储有指令，所述指令被所述一个或多个处理器执行时，使得所述装置执行如上述实施例中任一项所述的方法。

附图说明

图1为本发明实施例中系统架构示意图；

图2为本发明实施例中一种实时关联说话人及其语音识别结果的方法的流程示意图；

图3为本发明实施例中一种结合语音识别的实时人脸轨迹跟踪方法的流程示意图；

图4为本发明实施例中一种结合语音识别且通过实时预测人脸追踪轨迹方法的流程示意图；

图5为本发明实施例中一种结合语音识别的身体轨迹实时跟踪方法的流程示意图；

图6为本发明实施例中一种实时关联说话人及其语音识别结果的装置的结构示意图；

图7为本发明实施例中一种结合语音识别的实时人脸轨迹跟踪装置的结构示意图；

图8为本发明实施例中一种结合语音识别且通过实时预测人脸追踪轨迹装置的结构示意图；

图9为本发明实施例中一种结合语音识别的身体轨迹实时跟踪装置的结构示意图；

图10为本发明实施例中一种实时关联说话人及其语音识别结果的装置的结构示意图。

具体实施方式

下面结合附图对本发明优选的实施方式作出进一步详细说明。

图1示例性示出了本发明实施例适用的系统架构的示意图，在该系统架构中包括监控设备101、服务器102。监控设备101可以实时采集视频流，然后将采集的视频流发送至服务器102，服务器102中包括语音识别装置，服务器102从视频流中获取图像帧，然后确定图像帧中的待识别对象及对应的语音识别结果。监控设备101通过无线网络与服务器102连接，监控设备是具备采集图像功能及声音信号的电子设备，比如摄像头、摄像机、录像机、麦克风等。服务器102是一台服务器或若干台服务器组成的服务器集群或云计算中心。

基于图1所示的系统架构，图2示例性示出了本发明实施例提供的一种实时关联说话人及其语音识别结果的方法所对应的流程示意图，该方法的流程可以由语音识别装置执行，语音识别装置可以是图1所示的服务器102，如图2所示，具体包括以下步骤：

步骤201：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；

其中，第一时段可以为1秒，具体的长度可以根据音频信号的特征确定，也可以根据语音识别的需要确定，例如在线识别的精度等因素确定，在此不做限定。

具体的，音频信号可以为从至少一个麦克风获取的对应声音信号中至少一路语音信号；或者，也可以从至少一个麦克风获取的对应声音信号中选取任意至少两路语音信号，合并后的声音信号，以便获得更多的声音信息。在实际应用中，声音信号是采用信号帧方式传播的，而语音识别装置需要对声音信号帧进持续检测。

在具体语音识别的过程，可以通过语音模型，对音频信号中的语音进行识别，以确定语音识别结果。以语音模型为例，在建立语音模型时，语音识别装置可以执行以下操作：

首先，语音识别装置分别提取出所述声音信号在设定的N个频带上的声学特征，作为所述声音信号的声学特征；

其中，声音信号在频带上的声学特征可以有多种表示方法，如，能量值、幅度值，等等。

然后，语音识别装置将所述N个频带上的声学特征作为特征向量，采用于高斯混合模型(Gaussian Mixed Model，GMM)，建立相应的语音模型，再基于所述语音模型，分别计算出每一个声学特征的似然比。

似然比，表示的是在每个频带上的语音信号的初始存在概率，具体的，在计算似然比时，可以基于所述特征向量，采用GMM，获得各个频带上的语音类信号特性参数(如，语音类信号均值、语音类信号方差等等)，以及采用GMM，获得各个频带上的干扰类信号特性参数(如，干扰类信号均值、干扰类信号方差等等)，采用获得的各类参数，计算出每一个声学特征的似然比，任意一个声学特征的似然比达到设定阈值时，将期望声源的存在概率设置为表示存在期望声源的指定值，确定存在语音信号。

当然，所述GMM仅为举例，实际应用中，还可能采用其他方式建立相应的语音模型。例如：支持向量机(SVM)算法，深度神经网络(DNN)算法，卷积神经网络(CNN)算法、循环神经网络(RNN)算法等等)。

步骤202：将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的；

具体来说，第一时段采集的视频信号可以为监控设备在第一时段内拍摄得到的N帧图像帧。其中，监控设备实时采集视频流，视频流由多帧图像帧组成，可以根据时间顺序，根据时段对视频流中的图像帧进行标记。

对图像帧进行标记的方式有多种，一种可能的实施方式为，将视频信号中需要进行人脸对象检测的图像标记为检测帧图像。比如，设定一段视频信号中包括10帧图像帧，可以将第一帧图像和第五帧图像标记为人脸识别的图像帧，当然，也可以将所有帧图像作为进行人脸识别的图像帧。可以根据是否有人脸进行标记，也可以根据是否有语音信号等其他因素对图像帧进行标记，在此不做限定。

进一步地，在确定视频图像帧为人脸识别的图像帧时，可以进一步确定各人脸对象在图像帧中对应的预测图像信息。具体地，可以根据已识别图像中的各人脸对象对应的图像信息，预测各人脸对象在图像帧中对应的预测图像信息；其中，已识别图像可以是图像帧相邻的图像且已确定出或预测出人脸对象对应的图像信息。

可选地，在确定图像帧为人脸识别的图像帧时，可以对图像帧进行人脸检测，从而确定图像帧中各人脸对象对应的检测图像信息。

由于先将监控设备采集的待处理视频中的N帧图像分为检测帧图像和非检测帧图像，故在获取图像帧时，先判断图像帧是否为人脸识别的图像帧，如果是，则检测图像帧中的人脸对象，否则采用其他图像帧中的人脸对象预测该图像帧中的人脸对象，故不需要对每帧图像进行检测并识别，从而降低了确定视频信号中的图像帧的人脸对象的计算量，同时提高了效率。

进一步地，可以先对图像帧进行对象检测，确定图像帧中各识别对象对应的检测图像区域，进而可以确定各识别对象对应的检测图像区域中的图像信息，即各识别对象对应的图像信息。例如，可以确定该对象的身体信息、人脸信息、对象关联的物体等。其中，图像区域可以是具有规则形状的图像框，或者不具有规则形状的图像框。

具体的，所述第二对象在所述图像帧中的唇动特征，可以根据唇动特征提取模型确定，进而确定所述每帧图像的唇动特征确定存在唇动的置信度。其中，所述置信度的取值可以为[0,1]的数值。

另一种实现的方式，也可以根据所述每帧图像的唇动特征通过分类器确定是否存在唇动。例如，通过0表示不存在唇动，则将该图像帧排除，通过1表示存在唇动，则将该图像帧作为第二说话对象的图像帧。

在确定唇动特征后，可以根据所述第一说话对象确定的唇动特征，确定所述第一说话对象的人脸特征图像，进而确定所述图像帧中，所述第一说话对象对应的所有人脸特征图像及所有人脸特征图像对应的图像帧，以便后续进行图像帧的对应，并避免后续人脸识别的重复识别，提高识别效率。

上述技术方案中，通过对图像中的唇部区域进行唇动检测，确定第二说话对象的图像帧，进而实现在线关联音频信号中的语音识别结果，无需在离线过程中，查找第二说话对象对应的语音识别结果，提高了监控和会议的效果。

对所述第二时段采集的视频信号中的N帧图像进行人脸识别，确定第二对象；

对包括所述第二对象的M帧图像中所述第二对象的唇部区域进行唇语检测，确定所述M帧图像中每帧图像的唇语特征；若所述M帧图像中有L帧图像存在唇语的置信度大于第二预设阈值，则确定所述第二对象为所述第二说话对象，并将所述L帧图像确定为所述第二说话对象对应的图像帧；N大于或等于M；M大于或等于L。

上述技术方案中，通过对图像中的唇部区域进行唇语检测，确定第二说话对象的图像帧，进而实现在线关联音频信号中的语音识别结果，无需在离线过程中，查找第二说话对象对应的语音识别结果，提高了监控和会议效果。

步骤203：确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧的对应关系；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的。

一种可能的实现方式，将确定为第二说话对象的图像帧，与第一说话对象的语音识别结果对应的音频帧进行关联。

举例来说，若确定第一时段中图像帧与音频帧的帧数相同，则可以将确定第二说话对象的图像帧的帧号与第一说话对象的音频帧的帧号关联；例如，若确定为第二说话对象的图像帧的帧号的第5帧，则与语音识别结果中第5帧的音频帧关联为同一说话对象，进而将剩余的语音识别结果中第一说话对象对应的其他帧，与第二对象的图像帧进行关联。例如，剩余的语音识别结果中第一说话对象对应的其他帧为第6帧-第10帧，则将第二对象的图像帧的第6帧-第10帧进行关联。

另一种可能的实现方式，若确定第一时段中图像帧与音频帧的帧数不同，可以根据帧数的对应关系，进行关联。例如，若确定第一时段中图像帧包括20帧，音频帧包括30帧，则可以按照比例，进行图像帧与音频帧的关联。例如，若确定为第二说话对象的图像帧的帧号的第2帧，则与语音识别结果中第3帧的音频帧关联为同一说话对象。

当然，还可以根据时间点进行关联，将图像帧与音频帧每帧的时间点进行一一对应，若确定在某一时间点上可以将第二说话对象的图像帧与第一说话对象的音频帧关联，则确定第二说话对象与第一说话对象在该时间点开始建立对应关系。

本发明实施例中，通过将第一时段采集的音频信号进行语音识别，及所述第一时段采集的视频信号进行人脸识别；确定第二说话对象及所述第二说话对象对应的图像帧；确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧的对应关系，以使监控场景或会议场景下，获得更多的待识别对象的监控信息，无需在离线过程中，再查找第二说话对象对应的语音识别结果，为安防提供更多的监控数据，提高监控或会议效率，以适应更多的监控或会议环境。

一种可能的实现方式，所述确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧的对应关系之后，还包括：

将所述第一说话对象对应的音频帧的语音识别结果以对象指示的方式显示在与所述音频帧存在对应关系的图像帧上，所述对象指示的方式指将所述音频帧的语音识别结果与所述第二说话对象之间建立关联显示关系。

上述技术方案中，通过在确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧的对应关系之后，利用该对应关系，直接将第一说话对象对应的音频帧的语音识别结果显示在图像上，达到实时显示的效果，提高了监控和会议的可视化。

一种可能的实现方式，所述方法还包括：确定与所述音频帧存在对应关系的所述图像帧中的所述第二说话对象的人脸中的关键点，并将所述关键点显示在所述图像帧上。

上述技术方案中，通过确定与所述音频帧存在对应关系的所述图像帧中的所述第二说话对象的人脸中的关键点，可以实现可视化第一说话对象的唇动效果，提高了可视化的监控和会议效果。

为进一步提高识别效率，提高监控和会议效果，如图3所示，本发明实施例还提供一种结合语音识别的实时人脸轨迹跟踪方法，包括：

步骤301：将第二时段采集的音频信号进行语音识别，确定第三说话对象及所述第三说话对象对应的音频帧。

一种可能的实现方式，所述第二时段为当前时段，所述第一时段早于所述第二时段；例如，第一时段可以为1秒，第二时段也可以为2秒，第一时段的长度与第二时段的长度可以不同，也可以相同，且第二时段位于第一时段之后的时段；第一时段可以与第二时段连续，也可以与第二时段不连续，可以根据音频信号的特征确定，也可以根据语音识别的需要确定，在此不做限定。

上述技术方案中，通过确定连续音频信号，直接将第一时段采集的音频信号与第二时段中确定的已关联对象在第二时段中的图像帧进行关联，减少了图像处理的时间，加快了在线语音跟踪的效率，提高了在线语音跟踪的效果，提高了监控和会议效果。

另一种可能的实现方式，可以将所述第二时段采集的音频信号进行语音识别，确定所述第一时段采集的音频信号与所述第二时段采集的音频信号为针对所述第三说话对象的连续音频信号；所述第一时段早于所述第二时段。

上述技术方案中，通过确定连续音频信号，直接将第一时段采集的音频信号与第二时段中确定的已关联对象在第一时段中的图像帧进行关联，减少了图像处理的时间，加快了在线语音跟踪的效率，提高了在线语音跟踪的效果，提高了监控和会议效果。

步骤302：在确定所述第三说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；

一种可能的实现方式，所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象，具体的实施方式可以参考上述语音识别方法中的实施例，在此不再赘述。

步骤303：确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。

例如，以图像帧与音频帧的帧数相同为例，假设已关联对象为第一说话对象，且在第二时段确定的第一说话对象的图像帧为第21帧和第23帧；若确定第三说话对象对应的音频帧为第20帧到第25帧，则将可以关联的帧，即第三说话对象对应的第21帧、第23帧与音频帧对应的第21帧和第23帧进行关联。

本发明实施例中，通过将第二时段采集的音频信号进行语音识别，及所述第二时段采集的视频信号根据第一时段匹配的已关联对象与第二时段采集的音频信号进行语音识别的语音识别结果进行关联，确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系，以使监控场景或会议场景下，在获得已关联对象的条件下，可以直接进行说话对象的关联，减少图像识别所带来的资源消耗，提高语音跟踪效率，及监控或会议效率，以适应更多的监控或会议环境。

进一步的，为提高关联效率，提高监控和会议效果，如图4所示，本发明实施例提供一种结合语音识别且通过实时预测人脸追踪轨迹方法，包括：

步骤401：将第二时段采集的音频信号进行语音识别，确定第四说话对象及所述第四说话对象对应的音频帧；

其中，第二时段可以为当前时段，所述第一时段早于所述第二时段；例如，第一时段可以为1秒，第二时段也可以为2秒，第一时段的长度与第二时段的长度可以不同，也可以相同；第一时段可以与第二时段连续，也可以与第二时段不连续，可以根据音频信号的特征确定，也可以根据语音识别的需要确定，在此不做限定。

一种可能的实现方式，若确定第二时段采集的音频信号与所述第二时段采集的音频信号为针对所述第四说话对象的连续音频信号；所述第二时段为所述第一时段之后的时段；

从所述第二时段采集的视频信号中确定包含所述第四说话对象的图像帧；

建立所述第二时段采集的音频信号与所述第二时段采集的包含所述第四说话对象的图像帧之间的所述对应关系。

上述技术方案中，通过确定连续音频信号，直接将第二时段采集的音频信号与第一时段中确定的已关联对象在第二时段中的图像帧进行关联，减少了图像处理的时间，加快了在线语音跟踪的效率，提高了在线语音跟踪的效果，提高了监控和会议效果。

步骤402：在确定所述第四说话对象为已关联对象时，根据所述已关联对象在第一时段的图像帧中的位置，预测所述已关联对象在所述第二时段采集的视频信号中的预测位置；所述已关联对象是根据所述第一时段采集的音频信号和所述第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述第二时段为所述第一时段之后的时段；

举例来说，若根据第一时段中图像帧中已关联对象位于图像的第一位置信息，预测第二时段中已关联对象位于图像的第一预测位置，在获得第二时段种的图像帧时，可以根据第一预测位置，获取该位置上的人脸识别区域，无需进行人脸识别。当然，若确定获得的第一预测位置上的人脸识别区域中没有已关联对象的人脸图像，则可以在图像帧中重新识别，保证图像识别的准确性。

另一种可能的场景是，在该图像帧的相邻至少一个图像帧上，根据已关联对象预测出的该图像帧的预测位置上的人脸识别区域为已关联对象的人脸图像，但是在该图像帧中的没有已关联对象的人脸图像，可能是由于图像抖动导致图像识别装置无法识别或其他原因，该图像帧上没有已关联对象的人脸图像，此时，可以将该第一预测位置上补充已关联对象的人脸图像，在显示语音识别结果时，可以在该图像帧的第一预测位置上显示，进而提高了监控或会议过程中，语音识别结果的关联的效果。

步骤403：针对所述第二时段采集的视频信号的任一图像帧，将所述图像帧中所述预测位置对应的图像与所述已关联对象的人脸图像进行匹配，确定包含所述已关联对象的图像帧；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；

步骤404：确定所述第四说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

例如，以图像帧与音频帧的帧数相同为例，假设已关联对象为第一说话对象，且在第二时段确定的第一说话对象的图像帧为第21帧和第23帧，预测帧为第20、22帧；若确定第四说话对象对应的音频帧为第20帧到第25帧，则将可以关联的帧，即第三说话对象对应的第20-23帧与音频帧对应的第20-23帧进行关联。

本发明实施例中，通过将第二时段采集的音频信号进行语音识别，及所述第二时段采集的视频信号，根据所述已关联对象在第一时段的图像帧中的位置，预测所述已关联对象在所述第二时段采集的视频信号中的预测位置；针对所述第二时段采集的视频信号的任一图像帧，将所述图像帧中所述预测位置对应的图像与所述已关联对象的人脸图像进行匹配，确定包含所述已关联对象的图像帧；确定所述第四说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系，以使监控场景或会议场景下，在获得对应关系的条件下，可以根据预测位置确定第二时段的图像帧中已关联对象的位置，避免在第二时段中再次进行人脸识别，减少图像识别所带来的资源消耗，并进一步提高语音跟踪效率，及监控或会议效率，以适应更多的监控或会议环境。

为进一步提高关联效果，如图5所示，本发明实施例提供一种结合语音识别的身体轨迹实时跟踪方法，包括：

步骤501：将第二时段采集的音频信号进行语音识别，确定第五说话对象及所述第五说话对象对应的音频帧；

步骤502：在确定所述第五说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；

其中，所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；

一种可能的实现方式，还包括：在确定所述第五说话对象为已关联对象时，从所述第二时段采集的视频信号的图像帧中确定不存在与所述已关联对象的人脸图像匹配的图像帧。

上述技术方案，可以在与已关联对象进行匹配之前，预先剔除无关的图像帧，可以大幅度减少需匹配的图像，减少图像关联所需的时间，提高关联效率。

针对已关联对象的身体图像的确定方式，可以从所述第二说话对象对应的图像帧中确定所述第二说话对象的身体图像；关联所述第二说话对象的身体图像与所述第二说话对象的人脸图像。

上述技术方案中，根据确定第一说话对象的人脸图像关联第一身体图像，提高了关联效果，进而实现在第二时段中进行身体图像的关联，提高监控和会议效果。

具体的，所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的；具体实施方式可以参考语音识别方法中第一说话对象与第二说话对象关联的实施例，在此不再赘述。

一种可能的实现方式，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配的方式，可以包括：

根据所述第一时段中所述已关联对象对应的图像帧中的第一说话对象的人脸图像，确定所述第一说话对象的第一身体图像；将所述第二时段采集的视频信号中的图像帧与所述第一身体图像进行匹配，从所述第二时段采集的视频信号中确定所述第二时段中所述已关联对象的图像帧。

上述技术方案中，根据确定第一说话对象的人脸图像及第一身体图像，将第二时段中，将无法识别人脸图像但可以识别身体图像的图像帧进行关联，提高了监控和会议效果。

步骤503：确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

本发明实施例中，通过将第二时段采集的音频信号进行语音识别，及所述第二时段采集的视频信号根据第一时段匹配的已关联对象与第二时段采集的音频信号进行语音识别的语音识别结果进行关联，确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系，以使监控场景或会议场景下，在获得已关联对象的人脸图像及身体图像的条件下，可以直接进行说话对象的关联，减少图像识别所带来的资源消耗，提高已关联对象的召回率，提高语音对象跟踪效率，及监控或会议效率，以适应更多的监控或会议环境。

基于所述实施例，参阅图6所示，本发明实施例提供了一种实时关联说话人及其语音识别结果的装置，包括：

音频处理模块601，用于将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；

图像处理模块602，用于将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的；

识别处理模块603，用于确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧的对应关系；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的。

一种可能的实现方式，所述音频处理模块601，具体用于：

对所述第一时段采集的视频信号中的N帧图像进行人脸识别，确定第二对象；对包括所述第二对象的M帧图像中所述第二对象的唇部区域进行唇动检测，确定所述M帧图像中每帧图像的唇动特征；根据所述M帧图像中每帧图像的唇动特征确定存在唇动的置信度，若所述M帧图像中有K帧图像的存在唇动的置信度大于第一预设阈值，则确定所述第二对象为所述第二说话对象，并将所述K帧图像确定为所述第二说话对象对应的图像帧；N大于或等于M；M大于或等于K。

一种可能的实现方式，所述装置还包括：

显示模块，用于将所述第一说话对象对应的音频帧的语音识别结果以对象指示的方式显示在与所述音频帧存在对应关系的图像帧上，所述对象指示的方式指将所述音频帧的语音识别结果与所述第二说话对象之间建立关联显示关系。

一种可能的实现方式，所述图像处理模块602，还用于：确定与所述音频帧存在对应关系的所述图像帧中的所述第二说话对象的人脸中的关键点，并通过所述显示模块将所述关键点显示在所述图像帧上。

本发明实施例提供了一种存储介质，存储有用于语音识别的方法的程序，所述程序被处理器运行时，执行上述实施例中任一项所述的方法。

基于相同的发明构思，如图7所示，本发明实施例提供了一种结合语音识别的实时人脸轨迹跟踪装置，其特征在于，包括：

音频处理模块701，用于将第二时段采集的音频信号进行语音识别，确定第三说话对象及所述第三说话对象对应的音频帧；

识别处理模块702，用于在确定所述第三说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。

一种可能的实现方式，所述音频处理模块701，具体用于：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；所述装置还包括：

所述识别处理模块702，用于确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧之间的所述对应关系，并将所述对应关系中的对象确定为所述已关联对象。

一种可能的实现方式，所述第二时段为当前时段，所述第一时段早于所述第二时段；或，所述音频处理模块701，用于：将所述第二时段采集的音频信号进行语音识别，确定所述第一时段采集的音频信号与所述第二时段采集的音频信号为针对所述第三说话对象的连续音频信号；所述第一时段早于所述第二时段。

如图8所示，本发明实施例提供一种结合语音识别且通过实时预测人脸追踪轨迹装置，包括：

音频处理模块801，用于将第二时段采集的音频信号进行语音识别，确定第四说话对象及所述第四说话对象对应的音频帧；

识别处理模块802，用于在确定所述第四说话对象为已关联对象时，根据所述已关联对象在第一时段的图像帧中的位置，预测所述已关联对象在所述第二时段采集的视频信号中的预测位置；所述已关联对象是根据所述第一时段采集的音频信号和所述第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述第二时段为所述第一时段之后的时段；针对所述第二时段采集的视频信号的任一图像帧，将所述图像帧中所述预测位置对应的图像与所述已关联对象的人脸图像进行匹配，确定包含所述已关联对象的图像帧；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；确定所述第四说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

一种可能的实现方式，所述识别处理模块802，还用于：

若确定第二时段采集的音频信号与所述第二时段采集的音频信号为针对所述第四说话对象的连续音频信号；所述第二时段为所述第一时段之后的时段；从所述第二时段采集的视频信号中确定包含所述第四说话对象的图像帧；建立所述第二时段采集的音频信号与所述第二时段采集的包含所述第四说话对象的图像帧之间的所述对应关系。

一种可能的实现方式，所述音频处理模块801，用于：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；

所述装置还包括：图像处理模块，用于将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的；

所述识别处理模块802，还用于：确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧之间的所述对应关系，并将所述对应关系中的对象确定为所述已关联对象。

如图9所示，本发明实施例提供一种结合语音识别的身体轨迹实时跟踪装置，包括：

音频处理模块901，用于将第二时段采集的音频信号进行语音识别，确定第五说话对象及所述第五说话对象对应的音频帧；

识别处理模块902，用于在确定所述第五说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的身体图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的身体图像是通过所述第一时段采集的视频信号确定的；确定所述第五说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧之间的所述对应关系。

一种可能的实现方式，所述音频处理模块901，具体用于：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；所述装置还包括：

一种可能的实现方式，所述识别处理模块902，用于：

基于上述实施例，参阅图10所示，本发明实施例中，一种计算机设备的结构示意图。

本发明实施例提供了一种计算机设备，该计算机设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图10中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别或语音跟踪程序。其中，操作系统是管理和控制语音识别或语音跟踪、或语音轨迹跟踪、或语音对象跟踪的参数获取系统硬件和软件资源的程序，支持语音识别或语音跟踪程序以及其它软件或程序的运行。

用户接口1003主要用于连接服务器与各个服务器进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音识别程序，并执行以下操作：所述处理器1001，将第二时段采集的音频信号进行语音识别，确定第三说话对象及所述第三说话对象对应的音频帧；在确定所述第三说话对象为已关联对象时，将所述第二时段采集的视频信号的图像帧与所述已关联对象的人脸图像进行匹配，从所述第二时段采集的视频信号中确定包含所述已关联对象的图像帧；所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象；所述对应关系用于指示具有对应关系的音频帧和图像帧是针对同一对象的；所述已关联对象的人脸图像是通过所述第一时段采集的视频信号得到的；确定所述第三说话对象对应的音频帧与所述第二时段采集的包含所述已关联对象的图像帧的所述对应关系。

进一步的，处理器1001可以用于调用存储器1005中存储的语音跟踪程序，处理器1001还可以执行：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧；所述第二说话对象是根据所述视频信号的图像帧中同一人脸的唇动特征确定的；确定所述第一说话对象对应的音频帧与所述第二说话对象对应的图像帧之间的所述对应关系，并将所述对应关系中的对象确定为所述已关联对象。

进一步的，处理器1001可以用于调用存储器1005中存储的语音轨迹跟踪程序，处理器1001还可以执行：对所述第一时段采集的视频信号中的N帧图像进行人脸识别，确定第二对象；对包括所述第二对象的M帧图像中所述第二对象的唇部区域进行唇动检测，确定所述M帧图像中每帧图像的唇动特征；根据所述M帧图像中每帧图像的唇动特征确定存在唇动的置信度，若所述M帧图像中有K帧图像的存在唇动的置信度大于第一预设阈值，则确定所述第二对象为所述第二说话对象，并将所述K帧图像确定为所述第二说话对象对应的图像帧；N大于或等于M；M大于或等于K。

进一步的，处理器1001可以用于调用存储器1005中存储的语音对象跟踪程序，处理器1001还可以执行：所述第二时段为当前时段，所述第一时段早于所述第二时段；或，将所述第二时段采集的音频信号进行语音识别，确定所述第一时段采集的音频信号与所述第二时段采集的音频信号为针对所述第三说话对象的连续音频信号；所述第一时段早于所述第二时段。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种结合语音识别的实时人脸轨迹跟踪方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述已关联对象是根据第一时段采集的音频信号和第一时段采集的视频信号建立的对应关系中指示的对象，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述第一时段采集的视频信号进行人脸识别，确定第二说话对象及所述第二说话对象对应的图像帧，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，所述第二时段为当前时段，所述第一时段早于所述第二时段；或，所述将第二时段采集的音频信号进行语音识别，确定第三说话对象，包括：

5.一种结合语音识别的实时人脸轨迹跟踪装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述音频处理模块，具体用于：将第一时段采集的音频信号进行语音识别，确定第一说话对象及所述第一说话对象对应的音频帧；所述装置还包括：

7.如权利要求6所述的装置，其特征在于，所述图像处理模块，具体用于：对所述第一时段采集的视频信号中的N帧图像进行人脸识别，确定第二对象；对包括所述第二对象的M帧图像中所述第二对象的唇部区域进行唇动检测，确定所述M帧图像中每帧图像的唇动特征；根据所述M帧图像中每帧图像的唇动特征确定存在唇动的置信度，若所述M帧图像中有K帧图像的存在唇动的置信度大于第一预设阈值，则确定所述第二对象为所述第二说话对象，并将所述K帧图像确定为所述第二说话对象对应的图像帧；N大于或等于M；M大于或等于K。

8.如权利要求5-7任一项所述的装置，其特征在于，所述第二时段为当前时段，所述第一时段早于所述第二时段；或，所述音频处理模块，用于：将所述第二时段采集的音频信号进行语音识别，确定所述第一时段采集的音频信号与所述第二时段采集的音频信号为针对所述第三说话对象的连续音频信号；所述第一时段早于所述第二时段。

9.一种存储介质，其特征在于，存储有用于语音跟踪的方法的程序，所述程序被处理器运行时，执行如权利要求1至4中任一项所述的方法。

10.一种计算机设备，其特征在于，包括一个或多个处理器；以及

一个或多个计算机可读介质，所述可读介质上存储有指令，所述指令被所述一个或多个处理器执行时，使得所述装置执行如权利要求1至4中任一项所述的方法。