CN113505743B

CN113505743B - 关键视频数据提取方法、系统、计算机设备及存储介质

Info

Publication number: CN113505743B
Application number: CN202110851248.9A
Authority: CN
Inventors: 罗晨光
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-07-25
Anticipated expiration: 2041-07-27
Also published as: CN113505743A

Abstract

本发明公开了关键视频数据提取方法、系统、计算机设备及存储介质，涉及人工智能技术，先通过用户端在本地对回访过程的采集的第二类型视频数据根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，将第二类型有效视频数据上传至服务器。实现了仅对存在人像的关键帧视频的上传，筛选过滤了大部分无效图像帧，减小了对网络的占用率，而且避免了因网络不良导致的错误率。

Description

关键视频数据提取方法、系统、计算机设备及存储介质

技术领域

本发明涉及人工智能的智能决策技术领域，尤其涉及一种关键视频数据提取方法、系统、计算机设备及存储介质。

背景技术

目前随着网络的发展，5G技术及物联网技术的应用，视频数据清晰度的发展趋势是高清、超清甚至更高分辨率的4K、8K等，随之而来的问题是对于视频数据传输的网络要求越来越高，成本也越来越高。即用户与用户之间，或者是后台客服人员与用户进行在线视频时，若采用的视频分辨率越高，实时传输视频数据至服务器对网络的占用率越高，而且会因网络不良导致更高的错误率。

发明内容

本发明实施例提供了一种关键视频数据提取方法、系统、计算机设备及存储介质，旨在解决现有进行在线视频时采用的视频分辨率越高，若实时传输全部视频数据至服务器对网络的占用率越高，而且会因网络不良导致更高的错误率的问题。

第一方面，本发明实施例提供了一种关键视频数据提取方法，应用于用户端，其包括：

若接收到服务器所发送的回访请求，在确定向服务器发送同意回访指令时与服务器建立连接；

根据所述回访请求对应的回访场景在本地数据库中获取相应的目标场景问题集和目标场景核心问题序号集；

对所述目标场景问题集中每一个目标场景问题获取对应的第一类型视频数据，本地播放所述目标场景问题对应的第一类型视频数据，采集与所述第一类型视频数据对应的第二类型视频数据，根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，将第二类型有效视频数据上传至服务器；以及

接收服务器发送的视频有效性判断结果。

第二方面，本发明实施例提供了一种关键视频数据提取方法，应用于服务器，其包括：

获取待回访用户对应的用户信息，根据所述用户信息及选定的回访场景生成回访请求，并发送至与所述用户信息对应的用户端；

获取与所述回访场景对应的目标场景问题集和目标场景核心问题序号集；其中，所述目标场景问题集包括至少一个目标场景问题，且所述目标场景核心问题序号集中包括至少一个目标场景问题序号；

接收用户端对应发送的第二类型有效视频数据，按接收的时序顺序组成第二类型有效视频数据集；其中，所述第二类型有效视频数据集中的每一个第二类型有效视频数据对应所述目标场景问题集其中一个目标场景问题，且所述目标场景问题集每一个目标场景问题对应一个目标场景问题序号；

在所述第二类型有效视频数据集中获取与所述目标场景核心问题序号集具有相同目标场景问题序号的第二类型有效视频数据，组成核验筛选视频数据集；

调用预先存储的人脸识别模型，通过所述人脸识别模型获取所述核验筛选视频数据集中各第二类型有效视频数据分别对应的用户身份信息；

若所述核验筛选视频数据集中第二类型有效视频数据对应的用户身份信息包括一个用户身份信息、且所包括的用户身份信息与所述用户信息对应用户唯一识别信息相同,将对应第二类型有效视频数据对应的视频检测结果输出为有效结果；

若所述核验筛选视频数据集中存在第二类型有效视频数据对应的用户身份信息与所述用户信息对应用户唯一识别信息不相同，将对应第二类型有效视频数据对应的视频检测结果输出为无效结果；

若所述核验筛选视频数据集中各第二类型有效视频数据的视频检测结果中存在无效结果，将所述第二类型有效视频数据集对应增加无效回访标签；以及

若所述核验筛选视频数据集中各第二类型有效视频数据的视频检测结果中不存在无效结果，将所述第二类型有效视频数据集对应增加有效回访标签。

第三方面，本发明实施例提供了一种关键视频数据提取系统，其包括用户端以及服务器，所述用户端用于执行如上述第一方面所述的关键视频数据提取方法，所述服务器用于执行如上述第二方面所述的关键视频数据提取方法。

第四方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的关键视频数据提取方法，或者实现上述第二方面所述的关键视频数据提取方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的关键视频数据提取方法，或者执行上述第二方面所述的关键视频数据提取方法。

本发明实施例提供了一种关键视频数据提取方法、系统、计算机设备及存储介质，先通过用户端在本地对回访过程的采集的第二类型视频数据根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，将第二类型有效视频数据上传至服务器。实现了仅对存在人像的关键帧视频的上传，筛选过滤了大部分无效图像帧，减小了对网络的占用率，而且避免了因网络不良导致的错误率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的关键视频数据提取方法的应用场景示意图；

图2为本发明实施例提供的关键视频数据提取方法的流程示意图；

图3为本发明实施例提供的关键视频数据提取方法的另一流程示意图；

图4为本发明实施例提供的关键视频数据提取系统的示意性框图；

图5为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为了更清楚的理解本申请的技术方案，下面对所涉及的执行主体进行详细介绍。本申请分别以用户端和服务器为执行主体来描述技术方案。

用户端，其为用户使用的智能终端(如智能手机、平板电脑、笔记本电脑等)，在用户端上安装有应用程序(即APP)，用户操作用户端启动应用程序后，用户交互界面上可以显示有客服机器人这一虚拟形象，客服机器人可以由服务器后台控制而向用户端发送在线视频形式的回访请求，用户在用户交互界面上选择接收回访请求时则与服务器进行在线视频交互，在交互过程中用户交互界面上客服机器人的虚拟形象则扮演了回访发起方的角色与用户进行在线视频，客服机器人会触发用户端调用回访请求对应的目标场景问题集及标场景核心问题序号集，然后依托客服机器人播放目标场景问题集对应的回访视频数据(可以理解为提问类型视频数据)，由用户端的摄像头采集用户回答各问题时的答复视频数据。这些答复视频数据并不是全部直接上传至服务器进行保存，而是筛选出其中的重要视频段(例如持续存在用户人像的视频段，及用户答复场景核心问题序号集各序号对应问题时的视频段)上传至服务器，以降低服务器存储压力和减小传输过程中所占用的带宽。

服务器，其中存储有人脸识别模型，可以对用户端上传的视频进行用户身份验证，当用户端上传的视频中场景核心问题序号集各序号对应问题时的视频段均为同一用户且用用户端对应的用户也是同一用户，则可对用户端上传的视频进行有效回访标签的标识，否则进行无效回访标签的标识。

首先以用户端为执行主体来描述技术方案。

请参阅图1和图2，图1为本发明实施例提供的关键视频数据提取方法的应用场景示意图；图2为本发明实施例提供的关键视频数据提取方法的流程示意图，该关键视频数据提取方法应用于用户端中，该方法通过安装于用户端中的应用软件进行执行。

如图2所示，该方法包括步骤S101～S104。

S101、若接收到服务器所发送的回访请求，在确定向服务器发送同意回访指令时与服务器建立连接。

在本实施例中，用户操作用户端启动应用程序，若服务器触发客服机器人向用户发起回访请求，若用户按下用户交互界面上所显示的接通虚拟按钮时则触发生成同意回访指令并发送至服务器并与服务器建立连接，然后用户交互界面上显示一个在线视频的界面(类似于视频通话时主界面显示对方形象，小窗口显示用户自己的形象)，此时就开启了在线视频通话的过程。

S102、根据所述回访请求对应的回访场景在本地数据库中获取相应的目标场景问题集和目标场景核心问题序号集；其中，所述目标场景问题集包括至少一个目标场景问题，且所述目标场景核心问题序号集中包括至少一个目标场景问题序号。

在本实施例中，为了加快整个在线视频的数据交互效率，可以是用户端在本地安装或更新最新版本的应用程序时，应用程序的数据包中自带有多个回访场景，且与每一回访场景均对应有场景问题集和场景核心问题序号集，而且场景问题集中每一个场景问题对应一段视频数据(该段视频数据播放的是该场景问题)。这样一旦服务器在确定了回访场景(例如回访场景可以是产品购买结束后回访、业务办结后回访等)并向用户端发送了回访请求后，用户端根据回访请求在本地数据库中获取相应的目标场景问题集和目标场景核心问题序号集，这样避免了从服务器中下载回访场景对应的问题集数据及视频数据，充分利用了用户端的本地存储空间。

S103、对所述目标场景问题集中每一个目标场景问题获取对应的第一类型视频数据，本地播放所述目标场景问题对应的第一类型视频数据，采集与所述第一类型视频数据对应的第二类型视频数据，根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，将第二类型有效视频数据上传至服务器。

在本实施例中，第一类型视频数据是回访者向被访人提问过程的数据(在用户端上播放某一条第一类型视频数据相当于这一问题的提问过程)，第二类型视频数据是被访人回答提问过程的数据(在用户端上采集与上述第一类型视频数据对应的第二类型视频数据相当于这一问题的回答过程)。例如所述目标场景问题集包括20个目标场景问题(每一目标场景问题对应唯一一个目标场景问题序号)，分别记为第1个目标场景问题至第20个目标场景问题，这些目标场景问题是按照目标场景问题序号升序排列(之所以按顺序排列目标场景问题，是为了确保回访是按照固定顺序提问，这样获取到的回访视频更具参考价值)。而且，将目标场景核心问题序号集设置为包括1、10、20这3个目标场景问题序号，可以理解为所述目标场景问题集中第1个目标场景问题、第10个目标场景问题、第20个目标场景问题是本次回访中的核心问题，用户在回答这些问题时的视频数据是需重点关注的数据(因为用户在回答这些问题时的视频数据需要完整上传至服务器进行用户身份验证)。

当已知了所述目标场景问题集中每一个目标场景问题，并根据目标场景核心问题序号集确定了所述目标场景问题集中的目标场景核心问题后，即可按照目标场景问题的目标场景问题序号升序顺序播放所述目标场景问题对应的第一类型视频数据(以模拟回访者向被访人提问的过程)。例如以播放第1个目标场景问题对应的第一类型视频数据为例，用户在听取了第1个目标场景问题对应的第一类型视频数据后，会及时的回复该第1个目标场景问题，回答过程则被摄像头采集并录制为与第一类型视频数据对应的第二类型视频数据。由于受访者(也即前文中提到的使用用户端的用户)携带用户端接受回访时所处的受访环境和受访者的运动状态具有不确定性(例如受访环境是在办公室内、在地铁上、在人行道上、在家等环境的其中一种，受访者的运动状态是静坐、行走、站立不动等运动状态的其中一种)，用户在接受回访的过程中会存在人脸未正对摄像头的情况，此时为了有效筛选用户在接受回访的过程中存在人脸的连续视频或是核心问题对应的答复视频等有效视频段并上传到服务器进行保存，可以是根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，这样由于不是将用户回答每一个目标场景问题的完整视频都上传至服务器进行存储，降低服务器存储压力和减小传输过程中所占用的带宽。

在一实施例中，步骤S103包括：

获取目标场景问题集中第i个目标场景问题及第i个目标场景问题对应的第i号第一类型视频数据；其中，i的初始值为1，目标场景问题集包括的目标场景问题总个数为N；

本地播放第i号第一类型视频数据，采集与第i号第一类型视频数据对应的第i号第二类型视频数据；

若所述目标场景核心问题序号集不包括第i号问题序号，将第i号第二类型视频数据中包括的视频图像依序通过所述人脸检测模型进行人脸检测，获取满足预设的视频关键帧筛选策略中对应子筛选策略的目标视频图像集，由目标视频图像集及对应的目标音频数据组成第i号第二类型有效视频数据并上传至服务器；其中，所述视频关键帧筛选策略包括第一子筛选策略和第二子筛选策略，所述第一子筛选策略用于存在人脸的视频图像，所述第二子筛选策略用于筛选时序连续的视频图像；

若所述目标场景核心问题序号集包括第i号问题序号，将第i号第二类型视频数据作为第i号第二类型有效视频数据并上传至服务器；

将i自增1更新i的取值；

若i的取值未超出N，返回执行所述获取目标场景问题集中第i个目标场景问题及第i个目标场景问题对应的第i号第一类型视频数据的步骤；

若i的取值超出N，将结束视频上传指令发送至服务器。

在本实施例中，步骤S103可以视为一个循环提问的过程，例如分别以第1个目标场景问题和第2个目标场景问题的提问、回答、并筛选出回答过程中对应的有效视频数据的过程组成两个目标场景问题对应的完整过程，之后再按照顺序依次完成后续问题的提问、回答并筛选出回答过程中对应的有效视频数据后即完成了用户端本地的视频数据筛选处理。

在此第1个目标场景问题的完整过程中是先在用户端本地获取与第1个目标场景问题对应的第1号第一类型视频数据，然后播放该第1号第一类型视频数据，用户观看和听完第1号第一类型视频数据后，针对第1个目标场景问题进行回答的视频则被录制而得到对应的第1号第二类型视频数据。由于第1个目标场景问题对应的问题序号是存在于所述目标场景核心问题序号集中的(例如目标场景核心问题序号集包括1、10、20，则表示第1个目标场景问题、第10个目标场景问题、第20个目标场景问题是目标场景核心问题)，故第1个目标场景问题对应的第1号第二类型视频数据作为第1号第二类型有效视频数据并上传至服务器，无需在用户端本地对视频做任何处理。

在此第2个目标场景问题的完整过程中是先在用户端本地获取与第2个目标场景问题对应的第2号第一类型视频数据，然后播放该第2号第一类型视频数据，用户观看和听完第2号第一类型视频数据后，针对第2个目标场景问题进行回答的视频则被录制而得到对应的第2号第二类型视频数据。由于录制过程中用户可能在某些时刻或某些时间段未出镜，为了有效压缩上传至服务器的视频数据，可以先对录制的第2号第二类型视频数据中包括的视频图像依序通过所述人脸检测模型进行人脸检测，获取满足预设的视频关键帧筛选策略中对应子筛选策略的目标视频图像集，由目标视频图像集及对应的目标音频数据组成第2号第二类型有效视频数据并上传至服务器。通过用户端本地存储的轻量的人脸检测模型有效视频的筛选处理，过滤了不包含人脸的视频段，降低了上传服务器的数据量。

上述过程是以第1号第二类型有效视频数据及第2号第二类型有效视频数据的获取过程为例来说明，例如若目标场景问题集中总共包括20个目标场景问题时，后面18个目标场景问题对应的第i号第二类型有效视频数据均是参照第1号第二类型有效视频数据或第2号第二类型有效视频数据的获取过程。

在一实施例中，所述将第i号第二类型视频数据中包括的视频图像依序通过所述人脸检测模型进行人脸检测，获取满足预设的视频关键帧筛选策略中对应子筛选策略的目标视频图像集，包括：

将第i号第二类型视频数据进行视频图像帧拆分，得到对应的视频图像帧集；其中，所述视频图像帧集中包括多帧按时序升序排列的视频图像；

对各视频图像通过调用所述人脸检测模型进行人脸检测，筛选满足第一子筛选策略的视频图像，组成初始目标视频图像集；其中，所述第一子筛选策略所对应第一筛选条件是视频图像中存在人像；

在所述初始目标视频图像集中筛选满足第二子筛选策略的视频图像，组成目标视频图像集；其中，所述第二子筛选策略是相邻视频图像的时序是连续且连续数目超过预设帧数阈值。

在本实施例中，可以按帧为单位将第i号第二类型视频数据进行视频图像帧拆分(例如通过OpenCV将视频拆分为多帧图像)，而且所拆分得到的多帧视频图像是按照时序排列的(可以理解为每一帧视频图像都对应一个获取时间，按照视频图像的获取时间升序排列之后重新组合起来又能还原成原始的视频数据)。例如第i号第二类型视频数据对应10秒，而每一秒视频数据一般拆分为24帧视频图像，这样第i号第二类型视频数据拆分后对应可以得到240帧视频图像。之后对这240帧视频图像快速的进行人脸检测(仅仅是判断视频图像中是否存在人脸，无需进行人脸识别以进行用户身份识别)，先筛选满足第一子筛选策略的视频图像组成初始目标视频图像集(例如上述示例240帧视频图像中第1-30帧视频图像、及第121-150帧视频图像存在人脸，则由上述60帧视频图像组成初始目标视频图像集)。之后再在所述初始目标视频图像集中筛选满足第二子筛选策略的视频图像，组成目标视频图像集，例如上述示例240帧视频图像中第1-30帧视频图像时序是连续且连续数目超过预设帧数阈值(预设帧数阈值设置为24帧)，且第121-150帧视频图像时序是连续且连续数目超过预设帧数阈值，这样即可从初始目标视频图像集中快速筛选得到目标视频图像集。

在一实施例中，所述由目标视频图像集及对应的目标音频数据组成第i号第二类型有效视频数据并上传至服务器，包括：

获取目标视频图像集中所包括视频图像对应的视频时间段；

根据所述目标视频图像集对应的视频时间段在第i号第一类型视频数据获取对应的目标音频数据；

将所述目标视频图像集按照时序拼接并增加对应的目标音频数据，得到第i号第二类型有效视频数据并上传至服务器。

在本实施例中，当获取了第i号第二类型视频数据中的目标视频图像集后，需要先根据各视频图像的获取时间确定目标视频图像集中视频图像对应的视频时间段(例如上述示例中第1-30帧视频图像对应0-1.25s这一视频时间段)，然后在原始的第i号第一类型视频数据获取对应时间段的目标音频数据，最终将所述目标视频图像集按照时序拼接并增加对应的目标音频数据，得到第i号第二类型有效视频数据并上传至服务器。

S104、接收服务器发送的视频有效性判断结果。

在本实施例中，所述视频有效性判断结果是服务器根据目标场景核心问题序号集对应的各第二类型有效视频数据均进行人脸识别及用户身份验证而分别得到视频检测结果统计得到，若视频检测结果均为验证通过的结果时视频有效性判断结果为有效结果，若视频检测结果存在未验证通过的结果时视频有效性判断结果为无效结果。

当用户端将本次回访请求对应的各第二类型有效视频数据均上传至服务器后，服务器会针对各第二类型有效视频数据进行人脸识别以进行用户身份验证，从而判断用户本地的回访是否为有效回访。具体的，所述视频有效性判断结果是服务器根据目标场景核心问题序号集对应的各第二类型有效视频数据均进行人脸识别及用户身份验证而分别得到视频检测结果统计得到，若视频检测结果均为验证通过的结果时视频有效性判断结果为有效结果，若视频检测结果存在未验证通过的结果时视频有效性判断结果为无效结果。例如目标场景核心问题序号集中第1个目标场景问题、第10个目标场景问题、第20个目标场景问题分别对应的第二类型有效视频数据中，只要存在有目标场景问题对应的第二类型有效视频数据未通过用户身份验证(例如验证得到不是用户本人参与回访，或是回访过程中除了用户本人还有其他人进入摄像头镜头中且被拍摄到)，则视频有效性判断结果为无效结果；若视频检测结果均为验证通过的结果时，视频有效性判断结果为有效结果。也就是将需要更多算力支持的人脸识别过程置于服务器中执行，能更快的获取视频有效性判断结果。

在一实施例中，步骤S104之后还包括：

若检测到服务器发送的版本更新指令，接收服务器发送的与所述版本更新指令对应的更新后回访场景，及与所述更新后回访场景相应的场景问题集和场景核心问题序号集。

在本实施例中，由于各回访场景对应的场景问题集和场景核心问题序号集是存储在用户端本地，故为了确保其中一直是最新版本的数据，需要在服务器发布了应用程序的更新版本时(即用户端检测到服务器发送的版本更新指令)，用户端及时的接收服务器发送的与所述版本更新指令对应的更新后回访场景，及与所述更新后回访场景相应的场景问题集和场景核心问题序号集，从而实现了本地数据的及时更新。

其次以服务器为执行主体来描述技术方案。

请参阅图1和图3，图1为本发明实施例提供的关键视频数据提取方法的应用场景示意图；图3为本发明实施例提供的关键视频数据提取方法的流程示意图，该关键视频数据提取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图3所示，该方法包括步骤S201～S209。

S201、获取待回访用户对应的用户信息，根据所述用户信息及选定的回访场景生成回访请求，并发送至与所述用户信息对应的用户端。

在本实施例中，当服务器需触发对某一用户进行回访时，需要先获取待回访用户对应用户信息(例如用户唯一标识码，用户手机号等)，然后基于所述用户信息及在服务器上确定此次针对用户回访的具体场景而选定的回访场景生成回访请求，最后将回访请求发送至与所述用户信息对应的用户端。这样通过发送回访请求即可快速通知用户端需要开始进行用户回访。

S202、获取与所述回访场景对应的目标场景问题集和目标场景核心问题序号集；其中，所述目标场景问题集包括至少一个目标场景问题，且所述目标场景核心问题序号集中包括至少一个目标场景问题序号。

在本实施例中，由于服务器确定了此次回访请求对应的回访场景，且服务器本地也存储了各场景问题集及各场景问题集对应的场景核心问题序号集，故在服务器本地也能获取到与所述回访场景对应的目标场景问题集和目标场景核心问题序号集。

S203、接收用户端对应发送的第二类型有效视频数据，按接收的时序顺序组成第二类型有效视频数据集；其中，所述第二类型有效视频数据集中的每一个第二类型有效视频数据对应所述目标场景问题集其中一个目标场景问题，且所述目标场景问题集每一个目标场景问题对应一个目标场景问题序号。

在本实施例中，用户端每发送一个第二类型有效视频数据，服务器均会接收并存储，最终按接收的时序顺序组成第二类型有效视频数据集。

S204、在所述第二类型有效视频数据集中获取与所述目标场景核心问题序号集具有相同目标场景问题序号的第二类型有效视频数据，组成核验筛选视频数据集。

在本实施例中，在服务器中主要针对与所述目标场景核心问题序号集具有相同目标场景问题序号的第二类型有效视频数据进行用户身份验证，故在所述第二类型有效视频数据集中获取与所述目标场景核心问题序号集具有相同目标场景问题序号的第二类型有效视频数据，组成核验筛选视频数据集。

S205、调用预先存储的人脸识别模型，通过所述人脸识别模型获取所述核验筛选视频数据集中各第二类型有效视频数据分别对应的用户身份信息。

在本实施例中，所述人脸识别模型是卷积神经网络，通过卷积神经网络可以识别出每一帧视频图像分别对应的用户身份信息，当用户端将本次回访请求对应的各第二类型有效视频数据均上传至服务器后，服务器会针对各第二类型有效视频数据进行人脸识别以进行用户身份验证，从而判断用户本地的回访是否为有效回访。

在一实施例中，步骤S205包括：

对所述核验筛选视频数据集中每一个第二类型有效视频数据进行视频拆分，得到所述第二类型有效视频数据对应的有效视频数据图片，组成所述第二类型有效视频数据对应的有效视频数据图片集；

将所述有效视频数据图片集根据所述人脸识别模型进行人脸识别，得到所述有效视频数据图片集对应的人脸识别结果集；

若所述人脸识别结果集对应同一个用户身份信息，将所述第二类型有效视频数据对应输出所述用户身份信息；

若所述人脸识别结果集未对应同一个用户身份信息，将所述第二类型有效视频数据对应输出对应个数的用户身份信息。

在本实施例中，若某一帧有效视频数据图片中存在两个人脸，最终会识别到该帧有效视频数据图片对应两个用户身份信息，若某一帧有效视频数据图片中存在一个人脸，最终会识别到该帧有效视频数据图片对应一个用户身份信息。当完成了对所述有效视频数据图片集中各帧所述有效视频数据图片的用户身份信息提取后得到人脸识别结果集，此时可直接判断人脸识别结果集是否对应同一个用户身份信息(也就是人脸识别结果集是否只包括同一个人的用户身份信息)，只要对应同一个用户身份信息则输出该同一个人的用户身份信息作为用户身份识别结果，若对应多个个用户身份信息则输出对应个数的用户身份信息作为用户身份识别结果。

S206、若所述核验筛选视频数据集中第二类型有效视频数据对应的用户身份信息包括一个用户身份信息、且所包括的用户身份信息与所述用户信息对应用户唯一识别信息相同,将对应第二类型有效视频数据对应的视频检测结果输出为有效结果。

在本实施例中，若所述核验筛选视频数据集中各第二类型有效视频数据，如上述示例的第1个目标场景问题、第10个目标场景问题、第20个目标场景问题分别对应的第二类型有效视频数据组成了核验筛选视频数据集，第1个目标场景问题对应的第1号第二类型有效视频数据进行人脸识别后对应的用户身份信息是用户A，第10个目标场景问题对应的第10号第二类型有效视频数据进行人脸识别后对应的用户身份信息是用户A，第20个目标场景问题对应的第20号第二类型有效视频数据进行人脸识别后对应的用户身份信息是用户A，则表示上述3个第二类型有效视频数据分别对应的用户身份信息包括一个用户身份信息(即只包括用户A)，且所述用户信息对应用户唯一识别信息也是用户A(表示上述3个第二类型有效视频数据各自分别对应的用户身份信息与所述用户信息对应用户唯一识别信息相同)，这样在服务器中才能确定第1号第二类型有效视频数据输出为有效结果、确定第10号第二类型有效视频数据输出为有效结果、确定第20号第二类型有效视频数据输出为有效结果。

S207、若所述核验筛选视频数据集中存在第二类型有效视频数据对应的用户身份信息与所述用户信息对应用户唯一识别信息不相同，将对应第二类型有效视频数据对应的视频检测结果输出为无效结果。

在本实施例中，若核验筛选视频数据集中存在第二类型有效视频数据对应的用户身份信息与所述用户信息对应用户唯一识别信息不相同，例如第1个目标场景问题对应的第1号第二类型有效视频数据进行人脸识别后对应的用户身份信息是用户A，第10个目标场景问题对应的第10号第二类型有效视频数据进行人脸识别后对应的用户身份信息是用户A，第20个目标场景问题对应的第20号第二类型有效视频数据进行人脸识别后对应的用户身份信息是用户B，且所述用户信息对应用户唯一识别信息也是用户A，表示第20号第二类型有效视频数据对应输出无效结果，第1号第二类型有效视频数据和第10号第二类型有效视频数据对应输出有效结果。

S208、若所述核验筛选视频数据集中各第二类型有效视频数据的视频检测结果中存在无效结果，将所述第二类型有效视频数据集对应增加无效回访标签。

在本实施例中，当获取了所述核验筛选视频数据集中各第二类型有效视频数据分别对应的视频检测结果后，若不能确保多次都是有效结果，即只要存在一次或多次无效结果，最终结果都是导致整个核验筛选视频数据集对应的所述第二类型有效视频数据集对应增加有效回访标签。也即只要存在过一次无效结果，都将所述第二类型有效视频数据集对应增加无效回访标签。

S209、若所述核验筛选视频数据集中各第二类型有效视频数据的视频检测结果中不存在无效结果，将所述第二类型有效视频数据集对应增加有效回访标签。

在本实施例中，当获取了所述核验筛选视频数据集中各第二类型有效视频数据分别对应的视频检测结果后，若能确保多次都是有效结果，才能确保整个核验筛选视频数据集对应的所述第二类型有效视频数据集对应增加有效回访标签。通过服务器端的基于人脸识别的回访视频有效性判定，充分利用了服务器端的算力资源，提高了数据处理效率。

该方法实现了仅对存在人像的关键帧视频的上传，筛选过滤了大部分无效图像帧，减小了对网络的占用率，而且避免了因网络不良导致的错误率。

本发明实施例还提供一种关键视频数据提取系统，包括用户端和服务器，该用户端用于执行前述步骤S101～S104中关键视频数据提取方法的任一实施例，该服务器用于执行前述步骤S201～S209中关键视频数据提取方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的关键视频数据提取系统的示意性框图。

如图4所示，关键视频数据提取系统10包括：用户端100和服务器200。

其中，用户端100包括：连接建立单元101、第一回访场景数据获取单元102、有效视频提取单元103、判断结果接收单元104。

连接建立单元101，用于若接收到服务器所发送的回访请求，在确定向服务器发送同意回访指令时与服务器建立连接。

第一回访场景数据获取单元102，用于根据所述回访请求对应的回访场景在本地数据库中获取相应的目标场景问题集和目标场景核心问题序号集；其中，所述目标场景问题集包括至少一个目标场景问题，且所述目标场景核心问题序号集中包括至少一个目标场景问题序号。

有效视频提取单元103，用于对所述目标场景问题集中每一个目标场景问题获取对应的第一类型视频数据，本地播放所述目标场景问题对应的第一类型视频数据，采集与所述第一类型视频数据对应的第二类型视频数据，根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，将第二类型有效视频数据上传至服务器。

在本实施例中，例如所述目标场景问题集包括20个目标场景问题(每一目标场景问题对应唯一一个目标场景问题序号)，分别记为第1个目标场景问题至第20个目标场景问题，这些目标场景问题是按照目标场景问题序号升序排列(之所以按顺序排列目标场景问题，是为了确保回访是按照固定顺序提问，这样获取到的回访视频更具参考价值)。而且，将目标场景核心问题序号集设置为包括1、10、20这3个目标场景问题序号，可以理解为所述目标场景问题集中第1个目标场景问题、第10个目标场景问题、第20个目标场景问题是本次回访中的核心问题，用户在回答这些问题时的视频数据是需重点关注的数据(因为用户在回答这些问题时的视频数据需要完整上传至服务器进行用户身份验证)。

在一实施例中，有效视频提取单元103包括：

第一类型视频获取单元，用于获取目标场景问题集中第i个目标场景问题及第i个目标场景问题对应的第i号第一类型视频数据；其中，i的初始值为1，目标场景问题集包括的目标场景问题总个数为N；

第二类型视频获取单元，用于本地播放第i号第一类型视频数据，采集与第i号第一类型视频数据对应的第i号第二类型视频数据；

第二类型有效视频数据获取单元，用于若所述目标场景核心问题序号集不包括第i号问题序号，将第i号第二类型视频数据中包括的视频图像依序通过所述人脸检测模型进行人脸检测，获取满足预设的视频关键帧筛选策略中对应子筛选策略的目标视频图像集，由目标视频图像集及对应的目标音频数据组成第i号第二类型有效视频数据并上传至服务器；其中，所述视频关键帧筛选策略包括第一子筛选策略和第二子筛选策略，所述第一子筛选策略用于存在人脸的视频图像，所述第二子筛选策略用于筛选时序连续的视频图像；

第二类型有效视频数据上传单元，用于若所述目标场景核心问题序号集包括第i号问题序号，将第i号第二类型视频数据作为第i号第二类型有效视频数据并上传至服务器；

i值更新单元，用于将i自增1更新i的取值；

第一控制单元，用于若i的取值未超出N，返回执行所述获取目标场景问题集中第i个目标场景问题及第i个目标场景问题对应的第i号第一类型视频数据的步骤；

第二控制单元，用于若i的取值超出N，将结束视频上传指令发送至服务器。

在本实施例中，有效视频提取单元103中的执行过程可以视为一个循环提问的过程，例如分别以第1个目标场景问题和第2个目标场景问题的提问、回答、并筛选出回答过程中对应的有效视频数据的过程组成两个目标场景问题对应的完整过程，之后再按照顺序依次完成后续问题的提问、回答并筛选出回答过程中对应的有效视频数据后即完成了用户端本地的视频数据筛选处理。

在一实施例中，所述第二类型有效视频数据获取单元，包括：

视频帧拆分单元，用于将第i号第二类型视频数据进行视频图像帧拆分，得到对应的视频图像帧集；其中，所述视频图像帧集中包括多帧按时序升序排列的视频图像；

人脸检测单元，用于对各视频图像通过调用所述人脸检测模型进行人脸检测，筛选满足第一子筛选策略的视频图像，组成初始目标视频图像集；其中，所述第一子筛选策略所对应第一筛选条件是视频图像中存在人像；

关键帧组合单元，用于在所述初始目标视频图像集中筛选满足第二子筛选策略的视频图像，组成目标视频图像集；其中，所述第二子筛选策略是相邻视频图像的时序是连续且连续数目超过预设帧数阈值。

在一实施例中，所述第二类型有效视频数据获取单元，还包括：

视频时间段获取单元，用于获取目标视频图像集中所包括视频图像对应的视频时间段；

目标音频数据获取单元，用于根据所述目标视频图像集对应的视频时间段在第i号第一类型视频数据获取对应的目标音频数据；

音视频数据拼接单元，用于将所述目标视频图像集按照时序拼接并增加对应的目标音频数据，得到第i号第二类型有效视频数据并上传至服务器。

判断结果接收单元104，用于接收服务器发送的视频有效性判断结果；其中，所述视频有效性判断结果是服务器根据目标场景核心问题序号集对应的各第二类型有效视频数据均进行人脸识别及用户身份验证而分别得到视频检测结果统计得到，若视频检测结果均为验证通过的结果时视频有效性判断结果为有效结果，若视频检测结果存在未验证通过的结果时视频有效性判断结果为无效结果。

在本实施例中，当用户端将本次回访请求对应的各第二类型有效视频数据均上传至服务器后，服务器会针对各第二类型有效视频数据进行人脸识别以进行用户身份验证，从而判断用户本地的回访是否为有效回访。具体的，所述视频有效性判断结果是服务器根据目标场景核心问题序号集对应的各第二类型有效视频数据均进行人脸识别及用户身份验证而分别得到视频检测结果统计得到，若视频检测结果均为验证通过的结果时视频有效性判断结果为有效结果，若视频检测结果存在未验证通过的结果时视频有效性判断结果为无效结果。例如目标场景核心问题序号集中第1个目标场景问题、第10个目标场景问题、第20个目标场景问题分别对应的第二类型有效视频数据中，只要存在有目标场景问题对应的第二类型有效视频数据未通过用户身份验证(例如验证得到不是用户本人参与回访，或是回访过程中除了用户本人还有其他人进入摄像头镜头中且被拍摄到)，则视频有效性判断结果为无效结果；若视频检测结果均为验证通过的结果时，视频有效性判断结果为有效结果。也就是将需要更多算力支持的人脸识别过程置于服务器中执行，能更快的获取视频有效性判断结果。

在一实施例中，用户端100还包括：

数据更新单元，用于若检测到服务器发送的版本更新指令，接收服务器发送的与所述版本更新指令对应的更新后回访场景，及与所述更新后回访场景相应的场景问题集和场景核心问题序号集。

其中服务器200包括：回访请求生成单元201、第二回访场景数据获取单元202、有效视频接收单元203、核验视频筛选单元204、用户识别单元205、第一判定单元206、第二判定单元207、第一标签增加单元208、第二标签增加单元209。

回访请求生成单元201，用于获取待回访用户对应的用户信息，根据所述用户信息及选定的回访场景生成回访请求，并发送至与所述用户信息对应的用户端。

第二回访场景数据获取单元202，用于获取与所述回访场景对应的目标场景问题集和目标场景核心问题序号集；其中，所述目标场景问题集包括至少一个目标场景问题，且所述目标场景核心问题序号集中包括至少一个目标场景问题序号。

有效视频接收单元203，用于接收用户端对应发送的第二类型有效视频数据，按接收的时序顺序组成第二类型有效视频数据集；其中，所述第二类型有效视频数据集中的每一个第二类型有效视频数据对应所述目标场景问题集其中一个目标场景问题，且所述目标场景问题集每一个目标场景问题对应一个目标场景问题序号。

核验视频筛选单元204，用于在所述第二类型有效视频数据集中获取与所述目标场景核心问题序号集具有相同目标场景问题序号的第二类型有效视频数据，组成核验筛选视频数据集。

用户识别单元205，用于调用预先存储的人脸识别模型，通过所述人脸识别模型获取所述核验筛选视频数据集中各第二类型有效视频数据分别对应的用户身份信息。

在一实施例中，用户识别单元205包括：

有效视频数据图片集获取单元，用于对所述核验筛选视频数据集中每一个第二类型有效视频数据进行视频拆分，得到所述第二类型有效视频数据对应的有效视频数据图片，组成所述第二类型有效视频数据对应的有效视频数据图片集；

用户识别单元，用于将所述有效视频数据图片集根据所述人脸识别模型进行人脸识别，得到所述有效视频数据图片集对应的人脸识别结果集；

第一用户身份信息输出单元，用于若所述人脸识别结果集对应同一个用户身份信息，将所述第二类型有效视频数据对应输出所述用户身份信息；

第二用户身份信息输出单元，用于若所述人脸识别结果集未对应同一个用户身份信息，将所述第二类型有效视频数据对应输出对应个数的用户身份信息。

第一判定单元206，用于若所述核验筛选视频数据集中第二类型有效视频数据对应的用户身份信息包括一个用户身份信息、且所包括的用户身份信息与所述用户信息对应用户唯一识别信息相同,将对应第二类型有效视频数据对应的视频检测结果输出为有效结果。

第二判定单元207，用于若所述核验筛选视频数据集中存在第二类型有效视频数据对应的用户身份信息与所述用户信息对应用户唯一识别信息不相同，将对应第二类型有效视频数据对应的视频检测结果输出为无效结果。

第一标签增加单元208，用于若所述核验筛选视频数据集中各第二类型有效视频数据的视频检测结果中存在无效结果，将所述第二类型有效视频数据集对应增加无效回访标签。

第二标签增加单元209，用于若所述核验筛选视频数据集中各第二类型有效视频数据的视频检测结果中不存在无效结果，将所述第二类型有效视频数据集对应增加有效回访标签。

该系统实现了仅对存在人像的关键帧视频的上传，筛选过滤了大部分无效图像帧，减小了对网络的占用率，而且避免了因网络不良导致的错误率。

上述关键视频数据提取系统可以实现为计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图5，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行关键视频数据提取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行关键视频数据提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的关键视频数据提取方法。

本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的关键视频数据提取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种关键视频数据提取方法，应用于用户端，其特征在于，包括：

接收服务器发送的视频有效性判断结果；

所述对所述目标场景问题集中每一个目标场景问题获取对应的第一类型视频数据，本地播放所述目标场景问题对应的第一类型视频数据，采集与所述第一类型视频数据对应的第二类型视频数据，根据目标场景核心问题序号集、预先训练的人脸检测模型及预设的视频关键帧筛选策略获取所述第二类型视频数据对应的第二类型有效视频数据，将第二类型有效视频数据上传至服务器，包括：

将i自增1更新i的取值；

若i的取值超出N，将结束视频上传指令发送至服务器。

2.根据权利要求1所述的关键视频数据提取方法，其特征在于，所述将第i号第二类型视频数据中包括的视频图像依序通过所述人脸检测模型进行人脸检测，获取满足预设的视频关键帧筛选策略中对应子筛选策略的目标视频图像集，包括：

3.根据权利要求1所述的关键视频数据提取方法，其特征在于，所述由目标视频图像集及对应的目标音频数据组成第i号第二类型有效视频数据并上传至服务器，包括：

获取目标视频图像集中所包括视频图像对应的视频时间段；

4.根据权利要求1所述的关键视频数据提取方法，其特征在于，所述接收服务器发送的视频有效性判断结果之后，还包括：

5.一种关键视频数据提取方法，应用于服务器，其特征在于，包括：

6.根据权利要求5所述的关键视频数据提取方法，其特征在于，所述调用预先存储的人脸识别模型，通过所述人脸识别模型获取所述核验筛选视频数据集中各第二类型有效视频数据分别对应的用户身份信息，包括：

7.一种关键视频数据提取系统，包括用户端以及服务器，所述用户端用于执行如权利要求1-4任一项所述的关键视频数据提取方法，所述服务器用于执行如权利要求5-6任一项所述的关键视频数据提取方法。

8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的关键视频数据提取方法，或者执行所述计算机程序时实现如权利要求5至6中任一项所述的关键视频数据提取方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的关键视频数据提取方法，或者执行如权利要求5至6任一项所述的关键视频数据提取方法。