CN113536032A

CN113536032A - 一种视频序列信息挖掘系统、方法及其应用

Info

Publication number: CN113536032A
Application number: CN202010280902.0A
Authority: CN
Inventors: 秦迎梅; 门聪; 车艳秋; 韩春晓
Original assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Current assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2021-10-22

Abstract

本发明公开了一种视频序列信息挖掘系统、方法及其应用，所述挖掘系统中：抓取模块利用“公众人物”关键词通过搜索引擎抓取图片样本，用矩形框对抓取信息中人脸区域进行标注，述数据预处理模块用于对标注后的图片样本进行过滤和标准化获得训练集，深度学习模型训练模块中的训练模型经过训练集进行训练，得到识别模型，识别与处理模块用于提取待处理视频中的关键帧并记录时间点，将关键帧进行标准化后，传递给识别模型识别“公众人物”，输出每个时间点的关键帧中所包含的“公众人物”。本发明对视频做进一步的加工和处理提供了快捷有效的工具和方法。

Description

一种视频序列信息挖掘系统、方法及其应用

技术领域

本发明涉及视频加工技术领域，特别是涉及一种视频序列信息挖掘系统、方法及其应用。

背景技术

随着深度学习、5G、芯片等技术的长足发展，视频信息的分析需求不断涌现。在toC领域，短视频和小视频产品的用户规模越来越大，需要分析和处理大量的视频数据。短视频或小视频的作者需要低成本的截取视频素材，而视频产品的平台需要对视频结果进行有效分析。目前缺乏公开技术或平台对视频序列信息进行定制化的提取。

发明内容

本发明的目的是针对现有技术中存在的视频序列信息提取困难的问题，而提供一种基于深度学习的视频序列信息挖掘系统。

本发明的另一个目的是提供一种基于深度学习的视频序列信息挖掘方法。

本发明的另一个目的是提供所述视频序列信息挖掘系统和挖掘方法的应用。

为实现本发明的目的所采用的技术方案是：

视频序列信息挖掘系统，包括抓取模块、数据预处理模块、深度学习模型训练模块和识别与处理模块，其中：

所述抓取模块利用“公众人物”关键词通过搜索引擎抓取图片样本，用矩形框对抓取信息中人脸区域进行标注，所述数据预处理模块用于对所述标注后的图片样本进行过滤和标准化，获得训练集和验证集，深度学习模型训练模块中的训练模型经过训练集进行训练，再经过验证集验证得到识别模型，所述识别与处理模块用于提取待处理视频中的关键帧并记录时间点，将关键帧进行标准化后，传递给所述识别模型识别“公众人物”，输出每个时间点的关键帧中所包含的“公众人物”。

在上述技术方案中，所述识别与处理模本地使用或部署于云端，部署于云端的流程如下：步骤1，利用python flask框架进行服务器后端部署，搭建http服务；步骤2，服务器端开放端口处理互联网传输的请求；互联网的请求通过http协议完成。

本发明的另一方面，所述的视频序列信息挖掘系统在视频素材截取或短视频特征提取中的应用。

本发明的另一方面，基于深度学习的视频序列信息挖掘方法，包括以下步骤：

步骤1，抓取模块利用“公众人物”关键词通过搜索引擎抓取图片样本，然后利用公开数据集种的图片样本进行补充，获得图片样本合集，用矩形框对每一图片样本中人脸区域进行标注，标注时用左上角像素坐标和右下角像素坐标表示矩形框；

步骤2，数据预处理模块对标注后的图片样本进行过滤和标准化获得训练集和验证集；

步骤3，所述训练集对深度学习模型训练模块中的深度学习模型进行训练，再利用所述验证集验证所述深度学习模型，保存在验证集上效果最优的深度学习模型，得到识别模型；

步骤4，抽取待处理视频的关键帧，并记录其在视频中对应的时间点，对所述关键帧进行标准化后输入到识别模型中，识别出的可能类别x和对应分值，每一类别x对应一个“公众人物”，如果分值在阈值a以上则认为该图片属于类别x，更为优选的，对应分值在0-1之间，a取值为0.5；

步骤5，进行关键帧识别后，产出每个时间点对应的类别，即每个时间点的关键帧中所包含的“公众人物”。

在上述技术方案中，所述步骤1中，抓取模块为人工抓取或利用python的urllib模块进行抓取。

在上述技术方案中，所述步骤2中，过滤时，过滤掉宽度小于200像素的图片样本，标准化时，对图片样本进行重采样和黑色填充，处理成446*446像素的图片；所述步骤4中，对所述关键帧进行标准化时，对关键帧进行重采样和黑色填充，处理成446*446像素的图片。

在上述技术方案中，所述步骤2中对图片样本进行过滤和标准化后，利用样本增强技术增加图片样本数量。

在上述技术方案中，样本增强手段包括平移随机像素、旋转随机角度或左右镜像。

在上述技术方案中，所述步骤3中的深度学习模型采用face.evoLVe框架，利用pytorch实现，其中骨干网络选择DenseNet网络结构，损失函数选择Focal损失函数。

本发明的另一方面，所述视频序列信息挖掘方法在视频素材截取或短视频特征提取中的应用。

与现有技术相比，本发明的有益效果是：

1.本发明可以通过深度学习技术对视频的人物进行提取和识别，基于该序列信息，可提升短视频作者视频特征提取和素材处理的效率。应用于短视频平台可提升搜索和推荐结果的丰富度和准确度。

2.本发明可以通过互联网抓取技术利用搜索引擎搜索相关关键词的图片信息，通过网络公开数据集和人工采集和标注的方法进行补充进而构建样本大数据集合，利用face.evoLVe框架进行人物类别标签训练和识别，同时通过高效的云端部署使该技术更加方便使用和维护，开放公有云接口供客户设备访问。客户可以通过该接口有效和快速的获取相关识别结果。

3.本发明解决了视频处理和分析成本高的问题，客户可基于识别的信息，对视频做进一步的加工和处理，方便快捷。

附图说明

图1所示为本方法识别效果举例。

图2所示为目前的以标题信息为主的视频搜索场景。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

基于深度学习的视频序列信息挖掘系统，包括抓取模块、数据预处理模块、深度学习模型训练模块和识别与处理模块，其中：

所述抓取模块利用“公众人物”关键词通过搜索引擎抓取图片样本，用矩形框对抓取信息中人脸区域进行标注，所述数据预处理模块用于对所述标注后的图片样本进行过滤和标准化获得训练集和验证集，深度学习模型训练模块中的训练模型经过训练集进行训练，再经过验证集验证得到识别模型，所述识别与处理模块用于提取待处理视频中的关键帧并记录时间点，将关键帧进行标准化后，传递给所述识别模型识别“公众人物”，输出每个时间点的关键帧中所包含的“公众人物”。

“公众人物”可以是演员等公众人物，在抓取模块中，基于搜索关键词抓取相关网页信息并解析，获取相关数据。在数据预处理模块中，对数据进行过滤和标准化；在深度学习模型训练模块中，基于采集的数据利用深度学习模型进行训练；识别与处理模块，基于训练模块得到的模型，对相关信息进行识别和处理。

所述识别与处理模可本地使用也可部署于云端，部署于云端的流程如下：步骤1，利用python flask框架进行服务器后端部署，搭建http服务。云端系统可以选用阿里云。步骤2，服务器端开放某一端口如8080，处理互联网传输的请求。步骤3，互联网的请求通过http协议完成。

实施例2

基于深度学习的视频序列信息挖掘方法，包括以下步骤：

所述步骤1中，通过搜索引擎抓取图片样本通过人工进行或利用利用python的urllib模块进行。人工进行时，通过浏览器直接下载相关关键词对应的图片样本，利用python的urllib模块进行时，首先选取关键词，拼接url，利用python的urllib模块进行http访问，利用其中的Request或urlopen等函数获取返回的html文件，再通过正则表达式对抓取到的信息进行提取，获取图片样本。在抓取信息时，设置为5秒钟一次访问，防止访问的ip因抓取频繁被封禁。

所述步骤1中，为了全面收集图片样本，所述公开数据集为利用网络公开的相关人脸检测与识别的数据集对样本就行补充，优选为，WIDER FACE数据集。

为了对图片样本统一化，便于后期使用，所述步骤2中，过滤时，过滤掉宽度小于200像素的图片样本，标准化时，对图片样本进行重采样和黑色填充，处理成446*446像素的图片。所述步骤4中，对所述关键帧进行标准化时，对关键帧进行重采样和黑色填充，处理成446*446像素的图片。

提升深度学习模型泛化能力，所述步骤2中对图片样本进行过滤和标准化后，利用样本增强技术增加图片样本数量，增加手段包括平移随机像素、旋转随机角度或左右镜像，比如随机向上下左右平移1-50像素旋转随机角度如-20度～20度。如此对所有图片进行增强，一个图片通过不同增强方法得到多个图片，这些图片都作为训练样本。

为了提高识别模型识别的准确度，所述步骤3中的深度学习模型采用face.evoLVe框架，利用pytorch实现，其中骨干网络选择DenseNet网络结构，损失函数选择Focal损失函数。

实施例3

本实施例对实施例1的挖掘系统或实施例2的挖掘方法进行举例说明。

3.1

实施例1或实施例2可应用于视频素材截取，如在电影中只截取某个演员的片段，在识别与处理模块获取人物识别的序列化信息后，进行进一步处理，获取包含该演员的每个视频片段的起止时间点。

视频片段起点标志：该时间距离上一次该人物被识别时间超过阈值b秒；视频片段终点标志：该时间距离下一次该人物被识别时间超过阈值b秒。例如b＝30。获取视频片段后，可进行二次加工和创作，节省截取视频的工作量。

3.2

实施例1或实施例2可应用于短视频特征提取，如计算该短视频中包含哪些主要演员，得到如图1所示结果，作为特征应用与视频推荐或搜索中。比如搜索不再单单以视频标题作为标准，而且直接搜索视频的内容。目前的视频搜索场景搜索依据主要以标题信息为主，如图2所示，可以加入内容信息，增加结果的丰富度。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.视频序列信息挖掘系统，其特征在于，包括抓取模块、数据预处理模块、深度学习模型训练模块和识别与处理模块，其中：

所述抓取模块利用“公众人物”关键词通过搜索引擎抓取图片样本，用矩形框对抓取信息中人脸区域进行标注，所述数据预处理模块用于对所述标注后的图片样本进行过滤和标准化获得训练集和验证集，深度学习模型训练模块中的训练模型经过训练集进行训练，再经过验证集验证得到识别模型，得到识别模型，所述识别与处理模块用于提取待处理视频中的关键帧并记录时间点，将关键帧进行标准化后，传递给所述识别模型识别“公众人物”，输出每个时间点的关键帧中所包含的“公众人物”。

2.如权利要求1所述的视频序列信息挖掘系统，其特征在于，所述识别与处理模本地使用或部署于云端，部署于云端的流程如下：步骤1，利用python flask框架进行服务器后端部署，搭建http服务；步骤2，服务器端开放端口处理互联网传输的请求；互联网的请求通过http协议完成。

3.如权利要求1或2所述的视频序列信息挖掘系统在视频素材截取或短视频特征提取中的应用。

4.基于深度学习的视频序列信息挖掘方法，其特征在于，包括以下步骤：

步骤4，抽取待处理视频的关键帧，并记录其在视频中对应的时间点，对所述关键帧进行标准化后输入到识别模型中，识别出的可能类别x和对应分值，每一类别x对应一个“公众人物”，如果分值在阈值a以上，则该图片属于类别x，更为优选的，对应分值在0-1之间，a取值为0.5；

5.如权利要求4所述的视频序列信息挖掘方法，其特征在于，所述步骤1中，抓取模块为人工抓取或利用python的urllib模块进行抓取。

6.如权利要求4所述的视频序列信息挖掘方法，其特征在于，所述步骤2中，过滤时，过滤掉宽度小于200像素的图片样本，标准化时，对图片样本进行重采样和黑色填充，处理成446*446像素的图片；所述步骤4中，对所述关键帧进行标准化时，对关键帧进行重采样和黑色填充，处理成446*446像素的图片。

7.如权利要求4所述的视频序列信息挖掘方法，其特征在于，所述步骤2中对图片样本进行过滤和标准化后，利用样本增强技术增加图片样本数量。

8.如权利要求7所述的视频序列信息挖掘方法，其特征在于，样本增强手段包括平移随机像素、旋转随机角度或左右镜像。

9.如权利要求7所述的视频序列信息挖掘方法，其特征在于，所述步骤3中的深度学习模型采用face.evoLVe框架，利用pytorch实现，其中骨干网络选择DenseNet网络结构，损失函数选择Focal损失函数。

10.如权利要求7-9中任一项所述视频序列信息挖掘方法在视频素材截取或短视频特征提取中的应用。