CN112087672B

CN112087672B - 一种使用智能终端及服务器的视频流描述生成方法

Info

Publication number: CN112087672B
Application number: CN202010810278.0A
Authority: CN
Inventors: 于长斌; 朱铭健; 段晨瑞; 熊浩亮; 靳伟
Original assignee: Zhejiang University ZJU; Westlake University
Current assignee: Zhejiang University ZJU; Westlake University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2021-11-23
Anticipated expiration: 2040-08-13
Also published as: CN112087672A

Abstract

本发明公开了一种使用智能终端及服务器的视频流描述生成方法，其特征在于，包括如下步骤：手机端：以下多个线程同步执行：线程1)手机软件通过无线局域网连接服务器，并传送操作指令；线程2)手机软件录制视频流，并实时传送给服务器端；线程3)手机软件接收服务器端返回的视频描述并显示；服务器端：以下多个线程同步执行：线程1)对指定IP地址和端口号进行监听；线程2)读取手机发送的视频流；线程3)对截取的视频进行抽帧，预处理，并运行模型生成描述；线程3)将生成的服务器生成描述返回手机进行显示；本发明具有的有益效果是：用户可在智能终端上查看其在智能终端上指定的视频片段的描述。

Description

一种使用智能终端及服务器的视频流描述生成方法

技术领域

本发明涉及计算机视觉与人工智能领域，尤其涉及一种使用智能终端及服务器的视频流描述生成方法。

背景技术

近年来，人们将越来越多的视频上传到互联网。视频作为一种重要的信息传播媒介，越来越引起计算机视觉研究者的兴趣。相比于图像来说，视频含有更多的信息，包括时序和音频信息。计算机视觉社区针对视频理解技术的特点，制定了几大任务。这些任务包括视频分类，行为检测，和视频描述等。视频分类任务意味着对每种视频进行分类，并给予他们标签，如篮球比赛视频。行为检测目标是判断一段视频中人的行为的类别，如弹吉他。视频描述任务是用自然语言去描述一段视频。视频描述任务又可以分为几个子任务:1.经典视频描述任务：用一句话描述一段视频。2.视频文章描述：用一个篇章去描述一段视频。3.密集事件描述：在一段长视频中发生了多个事件，需要用多个句子去分别描述这些事件。在众多视频理解任务中，视频描述任务属于相对较高层次的视频理解任务。相比于视频理解的基础任务如视频分类，动作检测和视频分割等，视频描述任务在语义层次理解和表达了视频信息。

视频描述生成技术在现实生活中有极大的应用价值。例如，盲人导航，视频搜索等。迄今为止，已有很多研究者对视频描述生成进行了充分的研究。很多通用场景都能进行概括性的描述。之前的做法是将不同的视频片段提前保存到硬盘中，并逐一生成视频描述显示在服务器上。然而，在现实应用中，视频往往是以视频流而非视频片段的形式存在，而目前还没有针对流式视频的描述方案。所以我们提出一种新的解决方案，用户能够在智能终端所拍摄的实时视频流中选取指定的视频片段并在智能终端上获得视频描述。相比于之前的做法，这种解决方案能够让用户获得更好的使用体验。

发明内容

本发明的目的是针对现有技术的不足，提供一种使用智能终端及服务器的视频流描述生成解决方案。

本发明的技术方案如下：

一种使用智能终端及服务器的视频流描述生成方法，分为手机端和服务器端两部分进行，其特征在于，包括如下步骤：

1)手机端：

以下多个线程同步执行：

线程1)手机软件通过无线局域网连接服务器，并传送操作指令；

线程2)手机软件录制视频流，并实时传送给服务器端；

线程3)手机软件接收服务器端返回的视频描述并显示；

2)服务器端：

以下多个线程同步执行：

线程1)对指定IP地址和端口号进行监听，当接收到手机端发出的连接信号时，服务器端即进行视频流读入操作。当接收到手机端发出的开始信号时，服务器端即开始截取视频流；当接收到手机端发出的停止信号时，服务器端即完成摄像头视频流截取操作，并保存视频片段到硬盘；

线程2)读取手机发送的视频流；

线程3)对截取的视频进行抽帧，预处理，并运行模型生成描述；

线程4)将生成的服务器生成描述返回手机进行显示；

所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述手机端线程1)具有输入IP地址和端口号的功能；可发送连接指令，与服务器端通过HTTP协议进行连接。可发送开始截取视频指令。可发送停止截取视频指令。

所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述手机端线程2)所录制的视频不在手机端显示，而是以视频流的形式直接发送到服务器端。

所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述手机端线程3)接收服务器端返回的文本描述，并显示在“接收(Receiving)”窗口，格式为[视频名称，视频起止时间，生成的描述]。

所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述服务器端线程1)中为保证对视频流数据进行正确读写操作，采用互斥锁这一变量进行读取控制；第一个在读取视频流阶段，在当前时间段内进行视频数据信息读取时，不允许其他进程对该视频段进行任何操作；第二个在写入全局队列信息时，只能写入当前视频名称并进行锁定，写入后，该互斥锁释放，并且队列数加1。

所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述服务器端线程2)中采用OpenCV的cv2.VideoCapture()方法，读取视频流。

所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述服务器端线程3)中步骤分为视频帧图像预处理，视频帧特征抽取，生成视频描述；在运行前先在MSR-VTT或者MSVD数据集上训练并保存好Boundary-awareencoder模型；在视频帧图像预处理阶段，在视频队列中，出队列操作取第一个视频名称并根据此名称读取视频；然后，对于每一个视频，等间隔抽取图像并对每一个帧进行颜色变换；在视频帧特征抽取阶段，用ImageNet数据集预训练好的resnet152网络对已处理好的图像帧提取图像特征；创建保存其视频特征的hdf5文件，存储格式为[视频个数，抽取的视频帧数，特征大小]；在生成视频描述阶段，载入训练好的Boundary-awareencoder模型，将处理好的视频帧特征送入模型，生成文本描述。

本发明与现有技术相比，具有的有益效果是用户可在智能终端上自行操作想要截取视频流的开始和停止命令，截取任意时长的视频流，并在智能终端上查看其指定的视频片段的描述。相比于以往方法，大多针对视频片段，将其存储在硬盘上，再回传给服务器端生成描述并显示在服务器上，我们的解决方案能够让用户近乎实时地在终端上得到反馈，以便获得更好的使用体验。

附图说明

图1为本发明的总体流程示意图；

图2为本发明的服务器端软件流程示意图；

图3为本发明的手机软件界面开始截取视频示意图；

图4为本发明的手机软件界面停止截取视频示意图；

图5为本发明的使用效果图。

具体实施方法

以下结合附图进一步说明本发明的具体实施方法。

1)整体流程

参见图1，本发明的总体步骤如下：

在手机软件中输入设定的IP地址和端口号，点击“CONNECT”选项，与服务器端通过HTTP协议进行连接，若输入无误，手机软件的“接收(Receiving)”窗口会显示“连接成功”的信息提示。连接成功后，手机端通过局域网自动将视频流上传到服务器端。点击“START”选项，服务器端自动开始截取视频并保存到硬盘，然后点击“STOP”停止视频截取。训练好的视频描述生成模型将对截取到的视频生成相关描述。

以上为一次视频录制的处理方法，针对流式视频，我们在服务器端采用“队列”来存储视频流中的视频名称。队列是一种特殊的数据结构，进入队列的元素均遵循先进先出的次序，即在队列的前端进行数据的删除操作，队列后端则进行所有数据的插入操作。针对我们这里的情况，对于视频流而言，截取到视频片段后，将视频片段名称依次存储进队列中，按照时间顺序，最先截取的视频名称从队列前端出列，进行操作再从队列中删除，后续截取的视频名称都从队列后端存储进入队列。

同时，采取多线程同步操作的方式对视频进行顺序存储、抽帧及图像预处理、生成描述。由于我们使用的多线程要使用诸如“视频队列”、信号锁等共享数据，为保证这些数据资源在同一时刻只能有一个线程对其进行访问，我们采取“互斥”方式，做到当有线程操作共享数据时，不允许其他线程参与进来，以此保证该操作的唯一性和排它性。为实现互斥操作，我们引入“互斥锁”这一变量。在使用互斥锁时，它能够将需要共享的数据进行标记，当有线程想要访问这些共享数据时，必须先获得该互斥锁，执行完毕后，再释放该锁。当任何一个线程获取到互斥锁后，其他线程如果需要使用该共享数据，则必须等待前一个线程使用完毕后释放锁，才能继续使用。

针对我们这里的情况，对于视频流而言，首先按用户指定的起始及结束时间点截取视频片段并保存到硬盘，然后将其名称写入“视频队列”中时。这期间使用“互斥锁”，同一时刻，只能写入当前视频名称并进行锁定，写入后，释放该互斥锁，队列数加1。之后其它线程才能使用“视频队列”这一共享资源，进行如删除或者插入数据等的操作。再比如，为保障服务器端读取视频数据信息时不受干扰，加入互斥锁，不允许其他进程对此视频段进行任何操作，使得代码更具健壮性。

2)服务器端

参见图2，本发明在服务器端的软件流程示意图。

视频帧图像预处理

在视频队列中，出队列操作取第一个视频名称并根据此名称读取视频。然后，对于每一个视频，等间隔抽取20帧图像，并将其转换为RGB格式。每一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换。

视频帧特征抽取

用ImageNet数据集预训练好的resnet152网络，对上述图像特征进行提取。一个视频的特征的大小是20x2048，其中20是对一个视频抽取的帧数，2048是单帧图像的特征大小。如果帧的数量小于最大帧数20，则剩余的部分帧用0补足。创建保存其视频特征的hdf5文件，存储格式为[视频个数，抽取的视频帧数，特征大小]；

生成视频描述

将处理好的视频帧特征输入到载入的已训练好的模型，然后生成相应视频描述。此处使用的是Boundary-awareencoder模型，并在解码器阶段使用beamsearch策略生成文本。可使用MSR-VTT或者MSVD数据集进行模型的训练。训练前需按照上文进行针对训练集中已标注的视频的视频帧抽取及图像预处理。此外，训练前还需进行文本标注预处理。对人工标注好的数据集进行词汇表的构建。使用NLTK工具来进行分词，即将句子分为一个个单词。在数据集中出现次数小于3的单词将会被略去。MSR-VTT数据集应分为训练集，验证集，测试集，且其比例为：6513:497:2990。MSVD数据集对应部分的比例为：1200:100:670。

3)软件界面介绍

参见图3和图4，进行软件界面的详细介绍：

在智能终端上编写和运行软件，使之能够与服务器端共同完成视频流的传输和相关信息的通信。相关信息包括但不限于如截取视频流的开始和停止命令、生成的视频描述信息等。如下以运行Android系统的智能终端为例来验证本文所述方法。视频流的传输功能由免许可证软件DroidCam实现。在开源软件OKSocket基础上进行修改，使智能终端能够与服务器完成Socket通信，以此完成相关信息的通信。

正确输入设定的IP地址和端口号，点击“CONNECT”选项，手机端连接服务器，可在“接收(Receiving)”窗口收到服务器“已连接”的反馈显示。此时，服务器端已开始接收手机端发送的视频流。

点击“START”选项，开启本次视频流的截取并实时上传到服务器。接收到手机发送的点击“STOP”选项所发出的停止信号后，完成视频片段的截取和保存。同时，“视频队列”数加1，视频名称进入“视频队列”。

服务器端回传模型生成的描述，在“接收(Receiving)”窗口进行显示，格式如[视频名称，视频起止时间，生成的描述]。

若窗口生成描述过多，可点击“清除显示”选项进行清空操作。

相比于之前的视频描述生成方法，本方法提出视频流描述生成方案，并有以下创新：系统分为智能终端和服务器两部分。智能终端负责拍摄视频流上传服务器和接收服务器返回的描述。服务器负责接收终端发送的视频流并生成描述返回智能终端。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的包含范围之内。

Claims

1.一种使用智能终端及服务器的视频流描述生成方法，分为手机端和服务器两部分进行，其特征在于，包括如下步骤：

1)手机端：

以下多个线程同步执行：

线程2)手机软件录制视频流，并实时传送给服务器端；所述手机端线程2)所录制的视频不在手机端显示，而是以视频流的形式直接发送到服务器端；

线程3)手机软件接收服务器端返回的视频描述并显示；

2)服务器端：

以下多个线程同步执行：

线程1)对指定IP地址和端口号进行监听，当接收到手机端发出的连接信号时，服务器端即进行视频流读入操作，当接收到手机端发出的开始信号时，服务器端即开始截取视频流；当接收到手机端发出的停止信号时，服务器端即完成摄像头视频流截取操作，并保存视频片段到硬盘；

线程2)读取手机发送的视频流；

线程3)对截取的视频进行抽帧，预处理，并运行模型生成描述；所述服务器端线程3)中步骤分为视频帧图像预处理，视频帧特征抽取，生成视频描述；在运行前先在MSR-VTT或者MSVD数据集上训练并保存好Boundary-aware encoder模型；在视频帧图像预处理阶段，在视频队列中，出队列操作取第一个视频名称并根据此名称读取视频；然后，对于每一个视频，等间隔抽取图像并对每一个帧进行颜色变换；在视频帧特征抽取阶段，用ImageNet数据集预训练好的resnet152网络对已处理好的图像帧提取图像特征；创建保存其视频特征的hdf5文件，存储格式为[视频个数，抽取的视频帧数，特征大小]；在生成视频描述阶段，载入训练好的Boundary-aware encoder模型，将处理好的视频帧特征送入模型，生成文本描述；

线程4)将服务器生成的描述返回手机进行显示。

2.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述手机端线程1)具有输入IP地址和端口号的功能；可发送连接指令，与服务器端通过HTTP协议进行连接；可发送开始截取视频指令；可发送停止截取视频指令。

3.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述手机端线程3)接收服务器端返回的文本描述，并显示在接收(Receiving)窗口，格式为[视频名称，视频起止时间，生成的描述]。

4.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述服务器端线程1)中为保证对视频流数据进行正确读写操作，采用互斥锁这一变量进行读取控制；第一个在读取视频流阶段，在当前时间段内进行视频数据信息读取时，不允许其他进程对该视频段进行任何操作；第二个在写入全局队列信息时，只能写入当前视频名称并进行锁定，写入后，该互斥锁释放，并且队列数加1。

5.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法，其特征在于，所述服务器端线程2)中采用OpenCV的cv2.VideoCapture()方法，读取视频流。