CN108600254A

CN108600254A - 一种音视频识别系统

Info

Publication number: CN108600254A
Application number: CN201810427421.0A
Authority: CN
Inventors: 龚麟
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-09-28

Abstract

本发明公开了一种音视频识别系统，该系统包括：该音视频识别系统包括：视频采集设备、视频内容处理和训练设备和识别结果呈现设备；视频内容处理和训练设备，用于将接收的视频采集设备发送的当前时刻的音视频文件进行协议转换，以及将转换后的音视频文件进行切片，并识别切片后的当前时刻的音视频文件，以及将识别结果发送至识别结果呈现设备进行显示。

Description

一种音视频识别系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种音视频识别系统。

背景技术

网络摄像机被广泛的运用这个各种场合，比如社区，机场，车站，以及一些特殊的场景比如监狱系统，银行安保等等。有效的，充分的，精确的理解这些摄像机捕获的视频数据，能为安保人员(安保系统)提供强有力的决策信息。

传统上，对这些视频数据的分析主要采用人工浏览的方法进行。受人类生理状况的影响，此方法效率底下，并且效果差强人意。并且随着人们安防意识的提升，各式各样的摄像头广泛的分布在环境的各个角落，时时刻刻都不停地生产出一些蕴涵了有用信息的数据。我们急切需要一种全新的技术手段来对这些数据进行实时的分析，并对结果做出一些应对措施(比如，触发报警系统)。

发明内容

本发明的目的在于提供一种音视频识别系统，用以解决现有技术中存在的问题。

为实现上述目的，本发明的技术方案为一种音视频识别系统，其特征在于，系统包括：视频采集设备、视频内容处理和训练设备和识别结果呈现设备；视频内容处理和训练设备，用于将接收的视频采集设备发送的当前时刻的音视频文件进行协议转换，以及将转换后的音视频文件进行切片，并识别切片后的当前时刻的音视频文件，以及将识别结果发送至识别结果呈现设备进行显示。

可选的，视频采集设备，包括：摄像头；摄像头，通过RTMP协议将当前时刻的音视频文件推送到视频内容处理和训练设备。

可选的，视频内容处理和训练设备，包括：GPU服务器集群设备，GPU服务器集群设备与视频采集设备和识别结果呈现设备连接；GPU服务器集群设备，包括：接收模块、转换模块、切片模块、读取模块、识别模块和输出模块；其中，接收模块，用于接收当前时刻的音视频文件；转换模块，用于将RTMP协议转换为HLS协议；切片模块，用于对当前时刻的音视频文件进行切片，生成TS文件，并将TS文件存储至磁盘；读取模块，用于读取HLS协议中的M3U8索引文件，以及M3U8索引文件中的TS的视频文件名，并将TS的视频文件名对应的TS文件加入作业队列；识别模块，用于识别TS的视频文件名对应的TS文件，生成识别结果；输出模块，用于将识别结果输出至识别结果呈现设备。

可选的，GPU服务器集群设备，还包括：存储模块；存储模块，用于将M3U8索引文件和TS文件存储至内存。

可选的，GPU服务器集群设备，还包括：预测模块；预测模块，用于将当前时刻的音视频文件与历史音视频文件进行对比，得到下一时刻的预测结果；其中，历史音视频文件为当前时刻之前的音视频文件；输出模块，还用于将测试结果和预测结果传输至识别结果呈现设备；其中，测试结果为当前时刻的音视频文件输出的结果。

可选的，GPU服务器集群设备，还包括：自动容错模块；当识别结果的精确度低于94％时，自动容错模块，用于将当前时刻的音视频文件传输至切片模块。

可选的，GPU服务器集群设备，还包括：训练模块；训练模块，用于读取队列中的作业，并根据作业对应的切片后的当前时刻的音视频文件训练模型进行训练；

为实现上述目的，本发明的技术方案为一种音视频识别系统，该音视频识别系统，包括：视频采集和处理设备、视频内容训练设备和识别结果呈现设备；其中，视频采集和处理设备，用于采集当前时刻的音视频文件，以及将当前时刻的音视频文件进行协议转换，并将转换后的实时视频文件进行切片，以及识别切片后的当前时刻的音视频文件，并将识别结果经由视频内容训练设备发送至识别结果呈现设备进行显示。

可选的，视频采集和处理设备，包括：摄像头、转换模块、切片模块、读取模块、存储模块、读取模块、识别模块和输出模块；其中，摄像头，用于采集当前时刻的音视频文件；转换模块，用于将RTMP协议转换为HLS协议；切片模块，用于对当前时刻的音视频文件进行切片，以及生成TS文件，并将TS文件存储至硬盘；生成模块，用于生成HLS协议中的M3U8索引文件；存储模块，用于将M3U8索引文件和TS文件存储至内存；读取模块，用于读取M3U8索引文件，以及M3U8索引文件中的TS的视频文件名，并将TS视频文件名对应的TS文件加入作业队列；识别模块，用于识别TS视频文件名对应的TS文件，生成识别结果；输出模块，用于将识别结果传输至视频内容训练设备。

可选的，视频内容训练设备，包括：GPU服务器集群设备，GPU服务器集群设备与视频采集和处理设备和识别结果呈现设备连接；GPU服务器集群设备，包括：训练模块和输出模块；训练模块，用于读取队列中的作业，并根据作业对应的切片后的当前时刻的音视频文件训练模型进行模型；输出模块，用于将训练后的训练模型更新至视频采集和处理设备中的识别模块。

本发明具有如下优点：

能提高识别的精度，有效内容识别的精度，方便人们的高效识别。

附图说明

图1为本发明实施例提供了一种音视频识别系统的结构示意图。

图2为权重赋值示意图。

图3为本发明实施例提供了另一种音视频识别系统的结构示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

图1为本发明实施例提供了一种音视频识别系统的结构示意图。如图1，该音视频识别系统包括：至少一个视频采集设备11、视频内容处理和训练设备12和识别结果呈现设备13。

视频采集设备11，用于采集当前时刻的音视频文件，可以为实时采集；视频处理和训练内容设备12，用于将当前时刻的音视频文件进行协议转换，以及将转换后的当前时刻的音视频文件存储后进行切片，以及识别切片后的当前时刻的音视频文件，生成并发送识别结果至识别结果呈现设备13；识别结果呈现设备13，用于将识别结果进行显示。

可选的，视频采集设备11，包括：至少一个摄像头(例如，1至n个，n为正整数)；摄像头通过RTMP协议将采集到的当前时刻的音视频文件推送到视频内容处理和训练设备12。

可选的，视频内容处理和训练设备12，包括：GPU集群服务器设备，GPU集群服务器设备与视频采集设备11及识别结果呈现设备13连接，用于将当前时刻的音视频文件进行协议转换后切片，以及识别切片后的当前时刻的音视频文件，并将处理结果送识别结果呈现设备3显示。

具体地，GPU服务器集群设备，包括：接收模块、转换模块、切片模块、存储模块、读取模块、识别模块和输出模块；其中，

接收模块，用于接收当前时刻的音视频文件；转换模块，用于将RTMP协议转换为HLS协议；切片模块，用于对当前时刻的音视频文件进行切片，生成TS文件，并将TS文件存储至磁盘；读取模块，用于读取HLS协议中的M3U8索引文件，以及M3U8索引文件中的TS的视频文件名，并将TS的视频文件名对应的TS文件加入作业队列；识别模块，用于识别TS的视频文件名对应的TS文件，生成识别结果；输出模块，用于将识别结果输出至识别结果呈现设备13。

可选的，GPU服务器集群设备，还包括：预测模块，该预测模块，用于根据当前时刻的音视频文件与历史音视频文件对比，得到下一时刻的预测结果。

需要说明的是，预测模块，则是对音视频文件中的连续行为进行预测。通过当前时刻的音视频文件与历史音视频文件进行对比，预测下一时候的音视频文件，其中，历史音视频文件是指当前时刻之前的音视频文件，预测结果测试下一时刻的可能的音视频文件。

在进行预测之后，输出模块，用于将预测结果和测试结果传输至识别结果呈现设备13。其中，测试结果，是指当前时刻的音频文件下一时刻产生的音视频文件。预测结果一般包括几个结果，每种结果都有其发生的概率。

具体地，GPU集群服务器设备接收当前时刻的音视频文件的RTMP协议转换为HLS协议；GPU集群服务器设备，对当前时刻的音视频文件进行切片，生成TS文件；GPU集群服务器设备开启索引文件定时扫描线程，读取HLS协议中的M3U8索引文件，得到索引中指定的TS视频文件名，并将TS视频文件名对应的TS文件加入作业队列；循环读取队列中的TS文件作业，每个作业在GPU集群服务器设备开启相应子线程，子线程并发地对每个作业的TS文件进行识别或者对下一时刻的音视频文件进行预测。

可选的，GPU集群服务器设备，还包括：存储模块；存储模块，用于将TS文件、M3U8索引文件写入到内存。

具体地，存储模块，将接收到的H.264、H.265、AAC文件封装为TS、M3U8格式的文件并写入到内存中，不将TS切片文件存到磁盘，而是存在内存当中，这种技术使得视频内容处理和训练设备12的磁盘上面不再会有大量的文件碎片，极大减少了磁盘的I/O次数，延长了服务器磁盘的使用寿命，极大提高了服务器运行的稳定性。同时，由于使用这种技术，使得终端请求数据时直接从GPU集群服务器设备的内存中获取，极大提高了对终端数据请求的反应速度，优化了切处后处理的延时问题。

可选的，GPU集群服务器设备，还包括：自动容错模块，该自动容错模块，用于当识别结果的精确度低于94％时，将当前时刻的音视频文件发送至切片模块，再由切片模块进行切片，然后再由识别模块进行识别，如此往复，直到多次执行之后，例如，五次之后，则将当前时刻的音视频文件标记为识别效果差的音视频文件。

可选的，GPU集群服务器设备，还包括：训练模块；

在多次执行切片-识别之后，识别结果的精确度低于94时，将识别精确度高于94％的历史音视频文件，进行训练模型训练，提高识别结果的精确度。

可选的，GPU集群服务器设备，还包括：扩展模块；该扩展模块，用于扩展其他的功能。

可选的，GPU集群服务器设备应用ConvNets做视频动作识别需要克服两大困难：

1、long-rangetemporal structure在理解视频的动态变化起着重要作用。现有的方法采dense temporal sampling with pre-defined sampling interval，缺点，计算成本大。

2、采用deepConvNets训练需要大量的样本集。容易产生过拟合(overfitting)。我们需要解决的问题：

1)如何设计高效的基于视频的框架学习long-range temporal structure。

2)如何用有限的数据集学习ConvNets。

我们采用的结构建立在two-streamarchitecture。在temporal structuremodeling方面，关键一点就是连续帧的高度冗余。采用sparsetemporal samplingstrategy。基于这个结构，提出深度学习(temporal segment network，TSN)。这个框架利用sparsetemporal sampling scheme在长视频中提取short snippet，然后，利用segmentalstructure集合在snippet中提取的信息。这种方式既能实现end-to-end learning，又能降低时间和计算成本。

采用very deep ConvNets，解决数据集有限的方法：1)cross-modalitypre-training；2)regularization；3)数据增强。同时，为了更好的利用上下文信息，还学习了two-stream的四种输入模式single RGB image，stacked RGB difference，stackedoptical flow field，stacked warpedoptical flow field。

本发明实施例中采用的TSN是对two-streamConvNets的改进，TSN:输入的视频分成K个segment，一个snippet在每一个segment中随机选择。不同的snippet的class score在segmentalconsensus function融合产生segmental consensus，这是video-level预测，ConvNets在所有的snippet上共享参数。

具体地，切片模块，用于将当前时刻的音视频文件分成K个segment，一个snippet在每一个segment中随机选择。不同的snippet的class score在segmentalconsensusfunction融合产生segmental consensus，这是video-level预测，ConvNets在所有的snippet上共享参数。

TSN由spatial streamConvNets和temporal stream ConvNets组成，operateonsequence of shortsnippet sparsely sampled from the entire video。每一个snippet会预测一个分类，相同的snippet会作为video-level的预测(识别当前时刻的视音频文件)。Video-level的loss值(除了snippet-level的预测值)，通过迭代更新参数进行对训练模型进行优化。给定视频V，分成K个segment{S1……Sk}，有相同的duration。TSN对snippet建模如下：

TSN(T1…….Tk)＝

H(G(F(T1；W),F(T2；W),……,F(Tk；W)))。(T1…….Tk)是snippet序列，每一个Tk随机在对应的Sk中选取。F(Tk；W)，计算class score。Segmental consensus functionG(表示特殊符号)集合多个snippet的输出结果以获得分类预测。H为预测函数，计算每一个活动分类的概率。这里H选择Softmax function，结合cross-entropy loss，final lossfunction为：

C是类别数量，yi是真实标签。实验中，snippet的数量K取3。Class score Gi由所有snippet相同类别的scores推断出。用融合函数g。(evenly average)。

TSN不同的g会有些不同。用multiple snippet联合，standard back-propagation算法优化参数W。在back-propagation中，Loss中W关于损失值L的梯度为：

当利用基于梯度的优化算法学习参数时，例如SGD，上述公式可以保证参数的更新是利用从所有snippet-level的预测中推导出来的segmental consensus G。这样，参数的学习是基于整个视频而不只是单个snippet。此外，由于K值固定，提取的snippet只包含一部分帧，减少了计算成本。

在本发明实施例中，视频采集设备11可以是网络摄像机、模拟摄像机、无人机摄像头、智能手机、NVR、DNR等产品。只需能进行满足视频通讯如RTMP,ONVIF,SDK调取视频接口等二次开发通用标准即可。

视频内容处理和训练设备12包含了视频获取、视频切片、视频内容训练，视频内容识别，视频内容结构化存储，视频通讯处理功能。

识别结果呈现设备13可以是多种媒体显示如视频截图、语音、文本，还可以是多种载体表现形式如PC、智能手机、PDA、电视墙、大屏等。

需要说明的是，视频内容识别系统的准确性与可靠性在很大程度上依赖于视频内容处理和训练设备12的GPU服务器集群、计算机网络性能与规模以及视频采集设备11的数量。

前端视频采集后采用按时间进行切片处理并与事前训练好的视频内容数据模型进行对比，将对比结果(识别结果)送送识别结果呈现设备13进行呈现，并将存疑(识别效果差)视频数据送视频内容处理和训练设备12进行训练，并由视频内容处理和训练设备12将训练成功的数据模型送视频内容处理和训练设备12供日后识别使用。

图1中的视频内容处理和训练设备12在视频采集设备11的数量小时尚可采用传统服务器进行识别，一旦在视频采集设备11的数理达到一定规模的情形下，假如对视频识别内容结果的时效性、可靠性有较高要求的化，宜在视频内容处理和训练设备12中使用nvidia的CUDA技术进行运算卡集群加速，事实证明，在设视频采集设备11及视频通讯条件相同的条件下，视频识别系统的GPU版本在nvidia Tesla运算卡下的性能是视频识别系统的CPU版本在非nvidia硬件平台所无法比拟的。

可选的，权重判定流程包括：分别获取音频行为和视频行为中的对应的行为的概率；假设，视频行为中X1的行为概率为90％，X2行为概率为70％，X3的行为概率为60％；音频行为中的X1的行为概率为60％，X2的行为概率为90％，X3的行为概率为60％，分别对视频行为赋予的权重为Y1，音频行为是赋予的权重为Y2，那么最终，得到X1的行为概率为95％(90％*Y1+60％*Y2),X2的行为概率为78％，X3的行为概率为50％，最终行为识别结果为X1，识别概率为95％。上述的行为X1、X2和X3可以是切片后对应的每一小段的视频文件。

实施例2

图3为本发明实施例提供了另一种音视频识别系统的结构示意图。如图3所示，该音视频识别系统包括：视频采集和处理设备31、视频内容训练设备32和识别结果呈现设备33。视频采集和处理设备31，用于采集当前时刻的音视频文件，以及将当前时刻的音视频文件进行协议转换，并将转换后的实时视频文件进行切片，以及识别切片后的当前时刻的音视频文件，并将识别结果经由视频内容训练设备32传输至识别结果呈现设备33进行显示。

可选的，视频采集和处理设备31，包括：至少一个前端新型深度学习识别摄像头(例如，1至n个，n为正整数)、转换模块、切片模块、生成模块、存储模块、读取模块、识别模块和输出模块；其中，

前端新型深度学习识别摄像头，用于采集当前时刻的音视频文件；转换模块，用于将RTMP协议转换为HLS协议；切片模块，用于对当前时刻的音视频文件进行切片，以及生成TS文件，并将TS文件存储至硬盘等存储介质中；生成模块，用于生成HLS协议中的M3U8索引文件；存储模块，用于将M3U8索引文件和TS文件存储至内存。读取模块、识别模块和输出模块；其中，读取模块，用于读取M3U8索引文件，以及M3U8索引文件中的TS的视频文件名，并将TS视频文件名对应的TS文件加入作业队列；识别模块，用于识别TS视频文件名对应的TS文件，生成识别结果；输出模块，用于将识别结果传输至视频内容训练设备32。

视频采集和处理设备31，还包括：预测模块，该预测模块，用于根据当前时刻的音视频文件与历史音视频文件对比，得到下一时刻的预测结果。

在进行预测之后，输出模块，用于将预测结果和测试结果传输至视频内容训练设备32。其中，测试结果，是指当前时刻的音频文件下一时刻产生的音视频文件。预测结果一般包括几个结果，每种结果都有其发生的概率。

可选的，视频采集和处理设备31，还包括：自动容错模块，该自动容错模块，用于当识别结果的精确度低于94％时，将当前时刻的音视频文件发送至切片模块，再由切片模块进行切片，然后再由识别模块进行识别，如此往复，直到多次执行之后，例如，五次之后，则将当前时刻的音视频文件标记为识别效果差的音视频文件。

可选的，视频内容训练设备32，包括：GPU服务器集群设备，GPU服务器集群设备与视频采集和处理设备31和识别结果呈现设备33连接；GPU服务器集群设备，包括：训练模块和输出模块；

在多次执行识别之后，若识别结果的精确度一直低于94时，将历史音视频文件的识别精确度高于94％(可以将94％作为一个评判标准，在多次识别之后的识别结果的精确度低于94％时，可以通过视频内容训练设备32优化视频采集和处理设备31中的训练模型)，训练模型进行训练，提高识别结果的精确度，该输出模块，是用于优化的训练模型更新至视频采集和处理设备31中的识别模块中，以便提高视频采集和处理设备31的识别精确度。

需要说明的是，GPU服务器集群设备，还包括：预测模块，该预测模块，用于根据当前时刻的音视频文件与历史音视频文件对比，得到下一时刻的预测结果。相比在视频采集和处理设备31中预测下一时刻的预测结果，在GPU服务器集群设备中预测下一时刻的预测结果能减少视频采集和处理设备31的压力。

本发明实施例中的，视频采集和处理设备31需要使用订制的前端嵌入式视频内容采集识别设备，它在传统网络摄像机基本组成基础上按机器学习、嵌入式电路设计实际针对性能、功耗、时效性特性分别采用亚里士多德架构、笛卡尔架构进行重构。包含视频切片、视频内容识别，此种架构极大的减少了视频通讯数据量，将视频内容识别的以分布式的方式进行处理，削减了图1中的视频内容处理和训练设备12的压力，视频内容训练设备32则将视频内容存疑数据进行训练，随着海量训练数据增长，视频内容识别系统的准确性会稳步提高。

视频采集和处理设备31所采用FPGA芯片来实现。在视频采集和处理设备31的视频内容识别功能强化，分布式处理的情形下，视频通讯数据量锐减，在同等规模条件的前端条件下，视频内容训练设备32的性能既可进行弱化，使用传统服务器或服务器集群即可。

采用本发明的视频内容识别系统，针对现有技术中对某一段视频内容的一般依赖相对固化的因素检测模式识别精度不高问题，将存疑数据和历史识别的数据进行对比训练，并在确定视频内容识别结果时，自适应为视频内容识别待选种类进行概率大小比较，从而稳步提高识别的精度，有效保障本发明的内容识别的精度，方便人们的高效识别。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种音视频识别系统，其特征在于，系统包括：视频采集设备(11)、视频内容处理和训练设备(12)和识别结果呈现设备(13)；

所述视频内容处理和训练设备(12)，用于将接收的视频采集设备(11)发送的当前时刻的音视频文件进行协议转换，以及将转换后的音视频文件进行切片，并识别切片后的当前时刻的音视频文件，以及将识别结果发送至识别结果呈现设备(13)进行显示。

2.根据权利要求1所述的系统，其特征在于，视频采集设备(11)，包括：摄像头；

摄像头，通过RTMP协议将当前时刻的音视频文件推送到视频内容处理和训练设备(12)。

3.根据权利要求2所述的系统，其特征在于，视频内容处理和训练设备(12)，包括：GPU服务器集群设备，GPU服务器集群设备与视频采集设备(11)和识别结果呈现设备(13)连接；

GPU服务器集群设备，包括：接收模块、转换模块、切片模块、读取模块、识别模块和输出模块；其中，

所述接收模块，用于接收当前时刻的音视频文件；

所述转换模块，用于将RTMP协议转换为HLS协议；

所述切片模块，用于对当前时刻的音视频文件进行切片，生成TS文件，并将所述TS文件存储至磁盘；

所述读取模块，用于读取HLS协议中的M3U8索引文件，以及M3U8索引文件中的TS的视频文件名，并将所述TS的视频文件名对应的TS文件加入作业队列；

所述识别模块，用于识别所述TS的视频文件名对应的TS文件，生成识别结果；

所述输出模块，用于将识别结果输出至识别结果呈现设备(13)。

4.根据权利要求3所述的系统，其特征在于，所述GPU服务器集群设备，还包括：存储模块；

存储模块，用于将M3U8索引文件和TS文件存储至内存。

5.根据权利要求4所述的系统，其特征在于，所述GPU服务器集群设备，还包括：预测模块；

所述预测模块，用于将当前时刻的音视频文件与历史音视频文件进行对比，得到下一时刻的预测结果；其中，所述历史音视频文件为当前时刻之前的音视频文件；

输出模块，还用于将测试结果和所述预测结果传输至识别结果呈现设备(13)；其中，所述测试结果为当前时刻的音视频文件输出的结果。

6.根据权利要求3所述的系统，其特征在于，所述GPU服务器集群设备，还包括：自动容错模块；

当所述识别结果的精确度低于94％时，所述自动容错模块，用于将所述当前时刻的音视频文件传输至所述切片模块。

7.根据权利要求3所述的系统，其特征在于，所述GPU服务器集群设备，还包括：训练模块；

所述训练模块，用于读取队列中的作业，并根据作业对应的切片后的当前时刻的音视频文件训练模型进行训练。

8.一种音视频识别系统，其特征在于，系统包括：视频采集和处理设备(31)、视频内容训练设备(32)和识别结果呈现设备(33)；其中，

所述视频采集和处理设备(31)，用于采集当前时刻的音视频文件，以及将所述当前时刻的音视频文件进行协议转换，并将转换后的实时视频文件进行切片，以及识别切片后的当前时刻的音视频文件，并将识别结果经由所述视频内容训练设备(32)发送至识别结果呈现设备(33)进行显示。

9.根据权利要求8所述的系统，其特征在于，视频采集和处理设备(31)，包括：摄像头、转换模块、切片模块、存储模块、读取模块、识别模块和输出模块；其中，

所述摄像头，用于采集当前时刻的音视频文件；

所述转换模块，用于将RTMP协议转换为HLS协议；

所述切片模块，用于对当前时刻的音视频文件进行切片，以及生成TS文件，并将所述TS文件存储至硬盘；

所述生成模块，用于生成HLS协议中的M3U8索引文件；所述存储模块，用于将所述M3U8索引文件和TS文件存储至内存；

所述读取模块，用于读取M3U8索引文件，以及M3U8索引文件中的TS的视频文件名，并将TS视频文件名对应的TS文件加入作业队列；

所述识别模块，用于识别所述TS视频文件名对应的TS文件，生成识别结果；

所述输出模块，用于将所述识别结果传输至所述视频内容训练设备(32)。

10.根据权利要求9所述的系统，其特征在于，所述视频内容训练设备(32)，包括：GPU服务器集群设备，所述GPU服务器集群设备与视频采集和处理设备(31)和识别结果呈现设备(33)连接；

所述GPU服务器集群设备，包括：训练模块和输出模块；

所述训练模块，用于读取队列中的作业，并根据作业对应的切片后的当前时刻的音视频文件训练模型进行模型；

所述输出模块，用于将训练后的训练模型更新至所述视频采集和处理设备(31)中的识别模块。