CN114173190B

CN114173190B - 视频数据检测方法、装置、电子设备和存储介质

Info

Publication number: CN114173190B
Application number: CN202111382515.9A
Authority: CN
Inventors: 张黎; 马彦成; 陈广辉; 刘维炜; 杨大志
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2024-05-03
Anticipated expiration: 2041-11-22
Also published as: CN114173190A

Abstract

本申请提供一种视频数据检测方法、装置、电子设备和存储介质，本申请的视频数据检测方法包括：获取待测视频数据；解码所述待测视频数据，得到待测图像帧集合；识别出所述待测图像帧集合中带有文本的目标图像集合，所述目标图像集合中的每帧图像的文本内容标记有标识框；对所述目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。故本申请的视频数据检测方法、装置、电子设备和存储介质，其先将待测视频数据解码，再对解码得到的图像帧中的敏感信息添加标注框和敏感标签，从而能够快速检测出视频中的敏感数据，且实现机器代替人工的方式，提升了视频数据检测的准确率和效率。

Description

视频数据检测方法、装置、电子设备和存储介质

技术领域

本申请涉及信息技术安全领域，具体而言，涉及一种视频数据检测方法、装置、电子设备和存储介质。

背景技术

现如今，视频是生活中最常用的传播介质，有时候，视频中往往会出现一些个人不想暴露的敏感文字信息，若处理不当会造成敏感信息的泄露，造成不必要的损失。现有技术中，一般是采用人工打标的方式，耗时耗力。

发明内容

本申请实施例的目的在于提供一种视频数据检测方法、装置、电子设备和存储介质，用以检测视频中的敏感数据。

第一方面，本申请提供一种视频数据检测方法包括：获取待测视频数据；解码待测视频数据，得到待测图像帧集合；识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框；对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。

于一实施例中，视频数据检测方法还包括：基于包含敏感标签的目标图像，合成目标敏感文件。

于一实施例中，视频数据检测方法还包括：基于目标敏感文件、敏感标签、待测图像帧集合和目标图像集合，生成输出文件。

于一实施例中，解码待测视频数据，得到待测图像帧集合，包括：解码待测视频数据，得到初始图像帧集合；对初始图像帧集合中的每帧图像帧按时间顺序添加编号；判断初始图像帧集合中所有图像帧的分辨率是否都等于预设值；当初始图像帧集合中所有图像帧的分辨率不是都等于预设值时，对初始图像帧集合的图像帧进行预处理，直至初始图像帧集合中所有图像帧的分辨率都等于预设值。当初始图像帧集合中所有图像帧的分辨率都等于预设值时，将初始图像帧集合作为待测图像帧集合。

于一实施例中，识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框，包括：将待测图像帧集合输入第一预设识别模型，输出目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。

于一实施例中，将待测图像帧集合输入第一预设识别模型，输出目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框，包括：对所述待测图像帧集合中连续帧进行跟踪处理。

于一实施例中，对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签，包括：将目标图像集合输入第二预设识别模型，输出敏感图像集合，敏感图像集合中的包含预设类型文本的目标图像添加有敏感标签。

第二方面，本申请提供一种视频数据检测装置，包括：获取模块、解码模块、第一识别模块和第二识别模块，获取模块用于获取待测视频数据；解码模块用于解码待测视频数据，得到待测图像帧集合；第一识别模块用于识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框；第二识别模块用于对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。

于一实施例中，视频数据检测装置还包括：合成模块，基于包含敏感标签的目标图像，合成目标敏感文件。

于一实施例中，视频数据检测装置还包括：输出模块，输出模块用于基于目标敏感文件、敏感标签、待测图像帧集合和目标图像集合，生成输出文件。

于一实施例中，解码模块还用于：解码待测视频数据，得到初始图像帧集合；对初始图像帧集合中的每帧图像帧按时间顺序添加编号；判断初始图像帧集合中所有图像帧的分辨率是否都等于预设值；当初始图像帧集合中所有图像帧的分辨率不是都等于预设值时，对初始图像帧集合的图像帧进行预处理，直至初始图像帧集合中所有图像帧的分辨率都等于预设值。当初始图像帧集合中所有图像帧的分辨率都等于预设值时，将初始图像帧集合作为待测图像帧集合。

于一实施例中，第一识别模块还用于：将待测图像帧集合输入第一预设识别模型，输出目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。

于一实施例中，第一识别模块还用于：对所述待测图像帧集合中连续帧进行跟踪处理。

于一实施例中，第二识别模块还用于：将目标图像集合输入第二预设识别模型，输出敏感图像集合，敏感图像集合中的包含预设类型文本的目标图像添加有敏感标签。

第三方面，本申请提供一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行如前述实施方式中任一项的方法。

第四方面，本申请提供一种非暂态计算机可读存储介质，包括：程序，当其藉由电子设备运行时，使得电子设备执行前述实施方式中任一项的方法。

本申请的视频数据检测方法、装置、电子设备和存储介质，其先将待测视频数据解码，再对解码得到的图像帧中的敏感信息添加标注框和敏感标签，从而能够快速检测出视频中的敏感数据，且实现机器代替人工的方式，提升了视频数据检测的准确率和效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例示出的电子设备的结构示意图。

图2为本申请一实施例示出的视频数据检测方法的应用场景示意图。

图3为本申请一实施例示出的视频数据检测方法的流程示意图。

图4为本申请一实施例示出的视频数据检测方法的步骤示意图。

图5为本申请一实施例示出的视频数据检测方法的流程示意图。

图6为本申请一实施例示出的视频数据检测方法的流程示意图。

图7为本申请一实施例示出的视频数据检测方法的流程示意图。

图8为本申请一实施例示出的图像深度学习检测算法网络的结构示意图。

图9为本申请一实施例示出的特征提取预测模块的结构示意图。

图10为本申请一实施例示出的卷积神经网络算法网络的结构示意图。

图11为本申请一实施例示出的视频数据检测装置的结构示意图。

图标：100-电子设备；101-总线；102-存储器；103-处理器；200-客户端；300-服务端；400-视频数据检测装置；410-获取模块；420-解码模块；430-第一识别模块；440-第二识别模块。

具体实施方式

在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，并不表示排列序号，也不能理解为指示或暗示相对重要性。

在本申请的描述中，术语“包括”、“包含”等表示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、步骤、操作、元素、组件和/或其集合的存在或添加。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参照图1，其为本申请一实施例示出的电子设备100的结构示意图。电子设备100包括：至少一个处理器103和存储器102，图1中以一个处理器103为例。处理器103和存储器102通过总线101连接，存储器102存储有可被处理器103执行的指令，指令被处理器103执行，以使电子设备100可执行下述的实施例中方法的全部或部分流程，以检测视频中的敏感数据。

电子设备100可以为客户端200或服务端300，电子设备100可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。例如电子设备100还包括用于人机交互的输入输出设备。

于一实施例中，处理器103可以是通用处理器103，包括但不限于中央处理器103(Central Processing Unit，CPU)、网络处理器103(Network Processor，NP)等，还可以是数字信号处理器103(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器103可以是微处理器103，或者该处理器103也可以是任何常规的处理器103等，处理器103是电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分。处理器103可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。

于一实施例中，存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，包括但不限于，随机存取存储器102(Random Access Memory，RAM)，只读存储器102(Read Only Memory，ROM)，静态随机存取存储器102(Static Random AccessMemory，简称SRAM)，可编程只读存储器102(Programmable Read-Only Memory，PROM)，可擦除只读存储器102(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器102(Electric Erasable Programmable Read-Only Memory，EEPROM)。

请参照图2，其为本申请一实施例示出的视频数据检测方法的应用场景示意图。该应用场景包括客户端200和服务端300；其中，客户端200为需要上传视频数据一方的手机、笔记本电脑、台式计算机等；服务端300为接收客户端200所发送视频数据一方的手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统。客户端200和服务端300可以通过局域网、无线网络或者有线网络连接，可以在本地设置，也可以在异地设置。

于一操作过程中，客户端200上传待测视频数据至服务端300，服务端300对该待测视频数据做文字敏感检测，检测该待测视频数据中是否存在类似身份证号、手机号等文字类敏感数据，服务端300将做完文字敏感检测产生的检测结果保存，并生成一个URI链接(Uniform Resource Identifier，或统一资源标识符)。服务端300将该URI链接发送给客户端200，客户端200可以根据该URI链接下载或查看待测视频数据的检测结果。

请参照图3，其为本申请一实施例示出的视频数据检测方法的流程示意图。请参照图4，其为本申请一实施例示出的视频数据检测方法的步骤示意图。该方法可由图1所示的电子设备100作为客户端200或服务端300执行，本实施例以电子设备100作为服务端300为例进行说明。该方法包括如下步骤：步骤S101-步骤S104。

步骤S101：获取待测视频数据。

本步骤中的待测视频数据可以是用户通过客户端200上传的视频文件。

步骤S102：解码待测视频数据，得到待测图像帧集合。

于一实施例中，本步骤可以通过解码工具将待测视频数据通过解码形成多个位图图片(图像帧)，多个位图图片形成待测图像帧集合。

在本步骤之前，可以对待测视频数据进行预处理，使其转码形成预先设定的统一格式。

于一实施例中，可以对待测图像帧集合中各个图像帧进行编号，以备后续步骤的进一步检测。

步骤S103：识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。

本步骤中对图像帧集合中各个图像帧中进行物体检测，以检测图像帧集合中各个图像帧中是否有文本，再对带有文本的这部分图像进行锚框(bbox)，将这部分图像中的文本内容部分添加一个标识框。

综上，根据标识框信息，就可以区分图像帧集合中哪些图像帧带有文字信息，哪些图像帧中不带有文字。由于带有文字信息的图像帧才可能带有本实施例所需要寻找的类似身份证号、手机号等文字类敏感数据，而带有文字信息的图像帧中的文字不一定就是敏感数据。

故通过本步骤的处理，可以对待测图像帧集合进行初步分类处理，筛选出可能存在文字类敏感数据的目标图像集合，并添加了标识框，以备步骤S104的进一步检测。

于一实施例中，可以对标识框进行标号，以备后续步骤的进一步检测。

步骤S104：对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。

本步骤中，对目标图像集合中的标识框内的文本内容进行识别，判断标识框内的文本内容是否为敏感数据，若是，则确定该文本内容属于那种敏感类型，并添加上敏感类型所对应的敏感标签；若否，则不添加敏感标签。

其中，本步骤中的识别，可以是通过图像与预存敏感图片进行相似度比较，还可以是先进行光学字符识别(Optical Character Recognition，ocr)，将图像转换成文字后再进行语义识别。预设类型文本，可以是用户事先输入确定哪些文本属于哪种敏感类型的表格。敏感类型可以是身份证或手机号等。

为进一步进行数据安全保护处理，在本步骤S104之后，还可以包括步骤S105：基于包含敏感标签的目标图像，将目标图像的标识框内文本进行模糊处理，得到类似图4所示的图像。图示方框为步骤S103添加的标识框，图中“身份证”为步骤S104添加的敏感标签，标识框内身份证号进行了马赛克处理。其中，敏感标签还可以携带有图像帧的编号和标识框的标号。

需要说明的是，步骤S103的目标图像集合中各个目标图像还未经过裁切处理，除包括有标识框及文本内容外，还包含有待测图像帧集合中人物、物品、景象等其他物体。在本步骤S104中的识别过程中，可以先基于标识框对目标图像进行裁切形成仅保留标识框及文本内容的标识框图像，再进行识别处理以及添加敏感标签，之后可以将添加了敏感标签的标识框图像(如图4所示图像)重新和原目标图像叠加，生成打标后的新位图即敏感图像，它包含有敏感标签、标识框、文本内容、人物、物品、景象和/或马赛克等。

综上，本实施例先将待测视频数据解码，再对解码得到的图像帧中的敏感信息添加标注框和敏感标签，从而能够快速检测出视频中的敏感数据，且实现机器代替人工的方式，提升了视频数据检测的准确率和效率。

再者本申请通过步骤S103和步骤S104的检测，可以实现开放式的敏感信息监督，即检测出同一类别的属于同一个敏感标签下的敏感数据，而不是根据具体的敏感信息去检测。

请参照图5，其为本申请一实施例示出的视频数据检测方法的流程示意图。该方法可由图1所示的电子设备100作为客户端200或服务端300执行，本实施例以电子设备100作为服务端300为例进行说明。该方法包括如下步骤：步骤S201-步骤S206。

步骤S201：获取待测视频数据。详情请参照上述实施例中步骤S101的描述。

步骤S202：解码待测视频数据，得到待测图像帧集合。详情请参照上述实施例中步骤S102的描述。

步骤S203：识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。详情请参照上述实施例中步骤S103的描述。

步骤S204：对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。详情请参照上述实施例中步骤S104的描述。

步骤S205：基于包含敏感标签的目标图像，生成目标敏感文件。

本步骤中的基于包含敏感标签的目标图像是指包含有敏感标签、标识框、文本内容、人物、物品、景象和/或马赛克等物体的敏感图像。

于一实施例中，目标敏感文件可以是一个视频，本步骤可以通过H265等视频编码算法，将敏感图像合成一个离线敏感视频(T.MG文件)，之后可以直接发送给客户端200或生成URI地址链接发送给客户端200，利于用户快速直观查看待测视频数据的敏感检测结果。

于一实施例中，目标敏感文件可以是一个列表信息，包括图像帧的列表信息、敏感标签的列表信息和标识框的列表信息，之后可以直接发送给客户端200或生成URI地址链接发送给客户端200，利于用户快速直观查看待测视频数据的敏感检测结果。

示例性地，目标敏感文件可以如下所示：

[

{0,700,600,50,265,0},

...

{10086,700,600,50,105,tag-id},

...

{19999,700,600,50,265,tag-name}

]

步骤S206：基于目标敏感文件、敏感标签、待测图像帧集合和目标图像集合，生成输出文件。

本步骤中的输出文件可以包括两个分离的文件，一部分为目标敏感文件，另一部分为由敏感标签、待测图像帧集合和目标图像集合等之前步骤所有的元数据文件。之后可以直接发送给客户端200或生成URI地址链接发送给客户端200，以供用户浏览和分享。

元数据文件的设置，可以作为数据基础，利于用户快速对待测视频数据进行剔除、模糊等处理，以便尽快合成不包含敏感数据的视频。

请参照图6，其为本申请一实施例示出的视频数据检测方法的流程示意图。该方法可由图1所示的电子设备100作为客户端200或服务端300执行，本实施例以电子设备100作为服务端300为例进行说明。该方法包括如下步骤：步骤S301-步骤S308。

步骤S301：获取待测视频数据。详情请参照上述实施例中步骤S101的描述。

步骤S302：解码待测视频数据，得到初始图像帧集合。

本步骤可以通过解码工具将待测视频数据通过解码形成多个位图图片(图像帧)，多个位图图片形成初始图像帧集合。

步骤S303：对初始图像帧集合中的每帧图像帧按时间顺序添加编号。

本步骤根据时间顺序给初始图像帧集合中的每帧图像一个编号，以利于之后的判断、识别或检测等步骤。

步骤S304：判断初始图像帧集合中所有图像帧的分辨率是否都等于预设值。

本步骤中的预设值为用户自定义或者默认值，例如720P或1080P。

本步骤中，判断初始图像帧集合中所有图像帧的分辨率是否都等于预设值，若是，执行步骤S306，之后进行下一识别步骤；若否，执行步骤S305，改变分辨率不是预设值的图像帧的分辨率，以生成符合要求的图像帧，之后返回步骤S304，直至初始图像帧集合中所有图像帧的分辨率都等于预设值。

步骤S305：对初始图像帧集合的图像帧进行预处理。

本步骤S305可以包括以下步骤：步骤S3051：判断初始图像帧集合中其中一个图像帧A的分辨率是否大于预设值；步骤S3052：当图像帧A的分辨率大于预设值时，对图像帧A进行压缩处理，直至图像帧A的分辨率小于或者等于预设值；步骤S3053：当图像帧A的分辨率小于或者等于预设值时，判断图像帧A的分辨率是否小于预设值；步骤S3054：当图像帧A的分辨率小于预设值时，对图像帧A进行填充处理，直至图像帧A的分辨率等于预设值；步骤S3055：当图像帧A的分辨率等于预设值时，对初始图像帧集合中下一个图像帧B执行以上步骤，反复循环，直至初始图像帧集合中所有图像帧的分辨率都等于预设值。

其中，压缩处理包括以下步骤：若根据图像帧A的分辨率为A1；预设值为C，那么根据压缩比(A1/C)对图像帧A进行散列的丢弃，最终形成分辨率为预设值的图片。

填充处理包括以下步骤：对图像帧A采用补边(填充黑边等)的方式来进行填充，最终形成分辨率为预设值的图片。

步骤S306：将初始图像帧集合作为待测图像帧集合。

在本步骤之后，可以采用溯源工具对待测图像帧集合中的每帧图像帧添加水印，得到分辨率为预设值的位图信息以及编号的图像帧。

步骤S307：识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。详情请参照上述实施例中步骤S103的描述。

步骤S308：对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。详情请参照上述实施例中步骤S104的描述。

请参照图7，其为本申请一实施例示出的视频数据检测方法的流程示意图。请参照图8，其为本申请一实施例示出的图像深度学习检测算法网络的结构示意图。请参照图9，其为本申请一实施例示出的特征提取预测模块的结构示意图。请参照图10，其为本申请一实施例示出的卷积神经网络算法网络的结构示意图。

该方法可由图1所示的电子设备100作为客户端200或服务端300执行，本实施例以电子设备100作为服务端300为例进行说明。该方法包括如下步骤：步骤S401-步骤S406。

步骤S401：获取待测视频数据。详情请参照上述实施例中步骤S101的描述。

步骤S402：解码待测视频数据，得到待测图像帧集合。详情请参照上述实施例中步骤S102的描述。

步骤S403：将待测图像帧集合输入第一预设识别模型，输出目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。

本步骤中的第一预设识别模型可以是提前训练好的模型，计算机中可以事先存储大量具有不同文本内容的样本图像对第一预设识别模型进行训练。其中，整个训练过程中可以采用数据增强机制，通过随机缩放、裁剪、排布、拼接等方式来产生更多的样本图像，从而提升第一预设识别模型的效果。

于一实施例中，本步骤中的第一预设识别模型包括锚框单元，锚框单元是采用图像深度学习检测算法网络来进行锚框，图像深度学习检测算法网络包括：输入端、特征提取预测模块(Bb)、锚框计算模块(Nk)、输出端，整个网络的具体结构如图8所示。

由于图像深度学习检测算法网络本针对图片中不同文字内容所对应的不同图像分割大小来做的网络，且由于文字内容一般在图像里出现比较小面积，故本图像深度学习检测算法网络的输出端包括两种输出，从而可以具备中小目标都能检测的能力。

如图8和图9所示，本图像深度学习检测算法网络在整个网络的结构中进行了简化，尤其是特征提取预测模块进行了简化，以加速整个算法在视频数据检测时候的速度，申请人对该图像深度学习检测算法网络以及现有技术的YOLO5-X算法和YOLO5-S算法进行了试验，效果数据如下表所示：

由上表可知，本实施例的图像深度学习检测算法网络在简化网络的同时，效果相对现有技术的检测算法有比较好的提升，且训练和运行速度相对于现有技术的检测算法都有不错的提升。

其中，图像深度学习检测算法网络的损失函数采用如下公式进行计算：

L_GIOU＝1-GIOU；

其中，L_GIOU用来计算边框回归bounding box的损失，GIOU为BBox回归的损失,采用如下公式进行计算：

其中，A表示候选框A(candidate bound)，B表示原标记框B(ground truthbound)；C表示包住候选框A和原标记框B的最小方框C，U为候选框A和原标记框B并集(A∪B)的面积，A^c为C的面积；IOU(Intersection-over-Union,交并比)是一种测量在特定数据集中检测相应物体准确度的一个标准，采用如下公式进行计算:

于一其他的实施例中，本步骤中的第一预设识别模型不仅包括上述实施例中采用图像深度学习检测算法网络的锚框单元，还包括跟踪单元，跟踪单元可以采用卡尔曼滤波等策略，用于对待测图像帧集合中连续帧进行跟踪处理，以加速视频处理，提高检测性能。

具体地，由于若第一预设识别模型只包括采用图像深度学习检测算法网络的锚框单元进行逐个锚框，则整个算法的代价较高，平均1帧需要20MS，若待检测视频数据的1秒视频包括20到60帧，则逐个锚框处理的耗时较长，效率较抵。故本实施例利用视频中图像帧相互之间具有的关联性以及视频中文本等物体的移动所具有的连续性，增加了跟踪单元，采用卡尔曼滤波以及匈牙利算法来提高锚框处理的效率，缩短锚框处理的耗时。

其中，跟踪单元所针对的对象可以是根据用户指定或计算机默认的最小算法单元进行确定的，假设用户确定使1帧检测以及4帧追踪构成一个视频锚框处理的最小算法单元，利用这种最小算法单元来加速整个视频锚框处理。则在本步骤中，第1帧图像是采用锚框单元进行锚框处理得到图像中的标识框，第2帧、第3帧、第4帧和第5帧的图像是采用跟踪单元进行对前一帧目标图像进行跟踪处理得到各自图像中的标识框；第6帧图像又是采用锚框单元进行锚框处理得到图像中的标识框，第7帧、第8帧、第9帧和第10帧的图像是采用跟踪单元进行对前一帧目标图像进行跟踪处理得到各自图像中的标识框；第11帧图像又是采用锚框单元进行锚框处理得到图像中的标识框，第12帧、第13帧、第14帧和第15帧的图像是采用跟踪单元进行对前一帧目标图像进行跟踪处理得到各自图像中的标识框；按照预先设定的最小算法单元周期性进行上述操作，直至完成整个视频锚框处理。

综上，本步骤S403可以包括以下步骤:步骤S4031-S4035。

步骤S4031：将基于锚框单元检测到的前一帧的标记框(bbox)转换成前一帧的实际框(detections)，若前一帧为没有任何预测框(tracks)，则将实际框(detections)转换成预测框。

步骤S4032：根据前一帧的预测框，使用卡尔曼滤波对当前帧进行预测，得到新的当前帧的预测框,具体地，基于根据前一帧的预测框在前一帧所在t-1时刻的状态来预测其在当前帧t时刻的状态。

步骤S4033：获取当前帧的实际框。

步骤S4034：基于步骤S4032得到的当前帧的预测框以及步骤S4033得到的当前帧中的实际框，计算当前帧中预测框和实际框的代价矩阵，然后相继进行级联匹配和IOU匹配，最后确定当前帧中预测框和实际框的所有匹配对、未匹配的预测框以及未匹配的实际框。

步骤S4035：根据预先设定的最小算法单元周期性反复进行步骤S4031-S4034，直至完成整个视频锚框处理。

其中，在步骤S4034中，可以先假设当前帧中预测框和实际框的代价矩阵为NxN方阵，计算当前帧中预测框和实际框的代价矩阵包括以下步骤：步骤S1-步骤S6。

步骤S1：对于矩阵的每一行，减去其中最小的元素。

步骤S2：对于矩阵的每一列，减去其中最小的元素。

步骤S3：用最少的水平线或垂直线覆盖矩阵中所有的0。

步骤S4：如果线的数量等于N，则找到了最优分配，算法结束，否则进入步骤S5。

步骤S5：找到没有被任何线覆盖的最小元素，每个没被线覆盖的行减去这个元素，每个被线覆盖的列加上这个元素，返回步骤S3。

步骤S6：对于每个匹配成功的预测框，用其对应的实际框进行更新，并处理未匹配预测框和实际框。

步骤S404：将目标图像集合输入第二预设识别模型，输出敏感图像集合，敏感图像集合中包含预设类型文本的目标图像添加有敏感标签。

本步骤中的第二预设识别模型可以是提前训练好的模型，计算机中可以事先存储大量添加有敏感标签的样本标签图像和标记有标识框的样本文本图像对第二预设识别模型进行训练。

本步骤中的第二预设识别模型可以采用卷积神经网络算法(VGG算法)来进行标签计算。在VGG算法的训练过程中，可以采用添加有敏感标签的样本标签图像和标记有标识框的样本文本图像建立样本空间，一实现VGG的参数训练生成VGG参数。

于一操作过程中，本步骤利用训练好的VGG参数接收标识框的位图信息，进行标签预测，最终实现图像帧以及其对应的敏感标签的输出。

需要说明的是，如图10所示，卷积神经网络算法(VGG算法)网络包括输入模块、完全连接层(fully connected layers)、卷积层(convolution layers)、最大池层数(max-pooling layers)、防过拟合层(Dropout layers)。且为了获得更准确的敏感图像集合，卷积神经网络算法(VGG算法)网络的结构进行了如下优化调整：将3*3(64)的卷积核统一替换成了3*3(128)的卷积核，提供了更多的参数，从而在实际敏感标签预测过程中有5％的精度提升。

步骤S405：基于包含敏感标签的目标图像，合成目标敏感文件。详情请参照上述实施例中步骤S205的描述。

步骤S406：基于目标敏感文件、敏感标签、待测图像帧集合和目标图像集合，生成输出文件。详情请参照上述实施例中步骤S206的描述。

请参照图11，其为本申请一实施例示出的视频数据检测装置400的结构示意图。该装置可应用于图1所示的作为服务端300的电子设备100，该视频数据检测装置400包括：包括：获取模块410、解码模块420、第一识别模块430和第二识别模块440。

其中，各个模块的原理关系如下：获取模块410用于获取待测视频数据；解码模块420用于解码待测视频数据，得到待测图像帧集合；第一识别模块430用于识别出待测图像帧集合中带有文本的目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框；第二识别模块440用于对目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签。

于一实施例中，视频数据检测装置400还包括：合成模块，基于包含敏感标签的目标图像，合成目标敏感文件。

于一实施例中，视频数据检测装置400还包括：输出模块，输出模块用于基于目标敏感文件、敏感标签、待测图像帧集合和目标图像集合，生成输出文件。

于一实施例中，解码模块420还用于：解码待测视频数据，得到初始图像帧集合；对初始图像帧集合中的每帧图像帧按时间顺序添加编号；判断初始图像帧集合中所有图像帧的分辨率是否都等于预设值；当初始图像帧集合中所有图像帧的分辨率不是都等于预设值时，对初始图像帧集合的图像帧进行预处理，直至初始图像帧集合中所有图像帧的分辨率都等于预设值。当初始图像帧集合中所有图像帧的分辨率都等于预设值时，将初始图像帧集合作为待测图像帧集合。

于一实施例中，第一识别模块430还用于：将待测图像帧集合输入第一预设识别模型，输出目标图像集合，目标图像集合中的每帧图像的文本内容标记有标识框。

于一实施例中，第一识别模块430还用于：对待测图像帧集合中连续帧进行跟踪处理。

于一实施例中，第二识别模块440还用于：将目标图像集合输入第二预设识别模型，输出敏感图像集合，敏感图像集合中的包含预设类型文本的目标图像添加有敏感标签。

上述视频数据检测装置400的详细描述，请参见上述实施例中相关方法步骤的描述。

本申请实施例还提供了一种非暂态计算机可读存储介质，包括：程序，当其在电子设备100上运行时，使得电子设备100可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器102(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器102的组合。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已，仅用于说明本申请的技术方案，并不用于限制本申请。对于本技术领域的普通技术人员而言，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频数据检测方法，其特征在于，包括：

获取待测视频数据；

解码所述待测视频数据，得到待测图像帧集合；

识别出所述待测图像帧集合中带有文本的目标图像集合，所述目标图像集合中的每帧图像的文本内容标记有标识框；

对所述目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签；

所述识别出所述待测图像帧集合中带有文本的目标图像集合，所述目标图像集合中的每帧图像的文本内容标记有标识框，包括：

将所述待测图像帧集合输入第一预设识别模型，输出所述目标图像集合，所述目标图像集合中的每帧图像的文本内容标记有标识框；

所述第一预设识别模型包括锚框单元和跟踪单元，其中，所述锚框单采用图像深度学习检测算法网络来进行锚框，所述跟踪单元用于对待测图像帧集合中连续帧进行跟踪处理；所述跟踪单元所针对的对象根据最小算法单元进行确定，其中，使1帧检测以及4帧追踪构成一个所述的最小算法单元。

2.根据权利要求1所述的方法，其特征在于，所述解码所述待测视频数据，得到待测图像帧集合，包括：

解码所述待测视频数据，得到初始图像帧集合；

对所述初始图像帧集合中的每帧图像帧按时间顺序添加编号；

判断所述初始图像帧集合中所有图像帧的分辨率是否都等于预设值；

当所述初始图像帧集合中所有图像帧的分辨率不是都等于预设值时，对所述初始图像帧集合的图像帧进行预处理，直至所述初始图像帧集合中所有图像帧的分辨率都等于预设值；

当所述初始图像帧集合中所有图像帧的分辨率都等于预设值时，将所述初始图像帧集合作为待测图像帧集合。

3.根据权利要求1所述的方法，其特征在于，所述将所述待测图像帧集合输入第一预设识别模型，输出所述目标图像集合，所述目标图像集合中的每帧图像的文本内容标记有标识框，包括：

对所述待测图像帧集合中连续帧进行跟踪处理。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签，包括：

将所述目标图像集合输入第二预设识别模型，输出敏感图像集合，所述敏感图像集合中的包含预设类型文本的目标图像添加有敏感标签。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

基于包含敏感标签的目标图像，合成目标敏感文件。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于所述目标敏感文件、所述敏感标签、所述待测图像帧集合和所述目标图像集合，生成输出文件。

7.一种视频数据检测装置，其特征在于，包括：

获取模块，用于获取待测视频数据；

解码模块，用于解码所述待测视频数据，得到待测图像帧集合；

第一识别模块，用于识别出所述待测图像帧集合中带有文本的目标图像集合，所述目标图像集合中的每帧图像的文本内容标记有标识框；

第二识别模块，用于对所述目标图像集合中的文本内容进行识别，为包含预设类型文本的目标图像添加敏感标签；

8.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至6中任一项所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至6中任一项所述的方法。