CN117292304B - 一种多媒体数据传输控制方法及系统 - Google Patents

一种多媒体数据传输控制方法及系统 Download PDF

Info

Publication number
CN117292304B
CN117292304B CN202311569784.5A CN202311569784A CN117292304B CN 117292304 B CN117292304 B CN 117292304B CN 202311569784 A CN202311569784 A CN 202311569784A CN 117292304 B CN117292304 B CN 117292304B
Authority
CN
China
Prior art keywords
carrier
video
characterization
representation
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311569784.5A
Other languages
English (en)
Other versions
CN117292304A (zh
Inventor
李坚
何梁亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Liangya Technologies Co ltd
Original Assignee
Nanjing Liangya Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Liangya Technologies Co ltd filed Critical Nanjing Liangya Technologies Co ltd
Priority to CN202311569784.5A priority Critical patent/CN117292304B/zh
Publication of CN117292304A publication Critical patent/CN117292304A/zh
Application granted granted Critical
Publication of CN117292304B publication Critical patent/CN117292304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供了一种多媒体数据传输控制方法及系统,包含对频谱描述子进行增强及图像敏感内容识别,每次更新优化的增强操作均至少综合第一视频表征载体,通过视频图像增强后,可以最大限度维持待传输视频数据中的原始图像敏感内容,防止因为视频图像增强破坏图像敏感内容引起的敏感内容误识别的情况,此外,可以增加视频图像增强效果,帮助提升对目标表征载体识别图像敏感内容的精度。之后进行图像敏感内容识别和脱敏传输,具有高稳定性和泛化性,不仅维持视频图像增强的效果,还令视频图像增强后的第二视频表征载体可以维持原始图像敏感内容,增强对图像敏感内容识别精度和可靠性。并且,对于硬件环境的要求不高,适于多场景多媒体数据传输。

Description

一种多媒体数据传输控制方法及系统
技术领域
本申请涉及图像数据处理领域,具体而言,涉及一种多媒体数据传输控制方法及系统。
背景技术
多媒体数据在进行传输时,对数据内容进行脱敏是保护个人隐私和敏感信息的重要环节。例如,通过监控设备采集的特定区域的监控视频时,被监控人员的人脸信息、敏感部位等需要进行脱敏。在进行脱敏前,针对清晰度不足的视频帧图像需要进行增强操作,目前,采用机器学习模型对图像进行增强时,如果模型性能没有优化完善,可能造成增强泛化性差,不仅没有达到增强的效果,还令原图像的信息丢失,影响后续脱敏的准确性。
发明内容
本发明的目的在于提供一种多媒体数据传输控制方法及系统以改善上述问题。
本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种多媒体数据传输控制方法,包括:
获取待传输视频数据的频谱描述子,并确定为第一视频表征载体;
对于所述第一视频表征载体进行更新优化操作;每一次更新优化操作包括:
通过所述第一视频表征载体确定拟增强表征载体,并通过对于过往待传输视频数据得到的过往拟增强表征载体,得到当前更新优化对应的增强状态结果,以及通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到当前更新优化对应的备选表征载体;其中,在首次更新优化操作中,所述拟增强表征载体为所述第一视频表征载体,在第n次更新优化操作中,所述拟增强表征载体通过所述第一视频表征载体和已得到的备选表征载体整合得到,n>1;
将末次更新优化得到的备选表征载体确定成目标表征载体,以及通过对于所述目标表征载体进行实体对象检测得到的目标图像增强变量,对所述第一视频表征载体进行增强操作,得到第二视频表征载体;
根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果;
根据所述敏感内容识别结果对所述待传输视频数据进行脱敏处理后传输。
可选的实施方式中,所述获取待传输视频数据的频谱描述子,包括:
对待传输视频数据进行小波变换,获得所述待传输视频数据的小波描述子;
对于所述待传输视频数据的小波描述子进行卷积平滑操作,得到对应的频谱描述子;
对于一次更新优化操作:
如果是首次更新优化操作,则将所述第一视频表征载体确定成拟增强表征载体,以及通过对于过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述首次更新优化操作对应的备选表征载体;
如果是第二次更新优化操作,则将所述第一视频表征载体和当前更新优化的上一次更新优化操作得到的一个备选表征载体整合成拟增强表征载体,以及通过对于所述过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述第二次更新优化操作对应的备选表征载体;
如果是第三次更新优化操作,则将所述第一视频表征载体和当前更新优化的上两次更新优化得到的两个备选表征载体整合成拟增强表征载体,以及通过对于所述过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述第三次更新优化操作对应的备选表征载体。
可选的实施方式中,所述拟增强表征载体的整合策略,包括:
根据预设的组合先后顺序对已得到的各备选表征载体和所述第一视频表征载体进行表征载体组合操作,得到拟增强表征载体;
或者;
根据已得到的各备选表征载体分别对应的整合调节变量,以及所述第一视频表征载体对应的整合调节变量,对所述各备选表征载体和所述第一视频表征载体进行偏心调节整合,获得拟增强表征载体;其中,每个所述整合调节变量用于指示相应的备选表征载体或所述第一视频表征载体对所述拟增强表征载体的牵涉强度;
所述对于所述目标表征载体进行实体对象检测得到的目标图像增强变量,对所述第一视频表征载体进行增强操作,得到第二视频表征载体,包括:
对所述目标表征载体进行维数调节处理,获得表征载体维数与所述第一视频表征载体对应的过渡表征载体;
对所述过渡表征载体进行标准化操作,得到标准化结果,将所述标准化结果确定成目标图像增强变量;
根据所述目标图像增强变量求取与所述第一视频表征载体的数量积,得到第二视频表征载体。
可选的实施方式中,所述根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果,包括:
对于所述第二视频表征载体进行视频表征载体预测,得到所述第二视频表征载体中具有图像敏感内容的识别置信度;
如果所述识别置信度大于预设的敏感临界置信度,则确定所述待传输视频数据中具有所述图像敏感内容。
可选的实施方式中,所述根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果,包括:
获取待传输视频数据和敏感内容拓扑图;
将所述待传输视频数据输入视频识别神经网络进行语义理解,得到所述待传输视频数据的多个视频帧图像分块的分块表征载体;
通过表征载体解析网络,对所述敏感内容拓扑图进行表征载体解析,得到所述敏感内容拓扑图的敏感内容表征载体,所述敏感内容表征载体表征所述敏感内容拓扑图的敏感层级语义表征向量;
对所述敏感内容表征载体、所述分块表征载体和所述第二视频表征载体进行载体整合,得到目标整合结果;
将所述目标整合结果输入敏感信息分类网络进行敏感信息分类,得到所述待传输视频数据对应的分类敏感信息。
可选的实施方式中,所述表征载体解析网络包括与所述敏感内容拓扑图中的多个拓扑点具有匹配结果的多个表征载体组合算子,所述通过表征载体解析网络,对所述敏感内容拓扑图进行表征载体解析,得到所述敏感内容拓扑图的敏感内容表征载体,包括:
对所述多个拓扑点中每个拓扑点的敏感信息进行语义理解,得到所述每个拓扑点对应的拓扑点语义向量;
将所述敏感内容拓扑图的底层拓扑点对应的拓扑点语义向量输入与所述底层拓扑点对应的表征载体组合算子,得到所述底层拓扑点对应的拓扑点组合表征载体信息;
从所述底层拓扑点的上级拓扑点出发,遍历所述多个拓扑点;将当次浏览到的拓扑点的下级拓扑点对应的拓扑点组合表征载体信息和所述当次浏览到的拓扑点对应的拓扑点语义向量输入与所述当次浏览到的拓扑点对应的表征载体组合算子,得到所述当次浏览到的拓扑点对应的拓扑点组合表征载体信息;
遍历完所述多个拓扑点后,将所述敏感内容拓扑图中顶层拓扑点对应的拓扑点组合表征载体信息确定为所述敏感内容表征载体;
所述视频识别神经网络包括视频帧分块算子、语义理解算子和语义整合算子,所述将所述待传输视频数据输入视频识别神经网络进行语义理解,得到所述待传输视频数据的多个视频帧图像分块的分块表征载体,包括:
将所述待传输视频数据输入所述视频帧分块算子进行视频帧分块操作,得到所述多个视频帧图像分块;
将所述多个视频帧图像分块输入所述语义理解算子进行语义理解,得到所述多个视频帧图像分块对应的初始语义向量、分布向量和区域向量;
将所述初始语义向量、所述分布向量与所述区域向量输入所述语义整合算子对所述多个视频帧图像分块进行互相关语义整合,得到所述分块表征载体;
所述对所述敏感内容表征载体、所述分块表征载体和所述第二视频表征载体进行载体整合,得到目标整合结果包括:
将所述敏感内容表征载体和所述分块表征载体输入载体整合算子进行载体整合,得到初始整合结果;
将所述初始整合结果、所述第二视频表征载体和所述敏感内容表征载体输入载体组合算子进行载体组合,得到所述目标整合结果。
可选的实施方式中,所述载体整合算子包括相关性解析模块、归一映射模块和偏心调节模块,所述将所述敏感内容表征载体和所述分块表征载体输入载体整合算子进行载体整合,得到初始整合结果包括:
将所述分块表征载体与所述敏感内容表征载体输入所述相关性解析模块进行相关性解析,得到目标相关性向量;
将所述目标相关性向量输入所述归一映射模块进行归一映射,得到所述分块表征载体的相关性偏心系数;
将所述相关性偏心系数和所述分块表征载体输入所述偏心调节模块进行偏心调节,得到所述初始整合结果。
可选的实施方式中,所述方法依据调试完成的视频识别神经网络执行,所述视频识别神经网络通过以下步骤调试得到:
获取多媒体学习样例库,所述多媒体学习样例库中的每个多媒体学习样例包括:对一待增强学习样例视频数据挖掘的第一学习样例视频表征载体和相应的学习样例标识信息,所述学习样例标识信息包括学习样例敏感图像内容注释信息,所述学习样例敏感图像内容注释信息用于指示所述图像敏感内容是否分布于相应的学习样例待传输视频数据中;
在所述多媒体学习样例库中选取多媒体学习样例,以及将对应的第一学习样例视频表征载体加载到所述视频识别神经网络中,获得对所述图像敏感内容识别的预测敏感图像内容信息;
至少根据所述预测敏感图像内容信息与相应敏感图像内容注释信息之间的误差,对所述视频识别神经网络中的网络内部配置变量进行优化。
可选的实施方式中,所述网络内部配置变量包括用于增强操作的第一配置变量和用于置信度确定的第二配置变量;所述对所述图像敏感内容识别的预测敏感图像内容信息,包括:
根据所述第一配置变量对所述第一学习样例视频表征载体进行增强操作,得到相应的第二学习样例视频表征载体;
根据所述第二配置变量,对于所述第二学习样例视频表征载体进行视频表征载体预测,得到具有所述图像敏感内容的识别置信度,以及通过所述识别置信度与预设的敏感临界置信度之间的大小关系,得到预测敏感图像内容信息;
所述学习样例标识信息还包括对于相应待增强学习样例视频数据挖掘的标准学习样例视频表征载体,所述标准学习样例视频表征载体为不用增强处理的频谱描述子,所述网络内部配置变量包括用于增强操作的第一配置变量和用于置信度确定的第二配置变量;所述至少根据所述预测敏感图像内容信息与相应敏感图像内容注释信息之间的误差,对所述视频识别神经网络中的网络内部配置变量进行优化,包括:
根据所述第二学习样例视频表征载体与相应标准学习样例视频表征载体之间的第一误差,优化所述第一配置变量;
获得所述预测敏感图像内容信息与相应敏感图像内容注释信息之间的第二误差,以及通过所述第一误差和所述第二误差之间的相关性变量,得到综合误差;
根据所述综合误差,分别优化所述第一配置变量与所述第二配置变量。
第二方面,本申请提供了一种多媒体数据传输控制系统,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中,所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行时,实现以上所述的方法。
本申请至少具有的有益效果:
本申请实施例提供的多媒体数据传输控制方法及系统,涉及过对频谱描述子进行增强及图像敏感内容识别,具体地,获取待传输视频数据的频谱描述子,并确定为第一视频表征载体,然后对第一视频表征载体执行更新优化操作完成视频图像增强,一次更新优化包括:通过第一视频表征载体确定拟增强表征载体,并通过对于过往待传输视频数据得到的过往拟增强表征载体,得到当前更新优化对应的增强状态结果,之后根据增强状态结果对拟增强表征载体进行增强操作,得到当前更新优化对应的备选表征载体,在首次更新优化操作中,拟增强表征载体为第一视频表征载体,在第n次更新优化操作中,拟增强表征载体为第一视频表征载体和已得到的备选表征载体整合得到的,n>1。
本申请实施例中,每次更新优化的增强操作均至少综合第一视频表征载体,即原始待增强的频谱描述子,则通过视频图像增强后,获得的第二视频表征载体可以最大限度维持待传输视频数据中的原始图像敏感内容,防止因为视频图像增强破坏图像敏感内容引起的敏感内容误识别的情况;此外,对多次更新优化而言,后一次更新优化综合了历史各次更新优化的视频图像增强结果(已得到的各个备选表征载体),基于此,可以增加视频图像增强效果,帮助提升对目标表征载体识别图像敏感内容的精度。之后根据通过更新优化增强操作的第二视频表征载体,进行图像敏感内容识别,获得待传输视频数据对于图像敏感内容的敏感内容识别结果,再进行脱敏传输,综上,本申请实施例具有高稳定性和泛化性,不仅维持视频图像增强的效果,还令视频图像增强后的第二视频表征载体可以维持原始图像敏感内容,增强对图像敏感内容识别精度和可靠性。并且,对于硬件环境的要求不高,适于多场景多媒体数据传输。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种多媒体数据传输控制方法的流程图。
图2是本申请实施例提供的多媒体数据传输控制装置的功能模块架构示意图。
图3是本申请实施例提供的一种计算机设备的组成示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例中多媒体数据传输控制方法的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供了一种多媒体数据传输控制方法,该方法应用于计算机设备,如图1所示,该方法包括:
步骤S110,获取待传输视频数据的频谱描述子,并确定为第一视频表征载体。
其中,待传输视频数据可以是各种需要传输的视频多媒体数据,例如监控区域拍摄的监控视频、视频会议视频、计算机视频等,具体不做限定。可以理解的是,本申请实施例在进行增强和敏感内容识别,是针对视频数据中的视频帧图像执行的,在对视频帧图像进行频谱数据提取时,先对待传输视频数据进行小波变换(Wavelet Transform),得到待传输视频数据的频谱,接着对待传输视频数据的小波描述子进行卷积平滑操作(即完成滤波),得到对应的频谱描述子,最后将频谱描述子确定成待传输视频数据对应的第一视频表征载体,表征载体用以表征对应数据的特征信息,通常而言,表征载体的形式可以为向量、矩阵、张量等,本申请实施例中,将频谱描述子作为视频表征载体,频谱描述子为向量时,第一视频表征载体为向量,频谱描述子为矩阵时,第一视频表征载体为矩阵,具体可以根据实际情况进行设置。第一视频表征载体的获取依赖的计算消耗较小,通过较低算力的人工智能芯片即可完成,此外,得到的第一视频表征载体对于待传输视频数据中的核心特征进行了挖掘,可以增加对图像敏感内容识别的精度。
步骤S120,对第一视频表征载体进行更新优化操作,获得每次更新优化对应的备选表征载体。
本申请实施例中,备选表征载体为对第一视频表征载体进行一次增强操作后得到的表征载体,换言之,第一视频表征载体表征待传输视频数据对应的拟增强表征载体,那么,备选表征载体表征待传输视频数据对应的视频图像增强表征载体。在一个示例中,更新优化操作用于对第一视频表征载体进行视频图像增强,一次更新优化操作具体可以包括:在首次更新优化操作时,将第一视频表征载体确定成拟增强表征载体,在n次更新优化操作流程中,将第一视频表征载体和已得到的备选表征载体整合成拟增强表征载体,并且根据对于过往待传输视频数据得到的过往拟增强表征载体集合,得到当前更新优化对应的增强状态结果,接着根据增强状态结果对拟增强表征载体进行增强操作,得到所述当前更新优化对应的备选表征载体,其中,n>1。作为一种实施方案,一次更新优化所使用的神经网络可以为RNN、BiRNN、GRU、LSTM、Transformer等。
例如,在LSTM(Long Short-Term Memory,长短期记忆网络)的示例中,将按照顺序排列的多个视频帧图像按序加载到LSTM(可以理解,在其他实施例中,可以基于类似原来的门控网络执行),依据时序发散LSTM的隐藏状态(hidden state)和细胞状态(cell state),基于上一次的输出确定下一次的输出,在LSTM的头部设置一分类器(Softmax),令LSTM基于学习的知识得到预测结果。
本申请中,除开一般情况下每次更新优化对于视频帧图像进行处理外,当前更新优化的输入还可以为拟增强表征载体,以及根据对于过往待传输视频数据得到的过往拟增强表征载体集合,得到的当前更新优化对应的增强状态结果,增强状态结果为LSTM基于输入数据的中间值计算(如乘加操作)得到的状态信息,接着基于新的输入和之前记忆信息联合得到当前更新优化对应的备选表征载体,并将选取当下一次需要记忆的信息往后一单元进行传播,对下一拟增强视频表征载体进行增强操作。
本申请实施例中,对于第一视频表征载体需要进行多次(如两次或三次)更新优化操作,譬如更新优化两次,代表更新优化操作的计算消耗少,可以降低网络的硬件需求,为了提高增强操作的效果,实际可以更新优化三次,如此,虽增加了计算消耗,但因为每次更新优化进行的增强操作相对简单,仍然不需要较高的硬件支持,在增加视频图像增强的效果下,还降低对硬件的要求,成本低。
对于更新优化操作,以下对第一视频表征载体进行三次更新优化操为例进行说明。
对于首次更新优化操作:将第一视频表征载体确定成拟增强表征载体,以及通过对于过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过增强状态结果对拟增强表征载体进行增强操作,得到首次更新优化操作对应的备选表征载体。
在对第一视频表征载体进行首次更新优化操作的视频图像增强中,获取过往待传输视频数据对应的增强状态结果,将其和当下待传输视频数据对应的待增强视频表征载体共同确定成输入数据,以使LSTM对其进行增强操作,得到LSTM输出的当前待传输视频数据对应的待增强状态结果,以及当前更新优化对应的备选表征载体。在进行增强操作前,可对第一视频表征载体进行维数调节(降维)和数据压缩,具体地,可以通过第一仿射网络转换第一视频表征载体的维数,将第一视频表征载体映射到相同数据域,基于预设的双曲正切算子对第一视频表征载体进行处理,第一仿射网络用于对维数进行下降,双曲正切算子用于对数据数值进行压缩(归一到[-1,1]),双曲正切算子可以预先嵌入在第一仿射网络。
对于加入第一仿射网络以及双曲正切算子,相应的下一次更新优化的拟增强表征载体还要整合第一视频表征载体在仿射网络后得到的拟增强表征载体。
对于第二次更新优化操作:将第一视频表征载体和当前更新优化操作以前的一次更新优化操作得到的一个备选表征载体(首次更新优化操作得到的一个备选表征载体)整合成拟增强表征载体,以及通过对于过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过增强状态结果对拟增强表征载体进行增强操作,得到第二次更新优化操作对应的备选表征载体。
第三次更新优化操作:将第一视频表征载体和当前更新优化操作前的两次更新优化操作得到的两个备选表征载体(首次更新优化操作得到的一个备选表征载体和第二次更新优化操作得到的一个备选表征载体)整合成拟增强表征载体,以及通过对于过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过增强状态结果对拟增强表征载体进行增强操作,得到第三次更新优化操作对应的备选表征载体。
也就是说,首次更新优化操作后的第n次更新优化操作,是将当前更新优化操作以前的各次更新优化操作得到的各备选表征载体和第一视频表征载体,一并整合成拟增强表征载体。
在对第一视频表征载体进行第n次更新优化操作的视频图像增强中,与首次更新优化操作的差异为,拟增强表征载体为根据当前待传输视频数据对应的第一视频表征载体与当前更新优化以前得到各备选表征载体整合得到。
此外,本申请实施例还对表征载体进行整合提供两种策略,通过表征载体整合,将已得到的各备选表征载体和第一视频表征载体,转换成具有更好表征效果的拟增强表征载体,令对拟增强表征载体进行增强操作的同时联合第一视频表征载体和之前每一次视频图像增强结果进行判断,增加视频图像增强的精度,从而帮助对图像敏感内容识别提升精度。
整合策略例如为:
整合策略一:根据预设的组合先后顺序,对已得到的各备选表征载体和第一视频表征载体进行表征载体组合操作,获得拟增强表征载体。
整合策略二:根据已得到的各备选表征载体分别对应的整合调节变量,以及第一视频表征载体对应的整合调节变量,对各备选表征载体和第一视频表征载体进行偏心调节(偏心调节即将整合调节变量乘以第一视频表征载体,完成加权)整合,获得拟增强表征载体。其中,每个整合调节变量用于指示相应的备选表征载体或第一视频表征载体,对拟增强表征载体的牵涉强度,牵涉强度可以认为是两个表征载体互相影响,互相关联的程度,本申请实施例中,每一整合调节变量会直接影响视频图像增强的结果。
本申请实施例每一次更新优化的增强操作均至少综合第一视频表征载体,即原始待增强的频谱描述子,则通过视频图像增强后获得的第二视频表征载体可以最大限度维持待传输视频数据的原始图像敏感内容信息,防止因为视频图像增强破坏图像敏感内容引起的敏感内容误识别的情况;此外,对针对多次更新优化而言,后一次更新优化综合了历史各次更新优化的视频图像增强结果(已得到的各个备选表征载体),基于此,可以增加视频图像增强效果,帮助提升对于目标表征载体识别图像敏感内容的精度。
步骤S130,将末次更新优化得到的备选表征载体确定成目标表征载体,以及通过对于目标表征载体进行实体对象检测得到的目标图像增强变量,对第一视频表征载体进行增强操作,得到第二视频表征载体。
目标图像增强变量可以是通过增强操作输出的一个参数,表现形式可以为一个屏蔽字段,或称掩码,之后根据目标图像增强变量对第一视频表征载体进行增强操作,得到待传输视频数据对应的第二视频表征载体,即视频图像增强后的频谱描述子。
为了得到目标图像增强变量,需先对末次(即最后一次)更新优化得到的目标表征载体进行维数调节(降维),以得到表征载体维数与第一视频表征载体对应的过渡表征载体,接着对过渡表征载体进行标准化操作,得到标准化结果,将标准化结果确定成目标图像增强变量,最后根据目标图像增强变量求取与第一视频表征载体的数量积,获得第二视频表征载体。作为一种实施方式,对于目标表征载体变换为目标图像增强变量,可通过第二仿射网络变换的表征载体维数调节方式,例如将目标表征载体映射到相同值域,基于预设的逻辑函数对表征载体进行处理,第二仿射网络用于对维数进行降维,逻辑函数将取值限制在[0,1],逻辑函数可以预先嵌入在第二仿射网络。
以上,第二视频表征载体为对于第一视频表征载体进行各种处理得到的视频图像增强后的频谱描述子,因为之前每一次处理都能联合第一视频表征载体的信息,所以可以维持住图像敏感内容,同时缓解视频图像增强的计算开销。
步骤S140,根据第二视频表征载体,进行图像敏感内容识别,获得待传输视频数据的敏感内容识别结果。
本申请实施例对第二视频表征载体进行视频表征载体预测,得到第二视频表征载体中具有图像敏感内容的识别置信度,如果识别置信度大于预设的敏感临界置信度,则确定待传输视频数据中具有图像敏感内容。
可选地,对图像敏感内容识别时,可以采用如MobileNet、ShuffleNet、EfficientNet等轻量级模型进行实现,将第二视频表征载体直接加载到轻量级模型,根据轻量级模型解析第二视频表征载体,得到第二视频表征载体中具有图像敏感内容的识别置信度,将其与预设的敏感临界置信度进行大小对比,如果其大于预设的敏感临界置信度,则得到对应的敏感内容识别结果,确定待传输视频数据中具有图像敏感内容;如果其不大于预设的敏感临界置信度,则得到对应的敏感内容识别结果,确定待传输视频数据中没有图像敏感内容。
以上根据经更新优化增强操作的第二视频表征载体,进行图像敏感内容识别,获得待传输视频数据对于图像敏感内容的敏感内容识别结果,再进行脱敏传输,综上,本申请实施例具有高稳定性和泛化性,不仅维持视频图像增强的效果,还令视频图像增强后的第二视频表征载体可以维持原始图像敏感内容,增强对图像敏感内容识别精度和可靠性。并且,对于硬件环境的要求不高,适于多场景多媒体数据传输。
作为另一种实施方案,步骤S140还可以通过以下步骤实现:
S10,获取待传输视频数据和敏感内容拓扑图。
敏感内容拓扑图是收集的各类敏感内容,根据层级关系划分整理得到的拓扑结构,或称树结构,其包含多个拓扑点(或称拓扑节点)。
S20,将待传输视频数据输入视频识别神经网络进行语义理解,得到待传输视频数据的多个视频帧图像分块的分块表征载体。
本申请实施例中,第二视频表征载体可以表征视频帧图像的上下文特征,分块表征载体表征对应视频帧图像分块在视频帧图像中的语义表征向量,将待传输视频数据输入视频识别神经网络后,视频识别神经网络可以结合待传输视频数据的上下文进行语义理解,得到第二视频表征载体和分块表征载体。视频识别神经网络是对事先部署的视频识别神经网络进行语义理解调试得到,事先部署的视频识别神经网络可以包括视频帧分块算子、语义理解算子和语义整合算子,将待传输视频数据输入视频识别神经网络进行语义理解,得到待传输视频数据的第二视频表征载体和待传输视频数据的多个视频帧图像分块的分块表征载体,包括:
S21,将待传输视频数据输入视频帧分块算子进行视频帧分块操作,得到多个视频帧图像分块。
分块的过程例如是基于事先部署的的尺寸将视频帧进行等尺寸切割,或者是基于语义分割得到各个包含对象的图像块。
S22,将多个视频帧图像分块输入语义理解算子进行语义理解,得到多个视频帧图像分块对应的初始语义向量、分布向量和区域向量。
初始语义向量指示对应视频帧图像分块本身的特征,区域向量指示对应视频帧图像分块所在区域位置在待传输视频数据中区域特征,分布向量指示对应视频帧图像分块在所在区域中的分布特征。
S23,将初始语义向量、分布向量与区域向量输入语义整合算子对多个视频帧图像分块进行互相关语义整合,得到第二视频表征载体和分块表征载体。
例如,语义整合算子可以包括Bi-RNN,将初始语义向量、分布向量与区域向量输入到Bi-RNN,采用Bi-RNN对每一视频帧图像分块的上下文特征进行整合,获得每一视频帧图像分块的分块表征载体。或者,对每一视频帧图像分块的分块表征载体进行语义聚合,得到第二视频表征载体,例如对每一视频帧图像分块的分块表征载体进行平均,得到第二视频表征载体。
S30,通过表征载体解析网络,对敏感内容拓扑图进行表征载体解析,得到敏感内容拓扑图的敏感内容表征载体,敏感内容表征载体表征敏感内容拓扑图的敏感层级语义表征向量。
敏感内容表征载体表征敏感内容拓扑图的敏感层级语义表征向量,敏感内容拓扑图的敏感层级语义表征向量可以包括敏感内容拓扑图的层级和语义两重特征信息,敏感内容拓扑图的层级特征例如是敏感内容拓扑图中敏感内容的层级关系和各层敏感内容之间的牵涉情况,敏感内容拓扑图的语义信息例如是自底层拓扑点到顶层拓扑点的合并语义信息。
表征载体解析网络可以是对事先部署的表征载体解析网络进行表征载体解析调试后获得,事先部署的表征载体解析网络包括与事先部署的敏感内容拓扑图中的多个拓扑点具有匹配结果的多个表征载体组合算子,例如,通过表征载体解析网络,对敏感内容拓扑图进行表征载体解析,得到敏感内容拓扑图的敏感内容表征载体,包括:
S01,对多个拓扑点中每个拓扑点的敏感信息进行语义理解,得到每个拓扑点对应的拓扑点语义向量。
拓扑点语义向量表征拓扑点的敏感信息本身语义,表征载体解析网络还包括敏感内容语义理解算子,将每个拓扑点的敏感信息输入敏感内容语义理解算子进行语义理解,得到每个拓扑点对应的拓扑点语义向量。
S02,将敏感内容拓扑图的底层拓扑点对应的拓扑点语义向量输入与底层拓扑点对应的表征载体组合算子,得到底层拓扑点对应的拓扑点组合表征载体信息。
S03,从底层拓扑点的上级拓扑点出发,遍历多个拓扑点。
S04,将当次浏览到的拓扑点的下级拓扑点对应的拓扑点组合表征载体信息和当次浏览到的拓扑点对应的拓扑点语义向量输入与当次浏览到的拓扑点对应的表征载体组合算子,得到当次浏览到的拓扑点对应的拓扑点组合表征载体信息。
拓扑点组合表征载体信息可以表征自底层拓扑点到对应拓扑点的层级关系与合并语义信息。
S05,遍历完多个拓扑点后,将敏感内容拓扑图中顶层拓扑点对应的拓扑点组合表征载体信息确定为敏感内容表征载体。
例如,通过表征载体解析网络,对敏感内容拓扑图进行表征载体解析,得到敏感内容拓扑图的敏感内容表征载体可以包括通过表征载体解析网络,对敏感内容拓扑图进行表征载体解析,得到敏感内容拓扑图的敏感内容表征向量,通过表征载体解析网络,对敏感内容拓扑图进行表征载体解析,得到敏感内容拓扑图的敏感内容表征向量包括对多个拓扑点中每个拓扑点的敏感信息进行语义理解,得到每个拓扑点对应的拓扑点语义向量,将敏感内容拓扑图的底层拓扑点对应的拓扑点语义向量加载到表征载体解析网络中与底层拓扑点对应的表征载体组合算子,得到底层拓扑点对应的拓扑点组合表征向量,自底层拓扑点的上级拓扑点出发,从下往上遍历多个拓扑点,将当次浏览到的拓扑点的下级拓扑点对应的拓扑点组合表征向量和当次浏览到的拓扑点对应的拓扑点语义向量加载到表征载体解析网络中与当次浏览到的拓扑点对应的表征载体组合算子,得到当次浏览到的拓扑点对应的拓扑点组合表征向量,遍历完多个拓扑点后,将敏感内容拓扑图中顶层拓扑点对应的拓扑点组合表征向量确定为敏感内容表征向量。
基于此,采用包含与敏感内容拓扑图中的多个拓扑点具有匹配结果的多个表征载体组合算子的表征载体挖掘网络对敏感内容拓扑图进行表征载体挖掘,以合并敏感内容拓扑图自底层拓扑点到顶层拓扑点的层级关系与语义信息,更准确地对敏感内容拓扑图特征进行表征。
S40,对敏感内容表征载体、分块表征载体和第二视频表征载体进行载体整合,得到目标整合结果。
目标整合结果(例如整合后的向量)为将待传输视频数据的语义表征向量与敏感内容拓扑图的层级表征向量和语义表征向量整合后的视频帧图像表征,可以挖掘待传输视频数据与敏感内容拓扑图的特征间相关性。
对敏感内容表征载体、分块表征载体和第二视频表征载体进行载体整合,得到目标整合结果,包括:
S41,将敏感内容表征载体和分块表征载体输入载体整合算子进行载体整合,得到初始整合结果。
初始整合结果为嵌入敏感内容拓扑图的敏感层级语义表征向量的视频帧图像表征,例如,载体整合算子可以对事先部署的载体整合算子进行载体整合调试后得到,事先部署的载体整合算子包括相关性解析模块、归一映射模块和偏心调节模块,将敏感内容表征载体和分块表征载体输入载体整合算子进行载体整合,得到初始整合结果,包括:
S51,将分块表征载体与敏感内容表征载体输入相关性解析模块进行相关性解析,得到目标相关性向量。
目标相关性向量表征分块表征载体与敏感内容表征载体间的相关程度,或称牵涉程度。例如,相关性解析模块可以包括相关性确定单元,将分块表征载体与敏感内容表征载体输入相关性确定单元进行相关性确定,得到目标相关性向量。相关性确定单元可以采用tanh函数,在分块表征载体为词表征向量,敏感内容表征载体为敏感内容表征向量时,目标相关性向量可以通过sigmoid函数确定。
S52,将目标相关性向量输入归一映射模块进行归一映射,得到分块表征载体的相关性偏心系数。
例如,归一映射模块可以为softmax,偏心系数为偏心调节时使用的权值。
S53,将相关性偏心系数和分块表征载体输入偏心调节模块进行偏心调节,得到初始整合结果。
S42,将初始整合结果、第二视频表征载体和敏感内容表征载体输入载体组合算子进行载体组合,得到目标整合结果。
载体组合的方式可以为向量拼接,即向量首尾相连。载体组合算子中可以包括权重数组(如权重矩阵)和非线性函数,向量拼接得到拼接结果后,将拼接结果和权重数组进行相乘,将相乘结果加载至非线性函数(如tanh函数)进行计算,即得到目标整合结果。
S50,将目标整合结果输入敏感信息分类网络进行敏感信息分类,得到待传输视频数据对应的分类敏感信息。
分类敏感信息为与待传输视频数据对应的目标敏感内容的标记,目标敏感内容为敏感内容拓扑图的多个敏感内容中与待传输视频数据对应的一个或多个敏感内容。
敏感信息分类网络可以是对事先部署的敏感信息分类网络进行敏感信息分类调试获得,事先部署的敏感信息分类网络包括一个仿射网络和一个输出网络。输出网络可以为逻辑函数,用于对整合向量进行敏感信息分类(对每一个分类进行置信度输出),得到目标敏感内容标记。
可选地,分类敏感信息可以为敏感内容拓扑图中任一底层拓扑点敏感内容对应的底层敏感内容信息,在上述将目标整合结果输入敏感信息分类网络进行敏感信息分类,得到待传输视频数据对应的分类敏感信息之后,方法还包括:
获取敏感内容关联信息,敏感内容关联信息表征底层敏感内容信息与底层敏感内容信息对应的多层级敏感内容信息的匹配结果;通过敏感内容关联信息,确定与分类敏感信息对应的目标多层级敏感内容信息。
例如,底层敏感内容信息包括底层敏感内容标记,底层敏感内容信息对应的多层级敏感内容信息包括底层敏感内容标记对应的多级敏感内容标记,敏感内容关联信息表征底层敏感内容标记与底层敏感内容标记对应的多级敏感内容标记的匹配结果。底层敏感内容标记为敏感内容拓扑图中任一底层拓扑点敏感内容对应的敏感内容标记,多级敏感内容标记为通过对应底层拓扑点敏感内容至顶层拓扑点敏感内容的敏感内容路径对应的多级敏感内容标记。
可选地,在分类敏感信息包括多个底层敏感内容标记时,通过敏感内容关联信息,确定与分类敏感信息对应的目标多层级敏感内容信息,包括:通过敏感内容关联信息,确定与多个底层敏感内容标记对应的多个目标多级敏感内容标记;在上述通过敏感内容关联信息,确定和多个底层敏感内容标记对应的多个目标多级敏感内容标记之后,可以通过多个目标多级敏感内容标记,生成目标敏感内容标记拓扑图。
基于此,通过敏感信息分类网络标注最底层敏感内容,根据底层敏感内容信息与底层敏感内容信息对应的多层级敏感内容信息的匹配结果确定与分类敏感信息对应的目标多层级敏感内容信息,增加了敏感信息分类的准确性。本申请实施例可通过对事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络进行联合调试,得到视频识别神经网络、表征载体解析网络、载体整合算子、载体组合算子和敏感信息分类网络。
下面介绍调试流程:
T10,获取视频数据学习样例和视频数据学习样例对应的预设的分类敏感信息。
预设的分类敏感信息为对视频数据学习样例事先注释的事先部署的敏感内容标记。
T20,将视频数据学习样例输入事先部署的视频识别神经网络进行语义挖掘,得到视频数据学习样例的学习样例第二视频表征载体和视频数据学习样例的多个学习样例视频帧图像分块的学习样例分块表征载体。
T30,通过事先部署的表征载体解析网络,对敏感内容拓扑图进行表征载体挖掘,得到敏感内容拓扑图的学习样例敏感内容表征载体。
T40,将学习样例敏感内容表征载体和学习样例分块表征载体输入事先部署的载体整合算子进行载体整合,得到学习样例初始整合结果。
T50,将学习样例初始整合结果、学习样例第二视频表征载体和学习样例敏感内容表征载体输入事先部署的载体组合算子进行载体组合,得到学习样例目标整合结果。
T60,将学习样例目标整合结果输入事先部署的敏感信息分类网络进行敏感信息分类,得到视频数据学习样例对应的学习样例分类敏感信息。
T70,通过预设的分类敏感信息和学习样例分类敏感信息确定目标误差。
T80,通过目标误差调试事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络,得到视频识别神经网络、表征载体解析网络、载体整合算子、载体组合算子和敏感信息分类网络。
可选地,学习样例分类敏感信息包括视频数据学习样例的学习样例敏感内容标记;目标误差包括敏感内容标记误差;通过预设的分类敏感信息和学习样例分类敏感信息,确定目标误差包括:基于事先部署的敏感内容标记和学习样例敏感内容标记确定敏感内容标记误差。
例如,基于事先部署的敏感内容标记和学习样例敏感内容标记,确定敏感内容标记误差包括通过事先部署的误差函数(如交叉熵函数),确定事先部署的敏感内容标记和学习样例敏感内容标记间的敏感内容标记误差。敏感内容标记误差表征事先部署的敏感内容标记和学习样例敏感内容标记间的误差。
可选地,通过目标误差,调试事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络,得到视频识别神经网络、表征载体解析网络、载体整合算子、载体组合算子和敏感信息分类网络包括:通过目标误差,迭代优化事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络的网络内部配置变量;通过迭代优化后的事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络,重复T20到通过目标误差,迭代优化事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络的网络内部配置变量的敏感信息分类调试迭代,到通过目标误差,迭代优化事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络的网络内部配置变量的敏感信息分类调试迭代,到符合敏感信息分类收敛要求(如调试次数达到最大次数、网络的内配配置变量,如权重、偏置的变化幅度趋于较小范围、误差不再减小等);将符合敏感信息分类收敛要求时获得的事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络,作为视频识别神经网络、表征载体解析网络、载体整合算子、载体组合算子和敏感信息分类网络。
基于此,采用对事先部署的视频识别神经网络、事先部署的表征载体解析网络、事先部署的载体整合算子、事先部署的载体组合算子和事先部署的敏感信息分类网络进行协同调试,不仅提升了调试的速度,且敏感信息分类的精度得到保障。
综上,本申请实施例对视频帧图像进行敏感信息分类时,采用具有视频帧分块算子、语义理解算子和语义整合算子的视频识别神经网络对待传输视频数据进行上下文语义理解,完成待传输视频数据上下文语义表征向量整合,如此可以增加视频帧语义表征向量的准确度;同时基于包含与敏感内容拓扑图中的多个拓扑点具有匹配结果的多个表征载体组合算子的表征载体挖掘算子对敏感内容拓扑图进行表征载体挖掘,合并敏感内容拓扑图自底层拓扑点到顶层拓扑点的层级关系和语义表征向量,更准确地表征敏感内容拓扑图特征;此外,通过载体整合算子和载体组合算子对敏感内容拓扑图与待传输视频数据的特征进行双重合并,更加提高目标整合结果对视频帧图像特征的表征准确度,采用目标整合结果中视频帧图像和敏感内容之间的底层语义相关以及敏感内容间的层级牵涉情况进行敏感内容识别,可以更加准确地对敏感信息进行分类。
步骤S150,根据敏感内容识别结果对待传输视频数据进行脱敏处理后传输。
例如,对于识别到的敏感内容,基于诸如模糊化、遮挡屏蔽、区域马赛克化、像素画、图像重采样等方式进行脱敏,将脱敏后的视频数据经过网络发送至目标终端。
作为一种实施方案,视频识别神经网络通过以下步骤进行调试得到:
步骤T110,获取多媒体学习样例库。
多媒体学习样例库中的每个多媒体学习样例包括对一待增强学习样例视频数据挖掘的第一学习样例视频表征载体和相应的学习样例标识信息。学习样例标识信息包括学习样例敏感图像内容注释信息,学习样例敏感图像内容注释信息用于指示图像敏感内容是否分布于相应学习样例待传输视频数据中。
步骤T120,在多媒体学习样例库中选取多媒体学习样例,以及将对应的第一学习样例视频表征载体加载到视频识别神经网络中,获得对图像敏感内容识别的预测敏感图像内容信息。
步骤T130,至少根据预测敏感图像内容信息与相应敏感图像内容注释信息之间的误差,对视频识别神经网络中的网络内部配置变量进行优化。
视频识别神经网络的调试过程为一个更新优化的过程,每次更新优化主要是优化网络内部配置变量,在符合更新优化条件(即收敛要求,如更新优化的次数达到最大次数、网络的内配配置变量,如权重、偏置的变化幅度趋于较小范围、误差不再减小等)后,得到调试完成的视频识别神经网络。
通过本申请实施例的视频识别神经网络的构思,网络内部配置变量包括用于增强操作的第一配置变量和用于置信度确定的第二配置变量,则对图像敏感内容识别的预测敏感图像内容信息,可基于以下方式得到:根据第一配置变量对第一学习样例视频表征载体进行增强操作,得到相应的第二学习样例视频表征载体;再根据第二配置变量,对于第二学习样例视频表征载体进行视频表征载体预测,得到具有图像敏感内容的识别置信度,以及通过识别置信度与预设的敏感临界置信度之间的大小关系,获得预测敏感图像内容信息。
视频识别神经网络的每次更新优化调试均涉及第一配置变量和第二配置变量的优化,对于优化过程,主要为依据增强操作的结果和学习样例标识信息之间的第一误差,获得增强操作对应的第一误差值,以及通过预测敏感内容与学习样例标识信息之间的第二误差,获得图像敏感内容识别对应的第二误差值。
具体而言,学习样例标识信息还包括对于相应待增强学习样例视频数据挖掘的标准学习样例视频表征载体,标准学习样例视频表征载体为不用增强处理的频谱描述子,那么,根据第二学习样例视频表征载体与相应标准学习样例视频表征载体之间的第一误差,优化第一配置变量;得到预测敏感图像内容信息与相应敏感图像内容注释信息之间的第二误差,以及通过第一误差和第二误差之间的相关性变量(即关联程度),得到综合误差;之后根据综合误差分别优化第一配置变量与第二配置变量。
对于第一误差,其为一个第一误差值,其可基于计算MSE得到,对于第二误差,其为一个第二误差值,其可基于计算交叉熵得到。对于综合误差,其为一个综合误差值,可以根据预设加权系数(即权重)对第一误差和第二误差进行加权求和得到。
基于与图1中所示方法相同的原理,本申请实施例中还提供了一种多媒体数据传输控制装置10,如图2所示,该装置10包括:
特征挖掘模块11,用于获取待传输视频数据的频谱描述子,并确定为第一视频表征载体;
更新优化模块12,用于对所述第一视频表征载体进行更新优化操作;每一次更新优化操作包括:
通过所述第一视频表征载体确定拟增强表征载体,并通过对于过往待传输视频数据得到的过往拟增强表征载体,得到当前更新优化对应的增强状态结果,以及通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述当前更新优化对应的备选表征载体;其中,在首次更新优化操作中,所述拟增强表征载体为所述第一视频表征载体,在第n次更新优化操作中,所述拟增强表征载体为所述第一视频表征载体和已得到的备选表征载体整合得到,n>1;
数据增强模块13,用于将末次更新优化得到的备选表征载体确定成目标表征载体,以及通过对于所述目标表征载体进行实体对象检测得到的目标图像增强变量,对所述第一视频表征载体进行增强操作,得到第二视频表征载体;
敏感识别模块14,用于根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果;
数据传输模块15,用于根据所述敏感内容识别结果对所述待传输视频数据进行脱敏处理后传输。
上述实施例从虚拟模块的角度介绍了多媒体数据传输控制装置10,下述从实体模块的角度介绍一种计算机设备,具体如下所示:
本申请实施例提供了一种计算机设备,如图3所示,计算机设备100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,计算机设备100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该计算机设备100的结构并不构成对本申请实施例的限定。
处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种计算机设备作为多媒体数据传输控制系统,本申请实施例中的计算机设备包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,实现本申请所提供的方法的技术方案。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种多媒体数据传输控制方法,其特征在于,包括:
获取待传输视频数据的频谱描述子,并确定为第一视频表征载体;
对于所述第一视频表征载体进行更新优化操作;每一次更新优化操作包括:
通过所述第一视频表征载体确定拟增强表征载体,并通过对于过往待传输视频数据得到的过往拟增强表征载体,得到当前更新优化对应的增强状态结果,以及通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到当前更新优化对应的备选表征载体;其中,在首次更新优化操作中,所述拟增强表征载体为所述第一视频表征载体,在第n次更新优化操作中,所述拟增强表征载体通过所述第一视频表征载体和已得到的备选表征载体整合得到,n>1;
将末次更新优化得到的备选表征载体确定成目标表征载体,以及通过对于所述目标表征载体进行实体对象检测得到的目标图像增强变量,对所述第一视频表征载体进行增强操作,得到第二视频表征载体;
根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果;
根据所述敏感内容识别结果对所述待传输视频数据进行脱敏处理后传输。
2.根据权利要求1所述的多媒体数据传输控制方法,其特征在于,所述获取待传输视频数据的频谱描述子,包括:
对待传输视频数据进行小波变换,获得所述待传输视频数据的小波描述子;
对于所述待传输视频数据的小波描述子进行卷积平滑操作,得到对应的频谱描述子;
对于一次更新优化操作:
如果是首次更新优化操作,则将所述第一视频表征载体确定成拟增强表征载体,以及通过对于过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述首次更新优化操作对应的备选表征载体;
如果是第二次更新优化操作,则将所述第一视频表征载体和当前更新优化的上一次更新优化操作得到的一个备选表征载体整合成拟增强表征载体,以及通过对于所述过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述第二次更新优化操作对应的备选表征载体;
如果是第三次更新优化操作,则将所述第一视频表征载体和当前更新优化的上两次更新优化得到的两个备选表征载体整合成拟增强表征载体,以及通过对于所述过往待传输视频数据得到的相应过往拟增强表征载体,得到对应的增强状态结果,并通过所述增强状态结果对所述拟增强表征载体进行增强操作,得到所述第三次更新优化操作对应的备选表征载体。
3.根据权利要求1所述的多媒体数据传输控制方法,其特征在于,所述拟增强表征载体的整合策略,包括:
根据预设的组合先后顺序对已得到的各备选表征载体和所述第一视频表征载体进行表征载体组合操作,得到拟增强表征载体;
或者;
根据已得到的各备选表征载体分别对应的整合调节变量,以及所述第一视频表征载体对应的整合调节变量,对所述各备选表征载体和所述第一视频表征载体进行偏心调节整合,获得拟增强表征载体;其中,每个所述整合调节变量用于指示相应的备选表征载体或所述第一视频表征载体对所述拟增强表征载体的牵涉强度;
所述对于所述目标表征载体进行实体对象检测得到的目标图像增强变量,对所述第一视频表征载体进行增强操作,得到第二视频表征载体,包括:
对所述目标表征载体进行维数调节处理,获得表征载体维数与所述第一视频表征载体对应的过渡表征载体;
对所述过渡表征载体进行标准化操作,得到标准化结果,将所述标准化结果确定成目标图像增强变量;
根据所述目标图像增强变量求取与所述第一视频表征载体的数量积,得到第二视频表征载体。
4.根据权利要求1所述的多媒体数据传输控制方法,其特征在于,所述根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果,包括:
对于所述第二视频表征载体进行视频表征载体预测,得到所述第二视频表征载体中具有图像敏感内容的识别置信度;
如果所述识别置信度大于预设的敏感临界置信度,则确定所述待传输视频数据中具有所述图像敏感内容。
5.根据权利要求1所述的多媒体数据传输控制方法,其特征在于,所述根据所述第二视频表征载体,进行图像敏感内容识别,获得所述待传输视频数据的敏感内容识别结果,包括:
获取待传输视频数据和敏感内容拓扑图;
将所述待传输视频数据输入视频识别神经网络进行语义理解,得到所述待传输视频数据的多个视频帧图像分块的分块表征载体;
通过表征载体解析网络,对所述敏感内容拓扑图进行表征载体解析,得到所述敏感内容拓扑图的敏感内容表征载体,所述敏感内容表征载体表征所述敏感内容拓扑图的敏感层级语义表征向量;
对所述敏感内容表征载体、所述分块表征载体和所述第二视频表征载体进行载体整合,得到目标整合结果;
将所述目标整合结果输入敏感信息分类网络进行敏感信息分类,得到所述待传输视频数据对应的分类敏感信息。
6.根据权利要求5所述的多媒体数据传输控制方法,其特征在于,所述表征载体解析网络包括与所述敏感内容拓扑图中的多个拓扑点具有匹配结果的多个表征载体组合算子,所述通过表征载体解析网络,对所述敏感内容拓扑图进行表征载体解析,得到所述敏感内容拓扑图的敏感内容表征载体,包括:
对所述多个拓扑点中每个拓扑点的敏感信息进行语义理解,得到所述每个拓扑点对应的拓扑点语义向量;
将所述敏感内容拓扑图的底层拓扑点对应的拓扑点语义向量输入与所述底层拓扑点对应的表征载体组合算子,得到所述底层拓扑点对应的拓扑点组合表征载体信息;
从所述底层拓扑点的上级拓扑点出发,遍历所述多个拓扑点;将当次浏览到的拓扑点的下级拓扑点对应的拓扑点组合表征载体信息和所述当次浏览到的拓扑点对应的拓扑点语义向量输入与所述当次浏览到的拓扑点对应的表征载体组合算子,得到所述当次浏览到的拓扑点对应的拓扑点组合表征载体信息;
遍历完所述多个拓扑点后,将所述敏感内容拓扑图中顶层拓扑点对应的拓扑点组合表征载体信息确定为所述敏感内容表征载体;
所述视频识别神经网络包括视频帧分块算子、语义理解算子和语义整合算子,所述将所述待传输视频数据输入视频识别神经网络进行语义理解,得到所述待传输视频数据的多个视频帧图像分块的分块表征载体,包括:
将所述待传输视频数据输入所述视频帧分块算子进行视频帧分块操作,得到所述多个视频帧图像分块;
将所述多个视频帧图像分块输入所述语义理解算子进行语义理解,得到所述多个视频帧图像分块对应的初始语义向量、分布向量和区域向量;
将所述初始语义向量、所述分布向量与所述区域向量输入所述语义整合算子对所述多个视频帧图像分块进行互相关语义整合,得到所述分块表征载体;
所述对所述敏感内容表征载体、所述分块表征载体和所述第二视频表征载体进行载体整合,得到目标整合结果包括:
将所述敏感内容表征载体和所述分块表征载体输入载体整合算子进行载体整合,得到初始整合结果;
将所述初始整合结果、所述第二视频表征载体和所述敏感内容表征载体输入载体组合算子进行载体组合,得到所述目标整合结果。
7.根据权利要求6所述的多媒体数据传输控制方法,其特征在于,所述载体整合算子包括相关性解析模块、归一映射模块和偏心调节模块,所述将所述敏感内容表征载体和所述分块表征载体输入载体整合算子进行载体整合,得到初始整合结果包括:
将所述分块表征载体与所述敏感内容表征载体输入所述相关性解析模块进行相关性解析,得到目标相关性向量;
将所述目标相关性向量输入所述归一映射模块进行归一映射,得到所述分块表征载体的相关性偏心系数;
将所述相关性偏心系数和所述分块表征载体输入所述偏心调节模块进行偏心调节,得到所述初始整合结果。
8.根据权利要求1~7任一项所述的多媒体数据传输控制方法,其特征在于,所述方法依据调试完成的视频识别神经网络执行,所述视频识别神经网络通过以下步骤调试得到:
获取多媒体学习样例库,所述多媒体学习样例库中的每个多媒体学习样例包括:对一待增强学习样例视频数据挖掘的第一学习样例视频表征载体和相应的学习样例标识信息,所述学习样例标识信息包括学习样例敏感图像内容注释信息,所述学习样例敏感图像内容注释信息用于指示所述图像敏感内容是否分布于相应的学习样例待传输视频数据中;
在所述多媒体学习样例库中选取多媒体学习样例,以及将对应的第一学习样例视频表征载体加载到所述视频识别神经网络中,获得对所述图像敏感内容识别的预测敏感图像内容信息;
至少根据所述预测敏感图像内容信息与相应敏感图像内容注释信息之间的误差,对所述视频识别神经网络中的网络内部配置变量进行优化。
9.根据权利要求8所述的多媒体数据传输控制方法,其特征在于,所述网络内部配置变量包括用于增强操作的第一配置变量和用于置信度确定的第二配置变量;所述对所述图像敏感内容识别的预测敏感图像内容信息,包括:
根据所述第一配置变量对所述第一学习样例视频表征载体进行增强操作,得到相应的第二学习样例视频表征载体;
根据所述第二配置变量,对于所述第二学习样例视频表征载体进行视频表征载体预测,得到具有所述图像敏感内容的识别置信度,以及通过所述识别置信度与预设的敏感临界置信度之间的大小关系,得到预测敏感图像内容信息;
所述学习样例标识信息还包括对于相应待增强学习样例视频数据挖掘的标准学习样例视频表征载体,所述标准学习样例视频表征载体为不用增强处理的频谱描述子,所述网络内部配置变量包括用于增强操作的第一配置变量和用于置信度确定的第二配置变量;所述至少根据所述预测敏感图像内容信息与相应敏感图像内容注释信息之间的误差,对所述视频识别神经网络中的网络内部配置变量进行优化,包括:
根据所述第二学习样例视频表征载体与相应标准学习样例视频表征载体之间的第一误差,优化所述第一配置变量;
获得所述预测敏感图像内容信息与相应敏感图像内容注释信息之间的第二误差,以及通过所述第一误差和所述第二误差之间的相关性变量,得到综合误差;
根据所述综合误差,分别优化所述第一配置变量与所述第二配置变量。
10.一种多媒体数据传输控制系统,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中,所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如权利要求1~9任一项所述的方法。
CN202311569784.5A 2023-11-23 2023-11-23 一种多媒体数据传输控制方法及系统 Active CN117292304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311569784.5A CN117292304B (zh) 2023-11-23 2023-11-23 一种多媒体数据传输控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311569784.5A CN117292304B (zh) 2023-11-23 2023-11-23 一种多媒体数据传输控制方法及系统

Publications (2)

Publication Number Publication Date
CN117292304A CN117292304A (zh) 2023-12-26
CN117292304B true CN117292304B (zh) 2024-01-23

Family

ID=89253795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311569784.5A Active CN117292304B (zh) 2023-11-23 2023-11-23 一种多媒体数据传输控制方法及系统

Country Status (1)

Country Link
CN (1) CN117292304B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765467A (zh) * 2018-06-21 2018-11-06 西安胡门网络技术有限公司 一种基于视频检测的运动小目标检测跟踪方法
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
CN111052232A (zh) * 2017-07-03 2020-04-21 耶路撒冷希伯来大学伊森姆研究发展有限公司 使用视觉信息增强视频中人类说话者的语音信号的方法和系统
CN115829909A (zh) * 2022-05-27 2023-03-21 华侨大学 一种基于特征增强和频谱分析的伪造检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111052232A (zh) * 2017-07-03 2020-04-21 耶路撒冷希伯来大学伊森姆研究发展有限公司 使用视觉信息增强视频中人类说话者的语音信号的方法和系统
CN108765467A (zh) * 2018-06-21 2018-11-06 西安胡门网络技术有限公司 一种基于视频检测的运动小目标检测跟踪方法
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
CN115829909A (zh) * 2022-05-27 2023-03-21 华侨大学 一种基于特征增强和频谱分析的伪造检测方法

Also Published As

Publication number Publication date
CN117292304A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
Wang et al. A unified convolutional neural network integrated with conditional random field for pipe defect segmentation
CN112184508B (zh) 一种用于图像处理的学生模型的训练方法及装置
CN111950329A (zh) 目标检测及模型训练方法、装置、计算机设备和存储介质
US9811760B2 (en) Online per-feature descriptor customization
CN111191533B (zh) 行人重识别的处理方法、装置、计算机设备和存储介质
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN109285105A (zh) 水印检测方法、装置、计算机设备和存储介质
CN110909784B (zh) 一种图像识别模型的训练方法、装置及电子设备
CN112966754B (zh) 样本筛选方法、样本筛选装置及终端设备
CN111861463A (zh) 基于区块链和人工智能的信息智能识别方法及大数据平台
Ni et al. An improved adaptive ORB-SLAM method for monocular vision robot under dynamic environments
CN115546601A (zh) 一种多目标识别模型及其构建方法、装置及应用
WO2019100348A1 (zh) 图像检索方法和装置以及图像库的生成方法和装置
CN110135428B (zh) 图像分割处理方法和装置
CN112862730B (zh) 点云特征增强方法、装置、计算机设备和存储介质
Ye et al. A two-stage detection method of copy-move forgery based on parallel feature fusion
CN117522923A (zh) 融合多模态特征的目标跟踪系统及方法
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质
CN117292304B (zh) 一种多媒体数据传输控制方法及系统
CN111738290A (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN113673583A (zh) 一种图像识别方法、识别网络的训练方法及相关装置
CN113591765A (zh) 一种基于实例分割算法的异物检测方法及系统
CN113159079A (zh) 目标检测方法、装置、计算机设备和存储介质
CN116521761B (zh) 基于人工智能的传感器运行行为挖掘方法及系统
CN118037738B (zh) 一种沥青路面灌缝胶黏结性能检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant