CN117078564B - 视频会议画面的智能生成方法及其系统 - Google Patents

视频会议画面的智能生成方法及其系统 Download PDF

Info

Publication number
CN117078564B
CN117078564B CN202311336444.8A CN202311336444A CN117078564B CN 117078564 B CN117078564 B CN 117078564B CN 202311336444 A CN202311336444 A CN 202311336444A CN 117078564 B CN117078564 B CN 117078564B
Authority
CN
China
Prior art keywords
picture
damaged
damage
video conference
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311336444.8A
Other languages
English (en)
Other versions
CN117078564A (zh
Inventor
周磊
朱云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iactive Network Co ltd
Original Assignee
Beijing Iactive Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iactive Network Co ltd filed Critical Beijing Iactive Network Co ltd
Priority to CN202311336444.8A priority Critical patent/CN117078564B/zh
Publication of CN117078564A publication Critical patent/CN117078564A/zh
Application granted granted Critical
Publication of CN117078564B publication Critical patent/CN117078564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种视频会议画面的智能生成方法及其系统。本发明针对视频会议中由于网络传输导致的画面残缺、模糊和色彩失真、畸变、纹理劣化等问题,通过深度学习模型对损坏的画面进行分析和修复,提高视频会议画面的质量和稳定性,所述深度学习模型引入自注意力机制判断损坏画面的损坏模式类型,并采用与损坏模式类型相匹配的预测生成方式,生成修复画面,并将修复画面与原始画面进行融合,得到最终的修复结果。

Description

视频会议画面的智能生成方法及其系统
技术领域
本发明涉及网络视频技术领域,特别涉及一种视频会议画面的智能生成方法及其系统。
背景技术
目前,随着视频会议的广泛应用,画面质量和稳定性成为用户关注的重点。然而,由于网络问题,视频会议中经常出现画面残缺、模糊和色彩失真、畸变、纹理劣化等问题,影响了用户的使用体验。
现有的视频会议画面修复方法主要基于传统的图像处理技术,例如针对视频会议的一帧低分辨率画面进行超分辨率处理,得到对应的高分辨率视频会议画面。但这些方法往往无法准确地恢复损坏的画面,并且需要耗费大量的计算资源。
因此,需要提出一种新的视频会议画面修复的方法,能够更准确地恢复损坏的画面,并提高修复效率。
发明内容
本发明提供一种视频会议画面的智能生成方法及其系统。本发明针对视频会议中由于网络传输导致的画面残缺、模糊和色彩失真、畸变、纹理劣化等问题,提出一种基于深度学习的视频会议画面智能生成方法和系统,旨在通过深度学习模型对损坏的画面进行分析和修复,提高视频会议画面的质量和稳定性。其中,所述深度学习模型引入自注意力机制(self-attention)来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型,并采用与损坏模式类型相匹配的预测生成方式,生成修复画面,并将修复画面与原始画面进行融合,得到最终的修复结果。
本发明提供的视频会议画面的智能生成方法,其特征在于,包括:
收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
利用所述训练数据训练用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;
将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
优选的是,所述对训练数据进行预处理包括:对于训练数据,以标签的形式,对其损坏区域以及损坏模式类型执行标注,从而建立视频会议损坏画面和损坏标签的训练数据集合。
优选的是,所述损坏标签表示了视频会议损坏画面中包含的多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框。
优选的是,所述损坏模式类型包括:画面残缺、模糊和色彩失真、畸变、纹理劣化;所述区域位置框是一个以该区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。
优选的是,所述深度学习模型包括:ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。
优选的是,利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括:每一轮迭代训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征图;全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图,进而,将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作,输入所述Transformer多头自注意力编码器单元;所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征;所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互,并行地输出对损坏区域的解码特征;所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征,得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签。
优选的是,在每一轮的训练迭代中,利用代入深度学习模型的训练样本中的损坏标签以及所述预测标签,构造损失预测函数。
优选的是,将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,识别该实际的视频会议损坏画面中的每个损坏区域,并根据深度学习模型预测的预测标签,获得该每个损坏区域所对应的损坏模式类型,以及每个损坏区域对应的区域位置框。
优选的是,采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面具体包括:损坏模式类型为画面残缺以及模糊和色彩失真时,从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。
本发明进而提供的一种视频会议画面的智能生成系统,其特征在于,包括:
视频会议损坏画面收集单元,收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
损坏画面模式识别单元,包括用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型,然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
画面修复单元,用于采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
本发明方法通过引入深度学习模型和自注意力机制,能够准确地恢复损坏的视频会议画面,并提高画面质量和稳定性。相比传统的图像处理方法,本方法具有更高的修复准确性和效率,能够有效解决视频会议中画面质量问题。该方法对于提升视频会议用户体验,推动视频会议技术的发展具有重要意义。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视频会议画面的智能生成方法的流程图;
图2是本发明提供的深度学习模型的结构图;
图3是本发明提供的视频会议画面的智能生成系统结构图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1,本发明提供的视频会议画面的智能生成方法,其特征在于,包括:
S1:收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
S2:利用所述训练数据训练用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;
S3:将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
S4:采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
具体来说,步骤S1中,从真实的视频会议画面中,收集具备画面残缺、模糊和色彩失真、畸变、纹理劣化等问题的视频会议损坏画面,作为训练数据。具体来说,在真实的视频会议场景中,可以利用视频会议软件的质量反馈插件,在获得用户授权的前提下收集以上视频会议损坏画面的数据。
步骤S1中,对训练数据进行预处理。对收集到的训练数据进行去噪处理,去除画面中的噪声;同时,进行对比度增强操作,以提高训练数据的质量。
进而,预处理还包括:对于训练数据,以标签的形式,对其损坏区域以及损坏模式 类型执行标注,从而建立视频会议损坏画面和损坏标签的训练数据集合,表示为: ;
其中,表示训练数据集合的第张视频会议损坏画面,3是该损坏画面 的颜色通道数,是损坏画面的图像高度像素值,是损坏画面的图像宽度像素值;表示该第张视频会议损坏画面的损坏标签,该标签表示了该第张视频会议损 坏画面中包含的最多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框,每 个损坏区域对应的标签,其中表示该第张视频会议损坏画面的第个损坏区域 的损坏模式类型,损坏模式类型包括但不限于画面残缺、模糊和色彩失真、畸变、纹理劣化 等;表示该第张视频会议损坏画面的第个损坏区域的区域位置框,其是一个以 区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。
步骤S2中,利用所述训练数据的集合训练用于损坏画面模式识别的深度学习模 型,将集合的每一组视频会议损坏画面和损坏标签 ,在各轮训练迭代中,依次作为代入该深度学习模型的训练样本,其中表示在本轮训 练迭代中代入的训练样本中视频会议损坏画面,该训练样本的损坏标签,且,;,其中表示本轮训练迭代中代入的视频会议损坏画面中的第 个损坏区域对应的损坏模式类型,表示该第个损坏区域对应的区域位置框。
所述深度学习模型如图2所示,包括ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。
所述ResNet-50网络卷积层单元的神经网络模型表示为,其中是每一 轮迭代训练中ResNet-50网络卷积层单元的神经网络所有参数在本轮取值构成的参数张 量;在首轮训练中ResNet-50网络卷积层单元的神经网络模型为,其中是 ResNet-50网络卷积层单元的神经网络所有参数的初始值所构成的参数张量。每一轮迭代 训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征 图:
全卷积层单元的模型表示为,其中是每一轮迭代该全卷积层 单元的所有参数在本轮取值构成的参数张量;使用 的卷积核拼 接成;在首轮训练中初始化。每一轮迭代中,通过将特征 图降维成通道数为的新的高水平特征图,即:。进而,全卷积层单元将 特征图和位置编码参数相加, 然后执行形状更改(reshape)操作,将两者之和求出 的张量中的的平面形状拉直为 ,并转置成为的张量,记为,即:
作为Transformer多头自注意力编码器单元的输入。
所述Transformer多头自注意力编码器单元基于多头自注意力机制,针对视频会 议损坏画面提取的特征图,学习该损坏画面的全局性图像特征,为下面的解码器即出预测 框铺垫。该Transformer多头自注意力编码器单元的模型表示为,其中是该编码器所有参数在本轮迭代中的取值构成的参数张量,可见该编码器将特征图 基于多头自注意力机制全局编码为同样形状的特征编码
所述Transformer交叉注意力解码器在对给定N个损坏区域执行目标查询(object query)的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进 行自注意力交互,从而可以并行地输出对N个损坏区域的解码特征。所述Transformer交叉 注意力解码器的模型为:,其中是该解码器所有参数在本轮迭 代中的取值构成的参数张量。该解码器将特征编码和目标查询(object queries)的参数 张量 通过交叉注意力(cross-attention) 机制解码,得到对N个损坏区域的预测解码 特征 为N个损坏区域的预测解码特征组成的张量。
所述损坏模式分类器的模型为是该分类器所有参数在本轮迭代 中的参数值构成的参数张量。以及,所述损坏区域位置框输出器的模型表示为是该输出器所有参数在本轮迭代中的参数值构成的参数张量;二者均 可以采用FFN前馈神经网络。二者输入所述Transformer交叉注意力解码器对第1,2…N个损 坏区域的预测解码特征,得到含有N个损坏区域的损坏模式类型和损坏区域的区域位置 框的预测标签, 即:
可表示为:
其中:
在每一轮的训练迭代中,利用代入该深度学习模型的训练样本中的标签以及上 述预测标签,构造损失预测函数:
其中表示预测标签的集合中第个损坏区域对应的第个损坏模式类型 符合训练样本标签中的第个损坏模式类型的概率值,则表示训练样本标签 中的第个损坏区域对应的区域位置框和预测标签中的区域位置框的二者的偏移量 化值,与二者偏移面积成正比。
在本步骤中,利用所述训练数据的集合执行各轮迭代训练,对ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器等各个模型的参数量在初始值基础上持续调参赋值,直至损失函数达到预期,则完成对实施损坏画面模式识别的深度学习模型的训练。
步骤S3中,将当前实际的视频会议损坏画面,输入经过步骤S1至S2训练优化模型 参数后的所述深度学习模型,识别该实际的视频会议损坏画面中的每个损坏区域,并根据 深度学习模型预测的预测标签,获得该每个损坏区域所对应的损坏模式类型,以及每个 损坏区域对应的区域位置框。具体来说,根据预测标签中的第个损坏区域对应的第个 损坏模式类型概率值,取其中最大的概率值对应的损坏模式类型,以及确定对应的区域位 置框
步骤S4中,根据损坏模式类型,选择相应的预测生成方式,对所述视频会议损坏画面生成修复画面。损坏模式类型为画面残缺以及模糊和色彩失真时,则可以从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。进而,将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。修复画面与原始的视频会议损坏画面融合过程可以通过像素级的加权平均、图像融合算法等方法实现,以保留原始画面的细节和特征。
参考图3,本发明进而提供的一种视频会议画面的智能生成系统,包括:
视频会议损坏画面收集单元,收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
损坏画面模式识别单元,包括用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型,然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
画面修复单元,用于采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
本发明方法通过引入深度学习模型和自注意力机制,能够准确地恢复损坏的视频会议画面,并提高画面质量和稳定性。相比传统的图像处理方法,本方法具有更高的修复准确性和效率,能够有效解决视频会议中画面质量问题。该方法对于提升视频会议用户体验,推动视频会议技术的发展具有重要意义。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种视频会议画面的智能生成方法,其特征在于,包括:
收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
利用所述训练数据训练用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;
将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面;
所述损坏模式类型包括:画面残缺、模糊和色彩失真、畸变、纹理劣化;
所述深度学习模型包括:ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器;
利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括:每一轮迭代训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征图;全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图,进而,将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作,输入所述Transformer多头自注意力编码器单元;所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征;所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互,并行地输出对损坏区域的解码特征;所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征,得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签;
采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面具体包括:损坏模式类型为画面残缺以及模糊和色彩失真时,从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。
2.根据权利要求1所述的视频会议画面的智能生成方法,其特征在于,所述对训练数据进行预处理包括:对于训练数据,以标签的形式,对其损坏区域以及损坏模式类型执行标注,从而建立视频会议损坏画面和损坏标签的训练数据集合。
3.根据权利要求2所述的视频会议画面的智能生成方法,其特征在于,所述损坏标签表示了视频会议损坏画面中包含的多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框;所述区域位置框是一个以该区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。
4.根据权利要求3所述的视频会议画面的智能生成方法,其特征在于,在每一轮的训练迭代中,利用代入深度学习模型的训练样本中的损坏标签以及所述预测标签,构造损失预测函数。
5.根据权利要求4所述的视频会议画面的智能生成方法,其特征在于,将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,识别该实际的视频会议损坏画面中的每个损坏区域,并根据深度学习模型预测的预测标签,获得该每个损坏区域所对应的损坏模式类型,以及每个损坏区域对应的区域位置框。
6.一种视频会议画面的智能生成系统,其特征在于,包括:
视频会议损坏画面收集单元,收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
损坏画面模式识别单元,包括用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型,然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
画面修复单元,用于采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面;
所述损坏模式类型包括:画面残缺、模糊和色彩失真、畸变、纹理劣化;
所述深度学习模型包括:ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器;
利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括:每一轮迭代训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征图;全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图,进而,将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作,输入所述Transformer多头自注意力编码器单元;所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征;所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互,并行地输出对损坏区域的解码特征;所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征,得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签;
采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面具体包括:损坏模式类型为画面残缺以及模糊和色彩失真时,从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。
CN202311336444.8A 2023-10-16 2023-10-16 视频会议画面的智能生成方法及其系统 Active CN117078564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311336444.8A CN117078564B (zh) 2023-10-16 2023-10-16 视频会议画面的智能生成方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311336444.8A CN117078564B (zh) 2023-10-16 2023-10-16 视频会议画面的智能生成方法及其系统

Publications (2)

Publication Number Publication Date
CN117078564A CN117078564A (zh) 2023-11-17
CN117078564B true CN117078564B (zh) 2024-01-12

Family

ID=88708418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311336444.8A Active CN117078564B (zh) 2023-10-16 2023-10-16 视频会议画面的智能生成方法及其系统

Country Status (1)

Country Link
CN (1) CN117078564B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN111787187A (zh) * 2020-07-29 2020-10-16 上海大学 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN113920470A (zh) * 2021-10-12 2022-01-11 中国电子科技集团公司第二十八研究所 一种基于自注意力机制的行人检索方法
CN114387170A (zh) * 2020-10-19 2022-04-22 复旦大学 一种改善修补区域边缘不连贯现象的图像修补方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676365B2 (en) * 2019-12-16 2023-06-13 Accenture Global Solutions Limited Explainable artificial intelligence (AI) based image analytic, automatic damage detection and estimation system
CN113408471B (zh) * 2021-07-02 2023-03-28 浙江传媒学院 一种基于多任务深度学习的无绿幕人像实时抠图算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN111787187A (zh) * 2020-07-29 2020-10-16 上海大学 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN114387170A (zh) * 2020-10-19 2022-04-22 复旦大学 一种改善修补区域边缘不连贯现象的图像修补方法
CN113920470A (zh) * 2021-10-12 2022-01-11 中国电子科技集团公司第二十八研究所 一种基于自注意力机制的行人检索方法

Also Published As

Publication number Publication date
CN117078564A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Bashir et al. A comprehensive review of deep learning-based single image super-resolution
Zhao et al. Pyramid global context network for image dehazing
CN111222513B (zh) 车牌号码识别方法、装置、电子设备及存储介质
CN104217404A (zh) 雾霾天视频图像清晰化处理方法及其装置
Zhou et al. FSAD-Net: Feedback spatial attention dehazing network
CN115631121A (zh) 一种基于自监督学习的全景图像显著性预测方法
Guo et al. Joint raindrop and haze removal from a single image
CN115937022A (zh) 一种基于迭代残差学习的少样本图像修复方法
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
Babu et al. An efficient image dahazing using Googlenet based convolution neural networks
Li et al. Two‐stage single image dehazing network using swin‐transformer
Wang et al. Uneven image dehazing by heterogeneous twin network
CN117078564B (zh) 视频会议画面的智能生成方法及其系统
Jaisurya et al. Attention-based Single Image Dehazing Using Improved CycleGAN
Jiang et al. Image quality assessment with transformers and multi-metric fusion modules
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN113378598B (zh) 一种基于深度学习的动态条码检测方法
Zhang et al. GAN-based dehazing network with knowledge transferring
Su et al. Physical model and image translation fused network for single-image dehazing
CN114898096A (zh) 一种人物图像的分割和标注方法及系统
Bairi et al. Pscs-net: Perception optimized image reconstruction network for autonomous driving systems
Yi et al. Progressive back-traced dehazing network based on multi-resolution recurrent reconstruction
CN117649358B (zh) 图像处理方法、装置、设备及存储介质
Chen et al. Exploring efficient and effective generative adversarial network for thermal infrared image colorization
Wang et al. A CBAM‐GAN‐based method for super‐resolution reconstruction of remote sensing image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant