CN117078564A - 视频会议画面的智能生成方法及其系统 - Google Patents
视频会议画面的智能生成方法及其系统 Download PDFInfo
- Publication number
- CN117078564A CN117078564A CN202311336444.8A CN202311336444A CN117078564A CN 117078564 A CN117078564 A CN 117078564A CN 202311336444 A CN202311336444 A CN 202311336444A CN 117078564 A CN117078564 A CN 117078564A
- Authority
- CN
- China
- Prior art keywords
- picture
- damaged
- video conference
- damage
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013136 deep learning model Methods 0.000 claims abstract description 45
- 230000008439 repair process Effects 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000015556 catabolic process Effects 0.000 claims abstract description 10
- 238000006731 degradation reaction Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 78
- 238000003909 pattern recognition Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000007547 defect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000003708 edge detection Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种视频会议画面的智能生成方法及其系统。本发明针对视频会议中由于网络传输导致的画面残缺、模糊和色彩失真、畸变、纹理劣化等问题,通过深度学习模型对损坏的画面进行分析和修复,提高视频会议画面的质量和稳定性,所述深度学习模型引入自注意力机制判断损坏画面的损坏模式类型,并采用与损坏模式类型相匹配的预测生成方式,生成修复画面,并将修复画面与原始画面进行融合,得到最终的修复结果。
Description
技术领域
本发明涉及网络视频技术领域,特别涉及一种视频会议画面的智能生成方法及其系统。
背景技术
目前,随着视频会议的广泛应用,画面质量和稳定性成为用户关注的重点。然而,由于网络问题,视频会议中经常出现画面残缺、模糊和色彩失真、畸变、纹理劣化等问题,影响了用户的使用体验。
现有的视频会议画面修复方法主要基于传统的图像处理技术,例如针对视频会议的一帧低分辨率画面进行超分辨率处理,得到对应的高分辨率视频会议画面。但这些方法往往无法准确地恢复损坏的画面,并且需要耗费大量的计算资源。
因此,需要提出一种新的视频会议画面修复的方法,能够更准确地恢复损坏的画面,并提高修复效率。
发明内容
本发明提供一种视频会议画面的智能生成方法及其系统。本发明针对视频会议中由于网络传输导致的画面残缺、模糊和色彩失真、畸变、纹理劣化等问题,提出一种基于深度学习的视频会议画面智能生成方法和系统,旨在通过深度学习模型对损坏的画面进行分析和修复,提高视频会议画面的质量和稳定性。其中,所述深度学习模型引入自注意力机制(self-attention)来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型,并采用与损坏模式类型相匹配的预测生成方式,生成修复画面,并将修复画面与原始画面进行融合,得到最终的修复结果。
本发明提供的视频会议画面的智能生成方法,其特征在于,包括:
收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
利用所述训练数据训练用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;
将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
优选的是,所述对训练数据进行预处理包括:对于训练数据,以标签的形式,对其损坏区域以及损坏模式类型执行标注,从而建立视频会议损坏画面和损坏标签的训练数据集合。
优选的是,所述损坏标签表示了视频会议损坏画面中包含的多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框。
优选的是,所述损坏模式类型包括:画面残缺、模糊和色彩失真、畸变、纹理劣化;所述区域位置框是一个以该区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。
优选的是,所述深度学习模型包括:ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。
优选的是,利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括:每一轮迭代训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征图;全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图,进而,将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作,输入所述Transformer多头自注意力编码器单元;所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征;所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互,并行地输出对损坏区域的解码特征;所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征,得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签。
优选的是,在每一轮的训练迭代中,利用代入深度学习模型的训练样本中的损坏标签以及所述预测标签,构造损失预测函数。
优选的是,将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,识别该实际的视频会议损坏画面中的每个损坏区域,并根据深度学习模型预测的预测标签,获得该每个损坏区域所对应的损坏模式类型,以及每个损坏区域对应的区域位置框。
优选的是,采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面具体包括:损坏模式类型为画面残缺以及模糊和色彩失真时,从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。
本发明进而提供的一种视频会议画面的智能生成系统,其特征在于,包括:
视频会议损坏画面收集单元,收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
损坏画面模式识别单元,包括用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型,然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
画面修复单元,用于采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
本发明方法通过引入深度学习模型和自注意力机制,能够准确地恢复损坏的视频会议画面,并提高画面质量和稳定性。相比传统的图像处理方法,本方法具有更高的修复准确性和效率,能够有效解决视频会议中画面质量问题。该方法对于提升视频会议用户体验,推动视频会议技术的发展具有重要意义。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视频会议画面的智能生成方法的流程图;
图2是本发明提供的深度学习模型的结构图;
图3是本发明提供的视频会议画面的智能生成系统结构图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1,本发明提供的视频会议画面的智能生成方法,其特征在于,包括:
S1:收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
S2:利用所述训练数据训练用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;
S3:将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
S4:采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
具体来说,步骤S1中,从真实的视频会议画面中,收集具备画面残缺、模糊和色彩失真、畸变、纹理劣化等问题的视频会议损坏画面,作为训练数据。具体来说,在真实的视频会议场景中,可以利用视频会议软件的质量反馈插件,在获得用户授权的前提下收集以上视频会议损坏画面的数据。
步骤S1中,对训练数据进行预处理。对收集到的训练数据进行去噪处理,去除画面中的噪声;同时,进行对比度增强操作,以提高训练数据的质量。
进而,预处理还包括:对于训练数据,以标签的形式,对其损坏区域以及损坏模式
类型执行标注,从而建立视频会议损坏画面和损坏标签的训练数据集合,表示为: ;
其中,表示训练数据集合的第张视频会议损坏画面,3是该损坏画面
的颜色通道数,是损坏画面的图像高度像素值,是损坏画面的图像宽度像素值;表示该第张视频会议损坏画面的损坏标签,该标签表示了该第张视频会议损
坏画面中包含的最多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框,每
个损坏区域对应的标签,其中表示该第张视频会议损坏画面的第个损坏区域
的损坏模式类型,损坏模式类型包括但不限于画面残缺、模糊和色彩失真、畸变、纹理劣化
等;表示该第张视频会议损坏画面的第个损坏区域的区域位置框,其是一个以
区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。
步骤S2中,利用所述训练数据的集合训练用于损坏画面模式识别的深度学习模
型,将集合的每一组视频会议损坏画面和损坏标签
,在各轮训练迭代中,依次作为代入该深度学习模型的训练样本,其中表示在本轮训
练迭代中代入的训练样本中视频会议损坏画面,该训练样本的损坏标签,且,;,其中表示本轮训练迭代中代入的视频会议损坏画面中的第
个损坏区域对应的损坏模式类型,表示该第个损坏区域对应的区域位置框。
所述深度学习模型如图2所示,包括ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。
所述ResNet-50网络卷积层单元的神经网络模型表示为,其中是每一
轮迭代训练中ResNet-50网络卷积层单元的神经网络所有参数在本轮取值构成的参数张
量;在首轮训练中ResNet-50网络卷积层单元的神经网络模型为,其中是
ResNet-50网络卷积层单元的神经网络所有参数的初始值所构成的参数张量。每一轮迭代
训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征
图:。
全卷积层单元的模型表示为,其中是每一轮迭代该全卷积层
单元的所有参数在本轮取值构成的参数张量;使用个 的卷积核拼
接成;在首轮训练中初始化。每一轮迭代中,通过将特征
图降维成通道数为的新的高水平特征图,即:。进而,全卷积层单元将
特征图和位置编码参数相加, 然后执行形状更改(reshape)操作,将两者之和求出
的张量中的的平面形状拉直为 ,并转置成为的张量,记为,即:;
作为Transformer多头自注意力编码器单元的输入。
所述Transformer多头自注意力编码器单元基于多头自注意力机制,针对视频会
议损坏画面提取的特征图,学习该损坏画面的全局性图像特征,为下面的解码器即出预测
框铺垫。该Transformer多头自注意力编码器单元的模型表示为,其中是该编码器所有参数在本轮迭代中的取值构成的参数张量,可见该编码器将特征图
基于多头自注意力机制全局编码为同样形状的特征编码。
所述Transformer交叉注意力解码器在对给定N个损坏区域执行目标查询(object
query)的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进
行自注意力交互,从而可以并行地输出对N个损坏区域的解码特征。所述Transformer交叉
注意力解码器的模型为:,其中是该解码器所有参数在本轮迭
代中的取值构成的参数张量。该解码器将特征编码和目标查询(object queries)的参数
张量 通过交叉注意力(cross-attention) 机制解码,得到对N个损坏区域的预测解码
特征 ,为N个损坏区域的预测解码特征组成的张量。
所述损坏模式分类器的模型为,是该分类器所有参数在本轮迭代
中的参数值构成的参数张量。以及,所述损坏区域位置框输出器的模型表示为,是该输出器所有参数在本轮迭代中的参数值构成的参数张量;二者均
可以采用FFN前馈神经网络。二者输入所述Transformer交叉注意力解码器对第1,2…N个损
坏区域的预测解码特征,得到含有N个损坏区域的损坏模式类型和损坏区域的区域位置
框的预测标签, 即:;
可表示为:;
其中:。
在每一轮的训练迭代中,利用代入该深度学习模型的训练样本中的标签以及上
述预测标签,构造损失预测函数:;
其中表示预测标签的集合中第个损坏区域对应的第个损坏模式类型
符合训练样本标签中的第个损坏模式类型的概率值,则表示训练样本标签
中的第个损坏区域对应的区域位置框和预测标签中的区域位置框的二者的偏移量
化值,与二者偏移面积成正比。
在本步骤中,利用所述训练数据的集合执行各轮迭代训练,对ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器等各个模型的参数量在初始值基础上持续调参赋值,直至损失函数达到预期,则完成对实施损坏画面模式识别的深度学习模型的训练。
步骤S3中,将当前实际的视频会议损坏画面,输入经过步骤S1至S2训练优化模型
参数后的所述深度学习模型,识别该实际的视频会议损坏画面中的每个损坏区域,并根据
深度学习模型预测的预测标签,获得该每个损坏区域所对应的损坏模式类型,以及每个
损坏区域对应的区域位置框。具体来说,根据预测标签中的第个损坏区域对应的第个
损坏模式类型概率值,取其中最大的概率值对应的损坏模式类型,以及确定对应的区域位
置框。
步骤S4中,根据损坏模式类型,选择相应的预测生成方式,对所述视频会议损坏画面生成修复画面。损坏模式类型为画面残缺以及模糊和色彩失真时,则可以从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。进而,将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。修复画面与原始的视频会议损坏画面融合过程可以通过像素级的加权平均、图像融合算法等方法实现,以保留原始画面的细节和特征。
参考图3,本发明进而提供的一种视频会议画面的智能生成系统,包括:
视频会议损坏画面收集单元,收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
损坏画面模式识别单元,包括用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型,然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
画面修复单元,用于采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
本发明方法通过引入深度学习模型和自注意力机制,能够准确地恢复损坏的视频会议画面,并提高画面质量和稳定性。相比传统的图像处理方法,本方法具有更高的修复准确性和效率,能够有效解决视频会议中画面质量问题。该方法对于提升视频会议用户体验,推动视频会议技术的发展具有重要意义。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种视频会议画面的智能生成方法,其特征在于,包括:
收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
利用所述训练数据训练用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;
将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
2.根据权利要求1所述的视频会议画面的智能生成方法,其特征在于,所述对训练数据进行预处理包括:对于训练数据,以标签的形式,对其损坏区域以及损坏模式类型执行标注,从而建立视频会议损坏画面和损坏标签的训练数据集合。
3.根据权利要求2所述的视频会议画面的智能生成方法,其特征在于,所述损坏标签表示了视频会议损坏画面中包含的多个损坏区域中每个损坏区域对应的损坏模式类型及区域位置框。
4.根据权利要求3所述的视频会议画面的智能生成方法,其特征在于,所述损坏模式类型包括:画面残缺、模糊和色彩失真、畸变、纹理劣化;所述区域位置框是一个以该区域位置框的中心点坐标和相对与视频画面大小的高和宽构成的4维向量。
5.根据权利要求4所述的视频会议画面的智能生成方法,其特征在于,所述深度学习模型包括:ResNet-50网络卷积层单元、全卷积层单元、Transformer多头自注意力编码器单元、Transformer交叉注意力解码器、损坏模式分类器以及损坏区域位置框输出器。
6.根据权利要求5所述的视频会议画面的智能生成方法,其特征在于,利用所述训练数据训练用于损坏画面模式识别的深度学习模型具体包括:每一轮迭代训练中,将训练样本的损坏画面输入后,ResNet-50网络卷积层单元得到低分辨率特征图;全卷积层单元每一轮迭代中将所述低分辨率特征图降维为新的高水平特征图,进而,将所述高水平特征图和位置编码参数相加, 然后执行形状更改操作,输入所述Transformer多头自注意力编码器单元;所述Transformer多头自注意力编码器单元基于多头自注意力机制学习损坏画面的全局性图像特征;所述Transformer交叉注意力解码器在对给定损坏区域执行目标查询的过程中,与所述Transformer多头自注意力编码器单元输出的全局性图像特征进行自注意力交互,并行地输出对损坏区域的解码特征;所述损坏模式分类器和所述损坏区域位置框输出器输入所述Transformer交叉注意力解码器对损坏区域的预测解码特征,得到损坏区域的损坏模式类型和损坏区域的区域位置框的预测标签。
7.根据权利要求6所述的视频会议画面的智能生成方法,其特征在于,在每一轮的训练迭代中,利用代入深度学习模型的训练样本中的损坏标签以及所述预测标签,构造损失预测函数。
8.根据权利要求7所述的视频会议画面的智能生成方法,其特征在于,将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,识别该实际的视频会议损坏画面中的每个损坏区域,并根据深度学习模型预测的预测标签,获得该每个损坏区域所对应的损坏模式类型,以及每个损坏区域对应的区域位置框。
9.根据权利要求8所述的视频会议画面的智能生成方法,其特征在于,采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面具体包括:损坏模式类型为画面残缺以及模糊和色彩失真时,从视频会议损坏画面在时间轴上的相邻帧对应画面区域提取修复画面;损坏模式类型为畸变时,对损坏画面进行边缘检测,使用Sobel算子提取边缘信息,然后,根据边缘信息与时间轴上的相邻帧对应画面的边缘信息进行比对,获得修复画面;损坏模式类型为纹理劣化时,对损坏画面进行纹理分析,提取纹理信息,然后根据纹理信息,使用纹理填充算法对损坏的纹理部分进行填充。
10.一种视频会议画面的智能生成系统,其特征在于,包括:
视频会议损坏画面收集单元,收集视频会议损坏画面组成的训练数据,并对训练数据进行预处理;
损坏画面模式识别单元,包括用于损坏画面模式识别的深度学习模型;所述深度学习模型引入自注意力机制来提取损坏画面的全局性图像特征,基于全局性图像特征判断损坏画面的损坏模式类型;所述损坏画面模式识别单元利用所述训练数据训练所述深度学习模型,然后将视频会议损坏画面输入经过训练优化模型参数后的所述深度学习模型,获得该视频会议损坏画面的损坏模式类型;
画面修复单元,用于采用与损坏模式类型相匹配的预测生成方式,对所述视频会议损坏画面生成修复画面;将修复画面与原始的视频会议损坏画面进行融合,得到最终的视频会议画面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311336444.8A CN117078564B (zh) | 2023-10-16 | 2023-10-16 | 视频会议画面的智能生成方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311336444.8A CN117078564B (zh) | 2023-10-16 | 2023-10-16 | 视频会议画面的智能生成方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117078564A true CN117078564A (zh) | 2023-11-17 |
CN117078564B CN117078564B (zh) | 2024-01-12 |
Family
ID=88708418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311336444.8A Active CN117078564B (zh) | 2023-10-16 | 2023-10-16 | 视频会议画面的智能生成方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078564B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN111787187A (zh) * | 2020-07-29 | 2020-10-16 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
US20210182713A1 (en) * | 2019-12-16 | 2021-06-17 | Accenture Global Solutions Limited | Explainable artificial intelligence (ai) based image analytic, automatic damage detection and estimation system |
CN113920470A (zh) * | 2021-10-12 | 2022-01-11 | 中国电子科技集团公司第二十八研究所 | 一种基于自注意力机制的行人检索方法 |
CN114387170A (zh) * | 2020-10-19 | 2022-04-22 | 复旦大学 | 一种改善修补区域边缘不连贯现象的图像修补方法 |
US20230005160A1 (en) * | 2021-07-02 | 2023-01-05 | Communication University of Zhejiang | Multi-task deep learning-based real-time matting method for non-green-screen portraits |
-
2023
- 2023-10-16 CN CN202311336444.8A patent/CN117078564B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210182713A1 (en) * | 2019-12-16 | 2021-06-17 | Accenture Global Solutions Limited | Explainable artificial intelligence (ai) based image analytic, automatic damage detection and estimation system |
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN111787187A (zh) * | 2020-07-29 | 2020-10-16 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
CN114387170A (zh) * | 2020-10-19 | 2022-04-22 | 复旦大学 | 一种改善修补区域边缘不连贯现象的图像修补方法 |
US20230005160A1 (en) * | 2021-07-02 | 2023-01-05 | Communication University of Zhejiang | Multi-task deep learning-based real-time matting method for non-green-screen portraits |
CN113920470A (zh) * | 2021-10-12 | 2022-01-11 | 中国电子科技集团公司第二十八研究所 | 一种基于自注意力机制的行人检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117078564B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
Zhao et al. | Pyramid global context network for image dehazing | |
Zhou et al. | FSAD-Net: feedback spatial attention dehazing network | |
CN104217404A (zh) | 雾霾天视频图像清晰化处理方法及其装置 | |
CN113744153B (zh) | 双分支图像修复伪造检测方法、系统、设备及存储介质 | |
CN113724136B (zh) | 一种视频修复方法、设备及介质 | |
CN114170608A (zh) | 超分辨文本图像识别方法、装置、设备及存储介质 | |
CN115631121A (zh) | 一种基于自监督学习的全景图像显著性预测方法 | |
CN113065496A (zh) | 神经网络机器翻译模型训练方法、机器翻译方法和装置 | |
CN116630625A (zh) | 一种基于双图推理的变电设备渗漏油分割方法 | |
Li et al. | Two‐stage single image dehazing network using swin‐transformer | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Babu et al. | An efficient image dahazing using Googlenet based convolution neural networks | |
Jaisurya et al. | Attention-based single image dehazing using improved cyclegan | |
Liu et al. | Edge aware network for image dehazing | |
Wang et al. | Uneven image dehazing by heterogeneous twin network | |
CN117078564B (zh) | 视频会议画面的智能生成方法及其系统 | |
CN116468638A (zh) | 一种基于生成和鉴别平衡对抗的人脸图像修复方法及系统 | |
Jiang et al. | Image quality assessment with transformers and multi-metric fusion modules | |
Xiu et al. | Double discriminative face super-resolution network with facial landmark heatmaps | |
CN117079313A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113378598B (zh) | 一种基于深度学习的动态条码检测方法 | |
Zhang et al. | A controllable generative model for generating pavement crack images in complex scenes | |
CN114898096A (zh) | 一种人物图像的分割和标注方法及系统 | |
Chen et al. | Exploring efficient and effective generative adversarial network for thermal infrared image colorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |