CN115914537A - 电话会议中的基于感兴趣区域的图像数据增强 - Google Patents

电话会议中的基于感兴趣区域的图像数据增强 Download PDF

Info

Publication number
CN115914537A
CN115914537A CN202211031941.2A CN202211031941A CN115914537A CN 115914537 A CN115914537 A CN 115914537A CN 202211031941 A CN202211031941 A CN 202211031941A CN 115914537 A CN115914537 A CN 115914537A
Authority
CN
China
Prior art keywords
image data
frame
region
interest
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211031941.2A
Other languages
English (en)
Inventor
张葵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Plantronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Plantronics Inc filed Critical Plantronics Inc
Publication of CN115914537A publication Critical patent/CN115914537A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了电话会议中的基于感兴趣区域的图像数据增强。一种用于更新/放大一个或多个数据帧内的包含感兴趣区域的区域而不更新或不太频繁地更新在所述感兴趣区域之外的区域的系统。由此,边缘装置能够精确地将超分辨率算法应用于图像帧的相关区域,从而利用其整体有效性。

Description

电话会议中的基于感兴趣区域的图像数据增强
技术领域
本发明总体上涉及视频会议,并且具体地涉及用于在视频会议期间提高图像数据帧的与感兴趣区域相对应的区域的分辨率的系统和方法。
背景技术
在视频会议期间,在一个视频会议端点处的人与在一个或多个其他视频会议端点处的人交互。这种交互涉及在第一端点处使用相机来捕获图像数据帧以传输到远程端点。然而,用使用高分辨率数据的整个后续捕获的帧替换整个捕获的图像数据帧可能在计算方面是昂贵的。在视频会议期间,对于在远程端点处的观看者来说,图像数据帧的一些区域(诸如描绘正在主动地说话的人的那些)可能更令人感兴趣。因此,期望具有一种用于确定现有帧的哪些(子)区域应用更高分辨率数据(例如,感兴趣区域)进行更新而其他区域可以用更低分辨率数据更新或根本不更新的改进的机制。
发明内容
为了改善视频会议体验,本公开描述了用于基于对图像数据帧内的感兴趣区域的确定来以高清晰度更新此类帧的子区域的系统、方法和装置。
在一个实施例中,提供了一种用于选择性地增强在电话会议端点处捕获的图像数据帧的区域的方法,其中所述方法包括:使用所述电话会议端点的图像捕获装置来捕获第一图像数据帧;由所述电话会议端点的处理器确定所述第一图像数据帧内的第一感兴趣区域;在所述电话会议端点的存储器中将所述第一图像数据帧呈现为关键帧;使用相机来捕获第二图像数据帧;由所述处理器确定所述第二图像数据帧内的第二感兴趣区域;由所述处理器根据图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生后续帧;以及通过所述电话会议端点的网络接口将所述后续帧传输到远程端点。
另一个实施例提供了一种电话会议系统,所述电话会议系统包括:处理器;图像捕获装置,所述图像捕获装置被配置为捕获一系列视觉数据帧以供所述处理器处理;存储器,所述存储器被配置为存储一个或多个视觉数据帧;网络接口,所述网络接口被配置为将视觉数据帧传输到远程端点;数据总线,所述数据总线联接到所述处理器、相机、所述网络接口和所述存储器;以及非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质联接到所述数据总线并且存储可由所述处理器执行的计算机程序代码,所述计算机程序代码包括计算机程序代码指令,所述计算机程序代码指令被配置为:使用所述相机来捕获第一图像数据帧;确定所述第一图像数据帧内的第一感兴趣区域;在所述存储器中将所述第一图像数据帧呈现为关键帧;使用所述相机来捕获第二图像数据帧;确定所述第二图像数据帧内的第二感兴趣区域;根据图像数据增强算法来更新所述关键帧的与所述第二感兴趣区域对应的数据以产生后续帧;以及通过所述网络接口将所述后续帧传输到远程端点。
在另一个实施例中,提供了一种存储指令的非暂时性计算机可读介质,所述指令可由处理器执行,其中所述指令包括用于以下操作的指令:使用图像捕获装置来捕获第一图像数据帧;确定所述第一图像数据帧内的第一感兴趣区域;在存储器中将所述第一图像数据帧呈现为关键帧;使用相机来捕获第二图像数据帧;确定所述第二图像数据帧内的第二感兴趣区域;使用图像数据增强算法来更新所述关键帧的与所述第二感兴趣区域对应的数据以产生后续帧;以及通过网络接口将所述后续帧传输到远程端点。
附图说明
通过参考附图,可以更好地理解本发明,并且本发明的许多目标、特征和优点对本领域技术人员变得明显。贯穿若干附图使用相同的附图标记来指示相同或相似的元件。
图1是示出在一系列图像数据帧中用高分辨率数据识别并更新感兴趣区域的过程的简化框图。
图2是示出能够实施诸如图1的过程的视频会议系统的简化框图。
图3A至图3E示出了用于捕获并评估图像数据的帧以识别适合于以高清晰度增强的图像数据帧的区域的图2的视频会议系统的过程。
图4示出了根据本公开的实施例的用于选择性地增强一个或多个图像数据帧的区域的方法的方面。
具体实施方式
公开了用于确定图像数据帧的哪些区域应使用图像增强算法进行更新使得可以针对观看者以更高的分辨率呈现选定的区域的系统和方法。
在视频会议期间,视频会议系统处的场景可以被电子云台(EPTZ)相机捕获为一系列图像数据帧。在计算方面可能禁止并且没有必要以高清晰度呈现每个捕获的图像数据帧的所有区域。因此,本发明的实施例涉及确定数据帧的哪个区域是“重要的”并且应以高清晰度呈现,而不太重要的其他区域不需要以高清晰度呈现。
例如,在电话会议期间,在端点处可能存在正在说话并做手势的参与者,而参与者的环境中(在端点处)的区域在给定的时间段内在帧与帧之间没有改变或改变很少。本发明的实施例可以将图像数据帧的包含该参与者的区域识别为感兴趣区域并且使用图像数据增强算法来更新先前捕获的图像数据帧的与该感兴趣区域相对应的区域。然而,在感兴趣区域之外的区域不太频繁地更新,或使用不太计算昂贵的算法进行更新,或者不太频繁地更新并使用不太计算昂贵(例如,不太复杂)的算法进行更新。存在用于确定图像数据帧的哪些区域对应于感兴趣区域的各种方法。参见例如授予Bryan等人的名称为“Detectingand Framing a Subject of Interest in a Teleconference(对电话会议中的感兴趣对象进行检测并取景)”的美国专利第10,999,531号。尽管本公开的实施例涉及用于确定感兴趣区域的各种机制,但这些机制被描述来提供对本发明的更好理解并且不意图限制本发明的范围。在图1中示出了以高分辨率选择性地更新图像数据帧的区域的原理。
图1示出了用图像捕获装置捕获并存储在计算机存储器中的一系列100图像数据帧。在捕获的图像数据帧102中,人103(根据存储在计算机存储器中的一个或多个算法模块)被确定为感兴趣对象104。感兴趣对象104可以是远程端点处的观看者在电话会议期间更可能觉得有趣的人或物体。在该实施例中,图像数据帧102描绘感兴趣对象104的确定用来确定感兴趣区域106。在图1的实施例中,感兴趣区域106对应于图像数据帧102中的包含人103的头部和肩部的区域。在该实施例中,捕获的图像数据帧102被存储108为关键帧110。术语关键帧用来指示图像数据帧110将用作后续捕获的图像数据帧的参考或基础帧,直到被新(后续捕获)的图像数据帧替换为止。关键帧110(或其一些区域)可以使用计算机处理器进行编码并且在数据流内传输到远程端点
此后,捕获图像数据帧112。在捕获的图像数据帧112中,感兴趣对象104(人103)已经向前移动,并且感兴趣区域106已经随他104一起移动。(技术人员可获得用于在视频会议期间跟踪人的位置的各种方法。参见例如授予Wang等人的名称为“People DetectionMethod for Auto-Framing and Tracking in a Video Conference(用于在视频会议中自动取景和跟踪的人检测方法)”的美国专利第10,574,899号。)由于观看者(例如,在远程端点处的人)对人103感兴趣,因此使用图像数据增强算法来更新与帧112的感兴趣区域106对应的关键帧110的像素以呈现117更新的帧115(在计算机存储器中),因此将以高清晰度看到人103,而使用低分辨率算法来更新在帧112的感兴趣区域106之外的帧110的区域(包括与帧102的感兴趣区域106对应的区域114)。另外地,在一些实施例中,代替更新在感兴趣区域106之外的关键帧110的所有部分,一些区域(例如,区域113)可以根本不更新(例如,因为那些区域中没有移动)。因此,与帧112中的感兴趣区域106一致的帧110的更新用来呈现117经过修改的帧115,该帧然后可以传输以用于在远程端点处观看。如上所述,在一些实施例中,捕获的帧102和捕获的帧112两者中的在感兴趣区域106外部的区域(例如,区域113)都不通过帧112的捕获来更新。然后,帧115可以传输到远程端点。在一些实施例中,只有已经被修改的帧115的那些部分需要进行编码,因为来自关键帧110的预先存在的元素已经被编码。
此后,捕获图像数据帧116。在捕获的帧116中,可以看出人103已经进一步移动。如前所述,感兴趣区域106已经移动,因为(在该示例中)感兴趣对象104(人103)已经移动。帧115(在该示例中,其包含关键帧110的元素和帧112的元素)根据帧116中的感兴趣区域106的改变的位置进行更新119。与帧116中的感兴趣区域106对应的帧115的区域使用高分辨率算法进行更新119以产生帧120,而与帧116的在感兴趣区域106之外的区域对应的帧115的区域使用低分辨率算法进行更新,或者如参考帧112所讨论,在一些实施例中,帧115的一些区域不更新(例如,因为它们仅包含未改变的背景环境)。图1的每个帧中的感兴趣区域106占据帧的相对大区域。然而,也可能发生感兴趣区域是帧的较小区域。因此,在一些实施例中,当感兴趣区域106较小时,将高分辨率算法应用于感兴趣区域106,因为需要更大的放大程度来以更高分辨率显示感兴趣区域106。处理器可以确定感兴趣区域106相对于图像数据帧(例如,116)所占的比例,并且相应地选择图像增强算法。
如本领域技术人员将理解,增加由电子云台(EPTZ)相机捕获的图像数据帧内的区域的分辨率会必要地涉及“虚拟”放大形式,因为EPTZ相机的焦距没有改变。为了生成分辨率比用EPTZ相机捕获的图像更高的图像,将计算机算法应用于捕获的像素数据以插入像素数据,所述像素数据可以用来生成放置在与捕获的数据对应的像素之间的像素。期望的分辨率或放大率越大,实现该分辨率或放大率所需的算法就越计算复杂。更复杂的算法一般比不太复杂的算法需要更大的计算机资源。因此,选择性地确定图像数据帧的哪些区域需要增加的分辨率或放大率的益处应对本领域技术人员显而易见。
图2示出了根据本公开的实施例的视频会议端点201的视频会议系统200的方面。系统200包括扬声器130、EPTZ相机202和麦克风204。EPTZ相机202用来捕获一个或多个系列100的图像数据帧(例如,102、112、116)。也可以使用其他合适的图像捕获装置。系统200还包括处理器206、网络接口208、存储器210、存储设备211和/或输入/输出接口212,它们全部通过数据总线214进行联接。
存储器210可以是任何类型的常规存储器,诸如同步动态随机存取存储器,并且可以以用于控制系统200的软件和固件的形式存储模块216。(存储设备211还可以存储可由处理器206执行以控制系统200的计算机程序代码213。)除了音频和视频编解码器215外,模块216可以包括用于增加图像数据帧(例如,102、112、116)的区域的分辨率的算法217。
本领域技术人员可获得用于增加图像数据分辨率的很多算法。这种图像数据增强算法在文献中也被称为超分辨率算法。这种算法可以包括成像增强(超分辨率)算法217,诸如快速超分辨率卷积神经网络(FSRCNN)算法218、基于注意力的反向投影网络(ABPN)算法220、级联残差网络(CARN)算法222,以及残差通道注意力网络(RCAN)算法224。在这一组四个超分辨率算法217内,FSRCNN算法218是最简单的(最不复杂的),ABPN算法220和CARN算法222比FSRCNN算法218更复杂,并且RCAN算法224是最复杂的。残差通道注意力网络(RCAN)算法224的计算密集度比快速超分辨率卷积神经网络(FSRCNN)算法218高至少十倍,这意味着对于根据FSRCNN算法218执行的每次计算,运行RCAN算法224的处理器(例如,206)将执行十次计算。
为了帮助阅读者理解,ABPN算法220和CARN算法222可以被认为是高分辨率算法,并且计算复杂性接近ABPN算法220或CARN算法222的其他图像数据增强算法同样被认为是高分辨率算法。
RCAN算法224可以被认为是极高分辨率算法,并且计算复杂性接近RCAN算法224的其他图像数据增强算法同样被认为是极高分辨率算法。出于本公开的目的,计算复杂性大于RCAN算法224的图像数据增强算法也被认为是极高分辨率算法。
作为迄今提名的算法中的最不计算密集的算法,FSRCNN算法218被认为是低分辨率算法。计算复杂性接近FSRCNN算法218的其他图像数据增强算法也被认为是低分辨率算法。此外,计算复杂性低于FSRCNN算法218的其他图像数据增强算法同样被认为是低分辨率算法。本领域技术人员可获得的其他超分辨率算法包括拉普拉斯金字塔超分辨率网络(LapSRN)算法、增强型深度超分辨率网络(EDSR)算法以及极深超分辨率(VDSR)算法。
除了图像数据增强算法217(快速超分辨率卷积神经网络(FSRCNN)算法218、基于注意力的反向投影网络(ABPN)算法220、CARN算法222、残差通道注意力网络(RCAN)算法224)外,模块216可以包括操作系统、使得用户能够控制系统200的图形用户界面以及用于处理音频信号和视频信号并且控制相机202的其他算法。
网络接口208实现系统200与远程端点(未示出)之间的通信。在一个或多个实施例中,通用接口212向本地装置提供数据传输,所述本地装置诸如键盘、鼠标、打印机、高射投影仪、显示器、外部扬声器、附加相机和麦克风舱等。
相机202和麦克风204分别捕获视频会议环境中的视频和音频,并且产生通过数据总线214传输到处理器206的视频信号和音频信号。在本公开的至少一个实施例中,处理器206使用模块216中的算法来处理视频和音频。系统200处理由麦克风204捕获的音频以及由相机202捕获的视频,以确定参与者(321)321的位置并且从相机202的景象进行控制和选择。处理过的音频和视频可以发送到联接到网络接口208的远程装置和联接到通用接口212的装置。
图3A至图3E示出了确定新捕获的图像数据帧内的感兴趣区域来以更高分辨率呈现感兴趣区域的过程。确定感兴趣区域使得系统200能够分配附加的计算资源来更新先前捕获的视觉数据中的与感兴趣区域对应的区域,而无需用高分辨率数据修改不与感兴趣区域对应的区域。在本公开内设想针对用于增强的一个或多个感兴趣区域来评估图像数据帧的其他方法。
图3A示出了根据本公开的实施例的由图像捕获装置(相机202)捕获的图像数据的帧300。帧300包含具有若干会议参与者321的会议室的视图。
图3B示出了由处理器206评估参与者321正在看向的方向302。在至少一个实施例中,这种评估是基于估计参与者321的头部姿势。在至少一个实施例中,这种评估是基于估计参与者321的眼睛凝视。确定参与者321在看向哪些方向的其他机制对本领域技术人员将变得明显。
图3C示出了基于关于图3B获得的方向信息、处理器206已经确定一些参与者321在看向第一“热点区域”304并且一些参与者321在看向第二“热点区域”306。
图3D示出了一旦处理器识别出热点区域304、306,就作出关于热点区域304、306是否包含物体或人的确定。在图3D中,可以看出热点区域304包含第一会议参与者并且热点区域306包含第二会议参与者。在帧的子区域308中描绘了第一会议参与者,并且第二会议参与者在子区域310中。值得注意的是,还可以在评估捕获的图像(例如,300)中的当前感兴趣焦点是谁(或是什么)时使用关于参与者321中的任一者当前是否正在说话的确定。
图3E示出了一旦处理器206已经确认热点区域304、306对应于物体(与例如空的空间相反),则处理器206就诸如通过确定大多数的参与者321都在看向感兴趣对象104或感兴趣对象104当前正在说话来作出关于哪个物体(例如,参与者)是感兴趣对象104的最终确定。感兴趣对象104可以被界定在帧300的(多边形)感兴趣区域106’内。替代地或另外地,当更靠近感兴趣对象104的轮廓(例如,边界)时,感兴趣对象104可以被界定在帧300的感兴趣区域106”内。在文献中可获得用于准确地确定界定的区域106的各种合适的方法。参见例如Derrick Mwiti的“Image Segmentation in 2021:Architectures,Losses,Datasets,andFrameworks(2021年的图像分割:架构、损失、数据集和框架)”,https://neptune.ai/blog/image-segmentation-in-2020,其描述了使用卷积人工神经网络(它们是高级算法)来改进数据对象边界的定位。在图像帧300中的一些或全部被编码并且传输到远程端点或在显示装置(未示出)上呈现之前,在任一感兴趣区域106内的图像数据可以使用超分辨率算法217进行更新。在一些实施例中,当处理器206确定感兴趣区域106占据图像数据帧的百分之二十五以上(参见图1)时,处理器206将高分辨率算法(例如,220、222)应用于感兴趣区域106内的数据。在一些实施例中,当处理器206确定感兴趣区域106占据小于或等于图像数据帧(例如,300)的区域的区域时,处理器206将极高分辨率算法(例如,224)应用于感兴趣区域106内的数据。
图4是展示识别图像数据帧(例如,300)内的感兴趣区域(例如,106)以在电话会议环境中进行高清晰度呈现的方法400的步骤的流程图。在图4的实施例中,电话会议系统(例如,200)在电话会议端点(例如,201)处使用图像捕获装置(例如,202)捕获402第一图像数据帧(例如,102、300)。然后,在电话会议端点201处的处理器206确定404第一图像数据帧102、300内的感兴趣区域(例如,106)。处理器206可以应用本领域技术人员所理解的任何合适的感兴趣区域确定方法。例如,确定404一个区域是感兴趣区域106可以涉及检测该区域中的面部特征、确定该区域描绘主动说话者,或者确定在端点201处检测到的其他人正在看向区域106内的人或物体。(参见图1和图3A至图3E的讨论。)
此后,处理器206将第一图像数据帧呈现406为电话会议系统200的存储器(例如,210)中的关键帧(例如,110)。关键帧110然后可以进行编码(使用存储器210的一个或多个模块216)并且通过网络接口(例如,208)传输到远程端点。
在捕获402第一图像数据帧102并且呈现406关键帧110之后,相机202然后捕获408第二图像数据帧(例如,112)。当然,相机202可以在呈现406关键帧110之前或在呈现406关键帧110的同时捕获408第二图像数据帧。正如处理器206关于图像数据帧102所做的那样,处理器206确定410第二图像数据帧112内的感兴趣区域106。本领域技术人员将理解,确定404第一图像数据帧102中的感兴趣区域106将加速确定410第二图像数据帧112中的感兴趣区域106的过程。处理器206不是简单地用第二图像数据帧112替换关键帧110。相反,处理器206使用图像数据增强算法217(诸如基于注意力的反向投影网络(ABPN)算法220)来更新412关键帧110中的与新捕获的帧112中的第二感兴趣区域106对应的图像数据,以产生(例如,117)后续帧(例如,115)。将理解,后续帧115包含来自关键帧110的一些图像数据和图像数据帧112的一些(增强的)图像数据。
此后,系统200通过网络接口208将后续帧115传输414到远程端点。将理解,在电话会议期间,电话会议系统200将继续捕获新的帧(N),并且基于新捕获的图像数据帧(N)中的对应区域是感兴趣区域106的确定来确定先前捕获的帧(N-1)中的区域是否应使用超分辨率算法217进行更新。
本发明很适于获得前述优点以及其中固有的其他优点。尽管已经参考本发明的特定实施例描绘、描述并定义了本发明,但这种参考并不暗示对本发明的显示,并且不推断这样的限制。本发明能够在形式和功能上具有相当大的修改、改变和等效物,如相关领域的普通技术人员将明白。所描绘和描述的实施例仅仅是示例,而不是本发明的范围的穷举。
因此,本发明仅由所附权利要求的精神和范围限制,从而在所有方面给予对等效物的充分认识。
以下涉及本申请的进一步的示例。
1、一种用于选择性地增强在电话会议端点处捕获的图像数据帧的区域的计算机可实现的方法,包括:
使用所述电话会议端点的图像捕获装置来捕获第一图像数据帧;
由所述电话会议端点的处理器确定所述第一图像数据帧内的第一感兴趣区域;
在所述电话会议端点的存储器中将所述第一图像数据帧呈现为关键帧;
使用所述图像捕获装置来捕获第二图像数据帧;
由所述处理器确定所述第二图像数据帧内的第二感兴趣区域;
由所述处理器根据图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生后续帧;以及
通过所述电话会议端点的网络接口将所述后续帧传输到远程端点。
2、如示例1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
确定所述第二感兴趣区域占据所述第二图像数据帧的百分之二十五以上。
3、如示例2所述的方法,其中所述图像数据增强算法是高分辨率算法。
4、如示例3所述的方法,其中所述高分辨率算法是基于注意力的反向投影网络算法。
5、如示例3所述的方法,其中所述高分辨率算法是级联残差网络算法。
6、如示例1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第一感兴趣区域对应而不与所述第二感兴趣区域对应的数据以产生所述后续帧。
7、如示例1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
确定所述第二感兴趣区域占据所述第二图像数据帧的百分之二十五或更少。
8、如示例7所述的方法,其中所述图像数据增强算法是极高分辨率算法。
9、如示例8所述的方法,其中所述极高分辨率算法是残差通道注意力网络算法。
10、如示例1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
使用低分辨率算法来更新所述关键帧中的与所述第一感兴趣区域和所述第二感兴趣区域外部的区域对应的至少一些数据。
11、如示例1所述的方法,其中:
确定所述第一感兴趣区域包括确定所述第一感兴趣区域描绘感兴趣对象;并且
确定所述第二感兴趣区域包括确定所述第二感兴趣区域描绘所述感兴趣对象。
12、一种电话会议系统,包括:
处理器;
图像捕获装置,所述图像捕获装置被配置为捕获一系列视觉数据帧以供所述处理器处理;
存储器,所述存储器被配置为存储一个或多个视觉数据帧;
网络接口,所述网络接口被配置为将视觉数据帧传输到远程端点;
数据总线,所述数据总线联接到所述处理器、所述图像捕获装置、所述网络接口和所述存储器;以及
非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质联接到所述数据总线并且存储能够由所述处理器执行的计算机程序代码,所述计算机程序代码包括计算机程序代码指令,所述计算机程序代码指令被配置为:
使用所述图像捕获装置来捕获第一图像数据帧;
确定所述第一图像数据帧内的第一感兴趣区域;
在所述存储器中将所述第一图像数据帧呈现为关键帧;
使用所述图像捕获装置来捕获第二图像数据帧;
确定所述第二图像数据帧内的第二感兴趣区域;
根据图像数据增强算法来更新所述关键帧的与所述第二感兴趣区域对应的数据以产生后续帧;以及
通过所述网络接口将所述后续帧传输到远程端点。
13、如示例12所述的电话会议系统,其中被配置为根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生后续帧的计算机程序代码指令还包括用于确定所述第二感兴趣区域占据所述第二图像数据帧的百分之二十五以上的指令。
14、如示例13所述的电话会议系统,其中所述图像数据增强算法是高分辨率算法。
15、如示例14所述的电话会议系统,其中所述图像数据增强算法是极高分辨率算法。
16、如示例15所述的电话会议系统,其中所述极高分辨率算法是残差通道注意力网络算法。
17、如示例12所述的电话会议系统,其中被配置为根据所述图像数据增强算法来更新所述关键帧中的对应于所述第二感兴趣区域的数据以产生后续帧的计算机程序代码指令还包括被配置为进行以下操作的指令:
根据所述图像数据增强算法来更新所述关键帧中的与所述第一感兴趣区域对应而不与所述第二感兴趣区域对应的数据以产生所述后续帧。
18、一种存储指令的非暂时性计算机可读介质,所述指令能够由处理器执行,其中所述指令包括用于以下操作的指令:
使用图像捕获装置来捕获第一图像数据帧;
确定所述第一图像数据帧内的第一感兴趣区域;
在存储器中将所述第一图像数据帧呈现为关键帧;
使用所述图像捕获装置来捕获第二图像数据帧;
确定所述第二图像数据帧内的第二感兴趣区域;
使用图像数据增强算法来更新所述关键帧的与所述第二感兴趣区域对应的数据以产生后续帧;以及
通过网络接口将所述后续帧传输到远程端点。
19、如示例18所述的非暂时性计算机可读介质,其中用于使用所述图像数据增强算法来更新所述关键帧的与所述第二感兴趣区域对应的数据以产生所述后续帧的指令包括用于以下操作的指令:
确定所述第二感兴趣区域是否占据所述第二图像数据帧的百分之二十五以上。
20、如示例19所述的非暂时性计算机可读介质,其中所述图像数据增强算法是高分辨率算法。

Claims (10)

1.一种用于选择性地增强在电话会议端点处捕获的图像数据帧的区域的计算机可实现的方法,包括:
使用所述电话会议端点的图像捕获装置来捕获第一图像数据帧;
由所述电话会议端点的处理器确定所述第一图像数据帧内的第一感兴趣区域;
在所述电话会议端点的存储器中将所述第一图像数据帧呈现为关键帧;
使用所述图像捕获装置来捕获第二图像数据帧;
由所述处理器确定所述第二图像数据帧内的第二感兴趣区域;
由所述处理器根据图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生后续帧;以及
通过所述电话会议端点的网络接口将所述后续帧传输到远程端点。
2.如权利要求1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
确定所述第二感兴趣区域占据所述第二图像数据帧的百分之二十五以上。
3.如权利要求2所述的方法,其中所述图像数据增强算法是高分辨率算法。
4.如权利要求3所述的方法,其中所述高分辨率算法是基于注意力的反向投影网络算法。
5.如权利要求3所述的方法,其中所述高分辨率算法是级联残差网络算法。
6.如权利要求1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第一感兴趣区域对应而不与所述第二感兴趣区域对应的数据以产生所述后续帧。
7.如权利要求1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
确定所述第二感兴趣区域占据所述第二图像数据帧的百分之二十五或更少。
8.如权利要求7所述的方法,其中所述图像数据增强算法是极高分辨率算法。
9.如权利要求8所述的方法,其中所述极高分辨率算法是残差通道注意力网络算法。
10.如权利要求1所述的方法,其中由所述处理器根据所述图像数据增强算法来更新所述关键帧中的与所述第二感兴趣区域对应的数据以产生所述后续帧包括:
使用低分辨率算法来更新所述关键帧中的与所述第一感兴趣区域和所述第二感兴趣区域外部的区域对应的至少一些数据。
CN202211031941.2A 2021-09-30 2022-08-26 电话会议中的基于感兴趣区域的图像数据增强 Pending CN115914537A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/449,649 2021-09-30
US17/449,649 US11936881B2 (en) 2021-09-30 2021-09-30 Region of interest based image data enhancement in a teleconference

Publications (1)

Publication Number Publication Date
CN115914537A true CN115914537A (zh) 2023-04-04

Family

ID=83438380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211031941.2A Pending CN115914537A (zh) 2021-09-30 2022-08-26 电话会议中的基于感兴趣区域的图像数据增强

Country Status (3)

Country Link
US (1) US11936881B2 (zh)
EP (1) EP4161066A1 (zh)
CN (1) CN115914537A (zh)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020203B1 (en) 2001-12-21 2006-03-28 Polycom, Inc. Dynamic intra-coded macroblock refresh interval for video error concealment
US8977063B2 (en) 2005-03-09 2015-03-10 Qualcomm Incorporated Region-of-interest extraction for video telephony
CN104782121A (zh) * 2012-12-18 2015-07-15 英特尔公司 多区域视频会议编码
EP3029937B1 (en) * 2014-12-03 2016-11-16 Axis AB Method and encoder for video encoding of a sequence of frames
IN2015CH02866A (zh) 2015-06-09 2015-07-17 Wipro Ltd
US10187579B1 (en) 2017-06-30 2019-01-22 Polycom, Inc. People detection method for auto-framing and tracking in a video conference
US20190098347A1 (en) * 2017-09-25 2019-03-28 General Electric Company System and method for remote radiology technician assistance
US10643307B2 (en) * 2017-11-10 2020-05-05 Intel Corporation Super-resolution based foveated rendering
US10999531B1 (en) 2020-01-27 2021-05-04 Plantronics, Inc. Detecting and framing a subject of interest in a teleconference
US10904485B1 (en) 2020-01-27 2021-01-26 Plantronics, Inc. Context based target framing in a teleconferencing environment
AU2020281143B1 (en) * 2020-12-04 2021-03-25 Commonwealth Scientific And Industrial Research Organisation Creating super-resolution images

Also Published As

Publication number Publication date
US20230100130A1 (en) 2023-03-30
US11936881B2 (en) 2024-03-19
EP4161066A1 (en) 2023-04-05

Similar Documents

Publication Publication Date Title
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
JP5222939B2 (ja) テレビ電話におけるプライバシーを最大にするための浅い被写界深度のシュミレート
US8749607B2 (en) Face equalization in video conferencing
CN113850833A (zh) 使用降低分辨率的神经网络和先前帧的掩模的视频帧分割
CN108230333B (zh) 图像处理方法、装置、计算机程序、存储介质和电子设备
CN113973190A (zh) 视频虚拟背景图像处理方法、装置及计算机设备
CN106981078B (zh) 视线校正方法、装置、智能会议终端及存储介质
JP2020535688A5 (zh)
CN106254784A (zh) 一种视频处理的方法及装置
JP7101269B2 (ja) ポーズ補正
JP2005117163A5 (zh)
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN112215877A (zh) 图像处理方法和装置、电子设备、可读存储介质
WO2021031210A1 (zh) 视频处理方法和装置、存储介质和电子设备
WO2018166170A1 (zh) 一种图像处理的方法、装置及智能会议终端
CN111918127B (zh) 一种视频剪辑方法、装置、计算机可读存储介质及相机
Lee et al. Fast-rolling shutter compensation based on piecewise quadratic approximation of a camera trajectory
CN115914537A (zh) 电话会议中的基于感兴趣区域的图像数据增强
EP4187898A2 (en) Securing image data from unintended disclosure at a videoconferencing endpoint
CN113016002A (zh) 来自具有广角镜头的相机的图像中的选择性失真或变形校正
CN114640815A (zh) 一种视频的处理方法、装置、电子设备及存储介质
CN115914834A (zh) 视频处理方法及装置
US20230306698A1 (en) System and method to enhance distant people representation
US11798149B2 (en) Removing reflected information from within a video capture feed during a videoconference
CN116546182B (zh) 视频处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20240221

Address after: American Texas

Applicant after: HEWLETT-PACKARD DEVELOPMENT Co.,L.P.

Country or region after: U.S.A.

Address before: California, USA

Applicant before: Plantronics, Inc.

Country or region before: U.S.A.

TA01 Transfer of patent application right