CN115917585A - 用于提高视频质量的方法和设备 - Google Patents

用于提高视频质量的方法和设备 Download PDF

Info

Publication number
CN115917585A
CN115917585A CN202180052539.XA CN202180052539A CN115917585A CN 115917585 A CN115917585 A CN 115917585A CN 202180052539 A CN202180052539 A CN 202180052539A CN 115917585 A CN115917585 A CN 115917585A
Authority
CN
China
Prior art keywords
motion information
frame
data
neural network
mapping table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180052539.XA
Other languages
English (en)
Inventor
A·拜贾尔
具滋尹
咸喆熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN115917585A publication Critical patent/CN115917585A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • A63F13/355Performing operations on behalf of clients with restricted processing capabilities, e.g. servers transform changing game scene into an encoded video stream for transmitting to a mobile phone or a thin client
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种用于提高视频质量的方法。用于提高视频质量的方法包括:从视频中包括的帧获取关于用户控制对象的第一运动信息;使用第一神经网络从所述帧中包括的像素获取关于除用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及通过使用第二神经网络从至少两个帧、第一运动信息和第二运动信息生成所述至少两个帧之间的插值帧。

Description

用于提高视频质量的方法和设备
技术领域
各种实施例涉及用于提高视频质量的方法和装置,更具体地,涉及用于提高视频质量的方法和装置,其中,通过增加视频中包括的帧的数量来提供视频的质量。
背景技术
图像数据的每秒帧数(FPS)可以不同于用于再现图像数据的装置的FPS。例如,输出图像数据的图像显示设备的FPS可以大于图像数据的FPS。在这种情况下,当原样发送接收的图像数据时,图像质量恶化,因此需要图像显示设备增加FPS以提高图像质量。
为了增加FPS,图像显示设备可以执行帧插值或帧合成。帧插值或帧合成是重建损坏或丢失的帧,或在帧之间生成新帧以平滑图像的技术。
人工智能(AI)系统是其中机器训练自己、做出决策、得出目标结果或执行目标操作的系统。
发明内容
技术方案
根据实施例,一种用于提高视频质量的方法,包括:从包括在视频的帧获取关于用户控制对象的第一运动信息,通过使用第一神经网络从包括在帧中的像素获取关于除用户控制对象中包括的像素之外的剩余像素的第二运动信息,以及通过使用第二神经网络从至少两个帧、第一运动信息和第二运动信息生成所述至少两个帧之间的插值帧。
附图说明
图1是用于描述根据实施例的通过提高视频图像的质量来输出视频图像的显示设备的示图。
图2是根据实施例的显示设备的内部框图。
图3是用于描述根据实施例的生成映射表的显示设备中包括的处理器的框图。
图4是用于描述根据实施例的生成映射表的显示设备中包括的处理器的框图。
图5是用于描述根据实施例的生成插值帧的显示设备中包括的处理器的框图。
图6是用于描述根据实施例的生成插值帧的显示设备中包括的处理器的框图。
图7是根据实施例的显示设备的内部框图。
图8是根据实施例的用于描述根据用户输入移动的用户控制对象的示图。
图9是用于描述根据实施例的输出向用户请求用户输入以生成映射表的界面屏幕的显示设备的示图。
图10示出根据实施例的映射表。
图11是根据实施例的生成映射表的操作的流程图。
图12是根据实施例的显示设备生成插值帧的操作的流程图。
图13是根据实施例的计算设备的配置的框图。
图14是根据实施例的数据学习器的框图。
图15是根据实施例的数据预测器的配置的框图
具体实施方式
根据实施例,所述方法还可以包括对第一运动信息和第二运动信息进行后处理,其中,后处理可以包括下列中的至少一个:通过使用与包括在帧中的特定像素相邻的至少一个相邻像素的运动信息来修改特定像素的运动信息,或者通过将包括在帧中的像素按对象分组来获取每个对象的运动信息。
根据实施例,所述方法还可以包括在获取第一运动信息之前接收帧,并且基于关于包括在接收的帧中的对象的用户输入来生成映射表,其中,获取第一运动信息可以包括从映射表获取第一运动信息。
根据实施例,映射表的生成可以包括:通过使用第一神经网络获取关于包括在接收帧中的所有像素的运动信息,通过使用第三神经网络从接收帧中检测至少一个对象,识别根据来自所检测到的至少一个对象的用户输入控制的用户控制对象,以及基于包括在用户控制对象中的像素的运动信息与用户输入之间的相关性来生成映射表。
根据实施例,所述方法还可以包括基于关于检测到的至少一个对象的事件来修改关于包括在检测到的至少一个对象中的像素的运动信息,其中,事件可以包括放大、缩小或旋转中的至少一个。
根据实施例,至少一个对象的检测可以包括检测至少一个对象是前景对象还是背景对象。
根据实施例,映射表的生成可以包括在特定时间段期间接收用户输入,并且基于特定时间段期间的用户输入来更新映射表。
根据实施例,映射表的生成可以包括根据用户输入获取控制器的参数改变,以及根据控制器的参数改变映射包括在用户控制对象中的像素的运动信息,其中,控制器的参数可以包括移动方向、移动距离、移动时间、移动速度、移动加速度、移动强度或移动幅度中的至少一个。
根据实施例,映射表的生成可以包括为接收用户输入的每种类型的控制器生成映射表。
根据实施例,第一运动信息的获取可以包括从关于包括帧的视频的元数据获取第一运动信息。
根据实施例,一种用于提高视频质量的装置,所述装置包括:存储器,存储一个或多个指令;以及处理器,被配置为执行存储在存储器中的一个或多个指令,以:从包括在视频中的帧获取关于用户控制对象的第一运动信息;通过使用第一神经网络从包括在帧中的像素获取关于除用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及通过使用第二神经网络从至少两个帧、第一运动信息和第二运动信息生成至少两个帧之间的插值帧。
一种计算机可读记录介质,其上记录有用于实现提高视频质量的方法的程序,其中,所述方法包括:从包括在视频中的帧获取关于用户控制对象的第一运动信息;通过使用第一神经网络从包括在帧中的像素获取关于除用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及通过使用第二神经网络从至少两个帧、第一运动信息和第二运动信息生成至少两个帧之间的插值帧。
在下文中,将参考附图详细描述本公开的实施例,使得本领域普通技术人员可以容易地实现本公开。然而,本公开可以以各种不同的形式实现,并且不限于本文描述的本公开的实施例。
本公开中使用的术语被描述为当前考虑到本公开中描述的功能而使用的通用术语,但是根据本领域普通技术人员的意图、先例或新技术的出现,这些术语可以具有不同的含义。因此,本文使用的术语不应仅通过其名称来解释,而是必须基于术语的含义以及整个说明书中的描述来定义。
此外,本公开中使用的术语仅用于描述本公开的具体实施例,而不旨在限制本公开。
在整个说明书中,当部件“连接”到另一部件时,该部件不仅可以“直接连接”到其他部件,还可以通过中间的另一元件“电连接”到其它部件。
本说明书中使用的“该”和类似指令,特别是在权利要求中,可以表示单数和复数。此外,除非对描述根据本公开的方法的操作顺序有明确的描述,否则可以以适当的顺序执行所描述的操作。本公开不受所描述的操作的描述顺序的限制。
在本说明书的各个地方出现的短语“一些实施例”或“实施例”不一定都指同一实施例。
本公开的一些实施例可以由功能块配置和各种处理操作来表示。这些功能块中的部分或全部可以由执行特定功能的各种数量的硬件和/或软件配置来实现。例如,本公开的功能块可以通过一个或多个微处理器或通过用于特定功能的电路配置来实现。此外,例如,本公开的功能块可以以各种编程或脚本语言实现。功能块可以通过在一个或多个处理器中执行的算法来实现。此外,本公开可以采用用于电子环境设置、信号处理和/或数据处理的通用技术。诸如“机构”、“元件”、“手段”和“配置”等术语可以广泛使用,不限于机械和物理配置。
此外,附图中所示的组件之间的连接线或连接构件仅仅是功能连接和/或物理或电路连接。在实际设备中,组件之间的连接可以由可替换或添加的各种功能连接、物理连接或电路连接来表示。
此外,本说明书中描述的“单元”、“-器”和“模块”等术语表示处理至少一个功能或操作的单元,这些功能或操作可以用硬件或软件实现,也可以用硬件和软件的组合实现。
此外,在说明书中,术语“用户”表示通过使用显示设备或用于提高视频质量的装置来控制显示设备或装置的功能或操作的人,并且可以包括消费者、管理员或安装工程师。
在下文中,将参考附图详细描述本公开。
图1是用于描述根据实施例的通过提高视频图像的质量来输出视频图像的显示设备110的示图。
参照图1,显示设备110可以是能够处理和输出图像的电子设备。显示设备110可以是固定类型或移动类型,并且可以实现为包括显示器的各种类型的电子设备。
显示设备110可以包括用于输出游戏的游戏专用监视器、数字电视、台式计算机、智能手机、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、膝上型PC、上网本计算机、数码相机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、便携式摄像机、导航设备、可穿戴设备、智能手表、家庭网络系统、安全系统或医疗设备中的至少一个。
显示设备110不仅可实现为平面显示设备,还可实现为具有曲率的屏幕的弯曲显示设备或具有可调节曲率的柔性显示设备。显示设备110的输出分辨率可包括例如高清晰度(HD)、全高清、超高清或比超高清更清晰的清晰度。
显示设备110可以输出视频。视频可以包括多个帧。视频可以包括通过电视节目或视频点播(VOD)服务提供的各种电影或戏剧的项目。
根据实施例,显示设备110输出的视频可以包括游戏数据。显示设备110可以通过互联网或另一网络实时接收在线游戏数据,并输出游戏数据。可选地,显示设备110可以下载游戏应用程序或程序,并离线输出游戏数据。可选地,显示设备110可以连接到与显示设备110分离的游戏设备120,并且接收存储在游戏设备120中的游戏数据并输出游戏数据。
图1示出游戏设备120连接到显示设备110的情况,但这只是一个实施例,本申请不限于此。
在图1中,游戏设备120可以是存储包括视频、音频和字幕的游戏数据的各种类型的电子设备。游戏设备120可以以芯片或通用串行总线(USB)的形式实现,或者以其中包括芯片或USB的各种电子设备实现。
游戏设备120可以无线地或经由线缆连接到显示设备110,以将游戏数据传输到显示设备100。
显示设备110可以从游戏设备120接收游戏数据并输出游戏数据。由显示设备110输出的游戏数据可以由控制设备130控制。控制设备130可以被实现为用于控制从显示设备110输出的游戏数据的各种类型的设备,诸如遥控器、移动电话、操纵杆、键盘或鼠标。
当显示设备110的显示器被实现为触摸屏时,控制设备130可以被用户的手指或输入笔代替。
控制设备130可以包括用于控制从显示设备110输出的游戏数据的键或按钮。例如,控制设备130可以包括用于控制包括在视频中的对象的运动的各种键,诸如方向键或旋转键、用于增大或减小对象尺寸的放大或缩小键、用于选择项目的输入键以及用于返回前一屏幕或设置环境的键。
控制设备130可以通过使用有线通信(诸如高清多媒体接口(HDMI)电缆)来控制显示设备110,或者通过使用包括红外或蓝牙通信的短距离通信来控制显示设备110。控制设备130可以通过使用所提供的键(包括按钮)、触摸板、能够接收用户语音的麦克风(未示出)或能够识别控制设备130的运动的传感器(未示出)中的至少一个来控制显示设备110的功能。
随着显示设备110的规格的改进,显示设备110支持的每秒帧数(FPS)也增加。这表示帧速率增加,并且当帧速率提高时,包括在视频中的对象的运动变得更平滑。
为了增加帧速率,显示设备110可通过使用包括在视频中的两个帧来生成插值帧。例如,当以30FPS制造游戏数据并且再现游戏数据的显示设备110支持60FPS时,显示设备110可通过为每帧增加一帧来提高视频的图像质量,从而将游戏数据的FPS从30FPS增加到60FPS。游戏数据中对象的运动通常非常快,因此当帧速率增加时,对象的运动变得更自然,因此视频质量可提高。
为了增加FPS,显示设备110可以执行帧插值或帧合成。帧插值或帧合成也称为帧速率转换或FRC。在下面的描述中,术语“帧插值”或“帧合成”也可以称为帧速率转换或FRC。
根据实施例,显示设备110可以通过使用不同的方法,从包括在帧中的像素中获取包括在由用户通过使用控制设备130控制的对象中的像素的运动信息,以及不包括在其中的像素的运动信息。
在下文中,为了便于描述,可由用户通过使用控制设备130控制的对象可被称为用户控制对象。
根据实施例,显示设备110可以从预先生成并存储在显示设备110中的映射表获取关于用户控制对象的运动信息。
根据另一实施例,当游戏数据包括元数据(包括关于对象的信息)时,显示设备110可以从元数据获取关于用户控制对象的运动信息。
因为显示设备110通过使用关于用户控制对象预先存储的元数据或映射表来获取运动信息,所以可以进一步准确地估计根据用户输入的用户控制对象的运动。
根据实施例,显示设备110可以通过使用至少一个神经网络获取关于包括在帧中的像素中除了包括在用户控制对象中的像素之外的像素的运动信息。换言之,显示设备110仅获取关于除了用户控制对象之外的像素的运动信息,而不是包括在帧中的所有像素,因此可以降低数据处理所需的吞吐量或数据处理的复杂性,并且可以提高数据处理速度。
根据实施例,显示设备110可以通过使用获取的关于用户控制对象的运动信息、获取的关于除用户控制对象之外的像素的运动信息以及至少两个帧,来生成位于至少两个帧之间的插值帧。
这样,根据实施例,显示设备110可以通过使用不同的方法获取关于用户控制对象和剩余像素的运动信息片段并通过使用运动数据片段生成插值帧,从而更快速和准确地生成插值帧。
图2是根据实施例的显示设备200的内部框图。
参考图2,显示设备200可以包括处理器210、存储器220、数据输入单元230、用户输入接收器240和显示器250。
根据实施例,显示设备200可以是电子设备,该电子设备可以输出通过数据输入单元230输入的视频的帧,并通过使用不同的方法获取输出帧中的用户控制对象的运动信息和关于剩余像素的运动信息来生成插值帧。
根据实施例,显示器250可以在屏幕上显示各种类型的内容。显示器250可以在屏幕上输出实时接收的或通过流传输或下载接收的游戏数据。
根据实施例,显示器250可以在屏幕上输出游戏数据,并在特定时间段期间输出请求通过用户输入接收器240进行用户输入的界面屏幕。如界面屏幕所示,用户可以通过使用用户输入接收器240来调整用户控制对象的运动。
当显示器250被配置为触摸屏时,显示器250可以用作输入设备,诸如用户接口,以及输出设备。例如,显示器250可以包括液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维(3D)显示器或电泳显示器中的至少一种。此外,根据显示设备200的实现,显示设备200可以包括两个或更多个显示器250。
根据本公开的实施例,存储器220可以存储至少一个指令。存储器220可以存储由处理器210执行的至少一个程序。存储器220可以存储至少一个神经网络和/或预定义的操作规则或人工智能(AI)模型。此外,存储器220可以存储输入到显示设备200或从显示设备200输出的数据。
根据实施例,存储器220可以存储由显示设备200生成的映射表。可选地,当游戏数据包括元数据时,存储器220可以存储关于游戏数据的元数据。
存储器220可以包括闪存类型、硬盘类型、多媒体卡微型、卡型存储器(例如,安全数字(SD)或极限数字(XD)存储器)、随机存取存储器(RAM)、静态RAM(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘和光盘中的至少一种类型的存储介质。
处理器220控制显示设备200的整体操作。处理器210可以执行存储在存储器220中的一个或多个指令以控制显示设备200操作。
根据实施例,显示设备200可以使用AI技术。AI技术可以包括机器学习(深度学习)和使用机器学习的要素技术。AI技术可以通过使用算法来实现。在此,用于实现AI技术的算法或算法集合被称为神经网络。神经网络可以接收输入数据,执行分析和分类操作,并输出结果数据。这样,为了使神经网络准确地输出与输入数据相对应的结果数据,需要训练神经网络。在此,训练可以指示各种类型的数据被输入到神经网络,并且神经网络被训练成使得神经网络自己发现或学习分析输入数据的方法、对输入数据进行分类的方法和/或提取从输入数据生成结果数据所需的特征的方法。神经网络的训练表示通过将学习算法应用于训练数据片段来准备期望特性的AI模型。这种训练可以由显示设备200使用根据实施例的AI或单独的服务器/系统来执行。
在此,学习算法是通过使用训练数据片段来训练特定目标设备(例如,机器人)的方法,使得特定目标设备可以自己做出决策或执行预测。学习算法的示例包括有监督学习、无监督学习、半监督学习和强化学习,除非指定,否则根据实施例的学习算法不限于此。
用于通过神经网络输出与输入数据相对应的输出数据的算法集合、用于执行算法集合的软件和/或用于执行算法集合的硬件可以被称为AI模型。
处理器210可根据预定义的操作规则或AI模型来处理输入数据。通过使用特定算法来准备预定义的操作规则或AI模型。此外,AI模型可能已经学习了特定算法。处理器210可通过AI模型生成与输入数据相对应的输出数据。
根据实施例,处理器210可以存储至少一个AI模型。根据实施例,处理器210可以通过使用多个AI模型从输入图像生成输出数据。根据实施例,代替处理器210,存储器220可以存储AI模型。
根据实施例,处理器210使用的神经网络可以是训练以预测关于包括在帧中的像素的运动信息的神经网络。
根据实施例,处理器210使用的神经网络可以是训练以检测包括在帧中的对象的神经网络。
根据实施例,处理器210使用的神经网络可以是训练以通过使用帧和运动信息来生成插值帧的神经网络。
根据实施例,处理器210可以输出游戏数据,在特定时间段期间通过用户输入接收器240接收用户输入,并基于用户输入在包括在帧中的对象中识别用户控制对象。
处理器210可以获取通过用户输入接收器240的用户输入与根据用户输入的用户控制对象的运动信息之间的相关性,并基于相关性生成关于用户控制目标的映射表。
在生成映射表之前,处理器210可以通过使用关于包括在帧中的所有像素的至少一个神经网络来预测运动信息。在这种情况下,处理器210可以通过使用至少两个帧和关于包括在帧中的所有像素的运动信息来生成所述至少两个帧之间的插值帧。
在生成映射表之后,处理器210可以根据包括在帧中的对象是否是用户控制对象,通过使用不同的方法来获取运动信息。
根据实施例,处理器210可以从预先生成和存储的映射表获取关于用户控制对象的与用户输入相对应的运动信息。
根据实施例,处理器210可以仅对除了包括在用户控制对象中的像素之外的像素通过使用至少一个神经网络来执行运动估计。
根据实施例,处理器210可以通过使用获取的关于用户控制对象的运动信息、获取的关于剩余像素的运动信息以及多个帧来生成插值帧。
数据输入单元230可以通过有线或无线通信网络连接到外部设备或服务器,并接收包括视频(例如,运动图像信号或静止图像信号)和音频(例如,语音信号或音乐信号)的游戏数据。在一些情况下,游戏数据可进一步包括诸如元数据的附加信息。元数据可包括关于包括在游戏数据中的对象的运动信息。
用户输入接收器240可以接收关于由显示器250输出的游戏数据的用户控制。用户输入接收器240可以通过有线或无线通信网络,通过诸如遥控器、移动电话、操纵杆、键盘或鼠标的控制设备130接收用户输入。
根据实施例,处理器210可以通过执行存储在存储器220中的一个或多个指令来控制要执行的上述操作。在这种情况下,存储器220可以存储可由处理器210执行的一个或多个指令。
根据实施例,处理器210可以将一个或多个指令存储在处理器210内部提供的存储器(未示出)中,并通过执行存储在其中提供的存储器中的一个或多个指令来控制要执行的上述操作。换言之,处理器210可以通过执行存储在存储器220或处理器210内部提供的存储器中的程序或至少一个指令来执行特定操作。
根据实施例,通过生成插值帧来执行提高视频质量的功能的处理器210可以通过以至少一个硬件芯片的形式制造而安装在显示设备200上,或者以芯片或电子设备的形式被包括在显示设备200中。可选地,执行提高视频质量的功能的处理器210可以体现为显示设备200中的软件模块。
图3是用于描述根据实施例的生成映射表的显示设备中包括的处理器的框图。
参考图3,处理器210可以包括运动估计神经网络211、对象检测神经网络213和映射表生成器215。
运动估计神经网络211可是训练以从输入数据获取运动信息的神经网络。
运动信息可以包括运动向量。根据实施例,运动信息也可以被称为光流。光流是包含关于对象的运动的信息的数据,并且可以通过光学识别对象的流来计算运动量。换言之,光流可以是对象在连续帧之间的运动模式,其由对象或相机的相对运动产生。
运动估计神经网络211可以是从输入数据获取每个像素的运动信息的算法、算法集合、执行算法集合的软件和/或执行算法集合的硬件。
根据实施例,运动估计神经网络211可以基于至少两个帧(即,第一帧和第二帧)获取每个像素的运动估计。在此,第一帧可以是先前图像,第二帧可以是当前图像。
运动估计神经网络211可以是基于卷积神经网络(CNN)的神经网络,诸如CNN、深度卷积神经网络或CapsNet神经网络。当包括在图像中的信息片段之间的相关性是局部的时,基于CNN的神经网络可以引入仅考虑特定区域的滤波器的概念,并通过对滤波器中的信息片段执行卷积来生成新的特征图。
运动估计神经网络211可以是具有多个深度的DCNN。换言之,运动估计神经网络211可以包括执行操作的多个内部层。当执行操作的神经网络的深度增加时,这种神经网络可以被分类为深度神经网络(DNN)。DNN的操作可以包括CNN操作等。
运动估计神经网络211可以包括从低级层到高级层的多个层。每个层包括多个权重值,并且可通过多个权重的操作和前一层的操作结果来执行操作。
池化层可布置在卷积层之后。卷积层是根据卷积操作生成的数据片段的层,池化层是用于通过子采样或池化来减少数据片段的数量或数据的尺寸的层。通过卷积层和池化层,生成指示输入帧的特征的数据片段,例如,特征图。
卷积层和池化层的深度可以变化。此外,可以根据卷积层和池化层的深度来提取不同的特征数据片段。例如,当卷积层和池化层的深度加深时,指示输入帧的特征的信息片段可以具有更详细的形式。可以考虑结果的准确性、结果的可靠性以及处理器的操作处理速度和容量来不同地设计深度和形式。
运动估计神经网络211可以针对至少两个输入帧中的每一个从每个层提取特征图。在此,当层过滤器的深度改变时,输出特征图也会改变。运动估计神经网络211可以通过使用针对每个层提取的特征图来预测运动估计。
当开始输出游戏数据时,运动估计神经网络211可以预测关于输入帧的所有像素的运动估计,直到生成映射表。
对象检测神经网络213可以是训练以通过分析和分类输入数据来检测对象的神经网络。对象检测神经网络213可以是从输入数据检测对象的算法、算法集合、执行算法集合的软件和/或执行算法集合的硬件。
对象检测神经网络213可以是通过多个隐藏层执行操作的DNN。
神经网络的示例包括卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络以及深度Q网络,根据实施例的对象检测神经网络213不限于此,除非另有规定。此外,CNN可以细分为深度卷积神经网络(DCNN)或CapsNet神经网络(未示出)。
根据实施例,可以通过使用各种分割算法来实现对象检测神经网络213。用于从帧分割对象的技术可以包括基于像素、基于边缘和基于区域的方法,但不限于此。
对象检测神经网络213可以从输入帧中检测至少一个对象。对象检测神经网络213可以基于包括在帧中的对象和剩余区域之间的颜色、饱和度、亮度、对比度等,从帧中分离并检测对象。
映射表生成器215可以从运动估计神经网络211获取每个像素的运动估计,并且从对象检测神经网络213获取关于对象的信息。
映射表生成器215可以通过用户输入接收器240接收用户输入,并从对象中识别根据用户输入控制的用户控制对象。
用户输入可以包括控制设备130的参数值。详细地,当用户控制控制设备130时,控制设备130的参数值可以根据用户控制而改变。映射表生成器215可以接收控制设备130的参数改变值,并在控制设备130的参数值改变时识别屏幕上输出的对象的运动程度。
映射表生成器215可将参数值改变与运动信息之间具有最高相关性的对象识别为用户控制对象。映射表生成器215可在映射表中包括识别的用户控制对象的位置信息,例如,用户控制对象的像素边界的坐标值、像素编号等。
映射表生成器215可以将根据用户输入的控制设备130的参数值改变与用户控制对象的运动程度进行映射,并将其包括在映射表中。控制设备130的参数可以包括根据用户输入的控制设备130的移动方向、移动距离、移动时间、移动速度、移动加速度、移动强度或移动幅度中的至少一个。
控制设备130的参数值可以根据控制设备130类型而改变。例如,当控制设备130是键盘并且当控制设备120是操纵杆时,每个控制设备的参数值可以改变。映射表生成器215可以为每种类型的控制设备130生成映射表。
映射表生成器215可以基于特定时间段期间的用户输入来连续更新映射表。换言之,映射表生成器215可以在特定时间段期间或者关于特定数量的帧,根据用户输入连续检测具有最高运动度的对象。此外,映射表生成器215可以通过将根据用户输入的控制设备130的参数改变与根据参数改变的对象的运动程度相关联来连续地执行生成映射表的处理。映射表生成器215还可以通过在特定时间段期间或关于特定数量的帧重复执行这样的处理来准确地检测用户控制对象,并且生成进一步准确地指示检测的用户控制对象的运动与参数值之间的相关性的映射表。
图4是用于描述根据实施例的生成映射表的显示设备中包括的处理器的框图。
参照图4,处理器210可以包括运动估计神经网络211、对象检测神经网络213和映射表生成器215。此外,处理器210还可包括运动信息修改器212。
此外,图4的处理器210可以是图3的处理器210的示例。以下,省略与图3的描述重叠的描述。
在图4中,对象检测神经网络213可包括前景背景检测神经网络214。前景背景检测神经网络214可以是训练以分析和分类帧以识别帧中包括的对象是前景还是背景的神经网络。前景背景检测神经网络214可以是从输入数据检测对象位置的算法、算法集合、执行算法集合的软件和/或执行算法集合的硬件。
通常,在游戏数据中,用户控制对象位于中心或略低于中心。换言之,用户控制对象通常是帧中的前景对象,因此前景背景检测神经网络214可以识别从帧检测的对象是前景对象还是背景对象,从而进一步容易地检测用户控制对象。
对象检测神经网络213可以从帧检测多个对象,并将其发送到运动信息修改器212。此外,对象检测神经网络213可以向运动信息修改器212发送由前景背景检测神经网络214从检测的对象识别为前景对象的对象。
运动信息修改器212可以获取关于帧中包括的像素的运动信息,并且从对象检测神经网络213获取关于检测的对象的信息以及关于哪个是前景对象的信息。
运动信息修改器212可以对帧中包括的每个对象获取对象中包括的像素的运动信息,并修改运动信息。运动信息修改器212可以根据关于对象的事件的发生来修改关于检测的对象中包括的像素的运动信息。关于对象的事件可以包括放大、缩小或旋转中的至少一个。
例如,当检测的对象是用户控制对象时,用户控制对象的尺寸可以根据用户控制而增大或减小。换言之,用户可以通过使用控制设备130来发送用于增加或减小用户控制对象的尺寸的用户输入。此外,用户可以通过使用控制设备130发送用于旋转对象的用户输入。当发生这样的各种事件时,存储在映射表中的运动信息也可以改变,因此当根据用户输入发生事件时,运动信息修改器212可以计算运动信息的统计特性,以准确地预测用户控制对象的运动信息如何改变。
当发生诸如放大或缩小的事件时,运动信息修改器212可以将包括在对象中的像素的数量与事件的发生相比增加或减少两倍或三倍,并且预测关于增加或减少的像素的运动信息。此外,当诸如旋转的事件发生时,考虑到对象中包括的像素的数量根据旋转而改变,运动信息修改器212可以预测关于改变的像素的运动信息。
运动信息修改器212可以根据各种事件的发生来预测运动信息改变,并且通过反映改变来修改像素的运动信息。
映射表生成器215可以从运动信息修改器212获取对帧中包括的每个对象获取和修改的运动信息,并通过使用运动信息来生成映射表。映射表生成器215可以根据基于用户输入的对象的运动程度来识别用户控制对象,并且通过使用用户输入和包括在识别的用户控制对象中的像素的运动信息之间的关系来生成映射表。
图5是用于描述根据实施例的生成插值帧的显示设备中包括的处理器的框图。
参照图5,处理器210可以包括运动信息获取器511和插值帧生成器517。运动信息获取器511可以从输入帧获取运动信息或光流(optical flow)。
运动信息获取器511可以包括第一运动信息获取器513和第二运动信息获取器515。
第一运动信息获取器513可以获取关于包括在帧中的用户控制对象的运动信息。在下文中,为了便于描述,关于用户控制对象的运动信息将被称为第一运动信息。
第一运动信息获取器513可以通过使用预先生成和存储的映射表从帧识别用户控制对象。如上所述,映射表可以包括用于识别根据用户输入控制的用户控制对象的信息。用于识别用户控制对象的信息可以包括用户控制对象边界或包括在用户控制对象中的像素的坐标值或像素数。
当接收到用户输入时,第一运动信息获取器513可以获取包括在用户输入中的控制设备130的参数改变值。
如上所述,映射表可以包括根据用户输入的用户控制对象的运动信息和控制设备130的参数值之间的映射关系。控制设备130的参数可包括各种变量,诸如根据使用控制设备130(诸如操纵杆或键盘)的用户输入的移动方向或移动距离、移动命令时间、移动速度、移动加速度或用户输入的强度或振幅。
第一运动信息获取器513可以从映射表中获取用户控制对象的运动信息,即,根据用户输入映射到控制设备130的参数改变的第一运动信息。第一运动信息可以是关于所有用户控制对象的运动信息,或者可以包括关于包括在用户控制对象中的多个像素中的每一个的运动信息。
这样,第一运动信息获取器513可以进一步准确地预测用户控制对象的运动,因为基于用户输入,通过使用预先生成的映射表直接获取关于用户控制目标的第一运动信息。
第一运动信息获取器513可将获取的第一运动信息发送到插值帧生成器517。
第二运动信息获取器515可以从帧获取关于除了用户控制对象之外的像素的运动信息。
第二运动信息获取器515可以通过使用映射表从帧获取关于除了包括在、识别的用户控制对象中的像素之外的剩余像素的运动信息,而不是获取关于整个帧的运动信息。在下文中,为了便于描述,关于除了包括在用户控制对象中的像素之外的像素的运动信息将被称为第二运动信息。
根据实施例,第二运动信息获取器515可以使用参照图3描述的运动估计神经网络211。换言之,第二运动信息获取器515可以使用训练以从输入数据获取光流(即,运动信息)的神经网络。第二运动信息获取器515可以通过使用用于从输入数据获取每像素运动信息的算法、算法集合、执行算法集合的软件和/或执行算法集合的硬件,基于至少两个帧获取每像素的运动信息。
第二运动信息获取器515可以使用基于CNN的神经网络,诸如CNN、DCNN或CapsNet神经网络。
根据实施例,第二运动信息获取器515可以使用通过多个层执行操作的DNN。第二运动信息获取器515可以从每个层提取关于至少两个输入帧中的每一个的特征图,并通过使用为每个层提取的特征图来预测运动信息。
当开始输出游戏数据时,第二运动信息获取器515可以预测关于输入帧的所有像素的运动信息,直到生成映射表,并且在生成映射表之后,仅预测除用户控制对象中包括的像素之外的其余像素的运动信息。换言之,在生成映射表之后,第二运动信息获取器515仅预测与帧中包括的像素中的一些像素有关的运动信息,而不是整个帧,因此可以减少当对整个帧估计运动信息时引起的吞吐量和复杂度。
第二运动信息获取器515可以向插值帧生成器517发送第二运动信息。
插值帧生成器517可以通过使用至少两个帧和从运动信息获取器511获取的运动信息来生成至少两个帧之间的插值帧。
根据实施例,插值帧生成器517可以使用训练的神经网络来接收运动信息和帧,分析和分类运动信息和帧,并生成新的插值帧。插值帧生成器517可以使用用于组合来自输入数据的新帧的算法、算法集合、执行算法集合的软件和/或执行算法集合的硬件。
插值帧生成器517可以使用CNN。CNN可以细分为DCNN或CapsNet神经网络(未示出)。
插值帧生成器517可以根据插值方法通过使用输入帧的每个块的运动信息或每个像素的运动信息来生成插值帧。可选地,插值帧生成器517可以使用基于内核的方法、基于相位的方法及其组合中的一种。
例如,插值帧生成器517可以通过使用通用CNN来堆叠至少两个输入帧,以将其用作输入数据,并且通过将输入数据通过卷积层几次来输出反映了光流的插值帧作为最终输出。
可选地,插值帧生成器517可以通过使至少两个输入帧分别通过卷积层来获取特征图,并且将获取的特征图通过相关层然后通过卷积层,从而通过比较从帧获取的特征图来生成插值帧。在此,相关层可以是指使用与卷积层相同的操作但使用相互输入而不是权重值的层。
可选地,插值帧生成器517可以通过从输入帧的相邻像素收集上下文信息来学习分层特征。插值帧生成器517可以通过使用输入帧和从运动信息获取器511接收的运动信息,通过深度估计、内容提取、内核估计和帧合成来组合新帧。
插值帧生成器517可以通过使用除上述方法之外的各种方法从输入帧和运动信息生成插值帧。插值帧生成器517可以通过在帧之间插入预测的虚拟帧以增加帧的数量来提高视频的质量。
图6是用于描述根据实施例的生成插值帧的显示设备中包括的处理器的框图。
参照图6,处理器210可以包括运动信息获取器511、运动信息后处理器516和插值帧生成器517。图6的处理器210可以是图5的处理器210的示例。因此,省略了关于与图5中描述的细节重叠的细节的描述。
运动信息获取器511可以从输入帧获取运动信息或光流。运动信息获取器511可以包括用于获取关于包括在帧中的用户控制对象的第一运动信息的第一运动信息获取器513,以及用于获取关于除了包括在用户控制对象中的像素之外的像素的第二运动信息的第二运动信息获取器515。
运动信息后处理器516可以对从运动信息获取器511接收的运动信息进行后处理。
运动信息后处理器516可以通过使用各种方法对运动信息进行后处理。根据实施例,运动信息后处理器516可以考虑相邻像素或相邻子区域的运动信息来修改特定像素或特定子区域的运动信息。
运动信息后处理器516可以通过使用相邻像素或相邻子区域的运动信息将特定像素或特定子区域的运动信息修改为更自然。例如,运动信息后处理器516可以通过使用与第一像素相邻的相邻像素中的至少一个,即,位于第一像素的右侧、左侧、顶部或底部的相邻像素中的至少一个,修改包括在帧中的第一像素的运动信息。
运动信息后处理器516还可以考虑相邻像素和第一像素来修改第一像素的运动信息。例如,运动信息后处理器516可以通过使用第一像素和相邻像素的运动信息的值的平均值来修改第一像素的运动信息。
根据另一实施例,运动信息后处理器516可以对每个对象或特定尺寸的每个块的每个像素的运动信息进行分组。当通过使用每个像素的运动信息来生成插值帧时,它可能消耗相当大的吞吐量。因此,运动信息后处理器516可以通过以对象为单位或以特定块为单位对每个像素的运动信息进行分组来获取每个对象或每个块的运动信息。例如,运动信息后处理器516可以获取包括在特定块中的每个像素的运动信息片段的平均值、最大值或中间值,作为关于整个特定块的运动信息。
运动信息后处理器516可以将每个块或每个对象的运动信息发送到插值帧生成器517。
插值帧生成器517可以通过使用按对象或按块分组的运动信息,以比使用基于每个像素的运动信息时更少的吞吐量进一步快速生成插值帧。
图7是根据实施例的显示设备的内部框图。
参考图7,显示设备700可以包括处理器210、存储器220、用户输入接收器240和显示器250。此外,显示设备700还可以包括调谐器710、通信器720、检测器730、输入/输出单元740、视频处理器750、音频处理器760和音频输出单元770。
图7的显示设备700可以包括图2的显示设备200。因此,省略了与图2中描述的描述重叠的描述。
显示设备700可以被实现为能够输出游戏数据的各种电子设备,并且例如可以是台式计算机、数字电视、智能手机、平板PC、膝上型PC、上网本计算机、PDA或PMP。
调谐器710可以通过对经由有线或无线接收的广播内容执行放大、混合和共振,在许多无线电波分量中仅调谐和选择要由显示设备700接收的信道的频率。通过调谐器710接收的内容被解码(例如,音频解码、视频解码或附加信息解码)并被划分为音频、视频和/或附加信息。所划分得到的音频、视频和/或附加信息可以在处理器210的控制下存储在存储器220中。
通信器720可以根据处理器210的控制,通过执行与通过有线/无线网络连接的外部设备的通信来发送/接收信号。通信器720可以包括至少一个通信模块,诸如短程通信模块、有线通信模块、移动通信模块和广播接收模块。通信模块可以包括通信模块,能够通过调谐器、蓝牙、无线局域网(WLAN)、无线宽带(Wibro)或遵循通信标准(诸如微波接入的全球互通性(Wimax)、CDMA或WCDMA)的网络来执行数据发送/接收。
通信器720可以从外部设备或服务器下载或web浏览游戏程序或游戏应用。根据显示设备700的性能和结构,通信器720可以包括WLAN 721、蓝牙722和有线以太网723之一。此外,通信器720可以包括WLAN 721、蓝牙722和有线以太网723的组合。
根据处理器210的控制,通信器720可以通过诸如遥控器、移动电话、操纵杆或无线鼠标的控制设备(未示出)接收控制信号。控制信号可以是蓝牙类型、射频(RF)信号类型或Wi-Fi类型。通信器720还可以包括除蓝牙722之外的短程通信,诸如近场通信(NFC)(未示出)或蓝牙低能量(BLE)(没有示出)。根据实施例,通信器720可以通过短距离通信(诸如蓝牙722或BLE)向外部设备发送/从外部设备接收连接信号。
检测器730检测用户的声音、用户的图像或用户的交互,并且可以包括麦克风731、相机732和光接收器733。麦克风731可以接收用户发出的语音,将接收的语音转换成电信号,并将电信号输出到处理器210。
相机732包括传感器(未示出)和镜头(未示),并且可以在屏幕上捕捉图像。
光接收器733可以接收光信号(包括控制信号)。光接收器733可以从诸如遥控器、移动电话或鼠标的控制设备(未示出)接收与用户输入(例如,触摸、按压、触摸手势、语音或运动)相对应的光信号。根据处理器210的控制,可以从接收的光信号中提取控制信号。
输入/输出单元740可以包括图2所示的数据输入单元230。输入/输出单元740可以根据处理器210的控制,从外部数据库、服务器或游戏设备接收包括游戏数据的各种视频(例如,运动图像信号或静止图像信号)、音频(例如,语音信号或音乐信号)和附加信息(例如,关于内容、内容标题或内容存储位置的描述)。在此,附加信息可以包括关于内容的元数据。
输入/输出单元740可包括高清多媒体接口(HDMI)端口741、组件插口742、PC端口743和通用串行总线(USB)端口744之一。输入/输出单元740可包括HDMI端口741、组件插口742、PC端口743和USB端口744的组合。
视频处理器750处理要由显示器250显示的图像数据,并且可以对图像数据执行各种图像处理操作,诸如解码、渲染、缩放、噪声滤波、帧速率转换和分辨率转换。
音频处理器760对音频数据执行处理。音频处理器760可以对音频数据执行各种处理,诸如解码、放大或噪声滤波。
根据处理器210的控制,音频输出单元770可以输出包括在通过调谐器710接收的内容中的音频、通过通信器720或输入/输出单元740输入的音频、或存储在存储器220中的音频。音频输出单元770可以包括扬声器771、耳机输出端子772或Sony/Philips数字接口(S/PDIF)端子773中的至少一个。
根据实施例的用户输入接收器240可以接收用于控制显示设备700的用户输入。图7的用户输入接收器240执行与图2的用户输入接收器240相同的功能,因此使用相同的附图标记。
用户输入接收器240可以包括各种类型的用户输入设备,包括检测用户的触摸的触摸面板、接收用户的按压操作的按钮、接收用户旋转操作的轮子、键盘、圆顶开关、用于语音识别的麦克风和感测运动的运动检测传感器,但不限于此。此外,当显示设备700由遥控器(未示出)操纵时,用户输入接收器240可以接收从遥控器接收的控制信号。
根据实施例,用户可以通过用户输入接收器240通过控制显示设备700来实现显示设备700的各种功能。用户可以通过使用用户输入接收器240来控制从显示设备700输出的游戏视频中的用户控制对象。
存储器220可以存储至少一个指令。存储器220可以存储由处理器210执行的至少一个程序。存储器220可以存储至少一个神经网络和/或预定义的操作规则或AI模型。此外,存储器220可以存储输入到显示设备200或从显示设备200输出的数据。
根据实施例,存储器220可以存储由显示设备200生成的映射表。可选地,当游戏数据包括元数据时,存储器220可以存储关于游戏数据的元数据。
处理器210控制显示设备200的整体操作。处理器210可以执行存储在存储器220中的一个或多个指令以控制显示设备200操作。
根据实施例,处理器210可以识别在视频中包括的帧中根据用户的控制移动的用户控制对象,并获取关于用户控制对象的第一运动信息。
根据实施例,处理器210可以通过使用第一神经网络获取关于包括在帧中的像素当中除了包括在用户控制对象中的像素之外的剩余像素的第二运动信息。第一神经网络可以是运动估计神经网络。
根据实施例,处理器210可以通过使用第二神经网络从至少两个帧、第一运动信息和第二运动信息中生成所述至少两个帧之间的插值帧。第二神经网络可以是用于生成插值帧的神经网络。
根据实施例,处理器210可以对第一运动信息和第二运动信息进行后处理。换言之,处理器210可以通过执行以下操作中的至少一个来对运动信息进行后处理:通过使用与包括在帧中的特定像素相邻的至少一个相邻像素的运动信息,修改特定像素的运动信息,或者通过将包括在帧中的像素按每个对象分组来获取每个对象的运动信息。
根据实施例,在获取第一运动信息之前,处理器210可以接收帧并基于关于包括在接收的帧中的对象的用户输入来生成映射表。处理器210可以通过使用第一神经网络获取关于接收帧中包括的所有像素的运动信息。
为了生成映射表,处理器210可以通过使用第三神经网络从接收帧检测至少一个对象。第三神经网络可以是对象检测神经网络。处理器210可以从所检测到的对象识别根据用户输入控制的用户控制对象。
处理器210可以通过使用第三神经网络检测对象是前景对象还是背景对象。处理器210可以从前景对象识别用户控制对象。
处理器210可基于用户输入和包括在用户控制对象中的像素的运动信息之间的相关性来生成映射表。处理器210可根据用户输入获取控制器(即,控制设备)的参数改变,并通过根据控制器的参数改变映射包括在用户控制对象中的像素的运动信息来生成映射表。控制器的参数可包括移动方向、移动距离、移动时间、移动速度、移动加速度、移动强度或移动幅度中的至少一个。
处理器210可以基于关于对象的事件来修改关于检测的对象中包括的像素的运动信息。换言之,当发生包括放大、缩小或旋转中的至少一个的事件时,处理器210可以根据事件修改像素的运动信息。
处理器210可以在特定时间段期间接收用户输入,并基于特定时间段内的用户输入更新映射表。
处理器210可以为接收用户输入的每种类型的控制器生成映射表。
每当游戏开始时,处理器210可以生成映射表。可选地,处理器210可以仅在游戏初始设置时生成映射表,并且此后使用预存储的映射表。
图8是根据实施例的用于描述根据用户输入移动的用户控制对象的示图。
参考图8,用户可以通过使用控制设备810来控制用户控制对象。图8的屏幕820和830示出用户控制对象821和831根据用户的输入移动。
控制设备810可以被实现为用于控制从显示设备输出的游戏数据的各种类型的控制器,诸如遥控器、移动电话、操纵杆、键盘或鼠标。
控制设备810可以包括用于控制游戏数据的键或按钮。控制设备810可以包括各种类型的控制键或控制按钮中的至少一个,诸如用于在左右方向或上下方向上移动视频中包括的对象的方向键、用于旋转对象的方向的旋转键、用于增大或减小对象的尺寸的放大或缩小键、用于选择项目的输入键以及用于返回前一屏幕的键。
包括在游戏数据中的视频可以包括多个帧。帧可以包括至少一个对象。显示设备可以以帧为单位输出游戏数据。
用户可以通过使用控制设备810从包括在帧中的对象中控制可以由用户控制的用户控制对象的运动。为了控制用户控制对象的运动,用户可以通过使用控制设备810来发送用户输入。用户输入可以包括控制设备810的参数值。换言之,当用户操纵控制设备810时,与用户操纵相对应的控制设备810的参数值可以被包括在用户输入中并被发送到显示设备。
例如,当用户以x的强度向右移动操纵杆时,参数值可以是2。当参数值为2并且用户控制对象在右方向上移动y个像素时,显示设备可以将参数值2和运动信息y相映射。显示设备可以将参数值和对应的运动信息相映射,并存储它们以生成映射表。
根据用户输入的控制设备810的参数值可以根据控制设备的类型而变化。换言之,即使当用户移动操纵杆并以相同的强度按下鼠标按钮时,感测用户输入的参数值也可以根据控制设备810而变化。因此,显示设备可以根据控制设备810生成不同的映射表。
当新控制设备810被连接时,显示设备可以识别是否存在为新连接的控制设备810预先存储的映射表,并且当不存在预先存储的对应表时,生成用于新控制设备的映射表。
当映射表是新生成的或者已经生成并存储在显示设备中时,显示设备可以根据用户输入从映射表获取用户控制对象的运动信息。换言之,如在上述示例中,当当前用户输入包括参数值2时,显示设备可以从映射表中提取映射到参数值2并存储的运动信息y,并通过使用运动信息y控制用户控制对象从当前位置移动y个像素。
图9是用于描述根据实施例的输出向用户请求用户输入以生成映射表的界面屏幕的显示设备的示图。
当游戏新开始时,显示设备可以生成映射表。可选地,当在游戏期间一个会话结束之后新游戏开始时对象的类型改变时,显示设备可新生成映射表。
例如,如图9所示,当游戏是赛车游戏时,用户可以直接选择要控制的汽车的风格、颜色、型号和性能。当用户选择具有与先前对象不同的性能的对象时,即,当汽车的运动敏捷度(诸如速度或旋转力)不同于先前对象时,基于先前对象准备的映射表可能不适用于具有新性能的新对象。例如,当用户输入的参数值为2时,先前对象可以移动y,但是对于相同的用户输入,新对象可以移动z而不是y。在这种情况下,显示设备可以新生成适合于新选择的用户控制对象的映射表。
根据实施例,为了生成映射表,显示设备可以通过在帧上覆盖界面屏幕来输出界面屏幕。界面屏幕可以包括请求用户选择用于移动控制设备的方向或用于移动控制设备的强度的内容。
图9示出界面屏幕的示例。图9的(a)和(b)分别示出界面屏幕913和915以及界面屏幕917和919。在此,在顶部输出的界面屏幕913和917以文本形式包括关于用户输入的请求,在底部输出的界面屏幕915和919包括位于用户控制对象911附近的箭头。用户可以通过查看界面屏幕(诸如文本或箭头)来控制控制器,从而左右或上下移动用户控制对象。
显示设备可以接收根据用户在控制设备上的操纵的参数值改变,并且通过映射根据参数值移动的用户控制对象的运动程度来生成映射表。
图10示出根据实施例的映射表。
参照图10,映射表1000可以包括映射到参数值的对象的运动向量的值。在某些情况下,可能存在多个用户控制对象。例如,在几个人可以参与的游戏的情况下,可以为每个用户控制的用户控制对象可以被包括在帧中。当存在多个用户控制对象时,即使当根据用户输入的控制设备的参数值相同时,对应于相同参数值的用户控制对象的运动向量的值也可能变化。
例如,当两个用户通过使用两个操纵杆一起玩赛车游戏时,对应于相同参数的汽车的运动可以根据汽车在游戏中的性能而变化。换言之,即使当两个用户通过以相同的强度操纵操纵杆来控制汽车的运动时,每个用户控制对象的运动程度也可以变化,因此当存在多个用户控制对象时,映射表1000可以包括多个用户控制对象中的每个的运动信息。
对于每个参数值,映射表1000可包括表示映射到每个参数值的对象的移动方向和移动幅度的运动向量。对象的运动向量可由所有用户控制对象的一个值表示,或可由包括在用户控制对象中的多个像素中的每个像素的值表示。
当预存储映射表1000时,显示设备可以在接收到用户输入时从包括在帧中的对象中识别用户控制对象,并通过使用识别的用户控制对象的映射表1000来根据用户输入获取运动信息。显示设备可以根据用户输入在映射表中搜索参数值,获取通过映射到找到的参数值而存储的运动向量的值,并且预测运动向量的数值作为插值帧的运动信息。
图11是根据实施例的生成映射表的操作的流程图。
参考图11,当输入帧时,显示设备可以获取关于输入帧中包括的所有像素的运动信息(操作1110)。显示设备可以通过使用训练为从输入数据获取运动信息的运动估计神经网络,从帧获取每个像素的运动信息。
显示设备可以从每个层提取关于至少两个输入帧中的每一个的特征图,并通过使用为每个层提取的特征图来预测每个像素的运动信息。
当输入帧时,显示设备可从输入帧检测对象(操作1120)。显示设备可通过使用训练为通过分析和分类输入数据来检测对象的对象检测神经网络,从输入帧检测对象。显示设备可通过使用各种分割算法从帧检测至少一个对象。
显示设备可以接收关于控制设备的用户输入(操作1130)。用户输入可以包括控制设备的参数值。显示设备可以在检测的对象中检测根据用户输入控制的用户控制对象(操作1140)。当存在多个对象时,显示设备可以从多个对象检测用户输入和运动向量之间具有最高相关性的对象作为用户控制对象。
显示设备可以通过根据用户输入映射检测的用户控制对象的运动程度来生成映射表(操作1150)。显示设备可以获取包括在用户输入中的控制设备的参数改变,并且通过在参数改变时获取包括在用户控制对象中的每个像素的运动信息并映射运动信息,或者通过根据参数改变获取整个用户控制对象的运动信息并且映射运动信息,来生成映射表。
图12是根据实施例的显示设备生成插值帧的操作的流程图。
参考图12,当输入帧时,显示设备可以识别包括在输入帧中的对象是否是用户控制对象(操作1210)。显示设备可以从预先生成和存储的映射表提取用户控制对象的标识信息,诸如像素坐标、像素编号或边界,并基于标识信息识别用户控制对象。
显示设备可以基于用户输入和映射表从包括在帧中的像素获取关于包括在用户控制对象中的像素的第一运动信息(操作1220)。当接收到用户输入时,显示设备可以从映射表获取包括在用户输入中的参数值和对应的运动信息,以获取关于整个用户控制对象的一条运动信息或关于包括在用户控制对象中的每个像素的运动信息。
显示设备可以获取关于除包括在用户控制对象中的像素之外的剩余像素的第二运动信息(操作1230)。显示设备可以通过使用运动估计神经网络来获取关于除了包括在用户控制对象中的像素之外的剩余像素的第二运动信息。运动估计神经网络可以是从输入数据获取每个像素的运动信息的算法、算法集合、执行算法集合的软件和/或执行算法集合的硬件。
显示设备可以通过使用获取的关于用户控制对象的第一运动信息、获取的关于剩余像素的第二运动信息以及至少两个帧来生成至少两个帧之间的插值帧(操作1240)。
图13是根据实施例的计算设备1300的配置的框图。
参考图13,计算设备1300可以包括数据学习器1310和数据预测器1320。
数据学习器1310可以学习用于从帧获取运动信息的准则。数据学习器1310可以学习关于帧的哪个信息被用于预测来自帧的运动信息的准则。此外,数据学习器1310可以学习关于如何通过使用帧的信息来识别运动信息的准则。数据学习器1310可以获取要用于训练的数据,并将获取的数据应用于下面描述的数据预测模型。数据学习器1310可以使用包括至少一个运动对象的帧作为要用于训练的数据。数据学习器1310可以学习用于检测图像中的对象或像素的特征、位置和布置的准则。
数据预测器1320可以根据按照学习的预设准则从图像中预测运动信息,并输出预测结果。数据预测器1320可以通过使用训练的数据预测模型来预测来自特定图像的运动信息。数据预测模型通过使用图像作为输入值而输出的结果值可以用于更新数据预测模型。
数据学习器1310或数据预测器1320中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如,数据学习器1310或数据预测器1320中的至少一个可以以用于AI的专用硬件芯片的形式制造,或者作为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如GPU)的一部分制造,并且安装在上述各种类型的电子设备上。
在这种情况下,数据学习器1310和数据预测器1320可以安装在一个电子设备上或安装在相应电子设备上。例如,数据学习器1310和数据预测器1320中的一个可以包括在电子设备中,另一个可包括在服务器中。此外,数据学习器1310和数据预测器1320可以无线地或经由有线彼此通信,使得由数据学习器1320构建的模型信息可以被提供给数据预测器1310,或者输入到数据预测器1340的数据可以作为附加训练数据被提供给数据学习器1310。
同时,数据学习器1310或数据预测器1320中的至少一个可以实现为软件模块。当数据学习器1310或数据预测器1320中的至少一个被实现为包括指令的软件模块或程序模块时,软件模块可以存储在非暂时性计算机可读介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(OS)或特定应用提供。可选地,至少一个软件模块的一部分可以由OS提供,剩余部分可以由特定应用提供。
图14是根据实施例的数据学习器1310的框图。
参考图14,根据实施例的数据学习器1310可以包括数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314和模型评估器1315。
数据获取器1311可以获取学习从帧检测运动信息所需的数据。数据获取器1311可以从通过网络连接到计算设备1300的数据库或外部服务器(诸如社交网络服务器或云服务器)中的至少一个获取数据。数据获取器1311可以获取由内容提供商提供的数据。
预处理器1312可以预处理获取的数据,使得数据可以用于学习从帧检测运动信息。预处理器1312可以以预设格式处理获取的数据,使得下面描述的模型训练器1314可以使用获取的数据来学习预测来自帧的运动信息。例如,预处理器1312可以从获取的数据中去除冗余数据或具有微小可能性的数据,并以预设格式处理数据,例如,对数据进行矢量化,但实施例不限于此。
训练数据选择器1313可以从预处理的数据中选择学习所需的数据。选择的数据可以被提供给模型训练器1314。训练数据选择器1313可以根据用于从帧获取运动信息的预设准则,从预处理的数据中选择学习所需的数据。此外,训练数据选择器1313可以通过下面描述的模型训练器1314的训练根据预设准则来选择数据。
模型训练器1314可以学习关于哪个训练数据将用于预测来自帧的运动信息的准则。模型训练器1314可以学习用于预测来自帧的运动信息的帧属性的类型、数量和级别。
此外,模型训练器1314可以通过使用训练数据来训练用于预测来自帧的运动信息的数据预测模型。在此,数据预测模型可以是预先构建的模型。例如,数据预测模型可以是通过接收基础训练数据而预先构建的模型。
可以考虑预测模型的应用领域、训练目的或设备的计算机性能来构建数据预测模型。数据预测模型可以是基于例如神经网络的模型。例如,诸如DNN、RNN或BRDNN的模型可以用作数据预测模型,但数据预测模型不限于此。
根据各种实施例,当存在多个预先构建的数据预测模型时,模型训练器1314可以将输入训练数据和基础训练数据之间具有高相关性的数据预测模式确定为要训练的数据预测模块。在这种情况下,可以根据数据类型对基础训练数据进行预分类,并且可以根据数据的类型来预构建数据预测模型。例如,可以根据各种标准对基础训练数据进行预分类,诸如生成训练数据的区域、生成训练数据时的时间、训练数据的尺寸、训练数据的类型、训练数据的生成器和训练数据中的对象的类型。
此外,模型训练器1314可以通过使用学习算法来训练数据预测模型,学习算法包括例如误差反向传播或梯度下降。
此外,模型训练器1314可以通过例如使用训练数据作为输入值的监督学习来训练数据预测模型。此外,模型训练器1314可以通过例如无监督学习来训练数据预测模型,在无监督学习中,预测运动信息所需的数据类型是自学习的,而无需单独监督,并且发现了用于预测运动信息的准则。此外,模型训练器1314可以通过例如使用关于根据学习预测运动信息的结果是否正确的反馈的强化学习来训练数据预测模型。
当数据预测模型被训练时,模型训练器1314可存储训练的数据预测模型。在这种情况下,模型训练器1314可将训练的数据预测模型存储在存储器中。可选地,模型训练器1314可将训练的数据预测模型存储在包括以下描述的数据预测器1320的设备的存储器中。可选地,模型训练器1314可将训练的数据预测模型存储在通过有线或无线网络连接到电子设备的服务器的存储器中。
在这种情况下,存储训练数据预测模型的存储器还可以存储例如与设备的至少一个组件相关的命令或数据。此外,存储器可以存储软件和/或程序。程序可以包括例如内核、中间件、应用编程接口(API)和/或应用程序(或应用)。
模型评估器1315可以向数据预测模型输入评估数据,并且当从评估数据输出的预测结果不满足特定标准时,使模型训练器1314能够再次训练。在这种情况下,评估数据可以是用于评估数据预测模型的预设数据。
例如,当预测结果不准确的评估数据条的数量或比例超过关于评估数据的训练数据预测模型的预测结果中的预设阈值时,模型评估器1315可以评估不满足特定标准。例如,当特定标准被定义为2%的比例并且训练数据预测模型输出关于总共1000条评估数据中的20条以上的评估数据的错误预测结果时,模型评估器1315可以评估训练数据预测模式不适合。
同时,当存在多个训练数据预测模型时,模型评估器1315可以评估每个训练数据预测模式是否满足特定标准,并将满足特定标准的模式确定为最终数据预测模式。在此,当多个模型满足特定标准时,模型评估器1315可以按照从高评估分数开始的顺序确定一个预设模型或特定数量的模型作为最终数据预测模型。
数据学习器1310中的数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314或模型评估器1315中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如,数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314或模型评估器1315中的至少一个可以以用于AI的专用硬件芯片的形式制造,或者作为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分制造,并且安装在上述各种类型的电子设备上。
此外,数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314和模型评估器1315可以安装在一个电子设备上或单个电子设备上。根据实施例,电子设备可以包括计算设备1300或显示设备200。例如,数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314和模型评估器1315中的一些可以被包括在显示设备200中,而其剩余部分可以被包括在计算设备1300中。此外,其中的一些可以被包括在电子设备中,而剩余部分可以被包括在服务器中。
数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314或模型评估器1315中的至少一个可以实现为软件模块。当数据获取器1311、预处理器1312、训练数据选择器1313、模型训练器1314或模型评估器1315中的至少一个被实现为软件模块(对于包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读介质中。此外,在这种情况下,至少一个软件模块可以由OS或特定应用提供。可选地,至少一个软件模块的一部分可以由OS提供,剩余部分可以由特定应用提供。
图15是根据实施例的数据预测器1320的配置的框图。
参考图15,根据一些实施例的数据预测器1320可包括数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324和模型更新器1325。
数据获取器1321可以从帧中获取预测运动信息所需的数据。预处理器1322可以对获取的数据进行预处理,使得可以使用获取的数据。预处理器1322可以以预设格式处理获取的数据,使得下面描述的预测结果提供器1324可以使用获取的信息来预测来自帧的运动信息。
预测数据选择器1323可以从预处理的数据中选择预测来自帧的运动信息所需的数据。选择的数据可以被提供给预测结果提供器1324。预测数据选择器1323可以根据用于预测来自帧的运动信息的预设准则来选择预处理的数据的部分或全部。
预测结果提供器1324可通过将选择的数据应用于数据预测模型来预测来自帧的运动信息。预测结果提供器1324可根据数据的预测目的提供预测结果。预测结果提供器1324可通过使用由预测数据选择器1323选择的数据作为输入值,将选择的数据应用于数据预测模型。此外,预测结果可由数据预测模型确定。预测结果提供器1324可提供用于从帧预测运动信息的标识信息。
模型更新器1325可以基于对预测结果提供器1324提供的预测结果的评估来更新数据预测模型。例如,模型更新器1325可以将预测结果提供器1324提供的预测结果提供给模型训练器1314,使得模型训练器1324可以更新数据预测模型。
数据预测器1320中的数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324或模型更新器1325中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如,数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324或模型更新器1325中的至少一个可以以用于AI的专用硬件芯片的形式制造,或者作为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分制造,并且安装在上述各种类型的电子设备上。
此外,数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324和模型更新器1325可以安装在一个电子设备上或单个设备上。例如,数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324和模型更新器1325中的一些可以被包括在电子设备中,并且其剩余部分可以被包括于服务器中。
数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324或模型更新器1325中的至少一个可以实现为软件模块。当数据获取器1321、预处理器1322、预测数据选择器1323、预测结果提供器1324或模型更新器1325中的至少一个被实现为软件模块(对于包括指令的程序模块)时,软件模块可以被存储在非暂时性计算机可读介质中。此外,在这种情况下,至少一个软件模块可以由OS或特定应用提供。可选地,至少一个软件模块的部分可以由OS提供,剩余部分可以由特定应用提供。
根据一些实施例,计算设备及其操作方法也可以以包括可由计算机执行的指令的记录介质的形式实现,诸如由计算机执行程序模块。计算机可读介质可以是计算机可访问的任意可用介质,并且包括所有易失性和非易失性介质以及可分离和不可分离介质。此外,计算机可读记录介质的示例可以包括计算机存储介质和通信介质。计算机存储介质的示例包括所有易失性和非易失性介质以及可分离和不可分离介质,它们已经通过任意方法或技术实现,用于存储诸如计算机可读指令、数据结构、程序模块和其他数据的信息。通信介质通常包括计算机可读指令、数据结构、程序模块、调制数据信号的其他数据或其他传输机制,其示例包括任意信息传输介质。
此外,在说明书中,术语“单元”或“-器”可以是诸如处理器或电路的硬件组件和/或由诸如处理器的硬件组件执行的软件组件。
根据上述公开的实施例,提高视频质量的方法可以通过计算机程序产品来实现,计算机程序产品包括记录介质,其上记录有用于执行所述方法的计算机程序,所述方法包括:从视频中包括的帧获取关于用户控制对象的第一运动信息;通过使用第一神经网络获取关于帧中包括的像素的排除用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及通过使用第二神经网络从至少两个帧、第一运动信息和第二运动信息生成至少两个帧之间的插值帧。
提供上述描述是为了说明,并且本领域普通技术人员将理解,在不脱离由所附权利要求限定的本公开的基本特征和范围的情况下,可以容易地进行形式和细节的各种改变。因此,上述实施例仅在所有方面是示例,不受限制。例如,描述为单个类型的每个组件可以以分布式方式实现,类似地,描述为分布式的组件可以以组合形式实现。

Claims (15)

1.一种用于提高视频质量的方法,所述方法包括:
从包括在视频中的帧获取关于用户控制对象的第一运动信息;
通过使用第一神经网络从包括在所述帧中的像素获取关于除所述用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及
通过使用第二神经网络从至少两个帧、所述第一运动信息和所述第二运动信息生成在所述至少两个帧之间的插值帧。
2.根据权利要求1所述的方法,还包括:对所述第一运动信息和所述第二运动信息进行后处理,
其中,所述后处理包括以下中的至少一个:
通过使用与包括在所述帧中的特定像素相邻的至少一个相邻像素的运动信息来修改所述特定像素的运动信息,或者
通过将包括在所述帧中的像素按对象分组来获取每个对象的运动信息。
3.根据权利要求1所述的方法,还包括:
在所述第一运动信息的获取之前接收帧;以及
基于关于包括在所接收的帧中的对象的用户输入来生成映射表,
其中,所述第一运动信息的获取包括从所述映射表获取所述第一运动信息。
4.根据权利要求3所述的方法,其中,所述映射表的生成包括:
通过使用所述第一神经网络获取关于包括在所接收帧中的所有像素的运动信息;
通过使用第三神经网络从所接收帧中检测至少一个对象;
识别根据来自所检测到的至少一个对象的用户输入控制的用户控制对象;以及
基于包括在所述用户控制对象中的像素的运动信息与所述用户输入之间的相关性来生成所述映射表。
5.根据权利要求4所述的方法,还包括:基于关于所检测到的至少一个对象的事件来修改关于包括在所检测到的至少一个对象中的像素的运动信息,其中,所述事件可以包括放大、缩小或旋转中的至少一个。
6.根据权利要求4所述的方法,其中,所述至少一个对象的检测包括检测所述至少一个对象是前景对象还是背景对象。
7.根据权利要求4所述的方法,其中,所述映射表的生成包括:
在特定时间段期间接收所述用户输入;以及
基于所述特定时间段期间的所述用户输入来更新所述映射表。
8.根据权利要求4所述的方法,其中,所述映射表的生成包括:
根据所述用户输入获取控制器的参数改变;以及
根据所述控制器的所述参数改变映射包括在所述用户控制对象中的像素的运动信息,
其中,所述控制器的参数包括移动方向、移动距离、移动时间、移动速度、移动加速度、移动强度或移动幅度中的至少一个。
9.根据权利要求4所述的方法,其中,所述映射表的生成包括为接收所述用户输入的每种类型的控制器生成映射表。
10.根据权利要求1所述的方法,其中,所述第一运动信息的获取包括从关于包括所述帧的视频的元数据获取所述第一运动信息。
11.一种用于提高视频质量的装置,所述装置包括:
存储器,存储一个或多个指令;以及
处理器,被配置为执行存储在所述存储器中的一个或多个指令,以:
从包括在视频中的帧获取关于用户控制对象的第一运动信息;
通过使用第一神经网络从包括在所述帧中的像素获取关于除所述用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及
通过使用第二神经网络从至少两个帧、所述第一运动信息和所述第二运动信息生成所述至少两个帧之间的插值帧。
12.根据权利要求11所述的装置,其中,所述处理器还被配置为执行所述一个或多个指令以对所述第一运动信息和所述第二运动信息进行后处理,
其中,所述后处理包括以下中的至少一个:通过使用与包括在所述帧中的特定像素相邻的至少一个相邻像素的运动信息来修改所述特定像素的运动信息,或者通过将包括在所述帧中的像素按对象分组来获取每个对象的运动信息。
13.根据权利要求11所述的装置,其中,所述处理器还被配置为执行一个或多个指令以:
在获取所述第一运动信息之前通过使用所述帧生成映射表;以及
从所述映射表获取所述第一运动信息。
14.根据权利要求13所述的装置,其中,所述处理器还被配置为执行一个或多个指令以:
通过使用所述第一神经网络获取关于包括在所述帧中的所有像素的运动信息;
通过使用第三神经网络从所述帧中检测至少一个对象;
识别根据来自所检测到的至少一个对象的用户输入控制的用户控制对象;以及
基于包括在所述用户控制对象中的像素的运动信息与所述用户输入之间的相关性来生成所述映射表。
15.一种计算机可读记录介质,其上记录有用于实现提高视频质量的方法的程序,其中,所述方法包括:
从包括在视频中的帧获取关于用户控制对象的第一运动信息;
通过使用第一神经网络从包括在所述帧中的像素获取关于除所述用户控制对象中包括的像素之外的剩余像素的第二运动信息;以及
通过使用第二神经网络从至少两个帧、所述第一运动信息和所述第二运动信息生成所述至少两个帧之间的插值帧。
CN202180052539.XA 2020-08-25 2021-08-02 用于提高视频质量的方法和设备 Pending CN115917585A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200107410A KR20220026426A (ko) 2020-08-25 2020-08-25 비디오 품질 향상 방법 및 장치
KR10-2020-0107410 2020-08-25
PCT/KR2021/010077 WO2022045613A1 (ko) 2020-08-25 2021-08-02 비디오 품질 향상 방법 및 장치

Publications (1)

Publication Number Publication Date
CN115917585A true CN115917585A (zh) 2023-04-04

Family

ID=80355276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180052539.XA Pending CN115917585A (zh) 2020-08-25 2021-08-02 用于提高视频质量的方法和设备

Country Status (5)

Country Link
US (1) US20230209087A1 (zh)
EP (1) EP4184424A4 (zh)
KR (1) KR20220026426A (zh)
CN (1) CN115917585A (zh)
WO (1) WO2022045613A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024043731A1 (ko) * 2022-08-24 2024-02-29 삼성전자 주식회사 인터폴레이션을 수행하는 전자 장치, 동작 방법, 및 저장 매체

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9258519B2 (en) * 2005-09-27 2016-02-09 Qualcomm Incorporated Encoder assisted frame rate up conversion using various motion models
KR101756842B1 (ko) * 2011-08-29 2017-07-12 삼성전자주식회사 영상 프레임의 보간 방법 및 장치
US9257092B2 (en) * 2013-02-12 2016-02-09 Vmware, Inc. Method and system for enhancing user experience for remoting technologies
US9832451B2 (en) * 2015-11-17 2017-11-28 Survios, Inc. Methods for reduced-bandwidth wireless 3D video transmission
US9621841B1 (en) * 2015-12-31 2017-04-11 Samsung Electronics Co., Ltd. Frame rate conversion based on object tracking
KR20180078431A (ko) * 2016-12-29 2018-07-10 엘지디스플레이 주식회사 가상 현실 장치와 그 구동 방법
US10706890B2 (en) * 2017-08-24 2020-07-07 Intel Corporation Cinematic space-time view synthesis for enhanced viewing experiences in computing environments
JP7114975B2 (ja) * 2018-03-27 2022-08-09 株式会社リコー フレーム補間装置およびフレーム補間方法
KR102192153B1 (ko) * 2019-06-10 2020-12-16 클릭트 주식회사 가상현실 영상 제공 방법 및 이를 이용한 프로그램

Also Published As

Publication number Publication date
KR20220026426A (ko) 2022-03-04
EP4184424A1 (en) 2023-05-24
WO2022045613A1 (ko) 2022-03-03
EP4184424A4 (en) 2024-01-17
US20230209087A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
US11216694B2 (en) Method and apparatus for recognizing object
US11170201B2 (en) Method and apparatus for recognizing object
US10845941B2 (en) Image display apparatus and method
US11831948B2 (en) Video playback device and control method thereof
US20190066158A1 (en) Method and electronic device for providing advertisement
US11934953B2 (en) Image detection apparatus and operation method thereof
CN115315679A (zh) 在多用户环境中使用手势来控制设备的方法和系统
KR20200092465A (ko) 추천 컨텐츠 리스트 제공 방법 및 그에 따른 전자 장치
US11210525B2 (en) Method and terminal for providing content
US20200356653A1 (en) Video display device and operating method therefor
EP3489860B1 (en) Image display apparatus and method of operating the same
KR20230009806A (ko) 영상 처리 장치 및 그 동작 방법
US20230209087A1 (en) Method and device for improving video quality
KR102664418B1 (ko) 디스플레이 장치 및 그의 서비스 제공 방법
CN114170688A (zh) 人物交互关系识别方法、装置、电子设备
CN114600072A (zh) 用于基于手势控制设备的方法和系统
US20240144455A1 (en) Image processing device and operation method thereof
KR20240017599A (ko) 디스플레이 장치 및 그의 게임 영상 화질 최적화 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination