CN114979791A - 显示设备与智能场景画质参数调整方法 - Google Patents

显示设备与智能场景画质参数调整方法 Download PDF

Info

Publication number
CN114979791A
CN114979791A CN202210594569.XA CN202210594569A CN114979791A CN 114979791 A CN114979791 A CN 114979791A CN 202210594569 A CN202210594569 A CN 202210594569A CN 114979791 A CN114979791 A CN 114979791A
Authority
CN
China
Prior art keywords
image
information
text
scene
display device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210594569.XA
Other languages
English (en)
Inventor
祝欣培
高伟
岳国华
李佳琳
李保成
刘胤伯
杨丽娟
付廷杰
史可心
吴汉勇
王之奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202210594569.XA priority Critical patent/CN114979791A/zh
Publication of CN114979791A publication Critical patent/CN114979791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本申请一些实施例提供了一种显示设备与智能场景画质参数调整方法。显示设备包括显示器和控制器。其中,显示器用于显示用户界面,控制器被配置为:获取用户输入的用于调整画质参数的控制指令,响应于所述控制指令,对用户界面执行截屏操作,得到截屏图像。在所述截屏图像中识别图形信息和文本信息,通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述掩膜向量相加,得到特征向量。根据归一化指数函数计算所述特征向量,得到场景类别,根据所述场景类别调整画质参数。本申请不仅能够提高场景识别的准确率,还可以根据场景类别调整画质参数,从而提升用户的观看体验。

Description

显示设备与智能场景画质参数调整方法
技术领域
本申请涉及智能图像识别技术领域,尤其涉及一种显示设备与智能场景画质参数调整方法。
背景技术
显示设备是指能够输出具体显示画面的终端设备,如智能电视、移动终端、智能广告屏、投影仪等。随着显示设备的快速发展,显示设备的功能将越来越丰富,性能也越来越强大,可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体,用于满足用户多样化和个性化需求。
随着科技的发展和人们生活水平的不断提高,各种智能设备如电视设备网络播放设备的使用越来越普及,人们对智能设备的智能化要求越来越高。通过AI智能识别出观看内容的节目信息,如UI界面、游戏、动画、电影等。目前出现很多将深度学习应用于智能电视的方法,用来协助智能电视识别用户观看内容的节目信息。卷积神经网络是上述方法中的一种,通过在智能电视上运行训练好的卷积神经网络模型,使卷积神经网络模型分析并通知智能电视当前用户观看内容的节目信息。例如,当用户观看电影类别的视频时,可以识别出是爱情电影或动作电影。
但卷积神经网络模型对比较接近的场景不易区分。例如用户在播放任意电视源时,卷积神经网络模型无法识别出是爱情电影还是爱情电视剧。并且对于分屏场景,卷积神经网络模型也无法进行识别,例如用户在左侧开启视频功能,右侧观看体育直播,卷积神经网络模型会产生错误信息,因此无法确定用户当前的视频场景,从而无法针对不同的视频场景调整画质参数,影响用户的视觉体验。
发明内容
本发明提供了一种显示设备与智能场景画质参数调整方法。以解决当用户使用机顶盒进行连续换台时,画面忽明忽暗以及对相近场景不易区分的问题,还有在显示设备分屏情况下无法识别场景的问题。
第一方面,本申请一些实施例提供了一种显示设备,所述显示设备包括:
显示器,被配置为显示用户界面;
控制器,被配置为:
获取用户输入的用于调整画质参数的控制指令;
响应于所述控制指令,对用户界面执行截屏操作,得到截屏图像;
在所述截屏图像中识别图形信息和文本信息;
通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述掩膜向量相加,得到特征向量;
根据归一化指数函数计算所述特征向量,得到场景类别;
根据所述场景类别调整画质参数。
第二方面,本申请一些实施例提供了一种智能场景画质参数调整方法,应用于显示设备,所述显示设备包括显示器和控制器,所述方法包括:
获取用户输入的用于调整画质参数的控制指令;
响应于所述控制指令,对用户界面执行截屏操作,得到截屏图像;
在所述截屏图像中识别图形信息和文本信息;
通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述掩膜向量相加,得到特征向量;
根据归一化指数函数计算所述特征向量,得到场景类别;
根据所述场景类别调整画质参数。
由以上技术方案可以看出,本申请一些实施例提供了一种显示设备与智能场景画质参数调整方法,可以在用户输入的用于调整画质参数的控制指令后,对用户界面执行截屏操作,得到截屏图像,通过对截屏图像识别出图形信息和文本信息,再分别计算图形信息和文本信息的掩膜向量,并将计算出图形信息的掩膜向量和文本信息的掩膜向量相加,得到特征向量,根据归一化指数函数计算特征向量,得到场景类别,显示设备可以根据场景类别调整画质参数。本申请不仅可以提高场景识别准确率还可以提升用户的观看体验。针对分屏场景也可以进行场景准确识别,能够有效避免出现误识别的情况,并且在判断出用户在持续换台的时候,不对画质参数进行调整,避免出现画面忽明忽暗的情况。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一些实施例的显示设备200的使用场景;
图2示出了根据一些实施例的控制装置100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5示出了根据一些实施例的显示设备200与外接设备500连接关系示意图;
图6示出了根据一些实施例中一种智能场景画质参数调整方法的流程示意图;
图7示出了根据一些实施例中一种智能场景画质参数调整方法中时序关系图;
图8示出了根据一些实施例的一种智能场景画质参数调整方法中的关键分区剪裁示意图;
图9示出了根据一些实施例的一种智能场景画质参数调整方法中细节图像信息的一种显示场景示意图;
图10示出了根据一些实施例中一种智能场景画质参数调整方法中一种分屏场景的界面示意图;
图11示出了根据一些实施例的一种智能场景画质参数调整方法中特定文本位置信息的一种显示场景示意图;
图12示出了根据一些实施例的一种智能场景画质参数调整方法中场景判定结果示意图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1为根据本申请一个或多个实施例的显示设备200与控制装置100之间操作场景的示意图,如图1所示,用户可通过智能设备300和控制装置100操作显示设备200。控制装置100可以是遥控器,遥控器和显示设备200的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。
在一些实施例中,智能设备300可以包括平板电脑、计算机、笔记本电脑、AR/VR设备等中的任意一种。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200,可以为液晶显示器、OLED显示器、投影显示设备,服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,在用户与显示设备200之间起交互中介作用。通信接口130用于和外部通信,包含WIFI芯片,蓝牙模块,NFC或可替代模块中的至少一种。用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
图3示出了根据示例性实施例中显示设备200的硬件配置框图。如图3所示,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG(ElectronicProgram Guide)数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备200的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
如图4所示为根据本申请一个或多个实施例的显示设备200中软件配置示意图。将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在一些实施例中,基于上述显示设备200,显示设备200还可以与外接设备500建立通信连接,以播放外接设备500发送的视频数据。外接设备500可以是游戏主机、笔记本、影音设备、机顶盒和电视盒子等。例如,如图5所示,在显示设备200和外接设备500上均设有高清多媒体接口(High Definition Multimedia Interface,HDMI)。在使用过程中,用户可以将HDMI接口数据线的两端分别插在显示设备200和外接设备500上,并在启动显示设备200后,设定显示设备200的信号源为HDMI接口,从而实现显示设备200与外接设备500之间的数据传输。
在一些实施例中,需要说明的是,显示设备200与外接设备500之间还可以采用其他的连接方式。具体的连接方式可以是有线的连接方式,也可以是无线的连接方式,如无线局域网、蓝牙连接、红外线等。
在一些实施例中,用户不仅可以使用显示设备200播放任意片源,还可以通过外接设备500,如机顶盒、电视盒子和游戏主机等进行视频播放。由于目前显示设备200都具备分屏功能,能够根据用户的需求将屏幕拆分成两部分或者多个部分,拆分后各个部分的屏幕显示比例依照用户的实际需求进行调整,并且拆分后各个部分所显示的应用程序之间互不影响。例如用户可以在左侧开启视频通话,右侧观看体育直播,但对于这样的分屏场景显示设备200无法准确识别当前用户界面的场景类别,也就无法对其进行画质参数调整,进而影响用户的视觉体验。
因此,为了使显示设备200在不同场景下获得更好的画面效果,在本申请的部分实施例中提供一种智能场景画质参数调整方法,该方法可以用于显示设备200,使显示设备200能够通过对用户当前播放界面截屏,识别当前用户播放界面的场景类别,并能够根据场景类别智能调整场景画面的画质参数。如图6所示,显示设备200应至少包括显示器260和控制器250。其中,显示器260用于显示用户界面,还可以显示从外接设备500发送的视频数据。控制器250可以通过运行智能场景画质参数调整方法对应的应用程序,以实现该智能场景画质参数调整方法,如图7所示,具体包括以下内容:
在一些实施例中,显示设备200在显示任何内容情况下,获取用户输入的用于自动调整画质参数的控制指令。以控制显示设备200对当前显示的画面进行截屏,并识别当前显示的画面场景,对当前画面场景进行场景分类,根据场景类别进行相应的画质参数调整。例如,用户在观看电视节目时,用户通过控制装置100输入调整画质参数的指令,当显示设备200接收到调整画质参数的指令后,显示设备200对当前显示的电视画面进行截屏,如当前用户屏幕播放的是“xxx烦恼”对其进行截屏,得到一张截屏后的图片,就是将当前屏幕播放的内容以一张图片的形式存储于显示设备200的内存中,并对截屏后的图片进行场景识别,在截屏后的图片中能够识别出图片中的画面场景类别是属于电影,然后再根据场景类别进行画质参数的调整,即对电影进行相应的画质参数调整以达到符合用户观看的最佳效果。
在一些实施例中,显示设备200在显示任何内容情况下,当显示设备200内置智能语音交互系统时,用户可以通过输入语音“调整画质”或者“画质参数”等语音内容,显示设备200响应用户发出的语音如“调整画质”,来控制显示设备200对当前显示的画面进行截屏,用户也可以是通过按键的方式来控制显示设备200对当前显示的画面进行截屏,并识别截屏后的画面场景类别,然后根据识别后的场景类别进行相应的画质参数调整。语音交互方式同样可以触发显示设备200执行画质参数调整,即输入用于自动调整画质参数的控制指令。
在一些实施例中,用户通过连接外接设备500进行视频播放或玩游戏等,可以通过输入一系列交互动作,控制显示设备200播放外接设备500发送的视频数据,并触发自动调整画质参数。例如,在显示设备200的HDMI接口上连接有游戏设备后,用户可以通过控制装置100上的“信号源”按键,或者方向键和确认键并基于信号源选择界面,控制显示设备200切换信号源,使显示设备200的信号源为HDMI接口。在设置信号源后,显示设备200可以从HDMI接口接收游戏设备生成的游戏画面,并将游戏画面在显示设备200上进行播放,即用户通过控制装置100控制显示设备200切换信号源时,输入用于画质参数调整的控制指令。
需要说明的是,上述交互方式均可以完成控制指令的输入,在实际应用中,显示设备200可以根据自身硬件状况,支持上述交互方式中的一种或多种的组合,从而使用户可以方便、快捷的完成控制指令输入,以触发显示设备200进行画质参数调整。并且,在为了触发显示设备200进行画质参数调整,显示设备200还可以通过上述交互方式以外的其他交互形式输入用于画质参数调整的控制指令,因此,上述交互方式仅仅作为部分示例,并不限制本申请控制指令的具体输入方式。
在获取用户输入用于调整画质参数的控制指令后,显示设备200响应于用户输入的控制指令,对用户当前播放界面执行截屏操作,其中,截屏是指对显示器当前显示全部内容的画面进行截取,得到截屏图像。例如,在某一时间点,用户在观看视频节目时,通过用户输入触发调整画质参数的控制指令,控制显示设备200对当前用户播放界面先进行截屏;再如,用户在观看不包含视频画面的系统主页时,通过用户输入触发调整画质参数的控制指令,控制显示设备200对当前显示的用户界面进行截屏,获取了一帧512×288×3的RGB屏幕播放的片源截图,即截屏图像。
获取到截屏图像之后,在截屏图像中识别图形信息和文本信息。其中,图形信息是指在识别截屏图像中所出现的所有图形内容的集合,文本信息是指在识别截屏图像中所有的文字内容集合。说明本申请不仅对截屏图像中所出现的所有图形内容进行识别还对截屏图像中的所有的文字内容进行识别,已达到提高对截屏图像中场景识别准确性的目的。其中,图形信息还包括全局图像信息和细节图像信息。全局图像信息是指将所有图像进行分类,如图像中的人物对象,将其归类为人物。细节图像信息是指通过对所有图形内容进行细节化区分,如通过图像识别模型,可以识别图像中出现的台标图形,即用来表示电视台、电视频道、电台或数字化的传统媒体的专用标识。其中,图像识别模型可以基于“图形-标签”样本数据对初始模型进行训练获得。
文本信息还包括文本散度信息和特定位置文本信息。文本散度信息是通过具体的公式计算得出,在此不作详细描述,在后面的论述中会详细描述计算过程。特定位置文本信息是指对指定的文本选框预测选框内具体的文字是什么。例如通过使用光学字符识别(Optical Character Recognition,OCR)算法可以识别在截屏图像中会出现的很多文字,每个文字都可以设置有属于自己的文本框,通过在显示设备200上选择特定位置的文本框识别出文本框内的文字。例如,用户在打开智能电视时,将会弹出电视的主页面,在电视主页面的最上面一栏会出现应用、搜索和教育等等,那么应用、搜索和教育分别会有一个虚拟的文本框,即文本框在电视界面上是看不到的一种虚拟文本框,对选中的文本框进行文字识别,就能够识别出应用、搜索和教育等文字,通过应用、搜索和教育这些文字信息能够预测到当前电视显示的界面场景可能是UI界面。为了进一步确定当前播放界面场景,还需要综合分析通过文本散度信息预测的场景类别和细节图像信息预测出的场景类别,才能够最终确定用户当前播放界面的具体场景。
在一些实施例中,在对截图图像进行识别操作前还需要通过按照预设间隔时间,对截屏图像执行连续图像累积,得到连续图像。例如,显示设备200按照每间隔时间3秒就对截屏图像进行累积,通过不间断的截屏图像累积,可以是5张截屏图像进行累积也可以是8张截屏图像一起累积,经过截屏图像的累积发现这5张或8张截屏图像是连续没有发生变化的图像。说明用户在预设的间隔时间里,没有通过控制装置100对显示设备200进行换台或切换频道的动作,因此累积到的截屏图像在时间序上是一个连续的图像。如果通过对截屏图像进行连续累积的过程中,发现从第三张截屏图像开始与前两张截屏图像完全不符并且图像画面出现不连续的情况,那么得到的也就不是一个连续图像,说明用户通过控制装置100对显示设备200在进行连续换台的动作或是在切换电视频道,此时显示设备200将不会对所显示的画面进行画质参数的调整。
在一些实施例中,在确定截屏图像是连续图像之后,再对连续图像执行图像基本特征提取,得到图像类型和文本特征,图像类型是指包含一定分辨率的图像信息和一些全局的图像特征,文本特征是指包含一定的文本内容和一些文字特征。其中,图像基本特征提取是指通过获取连续图像的图像矩阵,再经过卷积运算缩减图像矩阵的分辨率,这里的卷积运算是进行7x7卷积核深度可分离卷积。7x7卷积核为反向传播可训练的权值参数,权值参数的更新包含对连续图像中图像信息的理解与特征提取,最后得到浅层图像特征矩阵。经过卷积运算得到的浅层图像特征矩阵中不会出现误差数值较大的特征矩阵。从而能够快速压缩连续图像中过多冗余的细节信息,减少图像分辨率。
在一些实施例中,通过对浅层图像特征矩阵执行卷积运算,得到中层图像特征矩阵。这里的卷积运算是1x1卷积核运算,其目的为再次对连续图像进行特征提取,相较于7x7卷积核,1x1卷积核不仅更注重连续图像中单个像素信息的特征提取,同时还能够减少了计算量。然后再对中层图像特征矩阵执行卷积运算,得到底层图像特征矩阵。这里的卷积运算还是1x1卷积核,保证输入与输出的连续图像特征维度一致,1x1卷积核能够使连续图像的矩阵分辨率缩减2倍。然后再根据底层图像特征矩阵执行图像基本特征提取,进而得到图像类型和文本特征,对连续图像进行图像基本特征提取的目的是为了能够在卷积运算过程中通过不断压缩图像分辨率,将空间的二维图像特征信息不断转化为一维的图像特征信息。
在一些实施例中,由于图像类型中包含一定分辨率的图像信息和一些全局的图像特征,因此通过对图像类型执行全局检测,得到全局图像信息,以及对图像类型执行第一颗粒度检测,得到细节图像信息。其中,第一颗粒度检测是通过对图像类型执行关键分区剪裁,得到特征区域。如图8所示,关键分区剪裁主要是通过对显示设备200的7个分区进行剪裁,剪裁得到7个小尺度的三维矩阵。也就是显示设备200的四个角、显示设备200的中心处、显示设备200的中心处上方长条形区域和显示设备200的中心处下方长条形区域,这就是7个特征区域,那么每一个特征区域就是一个小尺度的三维矩阵,然后再对这7个特征区域执行区域对齐,得到特征矩阵。
其中,区域对齐指的是采用最近邻插值法,也就是通过对每一个特征区域的三维矩阵执行最近邻插值法,得到每一个特征区域的特征矩阵。再对特征矩阵执行卷积运算,输出图像分类向量,通过归一化指数函数计算图像分类向量,最终得到细节图像信息。采用归一化指数函数的意义是对图像分类向量进行归一化,凸显其中最大的值并抑制远低于最大值的其他分量。此时输出的细节图像信息可能是人脸、黑色边角和台标等,例如,如果输出的细节图像信息是人脸,则预测当前显示设备200的播放场景可能是新闻、视频通话或电视剧等场景。
如果输出的细节图像信息是黑色边角,如图9所示,黑色边角指的是遮去原来标准画幅的上下两边,产生黑色边角和电视屏幕的比例有关,一般电视屏幕比例是16:9,而电影的比例大部分是2.35:1,因此在显示设备200的上下或者左右会出现两段的黑色区域。图9中所示例出的是在显示设备200的上下部分出现黑色区域,还有一种情况是在显示设备200的左右两侧出现黑色区域,上下黑色区域与左右黑色区域有重合处也就是显示设备200的四个角,即本申请所说的黑色边角,则预测当前显示设备200的播放场景可能是电影。如果输出的细节图像信息台标,则当前显示设备200的播放场景可能是体育节目、综艺节目或卡通节目。
在一些实施例中,确定截屏图像是连续图像之后,对连续图像进行第二颗粒度检测,得到二维向量。其中,第二颗粒度检测是指进一步的压缩连续图像。进行第二颗粒度检测的目的是为了判断当前用户界面是不是分屏场景,第二颗粒度检测后会输出一个二维向量,通过利用归一化指数函数对二维向量执行计算,能够得到第一数值和第二数值。如果第一数值大于第二数值,则标记连续图像对应的场景类别是分屏场景,说明当前用户界面不是一个完整的用户界面。判断出是分屏场景后可以按照分屏数量分割连续图像,得到等分图像。
例如,如图10所示,将显示设备200的屏幕显示区域进行二等分或四等分,通过二等分获得的分屏区域来分别显示等分图像A和等分图像B,至于等分图像A和等分图像B是纵向显示还是横向显示,本申请不做限定,能够使得等分图像A和等分图像B均能获得良好的展示比例即可。还可以通过对屏幕显示区域进行四等分,获得的分屏区域来分别显示等分图像A、等分图像B、等分图像C和等分图像D。这四个分屏区域对应着不同的应用程序场景,例如等分图像A可能是视频通话,等分图像B可能是在观看电影,等分图像C可能是在观看综艺,等分图像D可能是在进行游戏场景。然后对当前显示区域的全部内容进行截屏,再通过对每一个等分图像执行图像基本特征提取,对于每个等分图像就会得到每个等分图像的图像类型和文本特征,重复前面的步骤,获得每个等分图像的场景类别。
在一些实施例中,如果第一数值小于或等于第二数值,则判定连续图像对应的场景类别不是分屏场景,说明当前用户界面显示的是一个完整的用户界面,就可以直接对连续图像进行图像基本特征提取。
在一些实施例中,对文本特征执行文本位置检测,得到文本位置信息。文本位置信息指的是连续图像中实际文本位置选框坐标,根据文本位置信息对连续图像执行特征剪裁,剪裁后的特征将尺寸对齐为统一分辨率图片,得到文字图片;将文字图片经过卷积运算,输出文字特征向量,文字特征向量指的是文字图片中多个元素的特征向量。根据文字特征向量执行深度自注意力网络计算,得到特定位置文本信息即特定文本位置的文字内容。特定位置文本信息可能是应用或搜索,金币或经验等情况,例如,如图11所示,如果特定位置文本信息中出现应用或搜索,则说明显示设备200的当前场景可能是UI界面的场景。如果特定位置文本信息中出现金币或经验,则说明显示设备200的当前场景可能是用户在玩游戏的场景。
在一些实施例中,对文本特征执行文本散度检测,得到文本散度信息。根据文本特征执行文本密度检测,得到文本密度信息。其中,文本密度检测是预测文本特征中有关文字的密度信息,即将连续图像均分为20x20小份,对每一小份进行预测判断每一小份区域内是否有文字,并以一个浮点型数值标志置信度。置信度越高则说明此区域内存在文字的可能性越大。通过设定阈值区域,对于存在文字可能性越大的区域进行数量统计,超过阈值区域数量,即为文本密度信息。例如,阈值区域设定为10,那么存在文字区域的数量为22,超出数量为12,则超出数量12的文字内容即为文本密度信息。根据文本密度信息和文本位置信息执行文本散度检测,即将文本密度信息与文本位置信息输入到文本散度检测计算公式中,最终输出文本散度信息。对于文本散度信息可以通过设定超参数阈值判断,一般超参数阈值设定为5,对于小于或等于5的即为低散度文本信息,对于高于5的即为高散度文本信息,对于高散度文本信息,说明显示设备200的当前场景可能是文档或UI界面场景,对于低散度文本信息,说明显示设备200的当前场景可能是电影或电视剧场景。
在一些实施例中,根据上述文本散度信息和特定位置文本信息以及细节图像信息各自判断出的预测场景,首先计算文本散度信息和特定位置文本信息的掩膜向量并相加,得到文本信息的掩膜向量。例如,图12所示,为本申请实施例提供的场景判定结果示意图,当文本散度信息判定为是低散度文本信息,可能场景是电影,那么输出[0,0.6,0]的掩膜向量,特定位置文本信息获取得到的文字信息为金币或经验,说明场景可能是游戏场景,则输出[0.03,0,0.02]掩膜向量,将文本散度信息和特定位置文本信息输出的掩膜向量相加即可得到文本信息的掩膜向量。再通过归一化指数函数计算细节图像信息,得到细节图像信息的掩膜向量,例如细节图像信息判定出了黑色边角的情况,则输出[0.07,0.84,0.09]的掩膜向量,即为细节图像信息的掩膜向量。将得到的文本信息的掩膜向量与细节图像信息的掩膜向量相加,得到场景特征掩膜。也就是将[0,0.6,0]、[0.03,0,0.02]和[0.07,0.84,0.09]相加,输出[0.1,1.44,0.11],即为场景特征掩膜。最后再通过计算全局图像信息的中间向量通过计算输出[0.08,0.61,0.31]与场景特征掩膜相加,得到[0.18,2.05,0.42]的特征向量。然后根据归一化指数函数计算特征向量,输出[0.1,0.75,0.15],最终判定场景类别为电影场景。在本申请实施例中场景类别包括但不限于UI界面、文档、游戏、电影、电视剧、卡通、综艺、新闻、体育和摄像头等场景。
在一些实施例中,最后还要通过根据场景类别来调用中间层进行场景相应的画质参数调整,对于不同场景,中间层对画面调整包括但不限于多项画质参数如:亮度、对比度、色度、色调、清晰度、运动画面补偿和图像降噪等。其可能的相关参数如表1所示:
表1:不同场景对应画质参数
亮度 对比度 色度 清晰度 运动补偿 图像降噪
默认 50 50 50 10
UI界面 50 48 50 12
文档 52 50 50 14
游戏 50 50 50 0
电影 50 48 48 6
电视剧 50 46 46 6
卡通 50 45 50 5
综艺 50 45 45 6
新闻 50 45 50 10
体育 50 55 55 10
摄像头 55 52 50 5
在一些实施例中,其中,默认参数是指显示设备200最开始默认设定的画质参数,通过场景类别判断后,对变换后的场景对应的场景类别通过调用中间层对画质参数进行调整。其中亮度、对比度、色度、清晰度等各个参数为线性渐变到要调整到的画质参数而非突变,线性渐变为每秒中加或减一个数值。
在一些实施例中,中间层是由键值对组成,根据调用中间层的键值对场景画面进行调整画质参数。例如,当最终场景类别判定为游戏场景时,将默认画质参数调整为游戏画质参数,具体为清晰度由数值10每秒减1,直到调整到0,同时开启高运动补偿;如果最终场景类别判定为是摄像头,摄像头场景是指用户此时正在开通视频通话或者视频会议等,其中一些应用程序是需要开通摄像头的场景被认定为摄像头场景。则将默认画质参数调整为摄像头画质参数,具体为亮度由数值50每秒加1,直到调整到52,对比度由数值50每秒加1,直到调整到52,清晰度由数值10每秒减1,直到调整到5,同时开启高图像降噪。
在一些实施例中,由于不同的场景类别需要进行不同的画质参数调整,因此当显示设备200的场景类别发生变化时,需要进行画质参数调整,以适应新的场景类别。例如,当显示设备200当前播放的场景类别由电影切换为游戏场景后,相应的画质参数也从符合电影的画质参数切换为符合游戏场景的画质参数。
在一些实施例中,对于用户在使用分屏场景时,通过对显示设备200分屏后的每一个等分图像执行上述所有步骤,得到每一个等分图像的场景类别,然后再根据场景类别调用中间层进行每一个场景的画质参数调整。例如,如果将显示设备200的屏幕显示区域四等分,分别为左角上区域、左下角区域、右上角区域和右下角区域。对这四个区域分别进行场景识别得出场景类别,最终得到四个区域的的场景分别为“游戏”、“电影”、“电视剧”和“综艺”,其中,对应的键值对为(“LeftTop”,“游戏”)(“LeftBottom”,“电影”),(“RightTop”,“电视剧”),(“RightBottom”,“综艺”),根据这些键值对对显示设备200的四个场景分别进行画质参数调整,将四个场景分别达到更好的视觉效果,以达到满足用户视觉效果的目的。
基于上述实施例,本申请实施例提供一种智能场景画质参数调整方法,本申请部分的实施例还提供了一种显示设备200。显示设备200包括:显示器260和控制器250。其中显示器260被配置为显示用户界面,控制器250被配置为执行以下程序步骤:
获取用户输入的用于调整画质参数的控制指令。
响应于所述控制指令,对用户界面执行截屏操作,得到截屏图像。
在所述截屏图像中识别图形信息和文本信息。
通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述掩膜向量相加,得到特征向量。根据归一化指数函数计算所述特征向量,得到场景类别,根据所述场景类别调整画质参数。
由以上技术方案可知,上述实施例提供的显示设备200通过执行智能场景画质参数调整方法可以在用户输入的用于调整画质参数的控制指令后,对用户界面执行截屏操作,得到截屏图像,通过对截屏图像识别出图形信息和文本信息,再分别计算图形信息和文本信息的掩膜向量,并将计算出的掩膜向量相加,得到特征向量,根据归一化指数函数计算特征向量,得到场景类别,显示设备200可以根据场景类别调整画质参数。本申请不仅可以提高场景识别准确率还可以提升用户的观看体验。针对分屏场景也可以进行场景准确识别,能够有效避免出现误识别的情况,并且在判断出用户在持续换台的时候,不对画质参数进行调整,避免出现画面忽明忽暗的情况。
本说明书中各个实施例之间相同相似的部分互相参照即可,在此不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (10)

1.一种显示设备,其特征在于,包括:
显示器,被配置为显示用户界面;
控制器,被配置为:
获取用户输入的用于调整画质参数的控制指令;
响应于所述控制指令,对用户界面执行截屏操作,得到截屏图像;
在所述截屏图像中识别图形信息和文本信息;
通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述图形信息的掩膜向量与所述文本信息的掩膜向量相加,得到特征向量;
根据归一化指数函数计算所述特征向量,得到场景类别;
根据所述场景类别调整画质参数。
2.根据权利要求1所述的显示设备,其特征在于,所述图形信息包括全局图像信息和细节图像信息,所述文本信息包括文本散度信息和特定位置文本信息,所述控制器进一步被配置为:
在所述截屏图像中识别图形信息和文本信息的步骤中,按照预设间隔时间,对所述截图图像执行连续图像累积,得到连续图像;
对所述连续图像执行图像基本特征提取,得到图像类型和文本特征;
对所述图像类型执行全局检测,得到所述全局图像信息,以及对所述图像类型执行第一颗粒度检测,得到所述细节图像信息;
对所述文本特征执行文本散度检测,得到所述文本散度信息,以及对所述文本特征执行文本位置检测,得到所述特定位置文本信息。
3.根据权利要求2所述的显示设备,其特征在于,所述控制器进一步被配置为:
对所述连续图像执行图像基本特征提取,得到图像类型和文本特征的步骤前,对所述连续图像执行第二颗粒度检测,得到二维向量;
利用所述归一化指数函数对所述二维向量执行计算,得到第一数值和第二数值;
如果所述第一数值大于所述第二数值,则标记所述连续图像对应的场景类别是分屏场景;
按照分屏数量分割所述连续图像,得到等分图像;
对所述等分图像执行图像基本特征提取,得到所述图像类型和所述文本特征。
4.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:
对所述连续图像执行图像基本特征提取,得到图像类型和文本特征的步骤中,获取所述连续图像的图像矩阵;
通过卷积运算缩减所述图像矩阵的分辨率,得到浅层图像特征矩阵;
对所述浅层图像特征矩阵执行卷积运算,得到中层图像特征矩阵;
对所述中层图像特征矩阵执行卷积运算,得到底层图像特征矩阵;
根据所述底层图像特征矩阵执行图像基本特征提取,得到所述图像类型和所述文本特征。
5.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:
在执行对所述文本特征执行文本位置检测,得到所述特定位置文本信息的步骤中,对所述文本特征执行文本位置检测,得到文本位置信息;
对所述文本位置信息执行特征剪裁,得到文字图片;
将所述文字图片经过卷积运算,得到文字特征向量;
根据所述文字特征向量执行深度自注意力网络计算,得到所述特定位置文本信息。
6.根据权利要求5所述的显示设备,其特征在于,所述控制器还被配置为:
在执行对所述文本特征执行文本散度检测,得到所述文本散度信息的步骤中,根据所述文本特征执行文本密度检测,得到文本密度信息;
根据所述文本密度信息和所述文本位置信息执行文本散度检测,得到所述文本散度信息。
7.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:
在执行对所述图像类型执行第一颗粒度检测,得到所述细节图像信息的步骤中,对所述图像类型执行关键分区剪裁,得到特征区域;
将所述特征区域执行区域对齐,得到特征矩阵;
对所述特征矩阵执行卷积运算,得到图像分类向量;
通过所述归一化指数函数计算所述图像分类向量,得到所述细节图像信息。
8.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:
在执行通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述图形信息的掩膜向量与所述文本信息的掩膜向量相加,得到特征向量的步骤中,计算所述文本散度信息和所述特定位置文本信息的掩膜向量并相加,得到所述文本信息的掩膜向量;
通过所述归一化指数函数计算所述细节图像信息,得到所述细节图像信息的掩膜向量;
所述文本信息的掩膜向量与所述细节图像信息的掩膜向量相加,得到场景特征掩膜;
通过计算所述全局图像信息的中间向量与所述场景特征掩膜相加,得到所述特征向量。
9.根据权利要求1所述的显示设备,其特征在于,所述控制器还被配置为:
在执行根据所述场景类别调整画质参数的步骤中,根据所述场景类别调用中间层;所述中间层由键值对组成;
根据所述中间层的键值对调整画质参数。
10.一种智能场景画质参数调整方法,其特征在于,应用于显示设备,所述显示设备包括显示器和控制器,所述方法包括:
获取用户输入的用于调整画质参数的控制指令;
响应于所述控制指令,对用户界面执行截屏操作,得到截屏图像;
在所述截屏图像中识别图形信息和文本信息;
通过分别计算所述图形信息和所述文本信息的掩膜向量,并将所述掩膜向量相加,得到特征向量;
根据归一化指数函数计算所述特征向量,得到场景类别;
根据所述场景类别调整画质参数。
CN202210594569.XA 2022-05-27 2022-05-27 显示设备与智能场景画质参数调整方法 Pending CN114979791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210594569.XA CN114979791A (zh) 2022-05-27 2022-05-27 显示设备与智能场景画质参数调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210594569.XA CN114979791A (zh) 2022-05-27 2022-05-27 显示设备与智能场景画质参数调整方法

Publications (1)

Publication Number Publication Date
CN114979791A true CN114979791A (zh) 2022-08-30

Family

ID=82957217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210594569.XA Pending CN114979791A (zh) 2022-05-27 2022-05-27 显示设备与智能场景画质参数调整方法

Country Status (1)

Country Link
CN (1) CN114979791A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172643A1 (en) * 2012-12-13 2014-06-19 Ehsan FAZL ERSI System and method for categorizing an image
CN110933490A (zh) * 2019-11-20 2020-03-27 深圳创维-Rgb电子有限公司 一种画质和音质的自动调整方法、智能电视机及存储介质
CN111131889A (zh) * 2019-12-31 2020-05-08 深圳创维-Rgb电子有限公司 场景自适应调整图像及声音的方法、系统及可读存储介质
CN112989995A (zh) * 2021-03-10 2021-06-18 北京百度网讯科技有限公司 文本检测方法、装置及电子设备
CN113627402A (zh) * 2021-10-12 2021-11-09 腾讯科技(深圳)有限公司 一种图像识别方法及相关装置
CN114463586A (zh) * 2022-01-30 2022-05-10 中国农业银行股份有限公司 图像识别模型的训练与图像识别方法、装置、设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172643A1 (en) * 2012-12-13 2014-06-19 Ehsan FAZL ERSI System and method for categorizing an image
CN110933490A (zh) * 2019-11-20 2020-03-27 深圳创维-Rgb电子有限公司 一种画质和音质的自动调整方法、智能电视机及存储介质
CN111131889A (zh) * 2019-12-31 2020-05-08 深圳创维-Rgb电子有限公司 场景自适应调整图像及声音的方法、系统及可读存储介质
CN112989995A (zh) * 2021-03-10 2021-06-18 北京百度网讯科技有限公司 文本检测方法、装置及电子设备
CN113627402A (zh) * 2021-10-12 2021-11-09 腾讯科技(深圳)有限公司 一种图像识别方法及相关装置
CN114463586A (zh) * 2022-01-30 2022-05-10 中国农业银行股份有限公司 图像识别模型的训练与图像识别方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US8935169B2 (en) Electronic apparatus and display process
US9137562B2 (en) Method of viewing audiovisual documents on a receiver, and receiver for viewing such documents
US8866943B2 (en) Video camera providing a composite video sequence
US20130235223A1 (en) Composite video sequence with inserted facial region
KR102402513B1 (ko) 컨텐트를 실행하는 방법 및 장치
TWI605712B (zh) 互動式媒體系統
KR101895846B1 (ko) 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화
CN113064684B (zh) 一种虚拟现实设备及vr场景截屏方法
US10257569B2 (en) Display apparatus and method for providing service thereof
JP2014139681A (ja) 適応的なビデオ呈示のための方法および装置
CN114286173A (zh) 一种显示设备及音画参数调节方法
CN111343512B (zh) 信息获取方法、显示设备及服务器
US20120301030A1 (en) Image processing apparatus, image processing method and recording medium
CN111556350B (zh) 一种智能终端及人机交互方法
WO2020248697A1 (zh) 显示设备及视频通讯数据处理方法
US20190251363A1 (en) Electronic device and method for generating summary image of electronic device
CN114979791A (zh) 显示设备与智能场景画质参数调整方法
CN113207003B (zh) 一种视频图像的运动估计方法及电子设备
CN114710707A (zh) 显示设备及视频缩略图获取方法
US11908340B2 (en) Magnification enhancement of video for visually impaired viewers
CN110704680B (zh) 标签生成方法、电子设备及存储介质
EP4365821A1 (en) Image processing device and operation method thereof
KR20240011779A (ko) 조정 가능한 사용자 인터페이스(ui) 요소를 통한 수화 비디오의 디스플레이
KR20220113745A (ko) 디스플레이 장치
CN117812377A (zh) 一种显示设备及智能剪辑方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination