CN110493639A - 一种基于场景识别的自动调整声音和图像模式的方法及系统 - Google Patents

一种基于场景识别的自动调整声音和图像模式的方法及系统 Download PDF

Info

Publication number
CN110493639A
CN110493639A CN201910997614.4A CN201910997614A CN110493639A CN 110493639 A CN110493639 A CN 110493639A CN 201910997614 A CN201910997614 A CN 201910997614A CN 110493639 A CN110493639 A CN 110493639A
Authority
CN
China
Prior art keywords
model
scene
image
adjust automatically
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910997614.4A
Other languages
English (en)
Inventor
梁彪
余海超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Original Assignee
Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth filed Critical Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Priority to CN201910997614.4A priority Critical patent/CN110493639A/zh
Publication of CN110493639A publication Critical patent/CN110493639A/zh
Priority to PCT/CN2020/079781 priority patent/WO2021077663A1/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4854End-user interface for client configuration for modifying image parameters, e.g. image brightness, contrast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于场景识别的自动调整声音和图像模式的方法及系统,解决了用户观看电视节目时不能自动调整声音模式和图像模式的技术问题,其技术方案要点是场景图片截取模块截取当前播放的视频画面,场景识别模块对截取的视频画面进行识别,得到识别结果后发出识别指令,场景服务模块根据识别指令调用场景本地模型,加载分类标签进行模型匹配,得到匹配结果,声音调整模块和图像调整模块依据匹配结果调整声音模式和图像模式,最终实现声音模式和图像模式的自动调整,无需手动操作就能达到最佳的视听体验效果。

Description

一种基于场景识别的自动调整声音和图像模式的方法及系统
技术领域
本公开涉及智能电视技术领域,尤其涉及一种基于场景识别的自动调整声音和图像模式的方法及系统。
背景技术
当前电视领域的声音和图像调整有两种方法,一种方法是电视出厂时会在系统中设置好声音和图像对应的参数;另一种是为用户提供人机交互界面,给出几种声音图像模式来供用户手动调整。这两种方法的缺点就是不管在任何场景下声音和图像模式都是不变的,直到用户再一次手动调整。比如用户设置了图像模式为新闻模式,但是在看电视剧或者电影时,新闻模式就不合适了,针对图像的新闻模式只有当用户在观看新闻时才能得到最近的观看效果,若要调整为其他的观看模式,就要手动进行调整,不能自动进行模式的切换。
发明内容
本公开的目的是提供一种基于场景识别的自动调整声音和图像模式的方法及系统,达到自动调整声音模式和图像模式的目的。
本公开的上述技术目的是通过以下技术方案得以实现的:
一种基于场景识别的自动调整声音和图像模式的方法,包括:
截取当前播放的视频画面;
采用分类模型识别所述视频画面,获取识别结果并发出识别指令;
根据所述识别指令调用场景本地模型,加载分类标签进行模型匹配,得到匹配结果;
根据所述匹配结果自动调整声音模式和图像模式。
作为具体实施例地,所述分类模型和所述分类标签由深度学习网络训练而成。
进一步地,所述分类模型通过具有深度学习能力的自学习平台的服务来完成识别。
进一步地,所述自学习平台包括Tensorflow Lite平台。
进一步地,所述场景本地模型包括音乐模型、篮球模型、足球模型、动画片模型、新闻模型、广播模型、动物世界模型、教育资源模型、广告模型、喜剧片模型、动作片模型、恐怖片模型、枪战片模型和综艺模型。
进一步地,所述声音模式包含的参数有低音、重低音、中音、中高音、高音、环绕声和杜比。
进一步地,所述图像模式包含的参数有亮度、饱和度、清晰度、背光、色度和图像局部的特征。
一种基于场景识别的自动调整声音和图像模式的系统,包括:
场景图片截取模块,截取当前播放的视频画面;
场景识别模块,采用分类模型识别所述视频画面,获取识别结果并发出识别指令;
场景服务模块,根据所述识别指令调用场景本地模型,加载分类标签进行模型匹配,得到匹配结果;
声音调整模块和图像调整模块,根据所述匹配结果调整声音模式和图像模式;
存储模块,存储场景本地模型。
综上所述,本公开的有益效果在于:场景图片截取模块截取当前播放的视频画面,场景识别模块对截取的视频画面进行识别,得到识别结果后发出识别指令,场景服务模块根据识别指令调用场景本地模型,加载分类标签进行模型匹配,得到匹配结果,声音调整模块和图像调整模块依据匹配结果调整声音模式和图像模式,最终实现声音模式和图像模式的自动调整,无需手动操作就能达到最佳的视听体验效果。
附图说明
图1为本公开方法流程示意图;
图2为本公开系统示意图;
图3为Tensorflow Lite的网络结构示意图。
具体实施方式
以下结合附图对本公开作进一步详细说明。
图1为本公开方法的流程示意图,图2为本公开系统的示意图,声音和图像模式(即AIPS)为人工智能视听系统,本公开的工作原理为:场景图片截取模块负责实时截取当前播放的视频,以图片的形式传输给场景识别模块,场景识别模块识别该图片后向场景服务模块发出识别指令,场景服务模块判断场景识别模块下达的识别指令,并从存储模块中调用场景本地模型,场景本地模型返回预置的场景模型匹配结果给场景服务模块,场景服务模块将匹配结果发送给声音调整模块和图像调整模块,声音调整模块和图像调整模块根据不同的匹配结果自动调整声音和图像参数。
以下对各个模块的具体工作内容做详细的说明。
场景图片截取模块:主要是截取视频中的画面,作为场景识别模块的数据输入源。存在一种情况,传统安卓截屏接口在各电视芯片平台截取视频播放画面的时候,会出现截取出来是黑屏的情况,这个时候需要通过对接各平台方案商底层接口方案,重新封装异步IPC通信接口来提供截取视频中的实时播放画面的图片。
场景识别模块:由分类模型来完成识别任务,分类模型则基于具有深度学习能力的自学习平台来完成识别任务。例如Tensorflow Lite平台,Tensorflow Lite是为安卓和IOS等移动平台设计的深度学习解决方案,支持任意尺寸的输入图像。由于TensorflowLite的目标是移动和嵌入式设备,并赋予这些设备在终端本地运行机器学习模型的能力,使用本地场景分类模式,不需要再向云端服务器发送数据,不但节省了网络流量和服务器资源,最大程度的减少识别时间开销,能够快速实时的对电视播放画面的场景进行响应,而且还充分帮助用户保护自己的隐私和敏感信息。
Tensorflow Lite的结构设计如图3所示,已训练好的TensorFlow模型,通过Tensorflow Lite转换器,将TensorFlow模型转换为Tensorflow Lite文件格式.tflite。Java API为围绕Android上C++ API的便捷包装;C++ API用来加载TensorFlow Lite模型文件并调用解释器,Android和iOS都提供相同的C++ API库。解释器则使用一组内核来执行模型,解释器支持选择性内核加载,没有内核,只有100KB,加载了所有内核则有300KB。另外,在选定的Android设备上,解释器将使用Android神经网络API进行硬件加速,如果没有可用的,则默认为CPU执行,也可以使用解释器可以使用的C++ API来实现定制的内核。
场景识别模块采用分类模型对视频画面进行识别,分类模型为预先通过深度学习网络训练而成。
场景服务模块:场景服务模块:根据场景识别模块的识别指令调用场景本地模型,加载分类标签,将识别指令与场景本地模型进行模型匹配,获取匹配的结果。最后将匹配结果通知给声音调整模块和图像调整模块,作出声音和图像的模式调整。
存储模块:主要存储场景本地模型,场景本地模型包含了各类场景模型,如音乐模型、篮球模型、足球模型、动画片模型、新闻模型、广播模型、动物世界模型、教育资源模型、广告模型、喜剧片模型、动作片模型、恐怖片模型、枪战片模型、综艺模型等。
声音调整模块:包含对低音、重低音、中音、中高音、高音、环绕声、杜比等参数的调整。
图像调整模块:包含对亮度、饱和度、清晰度、背光、色度等参数的调整以及对图像局部的特征的调整。
以上为本公开示范性实施例之一,本公开的保护范围由权利要求书及其等效物限定。

Claims (8)

1.一种基于场景识别的自动调整声音和图像模式的方法,其特征在于,包括:
截取当前播放的视频画面;
采用分类模型识别所述视频画面,获取识别结果并发出识别指令;
根据所述识别指令调用场景本地模型,加载分类标签进行模型匹配,得到匹配结果;
根据所述匹配结果自动调整声音模式和图像模式。
2.如权利要求1所述的基于场景识别的自动调整切换声音和图像模式的方法,其特征在于,所述分类模型和所述分类标签由深度学习网络训练而成。
3.如权利要求2所述的基于场景识别的自动调整切换声音和图像模式的方法,其特征在于,所述分类模型通过具有深度学习能力的自学习平台的服务来完成识别。
4.如权利要求3所述的基于场景识别的自动调整切换声音和图像模式的方法,其特征在于,所述自学习平台包括Tensorflow Lite平台。
5.如权利要求1-4任一所述的基于场景识别的自动调整切换声音和图像模式的方法,其特征在于,所述场景本地模型包括音乐模型、篮球模型、足球模型、动画片模型、新闻模型、广播模型、动物世界模型、教育资源模型、广告模型、喜剧片模型、动作片模型、恐怖片模型、枪战片模型和综艺模型。
6.如权利要求1-4任一所述的基于场景识别的自动调整声音和图像模式的方法,其特征在于,所述声音模式包含的参数有低音、重低音、中音、中高音、高音、环绕声和杜比。
7.如权利要求1-4任一所述的基于场景识别的自动调整声音和图像模式的方法,其特征在于,所述图像模式包含的参数有亮度、饱和度、清晰度、背光、色度和图像局部的特征。
8.一种基于场景识别的自动调整声音和图像模式的系统,其特征在于,包括:
场景图片截取模块,截取当前播放的视频画面;
场景识别模块,采用分类模型识别所述视频画面,获取识别结果并发出识别指令;
场景服务模块,根据所述识别指令调用场景本地模型,加载分类标签进行模型匹配,得到匹配结果;
声音调整模块和图像调整模块,根据所述匹配结果调整声音模式和图像模式;
存储模块,存储场景本地模型。
CN201910997614.4A 2019-10-21 2019-10-21 一种基于场景识别的自动调整声音和图像模式的方法及系统 Pending CN110493639A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910997614.4A CN110493639A (zh) 2019-10-21 2019-10-21 一种基于场景识别的自动调整声音和图像模式的方法及系统
PCT/CN2020/079781 WO2021077663A1 (zh) 2019-10-21 2020-03-17 一种基于场景识别的自动调整声音和图像模式的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910997614.4A CN110493639A (zh) 2019-10-21 2019-10-21 一种基于场景识别的自动调整声音和图像模式的方法及系统

Publications (1)

Publication Number Publication Date
CN110493639A true CN110493639A (zh) 2019-11-22

Family

ID=68544764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910997614.4A Pending CN110493639A (zh) 2019-10-21 2019-10-21 一种基于场景识别的自动调整声音和图像模式的方法及系统

Country Status (2)

Country Link
CN (1) CN110493639A (zh)
WO (1) WO2021077663A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111031392A (zh) * 2019-12-23 2020-04-17 广州视源电子科技股份有限公司 媒体文件的播放方法、系统、装置、存储介质和处理器
CN111416995A (zh) * 2020-03-25 2020-07-14 深圳创维-Rgb电子有限公司 一种基于场景识别的内容推送方法、系统及智能终端
CN111541937A (zh) * 2020-04-16 2020-08-14 深圳Tcl数字技术有限公司 画质调整方法、电视机设备及计算机存储介质
CN112118492A (zh) * 2020-09-14 2020-12-22 深圳创维-Rgb电子有限公司 通过软件切换电视图像声音模式处理方法、装置
WO2021077663A1 (zh) * 2019-10-21 2021-04-29 南京创维信息技术研究院有限公司 一种基于场景识别的自动调整声音和图像模式的方法及系统
CN113542583A (zh) * 2021-04-07 2021-10-22 厦门市思芯微科技有限公司 基于TensorFlowLite的移动客户端智能跟随方法及装置
CN113556604A (zh) * 2020-04-24 2021-10-26 深圳市万普拉斯科技有限公司 音效调节方法、装置、计算机设备和存储介质
WO2023045281A1 (zh) * 2021-09-27 2023-03-30 海信视像科技股份有限公司 广播接收装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130322848A1 (en) * 2012-05-31 2013-12-05 Eric Qing Li Automatic triggering of a zoomed-in scroll bar for a media program based on user input
CN105100831A (zh) * 2014-04-16 2015-11-25 北京酷云互动科技有限公司 电视机播放模式的调整方法、电视播放系统和电视机
CN108462876A (zh) * 2018-01-19 2018-08-28 福州瑞芯微电子股份有限公司 一种视频解码优化调整装置及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712661B (zh) * 2018-05-28 2022-02-25 广州虎牙信息科技有限公司 一种直播视频处理方法、装置、设备及存储介质
CN110062267A (zh) * 2019-05-05 2019-07-26 广州虎牙信息科技有限公司 直播数据处理方法、装置、电子设备及可读存储介质
CN110493639A (zh) * 2019-10-21 2019-11-22 南京创维信息技术研究院有限公司 一种基于场景识别的自动调整声音和图像模式的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130322848A1 (en) * 2012-05-31 2013-12-05 Eric Qing Li Automatic triggering of a zoomed-in scroll bar for a media program based on user input
CN105100831A (zh) * 2014-04-16 2015-11-25 北京酷云互动科技有限公司 电视机播放模式的调整方法、电视播放系统和电视机
CN108462876A (zh) * 2018-01-19 2018-08-28 福州瑞芯微电子股份有限公司 一种视频解码优化调整装置及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021077663A1 (zh) * 2019-10-21 2021-04-29 南京创维信息技术研究院有限公司 一种基于场景识别的自动调整声音和图像模式的方法及系统
CN111031392A (zh) * 2019-12-23 2020-04-17 广州视源电子科技股份有限公司 媒体文件的播放方法、系统、装置、存储介质和处理器
CN111416995A (zh) * 2020-03-25 2020-07-14 深圳创维-Rgb电子有限公司 一种基于场景识别的内容推送方法、系统及智能终端
CN111541937A (zh) * 2020-04-16 2020-08-14 深圳Tcl数字技术有限公司 画质调整方法、电视机设备及计算机存储介质
CN113556604A (zh) * 2020-04-24 2021-10-26 深圳市万普拉斯科技有限公司 音效调节方法、装置、计算机设备和存储介质
CN112118492A (zh) * 2020-09-14 2020-12-22 深圳创维-Rgb电子有限公司 通过软件切换电视图像声音模式处理方法、装置
CN113542583A (zh) * 2021-04-07 2021-10-22 厦门市思芯微科技有限公司 基于TensorFlowLite的移动客户端智能跟随方法及装置
WO2023045281A1 (zh) * 2021-09-27 2023-03-30 海信视像科技股份有限公司 广播接收装置

Also Published As

Publication number Publication date
WO2021077663A1 (zh) 2021-04-29

Similar Documents

Publication Publication Date Title
CN110493639A (zh) 一种基于场景识别的自动调整声音和图像模式的方法及系统
CN110933490B (zh) 一种画质和音质的自动调整方法、智能电视机及存储介质
CN110602554B (zh) 封面图像确定方法、装置及设备
CN106604046B (zh) 视频直播方法及装置
CN107483460B (zh) 一种多平台并行导播推流的方法及系统
US10897646B2 (en) Video stream transmission method and related device and system
WO2018120946A1 (zh) 视频画面异常判断、装置及终端设备
CN109963162B (zh) 一种云导播系统及直播处理方法、装置
CN107771395A (zh) 生成和发送用于虚拟现实的元数据的方法和装置
US20200302664A1 (en) Creating and displaying multi-layered augemented reality
CN105608715A (zh) 一种在线合影方法及系统
CN103606310A (zh) 教学方法及系统
CN106227492B (zh) 拼接墙与移动智能终端互联方法和装置
US11451858B2 (en) Method and system of processing information flow and method of displaying comment information
CN101035262A (zh) 一种视频信息的传输方法
CN104301747A (zh) 一种携带二维码标签的数字电视动态视频流生成方法
CN111405339B (zh) 一种分屏显示方法、电子设备及存储介质
CN113965813B (zh) 直播间内的视频播放方法、系统、设备及介质
US20140267423A1 (en) Information processing system, information processing apparatus, and information processing method
CN107566891A (zh) 智能电视实时截屏的方法及系统
CN109104632A (zh) 一种电视终端ar场景的实现方法及系统
US20220179713A1 (en) Ai processing method and apparatus
US11151747B2 (en) Creating video augmented reality using set-top box
CN105635188B (zh) 一种可视化内容分发方法及系统
CN109413152A (zh) 图像处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122