CN110493639A

CN110493639A - 一种基于场景识别的自动调整声音和图像模式的方法及系统

Info

Publication number: CN110493639A
Application number: CN201910997614.4A
Authority: CN
Inventors: 梁彪; 余海超
Original assignee: Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Current assignee: Co Ltd Of Information Technology Research Institute Of Nanjing Skyworth
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2019-11-22
Also published as: WO2021077663A1

Abstract

本发明公开了一种基于场景识别的自动调整声音和图像模式的方法及系统，解决了用户观看电视节目时不能自动调整声音模式和图像模式的技术问题，其技术方案要点是场景图片截取模块截取当前播放的视频画面，场景识别模块对截取的视频画面进行识别，得到识别结果后发出识别指令，场景服务模块根据识别指令调用场景本地模型，加载分类标签进行模型匹配，得到匹配结果，声音调整模块和图像调整模块依据匹配结果调整声音模式和图像模式，最终实现声音模式和图像模式的自动调整，无需手动操作就能达到最佳的视听体验效果。

Description

一种基于场景识别的自动调整声音和图像模式的方法及系统

技术领域

本公开涉及智能电视技术领域,尤其涉及一种基于场景识别的自动调整声音和图像模式的方法及系统。

背景技术

当前电视领域的声音和图像调整有两种方法，一种方法是电视出厂时会在系统中设置好声音和图像对应的参数；另一种是为用户提供人机交互界面，给出几种声音图像模式来供用户手动调整。这两种方法的缺点就是不管在任何场景下声音和图像模式都是不变的，直到用户再一次手动调整。比如用户设置了图像模式为新闻模式，但是在看电视剧或者电影时，新闻模式就不合适了，针对图像的新闻模式只有当用户在观看新闻时才能得到最近的观看效果，若要调整为其他的观看模式，就要手动进行调整，不能自动进行模式的切换。

发明内容

本公开的目的是提供一种基于场景识别的自动调整声音和图像模式的方法及系统，达到自动调整声音模式和图像模式的目的。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种基于场景识别的自动调整声音和图像模式的方法，包括：

截取当前播放的视频画面；

采用分类模型识别所述视频画面，获取识别结果并发出识别指令；

根据所述识别指令调用场景本地模型，加载分类标签进行模型匹配，得到匹配结果；

根据所述匹配结果自动调整声音模式和图像模式。

作为具体实施例地，所述分类模型和所述分类标签由深度学习网络训练而成。

进一步地，所述分类模型通过具有深度学习能力的自学习平台的服务来完成识别。

进一步地，所述自学习平台包括Tensorflow Lite平台。

进一步地，所述场景本地模型包括音乐模型、篮球模型、足球模型、动画片模型、新闻模型、广播模型、动物世界模型、教育资源模型、广告模型、喜剧片模型、动作片模型、恐怖片模型、枪战片模型和综艺模型。

进一步地，所述声音模式包含的参数有低音、重低音、中音、中高音、高音、环绕声和杜比。

进一步地，所述图像模式包含的参数有亮度、饱和度、清晰度、背光、色度和图像局部的特征。

一种基于场景识别的自动调整声音和图像模式的系统，包括：

场景图片截取模块，截取当前播放的视频画面；

场景识别模块，采用分类模型识别所述视频画面，获取识别结果并发出识别指令；

场景服务模块，根据所述识别指令调用场景本地模型，加载分类标签进行模型匹配，得到匹配结果；

声音调整模块和图像调整模块，根据所述匹配结果调整声音模式和图像模式；

存储模块，存储场景本地模型。

综上所述，本公开的有益效果在于：场景图片截取模块截取当前播放的视频画面，场景识别模块对截取的视频画面进行识别，得到识别结果后发出识别指令，场景服务模块根据识别指令调用场景本地模型，加载分类标签进行模型匹配，得到匹配结果，声音调整模块和图像调整模块依据匹配结果调整声音模式和图像模式，最终实现声音模式和图像模式的自动调整，无需手动操作就能达到最佳的视听体验效果。

附图说明

图1为本公开方法流程示意图；

图2为本公开系统示意图；

图3为Tensorflow Lite的网络结构示意图。

具体实施方式

以下结合附图对本公开作进一步详细说明。

图1为本公开方法的流程示意图，图2为本公开系统的示意图，声音和图像模式（即AIPS）为人工智能视听系统，本公开的工作原理为：场景图片截取模块负责实时截取当前播放的视频，以图片的形式传输给场景识别模块，场景识别模块识别该图片后向场景服务模块发出识别指令，场景服务模块判断场景识别模块下达的识别指令，并从存储模块中调用场景本地模型，场景本地模型返回预置的场景模型匹配结果给场景服务模块，场景服务模块将匹配结果发送给声音调整模块和图像调整模块，声音调整模块和图像调整模块根据不同的匹配结果自动调整声音和图像参数。

以下对各个模块的具体工作内容做详细的说明。

场景图片截取模块：主要是截取视频中的画面，作为场景识别模块的数据输入源。存在一种情况，传统安卓截屏接口在各电视芯片平台截取视频播放画面的时候，会出现截取出来是黑屏的情况，这个时候需要通过对接各平台方案商底层接口方案，重新封装异步IPC通信接口来提供截取视频中的实时播放画面的图片。

场景识别模块：由分类模型来完成识别任务，分类模型则基于具有深度学习能力的自学习平台来完成识别任务。例如Tensorflow Lite平台，Tensorflow Lite是为安卓和IOS等移动平台设计的深度学习解决方案，支持任意尺寸的输入图像。由于TensorflowLite的目标是移动和嵌入式设备，并赋予这些设备在终端本地运行机器学习模型的能力，使用本地场景分类模式，不需要再向云端服务器发送数据，不但节省了网络流量和服务器资源，最大程度的减少识别时间开销，能够快速实时的对电视播放画面的场景进行响应，而且还充分帮助用户保护自己的隐私和敏感信息。

Tensorflow Lite的结构设计如图3所示，已训练好的TensorFlow模型，通过Tensorflow Lite转换器，将TensorFlow模型转换为Tensorflow Lite文件格式.tflite。Java API为围绕Android上C++ API的便捷包装；C++ API用来加载TensorFlow Lite模型文件并调用解释器，Android和iOS都提供相同的C++ API库。解释器则使用一组内核来执行模型，解释器支持选择性内核加载，没有内核，只有100KB，加载了所有内核则有300KB。另外，在选定的Android设备上，解释器将使用Android神经网络API进行硬件加速，如果没有可用的，则默认为CPU执行，也可以使用解释器可以使用的C++ API来实现定制的内核。

场景识别模块采用分类模型对视频画面进行识别，分类模型为预先通过深度学习网络训练而成。

场景服务模块：场景服务模块：根据场景识别模块的识别指令调用场景本地模型，加载分类标签，将识别指令与场景本地模型进行模型匹配，获取匹配的结果。最后将匹配结果通知给声音调整模块和图像调整模块，作出声音和图像的模式调整。

存储模块：主要存储场景本地模型，场景本地模型包含了各类场景模型，如音乐模型、篮球模型、足球模型、动画片模型、新闻模型、广播模型、动物世界模型、教育资源模型、广告模型、喜剧片模型、动作片模型、恐怖片模型、枪战片模型、综艺模型等。

声音调整模块：包含对低音、重低音、中音、中高音、高音、环绕声、杜比等参数的调整。

图像调整模块：包含对亮度、饱和度、清晰度、背光、色度等参数的调整以及对图像局部的特征的调整。

以上为本公开示范性实施例之一，本公开的保护范围由权利要求书及其等效物限定。

Claims

1.一种基于场景识别的自动调整声音和图像模式的方法，其特征在于，包括：

截取当前播放的视频画面；

根据所述匹配结果自动调整声音模式和图像模式。

2.如权利要求1所述的基于场景识别的自动调整切换声音和图像模式的方法，其特征在于，所述分类模型和所述分类标签由深度学习网络训练而成。

3.如权利要求2所述的基于场景识别的自动调整切换声音和图像模式的方法，其特征在于，所述分类模型通过具有深度学习能力的自学习平台的服务来完成识别。

4.如权利要求3所述的基于场景识别的自动调整切换声音和图像模式的方法，其特征在于，所述自学习平台包括Tensorflow Lite平台。

5.如权利要求1-4任一所述的基于场景识别的自动调整切换声音和图像模式的方法，其特征在于，所述场景本地模型包括音乐模型、篮球模型、足球模型、动画片模型、新闻模型、广播模型、动物世界模型、教育资源模型、广告模型、喜剧片模型、动作片模型、恐怖片模型、枪战片模型和综艺模型。

6.如权利要求1-4任一所述的基于场景识别的自动调整声音和图像模式的方法，其特征在于，所述声音模式包含的参数有低音、重低音、中音、中高音、高音、环绕声和杜比。

7.如权利要求1-4任一所述的基于场景识别的自动调整声音和图像模式的方法，其特征在于，所述图像模式包含的参数有亮度、饱和度、清晰度、背光、色度和图像局部的特征。

8.一种基于场景识别的自动调整声音和图像模式的系统，其特征在于，包括：

场景图片截取模块，截取当前播放的视频画面；

存储模块，存储场景本地模型。