CN110996153A

CN110996153A - 基于场景识别的音画品质增强方法、系统和显示器

Info

Publication number: CN110996153A
Application number: CN201911242161.0A
Authority: CN
Inventors: 孙思凯
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-10
Anticipated expiration: 2039-12-06
Also published as: US11516554B2; EP3860133A4; CN110996153B; EP3860133A1; WO2021109673A1; US20220124417A1

Abstract

本发明公开基于场景识别的音画品质增强方法、系统和显示器，其中，基于场景识别的音画品质增强方法包括：识别显示器当前画面所反映的现实场景；计算与现实场景相匹配的音画品质增强参数；根据音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像。本发明的技术方案能解决现有技术中通常需要用户手动调节当前场景的音质和画质，导致用户体验效果不佳的问题。

Description

基于场景识别的音画品质增强方法、系统和显示器

技术领域

本发明涉及显示器技术领域，尤其涉及一种基于场景识别的音画品质增强方法、系统和显示器。

背景技术

随着显示器技术的发展，市场上出现了大量越来越智能化的显示设备，例如智能电视。智能电视是具有全开放式平台，且搭载操作系统的新型电视产品。近年来，随着人工智能技术的发展，智能电视的功能越来越强大，给用户带来了更加丰富的个性化视听体验。

智能电视通常能够提供高清的画面显示以及自然的声音效果，然而受到实际播放情况的限制，智能电视播放节目的音画品质往往达不到智能电视能够达到的最高音画品质要求。例如：4k电视的分辨率为3840*2160，而该电视所播放节目的自身画面的像素为1920*1080，则即使电视本身能够提供的分辨率较高，也难以播放高清画面。为了解决此类问题。现有技术中通过使用图像增强和音效增强技术对画面和声音进行修复，以改善电视的画质和音质，使得图像内容更有层次感，声音效果更符合人们期待。例如针对拍照光圈偏小、场景对比度较低，曝光过度等，都可以通过图像增强技术加以解决，从而显著提升画质。

然而，现有的图像和音效增强技术往往不够智能，针对不同的场景，其提供的图像和音效增强技术往往过于单一，这样就导致电视中各种场景的画质和音质均过于单一而区分度不高，用户长久观看容易造成审美疲劳，若需解决该问题，就需要用户手动改变当前播放场景的画质和音效，导致用户体验效果不佳。

发明内容

本发明提供一种基于场景识别的音画品质增强方法、系统和显示器，旨在解决现有技术中需要用户手动调节当前场景的音质画质，体验效果不佳的问题。

为实现上述目的，根据本发明的第一方面，本发明提出了一种基于场景识别的音画品质增强方法，该音画品质增强方法用于显示器，该方法包括：

识别显示器当前画面所反映的现实场景；

计算与现实场景相匹配的音画品质增强参数；

根据音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像。

优选地，识别显示器当前画面所反映的现实场景的步骤包括：

提取当前画面中的区域图像；

使用神经网络对区域图像进行场景特征检测；

根据检测到的场景特征，识别当前画面反映的现实场景。

优选地，所述识别显示器当前画面所反映的现实场景的步骤包括：在第一预定时间内，多次识别显示器当前画面所反映的现实场景，得到每次识别到的现实场景的置信度；

所述音画品质增强方法还包括：使用每次识别到的现实场景的置信度，确定当前画面所反映的现实场景。

优选地，所述音画品质增强方法还包括：在第二预定时间内，按照预定频次截取多幅显示器的当前画面；

所述识别显示器当前画面所反映的现实场景的步骤，包括：

对截取的每幅当前画面进行检测，得到每幅当前画面对应的现实场景；

根据每幅当前画面对应的现实场景，识别得到显示器当前画面所反映的现实场景。

优选地，所述计算与现实场景相匹配的音画品质增强参数的步骤包括：

提取显示器当前画面的音画品质参数；

根据最佳音画品质对应的预设音画品质参数和显示器当前画面的的音画品质参数，计算得到与现实场景相匹配的音画品质增强参数。

优选地，所述根据音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像的步骤包括：

预设每种现实场景对应的最佳音画品质，或提取用户对现实场景的常用音画品质作为现实场景对应的最佳音画品质；

控制显示器播放与最佳音画品质对应的声音和图像。

根据本发明的第二方面，本发明还提供了一种基于场景识别的音画品质增强系统，该音画品质增强系统用于显示器，该系统包括：

场景识别模块，用于识别显示器当前画面所反映的现实场景；

品质计算模块，用于计算与场景识别模块识别的现实场景相匹配的音画品质增强参数；

播放控制模块，用于根据品质计算模块计算的音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像。

优选地，所述场景识别模块包括：

图像提取子模块，用于提取当前画面中的区域图像；

特征检测子模块，用于使用神经网络对图像提取子模块提取的区域图像进行场景特征检测；

第一场景识别子模块，用于根据特征检测子模块检测到的场景特征，识别当前画面反映的现实场景。

优选地，所述场景识别模块还用于在第一预定时间内多次识别显示器当前画面所反映的现实场景，得到每次识别到的现实场景的置信度；

所述音画品质增强系统还包括：场景确定模块，用于使用场景识别模块每次识别到的现实场景的置信度，确定当前画面所反映的现实场景。

优选地，所述音画品质增强系统还包括：

截屏模块，用于在第二预定时间内，按照预定频次截取多幅显示器的当前画面；

场景识别模块，包括：

画面检测子模块，用于对截取的每幅当前画面进行检测，得到每幅当前画面对应的现实场景；

第二场景识别子模块，用于根据每幅当前画面对应的现实场景，识别得到显示器当前画面所反映的现实场景。

根据本发明的第三方面，本发明还提供了一种显示器，包括：上述技术方案中任一项所述的音画品质增强系统。

本申请提出的技术方案，通过自动识别显示器当前画面反映的现实场景；然后计算与现实场景对应的音画品质增强参数，根据该音画品质增强参数对应的最佳音画品质，能够控制显示器自动播放与现实场景对应的声音和图像，带给用户极高的视听享受，从而不需要用户手动调节，提高了用户体验。本方案解决了现有技术中需要用户手动调节当前场景的音质和画质，导致用户体验效果不佳的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例提供的第一种基于场景识别的音画品质增强方法的流程示意图；

图2是图1所示实施例提供的一种现实场景识别方法的流程示意图；

图3是图1所示实施例提供的一种音画品质增强参数的计算方法的流程示意图；

图4是图1所示实施例提供的一种显示器播放控制方法的流程示意图；

图5是本发明实施例提供的第二种基于场景识别的音画品质增强方法的流程示意图；

图6是本发明实施例提供的第三种基于场景识别的音画品质增强方法的流程示意图；

图7是本发明实施例提供的第四种基于场景识别的音画品质增强方法的流程示意图；

图8是本发明实施例提供的第一种基于场景识别的音画品质增强系统的结构示意图；

图9是图8所示实施例提供的一种场景识别模块的结构示意图；

图10是本发明实施例提供的第二种基于场景识别的音画品质增强系统的结构示意图；

图11是本发明实施例提供的第三种基于场景识别的音画品质增强系统的结构示意图；

图12是本发明实施例提供的第四种基于场景识别的音画品质增强系统的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中，传统的显示器通常需要手动调节与当前场景对应的音质和画质，容易导致用户体验效果较差。

参见图1，为解决上述问题上述，图1是本发明实施例提供的第一种基于场景识别的音画品质增强方法的流程示意图，如图1所示，该音画品质增强方法用于显示器，该方法包括以下步骤：

S110：识别显示器当前画面所反映的现实场景。

该现实场景是显示器(如智能电视)当前画面所播放的实际场景，例如电影场景、新闻场景、体育场景或音乐会场景等。通过获取该现实场景能够确定该现实场景应当使用的音质和画质。

该识别现实场景的方法可通过人工智能进行识别，通过预先进行大量训练的神经网络对当前画面进行准确的场景判断。具体如图2所示，该识别显示器当前画面所反映的现实场景的步骤具体包括：

S111：提取当前画面中的区域图像。神经网络会对显示器当前画面进行机器学习，具体提取当前画面的中的特定区域的区域图像，例如电影画面中往往当前画面的下部为黑色边框，体育节目中在画面右上角往往存在比分标识，神经网络根据机器学习到的方法，会重点关注当前画面的特定区域，从而提取到当前画面的某些区域图像。

S112：使用神经网络对区域图像进行场景特征检测。

具体地，神经网络会提取该区域图像中的场景特征，然后对该场景特征与数据库中存储的现实场景的场景特征进行特征匹配，通过该场景特征的相似度，计算现实场景的置信度。

S113：根据检测到的场景特征，识别当前画面反映的现实场景。

具体地，通过对区域图像中的场景特征与数据库存储的现实场景的场景特征进行特征匹配，通过匹配的相似度计算现实场景的匹配程度，当现实场景的置信度大于预定值时，可以确定当前画面反映的现实场景。例如：通过匹配当前画面的场景特征，确定该现实场景为新闻场景的置信度为0.8，体育场景的置信度为0.2，此时即可确定该显示器当前画面反映的现实场景为新闻场景。

在识别显示器当前画面反映的现实场景后，图1所示方法还包括步骤：

S120：计算与现实场景相匹配的音画品质增强参数。音画品质增强参数分别包括音质增强参数和画质增强参数。该音画品质增强参数是根据现实场景对应的最佳音质和最佳画质，以及显示器当前画面对应的音质和画质计算而来。通过计算与现实场景相匹配的音画品质增强参数，能够将该现实场景对应的音质和画质调节到最佳。

其中，如图3所示，该步骤S120：计算与现实场景相匹配的音画品质增强参数，具体包括：

S121：提取显示器当前画面的音画品质参数。显示器当前的音质参数和画质参数，与实际场景对应的最佳音质参数和最佳画质参数通常是不一致的，为了将显示器当前画面的画质和音质调节至现实场景对应的最佳画质和音质，首先需要提取显示器当前画面的音画品质参数，从而根据该音画品质参数与最佳音画品质参数进行比较，从而增强现实场景的画质和音效。

S122：根据最佳音画品质对应的预设音画品质参数和显示器当前画面的的音画品质参数，计算得到与现实场景相匹配的音画品质增强参数。

因为显示器当前画面的音画品质参数与最佳音画品质对应的预设音画品质参数往往不同，此时需要针对具体的参数，如：对比度、色调、亮度和分辨率等参数进行具体的修改，计算上述显示器当前画面与预设音画品质参数之间的差值，作为与现实场景相匹配的音画品质增强参数值，从而使得显示器当前画面的音质和画质达到最佳音质和最佳画质。

计算与现实场景相匹配的音画品质增强参数后，图1所示方法还包括：

S130：根据音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像。其中，该最佳音画品质可以通过系统预设，例如通过大数据提取各个用户对特定场景的音质画质评价，结合各现实场景的显示和音效需求，进行曲线拟合制定。或者根据具体用户通常设置的音质和画质确定。通过音画品质增强参数对应的最佳音画品质，控制显示器播放与该现实场景对应的声音和图像，能够带给用户极高的视听享受，提高用户体验。

其中，如图4所示，该步骤S130：根据音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像，具体包括：

S131：预设每种现实场景对应的最佳音画品质，或提取用户对现实场景的常用音画品质作为现实场景对应的最佳音画品质。

S132：控制显示器播放与最佳音画品质对应的声音和图像。

最佳音画品质可根据大数据提取提前预设，或者现场提取用户之前每次观看同一场景所自己设置的音质和画质，然后进行处理得到与用户相适应的最佳音画品质。然后，控制显示器播放与该最佳音画品质对应的声音和图像，从而不需要用户手动调节音质和画质，提高用户体验度。

综上，本申请提出的技术方案，通过自动识别显示器当前画面反映的现实场景；然后计算与现实场景对应的音画品质增强参数，根据该音画品质增强参数对应的最佳音画品质，能够控制显示器自动播放与现实场景对应的声音和图像，带给用户极高的视听享受，从而不需要用户手动调节，提高了用户体验。本方案解决了现有技术中需要用户手动调节当前场景的音质和画质，导致用户体验效果不佳的问题。

另外，神经网络对现实场景的判断可能存在误判，这样可能不仅不能够匹配到与该现实场景对应的最佳音画品质，反而会因为匹配错误影响用户的视听效果。

为了解决上述问题，参见图5，图5为本发明实施例提供的第二种基于场景识别的音画品质增强方法的流程示意图，在本实施例中，原识别显示器当前画面所反映的现实场景的步骤，具体包括：

S114：在第一预定时间内，多次识别显示器当前画面所反映的现实场景，得到每次识别到的现实场景的置信度。

通过多次识别当前画面反映的现实场景，能够减少对现实场景的误判，同时针对具体情况，例如用户在短时间内多次切换显示器画面，通过多次识别，能够准确确定用户最终定位的当前画面。其中，置信度反映了神经网络识别现实场景的可信程度。其中，该多次识别当前画面所反映的现实场景的步骤包括同时识别多次以及依次识别多次的两种方式。

图5所示实施例提供的音画品质增强方法还包括：

步骤S210：使用每次识别到的现实场景的置信度，确定当前画面所反映的现实场景。

具体地，可针对每次识别的置信度设置权重值，比如在按时间顺序依次识别现实场景的情况，可以设置后面预定次数识别到的现实场景的权重值较高，之前识别到的现实场景的权重值较低，这样通过置信度与权重值相乘，得到新的置信度，从而通过该新的置信度确定当前画面是否反映的是现实场景。通过上述方式能够有效减少因用户频繁切换显示器画面导致的现实场景识别错误的情况。

本申请实施例提供的技术方案，通过多次识别显示器当前画面所反映的现实场景，得到每次识别的置信度，并通过每次识别到的现实场景的置信度，确定当前画面反映的现实场景，从而降低上述步骤对现实场景的误判。

其中显示屏当前画面可能切换频繁，可能导致对现实场景的识别不准，为了解决该问题，如图6所示，本实施例提供的音画品质增强方法除了图1所示的各步骤外，还包括以下步骤：

S310：在第二预定时间内，按照预定频次截取多幅显示器的当前画面。

例如能够在用户显示器进入到某一特定画面2s时间后，在2s时间内以300ms/次的频率进行截屏操作，截取大量画面，然后神经网络再对截取的画面进行特征分析。通过截屏操作，能够获取大量画面，从而提高现实场景识别的准确率。

在图6所示实施例中，上述步骤S110：识别显示器当前画面所反映的现实场景，包括：

S115：对截取的每幅当前画面进行检测，得到每幅当前画面对应的现实场景。

S116：根据每幅当前画面对应的现实场景，识别得到显示器当前画面所反映的现实场景。

本申请实施例提供的技术方案中，通过截取大量的当前画面，然后分别对每幅当前画面进行检测，得到每幅当前画面对应的现实场景，从而能够识别得到显示器当前画面反映的现实场景，提高识别现实场景的准确度。

另外，作为一种优选的实施例，参见图7，图7为本申请提供的第四种基于场景识别的音画品质增强方法的流程示意图，该音画品质增强方法依靠的硬件系统包括：主控模块、截屏模块、模型运行模块、结果处理模块、音质/画质提升处理模块、显示/声音模块以及显示屏和扬声器；具体如图7所示，该音画品质增强方法包括以下步骤：

S410：在用户收看电视节目时，如机顶盒开启，主控模块通知截屏模块以300ms/次的频率进行截屏操作。

S420：模型运行模块根据截屏模块截出的图片的特征，确定实际场景。

截屏出的画面以数据流形式提供给模型运行模块。该模块运行的模型在导入系统之前需要经过大量训练，能够针对图片做出实际场景的准确判断。

基于以上两点，例如当用户收看新闻时，模型运行模块会收到新闻场景的截屏图片，根据该图片的典型特征给出识别结果，该类图片的典型特征是图片底部有蓝色条纹并辅以白色文字，模型根据该特征给出识别结果。

S430：结果处理模块根据模型运行模块给出的结果，确认识别结果。例如：当模型运行模块判断当前画面对应的现实场景为新闻0.8和体育0.2(其中，上述数字为置信度，即置信概率)，进一步给出准确结果，这里需要说明的是，上述模型给出并非一个结果，是一个带权重的综合结果，这也是该模块存在的基础。进一步，该结果处理模块还会判断是否存在误判，例如若连续3次的结果都是相同，才能够认为显示器播放的场景真正做了切换，这里能够有效地防止抖动识别误判。

S440：根据上述识别结果，音质/画质提升处理模块将当前图像模块和声音模块切换为对应场景的最佳参数。如新闻，音质/画质提升处理模块会将当前的图像模式和声音模式切换为新闻模式的最佳参数。

S450：显示/声音模块将画质和音质参数输送至相关硬件模块进行处理。具体地，上述新闻模式的画质和音质参数会在显示/声音模块中送至相关的硬件模块进程处理。

S460：根据处理后的音质和画质，显示屏和扬声器播放对应的图像和声音。

具体地，处理之后的画质音质参数以电信号的形式在显示屏和扬声器还原出来，使得用户在收看新闻节目的时候无需手动切换，系统自动将图像和声音切换至最适合该场景的模式。

进一步的，在用户收看其他场景的图像时，例如用户收看电影时，上述过程会将相关的图像声音模式自动切换为电影模式；

另外，本申请上述实施例均可基于android nn接口进行开发和实现。随着android操作系统的迭代，在android 8.0版本发布之后，android操作系统提供了一套android nn接口，使用开发人员可以基于该android nn接口进行卷积算法的开发，该算法能够提前训练相关的模型，模型的训练原理如下：将海量素材提供给模型，该模型识别上述素材后，进行人工纠偏。通过不断地训练能够提升模型对素材的识别准确率，该识别过程能够运行在单独的硬件ip单元，不占用主芯片SOC的中央处理器CPU、图像处理器GPU和网络处理器NPU资源，达到在不响应电视正常使用的情况下，进行人工智能识别。

基于上述方法实施例的同一构思，本发明实施例还提出了基于场景识别的音画品质增强系统，用于实现本发明的上述方法，由于该系统实施例解决问题的原理与方法相似，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

参见图8，图8为本发明提供的一种基于场景识别的音画品质增强系统的结构示意图。如图8所示，该音画品质增强系统包括：

场景识别模块101，用于识别显示器当前画面所反映的现实场景。

其中，场景识别模块101的结构具体参见图9，如图9所示，该场景识别模块101包括：

图像提取子模块1011，用于提取当前画面中的区域图像；

特征检测子模块1012，用于使用神经网络对图像提取子模块1011提取的区域图像进行场景特征检测；

第一场景识别子模块1013，用于根据特征检测子模块检测到的场景特征，识别当前画面反映的现实场景。

图8所示的音画品质增强系统还包括：

品质计算模块102，用于计算与场景识别模块识别的现实场景相匹配的音画品质增强参数；

播放控制模块103，用于根据品质计算模块计算的音画品质增强参数对应的最佳音画品质，控制显示器播放与现实场景对应的声音和图像。

另外，参见图10，所述场景识别模块101还用于在第一预定时间内多次识别显示器当前画面所反映的现实场景，得到每次识别到的现实场景的置信度；图10所示的音画品质增强系统除了图9所示的各模块外还包括：场景确定模块104，用于使用场景识别模块每次识别到的现实场景的置信度，确定当前画面所反映的现实场景。

另外，参见图11，本实施例提供的音画品质增强系统除了图9所示的各模块外还包括：

截屏模块105，用于在第二预定时间内，按照预定频次截取多幅显示器的当前画面；

场景识别模块101，包括：

画面检测子模块1014，用于对截取的每幅当前画面进行检测，得到每幅当前画面对应的现实场景；

第二场景识别子模块1015，用于根据每幅当前画面对应的现实场景，识别得到显示器当前画面所反映的现实场景。

另外，参见图12，图12为本申请实施例提供的一种基于场景识别的音画品质增强系统的结构示意图。如图12所示，该音画品质增强系统包括：

主控模块201、截屏模块202、模型运行模块203、识别结果处理模块204、画质/音质提升处理模块205、显示/声音模块206以及4k显示屏和扬声器207。其中，主控模块201用于协调截屏模块202、模型运行模块2030、识别结果处理模块204和画质/音质提升处理模块205的运行。

该音画品质增强系统的工作流程如下：

在用户收看电视节目时，具体如机顶盒开启时，主控模块201通知截屏模块202以300ms/次的频率进行截屏操作。

模型运行模块203根据截屏模块截出的图片的特征，确定实际场景。截屏出的画面以数据流形式提供给模型运行模块203。该模块运行的模型(tflite)在导入系统之前需要经过大量训练，能够针对图片做出实际场景的准确判断。

识别结果处理模块204根据模型运行模块203给出的结果，确认识别结果。

根据上述识别结果，音质/画质提升处理模块205将当前图像模块和声音模块切换为对应场景的最佳参数。

显示/声音模块206将画质和音质参数输送至相关硬件模块进行处理。

根据处理后的音质和画质，4K显示屏和扬声器207播放对应的图像和声音。

另外，本发明实施例还提供了一种显示器，包括上述任一项实施例提供的音画品质增强系统。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于场景识别的音画品质增强方法，其特征在于，用于显示器，所述音画品质增强方法包括：

识别所述显示器当前画面所反映的现实场景；

计算与所述现实场景相匹配的音画品质增强参数；

根据所述音画品质增强参数对应的最佳音画品质，控制所述显示器播放与所述现实场景对应的声音和图像。

2.根据权利要求1所述的音画品质增强方法，其特征在于，所述识别显示器当前画面所反映的现实场景的步骤，包括：

提取所述当前画面中的区域图像；

使用神经网络对所述区域图像进行场景特征检测；

根据检测到的所述场景特征，识别所述当前画面反映的现实场景。

3.根据权利要求1或2所述的音画品质增强方法，其特征在于，所述识别显示器当前画面所反映的现实场景的步骤包括：在第一预定时间内，多次识别所述显示器当前画面所反映的现实场景，得到每次识别到的所述现实场景的置信度；

所述音画品质增强方法还包括：

使用每次识别到的所述现实场景的置信度，确定所述当前画面所反映的现实场景。

4.根据权利要求1所述的音画品质增强方法，其特征在于，还包括在第二预定时间内，按照预定频次截取多幅所述显示器的当前画面；

所述识别显示器当前画面所反映的现实场景的步骤，包括：

对截取的每幅所述当前画面进行检测，得到每幅所述当前画面对应的现实场景；

根据每幅当前画面对应的现实场景，识别得到所述显示器当前画面所反映的现实场景。

5.根据权利要求1所述的音画品质增强方法，其特征在于，所述计算与现实场景相匹配的音画品质增强参数的步骤，包括：

提取所述显示器当前画面的音画品质参数；

根据所述最佳音画品质对应的预设音画品质参数和所述显示器当前画面的的音画品质参数，计算得到与所述现实场景相匹配的音画品质增强参数。

6.根据权利要求1所述的音画品质增强方法，其特征在于，所述根据音画品质增强参数对应的最佳音画品质，控制所述显示器播放与所述现实场景对应的声音和图像的步骤，包括：

预设每种现实场景对应的最佳音画品质，或提取用户对所述现实场景的常用音画品质作为所述现实场景对应的最佳音画品质；

控制所述显示器播放与所述最佳音画品质对应的声音和图像。

7.一种基于场景识别的音画品质增强系统，其特征在于，用于显示器，所述音画品质增强系统包括：

场景识别模块，用于识别所述显示器当前画面所反映的现实场景；

品质计算模块，用于计算与所述场景识别模块识别的现实场景相匹配的音画品质增强参数；

播放控制模块，用于根据所述品质计算模块计算的音画品质增强参数对应的最佳音画品质，控制所述显示器播放与所述现实场景对应的声音和图像。

8.根据权利要求7所述的音画品质增强系统，其特征在于，所述场景识别模块包括：

图像提取子模块，用于提取所述当前画面中的区域图像；

特征检测子模块，用于使用神经网络对所述图像提取子模块提取的区域图像进行场景特征检测；

第一场景识别子模块，用于根据所述特征检测子模块检测到的所述场景特征，识别所述当前画面反映的现实场景。

9.根据权利要求7或8所述的音画品质增强系统，其特征在于，所述场景识别模块，还用于在第一预定时间内多次识别所述显示器当前画面所反映的现实场景，得到每次识别到的所述现实场景的置信度；

所述音画品质增强系统还包括：场景确定模块，用于使用所述场景识别模块每次识别到的所述现实场景的置信度，确定所述当前画面所反映的现实场景。

10.根据权利要求7所述的音画品质增强系统，其特征在于，还包括：

截屏模块，用于在第二预定时间内，按照预定频次截取多幅所述显示器的当前画面；

所述场景识别模块，包括：

画面检测子模块，用于对截取的每幅所述当前画面进行检测，得到每幅所述当前画面对应的现实场景；

第二场景识别子模块，用于根据每幅当前画面对应的现实场景，识别得到所述显示器当前画面所反映的现实场景。

11.一种显示器，其特征在于，包括：权利要求7-10中任一项所述的音画品质增强系统。