CN113301329B

CN113301329B - 基于图像识别的电视声场校正方法、装置及显示设备

Info

Publication number: CN113301329B
Application number: CN202110562399.2A
Authority: CN
Inventors: 谢亮洲
Original assignee: Konka Group Co Ltd
Current assignee: Konka Group Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-08-05
Anticipated expiration: 2041-05-21
Also published as: CN113301329A

Abstract

本发明公开了一种基于图像识别的电视声场校正方法、装置及显示设备。所述基于图像识别的电视声场校正方法包括以下步骤：获取预设空间的图像信息；对所述图像信息进行图像识别，获取所述图像信息中的人像信息；根据所述人像信息，设置电视的声道增益值。本发明提供的基于图像识别的电视声场校正方法能够根据用户实际收听位置来调整声道均衡值，使得声音偏移到用户所在的位置，进而使得用户的接听效果一致且处于最佳状态，使声音效果达到最佳，增加用户体验度。

Description

基于图像识别的电视声场校正方法、装置及显示设备

技术领域

本发明涉及电视虚拟声道技术领域，尤其涉及一种基于图像识别的电视声场校正方法、装置及显示设备。

背景技术

带有功放设备的电视中，当用户处于不同的观看位置时，所体验到的声音效果是不同的。用户只有正对电视中心点时才能具有最佳的声音效果；当用户处于其他区域位置，电视声音进入用户左右耳的音调、音色、响度等将发生变化，导致声音效果变差，影响用户的声音体验。

因此，本发明提供一种基于图像识别的电视声场校正方法、装置、显示设备及存储介质用于解决上述问题。

发明内容

本发明要解决的技术问题在于，现有技术中当用户处于其他观看区域位置时，电视声音进入用户左右耳的音调、音色、响度等将发生变化，导致声音效果变差，影响用户的声音体验，因此，本发明提供一种基于图像识别的电视声场校正方法、装置、显示设备及存储介质用于解决上述问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种基于图像识别的电视声场校正方法，其包括以下步骤：

获取预设空间的图像信息；

对所述图像信息进行图像识别，获取所述图像信息中的人像信息；

根据所述人像信息，设置电视的声道增益值。

在一种实施方式中，所述获取预设空间的图像信息的具体步骤包括：

通过摄像头实时采集预设空间的图像；

通过uvc协议获取所述摄像头传输的所述预设空间的图像信息。

在一种实施方式中，所述对所述图像信息进行图像识别，获取所述图像信息中的人像信息，具体包括：

对所述图像信息进行图像识别，识别出所述图像信息中所有人物的关键骨骼点；

根据所述关键骨骼点，分析得到人像信息，所述人像信息包括所述图像信息中所有人物的头部数量、每一人物的头部方向和头部位置。

在一种实施方式中，所述根据所述人像信息，设置电视的声道增益值，具体包括：

当电视的结构为双通道声道结构时，根据人像信息计算电视的声道平衡值，并根据所述声道平衡值分别设置左声道增益值和右声道增益值，所述声道平衡值的计算公式为：

其中，S为左声道和右声道的声道平衡值，N为用户头部个数，s为声道平衡值范围，x_n为用户头部中心坐标的横坐标，w为图像分辨率宽度的一半。

当电视的结构为四通道声道结构时，根据人像信息设置电视的声道平衡值，并根据所述声道平衡值分别设置左声道增益值、右声道增益值、上声道增益值和下声道增益值，其中，所述上声道和下声道的声道平衡值的计算公式为：

其中，S₃₄为上声道和下声道的声道平衡值，N为用户头部个数，s为声道平衡值范围，y_n为用户头部中心坐标的纵坐标，H为图像分辨率高度的一半。

在一种实施方式中，所述根据所述人像信息，设置电视的声道增益值，还包括：

当电视的结构为四通道声道结构时，设置电视的的低音声道，并根据所述上声道和下声道的声道平衡值设置低音声道的声道增益值。

在一种实施方式中，所述对所述图像信息进行图像识别，获取所述图像信息中的人像信息，还包括以下步骤：

存储所述人像信息，当下一次获取到的人像信息与存储的人像信息一致时，所述电视的声道增益值保持不变。

第二方面，本发明提供一种基于图像识别的电视声场校正装置，所述装置包括：

预设空间获取模块，用于获取预设空间的图像信息；

图像识别模块，用于对所述图像信息进行图像识别，获取所述图像信息中的人像信息；以及

声道校准模块，用于根据所述人像信息，设置电视的声道增益值。

第三方面，本发明提供一种显示设备，所述显示设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于图像识别的电视声场校正程序，所述处理器在执行所述基于图像识别的电视声场校正程序时，实现本发明所提供的基于图像识别的电视声场校正方法中的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于图像识别的电视声场校正程序，所述基于图像识别的电视声场校正程序被处理器执行时，实现如本发明所提供的基于图像识别的电视声场校正方法中的步骤。

有益效果：本发明通过图像识别预设空间的图像信息进而得到人像信息，并根据人像信息设置电视的声道平衡值，能够根据用户实际收听位置来调整声道均衡值，使得声音偏移到用户所在的位置；当用户运动或走动时，使得电视声场的相位移动而使得声音一致跟随着用户的耳朵，使得用户的接听效果一致且处于最佳状态，使声音效果达到最佳，增加用户体验度。

本发明的更多实施例还能够实现其它未一一列出的有利技术效果，这些其它的技术效果在下文中可能有部分描述，并且对于本领域的技术人员而言在阅读了本发明后是可以预期和理解的。本发明内容部分旨在以简化的形式引入将在“具体实施方式”中如下文进一步描述的构思和选择，以帮助阅读者更易于理解本发明。本发明内容并非旨在识别所要求保护的主题的关键特征或基本特征，也并非旨在用于限制所要求保护的主题的范围。所有的上述特征都将被理解为只是示例性的，并且可以从本发明公开中收集关于结构和方法的更多的特征和目的。对本发明的特征、细节、实用性以及优点的更全面的展示，将在以下对本发明的各种实施例的书面描述中提供，在附图中图示，并且在所附权利要求中限定。因此，如果不进一步阅读整个说明书以及权利要求书及附图，则无法理解对本发明内容的诸多限制性解释。

附图说明

图1是本发明提供的基于图像识别的电视声场校正方法的步骤流程图；

图2是图1提供的步骤S01的具体步骤流程图；

图3是图1提供的步骤S02的具体步骤流程图；

图4是一实施例中提供的预设空间的人像信息示意图；

图5是一实施例中提供的电视的结构示意图；

图6是本发明提供的基于图像识别的电视声场校正设备的结构框图；

图7是本发明提供的显示设备的结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图，并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

在本发明实施例的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

下面将参考本发明的若干具体实施例结合附图对本发明进行更详细的描述。需要说明的是，在不冲突的情况下，本申请中的实施例和实施例中的特征可以相互结合。

现有技术中，带有功放设备的电器中，当用户处于不同的观看位置，其体验到的声音效果是不同的。用户只有正对着电器的中心才能感受到最佳声音效果，当处于电器的其他位置时，电器的声音进入人耳的音调、音色、响度等都会发生变化，导致声音效果变差，影响声音体验。其中，带有功放设备的电器包括电视、会议机或广告机中的任意一种。举个例子，当带有功放设备的电器为电视时，用户坐在电视侧边或站着看电视时，用户听到的声音效果会比用户坐在电视正中央看的效果差。除此之外，当用户走动时，用户听到的声音效果也会比较差，影响用户的声音体验。

现有技术中有相关的技术用于声场校正，如通过识别用户头部的宽度信息或识别用户双耳信息及其方向的声场校正方法，然而，由于其识别用户的头部器官关键信息，需要使用高清摄像头，对摄像头的分辨率有一定要求，提高了制造成本，且由于需要识别用户的头部宽度和双耳，其识别结果容易受到用户的发型方位所影响从而导致计算结果不准确；且现有技术中没有针对多通道电视做算法处理，无法修正电视是否挂壁、电视的高低摆放、人是否站立或者人坐的位置高低等诸多因素带来的影响。

因此，本发明提供一种基于图像识别的电视声场校正方法、装置及显示设备用于解决上述问题。

本发明提供一种基于图像识别的电视声场校正方法，其包括以下步骤：

获取预设空间的图像信息；

根据所述人像信息，设置电视的声道增益值。

所述电视声场校正方法通过图像识别面向电视的预设空间的图像信息得到人像信息，并根据人像信息设置电视的声道平衡值，能够根据用户实际收听位置来调整声道均衡值，使得声音偏移到用户所在的位置；当用户运动或走动时，使得电视声场的相位移动而使得声音一致跟随着用户的耳朵，使得用户的接听效果一致且处于最佳状态，使声音效果达到最佳，增加用户体验度。

示例性方法

请同时参阅图1-图7，图1是本发明提供的基于图像识别的电视声场校正方法的步骤流程图，图2是图1提供的步骤S01的具体步骤流程图，图3是图1提供的步骤S02的具体步骤流程图，图4是一实施例中提供的预设空间的人像信息示意图，图5是一实施例中提供的电视的结构示意图，图6是本发明提供的基于图像识别的电视声场校正设备的结构框图，图7是本发明提供的显示设备的结构框图。

请具体参阅图1，图1是本发明提供的基于图像识别的电视声场校正方法的步骤流程图，本实施例中的电视声场校正方法包括以下步骤：

步骤S01、获取预设空间的图像信息。

在本实施例中，本实施例所提供的是一种基于图像识别的电视声场校正方法，首先需要获得画面，才能进行进一步的图像识别步骤。具体的，本实施例中，当电器为电视时，所需要获取预设空间的图像信息是面向电视的客厅画面的图像信息。

在一种实施方式中，请具体参阅图2，所述步骤S01包括以下具体步骤：

步骤S11、通过摄像头实时采集预设空间的画面；

步骤S12、通过uvc协议获取所述摄像头传输的所述预设空间的图像信息。

在步骤S11中，通过摄像头拍摄预设空间得到所要识别并处理的图像。摄像头可分为数字摄像头和模拟摄像头两大类。数字摄像头可以将视频采集设备产生的模拟视频信号转换成数字信号，进而将其储存在计算机里。模拟摄像头捕捉到的视频信号必须经过特定的视频捕捉卡将模拟信号转换成数字模式，并加以压缩后才可以转换到计算机上运用。数字摄像头可以直接捕捉影像，然后通过串、并口或者USB接口传到计算机里。电脑市场上的摄像头基本以数字摄像头为主，在本发明中，所述摄像头选用数字摄像头，便于通过USB接口传到电视上。在本实施例中，所述预设空间的图像是实时采集的，便于根据预设空间中出现的人物的数量以及位置及时调整声道均衡值，使得当用户运动或走动时，电视声场的相位移动而使得声音一致跟随着用户的耳朵。

具体的，步骤S12中，可以直接将摄像头拍摄的预设空间的图像直接通过uvc协议直接传送至电视中。其中，UVC全称为USB Video Class，即：USB视频类，是一种为USB视频捕获设备定义的协议标准。是Microsoft与另外几家设备厂商联合推出的为USB视频捕获设备定义的协议标准，已成为USB org标准之一。需要说明的是，在另外一些实施例中，所述摄像头拍摄预设空间的图像后，也可以先将所述预设空间的图像信息处理后，再通过uvc协议传送至电视中。使用UVC技术的包括摄像头、数码相机、类比影像转换器、电视棒及静态影像相机等设备。本实施例中通过uvc协议可以快速在摄像头与电视之间进行数据传输。

步骤S02、对所述图像信息进行图像识别，获取所述图像信息中的人像信息。

在本实施例中，所述电视需要根据图像识别技术对预设空间的图像信息进行识别，识别出预设空间中存在的用户人数及具体信息，得到人像信息。具体的，通过识别的人物关键骨骼点，计算出头部中心位置坐标，得出每个头部位置中所处的位置以及距离，将用户的头部数量、方向及位置信息包装为一个数据包，作为人像信息。所述人像信息可用于后续的声道设置。

在一种实施方式中，请具体参阅图3，所述步骤S02包括以下具体步骤：

步骤S21、对所述图像信息进行图像识别，识别出所述图像信息中所有人物的关键骨骼点；

步骤S22、根据所述关键骨骼点，分析得到人像信息，所述人像信息包括图像信息中所有人物的头部数量、每一人物的头部方向和头部位置。

在本实施例中，首先通过图像识别对所述图像信息得到关键信息，即人物的关键骨骼点，再根据所述关键骨骼点计算出人物的头部的中心位置坐标后进一步得到所有用户的头部数量、每一用户的头部方向及头部位置的识别结果。具体的，先是识别出所有人物的关键骨骼点，计算出人物头部中心位置坐标，得出每个头部位置中所处的位置以及与所述电视之间的距离，将头部数量、头部方向及头部位置作为人像信息打包成一个数据包发送至电视。每一所述图像信息都能得到一个人像信息的数据包，所述数据包格式为：(N，n1(x₁，y₁)，n2(x₂，y₂)，n3(x₃，y₃)，...)，其中N为识别的头部数量，n1(x₁，y₁)为第一个头部位置信息，(x₂，y₂)为第二个头部信息，由此类推。

请参阅图4，图4是本实施例中提供的预设空间的人像信息示意图。此时根据人像信息能够得到人物的头部中心位置坐标，得到所述人像信息的数据包，则所述数据包为(3，n1(-500,180)，n2(-280,180)，n3(280，-60))。

在一种实施方式中，步骤S02还包括：

步骤S23、存储所述人像信息，当下一次获取到的人像信息与存储的人像信息一致时，所述电视的声道增益值保持不变。

举个例子，当用户只有一个人时，且其观看电视的位置和习惯保持不变时，使得电视不需要执行校正程序。即用户保持观看习惯不变时，下一次获取到的人像信息与存储的人像信息一致，则所述电视的声道参数和声道平衡值不需要进行校正，避免由于频繁的声场校正导致可能出现电视故障。

步骤S03、根据所述人像信息，设置电视的声道增益值。

在本实施例中，电视根据其具有的声道的数量分为不同的结构。具体的，所述电视可以是双通道声道结构，也可以是多通道声道结构。

当电视的结构为双通道声道结构时，根据人像信息设置电视的声道平衡值，并根据所述声道平衡值分别设置左声道增益值和右声道增益值，其中，所述声道平衡值的计算公式为：

声道平衡值S，其取值范围为(-s，s)，所述声道平衡值S与机器实际能力相关，如果范围过大可能导致破音等问题。当所述范围s取值为50时，此时计算得到声道平衡值为-50时，则设置左声道增益值为50db，右声道增益值为10db。此时，左声道声音和右声道声音叠加后，声音将向左边偏移，用户的感知是声音由左边发出来，此时的设置适用于当大多数用户位置位于左边的情形。当所述声道平衡值为50时，则设置左声道增益为10db，右声道增益为50db，使得最后声音叠加后，用户的感知的声音从右边出来的。具体的范围及最后的增益值是由具体的电视的能力及喇叭材质决定，此处不对此作出限制。

当电视的结构为多通道结构，具体的，当电视为四通道声道结构时，请具体参阅图5，图5是本实施例中提供的电视的结构示意图，所述电视包括左声道、右声道、上声道和下声道，其中，所述上声道和所述下声道为上下中央对称设置，所述左声道和所述右声道为左右中央对称设置。根据人像信息计算所述电视的声道平衡值，并根据所述声道平衡值分别设置左声道增益值、右声道增益值、上声道增益值和下声道增益值。当所述上声道和下声道为上下中央对称摆放时，所述上声道和下声道的声道平衡值的计算公式为：

其中，所述左声道和右声道的声道平衡值的计算公式与电视结构为双通道声道时的计算公式相同。

当电视的结构为四通道声道结构时，步骤S03中还包括：设置电视的的低音声道，并根据所述上声道和下声道的声道平衡值设置低音声道的声道增益值。。在本实施例中，四通道声道设置了四个发音点，即左声道、右声道、上声道和下声道，用户能够被包围在中央，此时增加一个低音声道，使得声音更加均衡。

本发明提供的基于图像识别的电视声场校正方法通过摄像头实时采集的预设空间并进行图像识别，根据图像识别得到人像信息并设置电视的声道平衡值，能够根据用户实际收听位置来调整声道均衡值，使得声音偏移到用户所在的位置；当用户运动或走动时，使得电视声场的相位移动而使得声音一致跟随着用户的耳朵，使得用户的接听效果一致处于最佳状态，使声音效果达到最佳，增加用户体验度；能够根据电视的声道结果调整声道增益值，对多通道电视做算法处理，修正电视是否悬挂、电视的高低摆放、用户是否站立或者用户坐的位置高低等诸多因素带来的影响，使得用户的观看体验感更佳。

示例性装置

如图6所示，图6是本发明提供的基于图像识别的电视声场校正设备的结构框图，本发明还提供一种基于图像识别的电视声场校正装置，所述装置包括预设空间获取模块10、图像识别模块20以及声道校准模块30。

具体的，所述预设空间获取模块10用于获取面向电视的预设空间；所述图像识别模块20根据所述预设空间进行图像识别，获得人像信息；所述声道校准模块30根据所述人像信息，设置电视的声道增益值。

在一种实施方式中，所述图像识别模块20还包括人像信息存储单元，所述人像信息存储单元用于存储当前人像信息，当下一次的人像信息与存储的人像信息一致时，所述电视的声道增益值保持不变。即用户保持观看习惯不变时，所述电视的声道参数和声道平衡值不需要进行校正，避免由于频繁的声场校正导致可能出现电视故障。

基于上述实施例，本发明还提供一种显示设备，其原理框图如图7所示，所述显示设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，所述显示设备的处理器用于提供计算和控制能力。所述显示设备的存储器包括非易失性存储介质、内存储器。所述非易失性存储介质存储有操作系统和计算机程序。所述内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。所述显示设备的网络接口用于与外部的终端通过网络连接通信。所述计算机程序被处理器执行时以实现一种基于图像识别的电视声场校正方法。所述显示设备的显示屏可以是液晶显示屏或者电子墨水显示屏，所述显示设备的温度传感器是预先在所述显示设备内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图7中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的显示设备的限定，具体的显示设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种显示设备，所述显示设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于图像识别的电视声场校正程序，所述处理器在执行所述基于图像识别的电视声场校正程序时，实现如下操作指令：

获取预设空间的图像信息；

根据所述人像信息，设置电视的声道增益值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本发明提供的基于图像识别的电视声场校正方法、装置及显示设备通过摄像头采集的预设空间并进行图像识别，根据图像识别得到人像信息，进而设置电视的声道平衡值，能够根据用户实际收听位置来调整声道均衡值，使得声音偏移到用户所在的位置；所述预设空间是实时采集的，使得当用户运动或走动时，所述电视声场的相位移动而使得声音一致跟随着用户的耳朵，使得用户的接听效果一致处于最佳状态，使声音效果达到最佳，增加用户体验度。

除非特别声明，应该理解，诸如“处理”、“计算”、“运算”、“判断”等等之类的术语是指计算机或计算系统，或类似的电子计算设备的动作和/或进程，所述计算系统或类似的电子计算设备操纵和/或转换表示为计算系统的寄存器和/或存储器内的物理(如，电子)量的数据，将这些数据转换为类似地表示为计算系统存储器或寄存器或其他这样的信息存储器、传输或显示设备内的物理量的其他数据。在此上下文中，实施例不受限制。此处可以使用术语“耦合”来指正被讨论的组件之间的任何类型的关系，直接的或间接的，并可以应用于电气的、机械的、流体的、光学的、电磁的、机电的或其他连接。另外，术语“第一”、“第二”等等此处只用于便于讨论，没有特定时间的或按时间顺序的意义，除非另有陈述。

最后应说明的是：对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。本公开的应用不限于上述的举例，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。所属领域的技术人员将从前面的描述理解，可以以各种形式来实现本发明的各实施例的广泛的技术。因此，尽管本发明的各实施例是结合其特定示例来描述的，但是，本发明的各实施例的真正的范围不应该受这样的限制，因为在研究附图、说明书，以及后面的权利要求书之后，其他修改对熟练的实践者将变得显而易见。

Claims

1.一种基于图像识别的电视声场校正方法，其特征在于，包括以下步骤：

获取预设空间的图像信息；

根据所述人像信息，设置电视的声道增益值；

其中，所述获取预设空间的图像信息的具体步骤包括：

通过摄像头实时采集预设空间的图像；

通过uvc协议获取所述摄像头传输的所述预设空间的图像信息；

其中，所述对所述图像信息进行图像识别，获取所述图像信息中的人像信息，具体包括：

根据所述关键骨骼点，分析得到人像信息，所述人像信息包括所述图像信息中人物头部个数、每一人物的头部方向和头部位置；

所述根据所述人像信息，设置电视的声道增益值，具体包括：

当电视的结构为双通道声道结构时，根据人像信息计算电视的左声道和右声道的声道平衡值，并根据所述声道平衡值分别设置左声道增益值和右声道增益值，所述声道平衡值的计算公式为：

其中，S为声道平衡值，取值范围为(-s，s)，N为所述图像信息中人物头部个数，n＝N，x₁，x₂，…，x_n为所述图像信息中各个人物头部中心坐标的横坐标，w为图像分辨率宽度的一半。

2.根据权利要求1所述的电视声场校正方法，其特征在于，所述根据所述人像信息，设置电视的声道增益值，具体还包括：

其中，S₃₄为上声道和下声道的声道平衡值，取值范围为(-s，s)，N为所述图像信息中人物头部个数，n＝N，y1，y2，…，y_n为所述图像信息中各个人物头部中心坐标的纵坐标，H为图像分辨率高度的一半。

3.根据权利要求2所述的电视声场校正方法，其特征在于，所述根据所述人像信息，设置电视的声道增益值，还包括：

当电视的结构为四通道声道结构时，增加设置电视的的低音声道，并根据所述上声道和下声道的声道平衡值设置低音声道的声道增益值。

4.根据权利要求1所述的电视声场校正方法，其特征在于，所述对所述图像信息进行图像识别，获取所述图像信息中的人像信息，还包括以下步骤：

5.一种基于图像识别的电视声场校正装置，其特征在于，所述装置包括：预设空间获取模块，用于获取预设空间的图像信息；

声道校准模块，用于根据所述人像信息，设置电视的声道增益值；

其中，所述获取预设空间的图像信息的具体步骤包括：

通过摄像头实时采集预设空间的图像；

其中，S为声道平衡值，取值范围为(-s，s)，N为所述图像信息中人物头部个数，n＝N，x1，x2，…，x_n为所述图像信息中各个人物头部中心坐标的横坐标，w为图像分辨率宽度的一半。

6.一种显示设备，其特征在于，所述显示设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于图像识别的电视声场校正程序，所述处理器在执行所述基于图像识别的电视声场校正程序时，实现如权利要求1-4任一项所述的基于图像识别的电视声场校正方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于图像识别的电视声场校正程序，所述基于图像识别的电视声场校正程序被处理器执行时，实现如权利要求1-4任一项所述的基于图像识别的电视声场校正方法中的步骤。