CN112866772B

CN112866772B - 一种显示设备及声像人物定位追踪方法

Info

Publication number: CN112866772B
Application number: CN202110014128.3A
Authority: CN
Inventors: 杨鲁明; 于文钦; 马乐; 丁佳一
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2021-01-06
Publication date: 2022-08-12
Anticipated expiration: 2041-01-06
Also published as: CN112866772A

Abstract

本申请提供一种显示设备及声像人物定位追踪方法，所述方法通过获取测试音频信号定位目标方位，再根据目标方位与摄像头的当前姿态，计算旋转角度，以便根据旋转角度生成旋转指令，并将所述旋转指令发送给摄像头。所述方法可以利用声源定位的空间感知能力确认人物的大致位置，并驱动摄像头朝向声源方向，再利用图像分析对拍摄图像进行人物检测，确定具体位置以驱动摄像头进行微调，达到精准定位，使摄像头拍摄人物能够在图像中聚焦显示。

Description

一种显示设备及声像人物定位追踪方法

本申请要求在2020年8月21日提交中国专利局、申请号为202010848905.X、名称为“一种声像人物定位追踪方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及智能电视技术领域，尤其涉及一种显示设备及声像人物定位追踪方法。

背景技术

智能电视是基于Internet应用技术，具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体的电视产品，用于满足用户多样化和个性化需求。智能电视可以通过外接或内置功能设备，并结合应用程序扩展智能电视的功能。

例如，智能电视上可以设置有摄像头等图像采集设备，通过摄像头获取用户图像，并配合“肢体运动”应用程序，使智能电视能够实时显示用户身体图像。当用户肢体动作发生变化时，应用程序会也会显示变化后的图像，并通过检测程序对肢体动作的形态进行检测、矫正，达到运动指导的效果。

但是，智能电视内置或外接的摄像头设备位置和拍摄角度固定，导致摄像头进行图像采集的可视角度有限，摄像头预览显示区域只能是摄像头朝向的区域图像。根据用户所处的位置变化以及运动过程的肢体动作变化，用户很容易移动至预览显示区域之外，导致摄像头无法采集到用户的完整图像，影响显示效果。并且，为了重新获得完整图像，用户需要中止运动动作，回到合适的位置，因此会降低用户体验。

发明内容

本申请提供了一种显示设备及声像人物定位追踪方法，以解决传统摄像头容易无法采集到用户完整图像的问题。

第一方面，本申请提供一种显示设备，包括：显示器、接口组件以及控制器。其中，所述显示器被配置为显示用户界面，所述接口组件被配置为连接摄像头和声音采集组件，所述摄像头可转动拍摄角度，被配置为拍摄图像；声音采集组件包括多个麦克风组成的麦克风阵列，被配置为采集音频信号；

所述控制器被配置为执行以下程序步骤：

获取用户输入的测试音频信号；

响应于所述测试音频信号，定位目标方位，所述目标方位根据所述声音采集组件采集的测试音频信号时间差计算获得；

向所述摄像头发送旋转指令，以调整所述摄像头的拍摄方向，使目标方位位于拍摄图像中的预设范围内。

第二方面，本申请还提供一种显示设备，包括：显示器、摄像头、声音采集组件以及控制器。其中，所述显示器被配置为显示用户界面，所述摄像头可转动拍摄角度，被配置为拍摄图像；所述声音采集组件包括多个麦克风组成的麦克风阵列，被配置为采集音频信号；

所述控制器被配置为执行以下程序步骤：

获取用户输入的测试音频信号；

第二方面，本申请还提供一种声像人物定位追踪方法，应用于显示设备，所述显示设备包括显示器和控制器，所述显示设备内置或通过接口组件外接摄像头和声音采集组件，所述摄像头可转动拍摄角度，所述声像人物定位追踪方法包括：

获取用户输入的测试音频信号；

由以上技术方案可知，本申请提供一种显示设备及声像人物定位追踪方法，所述方法通过获取测试音频信号定位目标方位，再根据目标方位与摄像头的当前姿态，计算旋转角度，以便根据旋转角度生成旋转指令，并将所述旋转指令发送给摄像头。所述方法可以利用声源定位的空间感知能力确认人物的大致位置，并驱动摄像头朝向声源方向，再利用图像分析对拍摄图像进行人物检测，确定具体位置以驱动摄像头进行微调，达到精准定位，使摄像头拍摄人物能够在图像中聚焦显示。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中显示设备与控制装置之间操作场景的示意图；

图2为本申请实施例中显示设备的硬件配置框图；

图3为本申请实施例中控制设备的硬件配置框图；

图4为本申请实施例中显示设备软件配置示意图；

图5为本申请实施例中显示设备应用程序的图标控件界面显示示意图；

图6为本申请实施例中显示设备与摄像头布置结构示意图；

图7为本申请实施例中摄像头结构示意图；

图8a为本申请实施例中调整前显示设备场景示意图；

图8b为本申请实施例中调整后显示设备场景示意图；

图9为本申请实施例中通过声源定位场景示意图；

图10为本申请实施例中关键点示意图；

图11为本申请实施例中人像中心与图像中心示意图；

图12为本申请实施例中计算旋转角度过程的几何关系示意图；

图13a为本申请实施例中调整旋转角度过程初始状态示意图；

图13b为本申请实施例中调整旋转角度过程结果示意图；

图14a为本申请实施例中蹲姿状态示意图；

图14b为本申请实施例中站姿状态示意图；

图15a为本申请实施例中虚拟人像初始状态显示效果示意图；

图15b为本申请实施例中虚拟人像调整后显示效果示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、接口组件240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制设备100或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230还可以包括图像采集器，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可声音采集器等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，接口组件240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作系统或其他正在运行中的程序的临时数据。

在一些实施例中，ROM 252用于存储各种系统启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出系统，称为基本输入输出系统(Basic Input Output System，BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至RAM 251中，以便于启动或运行操作系统。当操作系统启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发生装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制设备100的配置框图。如图3所示，控制设备100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。

控制设备100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制设备100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制设备100可是一种智能设备。如：控制设备100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制设备100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制设备100实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制设备100包括通信接口130和输入输出接口140中至少一者。控制设备100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200。

存储器190，用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制设备100各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

本申请实施例中，如图6所示，摄像头231作为一种检测器230可以内置或外接显示设备200上，在启动运行后，摄像头231可以检测图像数据。摄像头231可以通过接口部件与控制器250连接，从而将检测的图像数据发送给控制器250进行处理。为了检测图像，摄像头231可以包括镜头组件和云台组件。其中，镜头组件可以是基于CCD(Charge CoupledDevice，电荷耦合器件)或CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)的图像采集元件，以根据用户图像生成电信号的图像数据。

镜头组件设置在云台组件上，云台组件可以带动镜头组件进行转动，以便更改镜头组件的朝向。云台组件可以包括至少两个转动部件，以分别实现带动镜头组件沿数值方向进行左右转动，以及沿水平方向进行上下转动。每个转动部件可以连接电机，以通过电机驱动其自动进行转动。

例如，如图7所示，云台组件可以包括呈竖直状态的第一转轴和呈水平状态的第二转轴，第一转轴设置在显示器275的顶部，与显示器275的顶部可转动地连接；第一转轴上还设有固定件，固定件的顶部可转动的连接有所述第二转轴，第二转轴连接镜头组件，以带动镜头组件进行转动。第一转轴和第二转轴上分别连接有电机以及传动部件。电机可以是能够支持自动控制转角的伺服电机、步进电机等。当获取控制指令后，两个电机可以分别进行旋转以驱动第一转轴和第二转轴进行转动，从而调节镜头组件的朝向。

随着镜头组件的不同朝向，镜头组件可以对位于不同位置上的用户进行视频拍摄，从而获取用户图像数据。显然，不同的朝向对应于不同区域的图像采集，当用户在相对于显示器275正前方位置偏左时，可以通过云台组件上的第一转轴带动固定件以及镜头组件向左转动，以使拍摄的图像中，用户人像位置位于画面的中心区域；而当用户躯体成像位置偏下时，可以通过云台组件中的第二转轴带动镜头组件向上转动，以抬高拍摄角度，使用户人像位置位于画面的中心区域。

为了追踪人像位置，控制器250可以通过执行人物定位追踪方法，识别用户人像在图像中所处的位置。并且在用户位置不合适时，通过控制摄像头231进行旋转，以获取合适的图像。其中，识别用户所处位置可以通过图像处理完成。例如，控制器250可以在启动摄像头231后，通过摄像头231拍摄至少一张图像，作为校对图像。并且在校对图像中进行特征分析，从而在校对图像中识别出人像区域。通过判断人像区域的位置，从而确定用户位置是否合适。

但在实际应用中，由于摄像头231的初始朝向与用户在空间中所处的位置可能具有偏移。即在部分情况下，摄像头231的拍摄范围不能覆盖用户人像，使得摄像头231无法拍摄到用户人像，或只能获取到小部分人像。这种情况下会导致在图像处理过程中无法识别出人像区域，也无法实现在用户位置不合适时摄像头231的旋转控制，即对于不在当前图像中的人物则无法进行有效调整。

因此，为了使摄像头231拍摄的校对图像中能够包括人像区域，可以在获取校对图像前先通过声音信号定位用所在的方位，并在获得方位后，先控制摄像头231旋转朝向该方位，再采集校对图像，从而使采集的校对图像中更容易包含人像区域。为此，显示设备200上还设有声音采集组件232。声音采集组件232可以通过多个麦克风形成阵列，同时对用户发出的声音信号进行采集，以便通过采集的声音信号确定用户方位。即如图8a、图8b所示，在本申请的部分实施例中提供一种声像人物定位追踪方法，包括以下步骤：

获取用户输入的测试音频信号。

实际应用中，控制器250可以在启动摄像头231后自动运行所述声像人物定位追踪方法，并获取用户输入的测试音频信号。其中，摄像头231的启动可以为手动启动或自动启动。手动启动即用户通过遥控器等控制装置100在操作界面中选择摄像头231对应的图标后，完成启动。自动启动可以是用户在执行某些需要调用摄像头231的交互动作后，自动启动。例如，用户在“我的应用”界面中选择“照镜子”应用，由于该应用需要调用摄像头231，因此在启动运行该应用的同时，也启动摄像头231。

摄像头231在启动后的姿态可以是默认初始姿态，例如设置默认初始姿态为摄像头231的镜头组件朝向正前方；启动后的姿态也可以是上一次使用摄像头231时所维持的姿态，例如，在上一次使用时，将摄像头231调节至抬高45度的姿态，则在此次启动摄像头231后，摄像头231的姿态也为抬高45度的姿态。

在启动摄像头231后，控制器250可以通过声音采集组件232获取用户输入的测试音频信号。由于声音采集组件232中包括麦克风阵列，因此在不同位置上的麦克风可以针对同一个测试音频采集到不同的音频信号。

为了能够通过麦克风阵列获取音频信号，在启动摄像头231后，还可以自动在显示器275上显示文字提示和/或通过扬声器等音频输出装置播放语音提示，以提示用户输入测试音频，例如“请输入测试音频：嗨！小聚”。

需要说明的是，测试音频可以是用户发出的多种音频信号，包括：用户通过说话方式发出的语音、用户通过拍手等肢体动作发出的声音以及用户通过其他手持终端发出的声音。例如，用户通过手机等智能终端操控显示设备200时，在需要用户输入测试音频信号时，可以向该智能终端发送用于控制其发声的控制指令，使得该智能终端可以在接收到控制该指令后，自动播放特定声音，以便声音采集组件232进行检测。

为此，在一些实施例中，控制器250可以在运行应用程序后，通过声音采集组件获取声音信号，并从声音信号中提取声纹信息。再将声纹信息与预设测试声纹进行对比，如果声纹信息与预设测试声纹相同，标记声音信号为测试音频信号；如果声纹信息与预设测试声纹不同，控制显示器275显示提示界面。

例如，当设定测试音频信号为内容“嗨！小聚”的语音时，则在麦克风检测到声音信号后，可以对声音信号中的声纹信息进行提取，并判断当前声纹信息是否与“嗨！小聚”的声纹信息相同，并在确定声纹信息相同后，执行后续步骤。

显然，这种利用智能终端进行发声的方式，可以实现发出的声音具有特定的波形或响度，使其对应的音频信号具有独特的声音特点，因此便于后续对音频信号进行比较分析，缓解环境中其他声音对分析过程的影响。

根据所述测试音频信号定位目标方位。

在获取到用户输入的测试音频信号后，控制器250可以对测试音频信号进行分析，以确定用户所处的目标方位。由于声音采集组件232中包括多个麦克风，并构成麦克风阵列，因此相对于一个声音源位置，不同麦克风与音源位置之间的距离不同，相应其采集到的音频信号之间具有一定的传播时延。控制器250可以通过分析至少两个麦克风之间的传播时延，结合两个麦克风之间的距离以及声音在空气中的传播速度，确定用户发出声音时所在的大致方位。

通过多个麦克风进行的时延检测，可以定位声音发出位置，即确定目标方位。由于检测目标方位的目的在于将摄像头231镜头组件朝向该方位，因此所述目标方位可以仅通过相对角度的方式进行表示，以使控制器250在定位目标方位后，直接能够确定相对角度数据，并以此来计算摄像头231需要调整的角度。其中，相对角度可以是指目标位置与摄像头231所在平面(即与显示器275屏幕平行的平面)垂线之间的相对角度，也可以是目标位置与摄像头231镜头轴线之间的相对角度。

例如，显示设备200外接的声音采集组件232中，包括两个麦克风，分别设置在显示器275的两个侧边位置处，摄像头231则设置在显示器275的顶边中心位置处。当用户在任一位置输入语音信号后，两侧的麦克风可以分别检测到测试音频信号，则根据图9中的位置关系可知：

目标方位φ＝arctan(L2/D)；其中，L2为用户距离摄像头231的水平距离，D为用户距离摄像头231的垂直距离。

而根据勾股定理可以确定以下的位置关系：显示器宽度H＝L1+L2+L3；D²+(L1+L2)²＝S1²；L3²+D²＝S2²；其中，S1为用户位置与左侧麦克风之间的距离，S2为用户位置与右侧麦克风之间的距离，并且，S2＝vt；S1＝v(t+Δt)，其中v为声音在空气中的传播速度，t为声音到达右侧麦克风所消耗的时间，Δt为左侧麦克风与右侧麦克风获取到测试音频信号的时间差。

在上述各式中，显示器宽度H、传播速度v以及获取时间差Δt是已知的，因此通过上述位置关系，可以求解出L2/D，进而求解出目标方位φ。

可见，在本实施例中，控制器250可以通过获取至少两个麦克风采集的测试音频信号再提取测试音频信号的获取时间差，从而根据获取时间差、麦克风和摄像头的安装位置数据，计算目标方位。为了获得更加准确的目标方位，还可以分别在水平方向和竖直方向上，确定位置关系，从而计算出用户位置相对于所述摄像头位置的水平偏转角度和竖直偏转角度。例如，可以增加麦克风的数量或者将麦克风设置在不同的高度上，从而确定竖直方向上的位置关系，以计算竖直偏转角度。

需要说明的是，麦克风的数量越多，越能够准确的定位用户方位，且越能够检测出不同麦克风所接收到音频信号之间的时延数值，因此在实际应用中可以通过适当增加麦克风的数量来提高目标方位检测的准确度。同时，为了增大时延数值，以减小检测误差干扰，还可以通过加大麦克风之间的距离来获得更加准确的检测结果。

根据所述目标方位与所述摄像头231的当前姿态，计算旋转角度。

在确定用户发出声音时的方位即目标方位后，可以计算摄像头231的旋转角度，以使摄像头按照旋转角度可以使镜头组件朝向目标方位。例如，如图8a、图8b所示，当前摄像头231处于默认初始姿态，而定位的目标方位与屏幕垂线之间的相对角度为向左偏移30°方向，则计算出旋转角度φ为向左30°(+30°)。

显然，无论目标方位通过哪一种相对角度的方式进行表示，都能够通过实际摄像头231按照位置与当前姿态转化计算出旋转角度。例如，当前摄像头231处于左转50°的姿态，而定位的目标方位与屏幕垂线之间的相对角度为向左偏移30°，则计算出旋转角度为向右20°(-20°)。

需要说明的是，由于通过测试音频信号检测用户方位的目的在于使摄像头231所拍摄的校对图像中能够包含有用户对应的人像区域，因此在大多数情况下，通过控制摄像头231在一个方向上的旋转即能够使拍摄的校对图像包含人像区域。但在少数情况下，例如摄像头231的当前姿态处于竖直方向最大转角的极端姿态时，通过水平方向上的旋转并不能使摄像头231拍摄到人像。

因此，在部分实施例中，还可以通过多个麦克风确定空间(包括高度方向)上的目标方位，并且在计算旋转角度时，将目标方位分解为水平方向和竖直方向上的两个角度分量，从而分别控制摄像头231的旋转角度。

根据所述旋转角度生成旋转指令，以及将所述旋转指令发送给摄像头231。

在计算获得旋转角度后，控制器250可以对旋转角度进行封装，生成旋转指令。并将旋转指令发送给摄像头231。摄像头231中的电机可以在接收到控制指令后进行转动，从而通过转轴带动镜头组件转动，调整镜头组件的朝向。

由以上技术方案可知，显示设备200可以通过接口组件外接摄像头231和声音采集组件232，并在进入需要进行人像追踪的应用后，通过声音采集组件232中多个麦克风采集测试音频信号，并定位用户所处的目标方位，从而控制摄像头231进行旋转，使镜头组件朝向用户所在方位，以调整摄像头231的拍摄方向至面对目标方位，便于采集到包含用户人像的图像，使得在当前屏幕中没有人像区域时也能够进行调整，实现后续人物追踪。

为了实现对人物的追踪，在摄像头231完成旋转后，控制器250还可以通过继续执行声像人物定位追踪方法，通过获取图像的方式，对图像中的人像位置进行识别，从而在人像位置发生变化时，控制摄像头231旋转以追踪用户位置，使摄像头231所采集的图像中人像始终位于合适的区域内。

具体地，在一些实施例中，当摄像头231根据旋转指令旋转至面对目标方位后，控制器250还可以通过摄像头231获取校对图像，并在校对图像中检测人像图案；再通过标记人像图案，以及在用户移动位置时向摄像头231发送追踪指令，以追踪用户位置。通过对用户位置的追踪，可以使摄像头231拍摄的图像中，人物图案始终处于合适的位置内，例如处于图像的中部区域内，从而在执行“照镜子”、“运动跟随”等功能的应用时，能够在应用界面中获得更好的显示效果。

为了实现对用户位置的追踪，在一些实施例中，控制器250可以按照设定的频率通过摄像头231获取校对图像，并检测人像图案在校对图像中的位置。根据应用所需要的图像画面布局的不同，可以根据应用类型设置不同的预设区域范围，当人像图案在预设区域内时，即代表当前采集的校对图像中，人像图案位置合适，可以保持当前的摄像头231的拍摄方向不变。当人像图案不再预设区域内时，即代表当前用户的位置移动距离较大，采集的校对图像中人像图案位置不合适，需要对摄像头231的拍摄方向进行调整。

因此，控制器250可以根据人像图案位置生成追踪指令，并将追踪指令发送给摄像头231中，以控制摄像头231调整拍摄方向。显然，在摄像头231接收到追踪指令后，调整后的拍摄方向应能够保持人像图案位于预设区域内。例如，所述声像人物定位追踪方法还包括以下步骤：

检测用户位置。

在对摄像头231进行旋转调整后，摄像头231可以实时拍摄多帧图像，并将拍摄的图像发送给显示设备200的控制器250。控制器250一方面可以根据所启动的应用程序进行图像处理，例如控制显示器275显示该图像；另一方面可以通过调用检测程序对校对图像进行分析，从而确定用户所在的位置。

其中，用户位置的检测可以通过图像处理程序完成。即通过实时抓取摄像头231拍摄的图像，检测肢体信息。肢体信息可以包含关键点和包裹肢体的外框，通过检测的关键点和肢体框位置在图像中位置信息。关键点可以是指人体图像中能够代表人体特征的一系列点。例如，眼睛、耳朵、鼻子、脖子、肩部、手肘、手腕、腰部、膝关节以及踝关节等。

关键点的确定可以通过图像识别获得，即可以通过分析画面中特征形状，并与预设的模板进行匹配从而确定关键点对应的图像，并获取图像对应的位置，从而获取各关键点对应的位置。其中，位置可以通过图像中距离边界的像素点数量进行表示。可以根据摄像头231的分辨率和可视角度，以图像的左上角为原点，以向右和向下为正方向构建平面直角坐标系，则图像中的各个像素点均能够通过这一直角坐标系进行表示。

例如，如图10所示，水平方向和垂直方向摄像头可视角度分别为HFOV和VFOV，可视角度可以根据摄像头CameraInfo获取，摄像头预览图像支持1080P，宽度为1920，高度1080像素，则图像中每个像素点的位置都可以为(x，y)，其中x的取值范围为(0，1920)；y的取值范围为(0,1080)。

通常为了能够准确表达用户所在的位置，关键点的数量可以设置为多个，并且在一次检测过程中需要对多个关键点的全部或部分进行位置提取，从而确定包裹肢体的外框区域。例如，关键点可以包括18个，即2个眼睛点、2个耳朵点、1个鼻子点、1个脖子点、2个肩部点、2个肘部点、2个腕部点、2个腰部点(或臀部点)、2个膝关节点以及2个踝关节点。显然，这些关键点在识别的过程中会根据用户的面向不同需要不同的识别方式。例如，腰部对应的位置在用户面向显示器275时识别为腰部点，而在用户背对显示器275时，识别为臀部点。

显然，当用户所处位置发生改变或者姿态发生变化时，部分关键点的位置将发生变化。随着这种变化的出现，摄像头231采集的图像中人体相对位置也将发生变化。例如，当人体向左移动位置时，将使摄像头231采集的图像中人体位置偏左，不便于进行图像分析处理和实时显示。

因此，在检测用户位置后，还需要对比用户位置与校对图像中的预设区域，从而确定当前用户位置是否在预设区域中。

在一些实施例中，用户位置可以通过肢体框中心位置进行表示，而肢体框中心位置可以通过检测的各关键点位置坐标计算获得。例如，通过获取肢体框水平左右两侧的关键点x轴位置坐标，计算肢体框中心位置，即中心位置x轴坐标x₀＝(x₁+x₂)/2。

由于本申请实施例中摄像头231可以包括两个左右方向旋转和上下方向旋转，因此在计算获得中心位置的x轴坐标后，可以先对x轴坐标进行判断，确定中心位置的x轴坐标是否位于整个图像的中心位置。例如，当校对图像为(1920,1080)的1080P图像时，校对图像的中心点水平坐标为960。

在确定人像中心位置和图像中心点后，可以通过对比确定用户位置是否位于预设判断区域中。为了避免频繁调整带来的处理负荷增加，以及允许部分检测误差。根据实际应用条件要求以及摄像头231的水平方向可视角度，可以预设一个允许坐标区间，当人像中心位置位于允许坐标区间内，则确定当前用户位置在预设区域中。例如，最大允许坐标误差为300像素，则允许坐标区间为[660，1260]，当检测获得的用户中心位置坐标在这一区间内时，确定用户则在预设判断区域中，即计算获得的人像中心位置坐标与960位置相差不大；当检测获得的用户中心位置坐标不在这一区间内时，确定当前用户位置不在预设区域中，即计算获得的人像中心位置坐标与960位置相差较大。

在对比用户位置与校对图像中的预设区域后，可以根据对比结果确定是否需要进行人像追踪，如果当前用户位置不在预设区域内，控制摄像头231旋转，以使用户成像位置位于画面中部区域。如果当前用户位置在预设区域内，则无需控制摄像头231旋转，维持摄像头朝向即可。

在当前用户位置不在预设区域内时，为了控制摄像头231进行旋转，控制器250可以根据用户位置计算旋转角度量，并根据旋转角度量生成控制指令，以控制摄像头231进行旋转。

具体地，在确定当前用户位置不在预设区域内以后，控制器250可以先计算人像区域的中心位置和图像区域的中心点之间的距离；再根据计算的距离，结合摄像头231镜头组件的最大视角以及图像尺寸计算获得旋转角度；最后将计算的旋转角度以控制指令的形式发送给摄像头231，使得摄像头231中电机带动各转轴进行转动，从而调整镜头组件的朝向。

例如，如图11、图12所示，摄像头231的预览分辨率为1920x1080，图像的水平宽度：imgWidth＝1920；图像水平中心位置坐标x＝960；人像区域中心位置坐标为(x₀，y₀)水平中心位置坐标为x₀；水平视角为hfov；则人像区域和图像区域的中心距离：hd＝x–x₀，则摄像头231在水平方向上的旋转角度则按照下式可计算获得：

通过上式，可以计算出摄像头231需要进行调节的角度，控制器250再对人像区域中心位置与图像区域中心点的坐标数值进行比较，确定人像区域中心位置相对于图像区域中心点的方位，从而确定摄像头231的旋转方向。即，如果人像区域中心水平位置比图像中心大，则向右转动摄像头231；反之向左转动摄像头231。本申请实施例中，摄像头231可以采用后置摄像头模式，使得屏幕显示图像与摄像头拍摄图像是左右镜像关系，即水平角度旋转是左右相反的。

在确定旋转角度和方向以后，控制器250可以将旋转角度和方向数据进行封装，生成控制指令，并将控制指令发送给摄像头231。摄像头231中的电机可以在接收到控制指令后进行转动，从而通过转轴带动镜头组件转动，调整镜头组件的朝向。

需要说明的是，在上述实施例中，是以水平方向坐标为例进行判断、调整，实际应用中还可以通过比较人像区域中心位置与图像区域中心点位置之间的竖直方向差异，对镜头组件也进行同样的调整，具体的调整方法与水平方向的调整方法相同，即在确定当前用户位置不在预设区域内以后，控制器250可以先计算人像区域的中心位置和图像区域的中心点之间的竖直距离；再根据计算的竖直距离，结合摄像头231镜头组件的竖直方向最大视角以及图像尺寸计算获得旋转角度；最后将计算的旋转角度以控制指令的形式发送给摄像头231，使得摄像头231中电机带动第二转轴进行转动，从而调整镜头组件的朝向。

但在实际应用中，由于受到用户姿态的影响，以及不同应用程序中的需求不同，在部分应用场景下使用中心位置作为用户位置判断的方式并不能获得较好的显示、检测、跟踪效果。因此在一些实施例中，控制摄像头231旋转，以使用户成像位置位于画面中部区域还可以按照以下步骤进行。

在校对图像中检测第一识别点。

其中，第一识别点为识别出关键点中的一个或多个，用于表征用户的部分肢体位置。例如，第一识别点可以为2个眼睛点(或2个耳朵点)，用以表示用户的头部位置。通过在校对图像中匹配眼睛图案(或耳朵图案)所对应的区域，检测出当前图像中是否含有第一识别点，即是否含有眼睛点(或耳朵点)。

如果所述校对图像中不含有第一识别点，在所述校对图像中检测第二识别点。

第二识别点是与第一识别点间隔一定距离并且能够具有相对位置关系的关键点。例如，第二识别点可以为胸部点，由于在常规使用状态下，胸部点位于眼睛点的下方，并且胸部点与眼睛点之间间隔20-30cm的距离，因此可以通过对胸部点的检测确定需要调整的方向。

如果在所述校对图像中检测到所述第二识别点，则按照第二识别点与第一识别点的位置关系确定转动方向。

例如，当在校对图像中未检测到第一识别点，即眼睛点；而检测到第二识别点，即胸部点，则确定当前校对图像中，未能够显示完全用户的头部图像，需要将摄像头231向上抬起，以使人像头部进入图像的预设区域中。

显然，在实际应用中，根据第二识别点与第一识别点的相对方位不同，在校对图像中未检测到第一识别点，而检测到第二识别点时，所确定的旋转方向也是不同的。例如，第一识别点为腰部点，第二识别点为胸部点时，当未检测到腰部点而检测到胸部点，则说明拍摄的图像太靠人像的上半部，因此可以通过降低拍摄角度，使人像下半部进入图像的预设区域中。

按照所述旋转方向以及预设调节步长控制摄像头231转动，以使人像位于图像预设区域中。

例如，在眼部/耳部等关键点(第一识别点)没有检测到，而肩部等关键点(第二识别点)检测到时，可以上抬起摄像头231，使第一识别点位置每次调整100像素点，直到第一识别点处于1/7-1/5位置处。

如果校对图像中含有第一识别点，则获取第一识别点相对于图像区域所在的位置。

通过对校对图像中画面的识别，如果识别出第一识别点，则可以进一步对第一识别点所在的位置进行提取，从而确定第一识别点相对于在整个图像区域中所处的位置。例如，如图13a所示，在获得校对图像后，如果识别出眼睛点，即确定检测到第一识别点，则可以获取眼睛点当前坐标P(x₁，y₁)。再将当前坐标中的x轴坐标值和/或y轴坐标值与图像的整体宽度imgWidth和/或高度imgHeight进行对比，从而确定第一识别点相对于图像区域所在的位置。

其中，在水平方向和竖直方向两个方向上可以确定第一识别点相对于图像区域在两个方向上所在的位置。即水平方向上，所述第一识别点相对于图像区域所在的位置为x₁/imgWidth；在竖直方向上，所述第一识别点相对于图像区域所在的位置为y₁/imgHeight。

在获取第一识别点相对于图像区域所在的位置后，还可以对第一识别点对应位置所在区间进行判断，并根据所在的不同区间，确定不同的调整方式。

例如，如图13a所示，通过检测在竖直方向上，第一识别点相对于图像区域所在的位置时，检测到眼睛(或耳部)在图像画面高度的1/5之下，此时，眼睛位置过低，需要将摄像头231下压，以使眼睛位置升高至合适的区域内，在将摄像头231下压的过程中，如果检测到眼睛的点在图像画面的1/5位置处，则停止下压，完成摄像头231的调整，如图13b所示。当检测到眼睛(或耳部)位置在图像画面高度的1/7以下、1/5以上，则确定当前第一识别点位置合适，因此摄像头231的高度不需要进行调整，防止抖动造成摄像头频繁变动。

上述实施例通过图像识别相结合的方式，可以实现对摄像头231的朝向进行实时控制，实现对人像目标的追踪。显然，在实际应用中，还可以通过声源定位实现对人像目标的追踪。因此在本申请的部分实施例中，对人像目标的追踪可以采用声源定位与图像识别相结合的方式，对人像目标进行更加准确的定位。

例如，在运行部分运动幅度较大、动作较快的健身类应用时，可以预先通过统计等方式获得哪些时刻容易出现难于确定用户位置的特殊时段，并在这一时段中通过获取音频信号辅助判断用户所处的位置，并按照此时图像识别和音频定位两者的结果进行综合定位，以提高对人像目标进行追踪的准确率。

另外，在部分使用场景中，通过图像识别检测到的人像可能存在多个，这将对摄像头231的追踪过程造成影响。因此在本申请的部分实施例中，还可以通过锁定程序在多个人像中锁定一个人像进行追踪。例如，可以在屏幕中心一定区域内查找离屏幕中心最近人像，作为最优的人脸信息(中心屏幕大小1/3区域，出现次数最多)，从而记录该人物信息并进行锁定。而如果没有检测到人脸信息，说明声音信息误差较大，则锁定离屏幕最近的人物。

在锁定其中一个人像后，摄像头231的调节可以仅受到被锁定人物的位置影响。即摄像头231所拍摄图像内其他人的移动将不会调节摄像头231，摄像头231依然保持不动状态。只有锁定状态的人物移动，通过图像检测侦测到之后，驱动摄像头231跟随锁定人物进行转动。

由以上技术方案可知，显示设备200可以通过摄像头231获取校对图像，并在校对图像中检测人像图案，从而标记所述人像图案，以及在用户移动位置时向所述摄像头发送追踪指令，以追踪用户位置，实现摄像头231跟随用户移动的效果。通过对用户位置的追踪，可以使摄像头231拍摄的图像中，人像图案始终处于合适的位置中，便于应用进行显示、调用以及分析处理。

在一些实施例中，在标记所述人像图案的步骤中，如果所述校对图像中包括多个人像图案查找位于校对图像中心区域的人像图案；如果校对图像中心区域位置含有人像图案，标记处于图像中心区域的人像图案；如果校对图像中心区域位置不含有人像图案，标记校对图像中，面积最大的人像图案。

例如，控制器250可以实时查询摄像头231状态，如果摄像头231根据测试音频信号旋转结束，则启动AI图像检测算法。在屏幕中心一定区域内查找离屏幕中心位置的人脸信息，记录该人物信息并进行锁定。如果没有检测到人脸信息，说明声音信息误差较大，则锁定离屏幕最近的人物。

在一些实施例中，获取用户输入的测试音频信号之前，还可以先对摄像头231所拍摄的图像进行一次图像识别，确定当前摄像头231能否拍摄到带有人像的画面。如果从拍摄的图像中识别出具有人像，则无需通过声源定位，而直接通过后续图像处理进行目标追踪。即在启动摄像头231后，可以先获取用于识别人像的初始图像，并在初始图像中识别人像区域。人像区域是识别方法可以与上述实施例相同，即通过识别关键点的方式完成。

如果所述初始图像中含有人像区域，则直接执行检测用户位置以及后续步骤，通过图像处理的方式对人像目标进行追踪。如果所述初始图像中不含有人像区域，则通过执行获取用户输入的测试音频信号以及后续步骤，通过声源定位的方式调整摄像头231至朝向用户位置的区域，再执行检测用户位置以及后续步骤。

为了获得更加准确的人像位置判断，在一些实施例中，如图14a、图14b所示，识别出多个关键点以后，还可以根据识别出的关键点建立骨骼线示意图形，从而根据骨骼线图形进一步确定人像所在位置。其中，骨骼线可以通过连接多个关键点进行确定。在用户不同的姿态下，骨骼线所呈现的形状也不同。

需要说明的是，通过绘制的骨骼线还可以对根据骨骼线的运动变化规律来动态调整摄像头的拍摄位置。例如，在判断骨骼线运动状态变化过程为从蹲姿状态变化到站立状态，则可以抬高摄像头231的视角，以使处于站姿状态的人像也能够处于图像中的合适区域内，即从图14a过渡到图14b所示的效果。在判断骨骼线运动状态变化过程为从站立状态变化到蹲姿状态，这可以降低摄像头231的视角，以使处于蹲姿状态的人像也能够处于图像中的合适区域内，即从图14b过渡到图14a所示的效果。

上述实施例以人像位置处于图像中心为例说明摄像头231对人像的追踪，应当理解的是，根据实际需要，预想拍摄的图像中，人像位置可能位于中心区域以外的其他区域中。例如，如图15a所示，对于运动跟随类应用，显示设备200可以根据摄像头231拍摄的视频，渲染虚拟教练影像，从而使用户通过显示设备200观看到的场景音像中，包括用户人像和虚拟教练人像。此时，为了随场景渲染，需要摄像头231拍摄的人像位于图像的一侧，而另一侧用于渲染虚拟教练影像。

例如，如图15a、图15b所示，当通过校对图像确定当前人像位置位于图像中心区域时，同样需要向摄像头231发送旋转指令，使摄像头231旋转，以使人像位于图像的右侧区域。

由以上技术方案可知，相对于单纯通过图像处理以及单纯通过声源定位的人物追踪方式，本申请实施例提供的声像人物定位追踪方法可以改进声源定位精确度较低，无法有效定位人物具体位置的缺陷。以及图像处理空间感知较差，只能对摄像头231对准的拍摄区域进行定位的缺陷。所述声像人物定位追踪方法通过对声源定位和摄像头231图像分析进行综合利用，利用声源定位空间感知能力较强的优势，首先确认人物的大致位置，驱动摄像头231朝向声源方向。同时利用摄像头231图像分析精准度高的优点，对拍摄图像进行人物检测确定具体位置，驱动摄像头进行微调，以此达到精准定位，使摄像头231拍摄人物能够在图像中聚焦显示。

基于上述声像人物定位追踪方法，在一些实施例中，本申请还提供一种显示设备200，包括：显示器275、接口组件以及控制器250。

其中，所述显示器275被配置为显示用户界面，接口组件被配置为连接摄像头231和声音采集组件232，摄像头231可转动拍摄角度，被配置为拍摄图像；声音采集组件232包括多个麦克风组成的麦克风阵列，被配置为采集音频信号。

控制器250被配置为获取用户输入的测试音频信号，并响应于测试音频信号，定位目标方位，目标方位根据声音采集组件采集的测试音频信号时间差计算获得，从而向摄像头发送旋转指令，以调整摄像头的拍摄方向至面对目标方位。

在上述实施例中，可以通过接口组件外接摄像头231和声音采集组件232，并结合显示设备200完成上述声像人物定位追踪方法。在一些实施例中，还可以直接将摄像头231和声音采集组件232内置在显示设备200中，即显示设备200包括显示器275、摄像头231、声音采集组件232以及控制器250，其中，摄像头231、声音采集组件232可以直接连接控制器250，从而直接通过声音采集组件232获取测试音频信号，并直接控制摄像头231进行旋转，从而完成上述声像人物定位追踪方法。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

接口组件，被配置为连接摄像头和声音采集组件，所述摄像头可转动拍摄角度，被配置为拍摄图像；声音采集组件包括多个麦克风组成的麦克风阵列，被配置为采集音频信号；

控制器，被配置为：

当所述摄像头拍摄的图像中未包含人像时，启动获取用户输入的测试音频信号；

向所述摄像头发送旋转指令，以调整所述摄像头的拍摄方向至所述目标方位；

获取校对图像，直到所述摄像头拍摄的图像中包含人像图案，则停止获取用户再次输入的测试音频，以及，根据所述人像图案在所述校对图像中的位置生成追踪指令，所述人像图案在所述校对图像中的位置根据在所述校对图像中识别出的多个关键点建立的骨骼线图形确定；

在所述校对图像中检测人像图案，以及确定预设区域；其中，所述预设区域基于人像中心位置设置最大允许坐标误差；

如果人像图案在预设区域内时，保持摄像头的拍摄方向不变；

如果人像图案不在预设区域内时，响应于所述追踪指令，对摄像头的拍摄方向进行调整。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器执行获取校对图像，直到所述摄像头拍摄的图像中包含人像图案，被进一步配置为：

通过所述摄像头获取校对图像；

在所述校对图像中识别至少一个关键点，根据识别出的关键点建立骨骼线图形；

根据所述骨骼线图形确定人像位置，并标记所述人像位置，以及在用户移动位置时向所述摄像头发送追踪指令，根据所述人像位置调整所述摄像头的拍摄方向，以追踪用户位置。

3.根据权利要求2所述的显示设备，其特征在于，所述控制器执行在用户移动位置时向所述摄像头发送追踪指令，根据所述人像位置调整所述摄像头的拍摄方向，以追踪用户位置，被进一步配置为按照以下步骤追踪用户位置：

按照设定频率通过摄像头获取校对图像；

检测人像图案在所述校对图像中的位置；

如果所述人像图案不在预设区域内，根据人像图案位置生成追踪指令，所述追踪指令包括旋转方向和旋转角度；

向所述摄像头发送所述追踪指令。

4.根据权利要求2所述的显示设备，其特征在于，所述控制器执行标记所述人像位置的步骤中，如果所述校对图像中包括多个人像图案，被进一步配置为：

查找位于所述校对图像中心区域的人像图案；

如果所述校对图像中心区域位置含有所述人像图案，标记处于图像中心区域的人像图案对应的人像位置；

如果所述校对图像中心区域位置不含有所述人像图案，标记所述校对图像中，面积最大的人像图案对应的人像位置。

5.根据权利要求1所述的显示设备，其特征在于，所述控制器执行向所述摄像头发送旋转指令，被进一步配置为：

通过所述摄像头获取初始图像；

在初始图像中识别人像图案；

如果所述初始图像中含有所述人像图案，则向所述摄像头发送旋转指令；

如果所述初始图像中不含有所述人像图案，则获取用户再次输入的用于执行人物定位的测试音频信号。

6.根据权利要求1所述的显示设备，其特征在于，所述控制器执行如果人像图案不在预设区域内时，响应于所述追踪指令，对摄像头的拍摄方向进行调整，被进一步配置为：

获取多帧校对图像中的骨骼线图形；

根据所述骨骼线图形识别用户运动状态；

根据多帧校对图像对应的运动状态计算运动变化规律，以及按照所述运动变化规律动态调整所述摄像头的拍摄方向。

7.根据权利要求1所述的显示设备，其特征在于，所述控制器执行当所述摄像头拍摄的图像中未包含人像时，启动获取用户输入的测试音频信号，被进一步配置为：

通过所述声音采集组件获取声音信号；

从所述声音信号中提取声纹信息；

对比所述声纹信息与预设测试声纹；

如果所述声纹信息与预设测试声纹相同，标记所述声音信号为测试音频信号；

如果所述声纹信息与预设测试声纹不同，控制所述显示器显示提示界面。

8.根据权利要求1所述的显示设备，其特征在于，所述控制器执行向所述摄像头发送旋转指令，被进一步配置为：

获取校对图像，以及在所述校对图像中检测用户位置；

对比人像位置与预设判断区域；

如果所述人像位置位于所述预设判断区域内，控制显示器实时显示所述摄像头拍摄的图像；

如果所述人像位置位于所述预设判断区域外，计算所述人像位置与所述预设判断区域中心的坐标差；

根据所述坐标差生成旋转指令，以及向所述摄像头发送所述旋转指令。

9.一种显示设备，其特征在于，包括：

显示器；

摄像头，所述摄像头可转动拍摄角度，被配置为拍摄图像；

声音采集组件，包括多个麦克风组成的麦克风阵列，被配置为采集音频信号；

控制器，被配置为：

10.一种声像人物定位追踪方法，其特征在于，应用于显示设备，所述显示设备包括显示器和控制器，所述显示设备内置或通过接口组件外接摄像头和声音采集组件，所述摄像头可转动拍摄角度，所述声像人物定位追踪方法包括：